Anál de ere temporale Fernando Berzal, berzal@acm.org Anál de ere temporale Caracterítca de la ere temporale Vualzacón de ere temporale Fltrado de ere temporale Meda móvle Suavzado exponencal Técnca de regreón Regreón lneal Coefcente de correlacón de Pearon Funcón de autocorrelacón Cao práctco: Una eón de anál 1
Caracterítca Tendenca Etaconaldad (comportamento peródco) Rudo Otro, p.ej. cambo bruco de comportamento 2 Ejemplo Tendenca y etaconaldad Concentracón de CO 2 medda en el obervatoro de Mauna Loa, Hawa. 3
Ejemplo Varacón uave pero n tendenca a largo plazo Concentracón de ga a la alda de una caldera 4 Ejemplo Tendenca no lneal Cote de llamada telefónca de larga dtanca (USA) 5
Ejemplo Cambo bruco de comportamento Índce Nkke (Bola de Tokyo) 6 Ejemplo Conjunto de dato reale Etaconaldad a corto y largo plazo, poble cambo de comportamento y rudo Llamada dara a un call-center center 7
Vualzacón Número anual de mancha olare durante 300 año Una relacón de apecto ncorrecta hace dfícl reconocer lo detalle de cada cclo. 8 Vualzacón Bankng [Bankng to 45 degree] Lo cambo ca vertcale de la fgura anteror no cueta trabajo aprecarlo. Sn embargo, reconocemo mejor lo cambo en una ere cuando e dbujan con un ángulo de 45º: Ahora podemo aprecar que la ubda on má rápda que la bajada, aunque la fgura e tan pequeña que apena e pueden analzar detalle 9
Vualzacón Stackng Dvdendo el eje temporal en 3 fragmento, mantenemo el bankng y generar un gráfco con una dmenone má razonable (p.ej. 4:3). 10 Fltrado de ere temporale Meda móvle [movng average] IDEA: Reemplazar el punto central de una ere de un número mpar de número conecutvo por u meda artmétca (fltro pao bajo ). = 1 x + j 2k+ 1 j= k k 11
Fltrado de ere temporale Meda móvle [movng average] PROBLEMA: La preenca de un pco en la ventana [-k, +k] dtorona la meda móvl. POSIBLE SOLUCIÓN: Utlzacón de peo (menore en lo extremo de la ventana). k k w jx+ j donde wj = j= k j= k = 1 Ejemplo: Gauana, ventana de Hammng http://en.wkpeda.org/wk/wndow_functon#hann_wndow 12 Fltrado de ere temporale Meda móvle [movng average] k=5 13
Fltrado de ere temporale Meda móvle [movng average] Lmtacone de la meda móvle: Cotoa de calcular: Cuando e utlzan peo, el cálculo hay que hacerlo dede cero para cada valor. Problemátca en lo extremo de la ere de dato (dada la anchura de la ventana, no e pueden extender hata el fnal de la ere, que uele er lo má ntereante). No e pueden defnr fuera de la ere temporal, por lo que no e pueden utlzar para realzar predccone. 14 Fltrado de ere temporale Suavzado exponencal [exponental moothng] Proporcona un fltrado fácl de calcular, ademá evta lo problema de la meda móvle: Suavzado exponencal mple (para ere n tendenca n etaconaldad). Suavzado exponencal doble (para ere con tendenca pero no etaconaldad). Suavzado exponencal trple (para ere con tendenca y etaconaldad). 15
Fltrado de ere temporale Suavzado exponencal mple = αx + ( 1 α) 1 Lo dtnto método de uavzado exponencal actualzan el reultado del anteror valor con el últmo dato de la ere orgnal (combnando la nformacón ya dponble con la aportada por el nuevo dato medante un parámetro, 0<α<1). 16 Fltrado de ere temporale Suavzado exponencal mple Por qué e llama uavzado exponencal? S expandmo la recurrenca, obtenemo: = α ( 1 α) j= 0 j Toda la obervacone preva contrbuyen al valor uavzado, pero u contrbucón e uprme por el exponente crecente del parámetro α. j x 17
Fltrado de ere temporale Suavzado exponencal mple Uo en predccón: S extendemo el uavzado má allá del fnal de lo dato dponble, la predccón e extremadamente mple :-( x = + h Ante la preenca de tendenca, la eñal uavzada tene r retraada con repecto a lo dato orgnale alvo que utlcemo un valor de α cercano a 1. 18 Fltrado de ere temporale Suavzado exponencal doble t = αx = β( + (1 α)( 1 + t ) + (1 β) t 1 1 11 ) El uavzado exponencal doble retene nformacón acerca de la tendenca: la eñal uavzada y la tendenca uavzada t. El parámetro β e utlza para realzar un uavzado exponencal obre la tendenca. 19
Fltrado de ere temporale Suavzado exponencal doble Uo en predccón: S extendemo el uavzado má allá del fnal de lo dato dponble, la predccón e la guente: x = + + h ht 20 Fltrado de ere temporale Suavzado exponencal trple (a.k.a. método de Holt-Wnter Wnter) Una tercera cantdad e utlza para decrbr la etaconaldad, que puede er adtva o multplcatva egún no nteree. NOTA: p modela el componente peródco de la eñal, donde k e el período obervado. 21
Fltrado de ere temporale Suavzado exponencal trple (a.k.a. método de Holt-Wnter Wnter) ESTACIONALIDAD ADITIVA = α( x p ) + (1 α )( + t ) t p x = β( + h = γ( x = + k 1 ht ) + (1 β) t ) + (1 γ) p + p k+ h 1 k 1 1 22 Fltrado de ere temporale Suavzado exponencal trple (a.k.a. método de Holt-Wnter Wnter) ESTACIONALIDAD MULTIPLICATIVA t p x x = α + (1 α )( 1 + t 1 ) p k = β( + h x = γ = ( 1 + (1 γ) p + ht ) + (1 β) t ) p k k+ h 1 23
Fltrado de ere temporale Suavzado exponencal [exponental moothng] Número menual de paajero (en mle). 24 Técnca de regreón La predccón (numérca) e Smlar a la clafcacón: Se contruye un modelo a partr de un conjunto de entrenamento. Se utlza el modelo para predecr el valor de una varable (contnua u ordenada). Dferente a la clafcacón: El modelo defne una funcón contnua. Método má empleado: Regreón 25
Técnca de regreón La técnca de regreón modelan la relacón entre una o má varable ndependente (predctore) y una varable dependente (varable de repueta). Método de regreón Regreón lneal Regreón no lneal Árbole de regreón (p.ej. CART) 26 Técnca de regreón Regreón lneal mple Una únca varable ndependente: y = w 0 + w 1 x donde w 0 (deplazamento deplazamento) y w 1 (pendente pendente) on lo coefcente de regreón. Método de lo mínmo cuadrado (etma la línea recta que mejor e ajuta a lo dato): w = y wx 0 1 w D ( x = 1 = D 1 = 1 x)( y ( x x) y) 2 27
Técnca de regreón Regreón lneal mple 28 Técnca de regreón Regreón lneal mple El método de lo mínmo cuadrado mnmza la uma de lo cuadrado de lo reduo ε (la dferenca entre la predccone y lo valore obervado). 29
Técnca de regreón Regreón lneal mple OJO! Al utlzar regreón lneal, la recta y=f(x) que e obtene e dtnta a la que obtenemo x=f(y). 30 Técnca de regreón Regreón lneal múltple Vara varable ndependente: y = w 0 + w 1 x 1 + w 2 x 2 + Reoluble por método numérco de optmzacón. Mucha funcone no lneale pueden tranformare en una expreón lneal. p.ej. Un modelo de regreón polnomal y = w 0 + w 1 x + w 2 x 2 + w 3 x 3 puede tranformare en un modelo lneal defnendo la varable x 2 = x 2, x 3 = x 3 : y = w 0 + w 1 x + w 2 x 2 + w 3 x 3 31
Técnca de regreón Regreón lneal Condcone neceara para aplcar regreón lneal: Obvamente, la muetra ha de er aleatora. El tpo de dependenca decrta ha de er lneal. Fjado un valor de la() varable() ndependente(), la varable dependente e dtrbuye egún una dtrbucón normal. Lo errore han de tener la mma varanza (nube de punto homogénea). 32 Técnca de regreón Regreón lneal mple 1. Medante un dagrama de dperón, comprobamo vualmente exte una relacón lneal entre la varable X (predctor predctor) e Y (repueta): 33
Técnca de regreón Regreón lneal mple 2. Cuantfcamo la relacón contruyendo la recta que reume la dependenca y damo una medda de cómo e ajuta la recta a lo dato (correlacón): 34 Técnca de regreón Coefcente de correlacón r=+1 r=-1 Dependenca lneal total en entdo potvo (cuanto mayor e X, mayor e Y). Dependenca lneal total en entdo negatvo (cuanto mayor e X, menor e Y ). 35
Técnca de regreón Coefcente de correlacón r > 0 r < 0 r = 0 Exte una dependenca potva. Cuanto má e acerque a 1, mayor e éta. Exte una dependenca negatva. Cuanto má e acerque a -1, mayor erá. No podemo afrmar nada. 36 Técnca de regreón Coefcente de correlacón 37
Técnca de regreón Coefcente de correlacón 38 Técnca de regreón Coefcente de correlacón El cuarteto de Ancombe (4 conjunto de dato con el mmo coefcente de correlacón) 39
Técnca de regreón Coefcente de correlacón Ventaja de r No depende de la undade uada en la medcón. Lmtacone de r Sólo mde dependenca lneal entre la varable. OJO! La correlacón no mplca caualdad 40 Técnca de regreón Coefcente de correlacón "Correlaton not cauaton but t ure a hnt." -- Edward Tufte 41
Funcón de autocorrelacón k ( x µ )( x+ k µ ) = 1 1 con = 2 ( x µ ) = 1 1 1 c ( k ) = µ = 1 x 42 Funcón de autocorrelacón Autocorrelacón para la alda de ga de una caldera 43
Funcón de autocorrelacón Autocorrelacón en la llamada a un call-center center 44 Cao práctco Conjunto de dato Medcone de CO 2 en Mauna Loa (Hawa Hawa) Adaptado de Phlpp K. Jannert: Intermezzo: A Data Analy Seon [capítulo 6] 45
Cao práctco A partr de la medcone menuale (1959-1991), 1991), elmnamo la fecha del eje X y hacemo que la ere empece de cero: 46 Cao práctco Tendenca: : Aprecamo una tendenca no lneal: Intentamo ajutarla con una funcón de la forma x k Nota: Toda la curva de ee tpo paan por (0,0) y (1,1) Con k=2, tenemo 35*(x/350)^2, pero parece que no hemo paado 47
Cao práctco Afnamo un poco má y uamo un valor menor: OK! k=1.35 Ajute de la funcón f(x) = 35*(x/350)^1.35 48 Cao práctco Para comprobar que no vamo mal, calculamo lo reduo (valor orgnal aproxmacón): Reduo del ajute f(x) = 35*(x/350)^1.35 49
Cao práctco S nuetro ajute de la tendenca e correcto, lo reduo no deben exhbr tendenca alguna (deberían aparecer balanceado en torno a y=0): Suavzamo lo reduo para comprobar aún exte algún tpo de tendenca en lo reduo 50 Cao práctco Etaconaldad: Aprecamo una perodcdad anual (cada 12 valore) Ajutamo con una funcón enodad 3*n(2*p*x/12) 51
Cao práctco Calculamo lo reduo tra nuetra aproxmacone (valor orgnal tendenca etaconaldad) 52 Cao práctco En la fgura anteror no e ve mucho hacemo zoom: Se gue aprecando certa perodcdad, por lo que uamo un egundo armónco -0.75*n(2*p*x/6) 53
Cao práctco Reduo tra elmnar la tendenca y lo do prmero armónco correpondente a la etaconaldad: 54 Cao práctco Añadmo línea que no ayuden a ver lo reduo etán egado: Parece egado haca arrba, por lo que añadmo un deplazamento de +0.1 55
Cao práctco Lo reduo de nuetra aproxmacón fnal: f(x) = 315 + 35*(x/350)**1.35 + 3*n(2*p*x/12) 0.75*n(2*p*x/6) + 0.1 56 Cao práctco El ajute que hemo realzado (1959-1990): 1990): 57
Cao práctco Nuetra predccón del futuro (1991-2010) 58 Má técnca de anál Forecatng http://en.wkpeda.org/wk/forecatng 59
Bblografía Jawe Han & Mchelne Kamber: Data Mnng: Concept and Technque [8.2] Morgan Kaufmann, 2006. ISBN 1558609016 Phlpp K. Janert: Data Analy wth Open Source Tool [Part I] O Relly, 2010. ISBN 0596802358 60