Estimación de la densidad

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Estimación de la densidad"

Transcripción

1 23 de marzo de 2009

2 : histograma Si suponemos que F tiene función de densidad f puede ser útil estimarla. Un estimador muy utilizado es el histograma. Dado un origen x 0 y un ancho h > 0 el histograma es una densidad constante en intervalos de la forma {[x 0 + hm, x 0 + h(m + 1)) : m Z}. Dada una muestra aleatoria X 1,..., X n, Cuánto debe valer el estimador en [x 0 + hm, x 0 + h(m + 1))?

3 Histograma El estimador natural de la probabilidad del intervalo [x m, x m+1 ) (donde x k = x 0 + kh) es 1 n n I (X i [x m, x m+1 )) i=1 Si denotamos por ˆf n,h al histograma entonces la probabilidad del intervalo [x m, x m+1 ) también se podría estimar xm+1 x m ˆf n,h (u)du = f m h, donde f m es el valor de f n,h en el intervalo [x m, x m+1 ). Igualando ambas estimaciones obtenemos el valor de f m f m = 1 n I (X i [x m, x m+1 )) nh i=1

4 Histograma: Ejemplo (I) Los datos que vamos a analizar fueron analizados en Azzalini y Bowman (1990), ( Applied Smoothing Techniques for Data Analysis ) quienes registraron el tiempo (en minutos) que dura una erupción del geyser Old Faithful que se encuentra en el parque nacional de Yellowstone (Wyoming, USA). Las medidas (272 erupciones en total) fueron tomadas entre el 1 y el 15 de Agosto de Figura: El geyser Old Faith en plena erupción

5 Histograma: Ejemplo (II) h= 0.1 h= 0.5 Density Density x x h= 1 h= 0.03 Density Density x Figura: Histograma para 4 valores diferentes de h x

6 Inconvenientes del Histograma: influencia de x 0 Depende en exceso de x 0

7 Inconvenientes del Histograma: influencia de x 0 Depende en exceso de x 0 Histogram of x Histogram of x Density Density Figura: Histograma de x una muestra de una población uniforme x en 0,1 para dos valores diferentes de x 0

8 Ejercicios Ejercicio 1 Sea X 1,..., X n una muestra aleatoria de una distribución uniforme 0,1. Fijemos h = 0.5 y consideremos dos posibles valores de x 0 x 0 = 0 x 0 = 0.25 Calcula el sesgo de ˆf n,h (0) como estimador de f (0) = 1 para cada valor propuesto de x 0

9 Ejercicios Ejercicio 1 Sea X 1,..., X n una muestra aleatoria de una distribución uniforme 0,1. Fijemos h = 0.5 y consideremos dos posibles valores de x 0 x 0 = 0 x 0 = 0.25 Calcula el sesgo de ˆf n,h (0) como estimador de f (0) = 1 para cada valor propuesto de x 0 Ejercicio 2 Calcula la media de una variable X que tenga por densidad ˆf n,h.

10 El estimador Naive: Definición Una alternativa para evitar la influencia en el estimador de x 0 es utilizar una especie de Histograma Móvil de forma que cada x sea el centro del intervalo utilizado para construir el estimador. Ejercicio Deducir para cada x cómo se debería definir un Histograma Móvil, ˆf n,n (x) si se utilizan intervalos de la forma (x h, x + h)

11 El estimador Naive: Definición Una alternativa para evitar la influencia en el estimador de x 0 es utilizar una especie de Histograma Móvil de forma que cada x sea el centro del intervalo utilizado para construir el estimador. Ejercicio Deducir para cada x cómo se debería definir un Histograma Móvil, ˆf n,n (x) si se utilizan intervalos de la forma (x h, x + h) Solución n i=1 ˆf n,n (x) = I(x h < X i < x + h) 2nh A este estimador se le denomina.

12 : Motivación El también se puede motivar a través de la propia definición de la función de densidad. Como f (x) = F (x) entonces F (x + h) F (x) F (x) F (x h) f (x) = ĺım, f (x) = ĺım, h 0 + h h 0 + h y, por tanto, F (x + h) F (x h) P(x h < X < x + h) f (x) = ĺım = ĺım. h 0 + 2h h 0 + 2h Eligiendo h pequeño obtenemos el sustituyendo P(x h < X < x + h) por su estimación natural ˆf n,n (x) = n i=1 I(x h < X i < x + h) 2nh

13 : Interpretación (I) La definición de ˆf n,n (x) es equivalente a colocar cajas de ancho 2h y altura 1/2nh centradas en cada observación muestral X i y estimar f (x) mediante la suma de las alturas de las cajas que contienen a x

14 : Interpretación (II) Ejercicio Sea I una variable aleatoria uniforme en {1,..., n}, es decir, P(I = i) = 1, i = 1,..., n. n Si Y i tiene distribución uniforme en (X i h, X i + h) demostrar que la densidad de X = Y I es el, ˆf n,n. Calcula la media y la varianza de X.

15 : Ejemplo A continuación se muestra el para cuatro valores diferentes de h para los datos del géiser Old Faithful presentados anteriormente. Nótese que el estimador es discontinuo en los puntos X i ± h., h= 2, h= 0.5 Density Density N = 299 Bandwidth = N = 299 Bandwidth = 0.5, h= 0.15, h= 0.03 Density Density N = 299 Bandwidth = N = 299 Bandwidth = 0.03

16 El parámetro ventana h El parámetro h juega un papel clave en el comportamiento del. A modo de ejemplo mostramos, para dos valores de h diferentes (h = 1 y h = 0.2), el construido a partir de 10 muestras diferentes de tamaño 200 de la normal estándar. h= 1 h= 0.2 dnorm(seq( 3, 3, 0.05)) dnorm(seq( 3, 3, 0.05)) seq( 3, 3, 0.05) seq( 3, 3, 0.05)

17 : Error Cuadrático Medio Para un punto x fijo, ˆf n,n (x) es una variable aleatoria. Para medir su calidad como estimador de f (x) podemos utilizar, como es habitual, el Error Cuadrático Medio MSE(x) = E(ˆf n,n (x) f (x)) 2, que, como sabemos, se puede descomponer en sesgo al cuadrado más varianza MSE(x) = (E(ˆf n,n (x)) f (x)) 2 + Varˆf n,n (x)

18 : Ejercicios Ejercicio 1 Supongamos que f es continua en x. Prueba que si h 0 entonces E(ˆf n,n (x)) f (x).

19 : Ejercicios Ejercicio 1 Supongamos que f es continua en x. Prueba que si h 0 entonces E(ˆf n,n (x)) f (x). Prueba que si nh entonces Varˆf n,n (x) 0

20 : Ejercicios Ejercicio 1 Supongamos que f es continua en x. Prueba que si h 0 entonces E(ˆf n,n (x)) f (x). Prueba que si nh entonces Varˆf n,n (x) 0 Ejercicio 2 Sea f la densidad de la exponencial de parámetro uno { e x si x 0 f (x) = 0 en otro caso. Prueba que ĺım h 0 E(ˆf n,n (0)) = 1 2

21 : Ejercicios Ejercicio 3 Probar que si F es continua en un entorno de x entonces para h suficientemente pequeño Eˆf n,n (x) = Varˆf n,n (x) = F (x + h) F (x h) 2h F (x + h) F (x h) 4nh 2 (F (x + h) F (x h))2 4nh 2

22 Sesgo asintótico del (I) Supongamos que Existe la derivada segunda de f f es continua

23 Sesgo asintótico del (I) Supongamos que Existe la derivada segunda de f f es continua Por el Teorema de Taylor, para h > 0 existe ξ h en el intervalo (x, x + h) y γ h en (x h, x) verificando que F (x + h) = F (x) + hf (x) + h2 2 f (x) + h3 3! f (ξ h ) F (x h) = F (x) hf (x) + h2 2 f (x) h3 3! f (γ h ),

24 Sesgo asintótico del (I) Supongamos que Existe la derivada segunda de f f es continua Por el Teorema de Taylor, para h > 0 existe ξ h en el intervalo (x, x + h) y γ h en (x h, x) verificando que Así Eˆf n,n (x) = F (x + h) = F (x) + hf (x) + h2 2 f (x) + h3 3! f (ξ h ) F (x h) = F (x) hf (x) + h2 2 f (x) h3 3! f (γ h ), F (x + h) F (x h) 2h = f (x) + h2 3! ( f (ξ h ) + f (γ h ) 2 ).

25 Sesgo asintótico del (II) Si h 0 tendremos que Eˆf n,n (x) = f (x) + h2 f (x) 6 + o(h 2 ).

26 Sesgo asintótico del (II) Si h 0 tendremos que Eˆf n,n (x) = f (x) + h2 f (x) 6 + o(h 2 ). En los mínimos de f el tenderá a sobreestimar f porque f > 0. En los máximos de f el tenderá a infraestimar f porque f < 0. h= 0.5 dnormix(mw.nm6, x)$y Media del estimador Densidad dnormix(mw.nm6, x)$x

27 Error cuadrático medio asintótico del estimador Naive (I) Ejercicio 1 Demostrar que si nh entonces Varˆf n,n (x) = f (x) 2nh + o ( (nh) 1)

28 Error cuadrático medio asintótico del estimador Naive (I) Ejercicio 1 Demostrar que si nh entonces Varˆf n,n (x) = f (x) 2nh + o ( (nh) 1) Ejercicio 2 Demostrar que si h 0 y nh entonces MSE(x) = f (x) 2nh + h4 (f (x)) 2 + o ( h 4 + (nh) 1) 36 Definición Se define el error cuadrático medio asintótico en el punto x como AMSE(x) = f (x) 2nh + h4 (f (x)) 2 36

29 Error cuadrático medio asintótico del estimador Naive (II) Ejercicio Demuestra que si f (x) 0 entonces el valor de h que minimiza el AMSE viene dado por la expresión h AMSE (x) = ( 9f (x) ) 1 5 2n(f (x)) 2

30 Error cuadrático medio asintótico del estimador Naive (II) Ejercicio Demuestra que si f (x) 0 entonces el valor de h que minimiza el AMSE viene dado por la expresión h AMSE (x) = ( 9f (x) ) 1 5 2n(f (x)) 2 Ejercicio Demuestra que si f (x) 0 entonces ínf AMSE(x) = c(f h>0 (x))4/5 (f (x)) 2/5 n 4/5, donde c es una constante que no depende de x ni de n.

31 Criterios de error globales: MISE Tal como muestran los ejercicios anteriores el error cuadrático medio en cada punto no da un criterio para elegir una ventana h buena para todos los x. Para ello sería conveniente disponer de un criterio de error global que mida la calidad de ˆf n,n como estimador f.

32 Criterios de error globales: MISE Tal como muestran los ejercicios anteriores el error cuadrático medio en cada punto no da un criterio para elegir una ventana h buena para todos los x. Para ello sería conveniente disponer de un criterio de error global que mida la calidad de ˆf n,n como estimador f. Un criterio de error global frecuentemente utilizado es el error cuadrático medio integrado MISE(h) = E (f n,n (x) f (x)) 2 s, que, intercambiando la esperanza con la integral, no es más que un promedio de los errores cuadráticos medios en cada punto MISE(h) = MSE(x)dx.

33 Criterios de error globales: MIAE El error cuadrático medio es el criterio de error más utilizado. Sin embargo no es el único criterio de error empleado. Es tanto o más razonable emplear la distancia L 1 para medir la distancia entre ˆf n,n y f. Promediando esta distancia L 1 se obtiene el error absoluto integrado medio MIAE(h) = E ˆf n,n (x) f (x) dx.

34 Criterios de error globales: MIAE El error cuadrático medio es el criterio de error más utilizado. Sin embargo no es el único criterio de error empleado. Es tanto o más razonable emplear la distancia L 1 para medir la distancia entre ˆf n,n y f. Promediando esta distancia L 1 se obtiene el error absoluto integrado medio MIAE(h) = E ˆf n,n (x) f (x) dx. Ejercicio Sean X e Y dos variables aleatorias con funciones de densidad f y g. Para a > 0 sean f a, g a las densidades de ax y ay respectivamente. Probar que f a (x) g a (x) = f (x) g(x) dx Verifica esta propiedad la distancia L 2 entre densidades?

35 Aproximación asintótica de MISE del Si además de suponer que f existe y es continua suponemos que R(f ) = (f (x)) 2 dx < entonces, integrando el MSE(x), obtenemos la expresión asintótica del MISE del MISE(h) = 1 2nh + h4 36 R(f ) + o(h 4 + (nh) 1 ) Se define el MISE asintótico como AMISE(h) = 1 2nh + h4 36 R(f ),

36 AMISE del : Ejercicios (I) Ejercicios Prueba que el parámetro que minimiza el AMISE es y que ( ) 9 1/5 h AMISE = 2nR(f, ) ínf h>0 AMISE(h) = 5 4 [ R(f ] ) 1/5 n 4/5 144

37 AMISE del : Ejercicios (I) Ejercicios Prueba que el parámetro que minimiza el AMISE es y que ( ) 9 1/5 h AMISE = 2nR(f, ) ínf h>0 AMISE(h) = 5 4 [ R(f ] ) 1/5 n 4/5 144 Ejercicio Sea X una variable con densidad f. Si h AMISE,a,c, denota la ventana AMISE de f a,c donde f a,c es la densidad de ax + c prueba h AMISE,a,c = ah AMISE, a > 0, c R donde h AMISE es la ventana AMISE de f.

38 AMISE del : Ejercicios (II) Ejercicio Prueba que si f es la densidad de la normal estándar entonces R(f ) = 3 8 π Ejercicio Prueba que si f es la densidad de la normal estándar entonces ( ) 1/5 12 π h AMISE = n Ejercicio Prueba que si f es la densidad de una normal con media µ y desviación típica σ entonces ( ) 1/5 12 π h AMISE = σ n