ESTADÍSTICA I Tema 3: Estimación puntual paramétrica

Documentos relacionados
Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Introducción a la Inferencia Estadística

Variables aleatorias continuas, TCL y Esperanza Condicional

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Probabilidad II Algunas distribuciones notables. Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid

Teorema Central del Límite (1)

Esperanza condicionada Apuntes de clase Probabilidad II (grupos 31 y 40) Curso

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Definición Una hipótesis es una afirmación acerca de un parámetro.

( ) DISTRIBUCIÓN UNIFORME (o rectangular) 1 b a. para x > b DISTRIBUCIÓN DE CAUCHY. x ) DISTRIBUCIÓN EXPONENCIAL. α α 2 DISTRIBUCIÓN DE LAPLACE

TEMA 2: Estimadores y distribuciones en el muestreo. Alfredo García Hiernaux. Grupos 69 y 73 Estadística I. Curso 2006/07

Tema 6: Modelos de probabilidad.

Tema 8: Contraste de hipótesis

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

INFERENCIA ESTADÍSTICA Notas de clase. Profesores: A. Leonardo Bañuelos S. Nayelli Manzanarez Gómez

Muestreo de variables aleatorias

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

Estimador de Máxima Verosimilitud

8. Estimación puntual

Unidad Temática 3: Probabilidad y Variables Aleatorias

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

Unidad 1: Espacio de Probabilidad

Kolmogorov y la teoría de la la probabilidad. David Nualart. Academia de Ciencias y Universidad de Barcelona

Estimaciones puntuales. Estadística II

EST Propiedades de los estimadores

Tema 9: Contraste de hipótesis.

Teoremas de Convergencia

Estimación de Máxima Verosimilitud Utilizando la Función optim en R

ESTADÍSTICA I Tema 5: Contraste de hipótesis

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

Tema 2 Resolución de EcuacionesNo Lineales

Límites y Continuidad

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

1 Método de la bisección. 1.1 Teorema de Bolzano Teorema 1.1 (Bolzano) Contenido

Función diferenciable Regla de la cadena (2 variables) Regla de la cadena (vectorial) Diferenciabilidad

CONTRASTE DE HIPÓTESIS

Semana 09 [1/28] Sucesiones. 29 de abril de Sucesiones

DEFINICIONES BÁSICAS

Funciones de Una Variable Real I. Derivadas

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

T2. El modelo lineal simple

Derivada de la función compuesta. Regla de la cadena

Objetivos. 1. Variable Aleatoria y Función de Probabilidad. Tema 4: Variables aleatorias discretas Denición de Variable aleatoria

Tema 4: Probabilidad y Teoría de Muestras

Tema 8. Fundamentos de Análisis discriminante

Derivada y diferencial

Teoría de la Probabilidad Tema 2: Teorema de Extensión


PRÁCTICA I. Ejercicios Teóricos

Tema 3: Función de Variable Aleatoria y Teoremas Asintóticos

La reordenación aleatoria de un conjunto finito

1. Ejercicios. 2 a parte

MLG Ana M. Bianco FCEyN

Econometría II Grado en finanzas y contabilidad

NOTACIÓN O GRANDE. El análisis de algoritmos estima el consumo de recursos de un algoritmo.

Problemas de VC para EDVC elaborados por C. Mora, Tema 4

CONTINUIDAD DE FUNCIONES. SECCIONES A. Definición de función continua. B. Propiedades de las funciones continuas. C. Ejercicios propuestos.

Tema 5. Muestreo y distribuciones muestrales

si existe un entorno V de a contenido en A, tal que la diferencia f(x) f(a) no cambia de signo cuando x V :

CUERPO TÉCNICO, OPCION ESTADISTICA

Teorema de Bayes(6) Nos interesan las probabilidades a posteriori o probabilidades originales de las partes p i :

Conceptos Básicos de Inferencia

Tema 13: Distribuciones de probabilidad. Estadística

El momento k-ésimo para una variable aleatoria discreta respecto del origen, es. n = esperanza matemática de X

ESTADÍSTICA. Tema 4 Regresión lineal simple

478 Índice alfabético

Análisis Estadístico de Datos Climáticos. Distribuciones paramétricas de probabilidad (Wilks, cap. 4)

Tema 2: Estimación puntual

INFERENCIA ESTADISTICA

Funciones de Clase C 1

(a, 0) + (b, 0) = (a + b, 0), (a, 0) (b, 0) = (ab, 0),

Modelos de distribuciones discretas y continuas

10. Series de potencias

Resumen de Análisis Matemático IV

El Teorema de Recurrencia de Poincaré

INTRO. LÍMITES DE SUCESIONES

Variables aleatorias

ANÁLISIS DE FRECUENCIAS

Examen de Matemáticas Aplicadas a las CC. Sociales II (Junio 2015) Selectividad-Opción A Tiempo: 90 minutos

DERIV. DE UNA FUNC. EN UN PUNTO

Cota Inferior de Cramer Rao

Resumen teórico de los principales conceptos estadísticos

Técnicas Cuantitativas para el Management y los Negocios I

Derivadas Parciales de Orden Superior

Examen de Matemáticas Aplicadas a las CC. Sociales II (Junio 2007) Selectividad-Opción A Tiempo: 90 minutos

Grupo 23 Semestre Segundo examen parcial

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

El Teorema de la Convergencia Dominada

Cap. 5 : Distribuciones muestrales

Espacios topológicos. 3.1 Espacio topológico

Probabilidad y Estadística

Distribuciones de probabilidad bidimensionales o conjuntas

Determinación del tamaño de muestra (para una sola muestra)

Distribuciones de probabilidad

Transcripción:

ESTADÍSTICA I Tema 3: Estimación puntual paramétrica Planteamiento del problema Estimadores. Concepto, error cuadrático medio y propiedades deseables Construcción de estimadores: el método de máxima verosimilitud La información de Fisher. Estimadores eficientes. Eficiencia asintótica de los e.m.v. Construcción de estimadores: el método de los momentos La metodología bayesiana Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 1

Planteamiento del problema Se supone que la muestra X 1,..., X n está tomada de una distribución absolutamente continua (resp. discreta) con función de densidad (resp. con función de probabilidad) f (.; θ) que es totalmente conocida excepto por el valor de un parámetro θ del cual se conoce sólo su rango de posibles valores, denotado por Θ (Antonio utiliza también la notación T). El conjunto Θ recibe el nombre de espacio paramétrico. En lo sucesivo, a menos que se advierta lo contrario, supondremos que Θ R, aunque una parte importante de los conceptos y de los resultados se aplica también al caso Θ R k. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 2

El problema consiste en estimar (o aproximar) el valor desconocido de θ. Esto se hace mediante un estimador que es una función medible T n (X 1,..., X n ) (o, más bien, una sucesión {T n } de funciones medibles) de los valores muestrales. Se trata por tanto de determinar qué se entiende por una buena estimación; estudiar las propiedades de estos estimadores; ofrecer algún procedimiento general para construir estimadores; mostrar algunos ejemplos de especial interés. En términos muy generales, los puntos anteriores constituyen el objeto de la estimación paramétrica. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 3

Estimadores Sean X 1,..., X n v.a.i.i.d. con distribución común caracterizada por la función de densidad (resp. de masa) f ( ; θ), donde θ es un parámetro desconocido, del que sólo se sabe que pertenece al espacio paramétrico Θ R. Un estimador es una función medible T n (X 1,..., X n ) que se utiliza para estimar o aproximar el valor de θ (es frecuente utilizar también la notación ˆθ n para denotar un estimador de θ). Es habitual definir los estimadores para todos los posibles valores de n. En este caso, la sucesión {T n } se suele llamar también, con abuso de de notación, estimador. Por tanto, los estimadores son v.a. y tiene sentido hablar de su media, su varianza, su distribución, etc. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 4

La calidad de un estimador se evalúa mediante su error cuadrático medio ECM(T n ) = E[(T n θ) 2 ] Obsérvese que esta expresión en general depende de θ. Para enfatizar esto a veces se denota ECM θ (T n ). Sumando y restando E(T n ) es inmediato ver que es decir, ECM(T n ) = E[(T n E(T n )) 2 ] + (E(T n ) θ) 2 ECM(T n ) = Varianza de T n + (Sesgo de T n ) 2 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 5

Propiedades interesantes de los estimadores: Ausencia de sesgo: Se dice que un estimador T n es insesgado si, siempre que X i f (.; θ), se tiene que E θ (T n ) = θ, θ Θ. Ejemplo: X es estimador insesgado de µ = E(X ). S 2 = 1 n 1 n (X i X ) 2 (cuasi-varianza muestral) es estimador insesgado de σ 2 = V(X ). En cambio, ˆσ 2 = 1 n (X i X ) 2 n es estimador sesgado. i=1 i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 6

Consistencia: Se dice que {T n } := {T n (X 1,..., X n )} es consistente en probabilidad si, siempre que X i f (.; θ), T n P θ, θ Θ P Si se reemplaza por, c.s. se obtiene la consistencia fuerte (o casi segura). Teorema de la aplicación continua.- Sea g : R R continua en todo punto de un conjunto C tal que P{X C} = 1. (i) Si X n d X, entonces g(x d n) g(x ). n n P (ii) Si X n X, entonces g(x P n) g(x ). n n c.s. (iii) Si X n X, entonces g(x c.s. n) g(x ). n n Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 7

Cómo demostrar fácilmente la consistencia? Mediante la ley de los grandes números: Si g : R R es continua entonces, T n = g( X ) es estimador consistente c.s. de θ = g(µ). La consistencia en probabilidad se puede intentar probar usando la desigualdad de Markov: y, por tanto, P{ T n θ > ɛ} E T n θ ɛ P{ T n θ > ɛ} E[(T n θ) 2 ] ɛ 2 E T n θ 0 T n E[(T n θ) 2 ] 0 T n P θ P θ. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 8

c.s Respecto a la consistencia c.s recordemos que T n θ si y solo si P{ω Ω : lim T n(x 1 (ω),..., X n (ω)) = θ} = 1. (1) n Esta condición es, en general, difícil de comprobar directamente. Por ello, es habitual utilizar condiciones suficientes. Por ejemplo, c.s. una condición suficiente para que T n θ es la condición de n Borel-Cantelli P{ T n θ > ɛ} <, ɛ > 0. (2) n=1 Por la desigualdad de Markov, (2) puede establecerse a su vez usando alguna de las condiciones suficientes E T n θ < o bien n=1 E[(T n θ) 2 ] <. n=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 9

Ejercicio: Sean X 1,..., X n v.a.i.i.d. con distribución uniforme en el intervalo [0, θ], θ > 0. Estudiar la consistencia de los siguientes estimadores de θ: a) T n = 2 X b) T n = X (n) = max{x 1,..., X n }. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 10

Normalidad asintótica: Se dice que una sucesión de estimadores {T n } del parámetro θ es asintóticamente normal (con tasa n) si se verifica d n(tn θ) N(0, σ(θ)), (3) n donde σ 2 (θ) es una cierta función del parámetro θ denominada varianza asintótica del estimador. La propiedad (3) es muy útil para obtener una idea más precisa del error cometido en la estimación ya que permite hacer cálculos aproximados del tipo P{ T n θ < c} = P{ n T n θ < nc} ( ) ( ) c Φ σ(θ)/ c Φ n σ(θ)/ n Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 11

Cómo se puede probar en la práctica la normalidad asintótica? Por el TCL sabemos que n( X µ) d N(0, σ). n Supongamos que T n = g( X ), siendo g : R R función derivable con derivada continua. Se tiene entonces n(g( X ) g(µ)) d N(0, g (µ) σ). n Este resultado se llama método delta y es consecuencia casi inmediata del teorema del valor medio y de las propiedades elementales de la convergencia en distribución. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 12

Una observación sobre la normalidad asintótica: En general, también se habla de normalidad asintótica (con tasa {a n }) cuando se verifica un resultado del tipo a n (T n θ) d N(0, σ(θ)), (4) n donde 0 < a n es una sucesión de constantes. Tiene especial importancia el caso a n = n porque es el que aparece en el Teorema Central del Límite. Sin embargo, en muy diversos problemas estadísticos se obtiene normalidad asintótica con sucesiones a n diferentes. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 13

Construcción de estimadores Planteamiento: En lo que sigue suponemos que la muestra X 1,..., X n está formada por v.a.i.i.d. cuya distribución tiene una función de densidad o de masa f ( ; θ 0 ) perteneciente a una familia {f ( ; θ) : θ Θ}. El verdadero valor del parámetro se denota por θ 0 y la letra θ designa un valor genérico de este parámetro. Habitualmente θ 0 es desconocido y nuestro objetivo es definir un método general para estimarlo. En el resto de este tema la expresión función de densidad deberá entenderse en sentido amplio para incluir también a las funciones de probabilidad de las variables discretas. Parametrización adecuada: Suponemos también que se cumple (MV0) Las distribuciones correspondientes a f ( ; θ) son distintas para diferentes valores de θ Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 14

El método de máxima verosimilitud Dada una muestra fija x 1,..., x n, llamamos función de verosimilitud (likelihood function) a L n (θ; x 1,..., x n ) := L n (θ) = n f (x i ; θ). i=1 Denominamos estimador de máxima verosimilitud (EMV, maximum likelihood estimator, MLE) a ˆθ n = ˆθ n (x 1,..., x n ) = arg max L n (θ; x 1,..., x n ), (5) θ Θ cuando este máximo está bien definido. También se puede utilizar log L n en lugar de L n en la expresión (5), ya que el logaritmo es una función creciente. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 15

Cálculo efectivo del EMV: Típicamente ˆθ n se obtiene como solución de la ecuación de verosimilitud Ejemplos: θ log L n = θ n log f (θ; x i ) = 0. i=1 Para la distribución de Poisson de parámetro λ, ˆλ n = x. Para la exponencial de parámetro θ, ˆθ n = x Para la normal N(µ, σ), ˆµ n = x, ˆσ 2 n = n i=1 (x i x) 2 /n. Para otras distribuciones, como la gamma o la Weibull, los e.m.v. de los parámetros existen pero no hay expresiones cerradas para ellos (aparecen como soluciones únicas de ciertas ecuaciones). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 16

Motivación del método de m.v.: Por la L.G.N., 1 n log L n(θ) c.s. Ψ(θ) := E θ0 [log f (X ; θ)] = log f (x; θ)f (x; θ 0 )dx. Teorema 1.- Sea X f ( ; θ 0 ). Supongamos que (MV0) Se verifica la condición de buena parametrización. (MV1) Las distribuciones f ( ; θ) tienen un soporte común. (MV2) Ψ(θ) es finita para todo θ Θ. Entonces θ 0 es el único máximo de la función Ψ(θ) y además P θ0 {L n (θ 0 ; X 1,..., X n ) > L n (θ; X 1,..., X n )} n 1, θ θ 0. La demostración del teorema se hará en clase. Ver también: Lehmann & Casella (1998). Theory of Point Estimation. Springer. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 17

Consistencia de los estimadores de m.v.: Teorema 2.- Supongamos que se verifican las condiciones del Teorema 1 y además (MV3) El espacio paramétrico Θ es un intervalo abierto (no necesariamente finito) y, para casi todo x, f (x; θ) es diferenciable respecto a θ con derivada continua. Entonces, con probabilidad tendiendo a 1, la ecuación θ log L n(θ; X 1,..., X n ) = 0 (6) P tiene una raíz ˆθ n = ˆθ n (x 1,..., x n ) tal que ˆθ n (X 1,..., X n ) θ 0. Si además suponemos que la raíz de (6) es única se tiene que ˆθ n maximiza la verosimilitud L n y, por tanto, es el estimador de máxima verosimilitud. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 18

La información de Fisher I (θ) y su significado En la discusión que sigue suponemos que en la integral f (x; θ)dx se puede derivar dos veces bajo el signo integral. Entonces f (x; θ)dx = 1 f (x; θ)dx = 0. θ Por tanto, θ (log f (x; θ))f (x; θ)dx = E θ[ log f (X ; θ)] = 0 θ y también (comprobarlo) [ ] [ ( ) ] 2 E θ 2 log f (X ; θ) = E θ2 θ θ log f (X ; θ). Si esta última cantidad es finita se denota por I (θ) y se denomina información de Fisher. Representa intuitivamente la cantidad de información acerca del valor del parámetro θ contenida en una observación de la v.a. X. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 19

Según esto, la v.a. Z = n i=1 θ log f (X i; θ) satisface E θ (Z) = 0, V θ (Z) = n I (θ). Sea ahora T n = T n (X 1,..., X n ) un estimador insesgado de θ. Comprobemos que Cov θ (Z, T n ) = 1, lo que, en este caso, equivale a E θ (ZT n ) = 1. En efecto, E θ (ZT n ) =... T n (x 1,..., x n ) [ n i=1 θ f (x i; θ) f (x i ; θ) ] n f (x j, θ)dx j j=1 Pero [ n i=1 θ f (x i; θ) f (x i ; θ) ] n f (x j, θ) = θ j=1 n f (x j, θ) i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 20

Por tanto, Cov θ (Z, T n ) = = θ...... T n (x 1,..., x n ) θ T n (x 1,..., x n ) = θ E θ(t n ) = θ θ = 1. n f (x i, θ)dx i i=1 n f (x i, θ)dx i i=1 Por otra parte, la desigualdad de Cauchy-Schwartz establece que Cov 2 θ (Z, T n) V θ (Z)V θ (T n ) es decir, V θ (T n ) 1 n I (θ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 21

En definitiva, hemos probado que Supuesto que todas las integrales anteriores son finitas, que existen las derivadas utilizadas en los cálculos y que se dan las condiciones que permiten intercambiar las derivadas y las integrales, se verifica que para cualquier estimador insesgado de θ, T n, V θ (T n ) 1 n I (θ) 1 La expresión n I (θ) se denomina cota de Fréchet-Cramér-Rao. Los estimadores (insesgados) cuya varianza coincide con el valor de esta cota se denominan eficientes. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 22

Eficiencia asintótica de los e.m.v. Teorema 3.- Supongamos que se verifican las condiciones (MV0)-(MV3) y además (MV4) La integral f (x; θ)dx se puede derivar dos veces bajo el signo integral. (MV5) Para cada x la densidad f (x; θ) es tres veces diferenciable con respecto a θ, con la tercera derivada continua en θ. (MV6) 0 < I (θ 0 ) < (MV7) Para cada θ 0 Θ existen un número c > 0 y una función M(x) (que pueden depender de θ 0 ) tales que E θ0 [M(X )] < y 3 log f θ 3 (x; θ) M(x), x, θ (θ 0 c, θ 0 + c). Entonces, si ˆθ n (X 1,..., X n ) es cualquier sucesión consistente de soluciones de las ecuaciones de verosimilitud, se verifica n(ˆθn θ 0 ) d N ( 0, 1 I (θ0 ) ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 23

Demostración del Teorema 3: Denotemos Ψ n (θ) := n log f (X i ; θ) i=1 Ψ n = ( / θ) Ψ n f = ( / θ)f. Recordemos que Ψ n (θ) depende de la muestra. Para cada muestra fija se tiene Ψ n(ˆθ n ) = Ψ n(θ 0 ) + (ˆθ n θ 0 ) Ψ n (θ 0 ) + 1 2 (ˆθ n θ 0 ) 2 Ψ n (θn), para algún θ n entre ˆθ n y θ 0. Como el primer miembro es 0, resulta n(ˆθn θ 0 ) = (1/ n) Ψ n(θ 0 ) (1/n) Ψ n (θ 0 ) (1/2n)(ˆθ n θ 0 ) Ψ n (θn) (7) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 24

Demostración del Teorema 3 (cont.): La idea clave de la demostración es: Paso 1 Probar que el numerador de (7) tiende en distribución a una N(0, I (θ 0 )) (recordemos que, en nuestra notación, el segundo parámetro de la normal denota la desv. típica, no la varianza). Paso 2 Probar que el primer término del denominador de (7) tiende en probabilidad a I (θ 0 ). Paso 3 Probar que el segundo término del denominador de (7) tiende en probabilidad a 0. Paso 4 A partir de aquí el resultado es inmediato ya que, como consecuencia del Teorema de Slutsky, d n(ˆθn θ 0 ) 1 I (θ 0 ) N(0, ( ) 1 I (θ 0 )) = N 0,. I (θ0 ) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 25

Demostración del Teorema 3 (cont.): Paso 1: 1 Ψ n n (θ 0 ) = n 1 n [ f ( (X i ; θ 0 ) f )] n f (X i ; θ 0 ) E (X i ; θ 0 ) θ 0, f (X i ; θ 0 ) i=1 ( ) Como E f (X i ;θ 0) θ0 f (X i ;θ 0) = 0, la aplicación del TCL (a las variables Y i = f (X i ;θ 0) f (X i ;θ ) y la definición de I (θ 0) 0) proporcionan directamente Paso 2: 1 n (1/ n) Ψ n(θ 0 ) Ψ n (θ 0 ) = 1 n Por la LGN esto tiende en probabilidad a d N(0, I (θ 0 )). f 2 (X i ; θ 0 ) f (X i ; θ 0 )f (X i ; θ 0 ) f 2. (X i ; θ 0 ) I (θ 0 ) E θ0 ( f (X i ; θ 0 ) f (X i ; θ 0 ) ) = I (θ 0 ) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 26

Demostración del Teorema 3 (cont.): Paso 3: Por último, 1 Ψ n (θ) = 1 3 n n θ 3 log f (X i; θ), de modo que 1 Ψ n (θ ) n < 1 n M(X i ) n i=1 con probabilidad tendiendo a 1. Por tanto 1 n Ψ n (θ) está acotado en probabilidad ya que el segundo miembro de la desigualdad anterior tiende P a E θ0 [M(X )]. En definitiva, como ˆθ n θ0, se deduce (1/2n)(ˆθ n θ 0 ) Ψ n (θn) P 0, lo que concluye la prueba del Paso 3 y del teorema. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 27

El método de los momentos Sea X f ( ; θ), donde θ = (θ 1,..., θ p ) es un parámetro p-dimensional (p 1). Si los momentos α k (θ) := E θ (X k ), k = 1,..., p, son funciones sencillas de los θ i, un procedimiento natural para obtener un estimador de θ, es resolver en θ 1,..., θ p el sistema de ecuaciones m 1 = α 1 (θ),..., m p = α p (θ), n i=1 X k i n. donde m k es el momento muestral de orden k, m k = La idea es estimar el parámetro como aquel valor de θ que hace que los momentos poblacionales (tantos como componentes tenga θ) coincidan con los correspondientes momentos muestrales. En general, si θ 0 es el verdadero valor del parámetro, NO sucederá que m k = α k (θ 0 ) (de hecho, m k es aleatorio) pero, por la ley de los grandes números, m k α k (θ 0 ) cuando n. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 28

La principal ventaja del método de los momentos es que proporciona estimadores con expresión sencilla en algunos casos en los que el e.m.v. no se puede obtener en forma cerrada (porque aparece la solución de una ecuación complicada). Esto sucede, por ejemplo, en la estimación de los parámetros a y p en la distribución gamma. En los ejercicios se pueden encontrar más ejemplos. En general, el método de m.v. proporciona estimadores mejores (con menor error) que el de los momentos, aunque en algunos casos importantes ambos métodos llevan al mismo estimador. También puede plantearse el método de los momentos (en el caso k = 2) definiendo el estimador como solución de las ecuaciones E θ (X ) = X, V θ (X ) = s 2, es decir, usando la varianza en lugar del momento de orden 2, E θ (X 2 ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 29

Ejemplos del método de los momentos: Si se tiene el modelo f (x; θ) = 1 + θx 2 1 [ 1,1] (x), θ [ 1, 1] no es sencillo calcular el e.m.v., pero sí obtener el estimador por el método de los momentos: E θ (X ) = 1 1 xf (x; θ)dx = θ 3 Por tanto, la solución de X = E θ (X ) es θ n = 3 X, cuya varianza es V θ ( θ n ) = V θ (3 X ) = 9 σ2 n = 3 θ2 n ya que σ 2 = V θ (X ) = E θ (X 2 ) (E θ (X )) 2 = 1 3 θ2 9. Este c.s. estimador es consistente ya que, por la LGN, 3 X 3E θ (X ) = θ. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 30

Si X Beta(a, b), f (x; a, b) = Γ(a + b) Γ(a)Γ(b) x a 1 (1 x) b 1 1 [0,1] (x). E θ (X ) = = 1 0 Γ(a + b) Γ(a) Γ(a + b) Γ(a)Γ(b) x a (1 x) b 1 dx Γ(a + 1) Γ(a + b + 1) V θ (X ) = 1 0 Γ(a + b + 1) Γ(a + 1)Γ(b) x a (1 x) b 1 dx = ab (a + b) 2 (a + b + 1) Los estimadores por el método de los momentos son: ( ) ( ) X (1 X ) X (1 X ) â = X s 2 1, ˆb = (1 X ) s 2 1. a a + b Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 31

La metodología bayesiana: ideas básicas La distribución a priori En muchos casos se tiene cierta información a priori (es decir, antes de extraer la muestra) sobre la probabilidad (entendida como grado de creencia subjetiva ) de los diferentes valores del parámetro θ. En estos casos se sabe, o se supone, que ciertos intervalos de valores de θ son más probables que otros y se concreta esta información en una distribución a priori sobre θ cuya función de densidad se denota π(θ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 32

La función de verosimilitud Formalmente, este planteamiento equivale a considerar el parámetro θ como una variable aleatoria con distribución conocida. En consecuencia, la densidad f (x; θ) con la que se generan los datos puede considerarse como la densidad condicionada de la v.a. X dado el valor θ de la v.a. parámetro. Por este motivo se suele emplear la notación f (x θ) en lugar de f (x; θ). Del mismo modo, la función de verosimilitud L n (x 1,..., x n ; θ) = n i=1 f (x i θ) puede interpretarse (cuando se considera como función de (x 1,..., x n ) para cada θ fijo) como la densidad de la v.a. vectorial (X 1,..., X n ), condicionada al valor θ del parámetro. Por este motivo, suele denotarse (con cierto abuso de notación), n f (x 1,..., x n θ) := f (x i ; θ). i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 33

La distribución a posteriori Esencialmente, la idea metodología bayesiana consiste en combinar la información a priori (recogida en π(θ)) con la información muestral y la del modelo (recogidas en la verosimilitud). Esto se consigue aplicando la fórmula de Bayes para obtener la distribución a posteriori, definida por la siguiente función de densidad en Θ f (x 1,..., x n θ)π(θ) π(θ x 1,..., x n ) = Θ f (x 1,..., x n θ)π(θ)dθ La densidad a posteriori (8) recoge toda la información disponible sobre el parámetro y es la base de todos los procedimientos de inferencia en la metodología bayesiana. (8) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 34

El cálculo de π(θ x 1,..., x n ) puede ser complicado a veces, pero en muchos casos se simplifica recordando que π(θ x 1,..., x n ) debe ser una función de densidad en θ y, por tanto, debe integrar 1. Esto significa que la integral que aparece en el denominador de (8) puede ser considerada como una constante (en el sentido de que no depende de θ) y esta es justamente la constante necesaria para que la integral en θ de π(θ x 1,..., x n ) sea 1. Por tanto, en algunos ejemplos importantes, no es necesario calcular esa integral, siempre que, a partir del numerador de (8), se pueda identificar el tipo de distribución al que corresponde π(θ x 1,..., x n ). Por ejemplo, si el numerador de la fórmula de Bayes (8) es, salvo constantes multiplicativas, de la forma θ p 1 e aθ, entonces no es necesario calcular la integral del denominador porque ya podemos asegurar que π(θ x 1,..., x n ) es una densidad gamma de parámetros a y p. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 35

Ejemplo: En un problema de la relación 3, θ es la proporción de votantes de un partido (P). Sea X la v.a. Bernoulli que toma valor 1 cuando un votante elige el partido P y 0 en caso contrario: f (x θ) = θ para x = 1, f (x θ) = 1 θ para x = 0. Entonces tenemos que f (x 1,..., x n θ) = n i=1 f (x i θ) = θ n i=1 x i (1 θ) n n i=1 x i. Suponemos que la distribución a priori es una Beta(4,10): π(θ) = Γ(14) Γ(4)Γ(10) θ3 (1 θ) 9 1 [0,1] (θ). Así pues, aplicando la fórmula de Bayes (8), tenemos (usando aquí el signo para indicar proporcional a ): π(θ x 1,..., x n ) θ x i (1 θ) n x i θ 3 (1 θ) 9 = θ 3+ x i (1 θ) 9+n x i, densidad que corresponde a una beta de parámetros a = 4 + x i, b = 10 + n x i. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 36

Estimadores Bayes El estimador Bayes se define, para cada muestra dada (x 1,..., x n ), como la esperanza de la distribución a posteriori T n (x 1,..., x n ) = θπ(θ x 1,..., x n )dθ. Θ Ejemplo (cont.): Hemos visto que π(θ x 1,..., x n ) tiene distribución Beta(a = 4 + x i, b = 10 + n x i ). Por tanto el estimador Bayes es T n = 4 + x i 14 + n = ( n 4 + 10 + n ) ( ) 4 + 10 4 x + 4 + 10 + n 4 + 10. Es sencillo comprobar que en este caso el emv coincide con el estimador basado en el método de los momentos, ˆθ n = x. En la muestra concreta que tenemos x i = 125 y n = 1000, luego T n = 129 1014 = 0.12722, ˆθ n = 125 1000 = 0.125 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 37