INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

Documentos relacionados
ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

TAMAÑO DE MUESTRA EN LA ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Tema 8: Contraste de hipótesis

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Tema 4: Probabilidad y Teoría de Muestras

Intervalos de confianza

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Unidad IV: Distribuciones muestrales

Tema 13: Distribuciones de probabilidad. Estadística

Teorema Central del Límite (1)

Tema 5. Muestreo y distribuciones muestrales

Tema 7 Intervalos de confianza Hugo S. Salinas

Tema 9: Contraste de hipótesis.

Contrastes de hipótesis paramétricos

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Variables aleatorias

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Conceptos del contraste de hipótesis

Estadistica II Tema 1. Inferencia sobre una población. Curso 2009/10

Variable Aleatoria Continua. Principales Distribuciones

Tema 5: Introducción a la inferencia estadística

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

INFERENCIA ESTADISTICA

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Teoría de muestras 2º curso de Bachillerato Ciencias Sociales

Definición de probabilidad

Objetivos. 1. Variable Aleatoria y Función de Probabilidad. Tema 4: Variables aleatorias discretas Denición de Variable aleatoria

ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TEMA 3: Contrastes de Hipótesis en el MRL

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

Determinación del tamaño de muestra (para una sola muestra)

0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5

Discretas. Continuas

Tema 7: Estadística y probabilidad

INFERENCIA ESTADÍSTICA

Tema 5. Contraste de hipótesis (I)

Tema 8: Introducción a la Teoría sobre Contraste de hipótesis

Tema 5. Muestreo y distribuciones muestrales

INFERENCIA ESTADÍSTICA: CONTRASTES DE HIPÓTESIS

Resumen teórico de los principales conceptos estadísticos

Contrastes de hipótesis. 1: Ideas generales

Distribuciones muestrales. Distribución muestral de Medias

Tema I. Introducción. Ciro el Grande ( A.C.)

El Algoritmo E-M. José Antonio Camarena Ibarrola

Unidad Temática 3: Probabilidad y Variables Aleatorias

DISTRIBUCIÓN N BINOMIAL

Proyecto Tema 8: Tests de hipótesis. Resumen teórico

ESTADÍSTICA DESCRIPTIVA

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Intervalos para la diferencia de medias de dos poblaciones

Distribución Chi (o Ji) cuadrada (χ( 2 )

1. La Distribución Normal

Conceptos Básicos de Inferencia

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

en Enfermería del Trabajo

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

= P (Z ) - P (Z ) = P (Z 1 25) P (Z -1 25)= P (Z 1 25) [P (Z 1 25)] = P (Z 1 25) [1- P (Z 1 25)] =

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Técnicas Cuantitativas para el Management y los Negocios I

INDICE Capítulo I: Conceptos Básicos Capitulo II: Estadística Descriptiva del Proceso

6. ESTIMACIÓN DE PARÁMETROS

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

MOOC UJI: La Probabilidad en las PAU

Sesión del día 11 de Marzo del 2011 y tutoría del día 12 de Marzo del 2011

Tema 13 : Intervalos de probabilidad y confianza. Hipótesis y decisiones estadísticas.

ADMINISTRACION DE OPERACIONES

ESTADÍSTICA. Tema 4 Regresión lineal simple

proporciones y para la Estadística II Equipo Docente: Iris Gallardo Andrés Antivilo Francisco Marro

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Tema 6. Variables aleatorias continuas

Teoría de la decisión

EJERCICIOS RESUELTOS TEMA 7

Econometría II Grado en finanzas y contabilidad

PROBABILIDAD Y ESTADÍSTICA

Tema 4: Probabilidad y Teoría de Muestras

Técnicas estadísticas más utilizadas en la investigación

UNIDAD 6. Estadística

Tema 5 Algunas distribuciones importantes

Contrastes de hipótesis estadísticas. Contrastes paramétricos

1) Subtest de Vocabulario: Incluye dos partes, vocabulario expresivo (con 45 items) y definiciones (con 37 elementos).

478 Índice alfabético

Distribuciones de probabilidad

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

T1. Distribuciones de probabilidad discretas

La reordenación aleatoria de un conjunto finito

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Probabilidad y Estadística Descripción de Datos

TEST DE RAZONAMIENTO NUMÉRICO. Consejos generales

Grado en Ingeniería Informática Estadística Tema 5: Teoría Elemental del Muestreo e Inferencia Paramétrica Ángel Serrano Sánchez de León

El caballero Mere escribe a Pascal en 1654 y le propone el siguiente problema:

Transcripción:

1 Introducción INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M. En este capítulo, vamos a abordar la estimación mediante Intervalos de Confianza, que es otro de los tres grandes conjuntos de técnicas que se utilizan en la Inferencia Estadística. La situación general que vamos a considerar es la misma que en el capítulo anterior: Disponemos de una muestra aleatoria (X 1,..., X n ) de una característica X de una población. Pensamos que esta característica puede ser adecuadamente modelizada mediante un modelo de probabilidad con función de masa P θ (x) (en el caso discreto) o con función de densidad f θ (x) (en el caso continuo). En cualquiera de los casos, lo único que nos falta por conocer es el valor del parámetro θ Θ, que es desconocido. Lo que tratamos de hacer en este capítulo es encontrar intervalos que sirvan para estimar este parámetro desconocido, fijando el nivel de confianza que queremos que tenga dicha estimación. En primer lugar, se plantearán dos ejemplos sencillos que servirán como motivación. Ejemplo 1.- En los ejercicios de cálculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustaría conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X 1,..., X 100 ) de X = { 1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 p y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con parámetro p desoconocido. Podemos estimar la probabilidad de cara, p, mediante el estimador de máxima verosimilitud, que en este caso es: ˆp = x = Número de caras obtenidas Número de lanzamientos 1 = 55 100 = 0, 55

Ahora bien, cuando decimos que estimamos que p es 0,55, no estamos afirmando que p valga exactamente 0,55; lo que realmente queremos decir es que p valdrá, aproximadamente, 0,55. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (0,54 ; 0,56), (0,50 ; 0,60),... Para decidir con qué intervalo nos quedamos, necesitamos una metodología general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. Ejemplo 2.- En una fábrica, se está ensayando una nueva fibra sintética, y se quiere conocer aproximadamente (estimar) cuál es la resistencia media a la rotura de las cuerdas fabricadas con esta nueva fibra. Llamaremos µ al valor de esta resistencia media que se quiere estimar. Necesitamos datos, para lo cual medimos la resistencia de, por ejemplo, 100 cuerdas, y anotamos los resultados. Supongamos que obtenemos una resistencia media muestral de 31 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X 1,..., X 100 ) de la característica X = Resistencia a la rotura, que puede ser modelizada mediante una distribución N(µ; σ), con parámetros µ y σ desconocidos. Podemos estimar la resistencia media de las cuerdas, µ, mediante el estimador de máxima verosimilitud, que en este caso es: ˆµ = x = 31 Ahora bien, cuando decimos que estimamos que µ es 31, no estamos afirmando que µ valga exactamente 31; lo que realmente queremos decir es que µ valdrá, aproximadamente, 31. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (30 ; 32), (28 ; 34),... Para decidir con qué intervalo nos quedamos, necesitamos una metodología general que nos permita resolver este tipo de problemas de un modo sistemático y lo más objetivo posible. 2 Intervalos de confianza En primer lugar, vamos a definir lo que entenderemos por un intervalo de confianza para estimar un parámetro: Definición.- Sea (X 1,..., X n ) una muestra aleatoria de una característica X de una población con función de masa P θ (x) (caso discreto), o con función de densidad f θ (x) (caso continuo), donde θ = (θ 1,..., θ k ) es desconocido. 2

Un intervalo de confianza para estimar θ i, con un nivel de confianza 1 α, es una función que a cada posible muestra (x 1,..., x n ) le hace corresponder un intervalo (T 1, T 2 ) = (T 1 (x 1,..., x n ), T 2 (x 1,..., x n )) tal que: P {(x 1,..., x n ) : θ i (T 1 (x 1,..., x n ), T 2 (x 1,..., x n ))} = 1 α Observaciones: 1. El significado del nivel de confianza es el siguiente: Supongamos que un intervalo de confianza es construido con un nivel de confianza 1 α=0,95. Esto significa que la probabilidad de que el intervalo contenga al verdadero (y desconocido) valor de θ i es 0,95. Es decir, el 95% de las veces, el intervalo construído funcionaría bien, en el sentido de que sería una buena estimación del parámetro θ i. Por lo tanto, el nivel de confianza mide la probabilidad de buen funcionamiento de un intervalo y, por este motivo, el nivel de confianza siempre se elige próximo a 1. 2. Los valores tradicionalmente elegidos para 1 α son: 0,90, 0,95 y 0,99. El más habitual de todos es 1 α = 0,95. Si el nivel de confianza es demasiado próximo a 1, su probabilidad de buen funcionamiento será altísima, pero a costa de que la longitud del intervalo será muy grande, convirtiéndolo así en algo inútil. Por este motivo, suele tomarse 1 α = 0,95, que representa un valor de compromiso. 3 Distribuciones asociadas a la Normal Las distribuciones que vamos a definir en esta sección son distribuciones que aparecen de modo natural en el muestreo de poblaciones Normales y tienen un papel fundamental en los intervalos de confianza y en los contrastes de hipótesis que vamos a utilizar cuando trabajemos con muestras de poblaciones Normales. Definición.- Sean X 1,..., X n variables aleatorias independientes con distribución N(0; 1). La distribución χ 2 de Pearson con n grados de libertad (abreviadamente χ 2 n) es la distribución de la variable aleatoria: n Xi 2 i=1 ( esquemáticamente: 3 ) n [N(0; 1)] 2 i=1

La distribución χ 2 n sólo toma valores positivos. Definición.- Sean Y, X 1,..., X n variables aleatorias independientes con distribución N(0; 1). La distribución t de Student con n grados de libertad (abreviadamente t n ) es la distribución de la variable aleatoria: Y 1 ni=1 X 2 n i esquemáticamente: La distribución t n es simétrica con respecto al cero. N(0; 1) 1 n χ2 n Definición.- Sean X 1,..., X m, Y 1,..., Y n variables aleatorias independientes con distribución N(0; 1). La distribución F de Fisher-Snedecor con m y n grados de libertad (abreviadamente F m;n ) es la distribución de la variable aleatoria: ( 1 mi=1 X 2 m i 1 ni=1 Y 2 n i esquemáticamente: La distribución F m;n sólo toma valores positivos. ) 1 m χ2 m 1 n χ2 n 4 Método de la cantidad pivotal En esta sección, abordamos la cuestión de cómo construir intervalos de confianza de un modo sistemático y lo más objetivo posible. El método habitualmente utilizado es el método de la cantidad pivotal. En primer lugar, definimos lo que se entiende por una cantidad pivotal: Definición.- Sea (X 1,..., X n ) una muestra aleatoria de una característica X de una población con función de masa P θ (x) (caso discreto), o con función de densidad f θ (x) (caso continuo), donde θ = (θ 1,..., θ k ) es desconocido. Una cantidad pivotal para estimar el parámetro θ i es una función C(X 1,..., X n ; θ i ) tal que su distribución es fija (no depende de ningún parámetro desconocido). De manera esquemática, los pasos que hay que dar para obtener un intervalo de confianza mediante el método de la cantidad pivotal son los siguientes: 1. Fijamos un nivel de confianza 1 α (próximo a 1). 2. Construimos una cantidad pivotal C(X 1,..., X n ; θ i ) para estimar θ i. 4

3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 α, y que deje a ambos lados la misma cantidad de probabilidad α/2. Esta construcción es posible gracias a que la distribución de la cantidad pivotal es fija. 4. Despejamos θ i del intervalo anterior, obteniendo así el intervalo de confianza buscado. El intervalo de confianza obtenido tiene sentido como estimador porque sólo depende de los valores muestrales (no depende de ningún parámetro desconocido). Su nivel de confianza es 1 α gracias a que el contenido de probabilidad del intervalo del paso anterior era 1 α. Obviamente, la descripción que se acaba de dar del método es muy abstracta. Por este motivo, es muy conveniente aplicar el método a algún caso concreto que ayude a entender lo que hacemos en general. Caso 1.- Consideramos una muestra aleatoria (X 1,..., X n ) de una característica X N(µ; σ), donde la media µ es desconocida, pero supondremos (por sencillez) que σ es conocida. Queremos un intervalo de confianza para estimar µ. Aplicamos el método de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 α (próximo a 1). 2. Dado que queremos estimar µ, empezamos considerando su estimador de máxima verosimilitud que, en este caso, sabemos que es ˆµ = X: X N(µ; σ/ n) X µ σ/ n N(0; 1) Por tanto: C(X 1,..., X n ; µ) = X µ σ/ n es una cantidad pivotal para estimar µ. N(0; 1) 3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 α, y que deje a ambos lados la misma cantidad de probabilidad α/2: P { z α/2 < X } µ σ/ n < z α/2 = 1 α 5

4. Finalmente, despejamos µ del intervalo anterior: µ < X + z α/2 σ n µ > X z α/2 σ n El intervalo de confianza que hemos obtenido es: ( ) ( ) σ σ σ IC 1 α (µ) = X z α/2 n ; X + zα/2 n = X ± z α/2 n Observemos que el intervalo de confianza está centrado en X, lo cual parece bastante natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza recibe el nombre de error en la estimación: σ Error en la estimación = z α/2 n Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que acabamos de obtener: 1. Cuando el tamaño muestral, n, aumenta, el error en la estimación disminuye y, en consecuencia, la longitud del intervalo disminuye. 2. Cuando el nivel de confianza, 1 α, aumenta, el error en la estimación aumenta y, en consecuencia, la longitud del intervalo aumenta. Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodología de los intervalos de confianza es que se cuantifica automáticamente la influencia de n y de 1 α. Caso 2.- Consideramos nuevamente una muestra aleatoria (X 1,..., X n ) de una característica X N(µ; σ), pero ahora consideramos la situación más habitual en la práctica, donde tanto µ como σ son desconocidos. Seguimos interesados en obtener un intervalo de confianza para estimar µ. Volvemos a aplicar el método de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 α (próximo a 1). 2. Dado que queremos estimar µ, empezamos otra vez considerando su estimador de máxima verosimilitud que, en este caso, sabemos que sigue siendo ˆµ = X: X N(µ; σ/ n) X µ σ/ n N(0; 1) 6

Pero, en este caso, nos encontramos con el problema de que X µ σ/ n no puede ser una cantidad pivotal para estimar µ, ya que depende de σ que ahora es desconocida. Este problema se resuelve sustituyendo σ por una estimación: la cuasi-desviación típica muestral, S. De este modo, tenemos que: C(X 1,..., X n ; µ) = X µ S/ n t n 1 es una cantidad pivotal para estimar µ. Obsérvese que la nueva cantidad pivotal sigue una distribución t n 1 en vez de seguir una distribución N(0; 1). 3. A partir de la distribución de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 α, y que deje a ambos lados la misma cantidad de probabilidad α/2: P { t n 1;α/2 < X } µ S/ n < t n 1;α/2 4. Finalmente, despejamos µ del intervalo anterior: µ < X + t n 1;α/2 S n µ > X t n 1;α/2 S n = 1 α El intervalo de confianza que hemos obtenido es: ( ) ( ) S S S IC 1 α (µ) = X t n 1;α/2 n ; X + tn 1;α/2 n = X ± t n 1;α/2 n Observemos que, nuevamente, el intervalo de confianza está centrado en X, lo cual sigue siendo muy natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza sigue recibiendo el nombre de error en la estimación, y ahora es de la forma: Error en la estimación = t n 1;α/2 S n 7

Este intervalo sigue teniendo el mismo tipo de propiedades que tenía el obtenido en el Caso 1. Aplicando de manera sistemática este método de la cantidad pivotal, iríamos obteniendo los intervalos de confianza que se utilizan en las situaciones más habituales: Una muestra aleatoria de una característica con distribución Normal, Bernoulli, Poisson,... Dos muestras aleatorias independientes de características con distribución Normal, Bernoulli,... La mayoría de los libros dedicados a la Estadística Aplicada incluyen un listado de los intervalos de confianza más frecuentemente utilizados. 5 Mínimo tamaño muestral En esta última sección, abordamos una cuestión práctica muy interesante: Cuántos datos serán necesarios para estimar un parámetro (con un nivel de confianza 1 α), de modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada? Vamos a ver la respuesta a esta pregunta en los casos analizados en la sección anterior: Caso 1.- Consideramos una muestra aleatoria (X 1,..., X n ) de una característica X N(µ; σ), donde σ es conocida. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 α, y queremos saber cuántos datos serían necesarios para estimar µ, de modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada. El procedimiento es sencillo: Error en la estimación = z α/2 σ n < E Despejamos n y obtenemos: n > (z α/2 σ) 2 Caso 2.- Consideramos una muestra aleatoria (X 1,..., X n ) de una característica X N(µ; σ), donde tanto µ como σ son desconocidos. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 α, y queremos saber cuántos datos serían necesarios para estimar µ, de 8 E 2

modo que el error en la estimación quede por debajo de una cierta cantidad, E, previamente fijada. Procedemos de manera similar: Error en la estimación = t n 1;α/2 S n z α/2 S n < E Despejamos n y obtenemos: n > (z α/2 S) 2 E 2 En este caso, hay que hacer un par de observaciones sobre la manera de proceder: (a) Aunque no sabemos el valor de n (ya que es precisamente lo que estamos intentando determinar), lo que sí sabemos es que (en general) será un valor grande (por encima de 30). En estas condiciones: t n 1;α/2 z α/2 (b) Como no sabemos el valor que tendrá S en una muestra futura, se suele tomar el valor que obtengamos en una pequeña muestra piloto. En general, ésta sería la forma de proceder en cualquier otro caso. 9