Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Documentos relacionados
Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Tema 13: Contrastes No Paramétricos

Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis en poblaciones normales

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tema 6: Introducción a la inferencia estadística

Pruebas de Bondad de Ajuste

CONTRASTE DE HIPÓTESIS

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

CONTRASTE DE HIPÓTESIS

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Cap. 7 : Pruebas de hipótesis

PRUEBAS DE BONDAD DE AJUSTE

4. Prueba de Hipótesis

Contraste de hipótesis paramétricas

Pruebas de hipótesis

Teorema Central del Límite (1)

Inferencia con una variable Tema 2

Matemáticas II en Biotecnología

Contrastes de hipótesis paramétricos

Hipótesis Alternativa H 1 : ϑ Θ 1

Estructura de este tema. Estadística II Tema 1: Contrastes no paramétricos. Ejemplo: los bombardeos de Londres. Ejemplo: los bombardeos de Londres

Definición Una hipótesis es una afirmación acerca de un parámetro.

Preparación de los datos de entrada

Estimación de Parámetros.

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

PRUEBA DE BONDAD DE AJUSTE O PRUEBA CHI - CUADRADO

Tema 7: Introducción a la Teoría sobre Estimación

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Contrastes de Hipótesis paramétricos y no-paramétricos.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Test de suma de rangos

Tema 8: Contraste de hipótesis

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

INFERENCIA ESTADISTICA

Análisis Estadístico de Datos Climáticos. Pruebas de Hipótesis (Wilks, cap. 5)

CONTRASTES DE HIPÓTESES

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Tema 5.5: Contrastes de hipótesis

1. Ejercicios. 2 a parte

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Tema 7. Contrastes no paramétricos en una población

Técnicas de Inferencia Estadística II. Tema 5. Estadísticos de orden

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

Pruebas para dos muestras independientes

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

DEFINICIONES BÁSICAS

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

Tema 6: Introducción a la Inferencia Bayesiana

Contraste de hipótesis con STATGRAPHICS

Investigación: Métodos paramétricos para la comparación de dos medias. t de Student 1/9

Tema 5. Muestreo y distribuciones muestrales

Técnicas de Muestreo Métodos

Inferencia estadística: Prueba de Hipótesis. Jhon Jairo Padilla A., PhD.

Tema 5. Contraste de hipótesis (I)

Departamento de Estadística y Econometría. UMA. EJERCICIOS DE ESTADÍSTICA II APLICADA A LA EMPRESA. L.A.D.E. TEMA 3

Curso de Estadística con R: Nivel Medio

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

Contraste de Hipótesis

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES ESCUELA DE SOCIOLOGÍA DEPARTAMENTO DE ESTADÍSTICA INFERENCIA ESTADÍSTICA

Práctica 4. Contraste de hipótesis

Estudiaremos tres tipos de contrastes, cada uno de los cuales trata de responder a la pregunta correspondiente: Bondad del ajuste Proceden los datos

Inferencia Estadística

Tema 9: Contraste de hipótesis.

INDICE Capítulo I: Conceptos Básicos Capitulo II: Estadística Descriptiva del Proceso

CONTRASTE DE HIPÓTESIS TEMA 4.1 CONTRASTES BILATERALES

ESTADÍSTICA. Tema 4 Intervalos de confianza

Problemas de Estimación de una y dos muestras

Conceptos del contraste de hipótesis

Tema 5: Contraste de hipótesis

EXAMEN DE ESTADÍSTICA Septiembre 2011

Soluciones a los ejercicios propuestos del Tema 5

Distribución Chi (o Ji) cuadrada (χ( 2 )

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

PRÁCTICA 6: CONTASTE DE HIPÓTESIS

Técnicas Cuantitativas para el Management y los Negocios I

Pruebas de Hipótesis

Tests de Hipótesis basados en una muestra. ESTADÍSTICA (Q) 5. TESTS DE HIPÓTESIS PARA LA MEDIA DE UNA POBLACIÓN NORMAL CON VARIANZA CONOCIDA

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Ejemplos Resueltos Tema 4

Determinación del tamaño de muestra (para una sola muestra)

Caso particular: Contraste de homocedasticidad

EJERCICIOS DE PRUEBA DE HIPOTESIS

PROBABILIDAD Y ESTADÍSTICA. Sesión 6 (A partir de tema 5.9)

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Test χ 2 de Bondad de Ajuste y Test de Independencia

Verificación de una hipótesis sobre una media

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Estadística Inferencial. Resúmen

Transcripción:

Técnicas de Inferencia Estadística II Tema 3. Contrastes de bondad de ajuste M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2010/11

Tema 3. Contrastes de bondad de ajuste Contenidos Contrastes χ 2 de bondad de ajuste. Contrastes de Kolmogorov-Smirnov. Contraste de Kolmogorov-Smirnov-Lilliefors para normalidad.

Contrastes no paramétricos: bondad de ajuste Hasta ahora hemos usado los test de hipótesis para contrastar la veracidad de una hipótesis acerca de los parámetros de una población. Los problemas de inferencia no paramétrica surgen cuando queremos emitir juicios estadísticos sobre la distribución poblacional en su conjunto. Uno de los problemas fundamentales de la inferencia no paramétrica es examinar la bondad de ajuste a una distribución. Consiste en decidir, a partir de una muestra aleatoria, si puede admitirse que la distribución poblacional coincide con una distribución dada.

Contrastes no paramétricos: bondad de ajuste Suponemos una muestra aleatoria simple (X 1, X 2,..., X n ) de una población desconocida. El problema de bondad de ajuste consiste en resolver contrastes del tipo: H 0 : la muestra proviene de una distribución F 0 H 1 : la muestra no proviene de la distribución F 0 donde F 0 es una distribución conocida. El problema de contrastar la bondad de ajuste es no paramétrico en el sentido de que no se trata de decidir entre distribuciones F θ que sólo difieren en el valor de θ.

Contrastes no paramétricos: bondad de ajuste Para resolver un problema de bondad de ajuste cabe distinguir principalmente dos métodos: 1. Contrastes χ 2 : Se descompone el recorrido de la distribución teórica en un número finito de subconjuntos A 1, A 2,..., A k. Luego, se clasifican las observaciones según el subconjunto al que pertenezcan. Por último, se comparan las frecuencias observadas de cada A i con las probabilidades teóricas correspondientes. Formalmente se realiza un contraste de hipótesis sobre los parámetros de la distribución multinomial de la variable k-dimensional que cuenta el número de observaciones en cada A i. Así, el problema inicialmente paramétrico se reduce a un contraste paramétrico relacionado con la distribución multinomial. 2. Contrastes de Kolmogorov-Smirnov: Consisten en comparar la distribución empírica con al teórica planteada en la hipótesis nula. Midiendo las distancias entre distribuciones puede saberse si la diferencia es importante o poco significativa.

Contrastes χ 2 de bondad de ajuste Consideramos una variable aleatoria, X, con distribución desconocida F, de la que disponemos de una muestra aleatoria simple, (X 1, X 2,..., X n ). Queremos contrastar si la muestra procede de una distribución F 0 conocida, es decir, queremos resolver el contraste: H 0 : F = F 0 H 1 : F F 0 Dividimos el recorrido de X en k clases, A 1, A 2,..., A k y llamamos: O i = Número de observaciones que pertenecen a A i para i = 1,..., k. Así, la variable aleatoria k-dimensional, (O 1,..., O k ), sigue una multinomial de parámetros n y p = (p 1,..., p k ): Pr(O 1 = n 1,..., O k = n k ) = donde p i es la probabilidad de pertencer a A i. n! n 1!,..., n k! pn1 1... pn k k

Contrastes χ 2 de bondad de ajuste De este modo, el contraste no-paramétrico inicial se reduce al siguiente contraste paramétrico: H 0 : p i = p i0, para todo i = 1,..., n. H 1 : p i p i0, para algún i = 1,..., n. donde p i0 es la probabilidad de pertenecer a A i si la distribución de la hipótesis nula es la verdadera. Pearson propuso el siguiente estadístico de contraste: k (O i np i0 ) 2 H0 χ 2 k 1 np i0 i=1 que proporciona una medida de discrepancia entre el número de observaciones en cada conjunto, A i, y el número que cabría esperar según F 0, ponderadas por 1/np i0 (por ejemplo, no parece lógico dar la misma importancia a una diferencia de 2 cuando se esperan 20 observaciones que cuando se esperan 5).

Contrastes χ 2 de bondad de ajuste La región de rechazo del contraste es: { } k (O i np i0 ) 2 R = > χ 2 k 1,α i=1 np i0 El p-valor es: ( ) p-valor = Pr χ 2 k 1 > k (O i np i0 ) 2 i=1 np i0 Para que la aproximación sea razonablemente buena, además de tener una muestra suficientemente grande (n >30), es necesario que el valor esperado de cada conjunto sea suficientemente grande. A menudo, se delimitan los conjuntos A i de forma que np i0 5 Sin embargo, esta regla del 5 no debería considerarse inflexible. De hecho, es muy conservativa (es decir, tiende a no rechazar H 0 ) y la aproximación χ 2 es casi siempre razonable para valores np i0 1.5.

Ejemplo 3.1. Antes de tomar medidas para señalizar una curva clasificada como punto negro, se sabía que el número de accidentes diarios seguía una distribución de Poisson de parámetro 2. Después de la señalización, se han recogido los siguientes datos durante un período de 200 días: N o accidentes: 0 1 2 3 4 5 6 7 ó más N o de días: 22 53 58 39 20 5 2 1 Se quiere contrastar la hipótesis de que la distribución haya cambiado con las medidas adoptadas.

Contrastes χ 2 de bondad de ajuste Los resultados anteriores muestran como contrastar la bondad del ajuste de una distribución totalmente especificada a una población de la que se tiene una muestra aleatoria. Sin embargo, en la práctica es frecuente sospechar que las observaciones provienen de una familia de distribuciones (normal, uniforme, etc.) pero desconocer sus parámetros. Se puede pensar inicialmente en estimar por máxima verosimilitud dichos parámetros. Esto es sólo válido si se hace con una muestra distinta e independiente de la que se va a usar para contrastar la bondad del ajuste. No se puede usar la misma muestra para ambos fines ya que entonces los valores de p i0 bajo H 0 en el estadísico de contraste no son constantes, sino variables aleatorias.

Contrastes χ 2 de bondad de ajuste En este caso se pueden estimar los q parámetros desconocidos por máxima verosimilitud y utilizar el siguiente estadístico de contraste: k (O i nˆp i0 ) 2 H0 χ 2 k 1 q nˆp i0 i=1 donde ˆp i0 es la probabilidad de pertenecer a A i si es cierta la distribución de la hipótesis nula con los q parámetros desconocidos estimados por máxima verosimilitud.

Ejemplo 3.2. Los siguientes datos corresponden al número de jugadores lesionados por partido de fútbol a lo largo de 200 encuentros observados: Número de jugadores lesionados 0 1 2 3 4 ó más Número de partidos 82 90 20 7 1 Puede admitirse que las observaciones corresponden a una distribución de Poisson?

Contraste de Kolmogorov-Smirnov Consideramos una variable aleatoria continua, X, con distribución desconocida F, de la que se tiene una muestra aleatoria simple, (X 1, X 2,..., X n ). Queremos contrastar si la muestra procede de una distribución F 0 conocida: H 0 : F = F 0 H 1 : F F 0 El contraste se basa en comparar la distribución empírica, ˆF n, obtenida a partir de los datos, con la propuesta, F 0, bajo la hipótesis nula, donde: ˆF n (x) = no de observaciones x n

Contraste de Kolmogorov-Smirnov Se puede comprobar (Th. de Glivenko-Cantelli) que ˆF n converge a F uniformemente con probabilidad uno, es decir: sup ˆF n (x) F (x) 0 x R c.s. Este resultado sugiere el estadístico de Kolmogorov-Smirnov: sup ˆF n (x) F 0 (x) n x R que proporciona una medida de discrepancia entre ˆF n y F 0 y cuya distribución, n, no depende de F 0. Este resultado es muy importante porque si la distribución del estadístico dependiera de F 0 sería necesario calcular su distribución bajo H 0 para cada problema en particular.

Contraste de Kolmogorov-Smirnov La región de rechazo del contraste es: { } R = sup ˆF n (x) F 0 (x) > n,α x R El p-valor es: ( ) p-valor = Pr n > sup ˆF n (x) F 0 (x) x R

Ejemplo 3.3. Se tiene una muestra aleatoria simple de duraciones de vida en miles de horas de un nuevo modelo de bombillas de bajo consumo: 16, 8, 10, 12, 6, 10, 20, 7, 2, 24. La distribución del tiempo de vida del modelo anterior estaba representado por una exponencial de media 11 horas, existe evidencia de que ha habido un cambio en la distribución de los tiempos de vida?

Contraste de Kolmogorov-Smirnov Las ventajas del contraste de Kolmogorov-Smirnov frente al test de la χ 2 son dos principalmente: 1. No se desprecia información contenida en la muestra al agrupar observaciones en clases. 2. Sirven para tamaños muestrales pequeños. La principal desventaja del contraste de Kolmogorov-Smirnov es que sólo vale para distribuciones continuas.

Contraste de Kolmogorov-Smirnov-Lilliefors para normalidad En el test de Kolmogorov-Smirnov se contrasta la bondad del ajuste a una distribución F 0 conocida. Sin embargo, en la práctica será necesario estimar los parámetros desconocidos que caracterizan a la distribución teórica, de modo que la distribución del estadístico cambiará. Si la distribución que se desea ajustar es una normal, se estima la media y la desviación típica por máxima verosimilitud y se usa el estadístico de Kolmogorov-Smirnov-Lilliefors: ( ) sup x x ˆF n (x) Φ L n s x R donde Φ es la función de distribución de una normal estándar, N(0, 1). El estadístico representa la máxima discrepancia entre la función de distribución empírica y la función de distribución de la normal ajustada. La distribución de este estadístico fue tabulada por Lilliefors.

Ejemplo 3.4. Se han tomados datos de errores de medición de una báscula de una laboratorio: -16, 7, 12, -1.6, -11, 3.2, 12, -3.9, 12, 3.8, -4.5, -9.1, 7.2, 15.7, -3.3, -16.6, 5.8, -15.4, 16.6, -7.6. Contrastar si dichos errores siguen una distribución normal.