CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS 1

POR QUÉ SE LLAMAN CONTRASTES NO PARAMÉTRICOS? A diferencia de lo que ocurría en la inferencia paramétrica, ahora, el desconocimiento de la población que vamos a estudiar no se reduce al valor de un parámetro poblacional, sino que es mucho más amplio. Las hipótesis que contrastaremos no hacen referencia a parámetros poblacionales. 2

TESTS c 2 Su nombre se debe a que el estadístico que se usará para realizar el contraste tendrá, aproximadamente, una distribución c 2 de Pearson. 1. Bondad del ajuste (Caso I y Caso II) 2. Test de Homogeneidad 3. Test de Independencia 3

CONTRASTE DE BONDAD DEL AJUSTE (I) SITUACIÓN: X es una variable aleatoria poblacional con distribución desconocida. Extraemos una m.a.s. de la población (X 1,,X n ). A la vista de la muestra, es razonable admitir que X sigue la distribución F 0? H 0 : X sigue la distribución F 0 H a : X no sigue la distribución F 0 Distribución teórica 4

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X) en k clases A 1,,A k. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k. O i = frecuencia observada en A i = número de elementos de la m.a.s (x 1,,x n ) que se han situado en la clase A i e i = frecuencia esperada en A i si H 0 es cierta = np(a i ) O i (e i ) A 1.. A k O 1 O k (e 1 ) (e k ) n e i es la esperanza de una B(n,P(A i )) 5

PASO 3: Utilizar el estadístico l de Pearson nº de clases Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. 6

Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 k-1,a} Nota: Por comodidad, normalmente se usa la siguiente expresión, equivalente a la ya dada, para calcular el valor de l: 7

EJEMPLO 1: Para comprobar si un dado está o no cargado, se lanzó 600 veces, con los siguientes resultados: 1 2 3 4 5 6 Total O i 103 98 89 109 100 101 600 A la vista de estos datos, podemos afirmar si el dado está cargado o no? H 0 : El dado no está cargado H a : El dado está cargado A i ={i}, i=1,,6 P(A i )=1/6 8

1 2 3 4 5 6 Total O i (e i ) 103 (100) 98 (100) 89 (100) 109 (100) 100 (100) 101 (100) 600 np(a i ) n Tomamos a = 0.05 Aceptamos H 0 con un nivel de significación 0.05, es decir, a la vista de estos datos, no podemos afirmar que el dado esté cargado. Confirma la decisión de aceptar H 0 9

EJEMPLO 2: Se quiere averiguar si el número de hijos por matrimonio, X, en cierta población sigue una distribución binomial de parámetros 3 y 0.5. Para ello se encuestó a 100 matrimonios obteniéndose los siguientes resultados: X 0 1 2 3 O i 22 42 28 8 100 Qué podemos afirmar a la vista de estos datos? H 0 : X sigue una B(3,0.5) H a : X no sigue una B(3,0.5) A i ={i-1}, i=1,,4 P(X=0)=0.125 P(X=1)=0.375 P(X=2)=0.375 P(X=3)= 0.125 10

X 0 1 2 3 O i (e i ) 22 (12.5) 42 (37.5) 28 (37.5) 8 (12.5) 100 Rechazamos que X siga una binomial de parámetros 3 y 0.05 11

BONDAD DEL AJUSTE:CASO 2 En ocasiones queremos averiguar si los datos se ajustan a un determinado tipo de distribución pero sin precisar los valores de los parámetros que la caracterizan. Así por ejemplo, para realizar muchos de los contrastes del tema anterior, necesitamos saber si la variable poblacional sigue una distribución normal. Por lo tanto, debemos contrastar la normalidad de los datos, pero sin precisar la media y la varianza poblacionales. 12

DOS DIFERENCIAS Trabajamos con los estimadores de máxima verosimilitud. Calculamos las frecuencias esperadas si los estimadores fueran los autenticos CUIDADO: Si usamos los mismos datos muestrales para estimar r parámetros poblacionales desconocidos y para realizar el contraste de bondad del ajuste, el estadístico l de Pearson se aproxima a una c 2 k-1-r en lugar de a una c 2 k-1. 13

EJEMPLO 3: Al digitalizar 300 imágenes se ha obtenido la siguiente distribución de frecuencias absolutas del tamaño en Kb del fichero correspondiente: X 36-38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54-56 O i 6 9 33 48 54 57 45 30 12 6 300 Podemos afirmar, a la vista de estos datos, que X sigue una distribución normal? ˆ 3.88 H 0 : X sigue una N H a : X no sigue una N 14

X <38 38-40 40-42 42-44 44-46 46-48 48-50 50-52 52-54 54 O i (e i ) 6 (5.9) 9 (12.3) 33 (27.3) 48 (45) 54 (59.5) 57 (59.5) 45 (45) 30 (27.3) 12 (12.3) 6 (5.9) 300 P(X<38)=P(Z<(38-46)/3.88)=P(Z<-2.06)=0.0197 e 1 =0.0197*300=5.9 10-1-2=7 c 2 7,0.01 12.017 Aceptamos al nivel 0.01 15

CONSIDERACIONES ADICIONALES PRIMERA: - Para que l se aproxime a una c 2, además de que el tamaño muestral sea grande, las frecuencias esperadas no pueden ser muy pequeñas. - Por norma se requiere que e i 5 para el 20% de las clases i=1,,k 16

SEGUNDA: -Cuando ni la estructura del problema, ni la agrupación de las observaciones muestrales, nos sugieran las clases A 1,,A k más adecuadas para dividir el espacio muestral, lo más conveniente es elegirlas de forma que P(A i )=1/k para i=1,,k, con k<n/5. - De esta forma conseguimos una mejor aproximación de la distribución del estadístico l a una distribución c 2, y que las frecuencias esperadas no sean pequeñas. 17

CONTRASTE DE HOMOGENEIDAD DE POBLACIONES SITUACIÓN: X es una característica común a r poblaciones independientes. Extraemos m.a.s. de cada población con A la vista de las muestras, es razonable admitir que las poblaciones son homogéneas, es decir, que todas ellas siguen la misma distribución? H 0 : Las poblaciones son homogéneas H a : Las poblaciones no son homogéneas 18

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (que es común a todas las poblaciones) en k clases A 1,,A k. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k y j=1,,r. O ij = frecuencia observada en A i con la muestra j- ésima= número de elementos de la muestra j-ésima que se han situado en la clase A i e ij = frecuencia esperada en A i con la muestra j-ésima si H 0 es cierta = n j P(A i ) e ij es la esperanza de una B(n j,p(a i )) 19

Muestra 1 Muestra j Muestra r m j A 1 O 11 (e 11 ) O 1j (e 1j ) O 1r (e 1r ) A i O i1 (e i1 ) O ij (e ij ) O ir (e ir ) A k O k1 (e k1 ) O kj (e ki ) O kr (e kr ) m 1 m i m k Frecuencias marginales n i n 1 n j n r n Desconocido Tamaños muestrales Suponiendo cierta H 0 20

PASO 3: Utilizar el estadístico l de Pearson nº de clases nº de muestras Contrastes de hipótesis no paramétricos Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Demostración: Para la muestra j-ésima, Sumando los r estadísticos que tenemos,como las poblaciones son independientes, tenemos que Pero como no conocemos la distribución que siguen las poblaciones, hemos tenido que estimar k-1 probabilidades para estimar los e ij, por lo tanto 21

Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 (k-1) (r-1),a} 22

EJEMPLO 5: Un estudio sobre tabaquismo en las comunidades de Galicia, Madrid y Cataluña proporcionó los siguientes resultados: Comunidad Fumadores No fumadores Total Galicia 13 87 100 Madrid 17 83 100 Cataluña 18 82 100 Pueden considerarse homogéneas las tres poblaciones en cuanto a sus hábitos fumadores? H 0 : Las poblaciones son homogéneas H a : Las poblaciones no son homogéneas 23

Comunidad Fumadores No fumadores Total Galicia Madrid Cataluña Muestras r=3 c 2 4,605 2,0.1 Clases 13 (16) 17 (16) 18 (16) k=2 87 (84) 83 (84) 82 (84) Contrastes de hipótesis no paramétricos 100 100 100 48 252 300 Frecuencias marginales Aceptamos que las poblaciones son homogéneas Tamaños muestrales 24

CONTRASTE DE INDEPENDENCIA DE CARACTERES SITUACIÓN: X e Y son dos características de una misma población. Extraemos una m.a.s. de la población ((X 1, Y 1 ),, ((X n, Y n ) ). A la vista de la muestra, es razonable admitir que las características son independientes? H 0 : Las características son independientes H a : Las características no son independientes 25

PASOS A SEGUIR: PASO 1: Hacer una partición (arbitraria) del espacio muestral (posibles valores de X e Y) en k x r clases A 1 x B 1,, A i x B j,,a k x B r. PASO 2: Calcular las siguientes frecuencias absolutas para i=1,,k y j=1,,r. O ij = frecuencia observada en A i x B j = número de elementos de la muestra j-ésima que se han situado en la clase A i x B j e ij = frecuencia esperada en A i x B j si H 0 es cierta = n P(A i ) P(B j ) e ij es la esperanza de una B(n,P(A i )P(B j )) 26

Tabla de contingencias k x r Contrastes de hipótesis no paramétricos A 1 O 11 (e 11 ) B 1 B j B r n i. O 1j (e 1j ) O 1r (e 1r ) A i O i1 (e i1 ) O ij (e ij ) O ir (e ir ) A k O k1 (e k1 ) O kj (e ki ) O kr (e kr ) n 1. n i. n k. Frecuencias marginales n.j n.1 n.j n.r n Desconocido Frecuencias marginales 27

PASO 3: Utilizar el estadístico l de Pearson Contrastes de hipótesis no paramétricos Mide la discrepancia entre las frecuencias observadas y las esperadas, si se supone cierta H 0 si n es grande y H 0 es cierta Demostración: Como el número de clases es rk, Pero como no conocemos las distribuciones que siguen las dos variables poblacionales, hemos tenido que estimar k-1+r-1 probabilidades para estimar los e ij, por lo tanto 28

Observación: Si H 0 es cierta, es de esperar que las frecuencias observadas y las esperadas sean parecidas, por lo que si efectivamente H 0 es cierta, el estadístico l debería de tomar valores próximos a cero. Consecuencia: Rechazaremos la hipótesis nula cuando los valores del estadístico l de Pearson sean grandes, y la aceptaremos cuando sean pequeños. La separación entre valores grandes y pequeños viene dada por la elección de un nivel de significación a. Región crítica: C = {l>c 2 (k-1) (r-1),a} 29

EJEMPLO 6: Para averiguar si existe relación entre el peso y la altura de los segovianos, se extrajo una m.a.s. con los siguientes resultados: 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 50-60 10 8 2 1 60-70 6 14 6 2 70-80 2 8 18 5 80-90 0 4 6 8 Qué conclusión podemos extraer de estos datos? H 0 : El peso y la altura son independientes H a : El peso y la altura no son independientes 30

Altura Peso 50-60 60-70 70-80 80-90 1.55-1.65 1.65-1.75 1.75-1.85 1.85-1.95 10 8 2 1 (3.78) (7.14) (6.72) (3.36) 21 6 14 6 2 (5.04) (9.52) (8.96) (4.48) 28 2 8 18 5 (5.94) (11.22) (10.56) (5.28) 33 0 4 6 8 (3.24) (6.12) (5.76) (2.88) 18 18 34 32 16 100 3.78=28*18/100 K=3=r l 39,459 c 2 3*3,0.1 21,66 Rechazo H_0 31