Abril 2016 Ing. Rubén Darío Estrella, MBA Cavaliere dell ordine al Merito della Repubblica Italiana (2003) Ingeniero de Sistemas (UNIBE 1993), Administrador (PUCMM 2000), Matemático (PUCMM 2007), Teólogo (UNEV 2002) y Maestro (Salomé Uneña 1985) rubendarioestrella@hotmail.com / rubendarioestrellas@gmail.com www.atalayadecristo.org
En la practica, surgen muchas situaciones en las cuales simplemente no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro o sobre la forma de la distribución poblacional. Mas bien se deben utilizar otras pruebas que no dependan de un solo tipo de distribución o de valores de parámetros específicos. Estas pruebas se denominan Pruebas no paramétricas o libres de distribución. Pruebas no paramétricas. Son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles los supuestos respecto a los parámetros o a las distribuciones poblacionales.
Experimento multinomial. Es un experimento que satisface las siguientes condiciones. 1. El número de ensayos es fijo. 2. Los ensayos son independientes. 3. Todos los resultados de ensayos individuales se deben clasificar en una y sólo una de varias categorías distintas. 4. Las probabilidades de las diferentes categorías se mantienen constantes para cada ensayo. Distribución Chi-cuadrado Las dos aplicaciones más comunes de Chi-cuadrado son: 1. Pruebas de bondad de ajuste. 2. Pruebas de independencia.
Prueba de bondad de ajuste. Sirve para probar la hipótesis de que una distribución de frecuencia observada se ajusta a (o concuerda con) alguna distribución propuesta. Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de distribución particular planteada como hipótesis. Si el ajuste es razonablemente cercano, puede concluirse que si existe la forma de distribución planteada como hipótesis. Por ejemplo, se puede plantear la hipótesis que la distribución poblacional es normal y que todos los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se probarían son: Ho: La distribución poblacional es normal. Ha: La distribución poblacional no es normal.
Prueba de bondad de ajuste. Si existe una gran diferencia entre lo que realmente se observa en la muestra y lo que se esperaría observar si la hipótesis nula fuera correcta, en tal caso es menos probable que la hipótesis nula sea verdadera. Es decir, la hipótesis nula debe rechazarse cuando las observaciones obtenidas en la muestra difieren mucho del patrón que se espera que ocurra si la distribución planteada como hipótesis si se presenta.
En las pruebas de bondad de ajuste usaremos la siguiente notación: Oi representa la frecuencia observada de un resultado. Ei representa la frecuencia esperada de un resultado. k representa el número de diferentes categorías o resultados. n representa el número de ensayos total. La prueba Chi-cuadrado tiene k-m-1 grados de libertad, en donde m es el número de parámetros a estimar.
En muchos casos, podemos determinar una frecuencia esperada multiplicando la probabilidad p de una categoría por el número de ensayos distintos n: E = np Por ejemplo, si probamos la aseveración de que un dado es equitativo lanzándolo 60 veces, tendremos n = 60 (porque hay 60 ensayos) y p = 1/6 (porque un dado es equitativo sí los seis posibles resultados son igualmente probables, con la misma probabilidad de 1/6). Por tanto, la frecuencia esperada para cada categoría o celda es: E = np E = 60(1/6) = 10
Supuestos. Los supuestos siguientes aplican cuando probamos una hipótesis de que la proporción de población para cada una de las k categorías (de un experimento multinomial) es la que se asegura. 1. Los datos constituyen una muestra aleatoria. 2. Los datos de muestra consisten en conteos de frecuencia para las k diferentes categorías. 3. Para cada una de las k categorías, la frecuencia esperada es por lo menos 5. La prueba de Chi-cuadrado de bondad de ajuste es confiable solo si todo Ei es por lo menos 5. Estadística de prueba para pruebas de bondad del ajuste en experimentos multinomiales. ² = [(Oi-Ei)^2/Ei]
Valores Críticos. 1. Los valores críticos se encuentran en la tabla de Chi-cuadrado usando k-1 grados de libertad, donde k es el número de categorías. 2. Las pruebas de hipótesis de bondad del ajuste siempre son de cola derecha. La forma de la estadística de prueba ² es tal que una concordancia cercana entre los valores observados y los esperados produce un valor pequeño de ². Un valor grande de ² indica una fuerte discrepancia entre los valores observados y los esperados. Por tanto, un valor significativamente alto de ² hará que se rechace la hipótesis nula de que no hay diferencia entre las frecuencias observadas y esperadas. Entonces, la prueba es de cola derecha porque el valor crítico y la región crítica se encuentran a la extrema derecha de la distribución. A diferencia de pruebas de hipótesis previas en las que teníamos que determinar si la prueba era de cola izquierda, de cola derecha o de dos colas, todas estas pruebas de bondad del ajuste son de cola derecha.
Caso I. Jennifer Calcaño gerente de crédito del BHD, en la torre Principal en Santo Domingo, trata de seguir una política de extender un 60% de sus créditos a empresas comerciales, un 10% a personas naturales y un 30% a prestatarios extranjeros. Para determinar si la política se estaba siguiendo, José Rondón, vicepresidente de mercadeo, selecciona 85 créditos que se aprobaron recientemente. Encuentra que 62 de tales créditos se otorgaron a negocios, 10 a personas naturales, y 13 a prestatarios extranjeros. Al nivel del 10%, parece que el patrón de cartera deseado se preserva? Pruebe la hipótesis de que: Ho: Se mantuvo el patrón deseado: 60% son créditos comerciales, 10% son prestamos personales y 30% son créditos extranjeros. Ha: El patrón deseado no se mantuvo.
Tabla de Tipo de Crédito Tipo de Credito Oi p Ei=n*p Comercial 62.00 0.60 51.00 Personal 10.00 0.10 8.50 Extranjero 13.00 0.30 25.50 Total = n 85.00 85.00
Tabla de Tipo de Crédito Tipo de Credito Oi p Ei=n*p Comercial 62.00 0.60 51.00 Personal 10.00 0.10 8.50 Extranjero 13.00 0.30 25.50 Total = n 85.00 85.00
Tipo de Credito p Oi Ei =np (Oi-Ei) (Oi-Ei)^2 (Oi-Ei)^2/Ei Comercial 0.60 62.00 51.00 11.00 121.00 2.37 Personal 0.10 10.00 8.50 1.50 2.25 0.26 Extranjero 0.30 13.00 25.50-12.50 156.25 6.13 Total 1.00 85,00 85,00 CHI-CUADRAD 8.76
Estadística de prueba para pruebas de bondad del ajuste en experimentos multinomiales. El valor ² es ²= [(Oi-Ei)²/Ei] ²=[(62-51)²/51]+[(10-8.5)²/8.5]+[(13-25.5)²/25.5] = 8.76 Valores Críticos. 1. Los valores críticos se encuentran en la tabla de Chi-cuadrado usando k-1 grados de libertad, donde k es el numero de categorías. 2. Las pruebas de hipótesis de bondad del ajuste siempre son de cola derecha. Con un = 10% y k = 3 categorías de crédito (comerciales, privados y extranjeros), existen k-m-1= 3-0-1=2 grados de libertad, el valor critico es ² 0.10, 2 = 4.605 Regla de decisión: "No rechazar la hipótesis nula ² 4.605. Rechazar sí la hipótesis nula ² > 4.605.
f(chisq) Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 0 Chisq 1 Goodness of Fit Test 2 3 4 4.61 observed expected O - E (O - E)² / E % of chisq 62 51.000 11.000 2.373 27.07 10 8.500 1.500 0.265 3.02 13 25.500-12.500 6.127 69.91 85 85.000 0.000 8.765 100.00 chisquare 8.76 1 df.0031 p-value 5 6 7 8 I PLANTIAMIENTO DE HIPOTES HO: SE MANTUVO EL PATRON DESEADO: 60% COMERCIAL - 10% PERSONAL - 30% EXTRANJERO HA: NO SE MANTUVO EL PATRON DESEADO II ESTADISTICA DE PRUEBA - CHI CUADRADA CHI C. = 8.76 III REGLA DE DECISION. SE ACEPTA SI CHI ES MENOR QUE 4.61 SE RECHAZA SI CHI ES MAYOR QUE 4.61 SE RECHAZA LA HO IV INTERPRETACION NO SE ESTA CUMPLIENDO CON LA POLITICA DE CREDITO DEL BANCO 9 10
Caso II. Prueba de normalidad. Las especificaciones para la producción de tanques de aire utilizados en inmersión requieren que los tanques se llenen a una presión de 600 libras por pulgadas cuadradas (psi). Se permite una desviación de 10 psi. Las especificaciones de seguridad permiten una distribución normal en los niveles de llenado. Usted acaba de ser contratado por Aqua Lung, un importante fabricante de equipos de inmersión. Su primera tarea es determinar si los niveles de llenado se ajustan a una distribución normal. Aqua Lung esta seguro de que media de 600 psi y la desviación estándar de 10 psi prevalecen. En este esfuerzo se miden n=1000 tanques y se halla la distribución presentada en la siguiente tabla. Sus hipótesis son: Ho: Los niveles de llenado están distribuidos normalmente. Ha: Los niveles de llenado no están distribuidos normalmente.
Frecuencia Probabilidades Frecuencias PSI Real Oi pi Esperadas Ei O-E (O-E)^2 [(O-E)^2]/ E 0 y por debajo de 580 20 580 y por debajo de 590 142 590 y por debajo de 600 310 600 y por debajo de 610 370 610 y por debajo de 620 128 6200 y por encma 30 Totales 1000
Determine la probabilidad para cada clase mediante la formula Z y complete la tabla de probabilidades y frecuencias esperadas. X => viene dado por cada valor del rango de los PSI. Media = 600 psi Desviación = 10 psi Por ejemplo Z = (580 600) / 10 = - 2 P(z=2) = 0.4772 P(z<2) = P(por debajo de 580)= 0.5 0.4772 = 0.0228
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207
Frecuencia Probabilidades Frecuencias PSI Real Oi pi Esperadas Ei O-E (O-E)^2 [(O-E)^2]/ E 0 y por debajo de 580 20 0.0228 22.80-2.80 7.84 0.344 580 y por debajo de 590 142 0.1359 135.90 6.10 37.21 0.274 590 y por debajo de 600 310 0.3413 341.30-31.30 979.69 2.870 600 y por debajo de 610 370 0.3413 341.30 28.70 823.69 2.413 610 y por debajo de 620 128 0.1359 135.90-7.90 62.41 0.459 620 y por encma 30 0.0228 22.80 7.20 51.84 2.274 Totales 1000 1 CHI CUADRADA 8.634
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 Goodness of Fit Test observed expected O - E (O - E)² / E % of chisq 20 22.800-2.800 0.344 3.98 142 135.900 6.100 0.274 3.17 310 341.300-31.300 2.870 33.24 370 341.300 28.700 2.413 27.95 128 135.900-7.900 0.459 5.32 30 22.800 7.200 2.274 26.33 1000 1000.000 0.000 8.634 100.00 chisquare 8.63 5 df.1246 p-value
Valor Critico. Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media poblacional como la desviación estándar son dadas y no tienen que estimarse, m = 0. Existe k = 6 clases en la tabla de frecuencias, de manera que los grados de libertad son k- 1=5. Se encuentra que el valor critico es ² 0.05,5 =11.070 Regla de decisión: "No rechazar la hipótesis nula si ² es menor que 11.070. Rechazar la hipótesis nula si ² es mayor que 11.070" Determine el valor ² = [(Oi-Ei)/Ei] Interpretación: La hipótesis nula se acepta. Las diferencias entre lo que se observo y lo que se espera observar si los contenidos estuvieran distribuidos normalmente con una media de 600 y una desviación estándar de 10 pueden atribuirse al error de muestreo. Si la media poblacional y la desviación estándar no fueran conocidas, se hubieran tenido que estimar de los datos muestrales de la tabla. Entonces m=2, y los grados de libertad serian k-2-1 o 6-2-1=3.
f(chisq) Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 0 Chisq 1 Goodness of Fit Test 2 3 4 5 6 7 8 9 10 11 11.07 12 13 14 15 16 observexpecte (O - E)² / % of ed d O - E E chisq 20 22.800-2.800 0.344 3.98 142135.900 6.100 0.274 3.17 310341.300-31.300 2.870 33.24 370341.300 28.700 2.413 27.95 128135.900-7.900 0.459 5.32 30 22.800 7.200 2.274 26.33 1000.00 1000 0 0.000 8.634 100.00 chisquare 8.63 I PLANTIAMIENTO DE HIPOTES HO: LOS NIVELES DE LLENADO ESTAN DISTRIBUIDO NORMALMENTE HA: LOS NIVELES DE LLENADO ESTAN DISTRIBUIDO NORMALMENTE II ESTADISTICA DE PRUEBA - CHI CUADRADA CHI C. = 8.63 III REGLA DE DECISION. SE ACEPTA SI CHI ES MENOR QUE 11.07 SE RECHAZA SI CHI ES MAYOR QUE 11.07 SE ACEPTA LA HO IV INTERPRETACION LOS NIVELES DE LLENADOS ESTAN DISTRIBUIDOS NORMALMENTE
Tablas de contingencia. Una prueba de independencia. Tabla de Contingencia o tabla de frecuencia bidireccional. Es una tabla en la que las frecuencias corresponden a dos variables. (Se utiliza una variable para clasificar las filas y otra para clasificar las columnas). Las tablas contingencias son aquellas que sirven para comparar dos variables. Prueba de independencia. Una prueba de independencia prueba la hipótesis nula de que la variable de fila y la variable de columna de una tabla de contingencia no están relacionadas. (La hipótesis nula es la declaración de que las variables de fila y de columna son independientes.) Es muy importante reconocer que, en este contexto, la palabra contingencia se refiere a dependencia, pero sólo se trata de una dependencia estadística y no puede usarse para establecer un vínculo directo de causa y efecto entre las dos variables en cuestión.
Supuestos. Al probar la hipótesis nula de independencia entre las variables de fila y de columna de una tabla de contingencia, aplican los supuestos siguientes (Obsérvese que estos supuestos no exigen que la población padre tenga una distribución normal ni alguna otra distribución especifica.) 1. Los datos de muestra se escogen aleatoriamente. 2. La hipótesis nula Ho es la declaración de que las variables de fila y de columna son independientes; la hipotesis alternativa Ha es la declaracion de que las variables de fila y de columna son dependientes. 3. Para cada celda de la tabla de contingencia, la frecuencia esperada E es de por lo menos 5. Estadística de prueba para prueba de independencia. ² = [(Oi-Ei)^2/Ei]
Valores críticos. 1. Los valores críticos se encuentran en la tabla usando: grados de libertad = (r-1)(c-1) 2. Las pruebas de independencia con tablas de contingencia solo implican regiones criticas de cola derecha. Frecuencia esperada para una tabla de contingencia. Frecuencia esperada (E)= [(Total de fila)*(total de columna)]/gran Total La estadística de prueba nos permite medir el grado de discrepancia entre las frecuencias observadas y las que esperaríamos en teoría si las dos variables son independientes. Valores pequeños de la estadística de prueba ² indican coincidencia entre las frecuencias observadas y las frecuencias esperadas con variables de fila y de columna independientes. Los valores grandes de la estadística de prueba ² están a la derecha de la distribución Chi-cuadrada y reflejan diferencias significativas entre las frecuencias observadas y las esperadas. En muestreos grandes repetidos, la distribución de la estadística de prueba ² se puede aproximar con la distribución Chicuadrada, siempre que todas las frecuencias esperadas sean de por lo menos 5.
Caso I. Santo Domingo Motors desea determinar si existe alguna relación entre el ingreso de los clientes y la importancia que dan al precio de los automóviles de lujo. Los gerentes de la compañía desean probar la hipótesis de que: Ho: Ingreso e importancia del precio son independientes. Ha: Ingreso e importancia del precio no son independientes. Los clientes están agrupados en tres niveles de ingreso y se les pide asignar un nivel de significancia para poner precio a la decisión de compra. Los resultados se muestran en la siguiente tabla de contingencia.
Atributo b: Ingresos Atributo a : Nivel de Importancia Ba jo Me dio Alto Total Gra nde 83 62 37 182 Frecuencia Esperada Mode ra do 52 71 49 172 Frecuencia Esperada Poco 63 58 63 184 Frecuencia Esperada Totales 198 191 149 538
Atributo b: Ingresos Atributo a : Nivel de Importancia Ba jo Me dio Alto Total Gra nde 83 62 37 182 Frecuencia Esperada 66.98 64.61 50.41 Mode ra do 52 71 49 172 Frecuencia Esperada 63.30 61.06 47.64 Poco 63 58 63 184 Frecuencia Esperada 67.72 65.32 50.96 Totales 198 191 149 538
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 (Oi-Ei)^2/Ei Atributo b: Atributo a: Ingresos Nivel de Importancia Bajo Medio Alto Total Grande 3.83 0.11 3.57 7.50 Moderado 2.02 1.62 0.04 3.67 Poco 0.33 0.82 2.85 3.99 Totales 6.18 2.54 6.45 15.17
Atributo b: Ingresos Oi-Ei Oi-Ei Oi-Ei tributo a : Nive l de Importa nci Ba jo Me dio Alto Gra nde 16.02-2.61-13.41 M ode ra do -11.30 9.94 1.36 P oco -4.72-7.32 12.04 Atributo b: Ingresos (Oi-Ei)^2/ Ei (Oi-Ei)^2/ Ei (Oi-Ei)^2/ Ei tributo a : Nive l de Importa nci Ba jo Me dio Alto Gra nde 3.83 0.11 3.57 M ode ra do 2.02 1.62 0.04 P oco 0.33 0.82 2.85 T OT ALE S 6.18 2.54 6.45 CHI CUADRA 15.17
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 Chi-square Contingency Table Test for Independence Bajo Medio Alto Total Grande 83 62 37 182 Moderado 52 71 49 172 Poco 63 58 63 184 Total 198 191 149 538 15.17chi-square 4df.0044p-value
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 Chi-square Contingency Table Test for Independence Bajo Medio Alto Total Grande Observed 83 62 37 182 Expected 66.98 64.61 50.41 182.00 O - E 16.02-2.61-13.41 0.00 (O - E)² / E 3.83 0.11 3.57 7.50 Moderado Observed 52 71 49 172 Expected 63.30 61.06 47.64 172.00 O - E -11.30 9.94 1.36 0.00 (O - E)² / E 2.02 1.62 0.04 3.67 Poco Observed 63 58 63 184 Expected 67.72 65.32 50.96 184.00 O - E -4.72-7.32 12.04 0.00 (O - E)² / E 0.33 0.82 2.85 3.99 Total Observed 198 191 149 538 Expected 198.00 191.00 149.00 538.00 O - E 0.00 0.00 0.00 0.00 (O - E)² / E 6.18 2.54 6.45 15.17 15.17 chi-square 4 df.0044 p-value
El valor ²= [(Oi-Ei)/Ei] Valores críticos. 1. Los valores críticos se encuentran en la tabla usando: grados de libertad = (r-1)(c-1) 2. Las pruebas de independencia con tablas de contingencia solo implican regiones criticas de cola derecha. Si se determina en 1%, y con (f-1)(c-1) = (3-1)(3-1) = 4 grados de libertad ²0.01,4 = 13.277. Regla de decisión: "No rechazar la hipotesis nula si ² es menor que 13.277. Rechazar la hipótesis nula si ² es mayor que 13.277" Interpretación. La hipótesis nula se rechaza. Existe solo 1% de probabilidad de que si no existe relación entre ingreso y significancia del precio, las diferencias entre Oi y Ei serian lo suficientemente grandes como para producir un Chi-cuadrado más grande que 13.277. Existe evidencia de una relación entre el ingreso de los clientes y la importancia dada al precio de un auto de lujo.
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 Chi-square Contingency Table Test for Independence f(chisq) Bajo Medio Alto Total Grande 83 62 37 182 Modera do 52 71 49 172 Poco 63 58 63 184 Total 198 191 149 538 chi- 4df 15.17square.0044p-value 0 Chisq 1 2 3 4 5 6 7 8 9 10 11 12 13 13.28 14
Pruebas No Paramétricas ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. Pág. 207 Caso V. En un análisis de segmentación de mercado para tres cervezas, el grupo de investigación encargado ha planteado la duda de si las preferencias para las tres cervezas son diferentes entre los consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del sexo del consumidor, se iniciaría una campaña publicitaria para todas las cervezas. Sin embargo, si la preferencia depende del sexo del consumidor, se ajustarán los promociones para tener en cuenta los distintos mercados metas. Pruebe el supuesto a un nivel de significancia de un 5%. Los datos de la tabla constituyen las frecuencias observadas para las seis clases o categorías. CERVEZA PREFERID SEXO LIGERA CLARA OSCURA HOMBRE 20 40 20 MUJER 30 30 10