CASO 5-3 MILAN FOOD COOPERATIVE (B) INTRODUCCIÓN Éste es una continuación del caso Milan Food Cooperative (A), de la parte 4 del texto. Aquí se presentan los resultados del análisis de correlación y regresión y se les solicita a los estudiantes que interpreten varias relaciones, determinen una función predictiva, determinen intervalos de confianza estadística y discutan suposiciones de análisis. OBJETIVOS DEL CASO ) Exponer a los estudiantes a una aplicación de dos técnicas comunes de análisis de datos, correlación y regresión. 2) Que los estudiantes practiquen la interpretación de resultados de correlación y regresión mientras reconocen las diversas suposiciones fundamentales de análisis. PREGUNTAS A ASIGNAR ) Para los resultados de la correlación: a) Qué interpretación puede dar a los resultados mostrados? b) Qué supuestos sustentan sus interpretaciones? c) Cómo podrían probarse estos supuestos?
2) Para los resultados de la regresión: a) Qué interpretación puede dar a estos resultados? b) Qué supuestos sustentan sus interpretaciones? c) Cómo podrían probarse estos supuestos? d) El R 2 bajo implica que nuestras variables independientes son malas predictoras de los gastos en alimentos? e) Fundamente su punto de vista. ANÁLISIS DEL CASO. Matriz de correlación a) Interpretación de los resultados de la matriz de correlación Deben examinarse dos tipos de asociaciones. Primero, estudiar las relaciones entre la variable dependiente (gasto semanal en alimentos) y las variables independientes (número de personas, ingreso, niños -8, niños menores de, educación y edad). La conclusión es que hay una relación razonablemente fuerte entre los gastos y ) personas (.43), 2) ingreso (.38) y 3) niños -8 (.40). Segundo, examine las relaciones entre variables independientes. La correlación es fuerte entre ) personas y niños -8 (.70), 2) personas y niños menores de (.5), 3) ingreso y educación (.48) y 4) niños -8 y niños menores de (.25). Note que no hay relación entre edad de la cabeza de familia y el número de personas. Ya que esto puede ser contraintuitivo para muchos, los estudiantes pueden buscar explicar esto. Aunque no hay una relación lineal, es posible una relación no lineal. La siguiente tabla de tabulación cruzada ilustra este punto. (Véase figura NE.) 2
Esta figura presenta una cuenta de frecuencia del número de encuestados en cada combinación de personas edad/número. Esta figura muestra una relación curvilínea muy fuerte entre edad y número de personas en la familia. En efecto, el sentido común predecirá esto. La gente más joven y la gente mayor tendrá casas más pequeñas que aquellos en los rangos de edad intermedios. La correlación lineal no ha encontrado una relación real. Ésta es una lección importante para que la aprendan los estudiantes. Figura NE Edad No. de personas 9+ 8 7 5 4 3 2 25 34 44 54 4 74 75+ 2 3 8 9 4 43 28 30 0 4 9 4 9 24 2 22 27 5 3 8 2 20 2 8 5 9 9 9 0 3 5 8 2 b) Suposiciones que sustentan las interpretaciones de la matriz de correlación La principal suposición es que las relaciones lineales predominan entre las variables. En la mayor parte de los casos, esto es probablemente del todo correcto, pero existen excepciones como las señaladas antes. 3
c) Probar estas suposiciones La anterior tabla de tabulación cruzada ilustra una violación de esta suposición. Otra forma de examinar si las relaciones son lineales es representándolas en una gráfica. Por ejemplo, la relación entre gastos semanales en alimentos y el número de personas en la familia también es no lineal (figura NE 2). Otras relaciones exhiben una gran cantidad de asociación lineal. 2. Resultados de la regresión a) Interpretar los resultados de la regresión Es posible estimar los gastos semanales en alimentos de una familia al introducir valores en la fórmula de regresión. Sin embargo, los niveles de significancia y los intervalos de confianza sugieren que los coeficientes para ciertas variables no deben tomarse en su valor nominal. Estas variables son: ) niños menores de años, 2) educación, y 3) edad de la cabeza de familia. Las conclusiones incluyen: ) Esta fórmula de estimación explica 29.% de la variabilidad total de los gastos semanales en alimentos; es decir, la varianza del verdadero gasto en alimentos alrededor de la línea de regresión (plana) es de alrededor de 70% de su varianza alrededor de los gastos en alimentos promedio. 2) Error estándar: Dado 5% de error de probabilidad, una estimación de gastos por una familia muestra particular puede estar fuera por US$35.30 o más. 4
3) Intervalos de confianza para los coeficientes: Los errores estándar de los coeficientes dan los siguientes intervalos de confianza de 95% (2 errores estándar) para los coeficientes: Personas 3.5 ±.42 Educación. ±.52 Niños 0- -.87 ± 4.4 Ingreso.77 ±.25 Niños -8 5.30 ± 4.0 Edad.025 ±.4 4) Coeficientes a) Los niños pequeños no comen tanto como los adolescentes y los adultos. b) En las familias donde la cabeza de familia es mayor y más educada, los gastos tiende a ser mayores. c) La significancia de estos tres coeficientes es débil. Por ejemplo, usando la edad aquí hay 7% de probabilidad de decir que el coeficiente de edad es diferente de cero cuando no lo es. 5) a) Usando la ecuación de regresión: 3.78 constante +(3.5 * número de personas) +(-.87 si hay niños menores de ) +(5.30 si hay niños -8) +(. * nivel de educación) +(.78 * ingreso en miles) +(.025 * edad en años) 5
Para una familia de cuatro, sin niños menores de, pero con niños de -8, donde la cabeza de familia es un graduado de universidad de 38 años y el ingreso familiar es US$25,000 el gasto en alimentos estimado es: (3.78) + (3.4 4) + (-.87 0) + (5.30 ) + (. 5) + (.78 25) + (.025 38) = US$58.42/semana R2 = 0.29 error estándar del SSE estimado = 7.5 Los valores de las variables son de Milan Food Cooperative (A). b) Suposiciones que sustentan las interpretaciones de la regresión ) La multicolinealidad no está presente 2) Las interacciones no están presentes 3) Las relaciones entre variables dependientes e independientes son lineales c) Probar estas suposiciones Las figuras NE y 2 ilustran pruebas para relaciones lineales. Análisis similares pueden realizarse en otras variables. La figura NE 3 ilustra la existencia de multicolinealidad entre educación e ingreso mientras que la figura NE 4 ilustra los efectos de la interacción del ingreso en la relación entre el número de personas y el gasto semanal en alimentos. Por tanto, estos datos contienen relaciones no lineales entre la variable dependiente y algunas variables independientes, la multicolinealidad entre variables predictoras, y alguna interacción (efectos no aditivos). Esto demuestra en forma clara el riesgo de correr a ciegas un paquete de regresión enlatado e interpretar de manera directa los coeficientes.
d) y e) El valor bajo de R 2 implica que nuestras variables independientes son malas predictoras de los gastos en alimentos? No necesariamente. Aunque hay otras variables que se relacionan con los gastos en alimentos y quizá puedan mejorar la predicción, pueden resaltarse varios puntos acerca de las variables usadas en esta ecuación de regresión. ) Una transformación a escala logarítmica puede resolver el problema de no linealidad entre gasto y número de personas. 2) Los problemas de interacción (gasto en alimentos/número de personas/ ingreso) pueden ser resueltos por el uso de variables falsas. 3) Los errores de medición sin duda están presentes. Por ejemplo, un encuestado recuerda en forma incorrecta el gasto real en alimentos o no registra una compra rápida de emergencia. 4) El problema de multicolinealidad puede resolverse al dejar fuera variables correlacionadas, o índices formados. 5) Resulta que una ecuación de tres variables usando número de personas, ingreso y niños -8 provee en esencia la misma estimación de gasto en alimentos. 7
ESTRATEGIA DE ENSEÑANZA Si no se hizo el caso Milan Food Cooperative (A), instruya a los estudiantes para que lo lean como antecedente. Si se hizo, un repaso es útil. Ésta es una buena oportunidad para revisar los principios, si no las mecánicas de la covarianza, la correlación, la multicolinealidad, la interacción, la regresión múltiple, etc. Primero, puede examinarse la matriz de correlación con el instructor solicitando a los estudiantes que interpreten varias relaciones correlacionales. Luego puede examinarse del mismo modo la tabla de regresión. Ésta es una buena oportunidad para que el instructor explique o ilustre la regresión gradual. Por lo general, el instructor debe tomar la dirección de esta discusión. Los estudiantes de manera típica no entienden todas las complejidades de la correlación y la regresión. También es útil tener el material en las figuras NE -4 disponibles por medio de un proyector de cuerpos opacos. También note que las pruebas estadísticas realizadas implican que los datos son de una muestra, no de un censo. Los estudiantes no tienen dificultad para hacer esta suposición para la discusión del caso. 8
FIGURA NE 2 RELACIÓN ENTRE GASTOS SEMANALES EN ALIMENTOS Y EL NÚMERO DE PERSONAS EN LA FAMILIA (RELACIÓN NO LINEAL) GASTO PROMEDIO EN ALIMENTOS $ No. TOTAL DE PERSONAS 9
FIGURA NE 3 RELACIÓN ENTRE INGRESO FAMILIAR ANUAL Y EDUCACIÓN DE LA CABEZA DE FAMILIA INGRESO ANUAL PROMEDIO DE $ (000) (MULTICOLINEALIDAD) -8 GRADOS 9- BACHILLE- RATO ALGUNA ESCUELA VOCA- CIONAL UNIVER- SIDAD EDUCACIÓN DE LA CABEZA DE FAMILIA 0
FIGURA NE 4 RELACIÓN ENTRE GASTOS EN ALIMENTOS Y NÚMERO DE PERSONAS EN LA FAMILIA PARA TRES GRUPOS DE INGRESO GASTO SEMANAL EN ALIMENTACIÓN (INTERACCIÓN) INGRESO MAYOR DE $5.000 INGRESO DE $,000-$4,999 INGRESO MENOR DE $,000 No. TOTAL DE PERSONAS O MÁS Ecuaciones de regresión para las líneas: Alta: Gastos en Alim. = $29.5 + 5.70 (personas); N = 0 Media: Gastos en Alim. = $34.5 + 3.7 (personas); N = 247 Baja: Gastos en Alim. = $20.0 + 3.88 (personas); N = 52