Regresión con variables cualitativas

3 Regresión con variables cualitativas. Introducción Hasta ahora hemos abordado el tema de la correlación y la regresión con variables cuantitativas. Sin embargo, un estudio de regresión similar puede desarrollarse si contamos con una variable -la variable X- que sea cualitativa de dos o más categorías. En esta circunstancia se trata de conocer la regresión de X (una variable que adopta valores cualitativamente diferentes) sobre una variable Y cuya escala de medida es al menos de intervalo. El análisis estadístico del contraste de medias (mediante el análisis de la varianza) puede ser interpretado como un análisis de la regresión en el que la variable X es cualitativa. Es más, enfocar el análisis de la varianza desde el punto de vista de la regresión puede ser una ventaja que proporcione a dicho análisis una mayor generalidad.. Regresión con una variable dicotómica. Supongamos que deseamos conocer en qué medida se relacionan sexo y habilidad manual para realizar una tarea. La variable sexo es una variable cualitativa de dos categorías dicotómica- y puede codificarse de forma arbitraria con los valores y ; por ejemplo, mujer y varón. La variable habilidad se cuantifica a través de un instrumento determinado de forma cuantitativa. Supongamos que se obtienen los siguientes resultados teniendo una muestra total de 8 sujetos, 4 varones y 4 mujeres: Sujetos Sexo (X) Habilidad (Y) XY 3 4 5 6 7 8 36 6 49 4 47 48 49 4 47 48 Sumas 4 88 84 45

.. Correlación y recta de regresión. Como en el estudio de una correlación ordinaria, calculamos los estadísticos descriptivos que nos van a servir para este fin: 4 N ( X X ) X.5 S.53 8 N X 88 N ( Y Y ) Y 36 S.96 8 N Y Y con estos datos calculamos la correlación entre X e Y: r XY N XY XY N S S X Y 84.5 36 7.894.53.96 A partir del valor de correlación calculado y bajo el supuesto que se cumplan los supuestos requeridos, puede estimarse, bajo el mismo procedimiento que en el caso en que ambas variables eran cuantitativas, la recta de regresión que define dicha relación: o bien: Y ˆ a+ bx Y ˆ B + B X donde En nuestro caso, tendríamos: a Y bx b r XY S S.96 b.89.53 a 36.5 6 Y X de donde la ecuación de regresión es: Yˆ 6+ X Nótese que dado que la variable X adopta dos posibles valores, (O para varón y para mujer), las predicciones en Y en estas circunstancias son: 46

Y ˆvar ón 6+ 6 Yˆ 6+ 46 mujer La interpretación de estas estimaciones es la siguiente: 6 es el valor esperado en Y para un sujeto que tenga sexo varón y 46 el valor esperado para cualquiera de las mujeres. Estos valores (6 y 46) coinciden exactamente con las medias en Y del grupo de varones y de las mujeres, respectivamente. Recordemos los datos: Sujetos Sexo (X) Habilidad (Y) Medias por grupo 36 3 6 Y 6 4 5 49 6 4 7 47 Y 46 8 48 Sumas 4 88 Y 36 Por otro lado, la diferencia entre ambas medias (46-6) coincide con el valor de b, es decir, con el cambio esperado en Y al cambiar una unidad (de a ) el valor de X: Y b X 46 6 Y el parámetro a coincide justamente con la media del grupo que se codifica como, en nuestro caso, el de varones. Es decir, la ordenada en el origen de la recta de regresión del modelo pasa por el punto 6 que es el promedio de la habilidad manual en dicho grupo. Gráficamente estas ideas pueden reflejarse si se dibuja la nube de puntos (en realidad dos series de datos alineados verticalmente ver puntos rojos en la gráfica-) y la correspondiente recta de regresión en un eje de coordenadas: 5 4 Y Y 3 Y X HABILIDA,,, SEXO 47

Obsérvese que cuando X vale, la recta corta el eje de la Y en el valor medio del grupo de varones ( Y 6) y que el otro punto que la define es precisamente el valor medio de Y en el grupo de mujeres ( Y 46 -cuando X vale -). Además, como hemos indicado, la incremento en Y al cambiar el valor de X de a es precisamente el valor de inclinación de la recta (b): Y b X (46 6) ( ) o lo que es lo mismo: b Y Y 46 6.. Supuestos del modelo. Dado que trabajamos con el mismo modelo de regresión que cuando se trataba de dos variables cuantitativas, los requisitos a los que deben adecuarse los datos para que dicho modelo pueda se aplicado idóneamente deben ser los mismos que en aquel caso. Así pues, debe probarse la adecuación de la nube de puntos a una recta (linealidad), la igualdad de varianzas del error (homocedasticidad) y su normalidad, así como la independencia entre puntuaciones (que es un requisito supuesto de antemano). Teniendo en cuenta la representación gráfica característica cuando X adopta dos únicos valores (dos series alineadas verticales- de puntos que representan la variabilidad de Y para cada uno de los valores de X), puede decirse que la recta constituye una buena representación para unir ambas series, representando el cambio sufrido en la Y estimada en función del cambio (de a de una categoría a otra-) en X. Por otra parte el supuesto de la homocedasticidad quedará satisfecho si la dispersión de la serie de puntos respecto a valor predicho dentro de la condición X es semejante a dicha dispersión en la condición X. Para probar si se cumple o no este supuesto, tal y como en el tema de la regresión anterior, hay que realizar un estudio de los errores. Recuérdese que graficando cuál es la distribución de los mismos en función de los valores de Y predichos puede obtenerse, a nivel gráfico, una primera aproximación a dicho estudio. Formas definidas o características de esta distribución (por ejemplo, de megáfonos o triángulos en cierto grado invertidos-) apuntan a una posible violación de este supuesto. En último término, si deseamos probar mediante alguna prueba estadística si los datos se ajustan o no al supuesto mencionado puede probarse la significación de la correlación entre los errores (absolutos) y los valores de Y predichos. La falta de significación de dicha correlación indica la satisfacción de este supuesto de la homocedasticidad aunque como sabemos este procedimiento no detecta a veces el incumplimiento del supuesto. Por último, la normalidad de las puntuaciones se cumple si la distribución de puntos alrededor de cada una de las dos medias por grupos se ajustan a una distribución tipo campana de Gauss. Este supuesto es más difícil de corroborar cuando existen pocos datos; de cualquier manera la prueba de análisis de la regresión es más robusta al incumplimiento de este supuesto que a la violación de otros. La vía más cómoda y fácil 48

de estudiarlo es pidiendo el gráfico de probabilidad normal en el paquete estadístico SPSS..3. Validez del modelo y bondad de ajuste. Para probar la validez del modelo de regresión y ajuste lineal planteado, se procede de manera similar al caso en que ambas variables eran cuantitativas. Como se sabe, puede abordarse esta cuestión mediante tres procedimientos alternativos y coincidentes: a) evaluando la significación de la correlación b) evaluando la significación del coeficiente b c) aplicando la prueba F que evalúa de manera global en qué medida la variación de los datos de la que da cuenta el modelo de regresión sobrepasa aquella parte de la variación de los datos de la que no es responsable dicho modelo. Como decimos, estas tres vías o trayectorias conducen a una misma conclusión. Probemos, por ejemplo, en primer lugar, la validación a través del índice F para los datos anteriores. Recuérdese que: R / k F ( R ) /( N k ) Entonces, para nuestros datos: F.894 / (.894 ) / 6 3.7 Por otra parte, la prueba de significación para la correlación: rxy t rxy N En nuestro caso:.894 t 4.87.894 6 Y para el coeficiente b: que sustituyendo: t N b S res ( X X ) t 33.67 4.87 49

Compruébese la igualdad de los tres resultados teniendo en cuenta que F t Buscando en las tablas pertinentes el valor de p para estos estadísticos, se concluye que la probabilidad de que la explicación de los datos a partir del modelo lineal estimado sea irrelevante es del.3. Es decir, aceptamos el modelo de regresión estimado como una buena aproximación de la explicación de los datos, ya que la probabilidad de que no lo sea es muy pequeña (menor a.5). Por lo tanto, existe relación significativa entre X e Y. A nivel teórico diremos que el sexo explica de forma relevante la diferencia existente en la habilidad manual. El sentido de dicha relación (atendiendo a los promedios correspondiente a cada grupo) es el de que las mujeres muestran significativamente un nivel de habilidad manual superior al de los varones en este tipo de tarea. Por último, resulta conveniente calcular la bondad de ajuste del modelo, esto es, la valoración de la proporción de variación explicada por el mismo respecto a la variación total de los datos. Como se sabe, nos estamos refiriendo a R que es: R r XY Es decir: R.894.8 O bien. R SC SC expli total N N ( Yˆ Y ) ( Y i Y ) 8.8 lo que indica que el 8% de la variación manifiesta en las puntuaciones de la habilidad manual (Y) se explica por la variable sexo (X), una porcentaje bastante alto..4. Aplicación con el SPSS. Para estimar los diferentes estadísticos y significaciones anteriormente analizados mediante este paquete basta aplicar los mismos comandos que se utilizaban para el caso de dos variables cuantitativas. Así, la sucesión de comandos y salidas correspondientes se exponen a continuación. En primer lugar, el fichero de datos será similar al cuadro que presentamos al principio de estas páginas: 5

Si pedimos Analizar/regresión/lineal donde Y funciona como variable dependiente y X como variable independiente, obtenemos. Resumen del modelo R cuadrado Error típ. de la Modelo R R cuadrado corregida estimación,894(a),798,765 5,83 a Variables predictoras: (Constante), SEXO ANOVA(b) Modelo Suma de cuadrados gl Media cuadrática F Sig. Regresión 8, 8, 3,76,3(a) Residual, 6 33,667 Total, 7 a Variables predictoras: (Constante), SEXO b Variable dependiente: HABILIDA Coeficientes(a) Coeficientes no estandarizados Coeficientes estandarizados Modelo B Error típ. Beta t Sig. (Constante) 6,,9 8,96, SEXO, 4,3,894 4,875,3 a Variable dependiente: HABILIDA Como puede observarse, los coeficientes a y b de la última tabla coinciden plenamente con los previamente estimados, al igual que la correlación entre X e Y (que es lo mismo que el coeficiente Beta de la ecuación de la recta o su valor estandarizado..894-). La validez del modelo se prueba reparando en el valor de p correspondiente a la F de la tabla de ANOVA o bien por el de la t correspondiente al coeficiente b o de Beta (iguales a.3) (véase en la segunda y tercera tablas presentadas). 5

Para obtener el gráfico de dispersión y recta correspondiente mediante SPSS (de forma similar a como representamos arriba) aplicamos: Gráficos/dispersión/lineal/simple, Una vez dibujada la nube de puntos se pulsa dos veces sobre la misma y se pide al cuadro de diálogo que nos proporcione la recta ajustada total..5. Análisis de la regresión versus contraste de medias. Tal y como hemos indicado al principio, el análisis de la regresión para el caso en que la variable X es de tipo cualitativo es un análisis análogo al de contraste de medias usado tan frecuentemente en el ámbito de la experimentación. El referido contraste de medias se desarrolla en la paquete estadístico SPSS activando el comando ANOVA. A partir de idéntico archivo de datos como el de antes, podríamos ejecutar dicho comando para los datos que nos ocupan aplicando las siguientes órdenes: Analizar/Comparar medias/anova de un factor (especificando cuál es la variable dependiente y cuál la independiente). Los resultados de dicho análisis deben coincidir exactamente con aquellos proporcionados por el análisis de la regresión desarrollado antes. Solicitando algunos estadísticos descriptivos adicionales a dicho comando ANOVA que nos sirven para interpretar y concluir sobre los resultados, las salidas proporcionadas son las siguientes: Estadísticos descriptivos N Mínimo Máximo Suma Media Desv. típ. SEXO 8,, 4,,5,5345 HABILIDA 8, 49, 88, 36,,9643 N válido (según lista) 8 ANOVA Suma de cuadrados gl Media cuadrática F Sig. Inter-grupos 8, 8, 3,76,3 Intra-grupos, 6 33,667 Total, 7 Como observamos, obtenemos un cuadro de resultados idéntico al presentado anteriormente en el caso de la regresión. Además, si dentro de esta vía de análisis hacemos la petición de evaluar el supuesto de la igualdad de varianzas (dentro del comando opciones ), la prueba de Levene nos ofrece la confirmación o no del cumplimiento de este supuesto, tan importante como sabemos para la utilización de los análisis que estamos llevando a cabo (recuérdese que dentro del comando regresión el estudio de dicho supuesto se hacía mediante la graficación de la relación entre los valores predichos y los errores). Pues bien, la petición de la prueba de Levene para nuestros datos nos informa lo siguiente: Prueba de homogeneidad de varianzas Estadístico de Levene Gl gl Sig.,77 6,46 Dados estos resultados, concluimos que efectivamente la homogeneidad de las varianzas de error (homocedasticidad) se cumple puesto que la diferencia entre la 5

varianza de los datos en el grupo de mujeres respecto a la de los varones puede explicarse por azar en una proporción alta (.46). 3. Regresión con variable politómica. Cuando la variable X en un análisis de la regresión es cualitativa de más de dos categorías, el análisis es similar al realizado con anterioridad. Sin embargo, puede resultar útil desarrollar a continuación un ejemplo que muestre algunas de sus particularidades. 3.. Codificación. Supongamos que se desea conocer si el tipo de asistencia que reciben los niños de años durante la jornada matinal incide en alguna medida en su nivel evolutivo. Se identifican tres tipos de asistencia diferentes: En guardería (X ), en casa asistido por un cuidador no familiar (X ) y en casa asistido por uno de sus padres (X 3 ). Los resultados obtenidos se ofrecen en la siguiente tabla: Sujeto Tipo de asistencia Nivel evolutivo Medias por grupo Guardería Guardería 3 Guardería 4 6 4 Guardería 3 5 Guardería 9 6 C. no familiar 96 7 C. no familiar 87 8 C. no familiar 97 96 9 C. no familiar C. no familiar Progenitor 3 Progenitor 3 3 Progenitor 4 3 4 Progenitor 5 Progenitor 5 Las puntuaciones medias obtenidas permiten realizar una primera interpretación de los datos a nivel descriptivo respecto al nivel evolutivo de los niños afectados por cada tipo de cuidado. Observamos que la media del grupo de niños cuidado por el progenitor es la más alta seguida por la del grupo de niños cuidados en guardería; por último, los niños de nivel evolutivo inferior parecen ser aquellos cuidados por una persona ajena a la familia. Si existen o no diferencias significativas entre dichos niveles es algo de lo que se encargará de responder los análisis que siguen. Recuérdese que en el caso de una X de tipo dicotómico el archivo de datos contenía una sola columna para dicha X mediante la cual se conocía, utilizando los códigos y, la categoría a la que pertenecía cada uno de los sujetos (la condición de X por la que estaba afectado). Ahora con tres valores de X no es posible agotar todas las posibilidades de asociación sujetos-valores mediante este sistema pues tenemos tres alternativas de pertenencia. Sin embargo, utilizando dos columnas para representar dos de las tres categorías de que consta la variable X es suficiente para conocer toda esta 53

información necesaria. En general, podemos decir que se necesitan K- columnas de identificación de la variable cualitativa para tener toda la información sobre qué condición concreta de X afecta a cada sujeto (siendo K el número de categorías que adopta la variable X). Así, por ejemplo, la codificación siguiente para cada una de las dos categorías de X (X guardería) (X cuidador no familiar) sería suficiente para plasmar toda la información sobre la categoría a la que pertenece cada uno de los 5 sujetos que compone la muestra: Sujetos X (guardería) X (no familiar) 3 4 4 3 5 9 6 96 7 87 8 97 9 3 3 3 4 4 5 5 Y Medias por grupo 6 96 3 La lectura de la tabla anterior sería la siguiente: Un valor en la primera columna y un en la segunda indica que el sujeto pertenece a la primera categoría; un valor en la primera y un en la segunda que el sujeto pertenece a esta segunda; por último, ceros en ambas columnas identifica a un sujeto que no pertenece ni a la primera categoría ni a la segunda sino a la tercera (no existente en el archivo que es el cuidado por el progenitor). 3.. Aplicación con SPSS. A partir del siguiente archivo de datos, tal y como ha quedado justificado en el apartado de la codificación anterior, en formato SPSS: Téngase en cuenta que la introducción de una tercera columna para representar la última de las categorías de X contempladas, supondría una redundancia sobre la información precedente, es decir, constituiría una columna colineal (de información totalmente redundante) con las anteriores por lo que los cálculos de las estimaciones del modelo de regresión serían imposibles. 54

se activa el comando regresión/lineal de dicho paquete para estimar la ecuación de regresión del modelo así como su significación estadística. En dicho comando se especifica que la variable dependiente es el nivel evolutivo y las independientes las dos X representadas en las columnas del archivo de datos (guardería y cuidado no familiar), obteniendo los siguientes resultados: Modelo Resumen del modelo R cuadrado Error típ. de la R R cuadrado corregida estimación,648 a,4,33 5,3884 a. Variables predictoras: (Constante), casanfamiliar, guardería Como ya sabemos, este cuadro (resumen del modelo) informa que la proporción de variación del nivel evolutivo de los niños por cuenta del tipo de cuidado que reciben en periodo laboral es del.4. Además, la relación analizada es significativa (α.5), puesto que la tabla de ANOVA siguiente proporciona un valor de F 4.34, con una p.38<.5; es decir, el tipo de cuidado en periodo laboral incide significativamente sobre el nivel evolutivo del niño. Modelo Regresión Residual Total ANOVA b Suma de Media cuadrados gl cuadrática F Sig. 963,333 98,667 4,34,38 a 74, 6,67 4677,333 4 a. Variables predictoras: (Constante), casanfamiliar, guardería b. Variable dependiente: nivel Hasta ahora a través de la información expuesta- no puede conocerse si existen diferencias estadísticamente significativas entre unos tipos de condiciones de cuidados respecto a otros, esto es, sólo podemos concluir globalmente que el tipo de cuidado incide en el nivel evolutivo. Para discriminar entre condiciones específicas del nivel evolutivo, estudiamos la tabla de coeficientes de la ecuación de regresión estimada: 55

Modelo (Constante) guardería casanfamiliar a. Variable dependiente: nivel Coeficientes a Coeficientes no estandarizados Así pues, tenemos que la ecuación de regresión es: Coeficientes estandarizad os B Error típ. Beta t Sig. 3, 6,76 8,88, -7, 9,5 -,87 -,736,476-7, 9,5 -,7 -,839,5 Yˆ 3. 7.X 7. X La interpretación de cada uno de estos coeficientes es la siguiente: - 3 es el nivel evolutivo esperado para los niños que puntúan tanto en X como en X. Es decir, cuando no han sido cuidados ni en guardería ni por una persona no familiar, por tanto para aquellos que han sido cuidados por el progenitor: Y ˆ 3. 7. () 7.() 3 progenitor - (-7) es el efecto que se espera se produzca sobre 3 cuando el sujeto puntúa en X y en X, es decir, cuando el niño ha sido cuidado en la guardería. De otra forma, es el valor esperado del nivel evolutivo para aquellos niños cuidados en guardería presentando una puntuación en 7 puntos inferior a la esperada en aquellos niños cuidados por el progenitor: Y ˆ 3. 7. () 7.() 6 guardería - (-7) es el efecto que se espera se produzca sobre 3 cuando el sujeto puntúa en X y en X., es decir, cuando el niño ha sido cuidado por una persona no familiar. Por lo tanto, el valor esperado del nivel evolutivo para estos niños es: Y ˆ 3. 7. () 7.() 96 nofamiliar Obsérvese que estas puntuaciones estimadas coinciden con los promedios por grupo calculados arriba en el archivo de datos. Las significaciones que acompañan a cada uno de los coeficientes en la ecuación nos indican (α.5) que: a) el coeficiente de X no resulta significativo (p.476>.5) por lo que podemos afirmar que cuidar a los niños en la guardería (X ) respecto a hacerlo con el progenitor ( Y ˆ b b 3 7) no conlleva una diferencia sustancial en su nivel evolutivo a pesar de la disminución de 7 puntos en su efecto estimado. b) por su parte, el coeficiente de X (p.5<.5) sí resulta significativo por lo que concluimos que cuidar a los niños con una persona no familiar respecto a 56

hacerlo con el progenitor hace disminuir significativamente su nivel evolutivo esperado en una cantidad de 7 puntos Y ˆ b b 3 7). ( 57