Introducción al modelo de regresión logística JOSÉ R BERRENDERO DEPARTAMENTO DE MATEMÁTICAS UNIVERSIDAD AUTÓNOMA DE MADRID INTRODUCCIÓN Y MOTIVACIÓN El modelo de regresión logística se utiliza para investigar la relación entre una variable respuesta dicotómica (es decir, una variable cualitativa que toma dos posibles valores) y un conjunto de variables regresoras Veamos un ejemplo de esta situación El 4 de julio de 999 una tormenta con vientos que excedían las 90 millas por hora azotó el nordeste de Minnesota, en EEUU, causando graves daños en los bosques de un parque natural de la zona Los científicos analizaron los efectos de la tormenta determinando para más de 3600 árboles del parque su diámetro en cm (variable D), una medida de la severidad local de la tormenta relacionada con el porcentaje inerte de área basal de cuatro de las especies (variable S), una variable que registraba si cada árbol había muerto (y = ) o si había sobrevivido (y = 0) y finalmente la especie a la que pertenecía cada árbol (variable SSP) Los datos se encuentran en el fichero tormentasav y han sido analizados, por ejemplo, en el capítulo 2 de Weisberg (2005) La figura muestra diagramas de cajas de los diámetros de los árboles y de la variable que mide la fuerza de la tormenta, tanto para los árboles que sobrevivieron a la tormenta como para los que no Aunque los dos grupos se solapan se observa que los árboles que sobreviven tienden a tener un menor diámetro También se observa que, como es lógico, la fuerza de la tormenta tiende a ser menor en las zonas correspondientes a los árboles supervivientes A la vista de estas observaciones, parece que el diámetro y la variable S pueden ser útiles para estimar la probabilidad de supervivencia de un árbol El modelo de regresión logística nos permite describir la probabilidad de que un árbol sobreviva o no como función del resto de las variables explicativas, determinar si estas variables modifican significativamente dicha probabilidad y estimar, en función de las variables regresoras, la probabilidad de que un árbol sobreviva o no El área de un terreno ocupada por la sección de los troncos de los árboles en la base
Diámetro 20 40 60 80 S 00 02 04 06 08 0 0 0 Figura : Diagramas de cajas para los datos de la tormenta 2 EL MODELO DE REGRESIÓN LOGÍSTICA 2 FORMULACIÓN DEL MODELO Disponemos de n observaciones Cada observación (Y i, x i,, x ik ) está formada por el valor de la variable respuesta Y i, que es cero o uno, y un vector de variables regresoras (x i,, x ik ) Resulta conveniente denotar x i = (, x i,, x ik ), donde la primera coordenada igual a corresponde al término independiente del modelo Las dos primeras hipótesis necesarias para especificar el modelo de regresión logística son: (H) Las variables Y,,Y n son independientes (H2) Cada respuesta Y i tiene distribución de Bernoulli, B(, p i ), donde p i = P(Y i = x i ) La hipótesis (H2) supone una diferencia importante respecto a los modelos de regresión lineal La distribución normal ya no resulta adecuada como modelo para Y i y se sustituye por la distribución de Bernoulli Además, la probabilidad de que una observación pertenezca a uno de los dos posibles grupos (y = 0 ó y = ) depende en general de los valores de las variables regresoras x i Para terminar de especificar el modelo necesitamos determinar cuál es la relación entre la variable respuesta y el vector de variables regresoras En principio podríamos pensar en extender de forma directa la formulación del modelo de regresión lineal a esta nueva situación Sin embargo la relación p i = β 0 + β x i + + β k x ik no es adecuada ya que, en general, una combinación lineal de variables regresoras no tomará valores entre 0 y por lo que no se puede usar como modelo para describir una probabilidad La solución es usar una transformación F (β 0 + β x i + + β k x ik ) que siempre tome valores entre 0 y Hay varias transformaciones F que se pueden usar, pero la más utilizada es la función logística, F (x) = + e x 2
F(x) 00 02 04 06 08 0 6 4 2 0 2 4 6 x Figura 2: La función logística Esta función es relativamente fácil de manejar y además, como veremos, proporciona un modelo cuyos parámetros tienen una interpretación clara La representación gráfica de esta función se puede ver en la figura 2 Usando la función logística, llegamos a la tercera hipótesis del modelo: (H3) La relación entre x i y p i viene dada por: p i = P(Y i = x i ) = Las hipótesis (H), (H2) y (H3) especifican totalmente el modelo + e β 0 β x i β k x ik () 22 INTERPRETACIÓN DE LOS PARÁMETROS Es fácil comprobar que () se puede escribir también de la siguiente forma: O i = p i p i = e β 0+β x i + +β k x ik (2) La variable O i corresponde a la razón de probabilidades del suceso y i = respecto al suceso y i = 0 Por ejemplo, cuando O i = 2, entonces y i = es el doble de probable que y i = 0 Resulta conveniente interpretar los coeficientes β j del modelo en función de la razón de probabilidades: supongamos que O i es la razón de probabilidades para el individuo i cuando la variable regresora j toma un valor u, y sea O la razón de probabilidades para el individuo i i cuando dicha variable regresora se incrementa una unidad (y pasa a valer u + ) mientras que el resto de variables permanece constante Entonces, por (2), O i O i = eβ0+ +βj (u+)+ +βk xik e β 0+ +β j u+ +β k x ik = e β j 3
Como consecuencia, podemos interpretar e β j en términos de la variación de la razón de probabilidades cuando la variable regresora j se incrementa en una unidad y el resto de variables permanece constante Por ejemplo, si e β j = 2 entonces, para un incremento de una unidad de la variable j y manteniendo el resto de variables constantes, se duplica la razón de probabilidades del suceso y i = frente a y i = 0 3 ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO Sea β el vector de coeficientes (β 0,,β k ) El vector β se puede estimar usando el método de máxima verosimilitud Dado que las variables Y,,Y n tienen distribución binomial, la función de verosimilitud es L(β) = n i= p Y i i ( p i ) Y i En la expresión anterior hay que observar que p i depende de β según se describe en la ecuación () Los estimadores de máxima verosimilitud corresponden al vector ˆβ que maximiza L(β) Como de costumbre, resulta más fácil maximizar el logaritmo de la verosimilitud: l(β) = lnl(β) = n [ Yi ln p i + ( Y i )ln( p i ) ] i= Para maximizar, derivamos l(β) para obtener el gradiente l(β) y después resolvemos el sistema de ecuaciones l(β) = 0 Teniendo en cuenta que al derivar p i respecto de β se obtiene p i = p i ( p i )x i, se deduce que los estimadores de máxima verosimilitud ˆβ resuelven el siguiente sistema de k + ecuaciones: donde ˆp i = n n Y i x i = ˆp i x i, (3) i= i= + e ˆβ 0 ˆβ x i ˆβ k x ik La ecuación (3) es razonable: los estimadores de máxima verosimilitud son aquellos valores de los coeficientes tales que la suma de los vectores muestrales x i para los casos en los que Y i = (término de la izquierda) coincide con la suma de los mismos vectores x i ponderados por las probabilidades estimadas de Y i = (término de la derecha) Poblacionalmente, la misma igualdad se tendría que cumplir al usar las verdaderas probabilidades p i, lo que da cierta garantía de consistencia de los estimadores No es posible despejar ˆβ en (3) para obtener una expresión explícita Es necesario resolver la ecuación mediante algún método numérico iterativo Un método muy utilizado es el algoritmo de Newton-Raphson Algunos de estos métodos están implementados en SPSS o R y permiten también aproximar el error típico de los estimadores 4
4 REGRESIÓN LOGÍSTICA CON SPSS Para explicar cómo se ajusta un modelo de regresión logística con SPSS consideramos los datos del ejemplo El modelo es: p i = P(Y i = D i,s i ) = + e β 0 β D i β 2 S i, donde D i es el diámetro del árbol i, S i mide la fuerza local de la tormenta en la posición del árbol i y la respuesta es Y i = si el árbol i no sobrevivió a la tormenta e Y i = 0 en caso contrario Una vez tenemos el fichero de datos a la vista vamos al menú: Analizar Regresión Logística binaria Como variable dependiente elegimos la variable respuesta y En la ventana Covariables situamos las variables regresoras D y S Pulsamos el botón Aceptar De todos los resultados que aparecen los más relevantes son los que aparecen en la figura 3 Resumen del modelo Paso -2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke 3883,256 a,274,366 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de,00 Variables en la ecuación Paso a D S Constante B,097 4,424-3,543 ET,005,89,27 Wald 346,022 545,22 774,463 gl Sig,000,000,000 Exp(B),02 83,42,029 a Variable(s) introducida(s) en el paso : D, S Figura 3: Ajuste del modelo para los datos de la tormenta El cuadro inferior tiene una interpretación análoga a la de los modelos de regresión lineales En las dos columnas B y ET aparecen los estimadores de máxima verosimilitud y sus errores típicos: ˆβ 0 = 3,543(0,27), ˆβ = 0,097(0,005) y ˆβ 2 = 4,424(0,89) Por lo tanto, ˆp i = + e 3,543 0,097D i 4,424S i Si en el botón Guardar del cuadro de diálogo marcamos la opción Probabilidades, el programa calcula las probabilidades estimadas ˆp i para todos los árboles de la muestra Estas probabilidades aparecen en una nueva columna en el fichero de datos Es posible añadir los 5
datos de nuevos árboles para los que no se conoce si sobrevivieron o no y el programa también calculará las correspondientes probabilidades estimadas En la columna Exp(B) del cuadro aparecen los valores e ˆβ j, cuya interpretación hemos comentado anteriormente Por ejemplo, dado que e ˆβ =,02 la razón de probabilidades de no supervivencia frente a supervivencia se multiplica por,02 si el diámetro del árbol aumenta cm y la variable S no cambia La nota al pie del cuadro superior nos informa de que el método numérico para resolver (3) necesitó de 5 iteraciones para converger En la primera columna de este cuadro aparece el valor de D 2 = 2l( ˆβ) = 3883,256, que en algunos libros llaman la desviación (deviance) Cuanto menor es la desviación, mayor es la verosimilitud (debido al signo negativo) y, por lo tanto, mejor es el ajuste del modelo a los datos disponibles Los coeficientes de determinación de Cox-Snell y de Nagelkerke comparan las desviaciones del modelo completo y del modelo reducido que sólo incluye el término independiente 2 Ambos toman valores entre cero y uno y su interpretación es análoga a la del coeficiente de determinación en los modelos de regresión lineal 5 CONTRASTES E INTERVALOS DE CONFIANZA Bajo condiciones de regularidad, la distribución de los estimadores de máxima verosimilitud es aproximadamente normal, es decir, los valores estandarizados ˆβ j β j z j = error típico de β j tienen aproximadamente distribución normal estándar Como consecuencia, un intervalo de confianza de nivel aproximado α para β j se obtiene mediante la fórmula: [ ˆβ j z α/2 error típico de ˆβ j ] Dada la interpretación de los parámetros en el modelo logístico resulta de interés la obtención de intervalos de confianza para e β j Como la función exponencial es monótona, basta transformar adecuadamente el intervalo anterior: [exp( ˆβ j z α/2 error típico de ˆβ j ),exp( ˆβ j + z α/2 error típico de ˆβ j )] Bajo H 0 : β i = 0, se verifica que el estadístico de Wald ˆβ j z j = error típico de ˆβ j 2 Por ejemplo, el coeficente de Cox-Snell se define como R 2 = exp[(d 2 D 0 2)/n], donde D2 0 es la desviación del modelo reducido y n es el tamaño muestral Si R 2 0, las desviaciones de los dos modelos son similares lo que implica que el conjunto de variables regresoras no es muy significativo El coeficiente de Nagelkerke es una modificación del de Cox-Snell 6
se distribuye aproximadamente según una normal estándar Este valor (elevado al cuadrado) aparece en la columna Wald de la figura 3 en la sección anterior Una región crítica con nivel de significación aproximado α para contrastar H 0 : β j = 0 es, por lo tanto, { ˆβ } {( ) 2 } j ˆβ j R = error típico de ˆβ > z α/2 = j error típico de ˆβ > χ 2,α, j teniendo en cuenta que una normal estándar al cuadrado tiene distribución χ 2 El p-valor para este contraste aparece en la columna Sig de la figura 3 Para los datos del ejemplo, todos los coeficientes son significativamente distintos de 0 (p < 0,00) 6 APLICACIÓN AL PROBLEMA DE CLASIFICACIÓN En el modelo de regresión logística, predecir el valor de la variable respuesta Y 0 dado un nuevo vector independiente de variables regresoras x 0 equivale a clasificar la correspondiente observación en uno de los dos posibles grupos Resulta razonable predecir Ŷ 0 = cuando ˆp 0 > /2, donde ˆp 0 = + e ˆβ 0 ˆβ x 0 ˆβ k x 0k es la probabilidad estimada de Y 0 = dado el vector de variables x 0 Este criterio lleva a la siguiente regla de clasificación lineal: Ŷ 0 = ˆβ 0 + ˆβ x 0 + + ˆβ k x 0k > 0 S 00 02 04 06 08 0 20 40 60 80 Diametro Figura 4: La regla de clasificación logística Por ejemplo, clasificaremos un árbol como no superviviente (Ŷ 0 = ) si las correspondientes variables D 0 y S 0 verifican 0,097 D 0 + 4,424 S 0 > 3,543 7
En la figura 4 se representan los pares (D i,s i ) para todos los árboles de la muestra, en color gris (no supervivientes) o color negro (supervivientes) junto con la representación gráfica de la recta que divide las regiones en las que clasificaríamos un nuevo árbol como superviviente o no superviviente EJERCICIOS Teniendo en cuenta la salida de SPSS que aparece en la sección 4, responde a las cuestiones siguientes: (a) La probabilidad estimada de que un árbol sobreviva a la tormenta, crece o decrece con el diámetro? (b) Calcula un intervalo de confianza de nivel 95% para β (c) Calcula un intervalo de confianza de nivel 95% para e β (d) Estima la probabilidad de que no sobreviva un árbol cuyo diámetro es de 30 cm situado en una zona en la que la fuerza de la tormenta viene dada por S = 0,8 2 Ajusta un modelo de regresión logística simple que incluya únicamente el diámetro como variable regresora para explicar la probabilidad de no supervivencia de los árboles Responde a las siguientes cuestiones relacionadas con este modelo: (a) A nivel α = 0,00, es posible afirmar que el diámetro influye en la probabilidad de que un árbol sobreviva? (b) Escribe la regla para clasificar un árbol como superviviente o no superviviente en función de su diámetro 3 Se dispone de medidas en cm (fichero irissav) de la longitud y anchura del pétalo y el sépalo de 00 lirios correspondientes a dos especies diferentes: iris versicolor (y = 0) e iris virginica (y = ) Se ha ajustado un modelo de regresión logística a los datos con el fin de estudiar la probabilidad de que un lirio pertenezca a cada una de las dos especies en función de las cuatro medidas Los resultados más relevantes obtenidos con SPSS se muestran en la figura 5 Contesta a las siguientes cuestiones relacionadas con el ajuste: (a) Es bueno el ajuste del modelo a los datos? (b) A nivel α = 0,05, qué variables son significativas? Y a nivel α = 0,? (c) Calcula un intervalo de confianza de nivel 95% para el coeficiente correspondiente a la anchura del sépalo (d) Escribe la regla de clasificación lineal que proporciona el modelo con las cuatro variables Usando esta regla, en cuál de las dos especies se clasifica un lirio tal que la longitud de su pétalo es 5 cm, la anchura de su pétalo es 2 cm, la longitud de su sépalo es 6 cm y la anchura de su sépalo es 3 cm? 8
Resumen del modelo Paso -2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke,899 a,78,958 a La estimación ha finalizado en el número de iteración porque las estimaciones de los parámetros han cambiado en menos de,00 Variables en la ecuación Paso a LSepalo ASepalo LPetalo APetalo B -2,465-6,68 9,429 8,286 ET 2,394 4,480 4,737 9,743 Wald,060 2,224 3,962 3,523 gl Sig,303,36,047,06 Exp(B),085,00 2448,870 8,74E7 Constante -42,638 25,708 2,75,097 a Variable(s) introducida(s) en el paso : LSepalo, ASepalo, LPetalo, APetalo,000 Figura 5: Ajuste del modelo para los datos de los lirios REFERENCIAS Weisberg, S (2005) Applied linear regression, tercera edición Wiley, Nueva York Página 9