CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS Edgar Acuña Fernández Departamento de Matemátcas Unversdad de Puerto Rco Recnto Unverstaro de Mayagüez Edgar Acuña Analss de Regreson
Regresón con varables predctoras cualtatvas A veces algunas de las varables predctoras a consderar son cuanttatvas y otras cualtatvas. Ejemplos de varables cuanttatvas son: años de experenca, años de educacón, edad, etc. Ejemplos de varables cualtatvas son: sexo del empleado, estado cvl, jerarquía del empleado, etc. Edgar Acuña Analss de Regreson 2
Tpos de Varables cualtatvas Varable dummy o varable bnara Varables nomnales Varables ordnales Edgar Acuña Analss de Regreson 3
Nota: En un problema de regresón debe haber por lo menos una varable predctora cuanttatva. S todas las varables predctoras fueran cualtatvas entonces el problema se converte en uno de dseños expermentales. Edgar Acuña Analss de Regreson 4
Regresón con una sola varable Dummy Consderemos un modelo de regresón con una sola varable cualtatva A y una varable cuanttatva X. Es decr, Yβ 0 +β X+β 2 A + ε (* Consderemos los casos: S A0, Y β 0 + β X + ε S A, Y (β 0 + β 2 + β X + ε Es decr que el modelo (* consdera que las pendentes de ambas lneas son guales. El valor estmado de β 2 representa el cambo promedo en la varable de respuesta al cambar el valor de la varable dummy. Edgar Acuña Analss de Regreson 5
S se desea comparar las pendentes de las línea de regresón de los dos grupos se puede usar una prueba de t smlar a la prueba de comparacón de dos medas y asumendo que hay homogenedad de varanza. Tambén se puede usar una prueba de F parcal o probando la hpótess Ho: β30 en el sguente modelo Yβ0+βA+β2X+β3AX +e Cuando la hpótess nula no es rechazada se concluye que la pendente de regreson de ambos grupos son guales. S no hubera gualdad de varanza de los dos grupos, habra que usar una prueba de t aproxmada smlar al problema de Behrens-Fsher. Aquí se usa una t con grados de lbertad aproxmados Edgar Acuña Analss de Regreson 6
Comparar Lneas de Regresón para Varos Grupos Supongamos que se tene una varable predctora contnua X para explcar el comportamento de Y en tres grupos. Surgen tres modelos de regresón: Y β 0 +β X+ ε Yβ 02 +β 2 X+ ε Yβ 03 +β 3 X+ ε Para relaconar las lneas de regresón hay que ntroducr 3 varables dummy para dentfcar los grupos G, G2, y G3 y 3 varables adconales ZGX, Z2G2X, y Z3G3X. Edgar Acuña Analss de Regreson 7
Posbles modelos a Las lneas se ntersecten en un punto cualquera, ya que tendrían dferente ntersecto y pendente. b Las lneas sean paralelas (homogenedad de pendentes. c Las lneas tengan el msmo ntercepto pero dstnta pendentes (homogenedad de nterceptos. d Las tres lneas concdan. Edgar Acuña Analss de Regreson 8
Prueba de hpótess H o : el modelo satsface b o c o d versus H a : el modelo satsface a Se usa una prueba de F parcal dada por F m [(SSE m -SSE a /(gl m -gl a ]/[SSE a /gl a ] Donde m, representa los modelos b,c, o d. grados de lbertad. La F parcal se dstrbuye como una F con (gl m -gl a, gl a Edgar Acuña Analss de Regreson 9
Regresón Logístca La varable de respuesta Y es una del tpo bnaro y que se tene p varables predctoras x s (aleatoras Se tene una muestra de tamaño nn +n 2, con n observacones de la clase C y n 2 observacones de la clase C 2. La varable predctora Y se defne como 0 y para cada clase. Edgar Acuña Analss de Regreson 0
La Curva Logístca Funcon de dstrbucón logístca F ( x ( + e x Edgar Acuña Analss de Regreson
Suposcón en el Modelo Logístco Sea f(x/c (,2 la funcón de densdad del vector aleatoro p-dmensonal x en la clase C, en el modelo logístco se asume que: log( f ( x / C f ( x / C 2 α + β'x Donde, β es un vector de p parámetros y α representa el ntercepto. Edgar Acuña Analss de Regreson 2
Edgar Acuña Analss de Regreson 3 Odds Rato Sea pp(y/x la probabldad a posteror de que Y sea gual a para un valor observado de x Se defne la razón de apuestas (odds rato como: Donde: π representa la probabldad a pror de que Y pertenezca a la clase C. / ( / ( ( 0 / ( 0} { ( / ( } { 2 2 C f C f f y f Y P f y f Y P p p x x x x x x π π
Transformacón logt Tomando logartmos se tene log( p p π log( π + log Luego con la suposcon se tene que: log( Equvalentemente, 2 p p f ( x / C f ( x / C Edgar Acuña Analss de Regreson 4 2 α + β ' x exp( α + β' x p + exp( α + β' x
Cumplmento de la suposcon del modelo S las varables x en cada clase se dstrbuyen normalmente con medas u, u 2 y matríz de covaranza Σ entonces se satsface la suposcón dado que: log( Donde f ( x / C f ( x / C 2 α (u u 2 ' Σ (u + u 2 / 2 (u -u 2 ' Σ - (x-/2(u +u 2 β (u ' u2 Σ La suposcón tambén para otros tpos de dstrbucones dstntas de la normal multvarada tales como dstrbucones de Bernoull, y mezclas de éstas. Edgar Acuña Analss de Regreson 5
Estmacón del modelo logístco Método de Máxma Verosmltud Dada una observacón x, las probabldades de que ésta pertenezca a las clases C y C2 son : exp( α + β ' x P( C / x + exp( α + β ' x P( C2 / x P( C / x + exp( α + β ' x Consderando una muestra de tamaño nn +n 2 y un parámetro bnomal p gual a exp( α + β' x /( + exp( α + β' x la funcón de verosmltud es de la forma L( α, β n exp( a + x 'β + exp( α + x 'β Edgar Acuña Analss de Regreson 6 j n + n + exp( α + x j 'β La solucon de la equacon de verosmltud es solo numerca
Otra forma de estmar los parámetros α y β Consderamos la regresón lneal múltple de logt( pˆ versus x,x 2,,x p luego su varanza será aproxmadamente: pˆ Var[ln( ] [ pˆ p ( ] p p( n As se llega a un problema donde la varanza no es constante y se puede usar mínmos cuadrados ponderados con pesos w (x n pˆ (x(- pˆ (x para estmar los parámetros α y β del modelo logístco. 2 Edgar Acuña Analss de Regreson 7 p n p ( p
Meddas de Confabldad del Modelo Cuantfcan el nvel de ajuste del modelo al conjunto de datos: La Devanza El Pseudo-R 2 El Crtero de Informacón de Akake (AIC La Prueba de Bondad de Ajuste de Hosmer- Lemeshov. Edgar Acuña Analss de Regreson 8
La Devanza Es smlar a la suma de cuadrados del error de la regresón lneal. S la varable de respuesta Y no está grupada se tene que: n n D 2{ log( pˆ + log( p } y : y : 0 D tene una dstrbucón J-Cuadrado con (n-p-gl. S D es mayor que una J-Cuadrado con (n-p-gl para un nvel de sgnfcacón dado entonces el modelo logístco no es confable. Edgar Acuña Analss de Regreson 9
El Pseudo-R 2 Es smlar al R 2 de la regresón lneal se defne por: Pseudo R 2 ( Devanza 00% Devanza. Nula Donde la DevanzaNula es la devanza consderando solamente el ntercepto y se dstrbuye como una J-Cuadrado con (n-gl. Para hallar la DevanzaNula se hace una regresón logístca consderando que hay una sola varable predctora cuyos valores son todos unos. Edgar Acuña Analss de Regreson 20
El Crtero de Informacón de Akake (AIC Determna s un modelo es mejor que otro. Esta dado por: AICD+2(p+ Donde, p es el número de varables predctoras. Un modelo es mejor que otro s su AIC es más pequeño. Edgar Acuña Analss de Regreson 2
La Prueba de Bondad de Ajuste de Hosmer-Lemeshov. Se aplca cuando los datos son dados en forma agrupada y se defne por g 2 ( O n' p C n' p ( p Donde g es el número de grupos, n' es el número de observacones en el -ésmo grupo O es la suma de las y s en el -ésmo grupo y p es el promedo de las p en el -ésmo grupo. Edgar Acuña Analss de Regreson 22
Estadstcas Influencales para regresón logístca Resduales de Pearson es smlar al resdual estudentzado usado en regresón lneal r ( y representa el número de veces que y entre las m repetcones de X, de lo contraro m para todo. Resduales de Devanza Esta dado por: s y 0 y s y Una D observacón log( pˆ será anormal D s el resdual ˆ 2 log( p de devanza es 2 mayor que 2 en valor absoluto, entonces la observacón correspondente es anormal. y m m pˆ Edgar Acuña Analss de Regreson 23 pˆ pˆ
Uso de la regresón logístca en Clasfcacón: La forma mas facl de dscrmnar es consderar que s p>0.5 la obervacón pertenece a la clase que uno está nteresado. Otros metodos son: Plotear el porcentaje de obervacones que poseen el evento que han sdo correctamente clasfcadas (Senstvdad versus dstntos nveles de probabldad y el porcentajes de observacones de la otra clase que han sdo correctamente clasfcadas (especfdad versus los msmos nveles de probabldad anterormente usados, en la msma gráfca. La probabldad que se usará para clasfcar las observacones se obtenen ntersectando las dos curvas. Edgar Acuña Analss de Regreson 24
Ejemplo Interseccon de las curvas de senstvdad y de especfcdad para hallar el p-optmo 00 Senstvdad 50 Este es el p-optmo 0 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Especfcdad Las gráfcas de los dos métodos aparecen en la sguente fguras y embos caso el p-óptmo a usarse es p0.3 Edgar Acuña Analss de Regreson 25
La curva ROC Usar la curva ROC (Recever Operatng Characterstc Curva. En este caso se grafca la senstvdad versus (-especfdad00%, y se coge como el p deal aquel que está más cerca a la esquna superor zquerda, osea al punto (00,0. Edgar Acuña Analss de Regreson 26
Ejemplo de curva ROC Edgar Acuña Analss de Regreson 27