REGRESIÓN LOGÍSTICA INTRODUCCIÓN

Documentos relacionados
Solución a la práctica 6 con Eviews

I, al tener una ecuación. diferencial de segundo orden de la forma (1)

UNED Tudela Psicometría. Tema 4 Esquema tema 4

TEMA 10: DERIVADAS. f = = x

lm í d x = lm í ln x + x 1 H = lm í x + e x 2

Modelos Box-Jenkins. El paseo aleatorio X t = c + X t 1 + a t no es estacionario. Sin embargo, el proceso diferenciado regularmente

TAMAÑO DE LA MUESTRA

+ ( + ) ( ) + ( + ) ( ) ( )

ANÁLISIS DEL AMPLIFICADOR EN EMISOR COMÚN

Tabla de contenido. Página

LECTURA 09: PRUEBA DEHIPÓTESIS (PARTE III) TEMA 18: PRUEBA DE INDEPENDENCIA CHI CUADRADO

Proceso de análisis de regresión múltiple

Límites finitos cuando x: ˆ

AT07 PORCENTAJE DE POBLACIÓN EN LA ESCUELA CON UN AVANCE REGULAR POR EDAD. A gn inf. A gn sup PPR = P e PPR

CARACTERÍSTICAS EXTERNAS y REGULACIÓN de TRANSFORMADORES

TEMA 5. Límites y continuidad de funciones Problemas Resueltos

Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.

INTEGRACIÓN POR PARTES

Representación esquemática de un sistema con tres fases

PROBLEMAS DE LÍMITES DE FUNCIONES (Por métodos algebraicos) Observación: Algunos de estos problemas provienen de las pruebas de Selectividad.

PARTE I Parte I Parte II Nota clase Nota Final

Modelo de Regresión Logística

Solución: Para que sea continua deben coincidir los límites laterales con su valor de definición en dicho punto x = 2. b 1 + b

2. En el punto x = 0, f ( x) a) Un mínimo local. b) Un máximo local. c) Ninguna de las anteriores. Solución:

f (x)dx = f (x) dx. Si la respuesta es afirmativa justifíquese, si es negativa,

Capítulo V CONDICIONES DE FRONTERA Y MODELAMIENTO NUMÉRICO EN ECUACIONES DIFERENCIALES

REGRESIÓN LOGÍSTICA INTRODUCCIÓN

SEPTIEMBRE Opción A

ESTUDIO DE UNA FUNCIÓN CON AYUDA DE LA DERIVADA. 1. a) Halla los valores de los coeficientes b, c y d para que la gráfica de la función

LÍMITE DE FUNCIONES. lim. lim. lim. LÍMITE DE UNA FUNCIÓN CUANDO x + LÍMITE FINITO. DEFINICIÓN

El área del rectángulo será A = p q, donde p 0,2 es variable y q depende de p. ( ) ( ) ( )

REPRESENTACIÓN DE CURVAS

PRÁCTICA 8 ESTUDIO DE ENGRANAJES 3º INGENIERÍA INDUSTRIAL

Ejercicios resueltos Distribuciones discretas y continuas

tiene por límite L cuando la variable independiente x tiende a x

a) f (x) = 1+Mg (x) <1 2-1<1+mg (x)<1-2<mg (x)<0 <M<0 como como para que f sea Lipschitziana de [0,1] [0,1] con constante de

2º Bachillerato: ejercicios modelo para el examen de las lecciones 11, 12 y 13

1. LÍMITE DE UNA FUNCIÓN REAL

Aplicaciones de las Derivadas

Modelos Matemáticos para la optimización y reposición de maquinarias: Caso la Empresa Eléctrica de Milagro

1. (RMJ15) a) (1,5 puntos) Discute el siguiente sistema de ecuaciones en función del parámetro a:

TEMA 1: Los números reales. Tema 1: Los números reales 1

SOLUCIONARIO. UNIDAD 13: Introducción a las derivadas ACTIVIDADES-PÁG Las soluciones aparecen en la tabla.

I. E. S. ATENEA. SAN SEBASTIÁN DE LOS REYES EXAMEN PARCIAL. PRIMERA EVALUACIÓN. ANÁLISIS

Tema 10 Análisis de datos categóricos Grados de utrición Humana y Dietética Ciencia y Tecnología de Alimentos

Part IV. Modelos para la volatilidad. Series de Tiempo. Germán Aneiros Pérez. Introducción. Procesos ARCH: Construcción. Procesos GARCH: Estimación

CINEMÁTICA (TRAYECTORIA CONOCIDA)

MEDICIÓN DE LA BANDA PROHIBIDA DEL SILICIO

Energía. Reactivos. Productos. Coordenada de reacción

TEMA 1: Los números reales. Tema 1: Los números reales 1

2x 1. (x+ 1) e + 1 2x. 3.- Derivabilidad de una función. 6x 5, si2 x 4

LECCIÓN 5: ECUACIONES DIFERENCIALES ORDINARIAS DE PRIMER ORDEN DE VARIABLES SEPARABLES

SOLUCIONES DE LAS ACTIVIDADES Págs. 65 a 83

Soluciones a los ejercicios propuestos Unidad 1. El conjunto de los números reales Matemáticas aplicadas a las Ciencias Sociales I

INSTITUTO DE CIENCIAS MATEMÁTICAS CÁLCULO DIFERENCIAL. TERCERA EVALUACIÓN Septiembre 17 de Nombre:

TEMA 7 APLICACIONES DE LA DERIVADA

Elementos de acero Factores de longitud efectiva para el cálculo de la resistencia de elementos sometidos a compresión.

7 L ímites de funciones. Continuidad

Sistemas de control: Elementos componentes, variables, función de transferencia y diagrama funcional.

CAPÍTULO 14: LAS EXPECTATIVAS: LOS INSTRUMENTOS BÁSICOS

2º BACHILLERATO CINETICA QUÍMICA

Prueba ji-cuadrado: χ 2. Estudiar la relación entre dos variables cualitativas. Estudiar la relación entre dos variables cualitativas

Cálculo de fuerzas y pares de fuerza mediante el principio de los desplazamientos virtuales.

CALCULO GRADO EN INGEN. INFORM. DEL SOFTWARE EJERCICIOS RESUELTOS DEL TEMA 1

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2008 Segunda semana

CAPITULO 5. ECUACIONES DIFERENCIALES DE ORDEN N Introducción Reducción de orden

Integrales indefinidas. 2Bach.

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2009 MATEMÁTICAS II TEMA 5: INTEGRALES

CONSUMO MUNDIAL DE FIBRAS TEXTILES

( y la cuerda a la misma que une los puntos de abscisas x = 1 y x = 1. (2,5 punto)

Part IV. Modelos de memoria larga. Series de Tiempo. Germán Aneiros Pérez. Introducción. Procesos FARIMA: Construcción e. Estimación.

TEMA 11. La integral definida Problemas Resueltos

Algoritmo para Aproximar el Área Bajo la Curva de la Función Normal Estándar

APLICACIONES DE LAS ECUACIONES DIFERENCIALES ORDINARIAS DE PRIMER ORDEN A PROBLEMAS QUE INVOLUCRAN A LA RECTA TANGENTE Y LA RECTA NORMAL

Métodos específicos de generación de diversas distribuciones continuas

Prof. Jesús Olivar. Resumen de Cálculo II ING. PETRÓLEO

PRUEBA DE ACCESO (LOGSE) UNIVERSIDAD DE BALEARES JUNIO (RESUELTOS por Antonio Menguiano) Tiempo máximo: 1 horas y 30 minutos OPCIÓN A

105 EJERCICIOS de DERIVABILIDAD 2º BACH.

Definición de derivada

Tema 2 La oferta, la demanda y el mercado

EJERCICIOS RESUELTOS DE FUNCIONES REALES DE VARIABLE REAL

SOLUCIONES DE LOS EJERCICIOS INCLUIDOS EN LOS TEMAS 1 a 3 DE ESTADÍSTICA II

Límite Idea intuitiva del significado Representación gráfica

UNIDAD DOS FUNCIONES, TRIGONOMETRÍA E HIPERNOMETRÍA

3.- a) [1,25 puntos] Prueba que f(x) = ex e x

- Se trata en el fondo, de la misma manera de medir la asociación entre X y M.

Unidad 11 Derivadas 4

Prueba de asociación de dos variables cualitativas

DEPARTAMENTO DE FUNDAMENTOS DE ECONOMÍA E HISTORIA ECONÓMICA Matemáticas II EXAMEN FINAL Junio 2011 APELLIDOS: NOMBRE: D.N.I.

168 Termoquímica y Cinética. Aspectos Teóricos

PRIMERA PRÁCTICA SONIDO

EJERCICIOS UNIDADES 3 y 4: INTEGRACIÓN DE FUNCIONES

. La tasa de variación media es la pendiente del segmento AB, siendo A(a, f(a) ) y B(b, f(b) ) dos puntos de la gráfica de la función:

Tema 13. Aplicaciones de las derivadas

LÍMITES, CONTINUIDAD, ASÍNTOTAS 11.1 LÍMITE DE UNA FUNCIÓN LÍMITE DE UNA FUNCIÓN EN UN PUNTO. Límite de una función en un punto

= 6 ; -s -4 s = 6 ; s= - 1,2 m. La imagen es real, invertida respecto del objeto y de mayor tamaño.

Matemáticas II TEMA 11 La integral definida Problemas Propuestos y Resueltos

Matemáticas Avanzadas para Ingeniería Funciones reales extendidas al Plano Complejo, problemas resueltos

Primer Examen Parcial Tema A Cálculo Vectorial Septiembre 26 de 2017

Transcripción:

1 REGRESIÓN LOGÍSTICA INTRODUCCIÓN Comncmos con un jmplo qu nos srvirá para ilustrar l análisis d datos binarios. Los siguints datos tomados d Littl (1978) corrspondn a 1607 mujrs casadas y fértils ntrvistadas por la Encusta d Frtilidad Fiji d 1975, clasificadas por dad, nivl d ducación, dso d tnr más hijos y l uso d anticoncptivos. En st jmplo s considra a Anticoncpción como variabl dpndint y a las dmás como prdictoras. En st caso todas las prdictoras son variabls catgóricas, sin mbargo l modlo qu prsntarmos prmit introducir variabls indpndints continuas y discrtas. El objtivo s dscribir cómo l uso d métodos anticoncptivos varía sgún la dad, l nivl d ducación y l dso d tnr más hijos. Por jmplo, una prgunta qu sría intrsant rspondr s si la asociación ntr ducación y anticoncpción s afctada por l hcho d qu mujrs con un nivl d ducación más lvado prfirn familias más chicas qu las mujrs con nivls d ducación infrior. El modlo d rgrsión logística s muy utilizado n trabajos biológicos y pidmiológicos. S utiliza para modlar rpustas dicotómicas (prsncia o ausncia d una condición) n función d un conjunto d variabls (covariabls) qu posiblmnt afctan la rspusta. Igual qu n rgrsión linal, la rgrsión logística prov una stratgia d modlización gnral, flxibl y d intrprtación dircta. También prmit qu las covariabls san cualitativas, ordinals o cuantitativas. Dsd l punto d vista práctico, los dos métodos tinn muchas similituds, a psar qu los procdimintos matmáticos subyacnts son difrnts. Dsd l punto d vista tórico l modlo d rgrsión logística forma part d una familia d modlos llamada Modlos linals gnralizados. En rgrsión linal la mdia d la variabl rspusta (µ) s modla mdiant una combinación linal d variabls xplicativas E ( Y x x. 1,, xk ) ( Y x1,, xk ) 0 1x1 k k

2 En los modlos linals gnralizados s modla una transformación d la mdia d la variabl rspusta (g(µ)) como una combinación linal d las variabls xplicativas: g( E(Y x1,, xk )) g( (Y x1,, xk )) 0 1x1 k xk. Si la variabl rspusta Y (componnt alatoria) tin distribución Bi (1, p) (como ocurrirá n rgrsión logística), s dcir: Y = 1 con probabilidad p Y = 0 con probabilidad 1- p, l parámtro p admás d sr la mdia d la variabl Y s la probabilidad d qu Y tom l valor 1. Es dcir: Por otro lado σ 2 = V(Y) = p(1-p). Así mismo, dadas las obsrvacions x 1,,x k μ = E (Y) = 1.p + 0.(1-p) = p. Y = 1 x 1,,x k con probabilidad p = p(x 1,,x k ) P(Y 1 x1,, xk ) y Y = 0 x 1,,x k con probabilidad 1- p(x 1,,x k ) P(Y 1 x,, x ). 1 1 k Tanto la mdia como la varianza dpndn d las obsrvacions x i. Esto sugir qu cualquir modlo qu, como l linal, asuma homoscdasticidad d las obsrvacions no srá adcuado para l problma. En l modlo d rgrsión logística, la mdia (p) d una variabl rspusta con distribución Binomial(1, p) s transforma mdiant la transformación logística : Así l modlo rsulta d la forma g (p) p ln 1 p P(Y 1 x1,, x ) k ln 0 1x1 k x 1 P(Y 1 x1,, xk ) Vrmos por qué tin sntido st modlo y prsntarmos los motivos por los cuals no s adcuado ajustar un modlo linal cuando la variabl rspusta s binaria. Estudiarmos cómo s la curva qu rsulta d la transformación logística. Dsarrollarmos jmplos d rgrsión logística simpl (una única variabl xplicativa), y d rgrsions logísticas múltipls (más d una variabl xplicativa). Utilizarmos tanto variabls xplicativas continuas como variabls xplicativas catgóricas. Vrmos l significado d divrsas mdidas qu habitualmnt prsntan los programas stadísticos qu ralizan un ajust logístico para valuar la calidad dl modlo stimado. Una vz stablcido l modlo qu qurmos ajustar harmos las difrnts tapas d infrncia habituals: Estimar los parámtros Hallar intrvalos d confianza para los mismos Evaluar la bondad dl ajust Ralizar algún tst qu involucr los parámtros. k.

3 Comncmos dsarrollando un jmplo con covariabl continua. Más adlant xtndrmos l análisis a los dmás casos. Tabla 1. Prsncia (1) Ausncia (0) d diabts (DIABET) ID DIABET SSPG ID DIABET SSPG ID DIABET SSPG 44 0 29 33 0 32 18 0 37 45 0 42 58 0 42 21 0 47 20 0 50 22 0 50 57 0 52 11 0 53 37 0 54 1 0 55 46 0 56 80 0 59 19 0 60 96 1 60 12 0 66 15 0 68 43 0 71... 64 0 136 53 0 138 28 0 140 13 0 142 5 0 143 29 0 145 142 1 150 134 1 152 67 0 153 107 1 155 110 1 156 105 1 157 27 0 158 78 0 159 42 0 160 34 0 165 6 0 165 66 1 167 135 1 167... 26 0 235 98 1 235 103 1 239 104 1 242 62 1 244 124 1 248 68 0 248 87 1 253 145 1 253 75 0 254 65 1 257 82 0 259 119 1 260 93 1 264 106 1 267 95 1 268 71 1 270 89 1 271 97 1 272... Considrmos los datos dl archivo diabt.xls. Corrspondn a 145 adultos no obsos qu participaron n un studio sobr diabts para invstigar la rlación ntr la prsncia d diabts y varias mdidas químicas. Utilizarmos únicamnt la variabl SSPG stady stat plasma glucos (una mdida d la rsistncia a la insulina) como variabl xplicativa y como variabl rspusta DIABET (DIABET =1 indica qu l pacint s diabético, DIABET=0 indica qu l pacint no s diabético). La Tabla 1 mustra una part d los datos y s ncuntran ordnados d acurdo con valors crcints d la variabl SSPG. >library(radxl) >path<-fil.choos() >diabtsxls<-rad_xcl(path) DIABET ID INSTEST GLUFAST GLUTEST GROUP RELWT SSPG 1 0 1 124 80 356 1 0.81 55 2 0 2 117 97 289 1 0.95 76 3 0 3 143 105 319 1 0.94 105 >diabt<-diabtsxls$diabet >sspg<-diabtsxls$sspg >summary(sspg) Min. 1st Qu. Mdian Man 3rd Qu. Max. 29.0 100.0 159.0 184.2 257.0 480.0

4 >hist(sspg) >hist(sspg,nclass=20,probability=t,main="histograma d Áras", xlab= "SSPG",ylab="Dnsidad",xlim=c(0,500),bordr="darkrd",col="pink")

5 >stm(sspg) Th dcimal point is 1 digit(s) to th right of th 2 927 4 22700234569 6 0068134668 8 000350134689 10 023555688917899 12 2222482568 14 023502356789 16 05577567 18 06448 20 46991 22 0006133559 24 248833479 26 0478012369 28 67 30 000309 32 0479 34 6117 36 48 38 2 40 3 42 44 2058 46 48 0 >sq(0,500,by=40) 0 40 80 120 160 200 240 280 320 360 400 440 480 >class<-cut(sspg,braks=c(0,40,80,120,160,200,240,280,320,360,420,500)) >tabl(class) class (0,40] (40,80] (80,120] (120,160] (160,200] (200,240] (240,280] 3 24 24 23 12 15 19 (280,320] (320,360] (360,420] (420,500] 9 7 4 5 Otras formas para dtrminar class >class2<-cut(sspg,braks=sq(0,500,by=40)) >class3<-cut(sspg,braks=sq(0,500,lngth.out=10)) >sq(0,500,lngth.out=10) [1] 0.00000 55.55556 111.11111 166.66667 222.22222 277.77778 [7] 333.33333 388.88889 444.44444 500.00000 Obtnmos las mdias mustrals (promdios) d las variabls SSPG y DIABET para cada clas. Qué significa la mdia mustral d la variabl DIABET?

6 >sumayporclass<-tapply(diabt,index=class,fun=sum) >sumayporclass (0,40] (40,80] (80,120] (120,160] (160,200] (200,240] (240,280] 0 1 2 8 6 12 15 (280,320] (320,360] (360,420] (420,500] 9 7 4 5 >pestimado<-sumayporclass/tabl(class) >pestimado (0,40] (40,80] (80,120] (120,160] (160,200] (200,240] 0.00000000 0.04166667 0.08333333 0.34782609 0.50000000 0.80000000 (240,280] (280,320] (320,360] (360,420] (420,500] 0.78947368 1.00000000 1.00000000 1.00000000 1.00000000 >tapply(sspg,index=class,fun=man) (0,40] (40,80] (80,120] (120,160] (160,200] (200,240] (240,280] 32.66667 62.58333 102.66667 141.34783 178.66667 222.06667 260.94737 (280,320] (320,360] (360,420] (420,500] 303.88889 342.14286 386.75000 457.00000 class mdia SSPG proporción DIABET [0-40) 32,67 0,00 [40 80) 62,58 0,04 [80-120) 102,67 0,08 [120-160) 141,35 0,35 [160-200) 178,67 0,50 [200-240) 222,07 0,80 [240-280) 260,95 0,79 [280-320) 303,89 1,00 [320-360) 342,14 1,00 [360-420) 386,75 1,00 [420-500) 457,00 1,00 Tabla 2. Proporción d pacints con diabts por clas La tabla antrior mustra qu la proporción d pacints diagnosticados con diabts aumnta a mdida qu aumnta la mdia d SSPG d cada grupo. La Figura 1 prsnta l diagrama d disprsión corrspondint.

7 Figura 1. Proporción d pacints diagnosticados con diabts n función d los nivls d glucosa (SSPG). La Figura 2 mustra la curva d rgrsión logística y la rcta ajustada a los datos d la tabla 1 (mínimos cuadrados), junto con las proporcions obsrvadas. Vmos qu la rcta capta la tndncia crcint d las proporcions pro stima valors fura dl intrvalo [0, 1], n l rango d valors obsrvados para la variabl xplicativa. La curva stimada admás d mostrar la tndncia crcint d las proporcions con la variabl xplicativa pasa n promdio más crca d la mayoría d los puntos dl diagrama d disprsión. Figura 2

8 Si ajustamos n forma rróna un modlo d rgrsión linal a st conjunto d datos obtndrmos la rcta ajustada qu mustra l diagrama d disprsión d la figura 2 y las siguints salidas >diabtslm<-lm(diabt~sspg) >summary(diabtslm) Call: lm(formula = diabt ~ sspg) Rsiduals: Min 1Q Mdian 3Q Max -0.7685-0.2544-0.0533 0.2611 0.9335 Cofficints: Estimat Std. Error t valu Pr(> t ) (Intrcpt) -0.1312661 0.0601607-2.182 0.0307 * sspg 0.0032959 0.0002833 11.634 <2-16 *** --- Signif. cods: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Rsidual standard rror: 0.3605 on 143 dgrs of frdom Multipl R-squard: 0.4863, Adjustd R-squard: 0.4827 F-statistic: 135.4 on 1 and 143 DF, p-valu: < 2.2-16 >anova.tabl(diabtslm) 1 Funt SS DF MS F P 2 Rgrsion 17.586031292059 1 17.586031292059 135.353716546524 0 3 Rsiduos 18.5794859493203 143 0.129926475170072 4 Total 36.1655172413793 144 Las tablas no mustran los problmas pro n los diagramas d disprsión d los datos (Figura 3) y los rsiduos (Figura 4) pudn obsrvars structuras no atribuibls al azar.

9 Figura 3 La Figura 3 mustra l diagrama d disprsión d los valors obsrvados d la variabl rspusta y la variabl SSPG junto con la rcta ajustada por rgrsión linal. Est diagrama nos da una imprsión d la naturalza y furza d la rlación ntr la rspusta y la variabl indpndint. Los puntos can n dos línas parallas, indicando la prsncia (DIABET = 1) o ausncia (DIABET = 0) d diabts. Est gráfico mustra claramnt la naturalza dicotómica d la variabl rspusta y parc sugrir qu la diabts ocurr con mayor frcuncia n pacints con valors más altos d SSPG. Sin mbargo, st gráfico no prov una imagn clara d la rlación ntr la diabts y la SSPG ya qu como los datos can sobr 2 línas horizontals, l gráfico s difícil d intrprtar. Qué spraríamos vr n la Figura 3 si no hubira ninguna rlación ntr SSPG y DIABET? Los rsiduos (Figura 4) mustran una structura clara indicando qu l modlo linal no s adcuado para stos datos.

10 Figura 4 Volvindo a la Figura 3, valors bajos d SSPG corrspondn a pacints no diabéticos, mintras qu para valors más altos d SSPG s obsrva más frcuntmnt prsncia d diabts. La situación más sncilla ocurriría si xistira un umbral o valor d cort para la variabl SSPG, tal qu hasta s valor, la variabl DIABET=0 y para valors mayors DIABET=1. Esto sría lo qu sucdría n un modlo sin ruido. Qué ocurriría n un caso más ralista, como l d nustra mustra, n l qu intrvin l ruido dbido a las componnts alatorias dl studio? Lo qu cab sprar s un diagrama como l d la Figura 3. También stá claro qu hay una zona d transición dond los valors d DIABET =0 ó 1 s altrnan mintras dura la transición y no hay valor d SSPG qu prmita spararlos limpiamnt. Tnindo n cunta las idas qu hmos ido xponindo n l jmplo, qué clas d rspusta spramos d un modlo n st tipo d situacions, qué tipo d prdicción? Si xistira un umbral spraríamos obtnr DIABET=0 (hasta l umbral) ó DIABET=1 (lugo dl umbral), pro cuando hay una zona d transición la solución no s cntrars n los valors 0 y 1 d DIABET sino n cambio, n la probabilidad d qu DIABET tom uno d sos valors. Es un cambio trascndntal qu afcta a la structura dl modlo qu vamos a construir. La prgunta qu vamos a rspondr no s: Dado un valor d X=SSPG, cuál s l valor d Y=DIABET, uno o cro? sino Dado un valor d X=SSPG, cuál s la probabilidad d qu Y=DIABET tom valor 1?

11 El objtivo cntral d nustro modlo s una probabilidad condicionada p(x 0 ) = P(Y = 1 X = x 0 ), Rcordar qu P(Y = 0 X = x 0 ) = 1 - P(Y = 1 X = x 0 ). Así por jmplo, si ocurrira qu para un x 0 n la zona d transición nustro modlo stima p(x 0 ) = P(Y = 1 X = x 0 ) con valor pˆ ( x 0) = 0.75=3/4. Esto significa qu d cada cuatro obsrvacions con un valor X = x 0, spramos qu n trs d llas, s cumpla Y = 1. Podríamos discrtizar l rango d X=SSPG n class, como n nustro jmplo d diabts y stimar por jmplo P(Y = 1 200 X < 240) con valor 0.8. 1.1 MODELO DE REGRESIÓN LOGÍSTICA En muchos studios la variabl rspusta s la prsncia (Y = 1) o ausncia (Y = 0) d una condición. S trata d variabls dicotómicas, pus involucran dos catgorías. Las técnicas para modlar variabls dicotómicas s xtindn a variabls con trs o más catgorías (policotómicas) utilizando la distribución multinomial. Espramos qu un modlo d rgrsión adcuado stim la proporción d individuos n la población con la caractrística d intrés, o quivalntmnt la probabilidad d qu un individuo tnga dicha caractrística, para cada valor d la variabl xplicativa. En l jmplo d los pacints diabéticos l modlo dbría stimar la proporción d individuos con diabts para cada valor fijo d la variabl SSPG stady stat plasma glucos. Indiqumos por p la probabilidad d qu un individuo tnga diabts. La variabl Y, qu indica la prsncia o ausncia dl vnto, val 1 si l individuo tin diabts y 0 si no. Su distribución s Bi(1, p) y su valor sprado o valor mdio s E(Y) = p. Intrsa studiar la rlación ntr la glucosa-sspg y la prsncia o ausncia d diabts n la población n studio. Qué significaría n st caso ajustar un modlo d rgrsión linal simpl para la variabl rspusta (Y i = prsncia o ausncia d diabts n l i-ésimo pacint) con X i como variabl xplicativa? Y X i Significaría suponr qu la mdia d la variabl Y cambia linalmnt con la variabl indpndint X i X x x E Y. Rcordmos qu una vz qu conocmos l valor d X= x, la mdia d Y s la probabilidad (p) d qu Y = 1. Esto s, para cada valor d x i E Y X x P(Y 1 X x) = p(x). Por lo tanto l modlo linal propon qu la probabilidad d qu un individuo lgido al azar (n la población n custión) ntr los qu tinn x glucosa tnga diabts s una función linal d la glucosa:

12 p ( x) x La stimación d st modlo podría basars n mínimos cuadrados ordinarios. Como p(x) s una probabilidad, db cumplir con la rstricción: 0 p(x) 1, mintras qu x pud tomar cualquir valor ral. Cuando ajustmos la rgrsión, podría ocurrir qu l valor stimado d p(x) para valors d X dntro dl rango d valors obsrvados, cayra fura d los límits stablcidos por la rstricción y así l modlo linal no tndría sntido. Esta solución no rsulta muy natural. Vr nuvamnt la Figura 2. Podríamos intntar rsolvr st problma aplicando una transformación a la probabilidad p(x) a través d una función qu map l intrvalo (0,1) sobr la rcta ral. Llammos odds (u oportunidad) al p cocint. Obsrvar la siguint tabla: 1 p p p 1 p ln p 1 p 0.01 0.01-4.59 0.1 0.11-2.20 0.2 0.25-1.38 0.5 1 0 0.6 4 1.38 0.9 9-0.10 0.99 99 4.59 D manra qu los odds mnors qu 1 stán asociados a probabilidads mnors qu 0.5 y odds mayors qu 1 stán asociados a probabilidads mayors qu 0.5. Sin mbargo sta transformación sólo mapa sobr los rals positivos. Para xtndrla a los ngativos introducimos l logaritmo: p ln. 1- p El modlo d rgrsión logística qu s un caso particular d modlo linal gnralizado, stablc qu una transformación d la probabilidad d qu un individuo lgido al azar (n la población n custión) ntr los qu tinn x glucosa tnga diabts, s una función linal d x: p( x) ln = + x 1- p( x) Por qué tin sntido st modlo?

13 Lugo no habría problmas con las prdiccions utilizando + x. Qué dic l modlo logístico rspcto d la probabilidad sin transformar, d tnr diabts? Para llo vamos qu: + x p( x) = 1+ Mdiant sa transformación logit s logra qu los valors stimados d p(x) s ncuntrn simpr n l intrvalo (0, 1). Por qué? + x. (1) O lo qu s lo mismo: La probabilidad d qu un individuo lgido al azar (n la población n custión), ntr los qu tinn x glucosa, tnga diabts, s rlaciona n forma curvilína con la variabl xplicativa d acurdo con la xprsión (1). La curva dada n (1) toma valors dntro dl intrvalo [0, 1]. A continuación damos múltipls jmplos:

14 El punto gordo stá marcando l cambio d tndncia éxito- fracaso (o al rvés). 1.1.1 FUNCIÓN DE RESPUESTA LOGÍSTICA La Figura 5 mustra dos funcions d rspusta curvilínas hipotéticas para l caso d una única variabl prdictora continua. Estas curvas tinn forma d S volcada o su imagn spcular, no pudn tomar valors fura dl intrvalo [0,1], son llamadas funcions d rspusta logística.

15 (a) Crcint Figura 5 (b) Dcrcint Una curva logística cualquira pud rprsntars mdiant la siguint xprsión: + x E( Y X x) p( x) = (1) + x 1+ El plan consist n lgir los valors d los parámtros qu proporcionn la mjor curva logística para nustra mustra d puntos. Como pud obsrvars n las curvas d la Figura 5, una función d rspusta logística pud sr tanto monótona crcint, cuando l coficint ß s positivo y monótona dcrcint cuando s ngativo. Si β = 0 β > 0 β < 0 α p ( x) = s constant sobr los valors d x α 1+ + x p ( x) = crc con x + x 1+ + x p ( x) = dcrc con x + x 1+ Más aún, s casi linal para valors d p(x) ntr 0.2 y 0.8, y s acrca gradualmnt a 0 y 1 hacia los dos xtrmos dl rango d valors d x. El gráfico s parc, cuando ß > 0, a la función d distribución acumulada d una variabl alatoria. No dbría sorprndr qu conocidas funcions d distribución acumuladas hayan sido utilizadas para provr un modlo d E (Y X = x) n l caso qu Y s dicotómica. Por jmplo, ha sido utilizada la distribución Gaussiana dando como rsultado l modlo Probit. Nosotros usarmos la distribución logística qu llva a la cuación (1). Hay dos razons fundamntals para lgirla. Estas son: (1) dsd l punto d vista matmático, s una función muy flxibl y muy fácil d usar, (2) dsd l punto d vista biológico, los coficints admitn una intrprtación simpl. En la cuación (1) aparc p(x) para dstacar l hcho qu n st caso la spranza d la variabl rspusta coincid con la probabilidad d qu ocurra l vnto d intrés (Y = 1). Vimos qu una forma quivalnt d scribir l modlo (1) d rgrsión logística s: p( x) ln = + x 1- p( x) En st modlo l parámtro d mayor intrés s la pndint β, tal como ocurr n rgrsión linal. Rcordmos qu la difrncia principal con la rgrsión linal s qu n l modlo logístico proponmos una rlación linal ntr una transformación d las proporcions y las variabls xplicativas. La transformación qu usamos s la logit : p logit (p)= ln ln( odds) 1- p dond p s la proporción poblacional d individuos con la caractrística, o sa s la probabilidad qu la variabl rspusta tom l valor 1 (p = P(Y = 1 X=x)). (2)

16 Si p s la probabilidad qu un individuo tnga diabts ntoncs 1- p s la probabilidad d qu no lo tnga. La xprsión dada n (2) pud scribirs como: logit(p) = + x ln( odds ) + x La rgrsión logística stablc qu l logit s una función linal d la variabl xplicativa, ntoncs, la probabilidad p s una función con forma d S como las d la Figura 3. Las probabilidads prdichas s acrcan, pro nunca alcanzan o xcdn, los bords d 0 y 1. Equivalntmnt la rgrsión logística stablc qu l odds s una función multiplicativa d las variabls: odds x. 1.1.2 SIGNIFICADO DE LOS COEFICIENTES EN EL MODELO DE REGRESIÓN LOGÍSTICA SIMPLE. Con una única variabl xplicativa continua: p( x) ln x 1 p( x) El coficint β s l cambio n unidad. Más spcíficamnt p( x) ln 1- p( x) = logit(p(x)) cuando la variabl X aumnta n 1 p( x 1) ln ( x 1) 1 p( x 1) Lugo p( x 1) p( x) ln ln 1 p( x 1) 1 p( x) y d manra quivalnt p( x 1) 1 p( x 1) ln. p( x) 1 p( x) Tomando xponncial d cada lado d la dsigualdad quda:

17 Esta última xprsión s llama odds ratio (OR). p( x 1) 1 p( x 1) p( x) 1 p( x) El OR asociado a un cambio n una unidad d la variabl X stá dado por OR. Equivalntmnt β s l ln(or) ntr los grupos dfinidos por X = x +1 y por X = x. Muchas vcs un cambio n una unidad no tin intrés biológico. Por jmplo, l cambio n 1 día n la dad pud sr muy pquño para sr considrado important. Un cambio n 2 años pud sr más útil. El ln(or) ntr l grupo dfinido por X = x + c y l grupo dfinido por X = x s: odds( x c) ln c odds(x). El OR asociado a un cambio d c unidads d la variabl xplicativa, cuando su coficint s β, s obtin: OR(c) c. Rtomarmos más adlant, l studio d los odds y odds ratio con más dtniminto.

18 Comparación Rgrsión Linal vs Rgrsión Logística Linal Logística Variabl Rspusta Y: continua Y: binaria: 0 ó 1 Valor ajustado Nivl d Y P(Y 1 X x) Intrprtación d los parámtros Difrncia d Y ln(or) Como s mncionó ants l modlo d rgrsión logística no pid linalidad ntr su variabl dpndint y sus variabls xplicativas sin mbargo, sí rquir qu la rlación ntr la variabl indpndint y los ln(odds)=logit sa linal. Est modlo rquir mustras más grands rspcto a las qu s usan para l modlo d rgrsión linal, ya qu la stimación por máxima vrosimilitud s más débil qu la stimación por mínimos cuadrados. 1.1.3 REGRESIÓN LOGÍSTICA-EJEMPLO-CONT La variabl rspusta s la prsncia (Y=1) o ausncia (Y=0) d diabts y la única variabl xplicativa s la SSPG. >diabtsglm<-glm(diabt~sspg,family=binomial(link="logit")) >summary(diabtsglm) Call: glm(formula = diabt ~ sspg, family = binomial(link = "logit")) Dvianc Rsiduals: Min 1Q Mdian 3Q Max -2.2109-0.5295-0.2456 0.4748 2.4813 Cofficints: Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.548160 0.711406-6.393 1.62-10 *** sspg 0.025280 0.003939 6.418 1.38-10 *** --- Signif. cods: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Disprsion paramtr for binomial family takn to b 1) Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 106.69 on 143 dgrs of frdom AIC: 110.69 La tabla antrior mustra n la columna ncabzada por Estimat: los stimadors d los coficints d cada variabl n l modlo logístico, n st caso solamnt l coficint d SSPG y la ordnada al orign (constant). Dichos stimadors furon obtnidos mdiant l método d máxima vrosimilitud. Dicho método srá studiado más adlant. La notación qu usarmos para los coficints stimados srá: ˆ y ˆ.

19 Std. Error: los rrors típicos o rrors stándar asociados a los coficints. Prmitn ralizar tsts basados n la distribución Normal para dcidir si l coficint s stadísticamnt significativo (mayor a cro, mnor a cro o distinto d cro). Sus p-valors tinn validz aproximada. Estadístico d Wald: z valu = Estimat/Std. Error Es l stadístico dl tst para dcidir si l coficint s stadísticamnt significativo distinto d cro. Está basado n una distribución N(0,1). Sus p-valors tinn validz aproximada. Pr(> z ): s l p-valor aproximado dl stadístico Wald para cada coficint. Otros comandos útils: >diabtsglm$cofficints[1] (Intrcpt) -4.54816 >diabtsglm$cofficints[2] sspg 0.02527999 > summary(diabtsglm)$cofficints Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.54816001 0.711405912-6.393200 1.624499-10 sspg 0.02527999 0.003938883 6.418061 1.380209-10 > summary(diabtsglm)$cofficints[2,3] [1] 6.418061 El modlo stimado d acurdo con la tabla antrior s : logit st = -4,548 + 0,025 * SSPG (4) log(odds st) = log( pˆ (SSPG)/(1- pˆ (SSPG)) = -4,548 + 0,025 * SSPG o quivalntmnt pˆ (SSPG ) 1 ( -4,548 0,025*SSPG ) ( -4,548 0,025*SSPG ) >diabtsglm<-glm(diabt~sspg,family=binomial(link="logit")) b0<-diabtsglm$cofficints[1] b1<-diabtsglm$cofficints[2] >curvalogisticaglm<-function(x) { rturn(xp(b0+b1*x)/(1+xp(b0+b1*x))) }

20 >curv(curvalogisticaglm,from=0,to=500) O bin >plot(c( 32.66, 62.58, 102.66, 141.34, 178.66, 222.06, 260.94,303.88, 342.142, 386.75, 457.0),c(0, 0.041, 0.083, 0.347, 0.5, 0.8,0.789,1, 1, 1,1),xlab="mdia d sspg por clas",ylab="proporción d diabéticos por clas") >x<-sq(1,500,by=0.01) >lins(x,curvalogisticaglm(x))

21 Figura 5 Intrvalos d confianza Los intrvalos d confianza d nivl 1 para los coficints stán dados por: Estimat ± Z / 2 Std.Error Hallmos un intrvalo d confianza para l coficint d SSPG d nivl 95% > summary(diabtsglm)$cofficints Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.54816001 0.711405912-6.393200 1.624499-10 sspg 0.02527999 0.003938883 6.418061 1.380209-10 > s<-summary(diabtsglm)$cofficints[2,2] > s [1] 0.003938883 >c(diabtsglm$cofficints[2]-qnorm(0.975)* s,diabtsglm$cofficints[2]+qnorm(0.975)*s) sspg sspg 0.01755969 0.03300029 O bin podmos usar las funcions dl R para hallar un intrvalo d confianza para : > confint.dfault(diabtsglm,lvl = 0.95) 2.5 % 97.5 % (Intrcpt) -5.94248998-3.15383005 sspg 0.01755992 0.03300006

22 El coficint asociado a SSPG s positivo, lo qu nos indica qu la probabilidad d tnr diabts aumnta con l nivl d glucosa. El coficint asociado a SSPG s = 0,025. Por lo tanto l odds ratio stimado para un aumnto d una unidad d SSPG s (stadísticamnt significativo) mayor a 1 0,025 OR st 1,026. xp(0.025279989820210434) = 1.025602. Est odds ratio mustra un cambio biológicamnt important? Podmos hallar un intrvalo d confianza para los odds ratio stimados: Hasta acá tnmos un intrval d confianza para dado por IC=[L,U]. Podmos hallar un intrvalo d confianza para l OR utilizando la función xponncial y hacindo [xp(l),xp(u)] >c(xp(diabtsglm$cofficints[2]-qnorm(0.975)*s), xp(diabtsglm$cofficints[2]+qnorm(0.975)*s)) sspg sspg 1.017715 1.033551 El odds ratio stimado para un aumnto d 10 unidads d SSPG s OR st 0,025 *10 xp(0.025279989820210434*10) = 1.287626 Cómo hallamos su intrvalo d confianza? Hacrlo. 1,29 El odds ratio stimado para un aumnto d 100 unidads d SSPG s ORst 0,025*100 xp(0.025279989820210434*100) = 12.52841 Cuál s su intrvalo d confianza? Si SSPG = 200 la probabilidad d tnr diabts por: ( p (SSPG 200) 1 12,53-4,548 0,025* 200 ) ˆ ( -4,548 0,025* 200 ) 0,62 xp( -4.548160014759982 + 0.025279989820210434 * 200)/(1+xp( - 4.548160014759982 + 0.025279989820210434 * 200)) = 0.6242995 La curva logística stimada, qu da la rlación ntr la probabilidad stimada para diabts y SSPG, prmit hallar una probabilidad stimada para cada valor posibl d la variabl SSPG: ˆ ˆ x odds st( x) pˆ( x) 1 odds st( x) 1 Aunqu la xprsión antrior stá dfinida para cualquir valor d la SSPG, sólo tin sntido la stimación dntro dl rango d los valors obsrvados d la variabl xplicativa. No s db xtrapolar. En gnral, una vz qu s ha hallado la curva logística stimada s posibl stimar l valor d X=x qu corrspond a una cirta prvalncia. La prvalncia dl 50% s la más fácil d calcular. Si l modlo stimado s ˆ ˆ x

23 cuando pˆ = 0.5, logit( pˆ ) = 0 y rsulta pˆ(x) ln 1- pˆ(x) ˆ x ˆ 0 = ˆ ˆ x x = - ˆ / ˆ = - ( - 4.548160014759982 / 0.025279989820210434 ) = 179.9115. Esto significa qu s stima, qu n la población d la cual fu tomada la mustra, los pacints con SSPG = 179,91 tinn una probabilidad dl 50% d tnr diabts. 2. ESTIMACIÓN DE LOS COEFICIENTES EN EL MODELO DE REGRESIÓN LOGÍSTICA Vrmos primro algunas difrncias ntr un modlo d rgrsión linal y un modlo d rgrsión logística para una variabl xplicativa. A continuación prsntarmos un método gnral d stimación d parámtros, llamado Máxima Vrosimilitud. 2.1 Difrncias ntr los modlos d rgrsión linal y logístico El modlo logístico, pud sr xprsado n cualquira d las siguints formas: sindo p(x) = P(Y=1 X=x). ln (odds(x)) = o d manra quivalnt: + x E Y X x p( x) = + x, 1+ p( x) ln x 1 p( x) logit ( p( x ) ) = α + β x.

1) En rgrsión logística simpl l modlo stablc qu la transformación logit d la EY X x rlaciona linalmnt con la variabl rgrsora. En rgrsión linal simpl s rquir qu la E Y X x s rlacion linalmnt con la variabl rgrsora. 2) En l modlo logístico la variabl Y condicional al valor d la variabl X = x tin distribución binomial (0 ó 1). En rgrsión linal la variabl Y condicional al valor d la variabl X = x tin distribución normal. Por lo tanto la distribución d los rrors n ambos modlos s distinta. 3) En rgrsión linal la distribución d los rrors no dpnd d los valors d las variabls xplicativas pro n rgrsión logística sí dpnd: Es dcir, n rgrsión linal Y = α + β X + ε, dond los rrors ε ~N(0, σ 2 ) indpndints d X. Al fijar l valor d la variabl X, la variabl Y rsulta tnr distribución Normal: con lo cual Y X = x ~N (α + β x, σ 2 ), E(Y X = x) = α + β x. En rgrsión logística la variabl Y toma sólo dos valors 24 s Si Y X = x = 1 Si Y X = x = 0 con probabilidad p(x) con probabilidad 1 p(x), Al fijar l valor d la variabl X la variabl Y X = x rsulta tnr distribución Binomial Y X = x ~ Bi(1,p(x)). Por lo tanto, n rgrsión logística la variabl (x) podría dfinirs d la siguint manra: Equivalntmnt: (x) = Y X = x - E(Y X = x ) = Y X = x p(x). Y X = x = p(x) + (x). Pro, como Y X = x solo pud valr 0 ó 1, cuando la variabl rgrsora toma un cirto valor x l rror (x) sólo pud tomar dos valors: Si Y X = x = 1 ntoncs (x) = 1 p(x) con probabilidad p(x). Si Y X = x = 0 ntoncs (x) = p(x) con probabilidad 1 p(x). Notmos qu la distribución d los rrors n l modlo logístico dpnd dl valor d x, mintras qu sto no sucd n l modlo linal. En rgrsión linal stimamos los parámtros a través dl método d mínimos cuadrados. Bajo cirtos supustos usuals los stimadors tinn una sri d propidads stadísticas dsabls. Dsafortunadamnt cuando la rspusta s dicotómica los stimadors d mínimos cuadrados no mantinn sas mismas propidads. El método gnral d stimación qu coincid con l método d mínimos cuadrados n rgrsión linal cuando los rrors tinn distribución normal s llama máxima vrosimilitud. 2.2. Método d máxima vrosimilitud

25 2.2.1 Ida intuitiva. Usando l hcho d qu la variabl Y tin una distribución conocida (binomial), los parámtros s stiman con l método d máxima vrosimilitud (maximum liklihood). La ida dtrás d st método consist n pnsar qu la mustra obtnida, por habr ocurrido, db tnr alta probabilidad. Est método propon obtnr como stimación d los parámtros y aqullos valors ˆ y ˆ rspctivamnt, qu maximicn la probabilidad d obsrvar la mustra qu hmos obtnido. Esto s raliza maximizando la función dnominada función d vrosimilitud, qu mid la probabilidad d qu ocurran los valors mustrals obsrvados. No s posibl dar una xprsión algbraica para los stimadors d los parámtros. Sí s posibl mostrar la función d vrosimilitud y las cuacions qu dfinn a los stimadors. Los stimadors s obtinn rsolvindo itrativamnt s sistma d cuacions, dnominadas cuacions d máxima vrosimilitud. A continuación s prsntan brvmnt las idas dl método d máxima vrosimilitud, la función d vrosimilitud y las cuacions rsultants. 2.2.2 Dducción d las cuacions stimación por máxima vrosimilitud. Ajustar un modlo logístico ( x) p( x) ( x) (5) 1 a un conjunto d n datos (x 1, y 1 ),..., (x n, y n ), significa stimar los valors d los parámtros dsconocidos y, n bas a los datos. El método d máxima vrosimilitud s un método gnral d stimación qu produc stimadors, qu n un sntido amplio, maximizan la probabilidad d obtnr l conjunto d datos obsrvados. Para aplicar st método dbmos construir la función d vrosimilitud. Esta función xprsa la probabilidad d obtnr los datos obsrvados n función d los parámtros dsconocidos. Los stimadors d máxima vrosimilitud s lign como aqullos valors qu maximizan sta función. En l marco dl modlo logístico, la probabilidad condicional qu Y tom l valor 1 cuando la variabl xplicativa X toma l valor x s P(Y = 1 X = x) = p(x), dond p(x) stá dada por la cuación (5). En forma similar P(Y = 0 X = x) = 1 p(x). Tnmos n obsrvacions (x 1, y 1 ),..., (x n, y n ). Para aqullos pars (x i, y i ), n los qu y i = 1 la contribución a la función d vrosimilitud s p(x i ) y para aqullos n qu y i = 0 la contribución s 1 p(x i ). Esto pud xprsars n forma única: p( yi x i ) (1 x (1 yi ) p( i)) = 1 ( x ) ( x ) i i y i 1 1 ( x ) ( x ) i i 1 y i. (6) Como las obsrvacions s suponn indpndints (indpndncia d los casos), la función d vrosimilitud s obtin como producto d los términos dados n (6): L, n yi (1 yi ) ) p( xi ) (1 p( xi )) (7) i1 ( Los stimadors d máxima vrosimilitud s dfinn como los valors d los parámtros y, qu maximizan (7) (principio d máxima vrosimilitud) o qu maximizan l logaritmo d la función d vrosimilitud, l logliklihood:

26 ln( L (, )) n y ln(p( x )) (1 y )ln((1 p( x )) (8) i i i i i 1 Para obtnr los stimadors d máxima vrosimilitud ˆ y ˆ, dbmos drivar la xprsión (8) con rspcto a y igualar a cro, s dcir buscamos los puntos críticos. Los stimadors rsultan sr las solucions d las siguints cuacions: n i1 y n i1 i 1 x i y i ( ˆ ˆ x ) 1 ( ˆ ˆ x ) i ( ˆ ˆ x ) i ( ˆ ˆ x ) i 0 i 0 (9) (10) El stimador d máxima vrosimilitud d p(x i ) rsulta sr: pˆ( x) 1 ( ˆ ˆ x ). ( ˆ ˆ x ) Obsrvación: Una conscuncia intrsant d la cuación (9) s qu la suma d los valors prdichos s igual a la suma d los valors obsrvados. Por qué? i i Los stimadors d máxima vrosimilitud ˆ y ˆ s obtinn rsolvindo l sistma d cuacions (9) y (10) mdiant métodos itrativos. Maximizar ln( L (, )) s quivalnt a minimizar -2 ln( L (, )), s dcir prtndr una vrosimilitud alta s quivalnt a 2 ln d la vrosimilitud baja. 2.2.3 Volvmos al jmplo Si s ajusta únicamnt la constant: p( x) ln 1 p( x) Historial d itracions Coficints Itración -2 log d la vrosimilitud Constant 1 200,675 -,097 2 200,675 -,097 Si s ajusta l modlo con constant y una variabl xplicativa (SSPG):

27 p( x) ln x 1 p( x) Historial d itracions Coficints Itración -2 log d la vrosimilitud Constant SSPG Paso 1 1 120,213-2,525,013 2 108,243-3,797,021 3 106,725-4,424,025 4 106,685-4,544,025 5 106,685-4,548,025 6 106,685-4,548,025 Vmos qu las stimacions d los coficints cambian con las itracions. En las primras cambian más, hasta qu s stabilizan: ˆ 4.548 y ˆ 0. 025. Los dos modlos antriors compitn y dbmos dcidir qué modlo xplica mjor los datos mustrals. Por un lado tnmos l modlo con dos parámtros, qu corrspondn a la constant y a la variabl xplicativa SSPG. Por l otro lado, tnmos l a mnudo llamado modlo nulo o null dvianc. Cómo dcidimos qué modlo s mjor? Si un modlo tin una vrosimilitud claramnt suprior a la dl otro, ntoncs prfrimos l modlo más vrosímil. En cambio si las vrosimilituds son muy parcidas pud sr prfribl l modlo más sncillo, n l sntido qu incluya mnos parámtros. Est critrio d slcción d modlos s conoc como principio d parsimonia. Para contrastar los modlos vamos a tratar d stablcr si sus vrosimilituds son significativamnt distintas. Cómo lo mdimos? Ya vimos qu al trabajar con vrosimilituds, s técnicamnt vntajoso usar sus logaritmos.

28 Obsrvacions: El coficint -2 qu aparc dlant dl logaritmo sirv para qu la difrncia d dvianzas tnga una ditribución mustral (asintótica) sncilla. Por otro lado, hay qu pnsar, qu también stamos tratando d dcidir ntr dos hipótsis: H 0 : =0 vrsus H 0 : 0 Por lo tanto la dvianza s útil para comparar los dos modlos y contrastar H 0. Estadístico G dl Tst d Cocint d Vrosimilitud Si la hipótsis nula H 0 : = 0 s cirta ntoncs l stadístico 2 tin distribución asintótica o aproximada 1. G = D(modlo con = 0) - D(modlo con 0) Y una vz conocida sta distribución mustral s fácil usar G para hacr l contrast. diabtsglm<-glm(diabt~sspg,family=binomial(link="logit")) summary(diabtsglm) Call: glm(formula = diabt ~ sspg, family = binomial(link = "logit")) Dvianc Rsiduals: Min 1Q Mdian 3Q Max -2.2109-0.5295-0.2456 0.4748 2.4813 Cofficints: Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.548160 0.711406-6.393 1.62-10 *** sspg 0.025280 0.003939 6.418 1.38-10 *** --- Signif. cods: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Disprsion paramtr for binomial family takn to b 1) Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 106.69 on 143 dgrs of frdom

29 La inclusión d la variabl SSPG al modlo produjo una rducción dl stadístico -2 ln d la vrosimilitud d 200,675 a 106,695. El procdiminto siguint mustra l rsultado dl tst para dcidir si sa rducción s stadísticamnt significativa. > diabtsglm$dvianc [1] 106.685 > summary(diabtsglm)$dvianc [1] 106.685 > -2*logLik(diabtsglm) 'log Lik.' 106.685 (df=2) > summary(diabtsglm)$null.dvianc [1] 200.6746 > G=summary(diabtsglm)$null.dvianc - summary(diabtsglm)$dvianc > G [1] 93.98962 > pvalor<-pchisq(g,lowr.tail=false,df=1) > pvalor [1] 3.171834-22 Cuando tnmos una única variabl indpndint, l stimador d máxima vrosimilitud d, s dcir, stá dado por ln(n 1 /n 0 ) dond n 1 = y i y n 0 = (1-y i ). El valor prdicho st caso ˆ 1 p ( x) n / n. En n G 2 y ln( p( x )) (1 y )ln(1 p( x )) ( n ln( n ) n ln( n ) nln( n)) i i i i 1 1 0 0 i 1 En st caso, tnmos una única variabl incluida n l modlo. Estamos tstando si l coficint d la variabl SSPG s stadísticamnt significativo como n l tst d Wald. Est tst s gnralmnt más potnt qu l tst d Wald. En ambos tsts, Wald y cocint d máxima vrosimilitud, s rquir calcular l stadístico d máxima vrosimilitud d. Est tst s pud gnralizar para valuar la hipótsis nula d qu los coficints d todas las variabls incluidas n l modlo (salvo la constant) son cro. Es comparabl al tst F global qu n la Tabla ANOVA s raliza para valuar si las variabls son globalmnt significativas n l modlo d Rgrsión Linal. Vrmos múltipls jmplos más adlant.

30 Rcordmos un instant la salida dl glm > diabtsglm<-glm(diabt~sspg,family=binomial(link="logit")) > summary(diabtsglm) Cofficints: Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.548160 0.711406-6.393 1.62-10 *** sspg 0.025280 0.003939 6.418 1.38-10 *** Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 106.69 on 143 dgrs of frdom Qué pasa si codificamos al rvés la variabl rspusta? Es dcir Y = 1 ausncia d diabts y Y = 0 prsncia d diabts. > diabt2<-1-diabt > diabtsglm2<-glm(diabt2~sspg,family=binomial(link="logit")) > summary(diabtsglm2) Cofficints: Estimat Std. Error z valu Pr(> z ) (Intrcpt) 4.548160 0.711406 6.393 1.62-10 *** sspg -0.025280 0.003939-6.418 1.38-10 *** Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 106.69 on 143 dgrs of frdom 3 EVALUANDO EL MODELO 3.1. Tst d Hosmr- Lmshow Un Tst d bondad d ajust, n gnral, lo qu hac s comprobar si l modlo propusto pud xplicar lo qu s obsrva. Es un tst dond s valúa la distancia ntr lo obsrvado n los datos qu tnmos y lo sprado bajo l modlo supusto.

31 Existn distintos mcanismos para hacr st análisis. Una posibilidad consist n buscar un rsumn global dl ajust dl modlo, un númro qu nos prmita hacrnos una ida inicial d la situación. En l modlo d rgrsión linal l coficint d corrlación R jugaba s papl. Un valor alto d R no significaba automáticamnt qu l modlo fura buno, sin mbargo, un valor bajo ra garantía d qu l modlo no staba hacindo bin su trabajo. Vamos a buscar una hrraminta similar para l modlo d rgrsión logística qu nos sirva como una pruba prliminar global dl modlo. Cómo podmos construir s indicador global? En rgrsión linal pnsábamos n la difrncia ntr los valors obsrvados d la variabl rspusta y i y los valors sprados, qu son los valors prdichos para l modlo, s dcir ŷ i. D sta forma studiábamos l rror cuadrático, qu ra una rprsntación global d sas difrncias: S trata d comparar valors obsrvados frnt a valors prdichos por l modlo. Un problma al tratar d trasladar sta idas al curso d rgrsión logística, s qu n st caso l modlo no prdic valors d Y sino probabilidads. Cómo s construyn los valors obsrvados y sprados qu intrvinn n l stadístico dl tst? 1) S ordnan (d mnor a mayor) los casos d acurdo con la probabilidad prdicha. 2) S dividn n g = 10 grupos con la misma cantidad d casos (s pud tomar otra cantidad d grupos pro sta s la habitual). El primr grupo (primr dcil) consist d los n/10 casos con los valors mas bajos d probabilidad prdicha (primr dcil), l sgundo grupo (sgundo dcil) stá constituido por los n/10 individuos con los valors siguints d probabilidad prdicha, tc. En la práctica, no s simpr posibl formar grupos d xactamnt l mismo tamaño. Esto ocurr porqu l conjunto d datos no ncsariamnt s divisibl por 10 y porqu todas las obsrvacions con l mismo valor n las variabls xplicativas, tndrán la misma proporción stimada y starán n l mismo grupo. 3) Cada una d las catgorías antriors s dividida nuvamnt n dos grupos n bas al valor d la variabl rspusta. S calculan las frcuncias obsrvadas y las frcuncias spradas para cada una d las 20 cldas: Para cada una d las 10 grupos y para Y=1 (Diabt=1): - Obs1 i = la cantidad total d valors obsrvados (con uno) = suma d los valors d la variabl Y, para l i-ésimo dcil. - Esp1 i = los valors stimados o sprados = suma d las probabilidads stimadas para todos las casos dl i-ésimo dcil. Por qué s razonabl stimar d sta forma? Supongamos qu tnmos 10 obsrvacions indpndints: Obs P(Y=1) 1 0,4 2 0,4 3 0,4 4 0,4 5 0,4

32 Sumar 10 vcs 0.4 s igual a 4. 6 0,4 7 0,4 8 0,4 9 0,4 10 0,4 Por otro lado, l valor sprado o spranza d una variabl alatoria dl tipo binomial con 10 rpticions indpndints y con p(x) = 0.4 s np = 4. Es dcir spramos qu n 10 obsrvacions, 4 san dl tipo éxito ó 1. Lugo tin sntido sumar las probabilidads stimadas para todos los casos dl grupo. Por último, rcordmos qu d la primra cuación d máxima vrosimilitud n i1 y i 1 ( ˆ ˆ x ) ( ˆ ˆ x ) i i 0 s dduc qu la suma d los valors prdichos s igual a la suma d los valors obsrvados. Por qué? Volvindo a la construcción dl tst y rptimos d manra análoga para cada una d las 10 cldas y para Y=0 (Diabt = 0) - Obs0 i = la cantidad total d valors obsrvados (con cro) = Total d Casos n la casilla Obs1 i. - Esp0 i = los valors stimados o sprados = Total d Casos n la casilla Esp1 i. 4) El grado d ajust s obtin calculando l stadístico d Chi-cuadrado d Parson para una tabla d contingncia d 2g grupos: O bin: g k 1 n ( Obs1 Esp1 ) k i i Esp1 ( n Esp1 ) dond k indica l grupo (k = 1,,g) y n k s l total d casos n la casilla. Si la hipótsis nula H 0 = {l modlo logístico prdic bin las probabilidads obsrvadas} s cirta, ntoncs l stadístico dl tst tin una distribución qu s aproxima a la distribución chi-cuadrado con g 2 grados d librtad. Para la mayoría d los conjuntos d datos g = 10 y los grados d librtad son 8. i i i 2

33 > HL.tst<-hoslm.tst(diabt,prdichos,g=10) > HL.tst Hosmr and Lmshow goodnss of fit (GOF) tst data: diabt, prdichos X-squard = 3.5997, df = 8, p-valu = 0.8913 Otros comandos qu pudn sr d intrés > HL.tst$statistic X-squard 3.599735 > prdichos<-diabtsglm$fittd.valus > ordr(prdichos) [1] 44 33 18 45 58 21 20 22 57 11 37 1 46 80 19 96 [17] 12 15 43 48 25 2 17 35 36 39 70 54 73 31 23 14 [33] 10 56 9 30 111 16 79 3 8 32 74 4 81 55 85 41 [49] 61 7 76 47 49 59 86 24 50 52 112 64 53 28 13 5 [65] 29 142 134 67 107 110 105 27 78 42 6 34 66 135 38 60 [81] 77 72 40 63 108 109 83 99 137 143 88 84 90 136 102 94 [97] 51 92 26 98 103 104 62 68 124 87 145 75 65 82 119 93 [113] 106 95 71 89 97 69 91 115 101 132 100 126 127 133 128 121 [129] 131 125 114 130 120 122 138 123 118 117 116 140 144 139 113 129 [145] 141 > prdichos[ordr(prdichos)] 44 33 18 45 58 21 0.02156168 0.02322107 0.02626760 0.02970167 0.02970167 0.03356921 20 22 57 11 37 1 0.03611859 0.03611859 0.03792067 0.03885380 0.03980895 0.04078658 46 80 19 96 12 15 0.04178717 0.04493164 0.04602904 0.04602904 0.05316721 0.05577068 43 48 25 2 17 35 0.05990163 0.06281300 0.06431772 0.06742833 0.06742833 0.07067801 36 39 70 54 73 31 0.07407187 0.07407187 0.07407187 0.07944434 0.08322145 0.09338722 23 14 10 56 9 30 0.09554969 0.10000933 0.10230783 0.10704556 0.11197532 0.11451385 111 16 79 3 8 32 0.11710234 0.12243174 0.12517391 0.13081623 0.13081623 0.13081623 74 4 81 55 85 41 0.13371757 0.13968351 0.13968351 0.14274922 0.14904878 0.16932746

34 61 7 76 47 49 59 0.17291301 0.17655836 0.17655836 0.18785611 0.18785611 0.18785611 86 24 50 52 112 64 0.18785611 0.19569184 0.21209866 0.22948855 0.24317303 0.24785571 53 28 13 5 29 142 0.25740092 0.26718315 0.27719836 0.28229187 0.29264726 0.31948022 134 67 107 110 105 27 0.33057146 0.33618953 0.34756460 0.35331904 0.35911632 0.36495504 78 42 6 34 66 135 0.37083376 0.37675100 0.40685991 0.40685991 0.41911640 0.41911640 38 60 77 72 40 63 0.46899937 0.47529967 0.48160785 0.50055954 0.53840374 0.58811008 108 109 83 99 137 143 0.58811008 0.61236824 0.64770305 0.65915208 0.67597991 0.67597991 88 84 90 136 102 94 0.68695414 0.73369238 0.73369238 0.73369238 0.76226138 0.78440395 51 92 26 98 103 104 0.79283140 0.79283140 0.80101299 0.80101299 0.81664159 0.82772622 62 68 124 87 145 75 0.83481685 0.84829331 0.84829331 0.86385417 0.86385417 0.86680010 65 82 119 93 106 95 0.87531545 0.88072959 0.88335967 0.89338156 0.90039285 0.90263727 71 89 97 69 91 115 0.90699108 0.90910183 0.91116937 0.91319437 0.91902086 0.92448860 101 132 100 126 127 133 0.93595114 0.95073385 0.95416711 0.95416711 0.95416711 0.95737184 128 121 131 125 114 130 0.96403692 0.97114400 0.97184405 0.97448286 0.97630236 0.98239407 120 122 138 123 118 117 0.98520727 0.98694079 0.98694079 0.98875804 0.99265641 0.99335799 116 140 144 139 113 129 0.99399295 0.99724746 0.99867577 0.99891797 0.99904633 0.99911592 141 0.99949287 Los intrvalos stán dfinidos a partir d los dcils o prcntils d las probabilidads stimadas ( pˆ1... pˆ n ). > HL.tst$obsrvd cutyhat y0 y1 [0.0216,0.046] 15 1 (0.046,0.0914] 13 0

35 (0.0914,0.14] 15 1 (0.14,0.238] 10 3 (0.238,0.371] 9 6 (0.371,0.652] 7 7 (0.652,0.826] 3 11 (0.826,0.91] 3 12 (0.91,0.976] 1 13 (0.976,0.999] 0 15 > HL.tst$xpctd cutyhat yhat0 yhat1 [0.0216,0.046] 15.4275930 0.5724070 (0.046,0.0914] 12.1136137 0.8863863 (0.0914,0.14] 14.1049699 1.8950301 (0.14,0.238] 10.6241413 2.3758587 (0.238,0.371] 10.3502197 4.6497803 (0.371,0.652] 7.0701348 6.9298652 (0.652,0.826] 3.5498611 10.4501389 (0.826,0.91] 1.8944526 13.1055474 (0.91,0.976] 0.7440608 13.2559392 (0.976,0.999] 0.1209530 14.8790470 El método d Hosmr-Lmshow s un tst para la bondad dl ajust. Nos intrsan modlos para los cuals no s rchac la hipótsis d igualdad ntr los valors obsrvados y los valors prdichos por l modlo, lo qu implicaría qu l modlo ajusta a los datos bastant bin. En gnral no rchazamos una hipótsis nula cuando l p-valor dl stadístico dl tst s mayor a 0,05. Pro n un tst d bondad d ajust, cuanto más pquño s l valor dl stadístico y n conscuncia cuanto más crcano a 1 s su p-valor, mjor s l ajust. Es important ntndr qu st contrast NO proporciona una mdida d la calidad d las prdiccions individuals dl modlo para cada valor obsrvado d la variabl xplicativa. Es dcir, qu aunqu l contrast d HL no sa significativo (para rchazar), todavía pud ocurrir qu alguna d las prdiccions dl modlo (valors sprados) s alj d los valors obsrvados. Para valorar s ajust a nivl individual s ncsario un análisis similar al d los rsiduos qu hacíamos n rgrsión linal y la discusión d los concptos como l d valors atípicos, puntos influynts, tc, s dcir un diagnóstico dl modlo. Para qu l stadístico d HL tnga una aproximación razonabl a la distribución chi-cuadrado algunos autors sugirn qu haya suficints casos como para qu l 95% d las cldas tngan una frcuncia sprada mayor a 5 y ninguna mnor a 1. Otros autors sugirn ninguna frcuncia sprada mnor qu 5. Sin mbargo s sul sr más flxibl qu utilizar la rcomndación habitual para tablas con aproximadamnt 20 cldas. Estas condicions no s cumpln n l jmplo. Dos stratgias son posibls ant st problma. La primra consist n aumntar l tamaño d la mustra, la sgunda n colapsar los grupos. H-L sugirn qu no s utilic su tst con mnos d g = 6 class porqu casi simpr s obtndrá qu l modlo ajusta.

36 Un valor alto dl stadístico H-L (bajo p-valor), s un indicador claro sobr la prsncia d un problma n l modlo. Sin mbargo, l stadístico d H-L s una mdida rsumn, por lo qu pud no indicar cirtos comportamintos locals. Un valor pquño d H-L no xcluy la posibilidad d un aljaminto dl modlo para pocos individuos. Cuando l tamaño d la mustra no s un múltiplo d 10 o hay mpats, s dcir qu distintos casos tinn valors coincidnts d las variabls xplicativas l valor dl stadístico d H-L dpnd d cómo s asignn los casos a los dcils. Los autors sugirn qu dbrían sr asignados d manra d obtnr qu todos los grupos tngan totals tan crcanos a n/10 como sa posibl. Las difrnts stratgias d agrupaminto no han sido studiadas con suficint dtall como para rcomndar alguna n particular. 3.2 Tablas d clasificación Comncmos con l modlo qu sólo tin intrspt. > diabtsglm0<-glm(diabt~1,family=binomial(link="logit")) > summary(diabtsglm0) Call: glm(formula = diabt ~ 1, family = binomial(link = "logit")) Dvianc Rsiduals: Min 1Q Mdian 3Q Max -1.137-1.137-1.137 1.219 1.219 Cofficints: Estimat Std. Error z valu Pr(> z ) (Intrcpt) -0.09663 0.16628-0.581 0.561 (Disprsion paramtr for binomial family takn to b 1) Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 200.67 on 144 dgrs of frdom AIC: 202.67 Numbr of Fishr Scoring itrations: 3 El ajust dl modlo logístico con una constant únicamnt rsulta n la siguint stimación: log( pˆ /(1- pˆ ) = -0,097

37 Dond p s la probabilidad stimada d tnr diabts Por lo tanto pˆ = -0,097 / (1+ -0,097 ) = 0,476 Los prdichos dan los valors d pˆ > prdichos<-diabtsglm0$fittd.valus > ordn<-ordr(sspg,dcrasing=true) > tabla<-cbind(sspg,diabt,prdichos)[ordn,] > tabla sspg diabt prdichos 141 480 1 0.4758621 129 458 1 0.4758621 113 455 1 0.4758621 139 450 1 0.4758621 144 442 1 0.4758621 140 413 1 0.4758621 116 382 1 0.4758621 117 378 1 0.4758621 118 374 1 0.4758621 123 357 1 0.4758621 122 351 1 0.4758621 138 351 1 0.4758621 120 346 1 0.4758621 > clasificacion<-ifls(prdichos>0.5,1,0) > tabla2<-cbind(sspg,diabt,prdichos,clasificacion)[ordn,] > tabla2 sspg diabt prdichos clasificacion 141 480 1 0.4758621 0 129 458 1 0.4758621 0 113 455 1 0.4758621 0 139 450 1 0.4758621 0 144 442 1 0.4758621 0 140 413 1 0.4758621 0 116 382 1 0.4758621 0

38 117 378 1 0.4758621 0 118 374 1 0.4758621 0 123 357 1 0.4758621 0 122 351 1 0.4758621 0 138 351 1 0.4758621 0 120 346 1 0.4758621 0 Como la probabilidad stimada d tnr diabts s mnor a 0,5 TODOS los casos son clasificados como DIABET = 0 y s obtin la tabla d clasificación siguint. > tabla3<-tabl(clasif=clasificacion,y=diabt) > tabla3 Y clasif 0 1 0 76 69 > rrors<-which(tabla2[,2]!=tabla2[,4]) 141 129 113 139 144 140 116 117 118 123 122 138 120 130 114 125 131 121 128 133 100 126 127 132 101 115 91 97 89 71 95 106 93 119 65 87 145 124 62 104 103 98 92 94 102 90 136 88 137 143 99 83 109 63 108 77 66 135 105 110 107 134 142 112 59 86 85 111 96 > tasaacirtos<-1-lngth(rrors)/lngth(sspg) > tasaacirtos [1] 0.5241379 Cuando s incluy la variabl SSPG al modlo logístico rsulta: > diabtsglm<-glm(diabt~sspg,family=binomial(link="logit")) > summary(diabtsglm) Call: glm(formula = diabt ~ sspg, family = binomial(link = "logit")) Dvianc Rsiduals: Min 1Q Mdian 3Q Max -2.2109-0.5295-0.2456 0.4748 2.4813 Cofficints:

39 Estimat Std. Error z valu Pr(> z ) (Intrcpt) -4.548160 0.711406-6.393 1.62-10 *** sspg 0.025280 0.003939 6.418 1.38-10 *** --- Signif. cods: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Disprsion paramtr for binomial family takn to b 1) Null dvianc: 200.67 on 144 dgrs of frdom Rsidual dvianc: 106.69 on 143 dgrs of frdom AIC: 110.69 Numbr of Fishr Scoring itrations: 6 y l modlo logistico ajustado s log( pˆ (x) /(1- pˆ (x)) = -4,548 + 0,025 * x Por lo tanto pˆ (x) = -4,548 + 0,025 * x / (1+ -4,548 + 0,025 * x ) La probabilidad stimada d tnr diabts ahora dpnd dl valor d la variabl xplicativa. Cuando sa probabilidad stimada s mnor a 0,5 l dato s clasificado como DIABET = 0 y si s mayor a 0,5 como DIABET=1, obtniéndos los siguints rsultados. > prdichos<-diabtsglm$fittd.valus > ordn<-ordr(sspg,dcrasing=true) > tabla<-cbind(sspg,diabt,prdichos)[ordn,] > tabla sspg diabt prdichos 141 480 1 0.99949287 pˆ (480)= Pˆ (Y=1 X=480) 129 458 1 0.99911592 113 455 1 0.99904633 139 450 1 0.99891797 144 442 1 0.99867577 140 413 1 0.99724746 116 382 1 0.99399295 117 378 1 0.99335799 118 374 1 0.99265641 123 357 1 0.98875804