Santiago de la Fuente Fernández. Regresión logística



Documentos relacionados
Análisis de Varianza no paramétricos

Tema 21: Distribución muestral de un estadístico

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Bloque 5. Probabilidad y Estadística Tema 2. Estadística descriptiva Ejercicios resueltos

Regresión y correlación Tema Contraste sobre β 1.2 Regresión en formato ANOVA. 2. Correlación. Contraste sobre ρ xy

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

Organización y resumen de datos cuantitativos

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Examen Final de Econometría Grado

Figura 1

a) Qué población (la de hombres o la de mujeres) presenta un salario medio mayor? b) Qué porcentaje de varones gana más de 900?

T. 5 Estadísticos de forma de la distribución

Modelos lineales Regresión simple y múl3ple

Pregunta Hoy está nublado, cuál es la probabilidad de que mañana continúe nublado? cuál es la probabilidad de que está nublado pasado mañana?

Aspectos fundamentales en el análisis de asociación

CAPÍTULO 4 MARCO TEÓRICO

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

4. REPRESENTACIONES GRÁFICAS PARA DATOS CATEGÓRICOS.

CAPÍTULO IV METODOLOGÍA. Para llevar a cabo la investigación se ha tenido en cuenta el siguiente diseño:

Un estimado de intervalo o intervalo de confianza ( IC

Tema 6. Estadística descriptiva bivariable con variables numéricas

Problemas donde intervienen dos o más variables numéricas

CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN

-.GEOMETRÍA.- a) 37 cm y 45 cm. b) 16 cm y 30 cm. En estos dos, se dan la hipotenusa y un cateto, y se pide el otro cateto:

4 BALANZA DE MOHR: Contracción de mezcla alcohol/h2o

Solución de los Ejercicios de Práctica # 1. Econometría 1 Prof. R. Bernal

3.3 Caracterización de grupos: Estadísticos de forma de la distribución

En este caso, el valor actual de una unidad monetaria pagadera al final del año de fallecimiento de

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

Tema 7: Regresión Logística p. 1/1

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Regresión Binomial Negativa

DISTRIBUCION DE RENDIMIENTOS: APLICACIONES

LECTURA 03: DISTRIBUCIONES DE FRECUENCIAS (PARTE II)

Height (altura) Extraction (extracción)

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

LECTURA 03: DISTRIBUCIONES DE FRECUENCIAS (PARTE II)

4. PROBABILIDAD CONDICIONAL

Riesgos Proporcionales de Cox

Solución Taller No. 10 Econometría II Prof. Bernal

Midiendo la Asociación lineal entre dos variables

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

8 MECANICA Y FLUIDOS: Calorimetría

Análisis de la Varianza de dos factores con replicaciones: Caso Balanceado (Scheffé, 1959)

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

Regresión múltiple k k

1 + e z. 1 + e. 1 + e = 1 0 2

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

MODELOS DE ELECCIÓN BINARIA

CAPITULO CUATRO MEDIDAS DE DISPERSION, ASIMETRIA Y CURTOSIS

Estadística con R. Modelo Probabilístico Lineal

Regresión Lineal Simple y Correlación

Análisis estadístico de incertidumbres aleatorias

Facultad de Ingeniería División de Ciencias Básicas Coordinación de Ciencias Aplicadas Departamento de Probabilidad y Estadística

1 EY ( ) o de E( Y u ) que hace que g E ( Y ) sea lineal. Por ejemplo,

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

Las acciones a considerar en el proyecto de una estructura o elemento estructural se pueden clasificar según los criterios siguientes:

EXPERIMENTACIÓN COMERCIAL(I)

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

CORRELACION Y REGRESION

Análisis de Regresión y Correlación

Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, son números ordenados en filas y columnas.

Probabilidad Grupo 23 Semestre Segundo examen parcial

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls. Examen Final

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

Inferencia en Regresión Lineal Simple

MODELOS DE SECUENCIACIÓN EN MÁQUINAS 1

Regresión de Datos de Vida

5 Análisis de regresión múltiple con información cualitativa

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

ESTADÍSTICA. Definiciones

Tema 1.- Variable aleatoria discreta (V2.1)

SEGUNDA PARTE RENTAS FINANCIERAS

CONTRIBUCIÓN A LA MEJORA DE RESOLUCIÓN DE LOS SISTEMAS DE OBTENCIÓN DE IMÁGENES POR ULTRASONIDOS

Cálculo y EstadísTICa. Primer Semestre.

Regresión Múltiple. Muestra StatFolio: multiple reg.sgp

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

PRECIOS MEDIOS ANUALES DE LAS TIERRAS DE USO AGRARIO (METODOLOGÍA)

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Medidas de Variabilidad

3. VARIABLES ALEATORIAS.

1.Variables ficticias en el modelo de regresión: ejemplos.

Estadísticos muéstrales

TEMA 1.- CONCEPTOS BÁSICOS

DISTRIBUCIONES BIDIMENSIONALES

ENUNCIADOS DE LOS EJERCICIOS PROPUESTOS EN 2011 EN MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES. 3 y

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

SEMANA 13. CLASE 14. MARTES 20/09/16

COLEGIO INGLÉS MEDIDAS DE DISPERSIÓN

Un ejemplo de Análisis Factorial de Correspondencias

Población 1. Población 1. Población 2. Población 2. Población 1. Población 1. Población 2. Población 2. Frecuencia. Frecuencia

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

) para toda permutación (p p 1 p

Estadísticos muéstrales

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

Relaciones entre variables

VARIABLES ALEATORIAS BIDIMENSIONALES. DISTRIBUCIONES

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

Transcripción:

Santago de la Fuente Fernández Regresón logístca

Santago de la Fuente Fernández Regresón logístca

INTRODUCCIÓN Regresón Logístca La regresón logístca (RL) forma parte del conjunto de métodos estadístcos que caen bajo tal denomnacón y es la varante que corresponde al caso en que se valora la contrbucón de dferentes factores en la ocurrenca de un evento smple. En general, la regresón logístca es adecuada cuando la varable de respuesta Y es poltómca (admte varas categorías de respuesta, tales como mejora mucho, empeora, se mantene, mejora, mejora mucho), pero es especalmente útl en partcular cuando solo hay dos posbles respuestas (cuando la varable de respuesta es dcotómca), que es el caso más común. La RL es una de las técncas estadístco nferencales más empleadas en la produccón centífca contemporánea. Surge en la década del 60, su generalzacón dependía de la solucón que se dera al problema de la estmacón de los coefcentes. El algortmo de Walker Duncan para la obtencón de los estmadores de máxma verosmltud vno a soluconar en parte este problema, pero era de naturaleza tal que el uso de computadoras era mprescndble. La RL va a contestar a preguntas tales como: Se puede predecr con antelacón s un clente que solcta un préstamo a un banco va a ser un clente moroso?. Se puede predecr s una empresa va a entrar en bancarrota?. Se puede predecr de antemano que un pacente corra resgo de un nfarto?. La dentfcacón del mejor modelo de regresón logístca se realza medante la comparacón de modelos utlzando el cocente de verosmltud, que ndca a partr de los datos de la muestra cuanto más probable es un modelo frente al otro. La dferenca de los cocentes de verosmltud entre dos modelos se dstrbuye según la ley de la Ch cuadrado con los grados de lbertad correspondentes a la dferenca en el número de varables entre ambos modelos. S a partr de este coefcente no se puede demostrar que un modelo resulta mejor que el otro, se consderará como el más adecuado, el más sencllo. FACTORES DE CONFUSIÓN: Durante el proceso de seleccón del modelo de regresón más adecuado, el que mejor se ajusta a los datos dsponbles, hay que consderar un últmo aspecto adconal, especalmente s el proceso de seleccón de varables se hace medante el método manual de oblgar a que todas las varables entren en el modelo y es el propo nvestgador el que paso a paso va construyendo el modelo de regresón más convenente. Durante el proceso de ncorporacón de varables, al elmnar una varable de uno de los modelos de regresón estmados, hay que observar s en el modelo de regresón resultante al exclur esa varable, los coefcentes asocados al resto de varables ntroducdas en el modelo varían sgnfcatvamente respecto al modelo de regresón que sí ncluía dcha varable. S así sucede, sgnfca que dcha varable podría ser un factor de confusón, al no mostrar una relacón sgnfcatva con la varable que estamos estudando drectamente, pero sí ndrectamente, al relaconarse con otras varables, que en sí msmas pueden estar sgnfcatvamente relaconadas con la varable de estudo. En dcho caso, es convenente no exclur la varable en cuestón del modelo de regresón, aunque no cumpla los requstos para permanecer en él, oblgando a que permanezca, de modo que aunque no se ncluya su nterpretacón al evaluar los resultados del modelo, se ajusta el resultado del resto de varables selecconadas por su posble efecto. En la práctca, para nclur o no en la ecuacón de regresón una varable de confusón, se utlza el crtero (ncorrectamente) de comprobar s su coefcente correspondente es sgnfcatvamente dferente de cero, por lo que se mra sólo el valor de la probabldad asocado a ese contraste. Sn embargo, no debe de ser la únca razón, hay que consderar s su ntroduccón en la ecuacón modfca aprecablemente o no la relacón entre la varable dependente y el otro factor o factores Santago de la Fuente Fernández

estudados. En defntva, la cuestón debe tratarse con enfoque clínco, puesto que hay que determnar desde ese punto de vsta qué se consdera como cambo aprecable en el coefcente de la ecuacón de regresón. Ejemplo: Al estudar una muestra aleatora de una poblacón de dabétcos y analzando la posble relacón lneal entre la Tensón arteral sstólca (TAS) como varable respuesta y las varables ndependentes (edad y género de los pacentes), se obtendrá un modelo de regresón donde el género de los pacentes es sgnfcatvo, es decr, exstrá una ecuacón dferente de predccón para hombres y otro para mujeres. Sn embargo, s se controlase tambén el índce de masa corporal (IMC) ntroducéndolo en la ecuacón, posblemente la varable género no sería sgnfcatva, mentras que pasaría a serlo el IMC. En ese caso el IMC sería un factor de confusón que deberíamos nclur en la ecuacón y ello aunque su coefcente no fuera sgnfcatvo. En esta línea, hay que tener cudado con los térmnos relacón, correlacón o sgnfcacón y causaldad. Que dos factores estén relaconados no mplca de nnguna manera que uno sea causa del otro. Es muy frecuente que una alta dependenca ndque que las dos varables dependen de una tercera que no ha sdo medda (factor de confusón). CONCEPTO DE INTERACCIÓN: Un concepto mportante al construr un modelo de regresón es que pueden ntroducrse térmnos ndependentes úncos (una sola varable, por ejemplo efecto del tabaco) y además las nteraccones entre varables de cualquer orden (efecto del tabaco según género), s se consdera que pueden ser de nterés o afectar a los resultados. Al ntroducr los térmnos de nteraccón en un modelo de regresón es mportante para la correcta estmacón del modelo respetar un orden jerárquco, es decr sempre que se ntroduzca un térmno de nteraccón de orden superor (x y z), deben ntroducrse en el modelo los térmnos de nteraccón de orden nferor (x y, x z, y z) y por supuesto los térmnos ndependentes de las varables que partcpan en la nteraccón (x, y, z). Ejemplo: Se desea construr un modelo de regresón para estmar la prevalenca de hpertensos en una muestra y se decde evaluar s la nteraccón de las varables tabaco, género y edad es sgnfcatva o no al estmar dcha prevalenca, por lo que se ntroduce el térmno de nteraccón (tabaco * género * edad). Automátcamente deberían ntroducrse gualmente en el modelo los térmnos de nteraccón de orden nferores, es decr, (tabaco*género), (tabaco*edad) y (género*edad), así como los térmnos ndependentes tabaco, género y edad para poder estmar el modelo correctamente. S se ntroducen en un modelo de regresón térmnos de nteraccón y resultan estadístcamente sgnfcatvos, no se podrán elmnar del modelo los térmnos de nteraccón de orden nferores n los térmnos ndependentes de las varables que partcpan en la nteraccón para smplfcarlo, deben mantenerse, aunque no resulten estadístcamente sgnfcatvos. VARIABLES DUMMY: Las varables explcatvas de tpo nomnal con más de dos categorías deben ser ncludas en el modelo defnendo varables dummy. Ejemplo del sentdo de las varables dummy: S una varable nomnal (raza, relgón, grupo sanguíneo, etc.) consta de k categorías deben crearse entonces ( k ) varables dcotómcas que son las llamadas varables dummy asocadas a la varable nomnal. Las ( k ) varables dcotómcas se denotan por ( Z, Z2, L,Zk ). A cada categoría o clase de la varable nomnal le corresponde un conjunto de valores de los Zcon el cual se dentfca dcha clase. Santago de la Fuente Fernández 2

La manera más usual de defnr estas ( k ) varables es la sguente: s el sujeto pertenece a la prmera categoría, entonces las ( k ) varables dummy valen 0: ( Z = Z2 = L = Zk = 0) ; s el sujeto se halla en la segunda categoría, Z y Z = L = Z 0) ; s el sujeto se halla en la tercera ( = 2 k = ( Z2 = y Z2 = L = Zk = 0 Z k = y las restantes valen 0. categoría, ) ; y así sucesvamente hasta llegar a la últma categoría, para la cual En esta línea, s la varable nomnal de nterés es el grupo sanguíneo (tpo 0, tpo A, tpo B, tpo AB), entonces se tendrían los sguentes valores de las varables dummy para cada grupo sanguíneo: Grupo sanguíneo Z Z 2 Z 3 0 0 0 0 A 0 0 B 0 0 AB 0 0 S se ajusta un modelo que ncluya una varable nomnal con k clases, ésta debe ser susttuda por las ( k ) varables dummy, y a cada una de ellas corresponderá su respectvo coefcente. VARIABLES CUALITATIVAS EN EL MODELO LOGÍSTICO: Como la metodología empleada para la estmacón del modelo logístco se basa en la utlzacón de varables cuanttatvas, al gual que en cualquer otro procedmento de regresón, es ncorrecto que en él ntervengan varables cualtatvas, ya sean nomnales u ordnales. La asgnacón de un número a cada categoría no resuelve el problema. La solucón a este problema es crear tantas varables dcotómcas como número de respuestas. Estas nuevas varables, artfcalmente creadas, recben en la lteratura anglosajona el nombre de dummy, traducéndose con dferentes denomnacones como pueden ser varables nternas, ndcadoras, o varables dseño. S una varable recoge datos del tabaco con las respuestas (Nunca fumó, Ex fumador, fuma 20 ó más cgarrllos daros), hay 4 posbles respuestas por lo que se construyen (4 =3) varables dummy dcotómcas (valores 0, ), exstendo dferentes posbldades de codfcacón, que conducen a nterpretacones dferentes, sendo la más habtual: I I2 I3 Nunca fumó 0 0 0 Ex- fumador 0 0 < de 20 cgarrllos daros 0 0 20 cgarrllos daros 0 0 En esta codfcacón el coefcente de la ecuacón de regresón para cada varable dummy (sempre transformado con la funcón exponencal), se corresponde al odds rato de esa categoría con respecto al nvel de referenca (la prmera respuesta), en el ejemplo cuantfca cómo camba el resgo respecto a no haber fumado nunca. Otra posbldad es una varable cualtatva de tres respuestas: I I2 Respuesta 0 0 Respuesta 2 0 Respuesta 3 Santago de la Fuente Fernández 3

Con esta codfcacón cada coefcente se nterpreta como una meda del cambo del resgo al pasar de una categoría a la sguente. Cuando una categoría no pueda ser consderada de forma natural como nvel de referenca, como por ejemplo el grupo sanguíneo, un posble sstema de clasfcacón es: I I2 Respuesta Respuesta 2 0 Respuesta 3 0 cada coefcente de las varables dummy (ndcadoras) tene una nterpretacón drecta como cambo en el resgo con respecto a la meda de las tres respuestas. EL MODELO LOGÍSTICO Sea Y una varable dependente bnara (con dos posbles valores: 0 y ). Sean un conjunto de k varables ndependentes, ( X,X2, L, Xk), observadas con el fn de predecr/explcar el valor de Y. El objetvo consste en determnar: P [ Y = /X,X, L, X ] a P[ Y = 0/X,X, L, X ] = P[ Y = /X,X, L, ] 2 k 2 k 2 Xk Para ello, se construye el modelo P[ Y = /X,X,, X ] = p(x,x, L, X ; ) k funcón de enlace 2 k [ 0,] L donde: 2 k 2 k β p(x,x, L, X ; β):r que depende de un vector de parámetros β = ( β, β2, L, βk) FUNCIÓN DE VEROSIMILITUD Con el fn de estmar β = ( β, β2, L, βk) y analzar el comportamento del modelo estmado se toma una muestra aleatora de tamaño n dada por ( x, y) =, 2, L, n donde el valor de las varables ndependentes es x = (x, x2, L,xk) e y [ 0,] es el valor observado de Y en el ésmo elemento de la muestra. Como Y /X,X,, X ) B[,p(X,X, L, X ; )] L ( 2 k 2 k β L la funcón de verosmltud vene dada por: n y y [ /(x,y),(x2,y2),,(xn,yn)] p β L = ( p ) donde p = p(x; β) = p[ (x, x2, L,xk); β] =,2, L, n = 0 s β X + L+βk Xk < c0 MODELO LINEAL: β X + L+βk Xk s c0 < β X + L+βk Xk c c0, c son cons tantes s β X + L+βk Xk > c MODELO LOGIT (modelo de regresón logístca bnara): p(x,x, L, X ; β) = G 2 k e X [ β X + L+ β X ] donde G(x) = funcón dstrbucón funcón logístca k k + e X Santago de la Fuente Fernández 4

MODELO PROBIT: p(x,x,, X ; β) = φ[ β X + L+ β ] de N (0,). 2 k k Xk Regresón Logístca L donde φ la funcón de dstrbucón MODELO DE REGRESIÓN LOGÍSTICA BINARIA El modelo logístco establece la sguente relacón entre la probabldad de que ocurra el suceso, dado que el ndvduo presenta los valores X = x, X = x, L, X x ): P ( 2 = k [ Y = /x ],x2, L, xk = β β x β x L β x ) + e ( 0 2 2 k k El objetvo es hallar los coefcentes β, β, L, ) que mejor se ajusten a la expresón funconal. ( 0 βk Se conoce como odds (rato del resgo) al cocente de probabldades: P Odds (rato de resgo) = [ Y = /X,X2, L, Xk] P[ Y = /X,X, L, X ] p(x,x, L, X ; β) 2 k β = = e 2 k p(x,x2, L, Xk; β) se toma como prmera varable explcatva a la varable constante que vale. +β2 X2 L +βk Xk En medcna, por ejemplo, el rato del resgo, habtualmente, ndca la presenca de una determnada enfermedad objeto de análss. Tomando logartmos neperanos en la expresón anteror, se obtene una expresón lneal para el modelo: P [ ] [ Y = /X,X2, L, Xk] Logt P(Y = ) = Ln = β +β2 X2 + L+ βk Xk P[ Y = /X,X2, L, Xk] Aquí se apreca que el estmador del parámetro β 2 se podrá nterpretar como la varacón en el térmno Logt (logartmo neperano del cocente de probabldades) orgnada por una varacón untara en la varable X 2 (suponendo constantes el resto de varables explcatvas). Cuando se hace referenca al ncremento untaro en una de las varables explcatvas del modelo, aparece el concepto de oods rato como el cocente entre los dos odds asocados (el obtendo al realzar el ncremento y el anteror al msmo). Suponendo que ha habdo un ncremento untaro en la varable X Odds_rato Odds2 Odds β = = e β OR = e De donde se desprende que, un coefcente β cercano a cero, es decr, un odds rato próxmo a, ndcará que cambos en la varable explcatva X asocada no tendrán efecto alguno sobre la varable dependente Y. Bondad de ajuste del modelo. Se utlzan dos tpos de contrastes: (a) Contrastes que analzan la bondad de ajuste desde un punto de vsta global. (b) Contrastes que analzan la bondad de ajuste paso a paso. (a) Contraste de bondad de ajuste global de Hosmer Lemeshow:: Santago de la Fuente Fernández 5

El índce de bondad de ajuste: n 2 2 (y pˆ ) z = donde pˆ = p(x,x2, L, xk; βˆ) =,2, L,n pˆ ( pˆ ), 2 z χ = 2 n k Regresón Logístca s el modelo ajustado es certo El estadístco desvacón vene dado por la expresón: n y + n m ( y ) D = 2 y Ln 2 ( y)ln = pˆ = ( pˆ ) m número observacones con y = 2 D χ n k s el modelo ajustado es certo (b) Contraste de bondad de ajuste de Hosmer Lemeshow: Evalúa la bondad de ajuste del modelo construyendo una tabla de contngenca a la que aplca un contraste tpo ch cuadrado. ( pˆ),2, L, n ( D,D2,,D9 j (pˆ ) =,2, L,n [Dj,Dj) j=,2, L0 Calcula los decles de las probabldades estmadas =, L ), dvdendo los datos A =, donde D 0 = 0 y observados en dez categorías dadas por: { } D 0 = El estadístco de contraste: (e j nj p j) T donde n p ( p ) = 0 j= j j 2 j nj nº casos en A ej nº y = en A 2 8 T observado p valor del contraste: P[ χ ] j j (j =, L,0) (j =, L,0) p j = pˆ A n j j Dagnóstcos del modelo. Medante el análss de los resduos del modelo y de su nfluenca en la estmacón del vector de parámetros se evalúa la bondad del ajuste caso por caso. Resduos estandarzados: z = Resduos studentzados: st observacón ésma. y pˆ pˆ ( pˆ ) y pˆ () =, donde pˆ () es la estmacón de p obtenda en la pˆ ( pˆ ) () () Resduos desvacón: (d ) =, L,n = 2Ln pˆ 2Ln( pˆ ) s y = s y = 0 Meddas de Influenca. Cuantfcan la nfluenca que cada observacón ejerce sobre la estmacón del vector de parámetros o sobre las predccones hechas a partr del msmo de forma que, cuanto más grande son, mayor es la nfluenca que ejerce una observacón en la estmacón del modelo Medda de Apalancamento (Leverage): denotando por W dagonal[ pˆ ( pˆ )] =, se calcula a partr de la matrz H = W X(X'WX) X' W Santago de la Fuente Fernández 6

El apalancamento para la observacón ésma vene dado por el elemento ésmo h (0,), con un valor medo de p / n. Las meddas (dstanca de Cook, Dfbeta) mden el mpacto que tene una observacón en la estmacón de los parámetros. Dstanca de Cook. Cuantfca la nfluenca en la estmacón de β : COOK p ' [ βˆ βˆ ] (X'WX) [ βˆ βˆ ] = () () donde () ˆβ son estmacones EMV de β Dfbeta. Influenca en la estmacón de una componente de β : ˆβ () son estmacones máxmo verosímles (EMV) de β βˆ ˆ β Dfbeta = st(ˆ β ) () Santago de la Fuente Fernández 7

Ejemplo. Se quere establecer una relacón entre el hecho de tener antcuerpos a determnado vrus con la zona de resdenca (norte, sur, este y oeste) y el factor RH. Para ello, se da la sguente estructura: varable nomnal Vrus ( S, 0 No), varable nomnal Zona ( Norte, 2 Sur, 3 Este y 4 Oeste), varable nomnal RH ( Postvo, 2 Negatvo) y la varable escalar Frecuenca. Señalar que la varable nomnal Zona tene cuatro categorías y debería ser susttuda por 3 varables dummy: Zona Madrd Z Z 2 Z 3 Norte 0 0 0 Sur 0 0 Este 0 0 Oeste 0 0 Sn consderar este hecho, ntroduzcamos los datos en SPSS. Después se ponderan los datos (Datos/Ponderar casos/frecuenca). Se seleccona la varable dependente (Vrus) y las covarables (varables ndependentes: Zona y RH). Ahora tenemos que ndcarle al SPSS las varables categórcas, se pulsa el botón [Categórcas]. Santago de la Fuente Fernández 8

Se elge el Método Introducr (procedmento en el que todas las varables de un bloque se ntroducen en un solo paso). Se podía haber utlzado el Método Adelante RV (método automátco por pasos, haca delante, que utlza la prueba de la Razón de Verosmltud para comprobar las covarables a nclur o exclur), en este modelo se habría anulado la varable RH de la ecuacón. En [Opcones] están dsponbles: El Vsor de resultados de SSPS: Aparece un cuadro con el número de casos ntroducdos (6), los selecconados para el análss y los excludos (casos perddos, por tener algún valor faltante). La tabla especfca la codfcacón de la varable dependente (que debe ser dcotómca). Internamente el programa asgna el valor 0 al menor de los dos códgos, y el valor al mayor. La tabla muestra la codfcacón empleada en las varables ndependentes y de control (covarables). Se han selecconado dos varables ndependentes (Zona, RH) y se refleja la categoría codfcada. Además se refleja la frecuenca absoluta de cada valor. S en el cuadro de defnr Varables Categórcas se ha selecconado en Contraste Indcador y en Categoría de referenca últma (opcones que da el programa por defecto), la categoría codfcada con el valor nterno más bajo (0) será la de referenca, la 'últma' para el SPSS. La sucesón de estmadores ha convergdo, el número de teracones necesaras son 3. Santago de la Fuente Fernández 9

Bloque 0: Bloque ncal Regresón Logístca En este bloque ncal se calcula la verosmltud de un modelo que sólo tene el térmno constante β 0. Puesto que la verosmltud L es un número muy pequeño (comprenddo entre 0 y ), se suele ofrecer el logartmo neperano de la verosmltud (LL), que es un número negatvo, o menos dos veces el logartmo neperano de la verosmltud ( 2LL), que es un número postvo. El estadístco ( 2LL) mde hasta qué punto un modelo se ajusta ben a los datos. El resultado de esta medcón recbe tambén el nombre de desvacón. Cuanto más pequeño sea el valor, mejor será el ajuste. Como en [Opcones] se había solctado el hstoral de teracones, la salda del ordenador muestra un resumen del proceso teratvo de estmacón del prmer parámetro β 0, como se observa el proceso ha necestado dos cclos para estmar correctamente el térmno constante β 0 = 0, 084, porque la varacón de ( 2LL) entre el prmer y segundo bucle ha cambado en menos del crtero fjado por el programa (0,00). La tabla permte evaluar el ajuste del modelo de regresón (hasta este momento, con un solo parámetro en la ecuacón), comparando los valores predchos con los valores observados. Por defecto se ha empleado un punto de corte (0,5) de la probabldad de Y para clasfcar a los ndvduos. Esto sgnfca que aquellos sujetos para los que la ecuacón con éste únco térmno calcula una probabldad < 0,5 se clasfcan como Vrus=0 (No tenen antcuerpos), mentras que s la probabldad resultante es 0, 5 se clasfcan como Vrus= (tenen antcuerpos). En este prmer paso el modelo ha clasfcado correctamente a un 52,% de los casos, y nngún caso de 'No hay vrus' ha sdo clasfcado correctamente. En este prmer bloque, en la ecuacón de regresón sólo aparece el parámetro estmado β 0 = 0, 084, el error estándar E.T = 0, 025 y la sgnfcacón estadístca con la prueba de Wald, que es un estadístco que sgue una ley Ch cuadrado con grado de lbertad, y la estmacón de la 0,084 OR = e β 0 = e =,088. En la tabla de varables que no están asocadas en la ecuacón fgura la sgnfcacón estadístca asocada al índce de Wald. Santago de la Fuente Fernández 0

Bloque : Método = Introducr En la tabla se muestra el proceso de teracón, que ahora se realza para tres coefcentes, la constante (ya ncluda en el anteror paso), la varable Zona (defnda con tres varables dummy: Z, Z 2 y Z 3 ), y la varable RH. Se observa como dsmnuye el ( 2LL) respecto al paso anteror (el modelo sólo con la constante tenía un valor de este estadístco de 8729,445, mentras que ahora se reduce a 87,623), y el proceso termna con tres bucles. Los coefcentes calculados son para la constante β 0 = 0, 20, para la varable Zona, respectvamente, los coefcentes de Z, Z 2 y Z 3 (0,03 ; 0,093 ; 0,43), y para la varable RH el coefcente 0,046. Se muestra una tabla ch cuadrado que evalúa la hpótess nula de que los coefcentes β de todos los térmnos (excepto la constante) ncludos en el modelo son cero. El estadístco ch cuadrado para este contraste es la dferenca entre el valor de ( 2LL) para el modelo sólo con la constante ( 2LL = 8729,445) y el valor ( 2LL) para el modelo actual ( 2LL = 87,623), es decr, el cocente o razón de verosmltudes: RV = χ 2 4 = ( 2LL MODELO 0) ( 2LL MODELO ) = 87,623 87,623 = 7,822 En general, la razón de verosmltudes (RV) es útl, para determnar s hay una dferenca sgnfcatva entre nclur en modelo todas las varables y no nclur nnguna, dcho de otro modo, RV srve para evaluar sí las varables tomadas en conjunto, contrbuyen efectvamente a explcar las modfcacones que se producen en P (Y = ). Prueba Omnbus, SSPS ofrece tres entradas (Paso, Bloque y Modelo): La fla prmera (PASO) es la correspondente al cambo de verosmltud (de 2LL) entre pasos sucesvos en la construccón del modelo, contrastando la hpótess nula H 0 de que los coefcentes de las varables añaddas en el últmo paso son cero. La segunda fla (BLOQUE) es el cambo en 2LL entre bloques de entrada sucesvos durante la construccón del modelo. S como es habtual en la práctca se ntroducen las varables en un solo bloque, la Ch Cuadrado del Bloque es el msmo que la Ch Cuadrado del Modelo. Santago de la Fuente Fernández

La tercera fla (MODELO) es la dferenca entre el valor de 2LL para el modelo sólo con la constante y el valor de 2LL para el modelo actual. Segudamente, tres meddas Resumen de los modelos, para evaluar de forma global su valdez. Los coefcentes de determnacón tenen valores muy pequeños, ndcando que sólo el 0,3% o el 0,4% de la varacón de la varable dependente es explcada por las varables ncludas en el modelo, y debe mejorar cuando se vayan ncluyendo varables más explcatvas del resultado o térmnos de nteraccón. 2 logartmo de la verosmltud ( 2LL) mde hasta qué punto un modelo se ajusta ben a los datos. El resultado de esta medcón recbe tambén el nombre de desvacón. Cuanto más pequeño sea el valor, mejor será el ajuste. La R cuadradro de Cox y Snell es un coefcente de determnacón generalzado que se utlza para estmar la proporcón de varanza de la varable dependente explcada por las varables predctoras (ndependentes). La R cuadrado de Cox y Snell se basa en la comparacón del logartmo de la verosmltud (LL) para el modelo respecto al logartmo de la verosmltud (LL) para un modelo de línea base. Los valores osclan entre 0 y. La R cuadrado de Nagelkerke es una versón corregda de la R cuadrado de Cox y Snell. La R cuadrado de Cox y Snell tene un valor máxmo nferor a, ncluso para un modelo "perfecto". La R cuadrado de Nagelkerke corrge la escala del estadístco para cubrr el rango completo de 0 a. La bondad de ajuste ha resultado excelente, basta notar la smltud entre valores esperados y observados en el procedmento de Hosmer y Lemeshow. La prueba de Hosmer Lemeshow es otra prueba para evaluar la bondad del ajuste de un modelo de regresón logístca (RL). Parte de la dea de que s el ajuste es bueno, un valor alto de la probabldad predcha (p) se asocará con el resultado de la varable bnomal dependente, mentras que un valor bajo de p (próxmo a cero) corresponderá (en la mayoría de las ocasones) con el resultado Y=0. Para cada observacón del conjunto de datos, se trata de calcular las probabldades de la varable dependente que predce el modelo, ordenarlas, agruparlas y calcular, a partr de ellas, las frecuencas esperadas, y compararlas con las observadas medante una prueba ch cuadrado. Santago de la Fuente Fernández 2

Señalar que esta prueba de bondad de ajuste tene algunas 'nconvenentes': El estadígrafo de Hosmer Lemeshow no se computa cuando, para algunos grupos, e (valores esperados) ó e *(n e ) son nulos o muy pequeños (menores que 5). Por otra parte, lo que se desea en esta prueba es que no haya sgnfcacón (lo contraro a lo que suele ser habtual). Por este motvo, muchos autores proponen smplemente cotejar valores observados y esperados medante smple nspeccón y evaluar el grado de concordanca entre unos y otros a partr del sentdo común. Sobre este razonamento, una forma de evaluar la ecuacón de regresón y el modelo obtendo es construr una tabla 2 2 clasfcando a todos los ndvduos de la muestra según la concordanca de los valores observados con los predchos o estmados por el modelo, de forma smlar a como se evalúan las pruebas dagnóstcas. Una ecuacón sn poder de clasfcacón alguno tendría una especfcdad, sensbldad y total de clasfcacón correctas gual al 50% (por el smple azar). Un modelo puede consderarse aceptable s tanto la especfcdad como la sensbldad tenen un nvel alto, de al menos el 75%. El modelo tene una especfcdad alta (00%) y una sensbldad nula (0%). Con la constante y una únca varable predctora (Vrus), clasfca mal a los ndvduos que no tenen antcuerpos cuando el punto de corte de la probabldad de Y calculada se establece (por defecto) en 50% (0,5). Por últmo, SPSS ofrece las varables de la ecuacón, los coefcentes de regresón con sus correspondentes errores estándar (ET), el valor del estadístco de Wald para evaluar la hpótess nula ( p = 0), la sgnfcacón estadístca asocada, y el valor de la OR= exp( β ) con sus ntervalos de confanza. El modelo ajustado resulta: P[ antcuerpos] = 0,20 + 0,03Z + 0,093Z 0,43Z + 0,046RH) + e ( 2 3 Para estmar, medante el modelo, la tasa de antcuerpos entre sujetos del ESTE ( Norte, 2 Sur, 3 Este y 4 Oeste) que tenen RH negatvo, se tendría que susttur en la ecuacón los valores Z = 0, Z =, Z = 0,RH 2) ( 2 3 = P [ antcuerpos] = = 0, 937 + ( 0,20 e + 0,093. + 0,046.2) Santago de la Fuente Fernández 3

Computando la tasa de sujetos con antcuerpos en esta subpoblacón (Este, RH negatvo) utlzando la nformacón orgnal, sendorh (antcuerpo s, zona), la razón sería: RH RH(,3) (,3) + RH(0,3) 90 = = 0,573 90 + 67 S el modelo contempla la nteraccón (Zona_RH) se debe nclur como una varable más el producto de las dos varables (Zona*RH), sn codfcar los valores de la nueva varable, sno smplemente el producto de ambas. Sn embargo, puesto que Zona ha de tratarse a través de las varables dummy (ndcadoras), en este caso crear la varable (Zona*RH) sería ncorrecto. Para hacer el ajuste ncorporando la nteraccón de Zona y RH no se debe ndcar a SPSS que maneje Zona a través de varables dummy, sno que deben construrse las tres varables dummy prevamente y luego los tres productos procedentes de éstas con RH. La tabla de contngenca resultante sería: Santago de la Fuente Fernández 4

Después de ponderar los datos por la frecuenca, al realzar el contraste en SPSS: Regresón Logístca En el Vsor de resultados del Bloque : Método Introducr El proceso de teracón se realza para ocho coefcentes. Los coefcentes calculados son, respectvamente, para la constante β 0 = 0, 074, y para la varables Z, Z 2, Z 3, RH, Z_RH, Z2_RH, Z3_RH. Se muestra una tabla ch cuadrado que evalúa la hpótess nula de que los coefcentes β de todos los térmnos (excepto la constante) ncludos en el modelo son cero. El estadístco ch cuadrado para este contraste es la dferenca entre el valor de ( 2LL) para el modelo sólo con la constante ( 2LL = 8729,445) y el valor ( 2LL) para el modelo actual ( 2LL = 8705,834), es decr, el cocente o razón de verosmltudes: RV = χ 2 4 = ( 2LL MODELO 0) ( 2LL MODELO ) = 8729,445 8705,8334 = 23,60 En general, la razón de verosmltudes (RV) es útl, para determnar s hay una dferenca sgnfcatva entre nclur en modelo todas las varables y no nclur nnguna, dcho de otro modo, RV srve para evaluar sí las varables tomadas en conjunto, contrbuyen efectvamente a explcar las modfcacones que se producen en P (Y = ). Santago de la Fuente Fernández 5

El coefcente de determnacón tene un valor muy pequeño, ndcando que sólo el 0,4% de la varacón de la varable dependente es explcada por las varables ncludas en el modelo. La bondad de ajuste ha resultado excelente, basta notar la smltud entre valores esperados y observados en el procedmento de Hosmer y Lemeshow. Por últmo, SPSS ofrece las varables de la ecuacón, los coefcentes de regresón con sus correspondentes errores estándar (ET), el valor del estadístco de Wald para evaluar la hpótess nula ( p = 0), la sgnfcacón estadístca asocada, y el valor de la OR= exp( β ) con sus ntervalos de confanza. El modelo ajustado resulta: P [ antcuerpos] = ( 0,074 + 0,034 Z,548 Z2 0,26Z3 + 0,06 Z _ RH + 0,646 Z2 _ RH + 0,075Z3 _ RH) + e NOTA. Las varables con un error estándar mayor que no entrarían en el modelo sean o no sgnfcatvas, o las que tenen un OR muy grande o cercano a cero. El OR= exp( β ) es una medda estadístca que cuantfca el resgo que representa poseer el factor correspondente o no poseerlo, suponendo que el resto de varables del modelo permanecen β constantes. Un odds rato próxmo a ( OR = e ), es decr, un coefcente β cercano a cero, ndcará que cambos en la varable explcatva asocada no tendrán efecto alguno sobre la varable dependente. Para determnar s el OR es sgnfcatvamente dstnto de se calcula su ntervalo de confanza [ OR < es un factor protector, OR = es un factor que no es protector n de resgo, OR > es un factor de resgo]. Es sgnfcatvo cuando su p_valor (Sgnatura) < 0,05 Santago de la Fuente Fernández 6

Las varables Z, Z3, RH, Z_RH, Z3_RH tenen ntervalos de confanza que cubre el, por lo que no tenen efecto alguno sobre la varable respuesta (antcuerpos). Las varables que entran en la ecuacón son Z2, Z2_RH, sólo hay que analzar estas dos varables y se nca el procedmento de nuevo con el Método Introducr. A la msma conclusón se hubera llegado s se hubera elegdo el Método Adelante RV (método automátco por pasos, haca delante, que utlzará la prueba de la Razón de Verosmltud para comprobar las covarables a nclur o exclur). SPSS ofrece las varables que dejará en la ecuacón, sus coefcentes de regresón con sus correspondentes errores estándar, el valor del estadístco de Wald para evaluar la hpótess nula (P=0), la sgnfcacón estadístca asocada, y el valor de la OR (exp(b)) con sus ntervalos de confanza. Se muestra una evaluacón de cuánto perdería el modelo obtendo s se elmnara la varable ncluda en este paso, ya que en los métodos automátcos de construccón del modelo por pasos el proceso evalúa la nclusón y la exclusón de varables. La tabla presenta, para cada varable del modelo, los cambos en la verosmltud s dchas varables se elmnan; s la sgnfcacón estadístca asocada (Sg. del cambo) fuese mayor que el crtero de exclusón establecdo, la varable se elmnaría del modelo en el paso sguente. Como el cambo de verosmltud es estadístcamente sgnfcatvo (< 0,05), las varables quedan en el modelo. Santago de la Fuente Fernández 7

Sí se hubera elegdo el Método Atrás Wald (método automátco de seleccón por pasos haca atrás, el contraste para la elmnacón se basa en la probabldad del estadístco de Wald). Se seleccona haca atrás porque se desea que el modelo ncluya en un prncpo todas las varables ndependentes y vaya qutando varables en cada paso hasta solo quedar las varables explcatvas. Santago de la Fuente Fernández 8

En el paso 3 habían entrado las varables (Z, Z2, Z3, Z2_RH, Z3_RH), en el paso 4 queda elmnada la varable Z porque tene el mayor OR próxmo a cero, el ntervalo de confanza del OR cubre el (no tene efecto alguno sobre la varable dependente). En el paso 4 habían entrado las varables (Z2, Z3, Z2_RH, Z3_RH), en el paso 5 queda elmnada la varable Z3_RH porque tene el mayor OR próxmo a cero, el ntervalo de confanza del OR cubre el (no tene efecto alguno sobre la varable dependente). En el paso 5 habían entrado las varables (Z2, Z3, Z2_RH), en el paso 6 queda elmnada la varable Z3 porque el ntervalo de confanza del OR cubre el, en consecuenca, no tene efecto alguno sobre la varable dependente. Las varables que entran en la ecuacón son Z2, Z2_RH, sólo hay que analzar estas dos varables y se nca el procedmento de nuevo con el Método Introducr. S se tuvera alguna otra varable que podría modfcar el modelo se podría ntroducr en covarables (varables ndependentes). En Método Introducr. P antcuerpos El modelo ajustado resulta: [ ] = ( 0,064,523Z + 0,646 Z _ RH) + e 2 2 Santago de la Fuente Fernández 9

Ejemplo 2. Se estuda la nfeccón hosptalara posqurúrgca en pacentes operados de rodlla a lo largo de la prmera semana. Para evaluar un nuevo régmen de la atencón de enfermería que se dspensa a los pacentes se hace un estudo a ochenta pacentes de edades dferentes, donde 36 se ubcan en la atencón establecda y 44 en la atencón en estudo. Obtenendo la tabla sguente: Infeccón Atencón Sí () No (0) Estudo () 7 37 Establecda (0) 4 22 7.22 OR = = 0,279 4.37 S se consdera la varable edad del pacente (< 40 años, 40 años), se ntroduce una varable de confusón en la relacón que pudera exstr en la relacón (atencón desarrollar nfeccón). La dstrbucón de pacentes según régmen de atencón enfermera, condcón respecto de la nfeccón y grupo de edad, vene dada por la tabla adjunta: Infeccón Atencón Sí () No (0) Edad < 40 () Edad 40 (2) Estudo () 2 22 Establecda (0) 2 9 Estudo () 5 5 Establecda (0) 2 3 2.9 OR = = 0,4 2.22 5.3 OR 2 = = 0,36 2.5 Los datos de la tabla de contngenca de 3 entradas con 8 celdas: Infeccón Atencón Edad Frecuenca 0 0 9 0 0 2 3 0 22 0 2 5 0 2 0 2 2 2 2 5 La asocacón entre la atencón y la nfeccón puede ser omtda o falsamente detectada en caso de que exsta un factor de confusón. Un factor de confusón es el que se asoca con la atencón de enfermería y la nfeccón de los pacentes. Para analzar la asocacón entre la atencón de enfermería y la nfeccón a lo largo de la semana de los pacentes: Analzar/Estadístcos descrptvos/tablas de contngenca Santago de la Fuente Fernández 20

En [Estadístcos] se seleccona Resgo. En [Casllas] se seleccona Porcentaje en columnas. Se calcula el OR de la atencón establecda respecto a la atencón nueva. El OR es 0,297 y su ntervalo de confanza no contene la undad, por lo tanto es un OR sgnfcatvo. Surge la pregunta s el 0R=0,297 es realmente la medda del resgo de la atencón prmara de producr una nfeccón o es que esta nflada, o es que no es el valor correcto debdo a otros factores. Como únca medda de la asocacón entre la atencón y la nfeccón, se calcula el odds rato dentro de cada categoría o estrato formado por los dos grupos de edad (menores de 40 y mayores de 40). Una medda únca global se obtene como un promedo ponderado de los odds rato dentro de los estratos (odds rato de Mantel Haenszel). En [Estadístcos] se seleccona Resgo. En [Casllas] se seleccona Porcentaje en columnas. Santago de la Fuente Fernández 2

Se calcula el OR de la atencón establecda respecto a la atencón nueva dentro de cada estrato. En el estrato (< 40 años), el OR es 0,4 y no es sgnfcatvo porque su ntervalo de confanza cubre la undad. En el estrato ( 40 años), el OR es 0,36 y no es sgnfcatvo porque su ntervalo de confanza cubre la undad. La sgnatura asntótca (p_value) vale 0,92 > 0,05, por lo tanto, no se rechaza la hpótess nula, que establece que los OR se dstrbuyen de forma homogénea. S la Sgnatura asntótca hubera sdo menor que 0,05 no se podría haber aplcado Mantel Haenszel, tenendo que aplcar otro método (regresón logístca). Al dstrburse los OR de forma homogénea se puede aplcar el estadístco de Mantel Haenszel: El OR = 0, 373, su ntervalo de confanza cubre la undad, por lo que no es sgnfcatvo. Concluyendo que la edad es un factor de confusón. Advértase que el OR calculado ncalmente de 0,297 es muy dferente al ajustado con la edad del pacente. Se realza la regresón logístca: Se seleccona la varable dependente (Infeccón) y las covarables (varables ndependentes: Atencón y Edad). Ahora tenemos que ndcarle al SPSS las varables categórcas, se pulsa el botón [Categórcas]. Santago de la Fuente Fernández 22

SPSS ofrece las varables de la ecuacón, los coefcentes de regresón con sus correspondentes errores estándar (ET), el valor del estadístco de Wald para evaluar la hpótess nula ( p = 0 ), la sgnfcacón estadístca asocada, y el valor de la OR= exp( β ) con sus ntervalos de confanza. Es muy mportante dstngur entre un contexto explcatvo y un contexto predctvo. En el prmer caso, el modelo para cada posble factor de resgo o protector se ajusta con los factores que pueden ser confusores para él. Solo en los estudos predctvos se ajusta el mejor modelo. Debe tenerse en cuenta, en este caso, que una varable puede tener valor predctvo aunque no sea parte del mecansmo causal que produce el fenómeno en estudo. S el contexto es predctvo, la probabldad del suceso para un perfl de entrada dado ha de computarse ndependentemente empleando los coefcentes estmados. S se quere saber cuál es la probabldad de que un alumno esté nsatsfecho, hay que aplcar el modelo ajustado: P [ Infeccón = ] = (,078 +,364.Edad 0,985. Atencón) + e La varable Atencón, habendo ntroducdo la varable de confusón Edad, tene un ntervalo de confanza que cubre el, por lo que no tenen efecto alguno sobre la varable respuesta (Infeccón). En este sentdo, se procede a volver hacer de nuevo una regresón logístca bnara, qutando la varable de confusón, con la varable dependente (Infeccón) y la varable ndependente Atencón. Se elge el Método Introducr. La varable Atencón, sn ntroducdo la varable de confusón Edad, tene un ntervalo de confanza que no cubre el, por lo que es sgnfcatva sobre la varable respuesta (Infeccón). El modelo ajustado resulta: P[ Infeccón = ] = (,665,23. Atencón) + e Santago de la Fuente Fernández 23

Ejemplo 2. Se desea evaluar la satsfaccón con la enseñanza públca de.027 estudantes medante la varable Satsfecho (S=0, No=) y tres varables ndependentes Naconaldad (España=, Rumana=2, Colomba=3), Género (Hombre=, Mujer=2) y Estudos (ESO=, Prmara=2). Al ntroducr los datos en una tabla de contngenca de 4 entradas, ponderando las respectvas frecuencas, se tendrán ( 2.3.2.2 = 24 confguracones). Satsfecho Estudos Género Naconaldad Sí () No (0) España () (00) 54 09 ESO () PRIMARIA (2) Hombre () Mujer (2) Hombre () Mujer (2) Rumana (2) (0) 45 90 Colomba (3) (0) 2 84 España () (00) 27 54 Rumana (2) (0) 20 44 Colomba (3) (0) 97 42 España () (00) 9 9 Rumana (2) (0) 2 8 Colomba (3) (0) 33 6 España () (00) 7 4 Rumana (2) (0) 5 3 Colomba (3) (0) 2 3 La varable Naconaldad de tpo nomnal tene más de dos categorías, es razonable plantear que sea manejada como una varable dummy. Naconaldad Z Z 2 España 0 0 Rumana 0 Colomba 0 Se ajusta un modelo que ncluya una varable nomnal con 3 clases, ésta debe ser susttuda por las ( 3 ) varables dummy, y a cada una de ellas corresponderá su respectvo coefcente. Debe recordarse que el conjunto de varables dummy consttuye un todo ndsoluble con el cual se suple a una varable nomnal. Cualquer decsón que se adopte o valoracón que se haga concerne al conjunto íntegro. Santago de la Fuente Fernández 24

Santago de la Fuente Fernández 25

S el contexto es predctvo, la probabldad del suceso para un perfl de entrada dado ha de computarse ndependentemente empleando los coefcentes estmados. S se quere saber cuál es la probabldad de que un alumno esté nsatsfecho, hay que aplcar el modelo ajustado: P [ Insatsfaccón] = (0,777 + e + 0,06. Z,69. Z 2 0,29.Género + 0,03.Estudos) Para una alumna colombana de prmara, los valores de las varables son: Género=2, Naconaldad (Z =0, Z 2 =), Estudos=2: P [ Insatsfaccón] = = 0, 745 (0,777 + e,69. 0,29.2 + 0,03.2) Para un alumno rumano de prmara, los valores de las varables son: Género=, Naconaldad (Z =, Z 2 =0), Estudos=2: P [ Insatsfaccón] = = 0, 324 (0,777 + + e 0,06. 0,29. + 0,03.2) Para una alumna española de prmara, los valores de las varables son: Género=2, Naconaldad (Z =0, Z 2 =0), Estudos=2: P [ Insatsfaccón] = = 0, 367 + e (0,777 0,29.2 + 0,03.2) Advértase que en las varables de la ecuacón, por el Método Introducr (entran todas las varables en el análss), no se ha analzado el ntervalo de confanza (IC) de los coefcentes. De haberlo hecho, los coefcentes de las varables (Z, Género y Estudos), respectvamente, tenen un ntervalo de confanza que cubre el, es decr, hay un resgo de, por lo que debían salr estas varables de la ecuacón y volver a realzar el análss. En el caso de haber utlzado el Método Adelante RV (método automátco por pasos, haca delante, que utlza la prueba de la Razón de Verosmltud para comprobar las covarables a nclur o exclur), éstas varables huberan saldo de la ecuacón: Santago de la Fuente Fernández 26

Se tendría que sacar las varables del análss y volverlo a realzar con el Método Introducr. El modelo ajustado: P[ Insatsfaccón] = (0,73,646. Z ) + e 2 Santago de la Fuente Fernández 27