Capítulo X. Regresión Logística



Documentos relacionados
Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

1 Ejemplo de análisis descriptivo de un conjunto de datos

ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

TEMA 4: Variables binarias

Multiple Linear Regression

Modelos de regresión: lineal simple y regresión logística

(.$263*7.5"4+%#,"8..9$ $.$ # "4< $ 8 $ 7

Modelos estadísticos aplicados en administración de negocios que generan ventajas competitivas

Covarianza y coeficiente de correlación

SPSS: ANOVA de un Factor

Curso Práctico de Bioestadística Con Herramientas De Excel

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

LOS INDICADORES HERRAMIENTA ESTADISTICA

ANÁLISIS DE DATOS NO NUMERICOS

Hay diferencias en la media del HOMA entre los diabéticos y los no diabéticos? Resumen del procesamiento de los casos

Aula Banca Privada. La importancia de la diversificación

ESTIMACIÓN. puntual y por intervalo

Semana de dieta (X) Peso en Kg (Y)

ANALISIS MULTIVARIANTE

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS

CALCULO CAPITULO ASINTOTAS VERTICALES Y HORIZONTALES

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales

El modelo Ordinal y el modelo Multinomial

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Clase 2: Estadística

ANÁLISIS DE LA VARIANZA (ANOVA) José Vicéns Otero Ainhoa Herrarte Sánchez Eva Medina Moral

TEMA 5 Variables ficticias

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

Capítulo 3. Estimación de elasticidades

Límite de una función

TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística

Que permite las proyecciones..

Estimación de una probabilidad

CAPÍTULO 10 Aplicaciones de la Derivada a Funciones Económicas

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n

ANÁLISIS DISCRIMINANTE

9.1.Análisis de tablas de contingencia

T. 5 Inferencia estadística acerca de la relación entre variables

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

2 Resolución de algunos ejemplos y ejercicios del tema 2.

INFLUENCIA DE SELECTIVIDAD EN LAS MATEMÁTICAS DE ECONOMÍA

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Medidas de Tendencia Central y Dispersión

CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL Y GRAPH

Modelos de elección binaria

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Pruebas de Acceso a las Universidades de Castilla y León

Capitulo VIII La Evaluación del Proyecto

EL BOLSÍN DEL BANCO CENTRAL DE BOLIVIA: UNA APROXIMACIÓN A LA TEORÍA DE SUBASTAS

CORRELACIÓN Y PREDICIÓN

ANÁLISIS DE CORRELACIÓN EMPLEANDO EXCEL Y GRAPH

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Capítulo 7: Distribuciones muestrales

FUNCIONES CUADRÁTICAS Y RACIONALES

REGRESION simple. Correlación Lineal:

Gráfico de Dispersión de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadística en la UTAL

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti.

35 Facultad de Ciencias Universidad de Los Andes Mérida-Venezuela. Potencial Eléctrico

Capítulo IV Diseños de cuadrados latinos y diseños afines

RESOLUCIÓN DE SISTEMAS DE ECUACIONES LINEALES

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

ESTADÍSTICA SEMANA 4

TEMA 4: Introducción al Control Estadístico de Procesos

Técnicas Cuantitativas para el Management y los Negocios

El concepto de integral con aplicaciones sencillas

Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD.

INFERENCIA ESTADISTICA: CONTRASTE DE HIPÓTESIS

PRUEBA DE HIPÓTESIS CON CHI CUADRADO EMPLEANDO EXCEL Y WINSTATS

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:

1.4.- D E S I G U A L D A D E S

I1.1 Estudios observacionales IISESIÓN DISEÑO O DE ESTUDIOS EN INVESTIGACIÓN N MÉDICA DESCRIPTIVA CURSO DE. 1.2 Estudios experimentales

Tema 07. LÍMITES Y CONTINUIDAD DE FUNCIONES

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

1. Análisis de variables cuantitativas (2 a parte)

Cómo hacer una Regresión Logística con SPSS paso a paso. (I)

Universidad Diego Portales Facultad de Economía y Empresa

Intervalo para la media (caso general)

REGRESIÓN LINEAL MÚLTIPLE

Trabajo de Matemáticas y Estadística Aplicadas

Unidad 6 Cálculo de máximos y mínimos

Regresión múltiple. Modelos y Simulación. I. Introducción II. Marco teórico III. Aplicación IV. Conclusiones V. Bibliografía

Módulo 9 Sistema matemático y operaciones binarias

Otras medidas descriptivas usuales

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

NUEVA DIRECCIÓN DE LA GESTIÓN COMERCIAL

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Práctica 2. Estadística Descriptiva

Clase 2: Estadística

Finanzas de Empresas Turísticas

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Teóricas de Análisis Matemático (28) - Práctica 4 - Límite de funciones. 1. Límites en el infinito - Asíntotas horizontales

Análisis de Correlación Simple, Múltiple, Parcial

3.- DETERMINANTES. a 11 a 22 a 12 a 21

Transcripción:

Capítulo Regresión Logística Conceptos y definiciones Es un modelo clásico de regresión lineal simple o múltiple, pero donde la variale dependiente es inaria o dicotómica. 3 5 4 ÉITO FRACASO Es decir, adopta sólo dos valores posiles: éxito y fracaso, positivo y negativo, muerto y vivo, uen y mal desempeño, parasitado o no, aproado o no aproado. La regresión logística es un tipo especial de regresión que se utiliza para explicar y predecir una variale categórica inaria (dos grupos) en función de varias variales independientes que a su vez pueden ser cuantitativas o cualitativas.

38 Permite modelizar la proailidad de que ocurra un evento dado una serie de variales independientes. Razones para utilizar la Regresión Logística () La razón Odds Ratio es una variale discreta (dicotómica) cuyo comportamiento sigue una distriución inomial, invalidando el supuesto ásico de normalidad. () La Función de Relación es una regresión intrínsecamente no lineal. (3) La varianza de una variale dicotómica no es constante, al camiar los valores de las i los puntos de Y se aren en un aanico que refleja la heterocedasticidad. Aplicaciones de la Curva Logística En Economía * Podemos querer distinguir entre riesgo de crédito alto y ajo. * Empresa rentale o no rentale. * Empresa ajo riesgo financiero o no. * Éxito de Ventas frente a fracaso en ventas. * Compradores (consumidores) frente a no compradores. En Veterinaria: V. Dependiente (alcanza, no alcanza el peso al destete) V. Independientes: Raza, Peso al Nacer, Ganancia de peso, Indice de Quetelet. Expresiones de la Regresión Logística El valor teórico recie diferentes nomres (Sinónimos) en la Literatura Científica:

39 () Odds Ratio () Razón de ventajas (3) Razón de oportunidades (4) Razón de desigualdades (5) Razón de momios (6) Transformación logística (7) Razón de verosimilitud (8) Cociente de posiilidades (9) Oportunidad Relativa Odds Ratio: Odds _ Ratio P Q proailidad _ éxito Odds _ Ratio proailidad _ éxito Este cociente expresa que si P=0,50 entonces el cociente vale uno: 0,50 _ Ratio 0,50 Odds O un éxito es a un fracaso ( a ) Si P=0,75 entonces el cociente es: 0,75 _ Ratio 3 0,75 Odds O tres éxitos por un fracaso (3 a ) El modelo logístico se asa en el logaritmo natural de este cociente Regresión logística

40 Razón de Ventajas ) ( ln ) ( ) ( OR OR e e e OR e E Odds e E Odds 4 3 0 ) * ( ln... ln p p o p p k k Modelo sin interacción

4 Curva Logística Si Z=0 entonces Y= 0.5 Si Z tiende a + infinito entonces Y= Si Z tiende a - infinito entonces Y= 0 Interpretación de los coeficientes estimados Betas: Un coeficiente eta positivo aumenta la Odds Ratio (OR)(es decir, la proailidad de ocurrencia del suceso aumenta). Un eta negativo disminuye la OR Ejemplo de aplicación Los datos que se dan a continuación pertenecen a 79 niños afectados de enfermedad hemolítica neonatal, de los cuales 63 sorevivieron y 6 murieron. En cada niño se registró la concentración de hemogloina en el cordón umilical, (medida en gramos por cien mililitros) y la concentración de ilirruina, Y

4 ((mg/00ml). Queremos predecir, mediante estos dos valores, si un niño determinado tiene más proailidad de sorevivir o de morir. Grupo (=sorevivientes; =fallecidos) =hemogloina Y=ilirruina Grupo H BILI Grupo H BILI 8.7. 5.4. 7.8.7 5.3.0 7.8.5 5.3.0 7.6 7.6 7.6 7.5 4. 3..0.6 5. 4.8 4.7 3..8 3.7 7.4.8 4.7 3.0 7.4.4 4.6 5.0 7.0 0.4 4.3 3.8 7.0.6 4.3 4. 6.6 3.6 4.3 3.3 Grupo H BILI Grupo H BILI 4.3 3.3. 3.5 4. 3.7..4 4.0 5.8.0.8 3.9.9.0 3.5 3.8 3.7.8.3 3.6.3.8 4.5 3.5..6 3.7 3.4.3 0.9 3.5 3.3.8 0.9 4..5 4.5 0.9.5.3 5.0 0.8 3.3

43 Grupo H BILI Grupo H BILI 4. 5.4.6 5.6.0 5.6.4 5.6.7 5.8 3.0 5.8 3.7 5.8 0.8 6.0.6 6.0.0 6. 4. 6.3 5.6.3.8 5.8 4.6 5.7 3.0 7.4 5.5 8.7 4.9 9.7 4. 9.8 4.0 9.9 3.3 0. 6.3 0.5 3.4 0.6 4.8 5.3 4.8 5.5 6. 5.7 5.9 6.7 5.6 7. 6.8 7.4 4.7 7.6 5.6 8.8 5.6 9. 3.8 9.4 3.6 9.5 3.9 3.4 5.8 5..8 5.3

44 Antes de proceder con el análisis estadístico hay que recodificar la variale grupo como 0 y. Secuencia de Instrucciones en el STATISTI STATISTICS>LINEAR MODELS>LOGISTIC REGRESSION Student Edition of Statistix 8.0 ANEMIA Unweighted Logistic Regression of CATEGO Predictor Wald Variales Coefficient Std Error Coef/SE P Constant -.3698.47984-0.96 0.3394 BILI -0.49530 0.35580 -.39 0.639 H 0.5376 0.5534 3.46 0.0005 Deviance 40.06 P-Value 0.9999 Degrees of Freedom 78 Convergence criterion of 0.0 met after 5 iterations Cases Included 8 Missing Cases 0 Ecuación de regresión logistica soreviven cia 0 Bili H Soreviven cia,30 0,495Bili 0, 53H Del cuadro de ANOVA se concluye que la hemogloina es un factor pronóstico importante; la ilirruina no.

45 Bondad de ajuste del modelo La ondad de ajuste del modelo se pruea con el estadístico de Desviación. El estadístico de Desviación sigue una distriución jicuadrado con n-k- grados de liertad. Dicho estadístico compara el modelo actual con el modelo saturado. Modelo Saturado: Es aquel que tiene tantos parámetros como puntos de datos Se plantea un sistema hipotético constituido por hipótesis nula y alterna: Ho: el modelo es de uen ajuste a los datos H: el modelo no es de uen ajuste Utilizando un nivel alpha de significación, la regla de decisión es: Rechace Ho si la Desviación es significativa (esto es, está asociada a un valor P<0,05). El cuadro de ANOVA dado muestra que: Deviance 40.06 P-Value 0.9999 Degrees of Freedom 78 Lo cual revela, que no se rechaza Ho. En consecuencia, el modelo es ueno. Contriución relativa de cada variale independiente A continuación, tras haer proado la ondad del modelo nos queda por evaluar el grado de contriución de cada una de las variales independientes al modelo. El estadístico de pruea está asado en el cociente entre el coeficiente de regresión y el error estándar del coeficiente de regresión. En la regresión logística, a este cociente se le llama: Estadístico de Wald que sigue una distriución normal.

46 Wald=Coef/SE P Constant -0.96 0.3394 BILI -.39 0.639 H 3.46 0.0005 Se aprecia que la ilirruina no es significativa, es decir,no hace una contriución significativa al modelo; la hemogloina sí. Esto nos dee llevar a reflexionar sore si la Bilirruina dee continuar en el modelo pues su aporte no es significativo. En otras palaras, la ilirruina dee ser excluida del modelo. La Regresión Logística como función discriminante A partir de las medias de e Y; de la matriz de varianzascovarianzas se puede otener una función discriminante lineal (parecida a la función discriminante de Fisher, que es una cominación lineal de las variales involucradas). Las medias y sus diferencias son: Y Sorevivientes 3.897 3.090 Fallecidos 7.756 4.83 Diferencia (S F) 6.4 -.74 Media (S+F)/ 0.87 3.96 Sustituyendo en la función discriminante los promedios, otenemos: Z = 0.654-0.3978 Y La función discriminante tiene como punto de corte 5,506, así si un neonato tiene un valor numérico dado por la función mayor a este valor, Z = (0.654)(0.87)+(-0.3978)(3.96) = 5.506 (punto de corte) fallecer. la proailidad es más alta a sorevivir y caso contrario a Así, si un neonato tiene un valor de hemogloina de 6 y de Bilirruina 3,, aplicando la función discriminante otenida: Z = 0.654 H - 0.3978 Bili

47 Z = 0.654 (6) - 0.3978 (3,)=9,7 como este valor numérico es superior a 5,506 el neonato tiene mayor proailidad de vivir que de morir. Esta situación puede ser más claramente apreciada en un diagrama de dispersión que muestre la función discriminante: Oserve que hay dos puntos negros del lado de los sorevivientes Éstos son dos neonatos mal clasificados por la función, pero en términos generales la función de discriminante se comporta ien.