TEMA 4 Regresión logística

Documentos relacionados
Introducción al modelo de regresión logística

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

TEMA 4 Modelo de regresión múltiple

Clasificación y regresión logística

ESTADÍSTICA. Tema 4 Regresión lineal simple

ANÁLISIS DE REGRESIÓN

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

TEMA 3 Modelo de regresión simple

Predicción del bajo peso al nacer utilizando variables antropométricas y demográficas de la madre

TEMA 10 Correlación y regresión. El modelo de regresión simple

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

TEMA 2 Diseño de experimentos: modelos con varios factores

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Estadística aplicada al medio ambiente

Regresión Lineal Simple y Múltiple Regresión Logística

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Tema 10: Introducción a los problemas de Asociación y Correlación

5.5 Modelo de regresión. se especificó en los términos siguientes: (6.3.1) 1,2,3,..N. Donde:

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA

T2. El modelo lineal simple

Taller I Econometría I

Tema 8: Regresión y Correlación

Práctica 10: Introducción a Modelos Lineales Generalizados.

Econometría Aplicada

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

Estadística Computacional. M. González

Estadística II Ejercicios Tema 5

REGRESIÓN MULTIPLE.


= 15 CALIFICACION:

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

Análisis estadístico de los factores de riesgo que influyen en la enfermedad Angina de Pecho. Flores Manrique, Luz CAPÍTULO IV ANALISIS DE LOS DATOS

Relación 3 de problemas

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Tema 4. Regresión lineal simple

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

peso edad grasas Regresión lineal simple Los datos

Prácticas Tema 4: Modelo con variables cualitativas

Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha:

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Modelo de Regresión Lineal

Métodos Estadísticos Multivariados

Análisis de datos Categóricos

Modelos de suavizado, aditivos y mixtos

Teoría de la decisión

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

BLOQUE III: INFERENCIA ESTADISTICA. X, variable aleatoria de interés sobre una determinada población

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.

Análisis de Datos Categóricos. Leticia Gracia Medrano

Modelos con variable dependiente limitada

Unidad V: Estadística aplicada

Estadística Inferencial. Sesión 11. Regresión y correlación múltiple

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Modelos para variables categóricas

Regresión lineal simple

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

1 El Análisis de Varianza

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Curso de nivelación Estadística y Matemática

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Objetivo: Proponer modelos para analizar la influencia

Universidad Técnica de Babahoyo INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Guillermo Ayala Gallego Universidad de Valencia

Econometría Aplicada

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i =

Estimación. Diseño Estadístico y Herramientas para la Calidad. Estimación. Estimación. Inferencia Estadística

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación por intervalos

Regresión Lineal Múltiple

Introducción a la regresión ordinal

Tema 7: Introducción a la Teoría sobre Estimación

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Regresión ponderada y falta de ajuste

T3. El modelo lineal básico

Estadística I Tema 7: Estimación por intervalos

EXAMEN DE ECONOMETRÍA

ESTADÍSTICA. Tema 4 Intervalos de confianza

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

Transcripción:

TEMA 4 Regresión logística José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología

Esquema del tema Variable respuesta dicotómica. Ejemplo. El modelo de regresión logística. Estimación e inferencia sobre los parámetros. Salida de SPSS. Aplicación al problema de clasificación.

Variable respuesta dicotómica. Ejemplo. El 4 de julio de 999 una tormenta con vientos que excedían las 90 millas por hora azotó el nordeste de Minnesota, en EE.UU., causando graves daños en los bosques de un parque natural de la zona. Los científicos analizaron los efectos de la tormenta determinando para más de 3600 árboles del parque: Su diámetro en cm (variable D). Una medida de la severidad local de la tormenta relacionada con el porcentaje inerte de área basal de cuatro de las especies (variable S). Una variable que registraba si cada árbol había muerto (y = ) o si había sobrevivido (y = 0). El problema es determinar cómo influyen las dos primeras variables en la tercera. En este ejemplo la variable respuesta es dicotómica.

Variable respuesta dicotómica. Ejemplo. 0 20 40 60 80 Diámetro 0 0.0 0.2 0.4 0.6 0.8.0 S Los árboles que sobreviven tienden a tener un menor diámetro. La fuerza de la tormenta tiende a ser menor en las zonas correspondientes a los árboles supervivientes. Parece que el diámetro y la variable S pueden ser útiles para estimar la probabilidad de supervivencia de un árbol. El modelo de regresión logística relaciona P(Y = ) con un conjunto de variables regresoras.

El modelo de regresión logística Disponemos de n observaciones. Cada observación (Y i, x i,..., x ik ) está formada por el valor de la variable respuesta Y i y un vector de variables regresoras x i = (x i,..., x ik ). Las variables Y,..., Y n son independientes y tienen distribución de Bernoulli. Denotamos p i = P(Y i = x i ). La probabilidad de éxito depende de las variables regresoras. Una relación lineal p i = β 0 + β x i + + β k x ik no es adecuada ( por qué?)

El modelo de regresión logística Suponemos que la relación entre p i y x i viene dada por es decir, p i = + e β 0 β x i β k x ik, p i = F (β 0 + β x i + + β k x ik ), donde F (x) = /( + e x ) es la función logística. F(x) 0.0 0.2 0.4 0.6 0.8.0 6 4 2 0 2 4 6 x

Interpretación de los parámetros del modelo Llamamos O i a la razón de probabilidades para la observación i: O i = p i p i Cómo se interpreta el valor de O i? Qué significa, por ejemplo, O i = 2? Si se cumple el modelo de regresión logística, entonces O i = e β 0+β x i + +β k x ik Cómo varía la razón de probabilidades si la variable regresora x ij se incrementa una unidad? O i O i = eβ0+ +βj (x+)+ +βkxik e β 0+ +β j x+ +β k x ik = e β j. Por tanto e β j es la variación de la razón de probabilidades cuando la variable regresora j se incrementa en una unidad y el resto de variables permanece constante.

Estimación Para estimar los parámetros se usa el método de máxima verosimilitud. Por ejemplo, si observamos los datos x i 2 3 Y i 0 entonces ˆβ 0 y ˆβ son los valores que maximizan la función de verosimilitud L(β 0, β ) = P(Y = 0 x = 2)P(Y = x = )P(Y = x = 3) ( ) ( ) ( ) L(β 0, β ) = + e β 0 2β + e β 0 β + e β 0 3β Es necesario el ordenador para calcular estos valores mediante algún método numérico de optimización.

Ejemplo p i = P(Y i = D i, S i ) = + e β 0 β D i β 2 S i, Resumen del modelo Paso -2 log de la verosimilitud R cuadrado de Cox y Snell R cuadrado de Nagelkerke 3883,256 a,274,366 a. La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de,00. Variables en la ecuación Paso a D S Constante B,097 4,424-3,543 E.T.,005,89,27 Wald 346,022 545,22 774,463 gl Sig.,000,000,000 Exp(B),02 83,42,029 a. Variable(s) introducida(s) en el paso : D, S.

Cuestiones y observaciones Cuál es el valor de ˆβ? Cuál es el error típico de este estimador? Interpreta el valor del estimador anterior. Qué puede significar la nota bajo la tabla que comienza La estimación ha finalizado en el número de iteración 5...? El valor 3883,256 (-2 log de la verosimilitud) corresponde a: 2 log L( ˆβ 0, ˆβ, ˆβ 2 ) = 3883,256 Los coeficientes de Cox-Snell y de Nagelkerke son medidas de la bondad del ajuste del modelo a los datos. Se interpretan de forma similar al coeficiente de determinación.

Intervalos y contrastes sobre los parámetros Los valores ˆβ j β j z j = error típico de β j tienen aproximadamente distribución normal estándar. Intervalo de confianza para β i : IC α (β i ) = [ ˆβ i z α/2 error típico de ˆβ i ]. Intervalo de confianza para e β i : IC α (e β i ) = [exp( ˆβ i z α/2 e.t. de ˆβ i ), exp( ˆβ i + z α/2 e.t. de ˆβ i )].

Intervalos y contrastes sobre los parámetros Bajo H 0 : β i = 0, el estadístico de Wald z i = ˆβ i error típico de ˆβ i tiene aproximadamente una distribución normal estándar. Este valor (elevado al cuadrado) aparece en la columna Wald del cuadro de SPSS. Región de rechazo (con nivel de significación aproximado α) para H 0 : β i = 0: ( ) 2 ˆβ i R = > χ error típico de ˆβ 2 ;α i. El p-valor correspondiente aparece en la columna Sig de la tabla de SPSS.

Ejemplos Calcula un IC de nivel 0,95 para β. Podemos afirmar a nivel 0,0 que el diámetro de los árboles está relacionado con la probabilidad de su supervivencia? Calcula un IC de nivel 0,90 para e β 2

Aplicación al problema de clasificación Problema de clasificación: dado un conjunto de observaciones que se sabe que pertenecen a uno de dos posibles grupos, clasificar una nueva observación cuyo grupo es desconocido. Predecir el valor de Y 0 dada una nueva observación x 0 = (x 0,..., x 0k ) equivale a clasificar x 0 en uno de los dos grupos. Si ˆp 0 es la probabilidad estimada de Y 0 = dado x 0, ˆp 0 = + e ˆβ 0 ˆβ x 0 ˆβ k x 0k, cómo se puede usar el valor ˆp 0 para clasificar x 0? Regla de clasificación: Ŷ 0 = ˆp 0 > /2 ˆβ 0 + ˆβ x 0 + + ˆβ k x 0k > 0.

Ejemplo En el ejemplo, clasificamos un árbol como no superviviente (Ŷ 0 = ) si las correspondientes variables D 0 y S 0 verifican 3,543 + 0,097 D 0 + 4,424 S 0 > 0 En qué grupo clasificarías un árbol cuyo diámetro es 20 cm y está situado en una zona en la que la tormenta ha tenido una fuerza S=0.3? En la figura siguiente se representan los pares (D i, S i ) en color rojo (no supervivientes) o color verde (supervivientes) junto con la recta que divide las zonas en las que un nuevo árbol se clasifica como superviviente o no superviviente.

Ejemplo S 0.0 0.2 0.4 0.6 0.8.0 20 40 60 80 Diam