Análisis de datos Categóricos

Documentos relacionados
Guillermo Ayala Gallego Universidad de Valencia

Análisis de datos Categóricos

Análisis de datos Categóricos

Análisis de datos Categóricos

Regresión Logística usando R

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Cálculos de Regresión Logística en R, Caso de una covariable.

Análisis de datos Categóricos

Regresión Lineal Simple y Múltiple Regresión Logística

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Tema 10: Introducción a los problemas de Asociación y Correlación

Estadística Bayesiana

Estimación de Parámetros.

Análisis de Datos Categóricos. Leticia Gracia Medrano

1. Modelos para conteos

ANÁLISIS DE REGRESIÓN


TEMA 5. Modelos para Datos de Conteo

Modelos lineales generalizados

TEMA 4 Regresión logística

Tema 4. Regresión lineal simple

Anomalías en regresión y medidas remediales

Estadística Bayesiana

Modelo de Regresión Lineal Simple

T2. El modelo lineal simple

Tema 8: Regresión y Correlación

Estadística aplicada al medio ambiente

TEMA 4 Modelo de regresión múltiple

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

TEMA 10 Correlación y regresión. El modelo de regresión simple

Estadística Computacional. M. González

Estimación del modelo lineal con dos variables

Contrastes basados en el estadístico Ji Cuadrado

Muestreo e intervalos de confianza

Regresión Lineal Múltiple

ESTADÍSTICA. Tema 4 Regresión lineal simple

Modelos para variables categóricas

Prácticas Tema 4: Modelo con variables cualitativas

Estadística Descriptiva II: Relación entre variables

Índice. Diseños factoriales. José Gabriel Palomo Sánchez E.U.A.T. U.P.M. Julio de 2011

Regresión logística bivariable para tablas de contingencia usando metodología GSK.

Curso de nivelación Estadística y Matemática

Curso online de Supervivencia y Regresión Lineal, Logística y de Cox 2018

TEMA 2: Propiedades de los estimadores MCO

Análisis de datos Categóricos

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

MODELOS LINEALES GENERALIZADOS

Modelos Lineales Generalizados

2. ESTADÍSTICA DESCRIPTIVA 15 Estadística descriptiva.. Variables aleatorias Descripción de variables cuantitativas

Análisis estadístico de los factores de riesgo que influyen en la enfermedad Angina de Pecho. Flores Manrique, Luz CAPÍTULO IV ANALISIS DE LOS DATOS

INDICE. Prólogo a la Segunda Edición

Tema1. Modelo Lineal General.

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

g(e (y)) = α + β 1 x β k x k

TEMA 2 Diseño de experimentos: modelos con varios factores

Regresión ponderada y falta de ajuste

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

Estadística Bayesiana

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Modelo de Regresión Lineal

5.5 Modelo de regresión. se especificó en los términos siguientes: (6.3.1) 1,2,3,..N. Donde:

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas

MODELO DE REGRESIÓN LOGÍSTICA

T3. El modelo lineal básico

El modelo de regresión múltiple

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Econometría Aplicada

Modelos con variable dependiente limitada

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Overfit, cross validation y bootstrap

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Regresión lineal simple

Econometría Universidad Carlos III de Madrid Examen Extraordinario 25 de Junio de Pr (N (0, 1) > 1, 282) = 0, 10

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Capítulo 8. Selección de variables Introducción

Introducción a la regresión ordinal

Estimación Máxima Verosimilitud

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

Regresión Simple. Leticia Gracia Medrano. 2 de agosto del 2012

Métodos Estadísticos Multivariados

Transcripción:

Regresión logística Universidad Nacional Agraria La Molina 2014-2

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Introducción Para una variable aleatoria respuesta Y y una variable explicativa X, sea: π (x) = Pr (Y = 1 X = x) = 1 Pr (Y = 0 X = x) El modelo de regresión logística es: que es equivalente a: π (x) = log exp {α + βx} 1 + exp {α + βx} π (x) 1 π (x) = α + βx

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Interpretación de parámetros El signo del coeciente β determina si π (x) aumenta o disminuye conforme x aumenta. Si β = 0 entonces Y es independiente de X. El odds se incrementa de forma proporcional a e β por cada unidad adicional en x. El parámetro α no suele ser de mayor interés. Si π (x) = 1/2 entonces x = α/β. El valor anterior es llamado LD50 y corresponde a la dosis con un 50 % de posibilidades de tener resultados letales.

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Gracando las proporciones Antes de estimar el modelo hay que observar la data para vericar si el modelo de regresión logístico es apropiado. Resulta útil gracar las proporciones muestrales p i = y i /n i versus x. El logit muestral i es: log Una alternativa es usar: p i 1 p i = log log y i n i y i y i + 1/2 n i y i + 1/2

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Ejemplo: Cangrejo de herradura Se considera nuevamente la data correspondiente al número de satélites del cangrejo hembra de herradura. La variable respuesta binaria es Y = 1 si el cangrejo hembra tiene al menos un satélite y Y = 0 si no tiene satélites. La variable explicativa X es el ancho del caparazón del cangrejo hembra. El modelo logístico estimado es: ˆπ (x) = exp { 12,351 + 0,497x} 1 + exp { 12,351 + 0,497x}

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Ejemplo: Cangrejo de herradura Figura 1: Proporciones estimadas y observadas

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Inferencia Para el modelo con un solo predictor: log π (x) 1 π (x) = α + βx las pruebas de signicancia se enfocan en H 0 : β = 0, la hipótesis de independencia. Se pueden utilizar la prueba de Wald, scores y razón de verosimilitud. Para muestras grandes las tres pruebas anteriores dan resultados similares.

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Inferencia Los intervalos de conanza suelen ser más ecientes. El intervalo de Wald es: ˆβ ± z 1 α/2 EE( ˆβ) Un intervalo de conanza para logitπ(x 0 ) es: ˆα + ˆβx 0 ± z 1 α/2 EE(ˆα + ˆβx 0 ) donde EE es la raíz cuadrada de: Var(ˆα + ˆβx 0 ) = Var(ˆα) + Var( ˆβx 0 ) + 2x 0 Cov(ˆα, ˆβ)

Regresión logística simple Interpretación de parámetros Gracando las proporciones Inferencia Ejemplo: Cangrejo de herradura Modelo 1 > Cangrejo <- read.table(le="g://cangrejo.txt", header=t) > attach(cangrejo) > Sat <- ifelse(sat>0, 1, 0) > modelo1 <- glm(sat ~ Ancho, family=binomial(link=logit)) Matriz de varianza-covarianza > vcov(modelo1)

El modelo general de regresión logística es: ( ) πi log = x T i β 1 π i La devianza es: D = 2 N i=1 [ y i log ( yi ŷ i ) ( ni y i + (n i y i ) log n i ŷ i )] y tiene la forma: D = 2 o i log o i e i i

Las frecuencias observadas o i son y i y n i y i, mientras que las frecuencias esperadas e i son: ŷ i = nˆπ i y n i ŷ i obtenidas usando el modelo estimado. La prueba de bondad de ajuste del modelo puede ser llevada a cabo usando la aproximación: D χ 2 N p donde N es el número de datos y p el número de parámetros a estimar en el modelo.

Ejemplo: Diabetes Se tiene información proveniente de un estudio con 768 pacientes mujeres del Instituto Nacional de enfermedades Digestivas, Diabetes y de Riñón. Las variables independientes involucradas son: número de embarazos, concentración de glucosa en plasma en una prueba de tolerancia oral (mmol/l), presión arterial diastólica (mmhg), grosor del pliegue del tríceps (mm), suero de insulina en dos horas (muu/ml), índice de masa corporal, función pedigrí de diabetes, edad (años). La variable respuesta diabetes cuyo valor 1 es interpretado como prueba de diabetes positiva.

Ejemplo: Diabetes Modelo 1 > modelo1 <- glm(diabetes ~., family=binomial(link=logit), data=diabetes) Modelo 2 > modelo2 <- glm(diabetes ~ Embarazos + Plasma + Presion + Indice + Pedigri, family=binomial(link=logit), data=diabetes) Modelo 1 versus Modelo 2 > anova(modelo2, modelo1, test="chisq")

El estadístico chi-cuadrado de Pearson es: X 2 = N i=1 (y i n i ˆπ i ) 2 n i ˆπ i (1 ˆπ i ) χ2 N p Si y es 0 o 1 entonces X 2 y D no proporcionan una medida de bondad de ajuste que sea apropiada. Lo anterior también podria ocurrir si las variables explicativas son continuas. En cualquiera de estas situaciones es preferible usar el estadístico de Hosmer y Lemeshow (1980).

La idea es agrupar las observaciones en categorías de acuerdo a las probabilidades estimadas usando g grupos cada uno con aproximadamente la misma cantidad de observaciones. Con 10 grupos, el primer grupo de conteos observados y sus correspondientes conteos estimados esta formado con las n/10 observaciones con las probabilidades más altas y así sucesivamente. El valor estimado es la suma de las probabilidades estimadas en cada grupo. Sea y ij la observación j en el grupo denido por la partición i, i = 1, 2,, g y j = 1, 2,, n i.

Sea ˆπ ij las probabilidades estimadas con la data no agrupada. El estadístico de Hosmer y Lemeshow es: X 2 HL = g i=1 ( j y ij j ˆπ ij) 2 ( ( ( ) ) j ij) ˆπ 1 j ˆπ ij /n i cuya distribución es aproximadamente chi-cuadrado con g 2 grados de libertad. Si el valor es grande puede ser evidencia de una falta de ajuste en el modelo.

Es posible comparar el logaritmo de la verosimilitud del modelo estimado y el modelo minimal que es aquel donde todas las probabilidades son iguales. Sea ˆπ i las probabilidades estimadas para y i bajo el modelo de interés. La estadística chi-cuadrado de razón de verosimilitud es: Otra estadística usada es: C = 2 (l(ˆπ, y) l( π, y)) χ 2 p pseudo R 2 = l( π, y) l(ˆπ, y) l( π, y)

de Pearson El residual de Pearson es: p k = y k n k ˆπ k nk ˆπ k (1 ˆπ k ) k = 1, 2,, m tal que X 2 = p 2 k. El residual estandarizado de Pearson es: r pk = p k (1 hk ) donde h k es el leverage obtenido de la matriz hat.

de Devianza Los residuales de Devianza son: { [ ( ) yk d k = signo(y k n k ˆπ k ) 2 y k log n k ˆπ k ( )]} nk y k +(n k y k ) log n k n k ˆπ k donde D = d 2 k. Los residuales estandarizados de Devianza son: r dk = d k (1 hk )

Residual de Pearson > res.pearson <- resid(modelo2, type="pearson") Residual estandarizado de Pearson > res.est.p <- res.pearson/sqrt(1-lm.inuence(modelo2)$hat) Residual de Devianza > res.devianza <- resid(modelo2, type="deviance") Residual estandarizado de Devianza > res.est.d <- res.devianza/sqrt(1-lm.inuence(modelo2)$hat)