1. Modelos para conteos

Documentos relacionados
Análisis de datos Categóricos

Análisis de Datos Categóricos. Leticia Gracia Medrano

Guillermo Ayala Gallego Universidad de Valencia

Modelos lineales generalizados

Regresión Lineal Múltiple

Análisis de datos Categóricos

Modelos Lineales Generalizados

Análisis de datos Categóricos

(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1)

TEMA 5. Modelos para Datos de Conteo

Regresión de Poisson. Microeconomía Cuantitativa. R. Mora. Departmento de Economía Universidad Carlos III de Madrid

Análisis de datos Categóricos

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Percentiles. El percentil p de una variable aleatoria X es número más pequeño, que denominaremos x u que cumple:

ANÁLISIS DE REGRESIÓN

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

MODELOS LINEALES GENERALIZADOS

El Bootstrap paramétrico y no parametrico y su aplicación en los modelos log-lineal Poisson

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

5 Estudios de simulación

Cálculos de Regresión Logística en R, Caso de una covariable.

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como:

Tema1. Modelo Lineal General.

Modelos de suavizado, aditivos y mixtos

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Prueba de Hipótesis. Para dos muestras

Estudio en bloques completos vía regresión Poisson en presencia de sobredispersión. Ana María Torres Blanco


Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s.

Universidad Autónoma de Sinaloa

Regresión lineal simple

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Otra medida alternativa para la distancia entre ˆπ y p muy usada es la deviance. Λ= máx ω. Si queremos testear. el cociente estaría dado por

Inferencia en tablas de contingencia

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

CAPÍTULO 5 DISTRIBUCIONES TEÓRICAS

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:

Econometría Aplicada

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 8: Regresión y Correlación

Estimación de Parámetros.

1. Modelos Loglineales tablas de 2 entradas

Estadística Computacional. M. González

EXAMEN DE ECONOMETRÍA

Análisis de datos Categóricos

Definición Una hipótesis es una afirmación acerca de un parámetro.

INDICE. Prólogo a la Segunda Edición

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Selección de distribuciones de probabilidad

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

Estadística Diplomado


MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Modelo de Regresión Lineal

Lista de Ejercicios (Parte 1)

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística

DEPARTAMENTO DE MATEMÁTICAS Página 1

Introducción a la regresión ordinal

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estadística aplicada al medio ambiente

Regresión Lineal Simple y Múltiple Regresión Logística

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

INDICE. Capitulo Uno.

Regresión logística bivariable para tablas de contingencia usando metodología GSK.

Práctica 10: Introducción a Modelos Lineales Generalizados.

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Regresion lineal simple

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

Sesión 8 - Modelos con datos de conteo

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

C L A S E N 5 I N S E M E S T R E O T O Ñ O,

Elementos de probabilidad e inferencia estadística en el seguro

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Regresión ponderada y falta de ajuste

Tema 4. Intervalos de confianza. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 1

Prefacio... xvii. 1 La imaginación estadística... 1

INDICE Capitulo uno Introducción y estadísticas descriptiva Capitulo dos Conceptos en probabilidad Capitulo tres

TEMA 4 Regresión logística

UNIVERSIDAD DE ATACAMA

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Cálculo de Probabilidades II Preguntas Tema 2

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Modelo lineal general (K variables)

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas

Estadística Bayesiana

TEMA 4 Modelo de regresión múltiple

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Esperanza Condicional

Tema 6. Estimación puntual

Estadística II Ejercicios Tema 5

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

TEMA 10 Correlación y regresión. El modelo de regresión simple

Econometría III Examen. 29 de Marzo de 2012

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Transcripción:

1. Modelos para conteos En esta sección se modelarán conteos, que resultan de diversas situaciones, por ejemplo: el número de accidentes en una carretera, el número de caries que tiene una persona, el número de quejas por cierto servicio, etc. Comunmente la distribución Poisson P o(µ) se utiliza para modelarlos, cuya función de densidad es: f(y) = µy exp µ, y = 0, 1, 2,..., y! µ representa la media de las ocurrencias. Esta distribución tiene como característica que E(y) = µ = V ar(y), esto significa que si la media crece (decrece) la varianza crece (decrece) también. A menudo µ se representa a través de una tasa, por ejemplo el número promedio de consumidores que compra un producto de cada 100 que entran a la tienda; µ puede definirse de varias formas, por ejemplo pensando en en el caso de accidentes en motocicleta, ésta puede definirse como el número de accidentes por cada 1000 de población, o como el número de accidentes por cada 1000 personas tienen licencia de manejo, o como el número de accidentes por cada 1000 vehículos automotores, etc. Otro ejemplo es el de conteo de ciclones, debe especificarse la temporada, es decir el tiempo de exposición. Para evitar confusiones es muy importante indicar en cada caso claramente el nivel de exposición. En general se tienen dos tipos de situaciones, la primera en la que al modelar µ debe tomarse en cuenta los distintos niveles de exposición y que las variables explicativas podrán ser categóricas o continuas y entonces es que se utilizan los modelos de Regresión Poisson; la segunda, en la que el nivel de exposición es el mismo para todos y las variables explicativas son categóricas, de manera que la información puede resumirse en una tabla de contingencia, en este caso se usan los modelos Loglineales. 1.1. Regresión Poisson En este caso las variables Y 1, Y 2,..., Y N son independientes, cada Y i representa el número de eventos ocurridos de un total de expuestos n i con cierto patrón de covariables i. La esperanza de Y i puede expresarse como E(Y i ) = µ i = n i θ i 1

Qué representa la n i?, por ejemplo si Y i es el número de robos para cierto modelo y marca de coche en una compañía de seguros, es obvio pensar que el número de siniestros depende del número n i de pólizas vendidas para ese tipo de coche, además se tienen otras variables que afectan la tasa de ocurrencia θ i como pueden ser, la antigüedad del coche, zona dónde es usado, si se guarda en cochera, etc. La dependencia de la tasa de ocurrencia de las variables explicativas es de la forma: θ i = exp x i β el modelo de regresión Poisson es de la forma: E(Y i ) = µ i = n i exp x i β ; donde x i es el i ésimo renglón de la matriz X, al sacar logaritmo de ambos lados se tiene: log(µ i ) = log(n i ) + x iβ A log(n i ) se le conoce como offset, que es una constante conocida que especifica los diferentes niveles de exposición y se incorpora en la estimación de los parámetros. 1.2. Interpretación de los parámetros En el caso mś sencillo, cuando se tiene una sola variable explicativa binaria, en donde x j = 1 indica presencia del atributo j, entonces la razón de tasas (rate ratio) RR para comparar la presencia del atributo versus la ausencia del mismo es: RR = µ j1 µ j0 = E(Y i x j = 1) E(Y i x j = 0) = expβ j desde luego que se hizo permanecer el resto de las variables explicativas iguales para ambos niveles de x j. En este modelo la interpretación de los parámetros β es en función de la razón de tasas de ocurrencia RR por sus siglas en inglés Rate Ratio y NO del cociente de momios OR ni tampoco riesgo relativo. Algo muy similar ocurre si se considera ahora una variable continua x k, entonces al incrementar en una unidad esta variable, repercutirá en un efecto multiplicativo de tamaño exp β k sobre la tasa µ. 2

1.3. Distribución de los parámetros Igual que para el modelo logístico ocurre que ˆβ j β j s.e( ˆβ j ) se distribuye aproximadamente como N(0, 1), esta estadística es la utilizada para pruebas de hipótesis y para construir intervalos de confianza. 1.4. Residuales El valor esperado de ocurrencias del evento está dado por: Ŷ = ˆµ i = n i exp(x i ˆβ) = e i Se definen los residuales de Pearson como: r i = o i e i (ei ), i = 1,..., n estos tienen una distribución asintótica normal N(0, 1) y por tanto X 2 = (o i e i ) 2 e i tiene una distribución asintótica Ji cuadrada con n p grados de libertad. Los residuales estandarizados, toman en cuenta la posición del dato dentro de la nube de datos a través de la cantidad h i : r i = o i e i (ei ) (1 h i ), donde h i es el i-ésimo elemento de la diagonal de H = X (X X) 1 X. Los residuales deviance: [ d i = signo(o i e i ) 2 o i log( o ] i ) (o i e i ), e i llamados así por su contribución a la Deviance: D = 2 [ ( ) ] oi o i log (o i e i ) = d 2 i, e i 3

cuya distribución es asintóticamente Ji cuadrada con n p grados de libertad. En estos modelos la X 2 y D se usan directamente como medidas de carencia de ajuste del modelo. 1.5. Sobredispersión Hay ocasiones en que no se logra que el modelo ajuste bien a los datos, esto ocurre generalmente por dos motivos Cuando el modelo no está bien especificado, es decir hay variables predictoras que no se han incluído en el modelo, o que hay relaciones no lineales. Cuando existe sobredispersión, E(y) < V ar(y) 1.5.1. Modelo Quasipoisson Suponiendo que se modelo bien la parte sistemática, se puede relajar la condición E(y) = V ar(y) y hacer que V ar(y i η i ) = φµ i, cuando φ < 1 se tiene baja-dispersión y si φ > 1 se tiene sobredispersión, hacer esto lleva al modelo conocido como Quasipoisson Para usar este modelo se requiere una estimación previa de φ, un posible estimador es: ˆφ = n i=1 (y i ˆµ i ) 2 ˆµ i n p El modelo entonces tiene los mismos coeficientes que el modelo Poisson, peron la inferencia se ajusta por la sobredispersión. Los errores estandar de los coeficientes se multiplican por φ 1/2. En R esto se hace usando family=quasipoisson 1.5.2. Modelo con distribución Binomial Negativa La distribución Binomial Negativa es una generalización de la Poisson que permite la sobredispersión. En esta distribución E(y i ) = µ i y V ar(y i ) = µ i + µ 2 i /θ = µ i + αµ 2 i y cuando α 0, V ar(y i ) µ i, esto es la Binomial Negativa tiende a la Poisson. 4

Si la θ se conoce, en R se puede usar glm especificando por ejemplo family=negative.binomial(theta=1). Pero la mayoría de las veces no se conoce y entonces no es un caso de glm, pero se puede estimar por máxima verosimilitud tanto a las β s y como a θ con glm.nb() del paquete MASS. 1.5.3. Exceso de ceros Hay ocasiones en que hay demasiados ceros, que propician un mal ajuste, por ejemplo en estudios de servicios de salud encuentran que mucha gente NUNCA acude al hospital en un periodo dado, en el caso de seguros, hay muchos asegurados que no presentan reclamaciones en el año, esto puede explicarse por el pago de deducible. Dos son los modelos que veremos que lidian con el exceso de ceros. Modelo ZIP por sus siglas en inglés Zero Inflated Poisson. Este modelo supone que los conteos surgen de una mezcla de dos clases de observaciones: los ceros estructurales que siempre y i = 0 y el resto de conteos y i que ocasionalmete tomara el valor de cero. Este modelo tiene dos componentes 1. Un modelo para el evento binario que define si pertenece a los ceros o no. Es un modelo logístico para la probabilidad π i de pertenecer a los ceros, con variables predictoras z 1, z 2,... z q logit(π i ) = γ 0 + γ 1 z i1 + γ 2 z i2 +... + γ q z iq 2. Un modelo Poisson para la otra clase, que pueden ser conteos ceros o positivos, con variables predictoras x 1, x 2,... x p Se puede mostrar que log(µ(x i )) = β 0 + β 1 x i1 + β 2 x i2 +... + β p x ip P (y i = 0 x, z) = π i + (1 π i )e µ i [ µ y i ] i P (y i x, z) = (1 π i ) e µ i, y i 0 y i! Modelo Hurdle tiene un proceso que genera y i = 0 y otro que genera y i 1. P (y i = 0 x, z) = π i, y i = 0 5

P (y i x, z) = ψ [f 2 (y i )] = 1 f [ 1(0) µ y i i e µ i 1 f 2 (0) y i! ] = (1 π [ i) µ y i 1 e µ i i e µ i y i! En este caso la valla es uno, primero se presenta la probabilidad de no pasar la valla y después la probabilidad de que el conteo sea mayor o igual a uno, ψ es la probabilidad de pasar la valla. ], y i 0 6