Statisticians, like artists, have the bad habit of falling in love with their models. George Box

Transcripción

1 Statisticians, like artists, have the bad habit of falling in love with their models. George Box

2 /R/glms.htm *

3

4

5

6

7

8

9

10

11

12

13

14

15 Los ajustes de µ i se calculan mediante g 1 p ( j=1 β jx jj ), una vez estimados los parámetros del vector β, los cuales se estiman por máxima verosimilitud. Para valorar el ajuste en los modelos lineales generalizados podemos utilizar estadísticos basados en la deviance, que es una generalización del Error Cuadrático Medio. El ECM es una medida popular de medir el error, 1 N 1=1, N (y i µ i ) 2 que también se puede calcular con su versión utilizando los residuos de Pearson: r p = (y i µ i ) vvv(µ i )

16 El problema del Error Cuadrático Medio como medida de bondad de ajuste reside en que siempre decrece con la complejidad (número de parámetros, p) del modelo, a pesar de poder no existir ganancia significativa con un modelo más complejo. Los métodos de ajuste buscan minimizar discrepancias y se adaptan a los datos utilizados. De hecho, con suficientes parámetros el ECM es nulo, y el modelo carece de valor como herramienta predictiva o explicativa, simplemente reproduce los datos utilizados para el ajuste. Por ello para comparar entre modelos se suelen utilizar, para valorar la ganancia de introducir más complejidad en la modelización, los estadísticos AIC y BIC; o el estadístico Chi-cuadrado, que se define como la diferencia de deviances entre los modelos de comparación. Es típico comparar el modelo de interés con el llamado modelo nulo de o mínima parametrización.

17 Deviance: 2 log. vvvvvvvvvvvvv AIC: BIC: 2 log. vvvvvvvvvvvvv + 2 p SELECCIÓN DE MODELOS 2 log. vvvvvvvvvvvvv + p llll BIC tiende a penalizar más los modelos complejos y con N (>9) elevado suele favorecer modelos simples. Por qué las definiciones anteriores de Deviance, AIC y BIC? Pues porque con respuesta Gaussiana, y asumiendo desviación típica conocida, se verifica: N 2 log. vvvvvvvvvvvvv = (y i µ i ) 2 1=1

18 Tarea-5 Tarea-1

19 Tarea-1

20 Tarea-1

21 Tarea-1

22 Tarea-1 /dat a.pri ncet on.e du/r/ glms.htm

23 Tarea-1

24 Tarea-1 3

25 Tarea-1 Un conjunto de pequeñas mutuas aseguradoras del sector del automóvil tienen franquiciada con una reaseguradora las reclamaciones por responsabilidad civil que superan determinado importe. En la base de datos asociada, se recoge información sobre la zona de circulación preferente (Zona: Area1: Nada lluviosa; Area2: Algo lluviosa; Area3: Bastante lluviosa; Area4: Muy lluviosa), la franja de negocio (además de particulares) donde opera la mutua (Tipo: 1: Profesionales y Empresas; 2: Profesionales o Empresas; 3: Sólo particulares), el Volumen de las primas percibidas, el número de reclamaciones (Claims) que superaron el importe franquiciado en el último mes y el número de Polizas suscritas. dataset<- read.csv(file=" sep=";") names(dataset) table(dataset$claims) Vamos a estudiar el efecto de los distintos factores en el número de reclamaciones que el reasegurador recibe de cada mutua.

26 Tarea-1 La variable respuesta es el número de reclamaciones. Claims. Un posible predictor (quizás el más obvio) podría ser el Volumen de las primas pagadas; ya que es un indicador del tamaño del riesgo transferido a la reaseguradora. La figura muestra el valor de la variable respuesta frente al predictor, con el número de observaciones en cada punto como símbolos). Existe relación? # Figura Datos1 <- as.data.frame(table(dataset$claims,dataset$volumen)) Datos1 <- as.data.frame(apply((datos1[datos1$freq!=0, ]), 2, as.numeric)) with(datos1, plot(var2, Var1, type = "n", xlab="volumen primas", ylab="numero de reclamaciones")) points(datos1$var2, Datos1$Var1, pch=as.character(datos1$freq))

27 Tarea-1 Para disponer de una visión más nítida de la posible relación entre estas variables agrupamos la variable Volumen en categorías. ( 23.25, , , , , , , >30.25) cortes = c(-inf, 23.25, 24.25, 25.25, 26.25, 27.25, 28.25, 29.25, 30.25, Inf) Grupo <- cut(datos1$var2, cortes) media.claims <- tapply(datos1$var1, Grupo, mean) media.vol <- tapply(datos1$var2, Grupo, mean) plot(media.vol, media.claims, pch=19, xlab="volumen primas", ylab="numero de reclamaciones", ylim=c(0,6), xlim=c(22,32))

28 Tarea-1 La estimación del modelo por MV y link canónico aporta el siguiente resultado: Variable Coeficiente Error std. p-value (Intercept) e-09 *** Volumen < 2e-16 *** Modelo.log <- glm(claims ~ Volumen, data= dataset, family=poisson) summary(modelo.log) # Efecto multiplicativo La estimación del modelo por MV con link identidad aporta el resultado: Variable Coeficiente Error std. p-value (Intercept) <2e-16 *** Volumen <2e-16 *** Modelo.id <- glm(claims~volumen, data= dataset, family=poisson(link=identity),start=coef(modelo.log)) summary(modelo.id) # Efecto lineal Qué modelo sería preferible en este caso? AIC(Modelo.log) = AIC(Modelo.id) =

29 Tarea-1 plot(x=media.vol, y=media.claims, xlab="volumen primas", ylab=expression(paste("numero medio de reclamaciones: ", {lambda})),bty="l", type="p", pch=16) ind<-order(dataset$volumen) lines(x= dataset$volumen[ind], y=modelo.log$fitted.values[ind]) lines(x= dataset$volumen[ind], y=modelo.id$fitted.values[ind]) arrows(x0=23.5,y0=2.9,x1=23.5,y1=predict(modelo.log,newdata=data.frame(volumen=23.5), type="response"), length=.2) text(x=23.5,y=3,"log Link") arrows(x0=29.75,y0=3.1,x1=29.75,y1=predict(modelo.id,newdata=data.frame(volumen=29.75), type="response"), length=.2) text(x=29.75,y=2.9,"identity Link")

30 Es la respuesta Poisson adecuada? Los datos presentan sobredispersión (en Poisson media y varianza coinciden): tapply(datos1$var1, Grupo, function(x) c(length(x), sum(x), mean=mean(x), variance=var(x))) Possible solución: respuesta Binomial Negativa. Especificación Tarea-1 Volumen Nº Mutuas Reclamaciones Media Varianza >

31 Como alternativa los datos podrían ser ajustados utilizando como variable respuesta un modelo Binomial Negativo en lugar de uno Poisson: library(mass); Modelo.bn <- glm.nb(claims ~ Volumen, data=dataset) Especificación Tarea-1 Variable Coeficiente Error std. p-value (Intercept) *** Volumen e-05 *** glm.nb(claims ~ Volumen, data=dataset, link=identity, start = coef(modelo.id), init.theta=1) Obteniéndose un mejor ajuste global, como muestra el AIC ( vs ).

32 T A R E A 1 Especificación Tarea-1 Considera la muestra de asegurados disponible en el fichero Omitiendo el hecho de los diferentes períodos de exposición al riesgo de cada póliza, modeliza la variable numerosi utilizando como modelo para la variable respuesta un modelo discreto de conteo de datos, en el que el valor esperado dependa al menos de algunos de los siguientes factores de riesgo: o Del conductor: Sexo (sexocondu), Edad (edad) y Zona de circulación (prov/ccaa); o Del vehículo: Potencia (potencia), Antigüedad del vehículo (antivehi). Discretiza las variables utilizando los puntos de corte y el número de categorías que estimes oportuno en cada caso. (i) Realiza una tabla con las predicciones de número de siniestros que predecirías para un conductor con cada uno de los perfiles que se obtienen combinando todas las categorías de las variables. (Es decir, opten la base de una tarifa). (ii) Interpreta el efecto de las variables en el número de siniestros. (iii) Si has testeado varios modelos con distintos modelos para la variable respuesta, razona cual piensas debería ser utilizado. Para ampliar lo visto en clase te sugiero consultes el documento: Regression Models for Count Data in R,

33 Tarea-2

34 Tarea-2 Al contrario que el modelo lineal de probabilidad, el modelo de regresión logística (probit) permite que el ratio de cambio sobre la probabilidad (el impacto) varíe cuando varían los valores de los predictores.

35 Tarea-2

36 Tarea-2

37 Tarea-2 Aceptación producto Frecuencia

38 Tarea-2

39 Tarea-2

40 Tarea-2

41 Tarea-2 Retomamos el ejemplo de las mutuas y vamos a estudiar, como variable respuesta, si una mutua realiza o no reclamaciones en un mes cualquiera (variable dicotómica) y a estudiar los factores que explican la probabilidad de hacerlo.

42 Tarea-2 dataset <- read.csv(file=" sep=";") dataset$siclaims <- as.numeric(dataset$claims>0) Datos1 <- as.data.frame(table(dataset$siclaims,dataset$volumen)) Datos1 <- as.data.frame(apply((datos1[datos1$freq!=0, ]), 2, as.numeric)) with(datos1, plot(var2, Var1, type = "n", xlab="volumen primas", ylab="proporción reclamaciones")) points(datos1$var2, Datos1$Var1, pch=as.character(datos1$freq)) cortes = c(-inf, 23.25, 24.25, 25.25, 26.25, 27.25, 28.25, 29.25, 30.25, Inf) Grupo <- cut(datos1$var2, cortes) media.claims <- tapply(datos1$var1, Grupo, mean) media.vol <- tapply(datos1$var2, Grupo, mean) points(media.vol, media.claims, pch=19, cex = 0.8, col="darkmagenta") fit.logit <- glm(siclaims ~Volumen, data=dataset, family=binomial) fit.probit <- glm(siclaims ~Volumen, data=dataset, family=binomial("probit")) fit.lm <- glm(siclaims ~Volumen, data=dataset) fit.lm2 <- glm(media.claims ~ media.vol, weights= as.vector(table(grupo))) ind<-order(dataset$volumen) points(dataset$volumen[ind], y=fit.logit$fitted.values[ind], type="l", col="red", lty=3, lwd=1.2) points(dataset$volumen[ind], y=fit.probit$fitted.values[ind], type="l", col="blue", lty=2, lwd=1.2) points(dataset$volumen[ind], y=fit.lm$fitted.values[ind], type="l", col="green", lty=1, lwd=2) abline(fit.lm2, col="yellow", lty=4, lwd=2) legend("bottomright", c("logit","probit","lineal", "Lineal.Av"), col=c("red","blue","green", "yellow"), lty=c(3,2,1,4), lwd=c(1.2,1.2,2,2), bty = "n")

43 Tarea-2 Hasta ahora se ha utilizado un único predictor. Obviamente los modelos anteriores pueden ser computados con múltiples predictores. Por ejemplo, incluyendo Zona (factor con 4 niveles) se obtiene: fit.logit2 <- glm(siclaims ~ Volumen + Zona, data=dataset, family=binomial) summary(fit.logit2) Variable Coeficiente Error std. p-value (Intercept) e-05 *** Volumen e-06 *** ZonaArea ZonaArea ZonaArea new.base1 <- data.frame(volumen = seq(20,34,0.1), Zona=rep("Area1",141)) new.base2 <- data.frame(volumen = seq(20,34,0.1), Zona=rep("Area2",141)) new.base3 <- data.frame(volumen = seq(20,34,0.1), Zona=rep("Area3",141)) new.base4 <- data.frame(volumen = seq(20,34,0.1), Zona=rep("Area4",141)) with(datos1, plot(var2, Var1, type = "n", xlab="volumen primas", ylab="proporción estimada")) lines(seq(20,34,0.1), predict(fit.logit2, new.base1, "response"), col="red") lines(seq(20,34,0.1), predict(fit.logit2, new.base2, "response"), col="blue") lines(seq(20,34,0.1), predict(fit.logit2, new.base3, "response"), col="brown") lines(seq(20,34,0.1), predict(fit.logit2, new.base4, "response"), col="yellow") legend("bottomright", c("area1","area2","area3", "Area4"), col=c("red","blue","brown","yellow"), lty=c(1,1,1,1), bty = "n")

44 Tarea-2 El efecto de los factores (variables dummies) es desplazar las curvas estimadas, al igual que en el modelo lineal se manifestaba en una modificación del intercepto.

45 Tarea-2 Qué variables incluir? Cómo seleccionar el modelo? Nos restringimos a modelos con efectos principales e interacciones. dataset$tipo <- as.factor(dataset$tipo) Modelos Diferencia de Modelo Predictores Deviance df AIC comparados Deviance 1 Z*T*V Z*T + Z*V + T*V (2)-(1) 3.2 (df=3) 3a Z*T + T*V (3a)-(2) 3.7 (df=3) 3b Z*V + T*V (3b)-(2) 7.9 (df=6) 3Z Z*T + Z*V (3c)-(2) 0.0 (df=2) 4a T + Z*V (4a)-(3c) 8.0 (df=6) 4b V + Z*T (4b)-(3c) 3.9 (df=3) 5 Z + T + V (5)-(4b) 9.0 (df=6) 6a Z + T (6a)-(5) 22.2 (df=1) 6b T + V (6b)-(5) 7.8 (df=3) 6Z Z + V (6c)-(5) 0.8 (df=2) 7a Z (7a)-(6c) 24.5 (df=1) 7b V (7b)-(6c) 7.0 (df=3) 8 Ninguno (8)-(7b) 31.3 (df=1) fit.logit5 <- glm(siclaims ~ Volumen + Zona + Tipo, data=dataset, family=binomial) fit.logit4b <- glm(siclaims ~ Volumen + Zona * Tipo, data=dataset, family=binomial) anova(fit.logit5, fit.logit4b); pchisq(9.0153,6)

46 T A R E A 2 Especificación Tarea-2 Considera la muestra de asegurados disponible en el fichero Teniendo en cuenta el hecho de los diferentes períodos de exposición al riesgo de cada póliza (weights), modeliza la variable dicotómica siniestro (=1, ha dado parte de algún siniestro; =0 no ha dado parte de ningún siniestro), utilizando para la variable respuesta un modelo dicotómico en el que la probabilidad de sufrir un siniestro dependa al menos de las siguientes factores: o Del conductor: Sexo (sexocondu), Edad (edad) y Zona de circulación (prov/ccaa); o Del vehículo: Potencia (potencia), Antigüedad del vehículo (antivehi). Realiza el ajuste utilizando el link canónico y el link probit. Discretiza las variables utilizando los puntos de corte y el número de categorías que estimes oportuno en cada caso. (i) Realiza una tabla con las predicciones de probabilidad de sufrir al menos un siniestro que correspondería a un conductor con cada uno de los perfiles que se obtienen combinando todas las categorías de las variables. (ii) Elabora la tabla para cada modelo y razona cual piensas debería ser utilizado.

47 Comandos en software conocido glm, vglm, gamlss, glmnet, pscl, OTRO SOFTWARE: STATA, SAS, S-PLUS,. OTROS ASPECTOS Y MODELOS :