MODELOS GENERALIZADOS LINEALES CON R

Transcripción

1 Luis M. Carrascal ( Depto. Biogeografía y Cambio Global Museo Nacional de Ciencias Naturales, CSIC Cómo realizarlos, buena praxis e interpretación de los resultados curso de la Sociedad de Amigos del Museo Nacional de Ciencias Naturales impartido en Febrero de

2 El predictor lineal incluye la suma lineal de los efectos de una o más variables explicativas (x j ). j representan los parámetros desconocidos que es necesario estimar. Estos valores son llevados a una nueva escala mediante una transformación adecuada. Esto es, i no representa a y i, sino a una transformación de los valores y mediante la función de vínculo. 2

3 La transformación utilizada viene definida por la función de vínculo. La función de vínculo relaciona la media de los valores y ( ) conel predictor lineal mediante: = g( ) Para volver a la escala original de medida (y), el valor ajustado es la función inversa de la transformación que define la función de vínculo. Para determinar el ajuste de un modelo, * el procedimiento evalúa el predictor lineal para cada valor de la variable dependiente (y), * y luego compara este valor predicho con la transformación de y 3

4 Mediante el uso de diferentes funciones de vínculo, podemos valorar la adecuación de nuestro modelo a los datos. Para ello utilizaremos el concepto y parámetro devianza. El modelo más apropiado será aquel que minimice la devianza residual. En los modelos Generales Lineales operamos con variables dependientes normales, y los modelos proporcionan residuos que siguen la distribución normal. Sin embargo, numerosos datos no presentan errores normales. * por sesgo y kurtosis * están acotados (caso de proporciones) * son conteos que no pueden manifestar valores negativos 4

5 Podemos distinguir las siguientes familias principales de errores: * errores Normales * errores Poisson (conteos de fenómenos raros) * errores Binomiales negativos (Poisson con mayor dispersión) * errores Binomiales (datos que miden respuestas si/no o proporciones) * errores Gamma (datos que muestran un CV constante) * errores Exponenciales (datos de supervivencia) Para estos errores se han definido las funciones de vínculo más adecuadas (por defecto; canónicas): ERRORES FUNCIÓN * Normales Identidad * Poisson, Binomiales negativos Log * Binomial Logit * Gamma Recíproca 5

6 CREACIÓN DEL MODELO GENERALIZADO (POISSON REGRESSION) En los modelos de regresión lineal clásicos (Gausianos): * definimos una función predictora g(x) = α+β 1 X β p X p * establecemos la relación lineal con la respuesta Y = g(x) + ε para p predictores siendo ε la variación residual En los modelos generalizados de Poisson: * establecemos el valor esperado de la respuesta Y por su parámetro media (μ) * que establece una relación logarítmica con la función predictora g(x) log(μ) = g(x) + ε o μ = e g(x) + ε' μ = e α+β 1X β p X p * esta estructura es muy importante para la interpretación de los coeficientes de regresión. 6

7 Definición de los modelos atendiendo a la distribución de errores Según qué tipo de variable respuesta tengamos definiremos la familia y la función de vínculo. Usaremos el comando glm en vez de lm de los modelos generales lineales. modelo <- glm(eqt, data=datos, family=poisson(link="log")) family = quasipoisson(link="logit") modelo <- glm.nb(eqt, data=datos, link=log) modelo <- glm(eqt, data=datos, family=binomial(link="logit")) family = quasibinomial(link="logit") family = binomial(link="cloglog") cloglog trabaja mejor con distribuciones extremadamente sesgadas 7

8 Interpretación de los resultados Primero valoramos la significación global del modelo, en lo que se conoce como un omnibus test. SI EL RESULTADO ES SIGNIFICATIVO, PODREMOS SEGUIR CON LOS RESULTADOS. Si no resulta significativo el análisis se terminó! Si en los modelos GzLM usados con poisson y binomial aplicamos la corrección por sobredispersión, el resultado de este omnibus test cambia. 8

9 A continuación valoramos las medidas de bondad de ajuste, basadas en devianza y valores de AIC. El coeficiente de sobredispersión es el valor Value/df. No lo utilizaremos si nuestra distribución canónica de la respuesta es la normal. En modelos con poisson y binomial debería dar un valor próximo a "uno" (1).Sies>1 hay sobredispersión;sies<1 se dice que hay sobreparametrización o infradispersión. Se aconseja corregir este desvío si Value/df >1, y no cuando es <1. en un modelo Gausiano nunca se corrige por sobredispersión, porque ésta ya se ha estimado en la definición de la gausiana a través del parámetro desviación típica (sd) que la describe. 9

10 VARIABILIDAD EXPLICADA POR EL MODELO (usando devianzas) La devianza es igual a la suma de los cuadrados de los residuos de devianza proporción de devianza explicada = (devianza residual nula devianza residual del modelo) (devianza residual nula) Para conocer la proporción de la variación en la variable respuesta que es explicada por el modelo (equivalente a una R 2 de un modelo General Lineal) tendremos que: 1) construir un nuevo modelo "nulo" sin predictoras (con sólo el intercepto). 2) obtener la Devianza de ese modelo nulo en su tabla de Goodness of Fit (Do) 3) calcular la siguiente expresión que denominaremos D 2 : D 2 =(Do Dmodelo)/Do Modelo nulo Nuestro modelo de interés D 2 =( )/ = = 21.6% 10

11 Por último, observamos los parámetros de las variables predictoras: coeficientes (B), errores estándard y significaciones (con las aproximaciones de Wald y de cocientes Likelihood). 11

12 INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN Los modelos de regresión de Poisson son multiplicativos porque la función de vínculo es el logaritmo: familia = poisson vínculo = log En la regresión de Poisson log (Y) = a + b X o Y = exp(a + b X) log(y) cambia linealmente en función de las variables predictoras Y cambia linealmente en función del antilogaritmo de la función de las predictoras El coeficiente b en antilogaritmo, exp(b), mide el cambio en esa variable predictora que implica el cambio en una unidad en la variable respuesta Y. O dicho de otro modo, el coeficiente b es el cambio esperado en el log(y) cuando la variable predictora aumenta una unidad. En el caso de las predictoras categóricas (definidas por nº categorías del factor 1) el antilogaritmo del coeficiente, exp(b), es el término multiplicativo relativo a la "base" del factor. El antilogaritmo del intercepto, exp(a),esel valor basal en relación con el cual se estiman los cambios definidos por los coeficientes. 12

13 ejemplo con factores factor edu de 4 niveles factor res de 4 niveles 13

14 SOBREDISPERSIÓN DEL MODELO Medida para estimar la bondad de ajuste del modelo (ϕ). Mide la existencia de una mayor (o menor) variabilidad que la esperable en la variable respuesta considerando los supuestos acerca de su distribución canónica y la función de vínculo (que liga los valores transformados de la variable a las predicciones del modelo) ϕ debería valer 1. Si >1 sobredispersión se "inflan" las significaciones Si <1 infradispersión asociado a la sobreparametrización SOBREDISPERSIÓN!!! las estimas de significación están "infladas" Con estos valores (ϕ) recalculamos nuevas estimas de significación a través de la F. F = diferencias en Devianza / (dif. en g.l. x ϕ) aparecerán en los resultados en: Test of Model Effects 14

15 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## para importar datos de internet y ponerlos en uso ## abro una conexión con internet meconecto <- url(" ## cargo el archivo de la conexión load(meconecto) ## cierro la conexión y borro el objeto "meconecto" close(meconecto); rm(meconecto) ## con la siguiente línea de código veo las variables names(datos) ## creamos una función de asociaciones que llamo "eqt" eqt <- as.formula(abundancia ~ covariante + insolacion*tratamiento) 15

16 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## CARGAMOS PAQUETES ## library(lmtest) library(mass) library(car) library(mumin) library(phia) library(sandwich) library(robustbase) library(psych) library(fit.models) 16

17 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## establecemos los tipos de contrastes para las variables ## predictoras nominales (factores) ## antes cargamos la siguiente línea de código para obtener los ## mismos resultados que en STATISTICA o SPSS utilizando type III SS ## "factor" para los factores no ordenados ## "ordered" para factores con niveles ordenados ## options(contrasts=c(factor="contr.sum", ordered="contr.poly")) ## ahora creamos nuestro modelo tipo ANCOVA Generalizado Lineal modelo <- glm(eqt, data=datos, family=poisson(link="log")) ## los valores de la Devianza nula (modelo nulo: "respuesta ~ 1") ## y Devianza residual del modelo se encuentran en el modelo ## como modelo$null.deviance y modelo$deviance ## con ellos calculamos lo que explica el modelo: d2 <- round(100*(modelo$null.deviance-modelo$deviance)/modelo$null.deviance, 2) print(c("d2 de McFadden (%) =",d2), quote=false) [1] D2 de McFadden (%) =

18 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## estima de significación global del modelo de interés ## comparándolo con el modelo nulo ## sólo procederemos valorando los resultados de este modelo, ## SÍ Y SÓLO SÍ, este "omnibus test" ha sido significativo ## podemos utilizar estos dos test con resultados similares ## likelihood ratio test lrtest(modelo) Likelihood ratio test Model 1: abundancia ~ covariante + insolacion * tratamiento Model 2: abundancia ~ 1 #Df LogLik Df Chisq Pr(>Chisq) < 2.2e-16 *** --- Signif. codes: 0 *** ** 0.01 *

19 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## test de Wald waldtest(modelo) Wald test Model 1: abundancia ~ covariante + insolacion * tratamiento Model 2: abundancia ~ 1 Res.Df Df F Pr(>F) < 2.2e-16 *** --- Signif. codes: 0 *** ** 0.01 *

20 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## valores AICc del modelo de interés y el modelo nulo modelo.nulo <- glm(modelo$model[,1]~1, family=poisson(link="log")) AICc(modelo, modelo.nulo) veces.mejor <- exp(-0.5*(aicc(modelo)-aicc(modelo.nulo))) print(c("veces que MI MODELO es mejor que el modelo NULO =", veces.mejor), quote=false) df AICc modelo modelo.nulo [1] Veces que MI MODELO es mejor que el modelo NULO = e+48 Este resultado es consistente con el anterior, pero en coordenadas de teoría de la información. El modelo de interés de 6*10 48 veces mejor que el modelo nulo. Estos dos tests nos proporcionan que nuestro modelo es altamente significativo, con lo cual podemos continuar valorando sus resultados. Pero antes tenemos que comprobar si hemos cumplido los supuestos canónicos de los modelos a través de la exploración de sus residuos. 20

21 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## exploración de los residuos del modelo ## vemos unos gráficos generales que ya nos dan muchas pistas: ## normalidad, usando los residuos de devianza ## ( no en la escala original de la respuesta!!) ## homocedasticidad de los residuos a través de las predicciones ## del modelo (aplicando la transformación de la link function) ## existencia de datos influyentes y perdidos ## con la distancia de Cook y Leverage ## en una sola figura con cuatro paneles par(mfcol=c(1,1)) ## fija un sólo panel gráfico par(mfcol=c(2,2)) ## fija cuatro paneles con 2 columnas y 2 filas plot(modelo, c(1:2,4,6)) par(mfcol=c(1,2)) par(mfcol=c(1,1)) ## volvemos al modo gráfico de un solo panel 21

22 Diseños factoriales utilizando una Poisson homocedasticidad normalidad puntos influyentes y perdidos 22

23 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## test de Shapiro-Wilk de la normalidad de los residuos de devianza shapiro.test(residuals(modelo, type="deviance")) Shapiro-Wilk normality test data: residuals(modelo, type = "deviance") W = 0.976, p-value = ## el desvío de la normalidad no es muy grave ## hemos identificado que hay una leve violación de homocedasticidad ## y existen algunas observaciones con elevada distancia de Cook ## puntos influyentes y perdidos con dffits ## dffits con sus límites "críticos" ## niveles críticos 2*raiz((g.l. del modelo)/(número de datos)) plot(dffits(modelo)) abline(h=2*((length(modelo$residuals)-modelo$df.residual-1)/length(modelo$residuals))^0.5, col="red") abline(h=-2*((length(modelo$residuals)-modelo$df.residual-1)/length(modelo$residuals))^0.5, col="red") identify(dffits(modelo)) ## terminad dando clik en Finish del panel Plots 23

24 Diseños factoriales utilizando una Poisson 24

25 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## INDEPENDENCIA ENTRE LAS PREDICTORAS: VIF = 1 / (1 - R 2 ), ## de cada predictora por las restantes ## GVIF or VIF specifically indicate the magnitude of the inflation in the standard errors ## associated with a particular beta weight that is due to multicollinearity ## la raiz cuadrada de un valor VIF o GVIF es el número de veces que ## se inflan los errores standard de esa predictora ## vif(modelo) sqrt(vif(modelo)) > vif(modelo) covariante insolacion tratamiento insolacion:tratamiento > sqrt(vif(modelo)) covariante insolacion tratamiento insolacion:tratamiento

26 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## estima de la sobredispersión del modelo ## este valor canónico debería de ser igual a la unidad ## phi <- sum((residuals(modelo, type="pearson"))^2)/modelo$df.residual print(c("pearson overdispersion =", round(phi, 3)), quote=false) [1] Pearson overdispersion = Si este valor hubiese sido muy diferente de uno (e.g., > 2) recalcularíamos el modelo teniendo en cuenta ese valor de sobredispersión, aplicando la pseudofamilia quasipoisson. No corregiremos por sobredispersión si phi <1 modelo2 <- glm(eqt, data=datos, family=quasipoisson(link="log")) Y procederíamos con este nuevo modelo. 26

27 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## representación de los valores observados y predichos en la respuesta ## usando la escala original de medida (habiendo destransformado los datos ## desde la transformación incluida en la link function) plot(modelo$y~fitted(modelo), ylab="respuesta original") abline(lm(modelo$y~fitted(modelo)), col="red", lwd=2) 27

28 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## resultados del modelo y SIGNIFICACIONES de efectos parciales summary(modelo) Call: glm(formula = eqt, family = poisson(link = "log"), data = datos) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** covariante e-05 *** insolacion e-12 *** tratamiento e-08 *** insolacion1:tratamiento Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for poisson family taken to be 1) Null deviance: on 111 degrees of freedom Residual deviance: on 107 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 28

29 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## estimas parciales, al estilo SS type-iii ## esto nos proporciona la significación de los efectos ## la Deviance nos vincula a las magnitudes de los efectos ## <none> indica la devianza residual sin quitar efectos ## los otros valores indican la devianza quitando ese efecto ## a más valor más magnitud del efecto ## dropterm(modelo, ~., test="chisq", sorted=false) Single term deletions Model: abundancia ~ covariante + insolacion * tratamiento Df Deviance AIC LRT Pr(Chi) <none> covariante e-05 *** insolacion < 2.2e-16 *** tratamiento e-10 *** insolacion:tratamiento Signif. codes: 0 *** ** 0.01 *

30 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## estimas parciales, al estilo SS type-iii ## esto nos proporciona la significación de los efectos ## ## otra manera con Likelihood Ratio test ## Anova(modelo, type=3, test="lr") Analysis of Deviance Table (Type III tests) Response: abundancia LR Chisq Df Pr(>Chisq) covariante e-05 *** insolacion < 2.2e-16 *** tratamiento e-10 *** insolacion:tratamiento Signif. codes: 0 *** ** 0.01 *

31 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## Vemos los valores medios de la respuesta (en su escala original) ## ojo!! los valores son los ajustados si tuviésemos covariantes ## se dan los errores estándard plot(interactionmeans(modelo), legend.margin=0.3) 31

32 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## EXAMEN DEL EFECTO DE LA VIOLACIÓN DEL SUPUESTO DE HOMOCEDASTICIDAD ## Recálculo de significaciones; realmente sin mucho interés porque ## se refiere a los coeficientes y no al efecto global de cada factor ## método Sandwich (que es type="hc0"): sólo para el cálculo de ## nuevos errores standard y las significaciones asociadas ## no cambian las estimas de los coeficientes ## coeftest(modelo, vcov=sandwich) z test of coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** covariante *** insolacion e-13 *** tratamiento e-08 *** insolacion1:tratamiento Signif. codes: 0 *** ** 0.01 *

33 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. ## afrontemos ahora el efecto de puntos influyentes y/o perdidos ## RECÁLCULO DEL MODELO QUITANDO ALGUNOS PUNTOS ## mejor no hacemos esto modelo.sin_outliers <- glm(eqt, data=datos[c(-6, -33, -54, -55, -56),]), family=poisson(link="log")) ## ESTIMACIONES ROBUSTAS ## sin quitar datos del modelo; aproximación robusta más seria, ## que estima nuevos coeficientes y errores standard ## Mqle es el método Mallows-Hubber quasi-liquelihood. modelo.robusto <- glmrob(eqt, data=datos, family=poisson(link="log"), weights.on.x="hat", method="mqle", control=glmrobmqle.control(tcc=1.2, maxit=100)) ## summary(modelo.robusto) par(mfcol=c(1,1)) ## robustez de los datos individuales plot(modelo.robusto$w.r, ylab="robustez de las observaciones") identify(modelo.robusto$w.r) plot(modelo.robusto$w.x, leverage(modelo), xlab="peso de las observaciones") 33

34 Diseños factoriales utilizando una Poisson Veámoslo prácticamente en R utilizando la distribución de Poisson. > summary(modelo.robusto) Call: glmrob(formula = eqt, family = poisson(link = "log"), data = datos, method = "Mqle", weights.on.x = "hat", control = glmrobmqle.control(tcc = 1.2, maxit = 100)) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** covariante e-05 *** insolacion e-10 *** tratamiento e-07 *** insolacion1:tratamiento Signif. codes: 0 *** ** 0.01 * Robustness weights w.r * w.x: Min. 1st Qu. Median Mean 3rd Qu. Max Number of observations: 112 Fitted by method Mqle (in 5 iterations) (Dispersion parameter for poisson family taken to be 1) 34

37 Diseños factoriales utilizando una Binomial Negativa Repetiremos todos los pasos previos, sólo que en esta ocasión nuestro modelos será: modelo <- glm.nb(eqt, data=datos, link=log) > summary(modelo) Call: glm.nb(formula = eqt, data = datos, link = log, init.theta = ) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) * covariante *** insolacion e-11 *** tratamiento e-07 *** insolacion1:tratamiento Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for Negative Binomial( ) family taken to be 1) Null deviance: on 111 degrees of freedom Residual deviance: on 107 degrees of freedom AIC: Number of Fisher Scoring iterations: 1 Theta: En esta ocasión el modelo estima un parámetro más Theta Std. Err.: 7.52 que mide la sobredispersión de un modelo Binomial Negativo este parámetro se relaciona con el "size" de la distribución NegBin 2 x log-likelihood: no deberíamos corregir por sobredispersión 37

38 Diseños factoriales utilizando una Binomial Repetiremos todos los pasos previos, sólo que en esta ocasión nuestro modelos será: modelo <- glm(eqt, data=datos, family=binomial(link="logit")) Si hay sobredispersión utilizaremos la pseudofamilia: family=quasibinomial(link="logit") Si no hay buenos ajustes o alta sobredispersión utilizaremos la función de vínculo: family = binomial(link ="cloglog") cloglog trabaja mejor con distribuciones extremadamente sesgadas por ejemplo: porporciones de un estado <0.1 o >0.9 38

39 Diseños factoriales utilizando una Binomial Si nuestra variable respuesta no es una binomial con estados [0 1] ó[si NO] entonces podremos construir un modelo definiendo esa variable respuesta "frecuencia". Hay dos modos: la respuesta es un valor "proporción" (acotado entre cero y uno) la respuesta es un valor combinado de dos vectores: valores SI, valores NO Para proporciones, tenemos que definir el denominador que genera la frecuencia en weights modelo <- glm(eqt, data=datos, family=binomial(link="logit"), weights=denominador) Para respuestas combinadas, tenemos que definir los dos vectores conteo SI, conteo NO en una nueva variable respuesta con el comando cbind cbind(valoressi, valoresno) ## ejemplo con los datos de trabajo eqt <- as.formula(cbind(presen8, ausen8) ~ covariante + insolacion * tratamiento) modelo <- glm(eqt, data=datos, family=binomial(link="logit") 39

40 MODELOS GENERALIZADOS USANDO UNA BINOMIAL Nuestro modelo ahora tendrá la forma: p: proporción de un "estado" respecto a toda la muestra (80 "ceros" y 20 "unos", N=100: p = 20/100 = 0.20) X: k variables predictoras logit ( p ) = log [ p / (1 p) ] = β 0 + β 1 X 1 + β 2 X 2 + β 3 X β k X k p / (1 p) = exp ( β 0 + β 1 X 1 + β 2 X 2 + β 3 X β k X k ) exp: antilogaritmo p = [ exp ( β 0 + β 1 X 1 + β 2 X 2 + β 3 X β k X k ) ] 1 + [ exp ( β 0 + β 1 X 1 + β 2 X 2 + β 3 X β k X k ) ] El modelo Generalizado Lineal Logit predice valores de probabilidad continua (p): entre 0 y 1. 40

41 RESIDUOS DE MODELOS GENERALIZADOS BINOMIALES La exploración de los residuos en esta ocasión es un tanto diferente, debido al estado binomial de la respuesta con dos valores discretos (e.g., 0 1, sí no). Con la "normalidad de los residuos" de devianza, en el mejor de los casos, tendríamos algo parecido a lo siguiente (con antisimetría en los dos lados del "bigote"): menor densidad de puntos mayor densidad de puntos cuanto más explique el modelo más cerca estarán los dos extremos 41

42 RESIDUOS DE MODELOS GENERALIZADOS BINOMIALES En el caso de la relación entre los residuos de devianza y las predicciones del modelo (predictor lineal al que se le aplica la transformación logit), esperaríamos encontrar algo como esto: menor densidad de puntos cuanto más explique el modelo más cerca estarán los dos extremos mayor densidad de puntos menor densidad de puntos 42

43 DIAGRAMAS ROC EN MODELOS GENERALIZADOS BINOMIALES El Modelo Generalizado Binomial produce probabilidades de ocurrencia p de uno de los estados de la variable respuesta (e.g., el valor 1 en 0 1, o sí en sí no). Estos valores de p, continuos entre 0 y 1, hay que convertirlos a "estados" 0 o 1, utilizando umbrales de corte. Estos valores umbrales nos permitirán convertir "probabilidades" en "estados". por ejemplo, si el umbral es p=0.5 si p<0.5 entonces es "cero" si p>0.5 entonces es "uno" Podemos utilizar como umbral de corte (cut off point) la proporción real observada. No obstante, en muchas ocasiones este es un valor incierto, y es conveniente preguntarse: cómo de bueno es nuestro modelo "clasificando las observaciones" independientemente de los valores umbral de corte? Para ello podemos contar con los diagramas ROC (Receiver operating characteristic): (excelente página) 43

44 DIAGRAMAS ROC EN MODELOS GENERALIZADOS BINOMIALES El área en el cuadrado morado suma "uno". De esa área, cuánto ocupa la superficie bajo la curva azul? (la proporción es el valor AUC) AUC 44