Regresión de Poisson

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Regresión de Poisson"

Transcripción

1 Regresión de Poisson -- Si la estructura de los errores es realmente de Poisson, entonces: devianza residual / grados de libertad residuales = 1 si el cociente es mayor que 1 estamos ante el fenómeno (incómodo) de la sobredispersión, que habrá que tener en cuenta -- El cambio de devianza atribuible a un factor se distribuye asintóticamente según una χ 2 (útil para selección de variables) usar test de la F con sobredispersión -- La exploración de variables, selección de modelos y el análisis de devianza se hace como se haría en una regresión simple (mutatis mutandis). Máster en Ecología Métodos para el estudio de Sistemas Ecológicos: Diseño, Análisis y Modelización. VI. Crítica de un modelo 29

2 Crítica de un modelo - Tras construir un modelo se debe estudiar hasta qué punto es una buena descripción de los datos. Gráficos diagnóstico: - se basan en los residuos del modelo: residuos = VR - valores ajustados (o predichos) - permiten evaluar las presunciones del modelo (el ajuste a los datos presenta alguna tendencia?) y si hay un grupo de datos que no se ajustan al patrón del resto (detección de valores outlier ) Estadísticos de influencia: - evalúan la influencia (potencial o no) de un caso ( cambia mucho la regresión si elimináramos ese caso?) Evaluación (validación, calibración, valoración): (comparación de las predicciones con las observaciones) Crítica de un modelo -Los residuos representan la diferencia entre los datos y los valores predichos por el modelo. - Tipos de residuos (estadísticos, claro): Errores gaussianos (normales, en LM): ε = y µ En GLM se les conoce como residuos de la respuesta ( response residuals ) Pero la varianza no suele ser constante en GLM y esto obliga a definir otro tipo de residuos que puedan emplearse en estos modelos: Residuos de Pearson r P (Σ r P2 =χ 2 ) Residuos de devianza r D (Σ r D2 =devianza) Residuos temporales ( working ) subproducto del algoritmo iterativo de ajuste del modelo. Normalmente inútiles. 30

3 Crítica de un modelo: gráficos diagnóstico Los residuos se representan en un gráfico con: - los valores ajustados para examinar la heterocedasticidad -las VE para encontrar evidencias de curvatura - los valores de una distribución normal ( standard normal deviates ) para examinar si los errores son Normales pasamos a R Crítica de un modelo: gráficos diagnóstico Normal Q-Q Plot el gráfico de normalidad no revela nada extraño (los residuos se ajustan a la recta a lo largo de su longitud) Ordered residuals (1) cielo estrellado, no parece haber patrones de ningún tipo (2) homocedasticidad: la varianza (dispersión) no se incrementa con la media (con la magnitud de los valores predichos) Normal scores 31

4 Crítica de un modelo: gráficos diagnóstico Errores uniformes Normal Q-Q Plot pero este gráfico muestra un perfil sigmoidal (en S ) terrible; el ajuste en el centro es adecuado, pero los residuos más altos y los más bajos son demasiado grandes en magnitud Ordered residuals No se observa nada raro aquí scores Si este residuo se distribuyera según una Normal, entonces debería tener un valor estándar más pequeño (o: su valor se corresponde con un valor estándar N propio de las colas extremas de la distribución N Crítica de un modelo: gráficos diagnóstico Normal Q-Q Plot Errores binomiales negativos (1) Muchos residuos grandes y negativos sobre la línea (2) Un residuo positivo enorme sobre la línea (alejado del resto) que no puede proceder de una distribución Normal estos valores pueden ser muy influyentes (3) forma de J Ordered residuals Quizás (1) haya demasiados residuos negativos (en comparación con los positivos) y (2) ojo con la asimetría: hay algún residuo tremendamente alto Normal scores 32

5 Crítica de un modelo: gráficos diagnóstico Normal Q-Q Plot Errores gamma y heterocedasticidad Los residuos se alejan mucho de lo que cabría esperar si procedieran de una distribución normal Ordered residuals La heterocedasticidad es evidente: la dispersión de los datos se incrementa con la magnitud de los valores ajustados. La asimetría es exagerada Normal scores Crítica de un modelo: gráficos diagnóstico vs Fitted Pronunciada curvatura: los residuos negativos se acumulan en los valores ajustados intermedios, mientras que los residuos positivos se acumulan en los extremos (nada de cielo estrellado ) lm(cantidad ~ tiempo) 33

6 Crítica de un modelo: gráficos diagnóstico Normal Q-Q Standardized residuals Figura de J : los residuos se alejan de lo que se esperaría según una distribución Normal Theoretical Quantiles lm(cantidad ~ tiempo) Crítica de un modelo: gráficos diagnóstico Dicho lo cual: - El examen de la normalidad de los residuos en un modelo cuyos errores no se distribuyen según una normal (por ejemplo mediante los gráficos Q-Q) estaría justificado porque los errores deben distribuirse como una campana (unos pocos exagerados y muchos en torno a la media) [M.J.Crawley, L.M.Carrascal] los residuos no tienen por qué ser normales y los gráficos Q- Q sólo sirven para detectar valores destacados ( outliers ) [J.J.Faraway] 34

7 Crítica de un modelo: gráficos diagnóstico DESCOMPOSICION$cantidad La descomposición de la materia orgánica en el suelo (y otros procesos similares) se suele describir bien suponiendo que la fracción que se pierde anualmente es constante: y=y 0 e -bt, tomando logaritmos log(y) = log(y 0 ) bt, donde b es la pendiente Luego parece que una transformación log(vr) funcionará bien DESCOMPOSICION$tiempo Crítica de un modelo: gráficos diagnóstico vs Fitted Normal Q-Q Standardized residuals Theoretical Quantiles 35

8 Crítica de un modelo: estadísticos de influencia - Los modelos pueden estar desajustados por la existencia de valores destacados ( outliers ) que no están en línea con el resto cuando se ajusta el modelo. Pero estos valores pueden parecer tan fuera de línea porque el modelo no se haya especificado bien. - Un punto influyente es aquel que modifica notablemente los parámetros del modelo Por ser tan influyente, tenderá a tirar la regresión hacia él, generando un residuo pequeño. Pero un valor destacado puede ser muy influyente. Luego necesitamos una alternativa para estudiar la posible influencia de un caso en el modelo (que siempre es preocupante) Crítica de un modelo: estadísticos de influencia - Cambio en los coeficientes: La influencia de un caso en un modelo se puede estimar construyendo el modelo sin ese caso y comprobando cuál es el cambio en los coeficientes (un procedimiento de jack-knife ). - Apalancamiento ( leverage ). La influencia potencial de un caso crece cuanto más destaque su VE, por tanto, en proporción a (x-x) 2 : 2 1 ( xi x) hi = + 2 n ( x x) Un punto es muy influyente cuando h i >2p/n - Distancia de Cook. Trata de combinar los residuos y la capacidad de apalancar en una medida única 1/ 2 * n p h 1 i Ci = ri p hi pasamos a R j donde r i* es el valor absoluto de los residuos tras eliminar el caso i 36

9 Crítica de un modelo: evaluación del modelo - Los gráficos son difíciles de utilizar en GLM - Desde una aproximación práctica podemos evaluar el modelo comparando sus predicciones (normalmente continuas, de 0 a 1 en regresión logística) con las observaciones (continuas o no). - Para ello podemos construir una tabla de contingencia Observado cómo pasar de valores predichos continuos a + - categóricos? umbrales Predicho + - a c b d (1) Si p>=0.5, entonces + si 1s y 0s son equiprobables y los errores al predecirlos son igual de costosos (2) Selecciona el mejor umbral si los datos son SRS de la poblacióny los errores al predecirlos son igual de costosos Crítica de un modelo: evaluación del modelo Observado Predicho a c - b d Aciertos: a y d Error de omisión: c Error de comisión: b Existen muchas medidas de error: Tasa de clasificación correcta: (a+d)/n Sensibilidad: a/(a+c) Especificidad: d/(b+d) Kappa: {(a+d)-[(a+c)(a+b)+(b+d)(c+d)]/n} / {N-[(a+c)(a+b)+(b+d)(c+d)]/N)}, tiene en cuenta los aciertos al azar 37

10 Crítica de un modelo: evaluación del modelo - Las medidas de clasificación dependen de los umbrales Sensibilidad Tomemos punto de corte alto (p>0.88 es +): Para pocos fragmentos con roedores se predice su presencia (baja sensibilidad) Para todos los fragmentos sin roedores se predice ausencia (alta especificidad) Especificidad Tomemos punto de corte bajo (p>0.029 es +): Para todos los fragmentos con roedores se predice su presencia (alta sensibilidad) Para todos los fragmentos sin roedores también se predice presencia (baja especificidad) Crítica de un modelo: evaluación del modelo - Las medidas de clasificación dependen de los umbrales Sensibilidad compromiso: si mejoras determinando las presencias empeoras discriminando las ausencias Un punto de corte elevado es exigente : sólo se consideran que estarán ocupados aquellos fragmentos con las mayores probabilidades de estarlo. Por analogía: el test clínico sólo considerará realmente enfermo a un paciente que de claras muestras de estarlo Especificidad 38

11 Crítica de un modelo: evaluación del modelo - El diagrama de receptor-operador (ROC) considera todos los puntos de corte posibles e informa del rango de acierto del modelo sensibilidad (o tasa de verdaderos positivos) clasificador perfecto 1-especificidad (o tasa de falsos positivos) clasificador aleatorio Una medida general de acierto AUC ( Area Under the Curve ): CP: AUC=1 CA: AUC=0.5 La calibración Ejemplo: distribución de milano real Observed occurrence Observed number of pairs Predicted probability of occurrence Predicted number of pairs una cierta sobreestima: problemas de conservación? 39