Curso de Estadística no-paramétrica Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste Facundo Muñoz Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Ejemplo Mortalidad infantil vs. PIB mortalidadinfantil-pib.csv1 Relación entre las tasas de mortalidad infantil (por mil nacidos vivos) y el PIB per cápita (en dólares) para 193 países del mundo. Mortalidad infantil (x 1000) 150 100 50 0 0 10000 20000 30000 40000 PIB per cápita (US$) Las variables están claramente asociadas, pero la relación es no lineal. La línea de regresión no paramétrica fue producida por el método de regresión polinomial local lowess. Uno de los métodos no paramétricos más comunes. 1 John Fox and Sanford Weisberg (2011). An R Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL: http://socserv.socsci.mcmaster.ca/jfox/books/companion 2 / 18
Regresión paramétrica vs. no paramétrica Métodos de regresión Objetivo: estimar el valor central (media, mediana) de una variable respuesta y (cuantitativa) como una función de una o más (co)variables predictivas (también cuantitativas). Hipótesis de la regresión lineal (paramétrica) Asociación lineal: E(y x) = µ(x) = α + βx Normalidad: y x N ( µ(x), σ 2 (x) ) Homocedasticidad: σ 2 (x) = σ 2 Independencia La regresión no paramétrica sustituye la hipótesis de linealidad por la de suavidad en la función de regresión 3 / 18 Transformación de variables Hipótesis de linealidad Cuando la hipótesis de linealidad falla, a veces es posible trabajar de forma paramétrica con una transformación de las variables. Esto suele ser preferible a una regresión no paramétrica log Mortalidad infantil (x 1000) 150 100 50 0 100 1000 10000 log PIB per cápita (US$) Interpretabilidad de los coeficientes. Pendiente 0,5: por cada punto porcentual de incremento en el PIB per cápita se observa una reducción de un 0,5 % en la mortalidad infantil (elasticidad). Simplicidad del modelo 4 / 18
Métodos de regresión no paramétrica Medias móviles: calcular la media de y en una ventana alrededor de cada valor de x Medias móviles ponderadas (suavización kernel): ponderar los datos en función de la distancia Regresión polinomial local: ajustar un polinomio por mínimos cuadrados a los puntos en una ventana local, ponderados por la distancia 5 / 18 Parámetros de ajuste Función kernel Forma de la función de ponderación Funciones comunes: uniforme, triangular, gaussiana, tricúbica, etc. Difieren en la rapidez con que decae el peso relativo con la distancia 6 / 18
Parámetros de ajuste Ancho de banda Regula a cuántos vecinos afecta la función Kernel Normalmente es variable, y se regula para que en cada punto la ponderación se realice sobre una cierta proporción de las observaciones A mayor ancho de banda, más suave es la curva de regresión 7 / 18 Inferencia En una regresión paramétrica, los objetos de estimación son los coeficientes de regresión. Rutinariamente se calculan intervalos de confianza o se contrasta la hipótesis de que sean diferentes de cero. En regresión no paramétrica no hay coeficientes de regresión. El objeto central de estimación es la función de regresión. En cambio, se pueden construir bandas de confianza sobre la media de y para cada valor de x, a partir de las hipótesis de independencia, homocedasticidad y normalidad. 0 50 100 150 0 10000 20000 30000 40000 PIB per cápita (US$) Mortalidad infantil (x 1000) 8 / 18
Métodos de regresión no paramétrica Implementación SPSS Puede añadirse manualmente una curva de regresión (lowess) Pero no parece haber forma de recoger los valores predichos en una nueva variable, ni de utilizar la curva como efecto estimado en un modelo más complejo, ni de hacer inferencia Está disponible sólo como un elemento descriptivo para valorar visualmente la relación entre dos variables Ejercicio Ajustar una curva no paramétrica a los datos de mortalidadinfantil-pib.csv Explorar las diferencias en el ajuste con diferentes anchos de banda y funciones kernel Ajustar un modelo lineal con las variables transformadas (log) 9 / 18 Métodos de regresión no paramétrica Más cosas En regresión múltiple (i.e., más de una variable predictiva) aparecen nuevos problemas (e.g., correlación entre predictores, interacciones, etc.) Una estrategia popular son los Modelos de Regresión Aditivos en los que se especifica la media de la variable respuesta como la suma de funciones suaves de los regresores E(y x 1,..., x k ) = α + f 1 (x 1 ) + + f k (x k ) Cuando la variable respuesta no es Normal, se generaliza todo lo anterior a Modelos de Regresión (Aditivos) Generalizados. También aparecen el problema de selección de variables y comparación de modelos Todo esto se escapa del alcance de este curso, y del software utilizado. 10 / 18
Aleatoriedad o independencia Ejemplo Queremos saber si la evolución de cierto valor es aleatoria o sigue algún patrón (tendencia, ciclo) que nos permita predecir las ganancias o pérdidas. Esta pregunta la podemos responder con un contraste de aleatoriedad Equivale a preguntarse si las observaciones son independientes entre sí Muchos métodos no paramétricos asumen la independencia como hipótesis de trabajo. 11 / 18 Test de aleatoriedad por Rachas Contraste de Wald Wolfowitz Transformar los datos en una secuencia de dos símbolos, de acuerdo a su valor, y contar el número de rachas de la muestra. Un número de rachas demasiado alto o demasiado bajo será evidencia de una muestra no aleatoria. + + + + + + R = 2 rachas (correlación positiva) + + + + + + R = 12 rachas (correlación negativa) + + + + + + + R = 4 rachas (posiblem. independientes) Ejemplo: variable continua Codificar los datos como + si el valor está por encima de cierto valor, o como si está por debajo. Si la muestra es aleatoria, se puede calcular el número aproximado de Rachas que deberían observarse Se puede establecer cualquier punto de corte 12 / 18
Test de aleatoriedad por Rachas Implementación SPSS La variable debe ser Cuantitativa, o Nominal, con una codificación numérica Ejercicio Si es necesario, Transformar:Recodificación automática Analizar:Pruebas no paramétricas:rachas... Recodificar automáticamente la variable progenie en progenie-cebada.csv Comprobar si la muestra puede considerarse aleatoria utilizando diversos puntos de corte 13 / 18 Variables categóricas Variables categóricas (o cualitativas, o factores) Aquellas que pueden tomar un número finito de valores Ejemplos y clasificación Nominales Grupo sanguíneo {A, B, AB, O} Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -} Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25, 26-40, 40-60, 60+} SPSS Es importante definir correctamente el tipo de variable en SPSS ya que los métodos disponibles dependen de ello Vista de variables:medida 14 / 18
Ejemplo Características de una progenie Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, se observaron dos características: presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) o ser planta clorótica (b). La combinación de estas características nos da cuatro posibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filas y cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb), resultando: Verde sin 2 filas 1178 Verde con 2 filas 291 Clorótica sin 2 filas 273 Clorótica con 2 filas 156 Total 1898 Se cumple la segregación normal dihíbrida con dominación completa (AaBb x AaBb > 9 A-B- ; 3 A-bb ; 3 aab- ; 1 aabb)? 15 / 18 Abstracción Bondad de ajuste de una población Tenemos una población (la progenie de los cruces heterozigóticos) Una única variable respuesta: combinación del cruce (categórica con 4 categorías). Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16, 3/16, 1/16). 16 / 18
Test de bondad de ajuste Consideremos una variable categórica con k categorías y una muestra aleatoria de N observaciones de esa variable. Las observaciones se clasifican según las k categorías y se representan en una tabla de frecuencias absolutas (O 1,..., O k ). Nuestro objetivo es contrastar si la proporción poblacional de cada categoría (π 1,..., π k ) cumple unas proporciones prefijadas (p 1,..., p k ). H 0 : π 1 = p 1,..., π k = p k Si la hipótesis H 0 fuera cierta, las frecuencias esperadas serían E i = Nπ i. Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste: χ 2 s = i (O i E i ) 2 E i χ 2 (k 1) 17 / 18 Test de bondad de ajuste Implementación SPSS La variable debe ser Nominal, con una codificación numérica Ejercicio Si no es así, utilizar Transformar:Recodificación automática Analizar:Pruebas no paramétricas:chi-cuadrado... Comprobar las proporciones teóricas del banco de datos progenie-cebada.csv 18 / 18