Curso de Estadística no-paramétrica

Documentos relacionados
Tema 10: Introducción a los problemas de Asociación y Correlación

TEMA 10 COMPARAR MEDIAS

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estadística Descriptiva II: Relación entre variables

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

INDICE. Prólogo a la Segunda Edición

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

ADMINISTRACION DE OPERACIONES

Prueba de Hipótesis. Para dos muestras

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

478 Índice alfabético

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Repaso Estadística Descriptiva

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Preparación de los datos de entrada

Teoría de la decisión

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

Curso de Estadística no-paramétrica

Introducción a la regresión ordinal

Diplomado en Estadística Aplicada

Funciones de Regresión No Lineales (SW Cap. 6)

MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y EXPERIMENTAL

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Análisis de datos Categóricos

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Estadística Descriptiva. Poblaciones y muestras.

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Introducción a la Estadística Aplicada en la Química

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Pruebas para evaluar diferencias

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

CURSO: ANALISIS ESTADISTICO DE RIESGOS

LICENCIATURA EN ECONOMÍA Y LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

Estadísticos Aplicados en el SPSS 2008

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

ESTADÍSTICA SEMANA 2

CM0244. Suficientable

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS

Selección de fuentes de datos y calidad de datos

ÍNDICE INTRODUCCIÓN... 21

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Estadística Espacial en Ecología del Paisaje

Tema 5. Muestreo y distribuciones muestrales

CUERPO TÉCNICO, OPCION ESTADISTICA

PROGRAMA DE ESTADÍSTICA DESCRIPTIVA

DIFERENCIAS EN LA UTILIZACIÓN DE LA BIBLIOTECA DEL IIESCA ANTE UN CAMBIO DE INFORMACIÓN

Estadísticos Descriptivos

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Análisis de datos cualitativos

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

PROGRAMA DE ESTUDIO : UN SEMESTRE ACADÉMICO : TERCER AÑO, PRIMER SEMESTRE

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

DISTRIBUCIONES BIDIMENSIONALES

CURSO-TALLER DE ANÁLISIS ESTADÍSTICO BÁSICO CON EXCEL Y SPSS Instructor: Mario Alberto Barajas Malacara

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Método de cuadrados mínimos

Capítulo 8. Análisis Discriminante

TEMA V ANÁLISIS DE REGRESIÓN LOGÍSTICA

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Indicaciones para el lector... xv Prólogo... xvii

Métodos Estadísticos Multivariados

Motivación. Motivación PRONOSTICOS DE DEMANDA

TEMA 3: Contrastes de Hipótesis en el MRL

CARGA HORARIA Horas totales: 80 Horas totales de resolución de problemas de aplicación: 32

07 Estimación puntual e introducción a la estadística inferencial

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

GUÍA 5 : EFECTO DEL ESTRÉS EN EL PESO DE RECIÉN NACIDOS

Teorema Central del Límite (1)

Guía docente 2007/2008

Unidad IV: Distribuciones muestrales

Capítulo 13. Contrastes sobre medias: Los procedimientos Medias y Prueba T. Medias

Manejo del entorno windows y nociones básicas de estadística.

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tercera práctica de REGRESIÓN.

T2. El modelo lineal simple

Contrastes de hipótesis. 1: Ideas generales

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 8

ANÁLISIS DESCRIPTIVO DE LOS DATOS DE VARIABLES CUANTITATIVAS

Gráfico 1: Evolución del exceso de rentabilidad de la empresa y de la cartera de mercado

Valorización de Bonos Estructurados. Omar Pinedo

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: FORMACIÓN FUNDAMENTAL. Créditos ECTS: 6 Presenciales: 5 No presenciales: 1

CORRELACION Y REGRESION

EL PLAN DE ANALISIS. Patricio Suárez Gil Julio Alonso Lorenzo. La Fresneda, Asturias 2011 Programa MFyC

Transcripción:

Curso de Estadística no-paramétrica Sesión 3: Regresión no paramétrica y Contrastes de Aleatoriedad y bondad de ajuste Facundo Muñoz Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Ejemplo Mortalidad infantil vs. PIB mortalidadinfantil-pib.csv1 Relación entre las tasas de mortalidad infantil (por mil nacidos vivos) y el PIB per cápita (en dólares) para 193 países del mundo. Mortalidad infantil (x 1000) 150 100 50 0 0 10000 20000 30000 40000 PIB per cápita (US$) Las variables están claramente asociadas, pero la relación es no lineal. La línea de regresión no paramétrica fue producida por el método de regresión polinomial local lowess. Uno de los métodos no paramétricos más comunes. 1 John Fox and Sanford Weisberg (2011). An R Companion to Applied Regression, Second Edition. Thousand Oaks CA: Sage. URL: http://socserv.socsci.mcmaster.ca/jfox/books/companion 2 / 18

Regresión paramétrica vs. no paramétrica Métodos de regresión Objetivo: estimar el valor central (media, mediana) de una variable respuesta y (cuantitativa) como una función de una o más (co)variables predictivas (también cuantitativas). Hipótesis de la regresión lineal (paramétrica) Asociación lineal: E(y x) = µ(x) = α + βx Normalidad: y x N ( µ(x), σ 2 (x) ) Homocedasticidad: σ 2 (x) = σ 2 Independencia La regresión no paramétrica sustituye la hipótesis de linealidad por la de suavidad en la función de regresión 3 / 18 Transformación de variables Hipótesis de linealidad Cuando la hipótesis de linealidad falla, a veces es posible trabajar de forma paramétrica con una transformación de las variables. Esto suele ser preferible a una regresión no paramétrica log Mortalidad infantil (x 1000) 150 100 50 0 100 1000 10000 log PIB per cápita (US$) Interpretabilidad de los coeficientes. Pendiente 0,5: por cada punto porcentual de incremento en el PIB per cápita se observa una reducción de un 0,5 % en la mortalidad infantil (elasticidad). Simplicidad del modelo 4 / 18

Métodos de regresión no paramétrica Medias móviles: calcular la media de y en una ventana alrededor de cada valor de x Medias móviles ponderadas (suavización kernel): ponderar los datos en función de la distancia Regresión polinomial local: ajustar un polinomio por mínimos cuadrados a los puntos en una ventana local, ponderados por la distancia 5 / 18 Parámetros de ajuste Función kernel Forma de la función de ponderación Funciones comunes: uniforme, triangular, gaussiana, tricúbica, etc. Difieren en la rapidez con que decae el peso relativo con la distancia 6 / 18

Parámetros de ajuste Ancho de banda Regula a cuántos vecinos afecta la función Kernel Normalmente es variable, y se regula para que en cada punto la ponderación se realice sobre una cierta proporción de las observaciones A mayor ancho de banda, más suave es la curva de regresión 7 / 18 Inferencia En una regresión paramétrica, los objetos de estimación son los coeficientes de regresión. Rutinariamente se calculan intervalos de confianza o se contrasta la hipótesis de que sean diferentes de cero. En regresión no paramétrica no hay coeficientes de regresión. El objeto central de estimación es la función de regresión. En cambio, se pueden construir bandas de confianza sobre la media de y para cada valor de x, a partir de las hipótesis de independencia, homocedasticidad y normalidad. 0 50 100 150 0 10000 20000 30000 40000 PIB per cápita (US$) Mortalidad infantil (x 1000) 8 / 18

Métodos de regresión no paramétrica Implementación SPSS Puede añadirse manualmente una curva de regresión (lowess) Pero no parece haber forma de recoger los valores predichos en una nueva variable, ni de utilizar la curva como efecto estimado en un modelo más complejo, ni de hacer inferencia Está disponible sólo como un elemento descriptivo para valorar visualmente la relación entre dos variables Ejercicio Ajustar una curva no paramétrica a los datos de mortalidadinfantil-pib.csv Explorar las diferencias en el ajuste con diferentes anchos de banda y funciones kernel Ajustar un modelo lineal con las variables transformadas (log) 9 / 18 Métodos de regresión no paramétrica Más cosas En regresión múltiple (i.e., más de una variable predictiva) aparecen nuevos problemas (e.g., correlación entre predictores, interacciones, etc.) Una estrategia popular son los Modelos de Regresión Aditivos en los que se especifica la media de la variable respuesta como la suma de funciones suaves de los regresores E(y x 1,..., x k ) = α + f 1 (x 1 ) + + f k (x k ) Cuando la variable respuesta no es Normal, se generaliza todo lo anterior a Modelos de Regresión (Aditivos) Generalizados. También aparecen el problema de selección de variables y comparación de modelos Todo esto se escapa del alcance de este curso, y del software utilizado. 10 / 18

Aleatoriedad o independencia Ejemplo Queremos saber si la evolución de cierto valor es aleatoria o sigue algún patrón (tendencia, ciclo) que nos permita predecir las ganancias o pérdidas. Esta pregunta la podemos responder con un contraste de aleatoriedad Equivale a preguntarse si las observaciones son independientes entre sí Muchos métodos no paramétricos asumen la independencia como hipótesis de trabajo. 11 / 18 Test de aleatoriedad por Rachas Contraste de Wald Wolfowitz Transformar los datos en una secuencia de dos símbolos, de acuerdo a su valor, y contar el número de rachas de la muestra. Un número de rachas demasiado alto o demasiado bajo será evidencia de una muestra no aleatoria. + + + + + + R = 2 rachas (correlación positiva) + + + + + + R = 12 rachas (correlación negativa) + + + + + + + R = 4 rachas (posiblem. independientes) Ejemplo: variable continua Codificar los datos como + si el valor está por encima de cierto valor, o como si está por debajo. Si la muestra es aleatoria, se puede calcular el número aproximado de Rachas que deberían observarse Se puede establecer cualquier punto de corte 12 / 18

Test de aleatoriedad por Rachas Implementación SPSS La variable debe ser Cuantitativa, o Nominal, con una codificación numérica Ejercicio Si es necesario, Transformar:Recodificación automática Analizar:Pruebas no paramétricas:rachas... Recodificar automáticamente la variable progenie en progenie-cebada.csv Comprobar si la muestra puede considerarse aleatoria utilizando diversos puntos de corte 13 / 18 Variables categóricas Variables categóricas (o cualitativas, o factores) Aquellas que pueden tomar un número finito de valores Ejemplos y clasificación Nominales Grupo sanguíneo {A, B, AB, O} Dicotómicas o binarias Sexo {H, M}; Factor RH {+, -} Ordinales Concentración {Baja, Media, Alta}; Grupo de edad {0-25, 26-40, 40-60, 60+} SPSS Es importante definir correctamente el tipo de variable en SPSS ya que los métodos disponibles dependen de ello Vista de variables:medida 14 / 18

Ejemplo Características de una progenie Ejemplo 1.- En un estudio sobre el cruce de variedades de cebada, se observaron dos características: presentar 2 filas de granos (a) o no (A, dominante), y tener color verde (B, dominante) o ser planta clorótica (b). La combinación de estas características nos da cuatro posibilidades: verdes sin dos filas de granos, verdes con dos filas, cloróticas sin dos filas y cloróticas con dos filas. Se recogieron datos de cruces entre heterozigóticos (AaBb), resultando: Verde sin 2 filas 1178 Verde con 2 filas 291 Clorótica sin 2 filas 273 Clorótica con 2 filas 156 Total 1898 Se cumple la segregación normal dihíbrida con dominación completa (AaBb x AaBb > 9 A-B- ; 3 A-bb ; 3 aab- ; 1 aabb)? 15 / 18 Abstracción Bondad de ajuste de una población Tenemos una población (la progenie de los cruces heterozigóticos) Una única variable respuesta: combinación del cruce (categórica con 4 categorías). Objetivo: comprobar si se cumplen las proporciones (9/16, 3/16, 3/16, 1/16). 16 / 18

Test de bondad de ajuste Consideremos una variable categórica con k categorías y una muestra aleatoria de N observaciones de esa variable. Las observaciones se clasifican según las k categorías y se representan en una tabla de frecuencias absolutas (O 1,..., O k ). Nuestro objetivo es contrastar si la proporción poblacional de cada categoría (π 1,..., π k ) cumple unas proporciones prefijadas (p 1,..., p k ). H 0 : π 1 = p 1,..., π k = p k Si la hipótesis H 0 fuera cierta, las frecuencias esperadas serían E i = Nπ i. Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste: χ 2 s = i (O i E i ) 2 E i χ 2 (k 1) 17 / 18 Test de bondad de ajuste Implementación SPSS La variable debe ser Nominal, con una codificación numérica Ejercicio Si no es así, utilizar Transformar:Recodificación automática Analizar:Pruebas no paramétricas:chi-cuadrado... Comprobar las proporciones teóricas del banco de datos progenie-cebada.csv 18 / 18