INTERVALOS DE CONFIANZA BOOTSTRAP BAJO INCUMPLIMIENTO DE SUPUESTOS EN REGRESIONES SPLINES PENALIZADAS

Documentos relacionados
INTERVALOS BOOTSTRAP PARA REGRESIONES SPLINE PENALIZA- DAS BAJO EL ENFOQUE DE MODELOS MIXTOS

ESTIMACIÓN DE LA INCIDENCIA DE PARTOS PRE-TÉRMINO EN FUN- CIÓN DE LOS ESPACIAMIENTOS ENTRE EMBARAZOS. ANÁLISIS DE UNA REVISIÓN SISTEMÁTICA.

donde ε es la variable aleatoria de media 0 y f(x) es una relación que tiene la siguiente expresión:

ESTIMACIÓN DE FUNCIONES DE DENSIDAD DE DATOS CORRELACIONADOS Y/O CON VALORES ATÍPICOS

Remuestreo importancia y aplicaciones

ANÁLISIS DE REGRESIÓN

PROGRAMA DE CURSO. Código Nombre ESTADÍSTICA PARA LA ECONOMÍA Y GESTIÓN Nombre en Inglés Statistics for Economics and Management Unidades

MÉTODO DE MONTE CARLO MÉTODO DE BOOTSTRAP HEINZ ROQUE

Asignatura: Horas: Total (horas): Obligatoria X Teóricas 4.5 Semana 4.5 Optativa Prácticas Semanas 72.0

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Conocer los principales métodos de la estadística inferencial e identificar sus aplicaciones a diversas áreas del conocimiento y de la cotidianidad.

Intervalos de confianza para los coeficientes de una regresión lineal.

INDICE Capitulo uno Introducción y estadísticas descriptiva Capitulo dos Conceptos en probabilidad Capitulo tres

BANDAS DE CONFIANZA BOOTSTRAP EN REGRESIÓN POLINÓMICA

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

GUIA DOCENTE ESTADÍSTICA II

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

Tema VII. La predicción de variables

Estadística Económica y Estadística Empresarial

Regresión Lineal Simple y Múltiple Regresión Logística

Programa Oficial de Asignatura. Ficha Técnica. Presentación. Competencias y/o resultados del aprendizaje. Fundamentos de Estadística

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

INDICE. Capitulo Uno.

PLANIFICACION DE ASIGNATURA

Inferencia Estadística

1. DATOS INFORMATIVOS

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN LICENCIATURA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN

07 Estimación puntual e introducción a la estadística inferencial

Nota de los autores... vi

Tema 4. Regresión lineal simple

Titulación(es) Titulación Centro Curso Periodo Grado de Medicina FACULTAT DE MEDICINA I ODONTOLOGIA

Dr. Fidel Ulin Montejo M.C. Robert Jeffrey Flowers Jarvis Fecha de elaboración: Agosto 2004 Fecha de última actualización: Julio 2010

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

ESTADÍSTICA. 4 horas a la semana 8 créditos Semestre variable según la carrera

TESIS DE MAESTRIA EN ESTADISTICA APLICADA

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Estadística /Química 2004

TÉCNICO SUPERIOR UNIVERSITARIO EN ACUICULTURA ÁREA PROYECTOS

El modelo de azar proporcional: la regresión de Cox

COORDINACIÓN DE CIENCIAS APLICADAS. INGENIERÍA PETROLERA División Departamento Licenciatura

Introducción a la Estadística Aplicada en la Química

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

FORMATO MODALIDAD PRESENCIAL UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ECONOMÍA. Plan de estudios

1. DATOS INFORMATIVOS

1445 FUNDAMENTOS DE ESTADÍSTICA 4 8. INGENIERÍA EN COMPUTACIÓN División Departamento Licenciatura COORDINACIÓN DE CIENCIAS APLICADAS

Especialista en Inferencia Estadística y del Modelo Lineal Simple

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN TÉCNICAS DE ESTADÍSTICA MOTIVANTE

Modelo de Regresión Lineal

COMPARACIÓN DE LA ESTIMACIÓN DE LA TASA DE OCUPACIÓN DE PLAZAS POR REGRESIÓN LOESS Y POR MUESTREO

INTRODUCCIÓN AL ANÁLISIS DE DATOS FEBRERO Código asignatura: EXAMEN MODELO B DURACION: 2 HORAS

Programa Oficial de Asignatura. Ficha Técnica. Presentación. Competencias y/o resultados del aprendizaje. Econometría

Grado en Finanzas y Contabilidad

Titulación(es) Titulación Centro Curso Periodo Grado de Fisioterapia FACULTAT DE FISIOTERÀPIA 1 Primer cuatrimestre

DISEÑO EXPERIMENTAL Biología, 2º Ciclo Profesores: Mauro Santos y Hafid Laayouni PROGRAMA TEÓRICO

Sede Andina, San Carlos de Bariloche. Licenciatura en Administración, Licenciatura en Hotelería, Licenciatura en Turismo y. Licenciatura en Economía.

Análisis Estadístico en Simulaciones. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Simulación a Eventos Discretos. Clase 8: Análisis de resultados

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Universidad Autónoma de Sinaloa

CUERPO TÉCNICO, OPCION ESTADISTICA

ASIGNATURA: MÉTODOS ESTADÍSTICOS DE LA INGENIERÍA. (Especialidad: Mecánica) Troncal 1 cuatrimestre, 6 créditos: 3 teóricos, 3 prácticos

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

INSTITUTO POLITÉCNICO NACIONAL SECRETARÍA ACADÉMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

Información general. Obligatoria básica o de fundamentación X. Obligatoria profesional. Horas de trabajo independiente del estudiante

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Técnicas de regresión: Regresión Lineal Simple

INFERENCIA ESTADISTICA

Esatadística II: inferencial Departamento de Ciencias Sociales y Políticas Universidad Católica del Uruguay

ESTADISTICA AVANZADA MODULO I

PROGRAMA DE CURSO. Código Nombre MA3403 Probabilidades y Estadística Nombre en Inglés Probability and Statistics SCT

7. De acuerdo con la gráfica siguiente, el contraste estadístico es:

COORDINACIÓN DE CIENCIAS APLICADAS. INGENIERÍA ELÉCTRICA Y ELECTRÓNICA División Departamento Licenciatura

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Básica. Resultados de Aprendizaje

Fundamentos del Análisis Econométrico. Dante A. Urbina

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

UNIVERSIDAD TECNICA PARTICULAR DE LOJA ESTADISTICA Y PROBABILIDAD ENSAYO N 11

Estadística II Ejercicios Tema 5

INGENIERÍA EN MANTENIMIENTO INDUSTRIAL

peso edad grasas Regresión lineal simple Los datos

Estadística Inferencial. Sesión 11. Regresión y correlación múltiple

INFERENCIA ESTADISTICA. Proferora: Lic. Gladis Mazza

CM0244. Suficientable

Modelos de suavizado, aditivos y mixtos

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 11) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Universidad nacional Autónoma de México Facultad de psicología. Matemáticas II

Transcripción:

Cristina Cuesta Gonzalo Marí Nicolás Zino Instituto de Investigaciones Teóricas y Aplicadas en Estadística (IITAE) INTERVALOS DE CONFIANZA BOOTSTRAP BAJO INCUMPLIMIENTO DE SUPUESTOS EN REGRESIONES SPLINES PENALIZADAS 1. Introducción a los modelos P-splines Consideremos el modelo ( ) (1) donde representa a los errores aleatorios y ( ) se asume una función suave, no especificada. Resulta conveniente descomponer a ( ) en una matriz de baja dimensión que puede contener una forma polinómica y en una componente de alta dimensión, compuesta por bases truncadas (aunque admite otras), cuyas expresiones son de la forma ( ), donde ( ) para y en otro caso, y siendo los nodos de la función. Esto nos conduce a la siguiente formulación del modelo: (2) donde ( ) y siendo ( ) y ( ). La estimación de a través de un ajuste paramétrico simple puede provocar inconvenientes de cálculo debido a la alta dimensionalidad de. Entonces, puede ser estimado, imponiendo una penalidad a los coeficientes de, lo que conduce a minimizar el criterio: ( ) ( ) donde es una matriz de penalidad adecuadamente elegida y es el parámetro de suavizado. Para el caso de bases truncadas, resulta conveniente elegir a como la matriz identidad.

La estimación de resulta entonces: ( ) con ( ) ( ) 2. Supuestos del modelo El cumplimiento de los supuestos en los modelos de regresión garantiza que las estimaciones obtenidas a través del método de mínimos cuadrados ordinarios sean los mejores estimadores lineales insesgados (BLUP). Cuando tales supuestos son violados, se generan problemas en los resultados alcanzados, haciendo que las estimaciones obtenidas no cumplan con algunas de las propiedades deseables. A continuación se presentan los supuestos que deben cumplir los modelos de regresión con una única variable explicativa. 2.1. Variancia constante Los errores del modelo de regresión deben tener variancia homogénea. Si la variancia del modelo crece o disminuye, ocurre la Heterocedastidad y su presencia repercute en la eficiencia de los estimadores, haciendo que las pruebas estadísticas carezcan de validez o que las inferencias sean erróneas. 2.2. No correlación Se exige que los errores asociados a cada variable explicativa no estén relacionados en el tiempo. El problema que se presenta se llama Autocorrelación y afecta la validez estadística de los test que miden la significancia de dichas variables en el modelo. 2.3. Normalidad Los residuos del modelo deben seguir una distribución normal. Es uno de los supuestos claves del modelo, dado que permite desarrollar las pruebas de hipótesis, basadas en los estadísticos t de Student y F de Snedecor. 3. Intervalos de confianza para modelos de efectos fijos 3.1. Intervalos de confianza clásico Bajo los supuestos planteados para el modelo (2) se puede definir un intervalo de confianza para ( ) de la siguiente forma:

( ) donde ( ) ( ) ( ) con ( ) 3.2. Intervalos de confianza bootstrap El método Bootstrap es un método de replicación desarrollado por Efron (1979). Consiste en la reutilización de la muestra original. De ésta se seleccionan un número determinado de veces muestras con reposición de igual tamaño (denominadas bootstrap), a partir de la cual se obtienen estimaciones de los parámetros de interés aplicando el mismo estimador a cada una de ellas. Luego se podrán obtener estimaciones de variancia e intervalos de confianza. Bajo el modelo (2) se presentan tres tipos de estimaciones bootstrap: paramétrico, empírico y Wild. A continuación se describen los pasos a seguir para obtener cada uno de estos intervalos. 3.2.1. Bootstrap paramétrico a. Obtener una estimación de b. Calcular, donde es generado de una distribución ( ) c. Se obtiene a partir del modelo (2) d. Se repiten los pasos b. y c. B veces e. Para cada valor de obtener los percentiles 2.5% y 97.5% de la distribución de 3.2.2. Bootstrap empírico a. Estimar los residuales a partir del modelo (2) b. Obtener * +, una muestra aleatoria con reemplazo de tamaño n de los residuales obtenidos en a. c. Calcular, donde los son los obtenidos en b. d. Postular el modelo (2) con ( ) y obtener ( ) e. Repetir los pasos b. hasta d. B veces f. Para cada valor de obtener los percentiles 2.5% y 97.5% de la distribución de

3.2.3. Bootstrap Wild a. Estimar los residuales a partir del modelo (2) b. Obtener * +, de una distribución de 2 puntos con masa ( ) y ( ) y probabilidad muestral ( ) ( ) c. Calcular, donde los son los obtenidos en b. d. Postular el modelo (2) con ( ) y obtener ( ) e. Repetir los pasos b. hasta d. B veces f. Para cada valor de obtener los percentiles 2.5% y 97.5% de la distribución de 4. Aplicación Se realizó un estudio por simulación a partir del cual se obtuvieron 100 pares de valores ( ) utilizando la siguiente función de generación de datos: con, - y donde los van a tener una distribución que dependerá de los escenarios de cumplimiento de los supuestos que se estén proponiendo. 4.1 Escenario 1: Errores Normales con variancia constante Se comenzó estudiando el comportamiento de los intervalos Bootstrap bajo cumplimiento de los supuestos de los modelos de regresión. Para ello, los errores se generaron de la siguiente manera: ( ) con. La Figura 1 muestra el diagrama de dispersión de los datos simulados y el correspondiente ajuste bajo un modelo P-spline lineal de efectos fijos, con errores normales y variancia constante. Figura 1. Regresión P-spline lineal bajo cumplimiento de los supuestos.

En la figura siguiente se presentan los intervalos de confianza clásicos y los diferentes tipos de intervalos Bootstrap. Figura 2. Intervalos de Confianza Clásico y Bootstrap para la Regresión P-spline lineal bajo cumplimiento de los supuestos. 4.2 Escenario 2: Errores Normales con variancia no constante En este caso, los intervalos Bootstrap se analizaron bajo condiciones de Heterocedasticidad, la cual fue obtenida con los errores definidos como se muestra a continuación:

( ) con. La Figura 3 muestra el diagrama de dispersión de los datos simulados y el ajuste bajo un modelo P-spline lineal de efectos fijos, con errores normales y variancia no constante. Figura 3. Regresión P-spline lineal bajo incumplimiento del supuesto de variancia constante. En la figura siguiente se presentan los intervalos de confianza clásicos y los diferentes tipos de intervalos Bootstrap, bajo las condiciones descriptas. Figura 4. Intervalos de Confianza Clásico y Bootstrap para la Regresión P-spline lineal, bajo incumplimiento del supuesto de variancia constante.

4.3 Escenario 3: Errores No Normales En este escenario, los intervalos Bootstrap se estudiaron bajo la situación de errores provenientes de una distribución Gamma: ( ) con y. La Figura 5 muestra el diagrama de dispersión de los datos simulados y el correspondiente ajuste bajo un modelo P-spline lineal de efectos fijos, con errores generados a partir de una distribución Gamma.

Figura 5. Regresión P-spline lineal con errores no normales. En la figura siguiente se presentan los intervalos de confianza clásicos y los diferentes tipos de intervalos Bootstrap, bajo las condiciones descriptas. Figura 4. Intervalos de Confianza Clásico y Bootstrap para la Regresión P-spline lineal, con errores no normales.

5. CONCLUSIÓN Las Regresiones Splines Penalizadas constituyen una herramienta poderosa a la hora de describir la relación entre dos variables, cuando esto no puede ser realizado mediante los modelos simples de regresión. Sin embargo, al igual que ocurre con los modelos clásicos de regresión, se suele pasar por alto la verificación del cumplimiento de los supuestos. En esta aplicación, se observó el impacto de la violación de algún supuesto en los intervalos de confianza del ajuste de la regresión p-spline. Tanto los intervalos clásicos como los intervalos Bootstrap empírico y paramétrico ofrecen comportamientos similares, incluso en las situaciones de incumplimiento de alguno de los supuestos. En cambio, los intervalos Bootstrap Wild sugieren intervalos de mayor amplitud, en especial, cuando no se cumple el supuesto de homogeneidad de variancia de los errores. REFERENCIAS BIBLIOGRÁFICAS Efron, B. and Tibshirani, R. (1993). An Introduction to the Bootstrap. New York: Chapman & Hall. Kauermann, G., Claeskens, G. and Opsomer, J. D. (2006). Bootstrapping for Penalized Spline Regression. Journal of Computational and GraphicalStatistics, 18, 126-146. Ngo, L. and Wand M. (2004). Smoothing with Mixed Models Software. Journal of Statistical Software Volume 09, Issue 01. Ruppert, D. (2002). Selecting the Number of Knots for Penalized Splines. Journal of Computational and Graphical Statistics. Volume 11(4):735-757. Ruppert, D., Wand, M. P. and Carrol, R. J. (2003). Semiparametric Regression. Cambridge University Press. New York.