Multiple Linear Regression



Documentos relacionados
Multiple Linear Regression

Técnicas Cuantitativas para el Management y los Negocios

Linear Regression and the Least-squares problem

Inferencia Estadística

Linear Regression and the Least-squares problem

T R A B A J O D E I N V E S T I G A C I O N D E O P E R A C I O N E S I

ANEXO USO DEL PROGRAMA GIVE-WIN Y PC-GIVE

10. DISEÑOS EXPERIMENTALES

Análisis de Regresión y Correlación con MINITAB

Principios de Estadística. Intro. En R. Ejercicios

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Capítulo 7: Distribuciones muestrales

ESTIMACIÓN. puntual y por intervalo

Estimación. Intervalos de Confianza para la Media y para las Proporciones

Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS

REPRESENTACIÓN DE UNA DISTRIBUCIÓN DE PROBABILIDAD DISCRETA

Tema 10. Estimación Puntual.

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

Covarianza y coeficiente de correlación

Capítulo 9. Regresión lineal simple

Tests de hipótesis estadísticas

Universidad del CEMA Prof. José P Dapena Métodos Cuantitativos V - ESTIMACION PUNTUAL E INTERVALOS DE CONFIANZA. 5.1 Introducción

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

CLAVE: LII PROFESOR: MTRO. ALEJANDRO SALAZAR GUERRERO

Pruebas de. Hipótesis

UN MODELO DE PRONÓSTICO PARA LAS PRIMAS DE SEGUROS DE VIDA Y PERSONAS

DESCRIPCIÓN ESPECÍFICA

EJERCICIOS PROPUESTOS - ANÁLISIS DE REGRESION MULTIPLE

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Inferencia estadística Módulo de regresión lineal simple

Regresión múltiple. Modelos y Simulación. I. Introducción II. Marco teórico III. Aplicación IV. Conclusiones V. Bibliografía

Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD.

Gráfico de Dispersión de Notas en la Prueba 1 versus Notas en la Prueba Final Acumulativa de un curso de 25 alumnos de Estadística en la UTAL

PRUEBA DE FALTA DE AJUSTE (Lack-of-fit Test) Fortino Vela Peón

Funciones más usuales 1

Detergente Lavad.1 Lavad.2 Lavad.3 Media A B C D Media

Métodos de promedios. Diplomado en Gestión Estratégica de las Finanzas Públicas MÉTODOS ESTADÍSTICOS PARA LA ESTIMACIÓN DE INGRESOS

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

Departamento de Economía Aplicada I ESCUELA UNIVERSITARIA DE ESTUDIOS EMPRESARIALES DIPLOMATURA EN CIENCIAS EMPRESARIALES ESTADÍSTICA

REGRESION simple. Correlación Lineal:

7.6 Comparación entre dos medias Poblacionales usando muestras independientes

Universitat Pompeu Fabra Licenciatura de ADE y Economía Econometría I / 10143) Profesor: Javier Coronado Examen Final Diciembre 2011

Conceptos básicos de estadística para clínicos

Palabras Claves. Fecha de recepción 03/03/2014 Fecha de aceptación del artículo 02/05/2014

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.E.

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4

Tema 3. Comparaciones de dos poblaciones

Problemas. Variables Aleatorias. Modelos de Probabilidad

EL ANÁLISIS DE LA VARIANZA (ANOVA) 1. Comparación de múltiples poblaciones

Programación en R para Estadística. Simulación

Aplicación de la regresión lineal en un problema de pobreza Application of linear regression on the problem of poverty

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Capítulo X. Regresión Logística

Curso Práctico de Bioestadística Con Herramientas De Excel

Programa de Statgraphics. TITULO: Aplicaciones del Análisis de la Varianza. Resolución de dos Ejercicios propuestos paso por paso.

Tema 1: Test de Distribuciones de Probabilidad

CORRELACIÓN Y PREDICIÓN

9. REGRESIÓN LINEAL. Dr. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

UNIVERSIDAD DE ATACAMA

Correlación entre variables

Estadística II Ejercicios Tema 5

TEMA 7: Análisis de la Capacidad del Proceso

Capítulo 15. Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE LA MEDIA

PROBABILIDAD Y ESTADISTICA II. Propósito del Curso : Al final del curso el estudiante: Ingeniería Ingeniería en Sistemas. Hardware

Nombre...Apellidos... Grado en:...grupo:...

Curso Comparabilidad de resultados

Control Estadístico de Procesos

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Curso: Métodos de Monte Carlo. Unidad 1, Sesión 2: Conceptos básicos

ANÁLISIS DE LA VARIANZA (ANOVA) José Vicéns Otero Ainhoa Herrarte Sánchez Eva Medina Moral

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE CIENCIAS HUMANAS ESCUELA DE GEOGRAFIA PROGRAMA DE CURSO

Tema 5: Introducción a la inferencia estadística

FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS SÍLABO 2013-II

Estadística; 3º CC. AA. Examen final, 4 de septiembre de 2009

Problemas de Probabilidad resueltos.

Grado en Finanzas y Contabilidad

UNED. DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS [TEMA 8] Análisis de Regresión Lineal Simple y Múltiple

Tema 1: Introducción a la Estadística

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n

CURSO HERRAMIENTAS ESTADISTICAS PARA IMPLEMENTACION DE SIX SIGMA EN EMPRESAS DE PRODUCCION, LOGISTICA Y SERVICIOS

Pruebas de Acceso a las Universidades de Castilla y León

Pruebas de Acceso a las Universidades de Castilla y León

IIC Sistemas Recomendadores

METODOLOGIA DE SUPERFICIES DE RESPUESTA. Esto se logra al determinar las condiciones óptimas de operación del sistema.

1.1. Introducción y conceptos básicos

8. Estimación puntual

Cap. 24 La Ley de Gauss

Trabajo de Matemáticas y Estadística Aplicadas

Modelos estadísticos aplicados en administración de negocios que generan ventajas competitivas

Departamento de Matemática Aplicada a la I.T. de Telecomunicación

1.1 Qué es la regresión

Explicación de la tarea 3 Felipe Guerra

Técnicas Multivariadas Avanzadas

Sistemas de Generación de Energía Eléctrica HIDROLOGÍA BÁSICA. Universidad Tecnológica De Pereira

Transcripción:

Multiple Linear Regression Aniel Nieves-González Abril 2013 Aniel Nieves-González () Time Series Abril 2013 1 / 15

Considere el ejemplo en cual queremos modelar las ventas en una cadena de tiendas por departamento. La v.a. dependiente (Y ) es... La(s) v.a. independiente es (son)... La diferencia entre el simple linear regression y el multiple linear regression es que en el primero se considera una v.a. independiente mientras que en el segundo se considera más de una v.a. independiente. Ver ejemplo 11.5. Aniel Nieves-González () Time Series Abril 2013 2 / 15

Ejemplo ficticio... 2 1.5 1 0.5 Y 2 1 0 1 Y 0 0.5 2 1 0 1 2 1.5 1 2 1 Y 0 0 1 X 2 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 2 1 0 X 1 Aniel Nieves-González () Time Series Abril 2013 3 / 15

Definition (Multiple Linear Regression model) Considere un SRS de n observaciones independientes de la variables independientes X 1,..., X p y de la variable dependiente Y, donde Y N(µ y, σ): {(x 11,..., x 1p, y 1 ),..., (x i1,..., x ip, y i ),..., (x n1,..., x np, y n )} El simple linear regression statistical model es y i = β 0 + p β k x ip + ɛ i k=1 donde i = 1, 2,..., n, ɛ i N(0, σ) y son independientes. Los parámetros del modelo son β 0, β 1,..., β p, σ. La respuesta media (mean response) es p µ y = β 0 + β k x ip. k=1 Aniel Nieves-González () Time Series Abril 2013 4 / 15

La meta es obtener de la muestra estimados de β i σ. A dichos estimados le llamaremos b i y s reg respectivamente. Aniel Nieves-González () Time Series Abril 2013 5 / 15

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, p) y i ) 2 p i=1 donde: {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) p son los parámetros (constantes del modelo matemático). F (x i1,..., x ip, p) es el modelo matemático. Note que F depende de los datos y de los parámetros. En este caso el modelo matemático representará a la relación entre las variables X 1..., X p y Y. En LSP se buscan los parámetros del modelo que minimizan la distancia (euclideana) entre modelo y datos. Aniel Nieves-González () Time Series Abril 2013 6 / 15

Regression standard error La desviación estandar del modelo, esto es σ, se estima con el standard error de la regresión: n i=1 (y i ŷ i ) 2 s reg = n p 1 Aniel Nieves-González () Time Series Abril 2013 7 / 15

Intervalo de confianza para los β i s Definition El IC de confianza de nivel C para β i es b i ± t SE bi donde b i es el valor que se encuentra resolviendo el LSP, SE bi es el standard error de b i, y t es el valor para la curva de densidad de la distribución t(n p 1) con area bajo la curva y sobre el intervalo [ t, t ] igual a C. Aniel Nieves-González () Time Series Abril 2013 8 / 15

Test de significancia para los β i s Definition Considere H 0 : β i = 0. Calcule la estadística t: t = b i SE bi. Suponga que la v.a. T t(n p 1), luego para: H a : β i > 0, P value = P r(t t) H a : β i < 0, P value = P r(t t) H a : β i 0, P value = 2P r(t t ) Observe que no rechazar H 0 : β i = 0 implica que X i no tiene ningún importancia para predecir Y. Aniel Nieves-González () Time Series Abril 2013 9 / 15

CI & PI La inferencia para la predicción (confidence interval y prediction interval) se construye y se interpreta de forma similar que para el caso de regresión lineal simple. Aniel Nieves-González () Time Series Abril 2013 10 / 15

ANOVA y regresión lineal multiple Análogo al caso de regresión lineal simple y ANOVA, la idea es que la variación total se rompe en dos componentes: el atribuido a la regresión (SSR) y el que se atribuye a los residuales. La tabla ANOVA en este caso es: Source DF SS MS Regression DFR = p SSR = (ŷ i ȳ) 2 MSR = DFR SSR Residual (Error) DFE = n p 1 SSE = (y i ŷ i ) 2 MSE = DFE SSE Total DFT = n 1 SST = (y i ȳ) 2 F = MSR MSE Donde DF es dregrees of freedom, SS es sum of squares, y MS es mean sum of squares. Observe que SST = SSR + SSE DFT = DFR + DFE Aniel Nieves-González () Time Series Abril 2013 11 / 15

ANOVA y regresión lineal multiple Definition (ANOVA F test) Plantée el test de hipótesis: La estadística F para ANOVA es: H 0 :β 1 = β 2 = = β p = 0 H a :β i 0 para algún i F = MSR MSE El P-value es la probabilidad de que una v.a. con distribución F (p, n p 1) sea mayor o igual que la estadística F. Aniel Nieves-González () Time Series Abril 2013 12 / 15

F test para una collección de coeficientes de regresión En un modelo de regresión lineal multiple con p variables independientes podemos plantear el test: H 0 :q variables específicas tienen coeficiente cero H a :al menos uno de esos coeficientes no es cero y usar una forma de la estadística F. El P-value es la probabilidad de que una v.a. con distribución F (q, n p 1) sea mayor o igual que la estadística F. Aniel Nieves-González () Time Series Abril 2013 13 / 15

F test para una collección de coeficientes de regresión El R 2 en el caso de regresión lineal multiple se puede calcular R 2 = SSR SST = (ŷi ȳ) (yi ȳ i ) Esta es la proporción de variación en la variable dependiente que se explica por las variables independientes en el modelo de regresión lineal multiple. Aniel Nieves-González () Time Series Abril 2013 14 / 15

F test para una collección de coeficientes de regresión Si el software no provee la funcionalidad para este test se puede hacer lo siguiente: 1 Haga la regresión para las p variables originales, y llámele al R 2 obtenido R 2 1 2 Haga la regresión para las p q variables que quedan luego de remover las q variables, y llámele al R 2 resultante R 2 2. 3 La estadística F es ( ) ( n p 1 R 2 F = 1 R 2 ) 2 q 1 R1 2 Aniel Nieves-González () Time Series Abril 2013 15 / 15