Multiple Linear Regression

Documentos relacionados
Multiple Linear Regression

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS DE REGRESIÓN

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Método de cuadrados mínimos

Métodos Estadísticos Multivariados

peso edad grasas Regresión lineal simple Los datos

4.1 Análisis bivariado de asociaciones

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Econometría Aplicada

Técnicas Cuantitativas para el Management y los Negocios

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University.

Práctica 3: Regresión simple con R

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Modelos lineales. Tema 2: Inferencia en el modelo de regresión lineal simple. 6 de febrero de Carmen Armero

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

Beatriz Sánchez Reyes. 22 de septiembre de 2010

Prueba de Hipótesis. Para dos muestras

Diseño de Experimentos

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Introducción a pruebas de hipótesis

Teoría de la decisión

Introducción a pruebas de hipótesis

Tema 4. Regresión lineal simple

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

Regresión Lineal. 15 de noviembre de Felipe Bravo Márquez

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

TEMA 2 Diseño de experimentos: modelos con varios factores

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

Cálculos de Regresión Logística en R, Caso de una covariable.

Muestreo e inferencia

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Ejercicio 1 (20 puntos)

UNIVERSIDAD DE ATACAMA

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Modelos lineales. Tema 1: Modelo de regresión lineal simple. 6 de febrero de Carmen Armero

Julio Deride Silva. 4 de junio de 2010

Regresión ponderada y falta de ajuste

Qué es una regresión lineal?

Aplicación de Correlación en la Investigación Correlation Application in Research

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

Análisis de Regresión

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

T2. El modelo lineal simple

Estadística Inferencial. Sesión 11. Regresión y correlación múltiple

TEMA 4 Modelo de regresión múltiple

PP: gran cantidad de faltantes. Mejor solución no siempre es la misma: 1) Trabajar con datos incompletos (ojo con no sesgar la serie!!

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Diseño de experimentos Hugo Alexer Pérez Vicente

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

ANOVA I ES EL ANÁLISIS DE LA VARIANZA DE UN FACTOR

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

La línea recta: Serie1

Tercera práctica de REGRESIÓN.

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Ajuste de Regresión Lineal Simple

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

OPTIMIZACIÓN EXPERIMENTAL. Ing. José Luis Zamorano E.

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

ANÁLISIS DE REGRESIÓN N LINEAL

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Anova unifactorial Grados de Biología y Biología sanitaria

Estadística. Convocatoria ordinaria

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Intervalos de confianza con STATGRAPHICS

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Repaso de estadística básica. Juan D. Barón Santiago de Chile, 8 de abril de 2013

Motivación. Motivación PRONOSTICOS DE DEMANDA

Modelos Lineales. Regresión Lineal Múltiple. Práctica 5

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

UNA PROPUESTA PARA LA MAXIMIZACIÓN DE LA ESTADÍSTICA Q K

Análisis de Regresión y Correlación con MINITAB

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Capítulo 6. Análisis de la covarianza ANÁLISIS DE LA COVARIANZA UNIFACTORIAL INTRODUCCIÓN

Estadísticas Pueden ser

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

Un modelo para representar una relación aproximadamente

Estadística Diplomado

Definición de Correlación

ANALISIS DE FRECUENCIA EN HIDROLOGIA

Ejercicio 1(10 puntos)

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Ejercicios de Regresión Lineal

PONTIFICIA UNIVERSIDAD CATÓLICA DE PUERTO RICO DEPARTAMENTO DE FÍSICA MATEMÁTICAS

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Departamento de Matemática Aplicada a las T.I.C. SOLUCIONES

Análisis de Regresión Lineal Simple para Predicción. (Simple Linear Regression Analysis for Prediction)

Análisis de la Varianza (ANOVA) y Correlación

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

CAPÍTULO 2 REGRESIÓN LINEAL MULTIPLE

Transcripción:

Multiple Linear Regression Aniel Nieves-González Aniel Nieves-González () LSP 1 / 16

Considere el ejemplo en cual queremos modelar las ventas en una cadena de tiendas por departamento. La v.a. dependiente (Y ) es... Aniel Nieves-González () LSP 2 / 16

Considere el ejemplo en cual queremos modelar las ventas en una cadena de tiendas por departamento. La v.a. dependiente (Y ) es... La(s) v.a. independiente es (son)... Aniel Nieves-González () LSP 2 / 16

Considere el ejemplo en cual queremos modelar las ventas en una cadena de tiendas por departamento. La v.a. dependiente (Y ) es... La(s) v.a. independiente es (son)... La diferencia entre el simple linear regression y el multiple linear regression es que en el primero se considera una v.a. independiente mientras que en el segundo se considera más de una v.a. independiente. Aniel Nieves-González () LSP 2 / 16

Ejemplo ficticio... 3D Scatterplot (noiseless) 3D Scatterplot Z1 0 50 100 150 200 250 300 350 0 2 4 6 8 10 0 20 40 60 80 10 Y Z1 0 50 100 150 200 250 300 350 0 2 4 6 8 10 0 20 40 60 80 10 Y X X Aniel Nieves-González () LSP 3 / 16

Ejemplo ficticio... 3D Scatterplot (noisy, sigma=3) 3D Scatterplot (noisy, sigma=3) Z2 0 50 100 150 200 250 300 350 0 2 4 6 8 10 0 20 40 60 80 10 Y Z2 0 50 100 150 200 250 300 350 0 2 4 6 8 10 0 20 40 60 80 10 Y X X Aniel Nieves-González () LSP 3 / 16

Ejemplo ficticio... 3D Scatterplot (noisy, sigma=6) 3D Scatterplot (noisy, sigma=6) Z3 0 50 100 150 200 250 300 0 2 4 6 8 10 0 20 40 60 80 10 Y Z3 0 50 100 150 200 250 300 0 2 4 6 8 10 0 20 40 60 80 10 Y X X Aniel Nieves-González () LSP 3 / 16

Definition (Multiple Linear Regression model) Considere un SRS de n observaciones independientes de la variables independientes X 1,..., X p y de la variable dependiente Y, donde Y N(µ y, σ): {(x 11,..., x 1p, y 1 ),..., (x i1,..., x ip, y i ),..., (x n1,..., x np, y n )} El modelo estadistico de regresión lineal es y i (x i1,..., x ip ) = β 0 + p β k x ip + ɛ i donde i = 1, 2,..., n, ɛ i N(0, σ) y son independientes. Los parámetros del modelo son β 0, β 1,..., β p, σ. La respuesta media (mean response) es p µ y = β 0 + β k x ip. k=1 k=1 Aniel Nieves-González () LSP 4 / 16

La meta es obtener de la muestra estimados para β k y σ 2. A dichos estimados le llamaremos b k y s 2 reg respectivamente. Aniel Nieves-González () LSP 5 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 Aniel Nieves-González () LSP 6 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) Aniel Nieves-González () LSP 6 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) b = (b 0,..., b k ) son los parámetros (constantes del modelo matemático). Aniel Nieves-González () LSP 6 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) b = (b 0,..., b k ) son los parámetros (constantes del modelo matemático). F (x i1,..., x ip, b) es el modelo matemático. Note que F depende de los datos y de los parámetros. Aniel Nieves-González () LSP 6 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) b = (b 0,..., b k ) son los parámetros (constantes del modelo matemático). F (x i1,..., x ip, b) es el modelo matemático. Note que F depende de los datos y de los parámetros. En este caso el modelo matemático representará a la relación entre las variables X 1..., X p y Y. Aniel Nieves-González () LSP 6 / 16

Least-squares regression (regresión por cuadrados mínimos) Como vimos antes, En esencia el problema de cuadrados mínimos (o least squares (LS) regression) es un problema de minimización, que se resuleve para encontrar los párametros del modelo: n min (F (x i1,..., x ip, b) y i ) 2 b donde: i=1 {(x 11,..., x 1p, y 1 ),...,..., (x n1,..., x np, y n )} son los datos (note las p + 1 variables X 1..., X p y Y ) b = (b 0,..., b k ) son los parámetros (constantes del modelo matemático). F (x i1,..., x ip, b) es el modelo matemático. Note que F depende de los datos y de los parámetros. En este caso el modelo matemático representará a la relación entre las variables X 1..., X p y Y. En LSP se buscan los parámetros del modelo que minimizan la distancia (euclideana) entre modelo y datos. Aniel Nieves-González () LSP 6 / 16

Regression standard error La desviación estandar del modelo, esto es σ, se estima con el standard error de la regresión (s reg ): s reg = donde x i = (x i1,..., x ip ) y n i=1 (y i ŷ i (x i )) 2 n p 1 ŷ i (x i ) = b 0 + b 1 x i1 + b 2 x i2 + + b p x ip es el modelo matemático evaluado en x i (modelo lineal en este caso). Más aun note que y i ŷ i (x i ) es el i-ésimo residual y n i=1 (y i ŷ i (x i )) 2 es el sum of squares residuals or error (SSE). Aniel Nieves-González () LSP 7 / 16

Intervalo de confianza para los β i s Definition El IC de confianza de nivel C para β k es b k ± t SE bk donde b k es el valor que se encuentra resolviendo el LSP, SE bk es el standard error de b k, y t es el valor para la curva de densidad de la distribución t(n p 1) con area bajo la curva y sobre el intervalo [ t, t ] igual a C. Aniel Nieves-González () LSP 8 / 16

Test de significancia para los β i s Definition Considere H 0 : β k = 0. Calcule la estadística t: t = b k SE bk. Suponga que la v.a. T t(n p 1), luego para: H a : β k > 0, P value = P r(t t) H a : β k < 0, P value = P r(t t) H a : β k 0, P value = 2P r(t t ) Observe que no rechazar H 0 : β k = 0 implica que X k no tiene ningún importancia para predecir Y. Aniel Nieves-González () LSP 9 / 16

CI & PI La inferencia para la predicción (confidence interval y prediction interval) se construye y se interpreta de forma similar que para el caso de regresión lineal simple. Aniel Nieves-González () LSP 10 / 16

ANOVA y regresión lineal multiple Análogo al caso de regresión lineal simple y ANOVA, la idea es que la variación total se rompe en dos componentes: el atribuido a la regresión (SSR) y el que se atribuye a los residuales. La tabla ANOVA en este caso es: Source DF SS MS Regression DFR = p SSR = (ŷ i ȳ) 2 MSR = DFR SSR Residual (Error) DFE = n p 1 SSE = (y i ŷ i ) 2 MSE = DFE SSE Total DFT = n 1 SST = (y i ȳ) 2 F = MSR MSE Donde DF es dregrees of freedom, SS es sum of squares, y MS es mean sum of squares. Observe que SST = SSR + SSE DFT = DFR + DFE Aniel Nieves-González () LSP 11 / 16

ANOVA y regresión lineal multiple Definition (ANOVA F test) Plantée el test de hipótesis: La estadística F para ANOVA es: H 0 :β 1 = β 2 = = β p = 0 H a :β i 0 para algún i F = MSR MSE El P-value es la probabilidad de que una v.a. con distribución F (p, n p 1) sea mayor o igual que la estadística F. Aniel Nieves-González () LSP 12 / 16

F test para una colección de coeficientes de regresión En un modelo de regresión lineal multiple con p variables independientes podemos plantear el test: H 0 :q variables específicas tienen coeficiente cero H a :al menos uno de esos coeficientes no es cero y usar una forma de la estadística F. El P-value es la probabilidad de que una v.a. con distribución F (q, n p 1) sea mayor o igual que la estadística F. Aniel Nieves-González () LSP 13 / 16

F test para una colección de coeficientes de regresión El R 2 en el caso de regresión lineal multiple se puede calcular R 2 = SSR SST = (ŷi ȳ) 2 (yi ȳ) 2 Esta es la proporción de variación en la variable dependiente que se explica por las variables independientes en el modelo de regresión lineal multiple. Aniel Nieves-González () LSP 14 / 16

F test para una colección de coeficientes de regresión Si el software no provee la funcionalidad para este test se puede hacer lo siguiente: 1 Haga la regresión para las p variables originales, y llámele al R 2 obtenido R 2 1 2 Haga la regresión para las p q variables que quedan luego de remover las q variables, y llámele al R 2 resultante R 2 2. 3 La estadística F es ( ) ( n p 1 R 2 F = 1 R 2 ) 2 q 1 R1 2 Aniel Nieves-González () LSP 15 / 16

Ahora, retornemos al ejemplo inicial... Aniel Nieves-González () LSP 16 / 16