Técnicas Multivariadas Avanzadas

Documentos relacionados

El modelo Ordinal y el modelo Multinomial

ESTIMACIÓN. puntual y por intervalo

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

Técnicas Cuantitativas para el Management y los Negocios

TEMA 4: Variables binarias

Medias Móviles: Señales para invertir en la Bolsa

Random Forests. Felipe Parra

Covarianza y coeficiente de correlación

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias

1 Ejemplo de análisis descriptivo de un conjunto de datos

Pronósticos. Pronósticos y gráficos Diapositiva 1

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

Inferencia Estadística

IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN

Capítulo 8. Selección de variables Introducción

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Medidas de Tendencia Central y Dispersión

MINISTERIO DE EDUCACION DIVISON DE PLANIFICACION Y PRESUPUESTO. Nota Técnica METODO DE COHORTES

La metodologia Cuantitativa. Encuestas y muestras

UNIVERSIDAD AUTÓNOMA DE MADRID DPTO DE ECONOMÍA CUANTITATIVA CURSO 2010/2011 ECONOMETRIA I HOJA 2. Problemas

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

Cuestionario: 1) Utilizas o haz utilizado la línea de colectivo 128? Sí, No? 2) Crees qué se encuentra en buen estado de servicio? Sí, No?

REGRESIÓN LINEAL MÚLTIPLE

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

Tema 1: Introducción a la Estadística

MÁQUINAS DE VECTORES DE SOPORTE

Sistemas de ecuaciones lineales

Pruebas de. Hipótesis

1. a) Definimos X =número de personas con síntomas si examino sólo una persona, la cual sigue una distribución B(1, p), donde

Modelos estadísticos aplicados en administración de negocios que generan ventajas competitivas

DESCRIPCIÓN DE LA METODOLOGÍA UTILIZADA EN EL PROGRAMA DE CESTAS REDUCIDAS ÓPTIMAS

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como:

Análisis de componentes principales

Tema 2 Estadística Descriptiva

Conceptos básicos de estadística para clínicos

MODELOS DE INVENTARIO

Uso de Factores de Generación en la Evaluación Social de Proyectos de Pavimentación de Caminos

Cadena de Valor y Estrategias Genéricas 1. Prof. Marcelo Barrios

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Análisis de dominancia usando ruby-statsample. Introducción. Instalación de Ruby y gemas. Windows

Generación de Números Pseudo-Aleatorios

Tutorial - Parte 2: Scoring

TIPOS DE MUESTREO. Jordi Casal 1, Enric Mateu RESUMEN

Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor

TEMA 1. Introducción al análisis empírico de variables económicas.

Regresión lineal múltiple

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Procesamiento de información para la investigación utilizando el programado Excel recopilados. Los participantes rán en

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

ANÁLISIS DE DATOS NO NUMERICOS

MEDIDAS DE DISPERSIÓN EMPLEANDO EXCEL

Aplicación de los modelos de credit scoring para instituciones microfinacieras.

Jorge De Nova Segundo

CAPÍTULO I. INTRODUCCIÓN. Las empresas mexicanas que actualmente venden por Internet se están enfrentando al

MUESTREO TIPOS DE MUESTREO

Densidad. Objetivos. Introducción. Equipo y Materiales. Laboratorio de Mecánica y fluidos Práctica 10

ANEXOS. 1) Modelo Probit.

Movimiento a través de una. José San Martín

EJERCICIOS DE PROGRAMACIÓN RELACIÓN VII (EJERCICIOS DE REPASO)

Modelos de regresión: lineal simple y regresión logística

TEMA 5 Variables ficticias

Administración de proyectos. Organizar, planificar y programar los proyectos de software

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

Base de datos II Facultad de Ingeniería. Escuela de computación.

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

Préstamo Tipo Costo Financiero Total (CFT). Préstamos Generales Tasas, Montos y Condiciones de otorgamiento.

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Multiple Linear Regression

Correlación entre variables

ESTADÍSTICA SEMANA 4

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Estadística; 3º CC. AA. Examen final, 4 de septiembre de 2009

Capítulo 7: Distribuciones muestrales

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

Inteligencia de Negocio

SERIES DE TIEMPO INTRODUCCIÓN

PRESENTACIÓN GRÁFICA DE LOS DATOS

Análisis y cuantificación del Riesgo

PRINCIPIOS FINAN IEROS FUNDAMENTALE DEL FED

El Filtro de Partículas

10. DISEÑOS EXPERIMENTALES

ESTIMACION DE INTERVALOS DE CONFIANZA

Módulo 9 Sistema matemático y operaciones binarias

Estacionalidad. Series de tiempo. Modelos econométricos. Modelos econométricos. Q= T Kα Lβ

Cómo se sabe si una metodología científica es confiable y válida?

Parte I: Introducción

Comunicaciones Digitales - Ejercicios Tema 3

UNIDAD 4 PROCESOS DE MARKOV

FACULTAD DE ENFERMERIA MAESTRÌA EN ENFERMERIA PROGRAMA DEL CURSO ESTADÌSTICA AVANZADA CODIGO MC1114 REQUISITOS EG2113 CREDITO: 4

4.3 INTERPRETACIÓN ECONÓMICA DE LA DUALIDAD

CORRELACIÓN Y PREDICIÓN

Listas de vectores y conjuntos de vectores

CARTAS DE CONTROL: SU EFECTIVIDAD PARA DETECTAR CAMBIOS

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

Transcripción:

Regresión lineal Universidad Nacional Agraria La Molina 2014-2

Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo La regresión lineal es una metodología simple para el aprendizaje supervizado. Asume que la dependencia de Y sobre X = (X 1, X 2,, X p ) es lineal. Sin embargo las funciones de regresión casi nunca son lineales. Aunque pueda parecer muy simplista la regresión lineal es extremadamente útil en términos prácticos y conceptuales.

Regresión lineal para la data Advertising Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo Sales 5 10 15 20 25 Sales 5 10 15 20 25 Sales 5 10 15 20 25 0 50 100 200 300 TV 0 10 20 30 40 50 Radio 0 20 40 60 80 100 Newspaper

Regresión lineal para la data Advertising Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo ¾Existe relación entre el presupuesto en publicidad y las ventas? ¾Qué tan fuerte es la relación anterior? Qué medio de publicidad contribuye más en las ventas? ¾Con que precisión se pueden predecir las ventas? ¾La relación es lineal? ¾Existe sinergia entre los medios de publicidad?

Regresión lineal simple Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo Se asume el modelo: Y = β 0 + β 1 X + ɛ β 0 y β 1 son constantes desconocidas llamadas coecientes o parámetros. ɛ es un término de error. Si se tienen las estimaciones ˆβ 0 y ˆβ 1 se pueden predecir el valor de la variable respuesta: ŷ = ˆβ 0 + ˆβ 1 x donde ŷ indica la predicción de Y sobre x.

Método de mínimos cuadrados Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo Sea e i = y i ŷ i que representa el i-ésimo residual. Se dene la suma de cuadrados de los residuales (RSS) por: o equivalentemente: RSS = e 2 1 + + e 2 n RSS = (y 1 ˆβ 0 + ˆβ 1 x 1 ) 2 + + (y n ˆβ 0 + ˆβ 1 x n ) 2 El método de mínimos cuadrados escoge ˆβ 0 y ˆβ 1 de tal forma que se minimize RSS. Luego: ˆβ 1 = n i=1 (x i x)(y i y) n i=1 (x i x) 2 ˆβ 0 = y ˆβ 1 x

Ejemplo: Data Advertising Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo La regresión de sales sobre TV captura la esencia de la relación a pesar de que resulta algo deciente en la parte izquierda del gráco.

Error estándar Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo El error estándar de un estimador reeja su comportamiento bajo un muestreo repetido. Se tiene que: SE( ˆβ 1 ) = σ n i=1 (x i x) 2 donde σ 2 = Var(ɛ). 1 SE( ˆβ 0 ) = σ n + x 2 n i=1 (x i x) 2 Un intervalo de conanza del (1 α) 100 % para la pendiente tiene la forma: ˆβ 1 ± t n 2,1 α/2 ŜE( ˆβ 1 )

Pruebas de hipótesis Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo Los errores estándar son usados para establecer pruebas de hipótesis sobre los coecientes, por ejemplo: H 0 : β 1 = 0 H 1 : β 1 0 Para evaluar la hipótesis nula se calcula: t = ˆβ 1 0 ŜE( ˆβ 1 ) t n 2 Usando R se puede obtener la probabilidad de observar un valor mayor o igual a t llamado p-value.

Error estándar residual y R 2 Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión del modelo Se usa el error estándar residual: RSS RSE = n 2 También se puede calcular la fracción de la varianza explicada: R 2 = 1 RSS TSS donde TSS = n i=1 (y i y 2 ) es la suma de cuadrados del total. Se puede probar que R 2 = r 2 donde r es el coeciente de correlación entre X y Y.

Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables El modelo de regresión lineal múltiple: Y = β 0 + β 1 X 1 + + β p X p + ɛ Se interpreta β j como el efecto promedio que tiene cada incremento unitario en X j sobre Y manteniendo jos el resto de predictores. La interpretación anterior es posible solo cuando los predictores no se encuentran correlacionados. En la data Adversiting el modelo seria: sales = β 0 + β 1 TV + β 2 radio + β 3 newspaper + ɛ

Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Data Analysis and Regression Mosteller and Tukey 1977 Un coeciente de regresión estima el cambio esperado en Y por unidad de cambio en X j cuando todos los otros predictores permanecen jos. Sin embargo los predictores usualmente cambian juntos. George Box Escencialmente todos los modelos son incorrectos, pero algunos son útiles.

Estimación y predicción Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Dadas las estimaciones ˆβ 0, ˆβ 1,, ˆβ p se pueden realizar predicciones usando: ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ p x p Las estimaciones de los parámetros se obtienen minimizando nuevamente la suma de cuadrados del residual RSS: RSS = = n (y i ŷ i ) 2 i=1 n (y i ˆβ 0 ˆβ 1 x i1 ˆβ p x ip ) 2 i=1

Estimación y predicción Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Y X2 X1

Algunas preguntas Regresión lineal Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables ¾Es al menos uno de los predictores útil para predecir la variable respuesta? ¾Ayudan todos los predictores a explicar Y o solo un subconjunto de ellos? ¾Que tan bien el modelo estima la data? ¾Con que precisión es posible predecir un valor para y dado un conjunto de valores para los predictores? Para la primera pregunta se puede usar: F = (TSS RSS)/p RSS/(n p 1) F p,n p 1

Identicando las variables importantes Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables La metodología directa es llamada all subsets o best subsets regression. Se obtienen todos los posibles modelos de regresión y luego se eligen algunos usando algún criterio que permita un balance entre el error de estimación y el tamaño del modelo. Sin embargo no es posible examinar todos los posibles modelos ya que existen 2 p (si p = 40 existen más de un billón de modelos) Se requiere una método que busque a través de un subconjunto de estos modelos. Se presentan a continuación dos de estas metodologías.

Forward selection Regresión lineal Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Se empieza con un modelo nulo, es decir aquel que contiene un intercepto pero ninguna variable predictora. Estimar las p regresiones lineales simples y agregar al modelo aquella variable con la que se obtenga el menor RSS. Agregar al modelo la variable que resulta en el menor RSS entre todos los modelo con dos variables que incluya la variable incuida en el paso anterior. Continuar hasta que se satisfaga algún criterio de parada, por ejemplo cuando todas las variables restantes tengan un p-value por encima de cierto umbral.

Backward selection Regresión lineal Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Se empiezan con todas las variables en el modelo. Se elimina la variable con el mayor p-value. Se estima el modelo con p 1 variables y nuevamente se elimina aquella variable con el mayor p-value. Se continua hasta que se alcanza algún criterio de parada. Por ejemplo el proceso se detiene cuando todas las variables en el modelo tienen un p-value por debajo de un nivel de signicación denido como umbral.

Criterios para seleccionar modelos Estimandolos coecientes de regresión Algunas preguntas importantes Selección de variables Más adelante se discutirán algunos criterios para escoger un modelo óptimo dentro de aquellos obtenidos por la selección stepwise o backward. Estos criterios incluyen: C p de Mallows, Criterio de Información de Akaike (AIC), Criterio de Información Bayesiano (BIC), R 2 ajustado y Validación Cruzada (CV).

Predictores cualitativos Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Muchas veces se tienen predictores cualitativos que toman valores dentro de un conjunto discreto. Estos predictores son también llamados variables categóricos o factores. En la data Credit se tienen cuatro variables cualitativas: gender, student (student status), status (marital status) y ethnicity (Caucasian, African American (AA) o Asian). Suponga que se desea estudiar las diferencias en el balance de la tarjeta de crédito entre los hombres y mujeres ignorando las otras variables.

Predictores cualitativos con dos niveles Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Se crea la siguiente variable: { 1 si la i esima persona es mujer x i = 0 si la i esima persona es hombre El modelo resultante es: y i = β 0 + β 1 x i + ɛ i = { β 0 + β 1 + ɛ i β 0 + ɛ i

Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Predictores cualitativos con más de dos niveles Para ethnicity se crean dos variables dummy. La primera podria ser: { 1 si la i esima persona es Asiatica x i1 = 0 si la i esima persona no es Asiatica y la segunda: x i2 = { 1 si la i esima persona es Caucasica 0 si la i esima persona no es Caucasica

Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Predictores cualitativos con más de dos niveles Las variables anteriores pueden ser usadas en la ecuación de regresión para obtener el modelo: β 0 + β 1 + ɛ i y i = β 0 + β 1 x i1 + β 2 x i2 + ɛ i = β 0 + β 2 + ɛ i β 0 + ɛ i Se requiere una cantidad de variables dummy igual al número de niveles menos uno. El nivel que no tiene asociado ninguna variable dummy (AA) es conocida como baseline.

Extenciones del modelo lineal Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Se puede considerar en el modelo interacciones y efectos no lineles. En el análisis para la data Adversiting se asume que el efecto de los medios de publicidad sobre sales es independiente de la cantidad gastada en los otros. Por ejemplo, el modelo lineal: sales = β 0 + β 1 TV + β 2 radio + β 3 newspaper considera que el efecto de incrementar TV en una unidad sobre sales siempre es β 1 independientemente de la cantidad gastada en radio.

Interacciones Regresión lineal Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Suponga que gastar dinero en publicidad por radio incrementa la efectividad de la publicidad en TV, de tal forma que la pendiente para esta variable debería incrementarse conforme radio se incrementa. En esta situación, con un presupuesto jo de 100000 dolares, gastando la mitad en radio y la otra mitad en TV podriamos incrementar sales más que si gastaramos todo el presupuesto solo en TV o solo en radio. En marketing, esto es conocido como efecto de sinergia y llamado efecto de interacción en estadística.

Interacción en la data adversiting Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Sales TV Radio

Interacción en la data adversiting Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Se observa que para valores bajos de TV o radio los valores de sales son menores que los predecidos por el modelo lineal. Sin embargo cuando se divide la publicidad entre dos medios se tiende a subestimar sales. El modelo tiene la forma: sales = β 0 + β 1 TV + β 2 radio + β 3 TV radio Los resultados en R sugieren que la interacción es importante. El R 2 para el modelo anterior es 96,8 % comparado con un 89,7 % para el modelo que no considera interacción.

Interacción en la data adversiting Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Esto signica que (96,8 89,7)/(100 89,7) = 69 % de la variabilidad en sales que queda luego de estimar el modelo aditivo es explicado por el término de interacción. Los coecientes estimados sugieren que un incremento en 1000 dólares en la publicidad para TV esta asociado a un incremento en sales de: ( ˆβ 1 + ˆβ 3 radio) 1000 = 19 + 1,1radio unidades Un incremento en 1000 dólares en la publicidad en radio esta asociado con un incremento en sales de: ( ˆβ 2 + ˆβ 3 TV) 1000 = 29 + 1,1TV unidades

Jerarquía Regresión lineal Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Muchas veces el efecto de interacción tiene un p-value pequeño pero los efectos principales asociados (en este caso TV y radio) no son importantes. El principio de jerarquía: Si se incluye un efecto de interacción en un modelo, también se debe incluir los efectos principlaes aún cuando su p-values asociados no sean signicativos. La razón para este principio esta en que la interacción es difícil de interpretar en un modelo sin los efectos principales ya que el signicado de los coecientes estimados cambiaría.

Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Interacciones entre variables cualitativas y cuantitativas Considere la data Credit y suponga que se desea predecir balance usando income (cuantitativa) y student (cualitativa). Sin considerar un témino de interacción el modelo tiene la forma: { β 0 + β 2 + β 1 income balance i = β 0 + β 1 income + β 2 x i = β 0 + β 1 income Considerando interacción: balance i = β 0 + β 1 income + β 2 x i + β 3 incomex i

Gráco data Credit Regresión lineal Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal El gráco de la izquierda considera el modelo sin interacción entre income y student. El gráco de la derecha considera el modelo con interacción entre income y student. Balance 200 600 1000 1400 Balance 200 600 1000 1400 student non student 0 50 100 150 Income 0 50 100 150 Income

Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal Efectos no lineales El gráco sugiere que: mpg = β 0 + β 1 horsepower + β 2 horsepower 2 + ɛ proporciona un mejor ajuste. Miles per gallon 10 20 30 40 50 Linear Degree 2 Degree 5 50 100 150 200 Horsepower

Generalizaciones Regresión lineal Predictores cualitativos Interacciones Efectos no lineales en los predictores Generalizaciones del modelo lineal En el resto del curso se discuten métodos que expanden el alncance de los modelos lineales. Problemas de clasicación: regresión logística, support vector machines. No linealidad: Suavización por kernel, splines, modelos aditivos generalizados, vecinos más cercanos. Interacciones: Arboles, bagging, random forest y boosting. Estimación regularizada: regresión ridge y lasso.