Análisis de Regresión

Documentos relacionados
Análisis de Regresión Lineal Múltiple

ANÁLISIS DE REGRESIÓN

Tema 4. Regresión lineal simple

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Método de cuadrados mínimos

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

peso edad grasas Regresión lineal simple Los datos

REGRESIÓN LINEAL SIMPLE

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Econometría Aplicada

Multiple Linear Regression

Coeficiente de Correlación

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

TEMA 4 Modelo de regresión múltiple

Prueba de Hipótesis. Para dos muestras

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Métodos Estadísticos Multivariados

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

4.1 Análisis bivariado de asociaciones

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Técnicas Cuantitativas para el Management y los Negocios

Práctica 3: Regresión simple con R

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

ESTADÍSTICA. Tema 4 Regresión lineal simple

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

Curso de nivelación Estadística y Matemática

Prácticas Tema 2: El modelo lineal simple

Regresión Lineal. 15 de noviembre de Felipe Bravo Márquez

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Teoría de la decisión

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

TEMA 2 Diseño de experimentos: modelos con varios factores

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Diseño de Experimentos

El Modelo de Regresión Lineal

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Capítulo 6. Análisis de la covarianza ANÁLISIS DE LA COVARIANZA UNIFACTORIAL INTRODUCCIÓN

Análisis de Datos y Métodos Cuantitativos para la D.T. VI versión MGM

Ajuste de Regresión Lineal Simple

Tema 2: Análisis de datos bivariantes

T2. El modelo lineal simple

Ejercicio 1 (20 puntos)

Tema 3: Análisis de datos bivariantes

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

Análisis Probit. StatFolio de Ejemplo: probit.sgp

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

ANOVA (Análisis de varianza)

Tema 10: Introducción a los problemas de Asociación y Correlación

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Tema 2: Análisis de datos bivariantes

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Tema 8: Regresión y Correlación

Transformaciones de Box-Cox

Regresión ponderada y falta de ajuste

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Problema 1.- Tengamos las puntuaciones de X, las predichas y las residuales:

Regresión Polinomial. StatFolio de Ejemplo: polynomial reg.sgp

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

INDICE. Prólogo a la Segunda Edición

Definición de Correlación

ANÁLISIS ESTADÍSTICO CORRELACIÓN LINEAL

Exactitud y Linearidad del Calibrador

OPTIMIZACIÓN EXPERIMENTAL. Ing. José Luis Zamorano E.

Regresión en Cadena. StatFolio de Ejemplo: ridge reg.sgp

CAPÍTULO 2 REGRESIÓN LINEAL MULTIPLE

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

SPSS Aplicación práctica: Base de datos del HATCO

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Lección 3. Análisis conjunto de dos variables

Estadísticas II. M. en E. M. Milagros Eugenia Faci. 15 de julio de 2010

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

Análisis de Regresión

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Julio Deride Silva. 4 de junio de 2010

Introducción a la Estadística Aplicada en la Química

ANÁLISIS DE REGRESIÓN N LINEAL

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

Regresión. Notas. Página 1 13-DEC :24:11. Salida creada Comentarios

Estimación de modelos multiecuacionales mediante el entorno de programación R

Transcripción:

Análisis de Regresión por Universidad Nacional de Colombia, Sede Medellín 202

Tipos de gráficos para el análisis residuales Percen nt Normal Probability Plot of the Residuals 99 90 50 0-3.0 -.5 0.0.5 3.0 Standardized Residual Plot de Residuales para IGS Standardized Residual Residuals Versus the Fitted Values 3.0.5 0.0 -.5-3.0 300 320 340 Fitted Value Frequency 6 2 8 4 0-2.4 24 Histogram of the Residuals -.2 2 00 0.0 2.2 24 2.4 Standardized Residual Standardized Re esidual Residuals Versus the Order of the Data 3.0.5 0.0 -.5-3.0 5 0 5 20 25 30 35 40 45 50 Observation Order

Validación del modelo de regresión simple Tabla ANOVA Se utiliza para la prueba de la hipótesis, en el caso simple es: H 0 H: : β 0 = β existe al = 0 versus menos un β i 0

Estimaciones mediante intervalos de ˆ β α S ± t S ( β ) β 0, n 2 0 2 ˆ β α S ± t S ( β ) β, n 2 2 Donde: confianza s n ( β ) = MSE + 0 ( ) s = β MSE S S xx 2 Sxx ˆ 2 σ = MSE = SSE n 2

Estimaciones mediante intervalos de confianza Se un intervalo de confianza para la respuesta media oesperada, asumiendo quela relación Y ˆ = ˆ α + ˆ β entre e Y es lineal. o o Un intervalo de confianza a del 00(-α)% 2 para el valor medio de la variable Y ˆ ( x0 x ) Y0 ± t( α /2, n 2) s + dado que = 0 está dado por: n S xx Un intervalo de predicción del 00(-α) % para el valor predicho Y 0 dado que = 0, es de la forma: ˆ ( x0 x) Y 0 ± t ( α /2, n 2) s + + n S xx 2

Modelo de regresión (con intervalos de confianza)

Utilidad del modelo Describir las relaciones entrevariables Interpretando los coeficientes: Fuerza y dirección ió de la asociación ió entre Y y Estimar el valor de Y para un valor o nivel de (Predicción) Interpolaciones Extrapolaciones

Ejemplo Sea: Y = pureza del oxígeno producido en un proceso de destilación químico. = porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación.

Tabla de datos Observación Nivel de hidrocarburo (%) Pureza Y (%) 0,99 90,0 2,02 89,05 3,5 9,43 4,29 93,74 5,46 96,73 6,36 94,45 7 0,87 87,59 8,23 9,77 9,55 99,42 0 40,40 93,65,9 93,54 2,5 92,52 3 0,98 90,56 4 0,0 89,54 5, 89,85 6,20 90,39 7,26 93,25 8,32 93,4 9,43 94,98 20 0,95 87,33

Ajuste del modelo de regresión lineal n = 20 20 = = 23.92 =.20 i i= 20 i= 20 Y i 2 20 2 i i = 843.2 Y = 92.6 = Yi = 70044.53 i = = 29.29 20 Y = i = 224.66 i i

Ajuste del modelo de regresión lineal 20 2 = i = i S xx i= i S xy ˆ β = ( ) 20 2 ( 23.92) 20 = 29.29 20 2 = 0.68 ( )( ) 20 20 i Yi ( 23.92)( 843.2) 20 = i= i= Y i = i i S xy S xx 0.8 = 0.68 = 4.97 20 = 224.66 ( 4.97)(.20) 74. 20 ˆ β ˆ 0 = Y β = 92.6 = 20 = 0.8

Modelo de regresión lineal simple ajustado Y ˆ = 74.20 + 4. 97

Prueba de significancia de la regresión H H 0 : β = 0 versus : β 0 Con α = t 2 0.0 y ˆ σ =.7 de modo que ˆ β 2 ˆ σ 4.97 calc = = = S xx.77 0.68.4 el estadístico de la prueba t está dado por : Como t calc > t0.005,8 = 2.88 entonces rechazamos H0 Por lo tanto,sí existe una relación lineal entre y Y.

Tabla de Análisis de la Varianza ANOVA Fuente de variación Suma de cuadrados Grados de libertad Media de cuadrados FC Valor P Regresión 52,39 52,39 30,25,3*0^ 3*0^ -9 Error 20,98 8,7 Total 73,37 9

Análisis de residuales Porcentaje de Hidrocarburos

Regresión simple en Matlab

Como se grafican los residuales en Matlab lb

Análisis de residuales en Matlab

El coeficiente de determinación Es una medida de la bondad de ajuste del modelo de regresión ajustado. 2 SSR R = SST Donde, SSR representa la suma de cuadrados debida a la regresión y SST representa la suma de cuadrados total. El coeficiente de determinación es el cuadrado del coeficiente de correlación. El coeficiente de determinación varía entre 0 y. R 2 indica qué porcentaje de la variabilidad de la variable de la respuesta Y es explicada por su relación lineal con.

No siempre es apropiado una línea recta

Mdl Modelos no lineales l y transformaciones Cuando se construyen modelos de regresión el objetivo es conseguir un modelo con un coeficiente de determinación alto, R 2, queseaproximea 00 %, asumiendo que no hay datos atípicos presentes. Si no se desea incluir variables predictivas adicionales en el modelo, hay dos alternativas:.tratar de usar modelos polinomiales de grado mayor o igual a dos. 2.Transformando las variables tanto la predictiva como la de respuesta. 3. Hacer regresión por tramos.

Ejemplo de ajuste a un modelo cuadrático Interpretación: El coeficiente de determinación R 2 del modelo cuadrático es 76.5% comparado con 73.6% del modelo lineal. Es decir que se ha ganado un 3% en la explicación de la variabilidad en Y, que no es un aumento sustancial. Por lo tanto, es mejor seguir usando un modelo lineal ya que hacer inferencias con él es mucho más simple que con un modelo cuadrático.

Modelo de regresión múltiple Modelo de regresión múltiple Y ε β β β β + + + + + = El modelo de regresión se puede escribir t ió tii l í i p i p i i i Y ε β β β β + + + + + =,,2 2, 0... con notación matricial, así: 0,,2, p Y ε β L 2 2, 2,2 2, 2 p p Y + = ε β M M M O M M M L M,,2, nx n px p nxp p n n n nx n Y ε β L β + ε = Y

Representación del modelo de regresión con dos dimensiones

Método de estimar los coeficientes, a partir de los datos

Estadísticas de la tabla ANOVA SSR SSE = n i= i= ( ˆ ) 2 Y i Y n = ( ˆ ) 2 Y i Y i MSR MSE SSR = p SSE = p F = calc MSR MS E H = β 0 = β = β2 =,..., β p 0 = 0

Ejemplo de modelo de regresión múltiple en Matlab En el siguiente ejemplo, se carga el archivo de datos llamado carsmall que contiene algunas características de 00 autos y se crea la variable de tipo matriz con los unos para incluir un intercepto en el modelo y las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de cilindros) para luego hacer el ajuste con el método llamado regress: load carsmall = [ones(size(horsepower)) Horsepower Cylinders]; --la primera parte es para --agregar una columna de unos betagorro = regress(mpg,) - devuelve los coeficientes estimados betagorro = 44.2562 (Intercepto o Beta cero -0.0572 -.5836 [betagorro,betainterv,residuo,nrores,estads] = regress(y,,alpha);

Ejemplo de modelo de regresión múltiple (continuación) La función regstats también permite realizar un análisis de regresión lineal múltiple y calcula más estadísticas de regresión. De forma predeterminada, regstats agrega automáticamente una primera columna de unos a la matriz de diseño (necesaria para calcular la estadística F yelvalor-p de la prueba), por lo que no se debe incluir de forma explícita un término constante como en la función regress. Por ejemplo: = [Horsepower Cylinders]; stats = regstats(mpg,); Esta orden crea una variable de tipo estructura, stats, con las estadísticas de la regresión. Por tanto, en el área de trabajo, se encontrarán los ítems calculados que aparecen a continuación.

Variables creadas en el área de trabajo (workspace)

Ejemplo de modelo de regresión múltiple en Matlab (continuación) Un argumento de entrada opcional a la función regstats permite especificar cuáles estadísticas se deben calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadísticas calculadas, se invoca a regstats sin argumentos de salida. Por ejemplo, la orden: regstats(mpg,) Abre la interfaz que aparece en la diapositiva siguiente.

Interfaz para la selección de estadísticas En esta interfaz, se seleccionan las casillas correspondientes a las estadísticas que desean calcular. Las estadísticas seleccionadas se retornan mediante variables al área de trabajo (Workspace) de MATLAB. Los nombres de las variables para las estadísticas que aparecen en la parte derecha de la interfaz, se puede cambiar a cualquier nombre de variable válida en MATLAB. El mensaje después de dar el anterior comando es: Variables have been created in the current workspace. Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo: >> beta beta = 44.2562-0.0572-2.5836

Tabulación de estadísticas de diagnóstico en el análisis de regresión La función regstats calcula las estadísticas que se utilizan normalmente en el diagnóstico i de la regresión. Las estadísticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo tstat de la estructura de regstats es en sí mismo una estructura que contiene las estadísticas relacionadas con los coeficientes estimados de la regresión. El tipo de datos conocido como arreglos de conjuntos de datos (Dataset Arrays) proporcionan un formato tabular natural para la información: >> TablaCoef = dataset({tstat.beta,'coef'},{ tstat.se,'errstd'}, {tstat.t,'tstat'},{tstat.pval,'valor_p'}) TablaCoef = Coef ErrStd tstat Valor_p 44.256.497 29.667 3.004e-048-0.0577 0.0948-2.9858 0.0036427-2.5836 0.49499-5.294.437e-006

Interpretación de algunos resultados Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en laestadística tdíti t calculada l (que se distribuye como un t de Student con 00-3 grados de libertad) se puede rechazar la hipótesis nula. Esto es, todos los coeficientes son estadísticamente significativos y por lo tanto, las millas por galón si pueden ser explicadas por el modelos de regresión. Cuánto es la estimación del coeficiente de determinación múltiple? >> rsquare rsquare = 0.727 Este último resultado significa ifi que aproximadamente un 72% de la variabilidad en las millas por galón (MPG) es explicada por la inclusión del cilindraje y la potencia en el modelo de regresión.

Formato para los resultados La función fprintf de MATLAB, similar il a la dll del lenguaje C, permite cambiar al formato de tabla. Por ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadísticas relacionadas con el análisis de varianza (ANOVA) de la regresión. Los siguientes comandos producen la tabla ANOVA de una regresión estándar: fprintf('tabla de Análisis de la Varianza (ANOVA)'); fprintf('\n\n') fprintf('%6s','fuente'); fprintf('%0s','gdl','sc','cm','f','valor ' ' 'SC' 'CM' 'F' 'V l P'); fprintf('\n') fprintf('%6s','regr'); fprintf('%0.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval); fprintf('\n') fprintf('%6s','error'); fprintf('%0.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe); fprintf('\n') fprintf('%6s','total'); fprintf('%0.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr); fprintf('\n') Para mostrar los datos, así: Tabla de Análisis de la Varianza (ANOVA) Fuente gdl SC CM F Valor P Regr 2.0000 4366.0455 283.0227 9.894 0.0000 0000 Error 90.0000 638.726 8.2079 Total 92.0000 6004.758

Multicolinealidad En situaciones donde las dependencias entre las variables explicativas son fuertes, se dice que existe multicolinealidad. Hay varios métodos que pueden detectarla, entre los más conocidos se encuentran: Los factores de inflación de la varianza, el determinante de la matriz de correlaciones simples y los valores de la matriz de correlaciones simples.

Matriz de correlaciones y significancia estadística con datos sobre el cáncer de próstata

Tabla de análisis de la varianza en el lenguaje R

Pruebas marginales en R