Análisis de Regresión por Universidad Nacional de Colombia, Sede Medellín 202
Tipos de gráficos para el análisis residuales Percen nt Normal Probability Plot of the Residuals 99 90 50 0-3.0 -.5 0.0.5 3.0 Standardized Residual Plot de Residuales para IGS Standardized Residual Residuals Versus the Fitted Values 3.0.5 0.0 -.5-3.0 300 320 340 Fitted Value Frequency 6 2 8 4 0-2.4 24 Histogram of the Residuals -.2 2 00 0.0 2.2 24 2.4 Standardized Residual Standardized Re esidual Residuals Versus the Order of the Data 3.0.5 0.0 -.5-3.0 5 0 5 20 25 30 35 40 45 50 Observation Order
Validación del modelo de regresión simple Tabla ANOVA Se utiliza para la prueba de la hipótesis, en el caso simple es: H 0 H: : β 0 = β existe al = 0 versus menos un β i 0
Estimaciones mediante intervalos de ˆ β α S ± t S ( β ) β 0, n 2 0 2 ˆ β α S ± t S ( β ) β, n 2 2 Donde: confianza s n ( β ) = MSE + 0 ( ) s = β MSE S S xx 2 Sxx ˆ 2 σ = MSE = SSE n 2
Estimaciones mediante intervalos de confianza Se un intervalo de confianza para la respuesta media oesperada, asumiendo quela relación Y ˆ = ˆ α + ˆ β entre e Y es lineal. o o Un intervalo de confianza a del 00(-α)% 2 para el valor medio de la variable Y ˆ ( x0 x ) Y0 ± t( α /2, n 2) s + dado que = 0 está dado por: n S xx Un intervalo de predicción del 00(-α) % para el valor predicho Y 0 dado que = 0, es de la forma: ˆ ( x0 x) Y 0 ± t ( α /2, n 2) s + + n S xx 2
Modelo de regresión (con intervalos de confianza)
Utilidad del modelo Describir las relaciones entrevariables Interpretando los coeficientes: Fuerza y dirección ió de la asociación ió entre Y y Estimar el valor de Y para un valor o nivel de (Predicción) Interpolaciones Extrapolaciones
Ejemplo Sea: Y = pureza del oxígeno producido en un proceso de destilación químico. = porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación.
Tabla de datos Observación Nivel de hidrocarburo (%) Pureza Y (%) 0,99 90,0 2,02 89,05 3,5 9,43 4,29 93,74 5,46 96,73 6,36 94,45 7 0,87 87,59 8,23 9,77 9,55 99,42 0 40,40 93,65,9 93,54 2,5 92,52 3 0,98 90,56 4 0,0 89,54 5, 89,85 6,20 90,39 7,26 93,25 8,32 93,4 9,43 94,98 20 0,95 87,33
Ajuste del modelo de regresión lineal n = 20 20 = = 23.92 =.20 i i= 20 i= 20 Y i 2 20 2 i i = 843.2 Y = 92.6 = Yi = 70044.53 i = = 29.29 20 Y = i = 224.66 i i
Ajuste del modelo de regresión lineal 20 2 = i = i S xx i= i S xy ˆ β = ( ) 20 2 ( 23.92) 20 = 29.29 20 2 = 0.68 ( )( ) 20 20 i Yi ( 23.92)( 843.2) 20 = i= i= Y i = i i S xy S xx 0.8 = 0.68 = 4.97 20 = 224.66 ( 4.97)(.20) 74. 20 ˆ β ˆ 0 = Y β = 92.6 = 20 = 0.8
Modelo de regresión lineal simple ajustado Y ˆ = 74.20 + 4. 97
Prueba de significancia de la regresión H H 0 : β = 0 versus : β 0 Con α = t 2 0.0 y ˆ σ =.7 de modo que ˆ β 2 ˆ σ 4.97 calc = = = S xx.77 0.68.4 el estadístico de la prueba t está dado por : Como t calc > t0.005,8 = 2.88 entonces rechazamos H0 Por lo tanto,sí existe una relación lineal entre y Y.
Tabla de Análisis de la Varianza ANOVA Fuente de variación Suma de cuadrados Grados de libertad Media de cuadrados FC Valor P Regresión 52,39 52,39 30,25,3*0^ 3*0^ -9 Error 20,98 8,7 Total 73,37 9
Análisis de residuales Porcentaje de Hidrocarburos
Regresión simple en Matlab
Como se grafican los residuales en Matlab lb
Análisis de residuales en Matlab
El coeficiente de determinación Es una medida de la bondad de ajuste del modelo de regresión ajustado. 2 SSR R = SST Donde, SSR representa la suma de cuadrados debida a la regresión y SST representa la suma de cuadrados total. El coeficiente de determinación es el cuadrado del coeficiente de correlación. El coeficiente de determinación varía entre 0 y. R 2 indica qué porcentaje de la variabilidad de la variable de la respuesta Y es explicada por su relación lineal con.
No siempre es apropiado una línea recta
Mdl Modelos no lineales l y transformaciones Cuando se construyen modelos de regresión el objetivo es conseguir un modelo con un coeficiente de determinación alto, R 2, queseaproximea 00 %, asumiendo que no hay datos atípicos presentes. Si no se desea incluir variables predictivas adicionales en el modelo, hay dos alternativas:.tratar de usar modelos polinomiales de grado mayor o igual a dos. 2.Transformando las variables tanto la predictiva como la de respuesta. 3. Hacer regresión por tramos.
Ejemplo de ajuste a un modelo cuadrático Interpretación: El coeficiente de determinación R 2 del modelo cuadrático es 76.5% comparado con 73.6% del modelo lineal. Es decir que se ha ganado un 3% en la explicación de la variabilidad en Y, que no es un aumento sustancial. Por lo tanto, es mejor seguir usando un modelo lineal ya que hacer inferencias con él es mucho más simple que con un modelo cuadrático.
Modelo de regresión múltiple Modelo de regresión múltiple Y ε β β β β + + + + + = El modelo de regresión se puede escribir t ió tii l í i p i p i i i Y ε β β β β + + + + + =,,2 2, 0... con notación matricial, así: 0,,2, p Y ε β L 2 2, 2,2 2, 2 p p Y + = ε β M M M O M M M L M,,2, nx n px p nxp p n n n nx n Y ε β L β + ε = Y
Representación del modelo de regresión con dos dimensiones
Método de estimar los coeficientes, a partir de los datos
Estadísticas de la tabla ANOVA SSR SSE = n i= i= ( ˆ ) 2 Y i Y n = ( ˆ ) 2 Y i Y i MSR MSE SSR = p SSE = p F = calc MSR MS E H = β 0 = β = β2 =,..., β p 0 = 0
Ejemplo de modelo de regresión múltiple en Matlab En el siguiente ejemplo, se carga el archivo de datos llamado carsmall que contiene algunas características de 00 autos y se crea la variable de tipo matriz con los unos para incluir un intercepto en el modelo y las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el número de cilindros) para luego hacer el ajuste con el método llamado regress: load carsmall = [ones(size(horsepower)) Horsepower Cylinders]; --la primera parte es para --agregar una columna de unos betagorro = regress(mpg,) - devuelve los coeficientes estimados betagorro = 44.2562 (Intercepto o Beta cero -0.0572 -.5836 [betagorro,betainterv,residuo,nrores,estads] = regress(y,,alpha);
Ejemplo de modelo de regresión múltiple (continuación) La función regstats también permite realizar un análisis de regresión lineal múltiple y calcula más estadísticas de regresión. De forma predeterminada, regstats agrega automáticamente una primera columna de unos a la matriz de diseño (necesaria para calcular la estadística F yelvalor-p de la prueba), por lo que no se debe incluir de forma explícita un término constante como en la función regress. Por ejemplo: = [Horsepower Cylinders]; stats = regstats(mpg,); Esta orden crea una variable de tipo estructura, stats, con las estadísticas de la regresión. Por tanto, en el área de trabajo, se encontrarán los ítems calculados que aparecen a continuación.
Variables creadas en el área de trabajo (workspace)
Ejemplo de modelo de regresión múltiple en Matlab (continuación) Un argumento de entrada opcional a la función regstats permite especificar cuáles estadísticas se deben calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadísticas calculadas, se invoca a regstats sin argumentos de salida. Por ejemplo, la orden: regstats(mpg,) Abre la interfaz que aparece en la diapositiva siguiente.
Interfaz para la selección de estadísticas En esta interfaz, se seleccionan las casillas correspondientes a las estadísticas que desean calcular. Las estadísticas seleccionadas se retornan mediante variables al área de trabajo (Workspace) de MATLAB. Los nombres de las variables para las estadísticas que aparecen en la parte derecha de la interfaz, se puede cambiar a cualquier nombre de variable válida en MATLAB. El mensaje después de dar el anterior comando es: Variables have been created in the current workspace. Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo: >> beta beta = 44.2562-0.0572-2.5836
Tabulación de estadísticas de diagnóstico en el análisis de regresión La función regstats calcula las estadísticas que se utilizan normalmente en el diagnóstico i de la regresión. Las estadísticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo tstat de la estructura de regstats es en sí mismo una estructura que contiene las estadísticas relacionadas con los coeficientes estimados de la regresión. El tipo de datos conocido como arreglos de conjuntos de datos (Dataset Arrays) proporcionan un formato tabular natural para la información: >> TablaCoef = dataset({tstat.beta,'coef'},{ tstat.se,'errstd'}, {tstat.t,'tstat'},{tstat.pval,'valor_p'}) TablaCoef = Coef ErrStd tstat Valor_p 44.256.497 29.667 3.004e-048-0.0577 0.0948-2.9858 0.0036427-2.5836 0.49499-5.294.437e-006
Interpretación de algunos resultados Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en laestadística tdíti t calculada l (que se distribuye como un t de Student con 00-3 grados de libertad) se puede rechazar la hipótesis nula. Esto es, todos los coeficientes son estadísticamente significativos y por lo tanto, las millas por galón si pueden ser explicadas por el modelos de regresión. Cuánto es la estimación del coeficiente de determinación múltiple? >> rsquare rsquare = 0.727 Este último resultado significa ifi que aproximadamente un 72% de la variabilidad en las millas por galón (MPG) es explicada por la inclusión del cilindraje y la potencia en el modelo de regresión.
Formato para los resultados La función fprintf de MATLAB, similar il a la dll del lenguaje C, permite cambiar al formato de tabla. Por ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadísticas relacionadas con el análisis de varianza (ANOVA) de la regresión. Los siguientes comandos producen la tabla ANOVA de una regresión estándar: fprintf('tabla de Análisis de la Varianza (ANOVA)'); fprintf('\n\n') fprintf('%6s','fuente'); fprintf('%0s','gdl','sc','cm','f','valor ' ' 'SC' 'CM' 'F' 'V l P'); fprintf('\n') fprintf('%6s','regr'); fprintf('%0.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval); fprintf('\n') fprintf('%6s','error'); fprintf('%0.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe); fprintf('\n') fprintf('%6s','total'); fprintf('%0.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr); fprintf('\n') Para mostrar los datos, así: Tabla de Análisis de la Varianza (ANOVA) Fuente gdl SC CM F Valor P Regr 2.0000 4366.0455 283.0227 9.894 0.0000 0000 Error 90.0000 638.726 8.2079 Total 92.0000 6004.758
Multicolinealidad En situaciones donde las dependencias entre las variables explicativas son fuertes, se dice que existe multicolinealidad. Hay varios métodos que pueden detectarla, entre los más conocidos se encuentran: Los factores de inflación de la varianza, el determinante de la matriz de correlaciones simples y los valores de la matriz de correlaciones simples.
Matriz de correlaciones y significancia estadística con datos sobre el cáncer de próstata
Tabla de análisis de la varianza en el lenguaje R
Pruebas marginales en R