7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL Jorge Eduardo Ortiz Triviño jeortizt@unal.edu.co http:/www.docentes.unal.edu.co/jeortizt/
Introducción Los datos frecuentemente son dados para valores discretos a lo largo de un conjunto continuo. Sin embargo, se puede requerir una estimación en puntos entre los valores discretos. Aquí se describirán métodos numéricos para el ajuste de curvas a tales datos para obtener estimaciones intermedias. Además, se puede requerir una versión simplificada de una función en un número de valores discretos dentro de un intervalo de interés. A partir del ajuste a estos valores se puede obtener una función más simple que la función original.
Introducción Existen dos procedimientos generales para el ajuste de curvas, cuya aplicación depende del grado de error asociado con los datos 1. Cuando los datos exhiben un grado significativo de error o ruido, se prefiere ajustar una curva que representa la tendencia general de los datos (método APROXIMANTE o REGRESIÓN). Cuando los datos tienen un nivel de precisión alto, se ajusta una curva o serie de curvas que pasen por cada uno de los puntos (método INTERPOLANTE). La estimación de valores entre puntos discretos bien conocidos es llamada interpolación
Algo de historia El método más simple para ajustar una curva es ubicar los puntos y después dibujar una línea que visualmente se ajusta a los datos Los resultados dependen del punto de vista subjetivo de la persona Regresión por mínimos cuadrados Interpolación lineal Interpolación curvilínea
Ajuste de curvas Determinar valores intermedios a partir de datos tabulados. Desarrollo de relaciones predictivas a partir de datos experimentales. Análisis de tendencia: se usan para predecir valores de la variable dependiente. Ya sea, extrapolación más allá de los límites de los datos observados o interpolación dentro del rango de los datos Prueba de hipótesis: aquí, un modelo matemático existente se compara con los datos medidos. Si se desconocen los coeficientes del modelo, se determinan los valores que mejor ajusten a los datos observados. Si se dispone de los coeficientes del modelo se comparan las predicciones del modelo con las observaciones para probar que tan adecuado es. Derivar funciones simples con el fin de aproximar funciones complicadas
Cuando los datos exhiben un grado significativo de error, se ajusta una curva que represente la tendencia general de los datos Una forma de hacerlos es determinando la curva que minimice la diferencia entre los puntos y la curva
El análisis de regresión es una metodología que estudia la asociación cuantitativa entre una variable dependiente y, con otras m variables de predicción z j Donde se supone la existencia de n valores de la variable dependiente y i, observadas bajo un conjunto de condiciones experimentales x i, que forman las variables de predicción Para cada observación i se formula una ecuación lineal de la forma y i m jz j1 j i i E 0 V donde los errores i son independientes con valor esperado igual a cero y varianza i i
Equivalentemente, esta ecuación lineal puede ser expresada en forma matricial como, y Z E 0 V I donde y es un vector columna de las n observaciones y i, Z es la matriz n m de las observaciones z ij de las variables de predicción Si el modelo incluye una constante (por ejemplo, si el modelo es: y = β 0 + β 1 z 1 + β z ), la matriz Z debe tener 3 columnas, donde su primer columna está formada por unos y las siguientes por los valores de z 1 y z
Supuesta la validez del modelo, se estiman, por mínimos cuadrados, los parámetros j y la varianza La solución por el método de mínimos cuadrados consiste en minimizar en la función SSE min y Z Derivando esta ecuación con respecto de e igualando a cero Z T Z Z Si las columnas de la matriz Z son independientes, Z T Z es invertible y la solución está dada por ˆ T y T 1 T Z Z Z y Los parámetros estimados son insesgados y de varianza mínima por lo que se consideran óptimos
Una vez estimados los j, pueden hallarse los valores yp i estimados por el modelo, asociados al conjunto de valores z ij de las variables de predicción T 1 T yp Z ˆ Z Z Z Z y Py donde P es la matriz de proyección de un vector cualquiera sobre el espacio de las columnas de Z Para toda nueva observación, z new, su predicción es implemente, y new z new T ˆ
El mínimo de la suma de cuadrados de los errores es T SSE y Z ˆ y yp y I Py El estimador de la varianza está dado por el promedio de los errores, el error cuadrático medio, MSE SSE MSE ˆ n m donde se divide por n - m para obtener una estimación insesgada de La matriz de covarianza del estimador es, La varianza de cada parámetro individual se encuentra en la diagonal de COV ˆ 1 ˆ ˆ ˆ T COV Z Z
Los indicadores de ajuste global del modelo de regresión son: Error cuadrático medio, MSE El coeficiente de determinación (R ) El coeficiente de determinación ajustado (Adj R ) El MSE es el estimador insesgado de la varianza del modelo, y su ráiz cuadrada, RMSE, es el estimador de la desviación estándar, σ, del modelo MSE SSE ˆ n m y T I P n m cuanto más pequeños sean estos estimadores mejor es el modelo y RMSE MSE
El coeficiente de determinación, R, explica la relación entre la suma de cuadrados que expresa el modelo y la suma de cuadrados total SSM SSE R 1 SST SST donde, la suma de cuadrados total corregida de las observaciones respecto de la media esta dada por, SST y y y ny Este indicador tiene el defecto de no penalizar el exceso de variables, ya que cada vez que se agrega una nueva variable al modelo, el R crece sin que esto signifique que la nueva variable aporte algo al modelo Se cumple que 0 R 1, cuando el modelo aproxima bien, R es próximo a 1
El coeficiente de determinación ajustado, AdjR, penaliza el aumento del número m de variables AdjR SSE n m SST n 1 m 1 n m 1 R 1 R Cuando el modelo ajusta bien, el AdjR, debe ser próximo a 1
f(x) Regresión por mínimos cuadrados Ejemplo: Ajuste de modelos lineal, cuadrático y cúbico a datos de Hermite por regresión por mínimos cuadrados.6.4. 1.8 1.6 1.4 1. Regresion por minimos cuadrados Lineal Cuadratico Cubico 1 Lineal Cuadrático Cúbico 0.8 MSE 0.869 0.1390 0.1494 R 0.0059 0.5719 0.5974-4 -3 - -1 0 1 3 4 x AdjR 0.0059 0.5184 0.484
f(x) Regresión por mínimos cuadrados Ajustando un modelo más complejo se logra mejor ajuste de los datos Quinto orden MSE 0.0566 R 0.8911 AdjR 0.8040.6.4. 1.8 1.6 1.4 1. 1 0.8 Regresion por minimos cuadrados Lineal Cuadratico Cubico quinto -4-3 - -1 0 1 3 4 x