ESTADISTICA AVANZADA MODULO I Análisis de Regresión Modelo Supuestos Multiple
20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 Consumo Energetico Gráfico de Dispersión 110.000 105.000 100.000 95.000 90.000 85.000 80.000 75.000 70.000 65.000 60.000 55.000 50.000 45.000 40.000 35.000 30.000 25.000 20.000 15.000 10.000 5.000 El objetivo del diagrama de dispersión es analizar la forma en que dos variables numéricas están relacionadas. Temperatura
Correlación Correlación Negativa Correlación Positiva Intensidad de la relación o grado de asociación entre dos variables. La correlación no necesariamente implica causalidad. No Correlación
20.0 25.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 Consumo Energetico Análisis de Regresión Regresión: Estudio de la relación funcional entre variables que se expresa mediante una fórmula matemática. Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma: Y=f(x). 110.000 105.000 100.000 95.000 90.000 85.000 80.000 75.000 70.000 65.000 60.000 55.000 50.000 45.000 40.000 35.000 30.000 25.000 20.000 15.000 10.000 5.000 En el caso de la regresión lineal, la recta de regresión que mejor ajusta estará dada por: Y 0 1X1 Coeficientes de Regresión Estandarizados (IC para ver significación) Temperatura
Análisis de Regresión Para calcular la línea que mejor ajusta se utiliza el método de mínimos cuadrados. Este método hace mínimas las diferencias entre los puntos y la recta (residuos). La suma de los residuos es 0
Bondad de Ajuste El coeficiente de correlación de Pearson <R>, varía entre -1 y 1, cuando se acerca a alguno de estos valores nos indica que hay una fuerte correlación entre las variables, si se acerca a 0(cero), indica ausencia de correlación. El coeficiente de determinación R² corresponde al porcentaje de la variación de la variable dependiente que se encuentra explicada por la variación de la variable independiente. SSR es la suma de cuadrados explicada por el modelo de regresión. SSE es la suma de cuadrados no explicada por el modelo de regresión. SST es la suma de cuadrados total.
Supuestos Normalidad: Para facilitar la estimación por intervalo del modelo de regresión es exigible la normalidad de la distribución de los errores. Independencia: Los residuos son independientes entre si, es decir, constituyen una variable aleatoria. No hay autocorrelación. Método de detección Durbin- Watson o gráfico de residuos vs. orden. Homocedasticidad: El supuesto de homocedasticidad exige que para todo el recorrido de la variable X la varianza del error sea constante. Ver gráfico de residuos vs. Predictora. Multicolinealidad (solo en Regresión Múltiple): Existe multicolinealidad cuando una variable independiente esta fuertemente relacionada con otra variable independiente. Método de detección VIF (Factor de Inflación de la Varianza).
Validez del Modelo
Regresión en SPAC FL Acceder al análisis de regresión simple Modelo Y=f(x) Gráfico de dispersión con IC para la recta y para las observaciones % de la variación de Y explicada por la variación de X
Verificación de Supuestos Verificiar supuesto de independencia (residuos vs. orden) Verificar supuesto de normalidad de residuos Verificar supuesto de homocedasticidad (residuos vs. predictora)
Predicción Predicción puntual o por intervalos de la variable Y Adevertencia si se intenta predecir fuera del margen de datos de la muestra
Regresión Múltiple Estudio de la relación funcional entre variables, con el objetivo de predecir una en función de otras. Y X X... 0 1 1 2 2 nx n La prueba global (F) nos indicará que al menos uno de los coeficientes de regresión (los que acompañan a las variables predictoras), es distinto de cero. Las pruebas parciales (t) determinarán que variables independientes son significativas para el modelo elegido.
Regresión Múltiple Solicitar el análisis de regresión múltiple <Clic> en la variable (Y), <Ctrl. Clic> en las (X)
Regresión Múltiple Pruebas t parciales. Si el p- value es menor a 0,05 el término es significativo Modelo propuesto al que pueden quitarse o agregarse términos Porcentaje de la varaición de (Y) explicada por el modelo Si el VIF es mayor a 10 no se cumple el supuesto de multicolinealidad Prueba Global F. P-value menor a 0,05 rechaza la Ho, es decir, al menos un coeficiente del modelo propuesto es signficativo.
Regresión Múltiple Si el p-value es mayor a 0,05 no rechazo la Ho, es decir, los datos son consistentes con la distribución normal Verificar la independencia de los residuos con la prueba de Dubrin - Watson Si se observan nubes aleatorias en los residuos Vs. las variables predictoras, se concluye que hay homocedasticidad.
Regresión Múltiple Se puede modificar X, siempre dentro del rango estudidado, para observar su efecto en Y Predicción puntual o por intervalos de confianza Evaluación del efectos de las variables predictoras sobre la Y
GRACIAS!