TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.. CÓMO DETECTAR Y MEDIR EL GRADO DE MULTICOLINEALIDAD. 3. SOLUCIONES: CÓMO AFRONTAR EL PROBLEMA EN LA PRÁCTICA. 4. INFLUENCIA REAL Y POTENCIAL DE LAS OBSERVACIONES 5. DETECCION DE OUTLIERS. 6. NO NORMALIDAD EN LAS PERTURBACIONES. CONSECUENCIAS. 7. EL CONTRASTE DE NORMALIDAD DE JARQUE-BERA
1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS: A. MULTICOLINEALIDAD EXACTA: Cuando una de las variables explicativas es combinación lineal determinista de todas las demás. Consec: ρ(x)<k => X ' X = 0 => (X X) -1 no puede calcularse => ˆβ no pueden mco obtenerse. B. MULTICOLINEALIDAD APROXIMADA: Cuando una de las variables es aproximadamente igual a una combinación lineal de las restantes. Consec: X ' X 0 => (X X) -1 toma valores muy elevados => V( ˆβ mco ) = σ u(x X) -1 => los estimadores ˆβ mco tendrán varianzas elevadas => serán estimadores imprecisos.
. COMO DETECTAR LA MULTICOLINEALIDAD..1. EN LOS RESULTADOS DE LOS MODELOS: - R, R, contraste de la F global,, altos mientras que los contrastes de significación individual son no significativos. - Grandes alteraciones en los ˆβ al cambiar mco ligeramente el modelo ( por eemplo, al eliminar un regresor no significativo). - Signos incorrectos según la Teoría económica... ANALIZANDO LAS CORRELACIONES. a) Matriz de correlaciones de las X (si r i >0,8 => correlación fuerte entre x i y x ) b) Calcular el determinante de la matriz de correlaciones de las x: R Si R 1, no multicolinealidad. c) Estimando regresiones auxiliares. X = X 1 a 1 + X a + + X k a k + V
d) Analizando el factor de inflación de la varianza. Partiendo de: Y= β 1 + β X + + β K X K + U Dada una regresión auxiliar: X = X 1 a 1 + X a + + X k a k + V (1) Se puede demostrar que la varianza del estimador ˆβ puede expresarse como: Var ( ˆβ ) = σ u u vˆ i = N i= 1 x σ i u u (1 R ) Donde: vˆ son los residuos de estimar (1) por MCO. i R es el coeficiente de determinación de (1) por MCO. σ u Var ( ˆβ )= N x i= 1 u i 1 * 1 R Siendo: 1 el factor de inflación de la varianza para X 1 R
σ u u x i la var( ˆβ ) en la regresión de Y contra X R 0 0,5 0,8 0,9 0,95 0,99 0,999 Factor de inflación de la varianza 1 5 10 multicolinealidad 0 preocupante 100 1000
CONSECUENCIAS DE βˆ CON VARIANZAS ALTAS: 1. Intervalos de confianza amplios: [ βˆ T σˆ (ˆ β ) β βˆ + T σˆ (ˆ β )] i n k i i i n k i. Contrastes de significación individual indican coeficientes no significativos: βˆ β0 σˆ (ˆ) β 3. Las medidas y contrastes de bondad global del auste pueden ser satisfactorias. (R, F, SCERR, R ) 4. Estimaciones muy poco robustas. Modelo muy sensible a la adición de algunas observaciones o a la eliminación de una variable explicativa inicialmente no significativa. 5. El modelo sirve para predecir, pero no para realizar análisis estructural.
3. SOLUCIONES A LA MULTICOLINEALIDAD. 3.1 Más información muestral. ( ampliar la muestra). Pero puede que esto no sea posible, o puede que las nuevas observaciones también presenten multicolinealidad. 3.. Usar información extra-muestral y usar MCR, basándose en restricciones sugeridas por la teoría económica o por otros trabaos empíricos. 3.3. Aplicar componentes principales a la matriz X y hacer regresión de Y sobre los componentes. 3.4. Eliminar una variable explicativa si la teoría económica te lo permite. 3.5. Convivir con el problema.
4. ANALISIS DE LOS RESIDUOS Y DETECCION DE OUTLIERS. Estudio de la existencia de unidades muestrales atípicas: (individuos, años, ) 4.1. Hay individuos cuyas variables X están muy aleadas de la media muestral? 4.. Hay individuos raros que distorsionan los resultados del modelo de regresión? 4.3. Hay individuos atípicos cuyos errores son anormalmente altos? Para cada unidad muestral analizaremos: 1. influencia potencial. influencia real 3. detección y tratamiento de observaciones atípicas outliers.
4.1 INFLUENCIA POTENCIAL. Mide la capacidad específica que tiene una observación para contribuir al auste. La influencia potencial de la observación i depende de los valores que toman sus variables explicativas: x i,,x k i. En general, aquellas observaciones con valores de las variables exógenas extremos, aleados de los valores medios de las explicativas, influirán más en los resultados de la regresión que aquellas observaciones próximas al comportamiento de los regresores. Una medida descriptiva que detecta la influencia potencial es el LEVERAGE : 1 Ŷ = Xβ ˆ = X(X' X) X' Y = HY H = h 11 h h 1...... h h 1n nn donde : h ii es el LEVERAGE ó INFLUENCIA POTENCIAL. H ii será mayor cuanto más se diferencie una observación de las restantes en términos de los regresores.
En regresión lineal simple: 1 (X X) i h ii = + n (X X) i h ii sólo depende de valores de X, no de Y. NOTA: en el SPSS nos proporcionan otra medida : la distancia de mahalanobis. Su relación con el LEVERAGE es : 1 h ii = ( 1 + mahalanobis) n Cuanto mayor sea la influencia potencial para i, menor será la precisión de la predicción ŷ. i 0<h ii <1 Decisión: si h ii >k/n => la obervación i es potencialmente influyente. La detección de observaciones potencialmente influyentes no convierte en inservible la estimación. El hecho de que una observación tenga mayor capacidad informativa no tiene por qué ser en principio algo negativo.
4.. INFLUENCIA REAL. Trata de detectar aquellas observaciones cuya supresión de la base de datos muestrales llevaría a modificaciones importantes en las estimaciones, errores estandar, intervalos de confianza. Contraste: H 0 : la observación i no es realmente influyente. D : distancia de Cook. D J (Ŷ Ŷ ) ii I = D ~ F K, N-K kσˆ Ŷ es la estimación de y i i obtenida con la muestra n-1, que excluye al individuo. Una única observación puede ser responsable de: -qué variables son significativas -signo de los coeficientes -no linealidad de la relación -Incumplimiento de la hipòtesis de normalidad El deterioro de la capacidad predictiva del modelo. * Qué hacer para solucionar la influencia real. 1. Revisar posibles errores en los datos. Probar formas funcionales alternativas 3. Eliminar la observación problemática 4. Introducir variables ficticias para i.
4.3 OBSERVACIONES ATIPICAS. 1. Residuos estandarizados: e S e (Y Ŷ) = e N ~N(0,1). Residuos estudentizados: e S e = (Y Ŷ) σˆ ( 1 h ) ~ T n-k 3. Residuos estudentizados con omisión: e S () e = (Y Ŷ σˆ () () ) ( 1 h ) ~ T n-k-1 (): Para el cálculo se ha omitido al individuo.
6. NO NORMALIDAD EN LAS PERTURBACIONES. CONSECUENCIAS. En el modelo de regresión suponemos que u i ~N. Pero este supuesto a veces no se cumple. Causas: - La propia especificación del modelo - Porque los residuos parezcan no normales (colas amplias, asimétricos) Consecuencias de la no normalidad en las perturbaciones: a) Si u i tiene varianzas finitas: - los ˆβ i son lineales, insesgados y consistentes. - no son eficientes. - los contrastes t y F no son válidos en muestras pequeñas aunque se ustifiquen asintóticamente. b) Si u i tiene varianzas no finitas: - Los ˆβ i no son asintóticamente normales. - Los contrastes t y F no son válidos ni siquiera asintóticamente. - Las estimaciones son muy sensibles a pequeñas variaciones en la muestra.
7. EL CONTRASTE DE NORMALIDAD DE JARQUE-BERA. H 0 : Perturbaciones normales H 1 : Perturbaciones no normales Estadístico de contraste: basado en los coeficientes de asimetría y curtosis C.Asimetría J.B. = (N K) 6 + Curtosis 4 ~ χ donde: _ Xi X fi m3 C. Asimetría= = 3 3/ Sx _ Xi X f i _ Xi X fi m4 C.Curtosis= 3 = 3 4 4/ S _ x Xi X f i 3 4