Econometría I. Autores: 1 Jose Miguel Benavente Andrés Otero Javiera Vásquez. Agosto 2007

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Econometría I. Autores: 1 Jose Miguel Benavente Andrés Otero Javiera Vásquez. Agosto 2007"

Transcripción

1 Autores: 1 Jose Miguel Benavente Andrés Otero Javiera Vásquez Agosto Cualquier error es responsabilidad exclusiva de los autores.

2 Índice general 1. Introducción 5 2. Modelo de Regresión Lineal Análisis de Regresión ¾Qué es una regresión? Relaciones estadísticas versus relaciones determinísticas Regresión versus Causalidad Regresión versus Correlación Análisis de regresión con dos variables Función de regresión poblacional (FRP) Especicación estocástica de la función de regresión poblacional Función de regresión muestral Propiedades de un Estimador Modelo de regresión con dos variables Método de Mínimos Cuadrados Ordinarios Supuestos detrás del método MCO Errores estándar de los Estimadores Mínimos Cuadrados Ordinarios

3 Estimador Mínimo Cuadrado Ordinario de σ Modelo de Regresión con k variables Representación Matricial del Modelo de Regresión Lineal Estimador Mínimo Cuadrados Ordinarios Propiedades del estimador MCO Propiedad de mejor estimador lineal insesgado Teorema de Gauss-Markov Geometría del Estimador MCO Bondad de Ajuste y Análisis de Varianza Modelo de Regresión Lineal en Desvíos Análisis de Varianza Bondad de Ajuste: R 2 y R Inferencia Test t (Una hipótesis lineal) Test F (Conjunto de hipótesis lineales) Intervalos de Conanza Test de Normalidad (Test de Jarque-Bera) Predicción Medición de la precisión de la predicción Estimación Máximo Verosímil (EMV) Propiedades de los estimadores MV Estimación MV Inferencia en el contexto MV Test de Razón de Verosimilitud (LR)

4 Test de Wald (W) Test del Multiplicador de Lagrange (LM) Algunas acotaciones respecto a la estimación y la inferencia MV Forma Funcional y Especicación Regresores Estocásticos en el Modelo de Regresión Lineal Incorporación de No Linealidades Test de No Linealidades Omitidas (Test de Reset) Variables Dummies o cualitativas Posibles usos de las variables Dummies Variable Dependiente Rezagada Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor Selección de Modelos Ejemplo: Retornos a la educación, diferencias entre hombres y mujeres Regresión Particionada Omisión de Variables Relevantes Impacto sobre el Insesgamiento Impacto sobre la Varianza Ejemplo Inclusión de Variable Irrelevantes Impacto sobre Insesgamiento Impacto sobre Varianza Ejemplo

5 3.9. Perturbaciones no Esféricas Consecuencias de estimación por MCO Estimación Eciente: Mínimos Cuadrados Generalizados Test de Hipótesis Estimación cuando Ω es desconocida: Mínimos Cuadrados Factibles Heterocedasticidad Autocorrelación Problemas con los datos Multicolinealidad Multicolinealidad Exacta y Multicolinealidad Aproximada Detección de Multicolinealidad Otros métodos de detección de multicolinealidad Remedios contra la Multicolinealidad Error de Medición Estimación por Variables Instrumentales Test de Hausman

6 Capítulo 1 Introducción Econometría es la ciencia que aplica métodos matemáticos y estadísticos al análisis de datos económicos, con el objetivo de dotar de una base empírica a una teoría económica, para así refutarla o vericarla. Aunque la econometría parece ser tan antigua como la misma ciencia económica, sólo en 1930 se crea la Sociedad Econométrica, la cual sistematizó su estudio y práctica. En 1933 se lanza el primer número de Econometrica en el que Ragnan Frish (uno de los fundadores de la Sociedad Econométrica, a quién de hecho, se le acredita el haber acuñado el término. Ec onometría") destaca: "La experiencia ha mostrado que cada uno de estos tres puntos de vista, el de la estadística, la teoría económica y las matemáticas, es necesario, pero por si mismo no suciente para una comprensión real de las relaciones cuantitativas de la vida económica modera. Es la unión de los tres aspectos lo que constituye una herramienta de análisis potente. Es la unión lo que constituye la econometría". Sin embargo, las metodologías aplicadas en econometría (los tres puntos de vista de Frish), no han sido utilizados exclusivamente por la ciencia económica. Otras ciencias naturales también han aprovechado sus ventajas. Sin embargo, en el campo del comportamiento económico adquieren especial particularidad y relevancia, en tanto el ambiente y el comportamiento económicos, son esencialmente no-experimentales, colocándonos en situaciones donde todas las variables relevantes parecen moverse constantemente y donde existen factores impredecibles que pueden alterar los resultados. Es por esto que la econometría es esencialmente una ciencia no determinística, donde se reconoce la existencia de factores esencialmente impredecibles que determinan nuestras conclusiones. 5

7 Capitulo 1: Introducción FEN, Universidad de Chile La metodología econométrica se puede detallar (a grandes rasgos) según lo enuncia la Figura 1. En primer lugar contamos con una teoría económica que busca validez. Para ella, es necesario encontrar su equivalente modelo econométrico (relaciones matemáticas que describan el comportamiento de los agentes involucrados). Para estimar entonces dicho modelo, se necesita de la ecuación resultante del modelo, los datos que ella implica y los supuestos bajo los cuales se construye. Sólo una vez que contamos con dichos ingredientes se procede a estimar cuantitativamente las predicciones o implicancias expuestas por la teoría económica inicial. Luego, se debe realizar inferencia o pruebas de hipótesis, las cuales nos indicarán si nuestros resultados son estadísticamente signicativos. Si la respuesta es si, entonces sólo queda realizar las predicciones pertinentes y las recomendaciones de política asociadas. Si la respuestas es no, entonces, debemos revisar los posibles errores que existan a nivel de teoría o metodología. TEORIA ECONOMICA MODELO ECONOMETRICO ECUACION DATOS SUPUESTOS ESTIMACION INFERENCIA Y PRUEBA DE HIPOTESIS SI NO PREDICCIONES Y RECOMENDACIONES DE POLITICA TEORIA VERIFICADA 6

8 Capitulo 1: Introducción FEN, Universidad de Chile Esta breve descripción no es más que una somera vista a lo que realmente implica hacer econometría. El camino no está exento de dicultades (en términos de la calidad de los datos, de la dicultad de medir las variables que la teoría indica, de los supuestos que realizamos, etc), sin embargo, esto, más que una dicultad, implica un desafío. 7

9 Capítulo 2 Modelo de Regresión Lineal 2.1. Análisis de Regresión ¾Qué es una regresión? La regresión es un elemento fundamental en la Econometría, corresponde a un estudio de dependencia entre una variable dependiente y una o más variables explicativas. El análisis de regresión tiene como objeto estimar y/o predecir el promedio poblacional de la variable dependiente para valores jos de la(s) variable(s) explicativa(s). Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestra variable explicativa (X): notas controles, y en el eje de las ordenadas tenemos nuestra variable dependiente (Y): nota examen. Notas de los controles Figura 1: Distribución de las Notas del Examen vs. Promedio Notas de Controles 8

10 Capitulo 2: Modelo de Regresión Lineal Podemos observar dos cosas: primero, para cada nota posible en los controles (3.0, 4.0,..) tenemos un rango o distribución de notas en el examen y segundo, el promedio de notas en el examen es mayor mientras mayores son notas de los controles. Esto último se puede apreciar al trazar una recta que una los valores promedios de notas en examen para cada nota en los controles (linea negra del la Figura 1), la que corresponde a la recta de regresión. Esta nos permite, para cada nivel de edad, predecir la estatura promedio correspondiente Relaciones estadísticas versus relaciones determinísticas La calidad de un producto, por ejemplo el vino, dependerá de como fue su cosecha y por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, la cantidad de lluvia, sol y los fertilizantes. La relación entre estas variables explicativas y la calidad del vino tiene una naturaleza estadística, ya que si bien estas variables ayudan al productor de vino a saber más o menos como será la cosecha, no podrá predecir en forma exacta la calidad del producto debido a los errores involucrados en estas variables y porque pueden haber otros factores difíciles de medir que estén afectando la calidad del vino. La variable dependiente, en este caso la calidad del vino, tiene una variabilidad aleatoria, ya que no puede ser explicada en su totalidad por las variables explicativas. En la econometría nos interesa la dependencia estadística entre variables, donde tratamos con variables aleatorias, es decir, variables que tienen una distribución de probabilidad. La dependencia determinística, por el contrario, trata relaciones como la ley de gravedad de Newton 1, las que son exactas (no tienen naturaleza aleatoria). 1 La ley de gravedad de Newton plantea que toda partícula en el universo atrae a cualquier otra partícula con una fuerza directamente proporcional al producto de sus masas e inversamente proporcional al cuadrado de la distancia entre ellas: F=k( m1m2 r ), donde F=fuerza, m 2 1 y m 2 son la masa de las dos partículas, r es la distancia y k una constante de proporcionalidad. Esta es una relación determinística, ya que para valores de masas, distancia y constante sabemos exactamente a la fuerza que se atraen estas partículas. Si alguna de las variables estuviera medida con error, la ley de Newton pasa a ser una relación estadística, y F se convierte en una variable aleatoria. 9

11 Capitulo 2: Modelo de Regresión Lineal Regresión versus Causalidad Es importante tener claro que la regresión es una relación estadística, que no implica causalidad apriori. En el ejemplo del vino, no hay una razón estadística para suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentido común nos hace considerar como variable dependiente la calidad del vino y no la lluvia. Es importante recordar de aquí en adelante que una relación estadística no puede por sí misma implicar en forma lógica una causalidad Regresión versus Correlación El Análisis de Correlación está estrechamente relacionado con el de regresión aunque conceptualmente son dos cosas muy diferentes. El análisis de correlación tiene como objetivo medir el grado de asociación lineal entre dos variables, medida a través del coeciente de correlación. Por ejemplo, se puede estar interesado en medir el grado de correlación entre años de educación y salario. En cambio, el análisis de regresión trata de estimar o predecir el valor promedio de salario para un nivel dado de educación. Las diferencias fundamentales son que, en el análisis de regresión, tenemos una variable dependiente y una o más explicativas, la que son tratadas en forma asimétrica: la variable dependiente es aleatoria, tiene una distribución de probabilidad, en cambio las variables explicativas toman valores jos. En el análisis de correlación las variables son tratadas de forma simétrica: la correlación entre educación y salario es igual a la correlación entre salario y educación. Además ambas variables son aleatorias. Así, si x e y son dos variables aleatorias, el coeciente de correlación se dene de la siguiente manera: ρ yx = E {[x E(x)] [y E(y)]} var(x)var(y) = σ xy σ 2 x σ 2 y Lo que se calcula para una muestra de la siguiente forma: [ xi X ] [ y i Y ] ˆρ yx = n n i=1 i=1 con X = 1 n n i=1 x i e Y = 1 n n i=1 y i. [ xi X ] 2 n i=1 [ yi Y ] 2 De ahora en adelante denotaremos con un ˆ a los estimadores de un estadístico obtenidos a partir de información muestral. 10

12 Capitulo 2: Modelo de Regresión Lineal Ejemplo 1: Portales de Internet, correlación entre número de visitas y valor de la empresa: Ejemplo 2: Correlación entre Empleo y Producto (serie de tiempo): 11

13 Capitulo 2: Modelo de Regresión Lineal Ejemplo 3: Correlación entre Producto per-capita y ranking fútbol: Ejemplo 4: Correlación entre temperatura media del día y estudiantes ausentes a clases: 12

14 Capitulo 2: Modelo de Regresión Lineal Algunas precauciones con el coeciente de correlación: Cuidado cuando el grado de correlación muestral depende de solo unas pocas observaciones. El coeciente de correlación mide una relación lineal. Por lo tanto, una variable puede depender de otra aún cuando la correlación sea cero si la relación es no lineal. Correlación no implica causalidad económica, es sólo una relación estadística. Correlación puede indicar relación espuria. No olvidar que la correlación muestral es una variable aleatoria y que por lo tanto, el coeciente por si sólo no garantiza la existencia de una relación estadística entre las series. 13

15 Capitulo 2: Modelo de Regresión Lineal 2.2. Análisis de regresión con dos variables Para esta sección asumiremos que existe una variable dependiente (Y) que es explicada por sólo una variable (X). Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salarios y nivel de educación para una población de 60 individuos 2 Tabla 1: Salarios y Años de Educación Años de Educación (X) Salario (Y) E(Y X) La población tiene 10 niveles distintos de educación, que van desde 8 a 17. Para cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la variabilidad en los salarios para cada nivel educacional considerado, en promedio el salario se incrementa a medida que los años de educación aumentan. Esto último se puede vericar al calcular el promedio para cada nivel de educación, lo que se presenta en la última linea de la Tabla 1, estos corresponden a los valores esperados condicionales, ya que dependen de los valores dados de la variable X. En la Figura 2, los valores medios condicionales están marcados con una cruz. La unión de estos valores representa la Recta de regresión poblacional, donde el término poblacional se reere a que estamos trabajando con el total de la población. salario x x x Recta de regesión poblacional (RRP) x x x x x x x Escolaridad Figura 2: Distribución de los salarios para distintos niveles de educación. 2 Una población de 60 individuos puede parecer un poco pequeña, pero por el momento consideremos que estas familias son el total existente 14

16 Capitulo 2: Modelo de Regresión Lineal Denición: La curva de regresión poblacional es simplemente el lugar geométrico de las medias condicionales de la variable dependiente para los valores jos de la(s) variable(s) explicativa(s). En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma simétrica en torno al valor promedio para cada valor X, desde ahora asumiremos que esto si se cumple, tal como lo podemos apreciar en la Figura 3. Figura 3: Ingreso semanal y Gasto semanal. Distribución simétrica En este ejemplo, se ve la relación entre ingreso semanal y gasto en consumo semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye en forma simétrica entorno al valor promedio condicional de gasto. 15

17 Capitulo 2: Modelo de Regresión Lineal Función de regresión poblacional (FRP) De lo anterior es claro que la media condicional E(Y X i ) es función de X i, donde X i es un valor dado de X: E(Y X i ) = f(x i ) (2.1) donde f( ) es una función cualquiera, en el ejemplo anterior era una función lineal. La ecuación (2.1) se denomina Regresión Poblacional. Que forma tiene f( ) es una pregunta empírica, aunque muchas veces la teoría nos puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario esta relacionado linealmente con la educación, así podemos suponer que la función de regresión poblacional E(Y X i ) es una función lineal de X i, es decir: E(Y X i ) = β 1 + β 2 X i (2.2) donde β 1 y β 2 se denominan coecientes de regresión. Así el objetivo es estimar β 1 y β 2 a partir de datos de X e Y Especicación estocástica de la función de regresión poblacional En los dos ejemplos anteriores veíamos que a medida que se incrementa la variable explicativa (educación o ingreso), el valor promedio de la variable dependiente (salario o gasto) también se incrementaba. Sin embargo, este patrón se da solo a nivel de promedios. A nivel individual esto no es necesariamente cierto. En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 años de educación, gana menos que el individuo con 8 años de educación con mayor salario. Existe una dispersion de los valores individuales de Y i en torno al promedio condicional de esta variable. De esta forma, podemos denir: o u i = Y i E(Y X i ) Y i = E(Y X i ) + u i (2.3) donde u i es una variable aleatoria no observable que toma valores positivos o negativos. Este término surge pues no se puede esperar que todas las observaciones 16

18 Capitulo 2: Modelo de Regresión Lineal Y i sean igual al promedio condicional a X i. Recordemos que la regresión es una relación estadística, a pesar de conocer los valores de X i, esto no nos permite predecir en forma exacta Y i. Lo que no podemos explicar debido a que tiene naturaleza aleatoria se representa a través de u i, denominado término de error estocástico. Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de una familia individual (Y i ) corresponde a la suma de dos componentes: E(Y X i ), que corresponde a la media de gasto de todas las familias con el mismo nivel de ingresos Componente Determinístico u i Componente Aleatorio Si E(Y X i ) es lineal en X i, podemos escribir la ecuación (2.3) de la siguiente forma: Y i = E(Y X i ) + u i = β 1 + β 2 X i + u i (2.4) Tomando el valor esperado condicional en X i a la ecuación (2.4): E(Y i X i ) = E[E(Y X i ) X i ] + E(u i X i ) = E(Y X i ) + E(u i X i ) (2.5) Debido a que E(Y i X i ) = E(Y X i ), implica que: E(u i X i ) = 0 (2.6) Así, el supuesto de que la recta de regresión pasa a través de las medias condicionales de Y, implica que la media condicional de u i es cero. 17

19 Capitulo 2: Modelo de Regresión Lineal Función de regresión muestral En la mayoría de los fenómenos económicos a estudiar, no disponemos de las observaciones totales de la población, como hemos supuesto hasta ahora. En la práctica se tiene alcance nada más que a una muestra de los valores de Y que corresponden a unos valores jos de X. En este caso tenemos que estimar la función de regresión poblacional en base a información muestral. Los datos poblacionales asociados a la Figura 3 son los siguientes: Tabla 2. Ingreso familiar (X) y Gasto en consumo (Y). Y X Gasto en consumo familiar semanal (Y) Media Condicional Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso a las observaciones correspondientes a la población total. Tenemos a nuestra disposición sólo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria de la población. Es importante notar que a partir de una población podemos sacar una gran cantidad de muestras en forma aleatoria y en la realidad nosotros observamos solo una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP pero no de manera precisa. Para ejemplicar esto supongamos que además de la muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la información poblacional. Tabla 3. Muestra aleatoria de la población en tabla 2. Y X Tabla 4. Muestra aleatoria de la población en tabla 2. Y X

20 Capitulo 2: Modelo de Regresión Lineal Al gracar los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en la Figura 4. En este diagrama se han trazado dos rectas de regresión muestral: FRM 1 corresponde a la primera muestra y FRM 2 corresponde a la segunda. Como vemos, no es posible asegurar cual de las dos rectas muestrales representa mejor la recta de regresión poblacional. Entonces es importante tener en mente que las rectas de regresión muestral representan la recta de regresión poblacional, pero debido a uctuaciones muestrales pueden ser consideradas sólo como una aproximación. Como contraparte muestral la función de regresión muestral puede escribirse como: Ŷ i = ˆβ 1 + ˆβ 2 X i (2.7) donde Ŷi es el estimador de E(Y X i ), ˆβ 1 es el estimador de β 1 y ˆβ 2 es el estimador de β 2. Figura 4: Rectas de Regresión basadas en dos muestras distintas Denición: Un estimador es una regla, fórmula o método que dice cómo determinar el parámetro poblacional a partir de la información suministrada por la muestra disponible. De igual manera que para el caso poblacional la función de regresión muestral 19

21 Capitulo 2: Modelo de Regresión Lineal también tiene una representación estocástica: Y i = ˆβ 1 + ˆβ 2 X i + û i (2.8) Entonces, el objetivo del Análisis de Regresión es estimar la Función de regresión poblacional: con base en la Función de regresión muestral: Esta aproximación se puede ver en la Figura 5: Y i = β 1 + β 2 X i + u i (2.9) Y i = ˆβ 1 + ˆβ 2 X i + û i (2.10) Figura 5: Rectas de Regresión muestral y poblacional En términos de la función de regresión muestral, la Y i observada puede ser expresada como: Y i = Ŷi + û i (2.11) y en términos de la función de regresión poblacional puede ser expresada como: Y i = E(Y X i ) + u i (2.12) 20

22 Capitulo 2: Modelo de Regresión Lineal En la gura 5 podemos notar que para todo X i a la derecha del punto A, Ŷ i sobreestima E(Y X i ). De igual manera, para cualquier punto a la izquierda de A, Ŷ i subestima E(Y X i ). Esta sobreestimación y subestimación del modelo poblacional es inevitable debido a las uctuaciones muestrales. ¾Cómo se puede construir la función de regresión muestral para ˆβ 1 y ˆβ 2 que este lo más cerca de los valores verdaderos (poblacionales) de β 1 y β 2? Propiedades de un Estimador Un estimador, siendo función de la muestra, es una variable aleatoria y tiene su propia distribución de probabilidad. Las propiedades de los estimadores son las siguientes: 1. Se denomina sesgo a la diferencia entre el valor esperado del estimador y su verdadero valor: E( ˆβ) β. De esta forma, se dice que ˆβ es un estimador insesgado si E( ˆβ) = β. 2. El estimador es eciente o de mínima varianza si no hay ningún otro estimador insesgado que tenga una varianza menor que ˆβ. En general se trata de utilizar estimadores de varianza pequeña, pues de este modo la estimación es más precisa. 3. El Error Cuadrático Medio (ECM) es una propiedad de los estimadores que mezcla los conceptos de eciencia e insesgamiento. El ECM de ˆβ se dene como: ECM( ˆβ) = E[( ˆβ β) 2 ] Lo que se puede expresar equivalentemente de la siguiente manera: ECM( ˆβ) = V ar( ˆβ) + [Sesgo( ˆβ)] 2 4. La última propiedad de un estimador es la consistencia. El estimador ˆβ es consistente si converge (en el limite) al verdadero valor del parámetro. Se dice que la sucesión de variables aleatorias X 1, X 2,...,X n converge en probabilidad a la variable aleatoria (o constante) X si: ε > 0, lím P r[ X n X < ε] = 1 n Esto se denota plim X n = X. Dos reglas útiles al respecto son: 21

23 Capitulo 2: Modelo de Regresión Lineal plim ( ) X Y = plimx plimy plim (X Y )=plimx plimy Ejemplo: Tenemos una variable y i que esta compuesta por la suma de un componente jo o determinístico (c) y un componente aleatorio(u i ): y i = c }{{} componente fijo + u i }{{} componente aleatorio Si u i N(0, σ 2 u), entonces: µ = E(y i ) = c V (y i ) = E[(y i E(y i )) 2 ] = E[u 2 i ] = σ 2 u 22

24 Capitulo 2: Modelo de Regresión Lineal Ahora consideremos el siguiente estimador de la esperanza de y i, la media muestral: ˆµ = Y = 1 n (y 1 + y y n ) = 1 n Veamos que propiedades tiene este estimador: Insesgamiento: E(ˆµ) = µ n i=1 E(ˆµ) = E ( Y ) ( ) 1 = E n (y 1 + y y n ) dado que E(y i ) = E(c) + E(u i ) = c, }{{} 0 = 1 n (E(y 1) + E(y 2 ) E(y n )) E(ˆµ) = c = µ Eciencia: V ar(ˆµ)<v ar(ˆµ 1 ) Comparemos el estimador promedio muestral con un estimador que es simplemente cualquier valor de yi: y i ˆµ = Y E(Y ) = c V ar(y )= σ2 u n ˆµ 1 = y i E(y i ) = c V ar(y i ) = σu 2 Entonces para n>1 siempre se cumple que ˆµ es más eciente (menor varianza) que ˆµ 1. Error Cuadrático Medio: Como ˆµ es un estimador insesgado de µ al igual que ˆµ 1, el error cuadrático medio de ambos estimadores es igual a la varianza del estimador, de esta forma ˆµ tiene menor error cuadrático medio que ˆµ 1. Consistencia: ˆµ es un estimador consistente dado que: plim(ˆµ) = plim(y ) = c Ya que si lím n V ar(y ) = 0 plim(y ) = c. 23

25 Capitulo 2: Modelo de Regresión Lineal 2.3. Modelo de regresión con dos variables Método de Mínimos Cuadrados Ordinarios De la sección anterior teníamos que el error estimado era: û i = Y i Ŷi = Y i ˆβ 1 ˆβ 2 X i (2.13) es decir, los residuos son simplemente la diferencia entre los valores verdaderos y estimados de Y. Si queremos que la función de regresión muestral sea lo más cercana posible a la poblacional, debemos tratar de escoger los coecientes de regresión (los β's) de forma tal que los errores sean lo más pequeños posible. De acuerdo a esto un criterio para escoger la función de regresión muestral podría ser minimizar la suma de los los errores: û i = (Y i Ŷi), sin embargo este criterio no es muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud de los errores, sin embargo en la suma de los errores todos reciben el mismo peso. Debido a esto es posible que la suma de los errores sea muy pequeña cercana a cero, incluso cuando la dispersion de los errores en torno a la función de regresión muestral es alta. Figura 6: Mínimos Cuadrados Ordinarios 24

26 Capitulo 2: Modelo de Regresión Lineal Este problema puede ser solucionado al considerar la suma de los errores al cuadrado como criterio a minimizar, en este caso los errores más lejos reciben un mayor peso: û2 i = (Y i Ŷi) 2 = (Y i ˆβ 1 ˆβ 2 X i ) 2 (2.14) El Método de Mínimos Cuadrados Ordinarios (MCO) escoge ˆβ 1 y ˆβ 2 de forma tal que para una muestra dada, û 2 i sea lo más pequeño posible. Entonces el problema que este método propone resolver es el siguiente: mín (Yi ˆβ 1 ˆβ 2 X i ) 2 (2.15) ˆβ 1, ˆβ 2 las condiciones de primer orden de este problema son: û 2 i ˆβ 1 = 2 (Y i ˆβ 1 ˆβ 2 X i ) = 2 û i = 0 (2.16) û 2 i ˆβ 2 = 2 (Y i ˆβ 1 ˆβ 2 X i )X i = 2 û i X i = 0 (2.17) Simplicando (2.16) y (2.17) obtenemos las ecuaciones normales: Yi = n ˆβ 1 + ˆβ 2 Xi (2.18) Yi X i = ˆβ 1 Xi + ˆβ 2 X 2 i (2.19) Debemos resolver un sistema con dos ecuaciones y dos incógnitas. De la ecuación (2.18) podemos despejar ˆβ 1 : ˆβ 1 = Yi ˆβ 2 Xi n (2.20) reemplazando (2.20) en (2.19): ( Yi Yi X i = ˆβ ) 2 Xi X i + n ˆβ 2 X 2 i (2.21) De esta forma, el estimador de β 2 es: ˆβ 2 = n Y i X i X i Yi n X 2 i ( X i ) 2 (2.22) 25

27 Capitulo 2: Modelo de Regresión Lineal El que puede ser escrito de la siguiente forma (hacerlo): ˆβ 2 = xi y i x 2 i (2.23) donde x i = X i X e y i = Y i Y, con X = 1 n n i=1 X i e Y = 1 n n i=1 Y i Reemplazando (2.22) en (2.20): X 2 ˆβ 1 = i Yi X i Xi Y i n Xi 2 ( (2.24) X i ) 2 = Y ˆβ 2 X (2.25) Los resultados (2.23) y (2.25) podrían haber sido obtenidos de igual forma, expresando inicialmente el modelo de regresión en desviaciones con respecto a la media. El modelo de regresión original es: si le restamos el promedio de esta: Y i = ˆβ 1 + ˆβ 2 X i + û i Y = ˆβ 1 + ˆβ 2 X + û i (2.26) y recordando que el valor esperado del término de error es 0, tenemos el siguiente modelo de regresión lineal expresado en desviaciones con respecto a la media: (Y i Y ) = ˆβ 2 (X i X) + û i y i = ˆβ 2 x i + û i Así el problema de Mínimos Cuadrados Ordinarios es: mín ˆβ 2 (yi ˆβ 2 x i ) 2 La condición de primer orden de este problema es: û 2 i ˆβ 2 = 2 (y i ˆβ 2 x i )x i = 0 Así obtenemos el mismo estimador de β 2, encontrado en (2.23), y β 1 se obtiene simplemente despejando la ecuación (2.26): ˆβ 1 = Y ˆβ 2 X 26

28 Capitulo 2: Modelo de Regresión Lineal que corresponde a lo mismo en la ecuación (2.25). Una vez estimados los coecientes de regresión mediante MCO y utilizando la información muestral, la recta de regresión muestral (Ŷi = ˆβ 1 + ˆβ 2 X i ) puede ser obtenida fácilmente. Ejemplo 1: Disponemos datos de una empresa química sobre el gasto que ella realiza en Investigación y Desarrollo (I+D) y las ganancias anuales de esta compañía: Año Gasto en I+D Ganancia Anual (Millones de dólares) (Millones de dólares) Ahora debemos debemos determinar de que forma como cambia el promedio condicional de la variable dependiente (Ganancias) cuando cambia el valor jo de la variable explicativa (Gasto en I+D). La forma muestral de la recta de regresión: E(Yi X i ) = ˆβ 1 + ˆβ 2 X i requiere determinar el valor estimado de estos parámetros, para lo cual utilizaremos el método 27

29 Capitulo 2: Modelo de Regresión Lineal de mínimos cuadrados ordinarios: ˆβ 2 = n Y i X i X i Yi n X 2 i ( X i ) 2 ˆβ2 = Yi X i nxy X 2 i n(x) 2 Utilicemos los datos para obtener los cálculos necesarios para computar el estimador de β 2 : Año Gasto en I+D (X) Ganancia Anual (Y ) (n=6) (Millones de dólares) (Millones de dólares) XY X Suma X=30 Y =180 XY =1000 X2 =200 X = X n X = 30 6 X = 5 Y = Y n Y = Y = 30 Media de los valores de la variable dependiente Media de los valores de la variable independiente De esta forma, ˆβ 2 = (5) 2 = = ˆβ 2 = 2 ˆβ 1 = Y ˆβ 2 X = = ˆβ 1 = 20 De esta forma, la recta de regresión muestral estimada es: Ŷ = X 28

30 Capitulo 2: Modelo de Regresión Lineal Con esta ecuación en mano, el gerente de I+D de esta compañía puede predecir el promedio en ganancias futuras anuales a partir de la cantidad presupuestada de gasto en Investigación y Desarrollo. Por ejemplo, si la compañía presupuesta gastar 8 millones de dólares en I+D el próximo año, entonces debe ganar aproximadamente 36 millones de dólares durante este año. Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales queremos ver el impacto promedio del número de visitas en el valor de la empresa: vempresa visitas y-ybar x-xbar (y-ybar)*(x-xbar) (x-xbar)^2 ygorro ugorro AOL Yahoo Lycos Cnet Juno Web NBC Internet Earthlink El sitio Promedio Suma β β

31 Capitulo 2: Modelo de Regresión Lineal Utilizando estos datos tenemos: n (X i X) 2 = 2137,9 i=1 n (Y i Y )(X i X) = ,9 i=1 ˆβ 2 = ,9 = 2381,1 2137,9 ˆβ 1 = 26056,4 2381,1 19,4 = 20076,8 30

32 Capitulo 2: Modelo de Regresión Lineal Supuestos detrás del método MCO En el análisis de regresión nuestro objetivo no es sólo obtener los valores de ˆβ 1 y ˆβ 2 sino también hacer inferencia sobre los verdaderos β 1 y β 2. Nos interesa saber que tan cerca están ˆβ 1 y ˆβ 2 de sus contraparte poblacional o que tan cerca esta Ŷi de la verdadera E(Y X i ). La Función de regresión poblacional: Y i = β 1 +β 2 X i +u i, nos muestra que Y i depende de X i y u i. Así, los supuestos hechos para estas dos variables son fundamentales para lograr una interpretación válida de los valores estimados de la regresión. Mientras no se especique la forma como se generan X i y u i, no hay forma de hacer inferencia estadística sobre Y i ni sobre β 1 y β 2. Supuesto 1: Modelo de regresión lineal, el modelo de regresión es lineal en parámetros: Y i = β 1 + β 2 X i + u i Supuesto 2: Los valores de X son jos, X se supone no estocástica. Esto implica que el análisis de regresión es un análisis de regresión condicional, condicionado a los valores dados del regresor X. Supuesto 3: El valor medio del error u i es igual a cero. Dado el valor de X, el valor esperado del término de error u i es cero: E(u i X i ) = 0 Lo que nos dice este supuesto es que los factores que no están considerados en el modelo y que están representados a través de u i, no afectan sistemáticamente el valor de la media de Y. Es decir, los valores positivos de u i se cancelan con los valores negativos de u i. De esta forma, el efecto promedio de u i sobre Y es cero. Ver Figura 7. 31

33 Capitulo 2: Modelo de Regresión Lineal Figura 7: Distribución condicional del término de error ui Supuesto 4: Homocedasticidad o igual varianza de u i. Dado el valor de X, la varianza de u i es la misma para todas las observaciones: var(u i X i ) = E[u i E(u i ) X i ] 2 = E(u 2 i X i ) por supuesto 3 = σ 2 En la Figura 8 podemos apreciar el signicado del supuesto de homocedasticidad, la variación alrededor de la recta de regresión es la misma para todos los valores de X. Esto implica que la función de densidad del término de error u i es la misma. Figura 8: Homocedasticidad 32

34 Capitulo 2: Modelo de Regresión Lineal Por el contrario, el la Figura 9 observamos el caso cuando la varianza del término de error varia para cada X i, en este caso particular la varianza del error aumenta en la medida que X i crece. Figura 9: Heterocedasticidad Esto se conoce como Heterocedasticidad o varianza desigual, lo que se expresa de la siguiente manera: var(u i X i ) = σ 2 i (2.27) Supuesto 5: No existe autocorrelación entre los errores. Dado dos valores de X, X i y X j, con i j, la correlación entre u i y u j es cero: cov(u i, u j X i, X j ) = E{[u i E(u i )] X i }{[u j E(u j )] X j } = E(u i X i )(u j X j ) = 0 Si en la Función de regresión poblacional Y i = β 1 + β 2 X i + u i, u i esta correlacionado con u j, entonces Y i no depende solamente de X i sino también de u j. Al imponer le supuesto 5 estamos diciendo que solo se considerará el efecto sistemático de X i sobre Y i sin preocuparse de otros factores que pueden estar afectando a Y, como la correlación entre los u's. Supuesto 6: La covarianza entre u i y X i es cero E(u i X i ) = 0: cov(u i, X i ) = E[u i E(u i )][X i E(X i )] = E[u i (X i E(X i )] por supuesto E(u i ) = 0 = E(u i X i ) E(u i )E(X i ) por supuesto E(X i ) no estocastica = E(u i X i ) por supuesto E(u i ) = 0 = 0 33

35 Capitulo 2: Modelo de Regresión Lineal Como mencionamos en la sección se supone que X y u tienen una in- uencia separada sobre Y (determinística y estocástica, respectivamente), ahora si X y u están correlacionadas, no es posible determinar los efectos individuales sobre Y. Este supuesto se cumple automáticamente si X es no estocástica y el supuesto 3 se cumple. Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros por estimar. El número de observaciones tiene que ser mayor que el número de variables explicativas, de otra forma no se puede resolver el sistema de ecuaciones. Supongamos que tenemos una sola observación para nuestra variable dependiente y nuestra variable explicativa (Y 1 y X 1 ), el modelo de regresión es tal que tiene intercepto, es decir: el estimador MCO de β 2 es : Y 1 = β 1 + β 2 X 1 + u 1 β 2 = xi y i x 2 i donde x i = X i X e y i = Y i Y, sin embargo con una observación X 1 = X e Y 1 = Y, así β 2 no esta determinado y así tampoco podemos determinar β 1. Supuesto 8: Variabilidad en los valores de X. No todos los valores de X en una muestra deben ser iguales, var(x) debe ser un número nito positivo. Si las X son las mismas X i = X, de esta forma ni β 2 ni β 1 pueden ser estimados. Supuesto 9: El modelo de regresión esta correctamente especicado. Esto es muy importante, ya que por ejemplo la omisión de variables importantes en el modelo, o la elección de la forma funcional inadecuada, o la consideración de supuestos estocásticos equivocados sobre las variables del modelo, harán cuestionable la validez de la interpretación de la regresión estimada. (Aspectos que veremos más adelante). 34

36 Capitulo 2: Modelo de Regresión Lineal Errores estándar de los Estimadores Mínimos Cuadrados Ordinarios Como vimos en la sección 2.3.1, los valores estimados para β 1 y β 2 dependen de los datos muestrales, sin embargo, los datos cambian de una muestra a otra y así los valores estimados también, por eso es necesario tener una medida que nos permita decir que tan cercano son los valores estimados a los valores poblacionales de los parámetros. La medida que utilizaremos para medir la precisión del estimador es el error estándar, que es la desviación estándar de la distribución muestral del estimador, la que a su vez es la distribución del conjunto de valores del estimador obtenidos de todas las muestras posibles de igual tamaño de una población dada. Recordemos el estimador MCO de β 2 : ˆβ 2 = xi y i x 2 i donde y i = β 2 x i +u i (modelo poblacional en desviaciones con respecto a la media). De esta forma reemplazando y i en el estimador de β 2 : ˆβ 2 = xi (β 2 x i + u i ) x 2 i x 2 = β i 2 + x 2 i = β 2 + ui x i x 2 i ui x i x 2 i Aplicando valor esperado a la expresión anterior: ( ) E( ˆβ ui x i 2 ) = β 2 + E x 2 ( i ) E(ui )x i = β 2 + por supuesto 2 x 2 i = β 2 por supuesto 3 (2.28) La ecuación (2.28) nos dice que en valor esperado el estimador MCO de ˆβ 2 es igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como insesgamiento. 35

37 Capitulo 2: Modelo de Regresión Lineal Ahora procedamos a calcular la varianza de el estimador MCO de β 2 : var( ˆβ 2 ) = E[ ˆβ 2 E( ˆβ 2 )] 2 = E( ˆβ 2 β 2 ) 2 ( ) [ xi u i ] 2 = E [ x 2 i ]2 Por supuesto 4 E(u 2 i ) = σ 2 y por supuesto 6 E(u i u j ) = 0, esto implica que: var( ˆβ 2 ) = σ 2 x 2 i (2.29) Estimador Mínimo Cuadrado Ordinario de σ 2 Ahora debemos estimar el parámetro poblacional σ 2, como este corresponde al valor esperado de u 2 i y û i es una estimación de u i, por analogía: n i=1 û2 i ˆσ 2 = n pareciera ser un estimador razonable. Pero los errores de MCO, están estimados imperfectamente si los comparamos con los errores poblacionales, ya que dependen de una estimación de β 1 y β 2. Veamos esto con más detalle: Partiendo del Regresión poblacional expresado en desviaciones con respecto a la media: y recordando también que: Al sustituir (2.30) en (2.31), se obtiene: y i = β 2 x i + (u i u) (2.30) û i = y i ˆβ 2 x i (2.31) û i = β 2 x i + (u i u) ˆβ 2 x i Elevando al cuadrado la expresión anterior, aplicando sumatoria y tomando valor esperado: ( ) E û2i = E( ˆβ 2 β 2 ) [ ] [ 2 x 2 i + E (ui u) 2 2 E ( ˆβ 2 β 2 ) ] x i (u i u) }{{}}{{} = var( ˆβ 2 ) x 2 i + (n 1)var(u i ) 2E = σ 2 + (n 1)σ 2 2σ 2 = (n 2)σ 2 36 (i) (ii) [ xi u i ] xi (u x 2 i u) i

38 Capitulo 2: Modelo de Regresión Lineal (i) [ ] E (ui u) 2 [ ] = E (u 2 i 2u i u + u 2 ) [ = E u 2 i 2u ] u i + nu 2 [ = E u 2 i 2u n ] ui + nu 2 n [ ] = E u 2 i 2nu 2 + nu 2 [ ] = E u 2 i nu 2 [ ( ) ] 2 = E u 2 ui i n n = nσ 2 n n σ2 = (n 1)σ 2 (ii) E [ ( ˆβ 2 β 2 ) ] x i (u i u) [ = E ( ˆβ 2 β 2 ) ] x i (u i u) [ xi u i ] = E xi (u x 2 i u) [ i ] ( xi u i ) 2 xi u = E i xi u x 2 i x 2 i = σ 2 Por lo tanto se dene el estimador de la varianza σ 2 como: σ 2 = û2 i n 2 (2.32) De forma tal que, σ 2 es un estimador insesgado de σ 2 : σ 2 = 1 n 2 E ( û2 i ) = σ 2 37

39 Capitulo 2: Modelo de Regresión Lineal 2.4. Modelo de Regresión con k variables Ahora abandonemos la simplicación de solo usar dos variables, de ahora en adelante generalizaremos el modelo de regresión lineal para que pueda tener hasta k variables explicativas. Aclaración: haremos un cambio de notación, cada observación i de la variable dependiente será denotada por y i y cada observación i de una variable explicativa, por ejemplo X 1, será denotada por x 1i. Ahora las variables en minúscula no signica que estén en desvíos. El Modelo de Regresión Poblacional en este caso es: y i = β 1 + β 2 x 2i + β 3 x 3i β k x ki + u i i = 1,..., n Representación Matricial del Modelo de Regresión Lineal El modelo con k variables explicativas puede ser expresado en notación matricial. En efecto, cada variable explicativa x j, con j=1,..., k, es un vector columna de dimensión n, al igual que la variable dependiente y el término de error. De este modo, el modelo puede ser reescrito de la siguiente forma: y 1 y 2. y n = β 1 + x 21 x 22. x 2n β 2 + x 31 x 32. x 3n β x k1 x k2. x kn β k + Donde las variables explicativas se pueden agrupar en una sola matriz de dimensión n k, que denotaremos simplemente como X, de esta manera el modelo se expresa de la siguiente forma: y 1 y 2. y n 1 x 21 x 31 x k1 = 1 x 22 x 32 x k x 2n x 3n x kn β 1 β 2. β k + u 1 u 2. u n u 1 u 2. u n Y = Xβ + u(2.33) donde Y es un vector de dimensión n 1, X es la matriz de variables explicativas de dimensión n k y u es un vector correspondiente al término de error con dimensión n 1. 38

40 Capitulo 2: Modelo de Regresión Lineal Ahora debemos expresar la distribución del término de error en términos matriciales: E(u 1 ) E(u 2 ) E(u) =. = 0 n 1 E(u n ) E(u 2 1) E(u 1 u 2 ) E(u 1 u n ) σ E(uu E(u 2 u 1 ) E(u 2 2) E(u 2 u n ) ) = = 0 σ = σ2 I E(u n u 1 ) E(u n u 2 ) E(u 2 n) 0 0 σ 2 De los supuestos 3, 4 y 5, tenemos entonces que el término de error tiene la siguiente distribución: ( ) u 0, n 1 σ2 I (2.34) n n n n Estimador Mínimo Cuadrados Ordinarios El método de MCO, plantea que los parámetros del modelo pueden ser estimados minimizando la suma de los errores al cuadrado (S E ( ˆβ)), la que en términos matriciales equivale a: S E ( ˆβ) = n û 2 i = û û i=1 donde û = Y X ˆβ. Entonces el problema de minimizar la suma de los errores al cuadrado se expresa de la siguiente forma: mín S E ( ˆβ) [ = mín (Y X ˆβ) (Y X ˆβ) ] ˆβ ˆβ = mín ˆβ [ Y Y 2 ˆβ X Y + ˆβ X X ˆβ ] S E ( ˆβ) ˆβ = 2X Y + 2X X ˆβ = 0 ˆβ = (X X) 1 X Y (2.35) 39

41 Capitulo 2: Modelo de Regresión Lineal De (2.35) tenemos: (2.36) es la condición de ortogonalidad. X (Y X ˆβ) = 0 X û = 0 (2.36) De esta forma, el vector de parámetros estimados ˆβ se obtiene de resolver el siguiente sistema de ecuaciones normales: X X ˆβ = X Y x 2,1 x 3,1 x k,1 ˆβ 1 x 2,1 x 2,2 x 2,3 x 2,n 1 x 2,2 x 3,2 x k,2 ˆβ 2 x 3,1 x 3,2 x 3,3 x 3,n 1 x 2,3 x 3,3 x k,3 ˆβ x k,1 x k,2 x k,3 x k,n 1 x 2,n x 3,n x k,n ˆβ k y 1 x 2,1 x 2,2 x 2,3 x 2,n y 2 x 3,1 x 3,2 x 3,3 x 3,n y 3 = x k,1 x k,2 x k,3 x k,n. y n n n i=1 x 2,i n i=1 x 3,i. n i=1 x k,i n i=1 x n 2,i i=1 x 3,i n n i=1 x2 2,i i=1 x 2,ix 3,i n i=1 x n 3,ix 2,i i=1 x2 3,i..... n i=1 x n k,ix 2,i i=1 x k,ix 3,i n i=1 x k,i n i=1 x 2,ix k,i n i=1 x 3,ix k,i. n i=1 x2 k,i ˆβ n 1 ˆβ 2 i=1 y i n i=1 ˆβ y n ix 2,i 3 = i=1 y ix 3,i.. n ˆβ k i=1 y ix k,i Es importante recordar que el estimador MCO esta denido solo cuando la matriz (X'X) es invertible, lo que ocurre siempre y cuando: 1. Las k columnas de la matriz X sean linealmente independientes. 2. Se disponga al menos de tantas observaciones como variables explicativas, es decir: n k.(supuesto 7) Pongamos atención en el segundo supuesto, cuando n=k la matriz X tiene dimensión k k, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de esta forma (X X) 1 = X 1 (X ) 1 y por lo tanto: ˆβ = (X X) 1 X Y = X 1 (X ) 1 X Y = X 1 Y (2.37) 40

42 Capitulo 2: Modelo de Regresión Lineal el vector de residuos û = Y X ˆβ = Y X(X 1 Y ) = Y Y = 0 n, de esta forma el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual forma toma el mínimo valor posible, cero. Sin embargo, esta no es una característica deseable, el ajuste perfecto ocurre porque tenemos una muestra muy reducida. Esto trae como consecuencia poco robustez e imprecisión en las estimaciones. Si escogemos una nueva muestra, del mismo tamaño que la anterior, obtendremos otro estimador ˆβ con suma residual 0, que puede diferir en forma arbitraria del anterior. Para lograr estimaciones precisas de los parámetros, es necesario tener un número de observaciones notablemente superior al de las variables explicativas. La diferencia n-k se conoce como el número de grados de libertad de la estimación Propiedades del estimador MCO Notemos que el vector ˆβ es un vector aleatorio, ya que depende del vector de errores: ˆβ = (X X) 1 X Y = (X X) 1 X (Xβ + u) = β + (X X) 1 X u (2.38) E( ˆβ) = E(β) + E[(X X) 1 X u] = β + (X X) 1 X E(u) La esperanza de β es el mismo parámetro, ya que este es un constante (valor poblacional), y por supuestos 2 y 3 el segundo término de la expresión anterior es cero, E( ˆβ) = β (2.39) Es decir, el estimador MCO es insesgado, tal como lo habíamos mostrado en la ecuación (2.28). De (2.38) podemos denir el error de estimación o sesgo como: ˆβ β = (X X) 1 X u 41

43 Capitulo 2: Modelo de Regresión Lineal Ahora calculemos la varianza de ˆβ: var( ˆβ) = E[( ˆβ E( ˆβ)) ( ˆβ E( ˆβ)) ] = E[( ˆβ β) ( ˆβ β) ] = E[(X X) 1 X uu X(X X) 1 ] = (X X) 1 X E(uu )X(X X) 1 = (X X) 1 X (σ 2 I n )X(X X) 1 = σ 2 (X X) 1 (2.40) Para poder estimar la varianza de ˆβ necesitamos reemplazar σ 2 en (2.40) por su estimador insesgado: σ 2 = u u n k Propiedad de mejor estimador lineal insesgado Se dice que ˆβ, es el mejor estimador lineal insesgado (MELI) de β si se cumple lo siguiente: 1. El lineal, es decir, es una función lineal de una variable aleatoria, como la variable y en el modelo de regresión. 2. Es insesgado, es decir, su valor esperado, E( ˆβ), es igual a el verdadero valor, β. 3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un estimador insesgado como varianza mínima es conocido como un estimador eciente Teorema de Gauss-Markov Proposición: El estimador MCO es el estimador lineal insesgado óptimo, en el sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de covarianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI. Demostración: Sea β = Ãy un estimador lineal de β, donde à es una matriz 42

44 Capitulo 2: Modelo de Regresión Lineal k n. Denotemos A = Ã (X X) 1 X, de modo que: β = [A + (X X) 1 X ]Y = [A + (X X) 1 X ](Xβ + u) = AXβ + β + [A + (X X) 1 X ]u Aplicando esperanza a la expresión anterior: E( β) = AXβ + β + [A + (X X) 1 X ]E(u) = AXβ + β El estimador β será insesgado solo si la matriz A es tal que AX=0 k k. De esta forma: y su matriz de covarianza será: β = β + [A + (X X) 1 X ]u cov( β) = E[( β β)( β β) ] = E{([A + (X X) 1 X ]u)([a + (X X) 1 X ]u) } = σ 2 AA + σ 2 (X X) 1 }{{} cov( ˆβ) Como la matriz AA es semidenida positiva, se concluye la diferencia entre la covarianza de β y ˆβ es una matriz semidenida positiva, con lo que la covarianza de β es mayor o igual a la covarianza de ˆβ 43

45 Capitulo 2: Modelo de Regresión Lineal 2.6. Geometría del Estimador MCO Recordemos que el modelo de regresión muestral tiene la siguiente expresión: Y = X ˆβ + û la que puede ser reescrita de la siguiente forma: Y = P Y + MY (2.41) donde P se denomina matriz de proyección y se dene de la siguiente manera: P = X(X X) 1 X Además se tiene que M=I-P. De acuerdo a la ecuación (2.36) el estimador MCO es tal que los errores son ortogonales a las X, es decir se deben escoger los parámetros β de forma tal que el vector de errores sea ortogonal al espacio formados por las variables explicativas. Así, el estimador MCO nos permite descomponer Y en dos términos ortogonales entre si: el primer componente puede ser escrito como una combinación lineal de las columnas x y el segundo es un componente ortogonal a X (el término de error), tal como lo muestra (2.41). Esto se representa grácamente en la Figura 10. Y MY x1 PY 0 x2 Col X Figura 10: Descomposición Ortogonal de Y El término P Y alternativamente se puede ver como la proyección de Y en el espacio barrido por las X's y MY como la proyección de Y es el espacio ortogonal a las X's. 44

46 Capitulo 2: Modelo de Regresión Lineal 2.7. Bondad de Ajuste y Análisis de Varianza El objetivo de esta sección es introducir un criterio de ajuste de nuestra regresión, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a la muestra. En principio, podríamos pensar que la suma de los residuos cuadrados, es decir, nuestro criterio original de ajuste, es una buena opción: a menor sea éste, mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el factor de escala deseado, lo cual invalida su uso como criterio de ajuste. Por ello, se ha desarrollado un criterio que elimine el problema anterior. Dicho estadístico ya no se basará en la magnitud de un valor (como la suma de los cuadrados de los residuos), sino que intentará preguntarse si la variación de las variables independientes (X) explica la variación de la variable independiente, como veremos más adelante. Para ello analizaremos con un poco más de profundidad el modelo de regresión lineal en desvíos con respecto a la media y presentaremos la llamada descomposición de varianza (o análisis de varianza), ambos, insumos fundamentales para obtener nuestro estadístico de bondad de ajuste Modelo de Regresión Lineal en Desvíos Sea el modelo poblacional usual con k variables: y i = β 1 + β 2 x 2i + β 3 x 3i + + β k x ki + u i (2.42) donde i = 1... n y cuya contraparte estimada es: y i = ˆβ 1 + ˆβ 2 x 2i + ˆβ 3 x 3i + + ˆβ k x ki + û i (2.43) Luego, si sumamos para todas las observaciones y dividimos a ambos lados por el tamaño muestral n, tenemos: por lo cual: Ȳ = ˆβ 1 + ˆβ 2 x 2 + ˆβ 3 x ˆβ k x k (2.44) ˆβ 1 = Ȳ ˆβ 2 x 2 + ˆβ 3 x ˆβ k x k (2.45) 45

47 Capitulo 2: Modelo de Regresión Lineal La ecuación (2.45) muestra que el término independiente de una regresión queda determinado por el resto de los k-1 coecientes involucrados. Finalmente, note que restando las ecuaciones (2.43) y (2.44) obtenemos: y i Ȳ = ˆβ 2 (x 2i x 2 ) + ˆβ 3 (x 3i x 3 ) + + ˆβ k (x ki x k ) + û i (2.46) la cual es una expresión similar a (2.43), excepto por dos importantes diferencias. Primero, el modelo no posee constante y segundo, las variables se encuentran expresadas en desvíos con respecto a la media. A pesar de ello, note que los coe- cientes y los residuos son los mismos en ambos modelos. De lo anterior surge un importante corolario respecto del término constante de nuestro modelo. En general, el interés del investigador se centra en el impacto de los regresores sobre la variable dependiente, por lo cual, el término constante no es más que una corrección que garantiza que los promedios muestrales de ambos miembros del modelo econométrico coincidan. Para transformar en desvíos con respecto a la media un modelo en términos matriciales, introduciremos una matriz fundamental para el análisis de esta sección. Denotaremos por M 0 una matriz de n n, denida como: n n n M 0 = I n n ii n = n = n n n n n n donde I es la identidad (n n) e i corresponde al vector unitario de dimensión n. Dicha matriz es singular, simétrica (M 0 '=M 0 ) e idempotente (M 0 M 0 =M 0 ). En general, M 0 es conocida como matriz de desvíos, ya que resta a cada columna de la matriz involucrada, su media aritmética. Por ejemplo, es fácil comprobar que: M 0 Y = Y 1 n ii Y = y 1 y 2. y n 1 n n i=1 y i n i=1 y i. n i=1 y i = y 1 Ȳ y 2 Ȳ. y n Ȳ Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en términos de desvío con respecto a la media como: M 0 Y = M 0 Xβ + M 0 u (2.47) 46

48 Capitulo 2: Modelo de Regresión Lineal Análisis de Varianza Suponga entonces el siguiente modelo poblacional: Y = Xβ + u donde Y corresponde a una vector n 1, X corresponde a nuestra matriz de regresores que incluye un término constante, tal que X es de n k y u corresponde a nuestro vector de errores de n 1. Buscamos entonces denir la variación de la variable dependiente (Suma de los cuadrados totales = TSS) como 3 : T SS = n (Y i Ȳ )2 (2.48) i=1 Para encontrar entonces una expresión para (2.48), de la ecuación (2.47) tenemos que nuestro modelo estimado en desvíos con respecto a la media es: M 0 Y = M 0 X ˆβ + M 0 û con lo cual, al particionar nuestra matriz X en X = [i X 2 ], nuestro vector de parámetros en β = [β 1 β 2 ] y considerando que M 0 i = 0 y que M 0 û = û, tenemos que: M 0 Y = M 0 i ˆβ 1 + M 0 X 2 ˆβ2 + M 0 û = M 0 X 2 ˆβ2 + û (2.49) Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadrados de las desviaciones de Y con respecto a su media), de la ecuación (2.48), multiplicamos por Y' la ecuación (2.49): Y M 0 Y = Y (M 0 X 2 ˆβ2 + û) = (X ˆβ + û) (M 0 X 2 ˆβ2 + û) = ˆβ X M 0 X 2 ˆβ2 + ˆβ X û + û M 0 X 2 ˆβ2 + û û Y M 0 Y = ˆβ 2 X 2M 0 X 2 ˆβ2 + û û (2.50) T SS = ESS + RSS (2.51) donde el segundo y el tercer término desaparecen gracias a que los residuos estimados son, por construcción, ortogonales a las variables explicativas 4. La igualdad 3 Note que para dicha denición utilizamos los cuadrados de la desviaciones, ya que la suma de las desviaciones es siempre cero. 4 Ya que X û = X (Y X ˆβ) = X Y X Y = 0. 47

49 Capitulo 2: Modelo de Regresión Lineal anterior es conocida como la descomposición de varianza. El término de la izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se encuentra la variabilidad de las variables independientes o regresores y la variabilidad de los errores. ¾Cuál es entonces el objetivo?: descomponer la varianza de la variable dependiente aquella parte que es explicada por la regresión (ESS) de aquella parte explicada por los residuos (RSS). ¾Por qué?: porque intuitivamente, la regresión se ajusta mejor si las desviaciones de Y se explican en su mayor parte por desviaciones de X y no por desviaciones de los residuos Bondad de Ajuste: R 2 y R 2 Denimos entonces la bondad de ajuste del modelo a través del siguiente estadígrafo llamado también coeciente de determinación: R 2 = ESS T SS (2.52) es decir, como la proporción de la varianza de Y que es explicada por la varianza de la regresión. Alternativamente: Note que: R 2 = 1 RSS T SS (2.53) 1. El coeciente de determinación es siempre menor a 1. Ello porque RSS T SS y por lo tanto RSS T SS El análisis de varianza anterior fue derivado bajo el supuesto que el modelo incluía una constante (por ello utilizábamos la matriz M 0 ). En dicho caso, necesariamente R 2 0. En caso de que el modelo no incluya una constante, se debe utilizar la fórmula (2.5.2) utilizando TSS=Y'Y (sin desvíos). 3. Al agregar regresores al modelo, el R 2 nunca decrecerá (se mantendrá constante o aumentará) 4. No es claro cuan bueno sea como predictor de ajuste. Para ver este último punto, suponga que usted posee el siguiente modelo poblacional: Y = β 1 + β 2 X + u 48

50 Capitulo 2: Modelo de Regresión Lineal donde X es un vector (n 1). Suponga ahora que restamos X a ambos lados de nuestro modelo. Obtenemos entonces: Y X = β 1 + γx + u Si β 2 1, entonces es fácil vericar que el R 2 del primer modelo será cercano a 1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos son matemáticamente equivalentes. A pesar de lo anterior, en trabajos aplicados, el R 2 es ampliamente utilizado, por lo cual se recomienda su publicación. Retrocedamos ahora al punto tres. El nos dice que el coeciente de determinación probablemente crecerá al incluir regresores. Ello plantea incentivos a incluir regresores no relevantes para nuestro modelo, con el n de obtener un mejor ajuste. ¾Porqué sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece (o en el mejor de los casos se mantiene), mientras que la TSS permanece constante. Por esta razón se creó el coeciente de determinación ajustado, el cual corrige el R 2 original por los grados de libertad del numerador y el denominador. Entonces, denimos el R 2 ajustado ( R 2 ) como: R 2 = 1 û û/(n k) Y MY/(n 1) (2.54) o equivalentemente: R 2 = 1 (1 R 2 (n 1) ) (n k) (2.55) 49

51 Capitulo 2: Modelo de Regresión Lineal 2.8. Inferencia Una vez que hemos estimado nuestra regresión muestral, es necesario preguntarse cuan buena aproximación es dicha regresión de la poblacional. Para que la aproximación sea cercana, es condición necesaria que los parámetros incluidos en la regresión muestral sea estadísticamente distintos de cero (en caso contrario, no pertenecen a la regresión poblacional). Así, uno de nuestros objetivos puede ser el testear la signicancia individual de los parámetros. Pero lo anterior es sólo una de las preguntas que como investigadores podemos estar interesados en responder. Por ejemplo, en la estimación de la función de producción de una rma, que asumimos Cobb Douglas (Y = AK α L β e u o en logaritmo ln Y = ln A+α ln K +β ln L+u), podemos estar interesados en descubrir si la rma presenta rendimientos constantes, crecientes o decrecientes a la escala, lo cual se reejará en que α + β > o 1. Por lo tanto, ello podría ser otra hipótesis interesante de plantearse. También podría ser interesante descubrir si todos los parámetros a la vez son distintos de cero, o de algún valor determinado. La gama de preguntas posibles respecto del valor de los parámetros es sólo acotada por la pregunta que el investigador desee responder. Nuestro objetivo es, por lo tanto, desarrollar los métodos de inferencia y contraste de hipótesis que nos permitan responder, en el contexto de una regresión muestral particular, las preguntas anteriores. Dos notas precautorias. En esta sección nos ocuparemos de restricciones o hipótesis lineales sobre los coecientes. Restricciones no lineales son más escasas en econometría aplicada y se desarrollan en contexto de un modelo particular. Segundo, en todo lo que se reere a este apartado, asumiremos que los errores de nuestra regresión muestral siguen una distribución normal (ya veremos porqué). Entonces, sea nuestro modelo poblacional Y = Xβ + u donde X es una matriz de (n k),u e Y son vectores (n 1) y β es vector de (k 1). Sean entonces las siguientes hipótesis: 1. H 0 : β i = 0 Plantea que el regresor X i no posee inuencia alguna sobre Y. Este es el test más común y nos referiremos a él como test de signicancia. 50

52 Capitulo 2: Modelo de Regresión Lineal 2. H 0 : β i = β i0 Plantea que el regresor X i posee un impacto determinado por β i0 sobre Y. 3. H 0 : β i + β j =1 Plantea que la suma de los regresores X i y X j poseen un impacto conjunto de magnitud H 0 : β i = β j Plantea que los regresores X i y X j poseen el mismo impacto sobre Y. 5. H 0 : β i =0 i=2... k Plantea que todos los regresores conjuntamente, excepto la constante, son cero. 6. H 0 : β l =0 donde el vector β ha sido particionado en dos (β l y β p ) con dimensiones (k l 1) y (k p 1) respectivamente, tal que k l + k p = k. Plantea entonces que un subconjunto de parámetros son estadísticamente no signi- cativos. Todas las hipótesis anteriores pueden ser resumidas en la siguiente expresión: Rβ = r donde R es una matriz de (q k) constantes conocidas (ceros o unos), cuyo objetivo será seleccionar los parámetros a testear, cuyo número de las, q, representa el número de restricciones. A su vez, r es un vector de dimensión q y contiene el real al cual es restringido cada parámetro. Veamos como serán las matrices R y r en cada una de nuestras hipótesis: 1. R=[ ]; r=0; q=1 donde 1 se encuentra en la i-ésima posición 2. R=[ ]; r=β i0 ; q=1 donde 1 se encuentra en la i-ésima posición 3. R=[ ]; r=1; q=1 donde 1 se encuentra en la i-ésima posición y en la j-ésima posición. 4. R=[ ]; r=0; q=1 donde 1 se encuentra en la i-ésima posición y en la j-ésima posición. 5. R=[0 q 1 I k 1 ]; r=0; q=k 1 6. R=[0 ki k j I ki ]; r=0; q=k i 51

53 Capitulo 2: Modelo de Regresión Lineal Entonces, nuestra hipótesis nula corresponde a: H 0 : Rβ = r (2.56) con lo cual, sólo nos resta derivar el test que nos permita rechazar o no rechazar nuestra nula. La construcción del estadígrafo es como sigue. Dado que MCO (bajo los supuestos relevantes) es insesgado, tenemos que E( ˆβ) = β, por lo tanto, E(R ˆβ) = Rβ, mientras que la varianza de R ˆβ corresponde a V [R ˆβ] = E[R( ˆβ β)( ˆβ β) R ] = RV ar( ˆβ)R = σ 2 R(X X) 1 R Necesitamos aún un supuesto más para determinar la distribución muestral de nuestra nula. Dado que ˆβ es función de u y u N(0, σ 2 ), entonces ˆβ N(β, σ 2 (X X) 1 ) y por lo tanto R ˆβ N(r, σ 2 R(X X) 1 R ), entonces: y y si la nula Rβ = r es cierta: luego estandarizamos, con lo cual: ˆβ N[β, σ 2 (X X) 1 ] (2.57) R ˆβ N[Rβ, σ 2 R(X X) 1 R ] (2.58) (R ˆβ r) N[0, σ 2 R(X X) 1 R ] (2.59) Además, se puede demostrar que (hacerlo) 5 : Luego, se puede demostrar que (hacerlo) 6 : (R ˆβ r) σ2 R(X X) 1 R N[0, 1] (2.60) û û σ 2 χ2 (n k) (2.61) (R ˆβ r) [σ 2 R(X X) 1 R ] 1 (R ˆβ r) χ 2 q (2.62) 5 Basta con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo cual x N(0, σ 2 I) y A corresponde a una matriz simétrica e idempotente de rango n, entonces 1 σ x Ax χ 2 2 n. Finalmente, recuerde que û = MY = Mu y que el rango de una matriz simétrica e idempotente es su traza. 6 Basta con recorder que si el vector x, de dimensión n, es tal que x N(0, Σ), entonces, x Σ 1 x χ 2 n. 52

54 Capitulo 2: Modelo de Regresión Lineal luego, combinando los dos resultados anteriores, se puede demostrar que (hacerlo) 7 : [(R ˆβ r) [R(X X) 1 R ] 1 (R ˆβ r)]/q û û/(n k) F (q,n k) (2.63) El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test es de utilidad para testear cualquier hipótesis de la forma expuesta en (2.56). A continuación veremos subcasos de dicho test general Test t (Una hipótesis lineal) Reescribiendo el test F como: [(R ˆβ r) [R V ar( ˆβ)R ] 1 (R ˆβ r)] F (q,n k) y haciendo el reemplazo respectivo de R y r correspondientes a las hipótesis 1 o 2 (H 0 : β i = 0 = β i0 ), llegaremos a: F = ( ˆβ β i0 ) 2 V ar(β i ) F (1, n k) (2.64) Recordando que t 2 es una caso particular de una F con un grado de libertad en el numerador, tenemos que: t = ˆβ β i0 V ar(β i ) t n k (2.65) Lo anterior es conocido como el test t (test de signicancia) y en su versión más ˆβ utilizada corresponde a t =, donde se busca testear la hipótesis nula de V ar(βi ) que el parámetro es cero. El test t también cubre los casos 3. y 4.. En el caso 3. por ejemplo (H 0 : β i +β j =1), el estadígrafo corresponderá a: t = ˆβ i + ˆβ j 1 t n k (2.66) V ar( ˆβ i ) + 2Ĉov( ˆβ i, ˆβ j ) + V ar( ˆβ j ) La distribución t es simétrica y se aproxima a la normal para tamaños de muestras 7 Sólo un poquito de álgebra y recordar como se construye una distribución F(q, n-k) a partir de la división de dos χ 2 con grados de libertad q en el numerador y n-k en el denominador. 53

55 Capitulo 2: Modelo de Regresión Lineal grandes, sin embargo, la t posee colas más gruesas que la normal (lo cual es más pronunciado en muestras pequeñas: n 30). La siguiente gura expone la relación entre la distribución t y la normal: Probabilidad Distribución Normal Distribución t 0 Nota precautoria: Toda la derivación anterior se basa en el estricto supuesto de normalidad de los errores. En caso de que los mismos no distribuyan normal, la distribución del test F (y por lo tanto el del t) es desconocida en muestras nitas. Sin embargo, es posible demostrar que t a N(0, 1), es decir, que el test t distribuye asintóticamente normal. Luego, los valores críticos de t y Φ (normal estándar) se encuentran sumamente cerca si n-k 30, por lo cual, en términos prácticos no importa mucho cual de ellas escojamos para los valores críticos (a menos que la muestra sea especialmente pequeña). Finalmente, nos queda examinar los criterios de rechazo del test y los niveles de conanza. Como usted recordará de sus clases de estadística, lo anterior depende de como especiquemos la hipótesis alternativa. A continuación, pasamos a revisar este punto. 54

56 Capitulo 2: Modelo de Regresión Lineal Criterio de Rechazo y Nivel de Conanza Una vez que hemos calculado el valor del test para nuestra nula particular (o valor calculado), resta calcular el valor crítico o el valor que nos indica la tabla t. Dicho valor crítico nos dirá si nuestra nula es falsa o si no podemos armar que lo es. La elección de dicho valor crítico se toma desde la tabla de distribución t y el número debe ser escogido tomado en cuenta el nivel de signicancia escogido (1 %, 5 % o 10 %), el cual a su vez determina el nivel de conanza del test (99 %, 95 % o 90 %, respectivamente). El nivel de conanza posee una explicación intuitiva: Nuestro estadígrafo es función de la muestra con lo que estamos trabajando, por lo cual, si contáramos con una gran número de ellas y con cada una pudiésemos calcular nuestro estadígrafo, el nivel de conanza indica el porcentaje de veces que calculamos nuestro estadígrafo en que realmente no rechazamos lo cierto o rechazamos correctamente lo falso. La forma en que se distribuya la probabilidad de rechazo, es decir, el nivel de signicancia, depende de nuestra hipótesis alternativa. A continuación revisamos dicho asunto. Test de una cola Supongamos que nuestra hipótesis es: H 0 : β i = β io H 1 : β i > β io donde β i0 R. En dicho caso, el estadígrafo es calculado según lo propuesto en la sección anterior. El punto está en como acumulamos la probabilidad de rechazo. En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha de la distribución, como lo muestra la siguiente gura 8 : 8 ¾Por qué en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de signicancia, nos indica hasta donde puedo tolerar un valor mayor a β io, por lo cual, carecería de sentido que la zona de rechazo se encuentre en la cola izquierda de la distribución. Por ejemplo, si β io =0, la distribución de nuestro estadígrafo se centra en cero (vea la fórmula), por lo cual la hipótesis alternativa correspondería a que el parámetro es positivo. el punto es ¾cuán positivo puedo aceptar que sea?. 55

57 Capitulo 2: Modelo de Regresión Lineal Probabilidad No se Rechaza Se Rechaza (5%) por lo tanto, rechazaremos nuestra hipótesis nula de que el coeciente es cero contra la hipótesis alternativa que el parámetro es mayor que β io, si el valor calculado del test es mayor al valor crítico de la tabla t. En el caso que H 1 sea que el parámetro es menor a β io, entonces la probabilidad de rechazo se concentra en la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor que el valor crítico de la tabla t. Test de dos colas Supongamos que nuestra hipótesis es: H 0 : β i = β io H 1 : β i β io En este caso estamos repartiendo uniformemente la probabilidad de rechazo en ambas colas de la distribución como lo muestra la siguiente gura (al 95 % de conanza): 56

58 Capitulo 2: Modelo de Regresión Lineal Probabilidad Se Rechaza (2,5%)) No se Rechaza Se Rechaza (2,5%) Por lo tanto, rechazaremos la nula si el valor calculado es en módulo mayor que el valor crítico de tabla. Note que en este caso, la probabilidad de rechazo se reparte un partes iguales en ambas colas. Ello se justica en que la distribución t corresponde a una distribución simétrica. Error de Tipo I, Error de Tipo II, Tamaño y Potencia de un test Antes de continuar, veremos cuatro conceptos estadísticos importantes que nos indican características de nuestro test. 1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar la nula cuando es cierta. 2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar la nula cuando es falsa. 3. Tamaño del Test: Corresponde la probabilidad de cometer ETI. Se dene como el nivel de signicancia del test (α). 4. Potencia del Test: Corresponde a la probabilidad de rechazar la nula cuando es falsa. Se dene como Potencia =1-ETII. El óptimo para el investigador sería minimizar ambos tipos de errores y tener un test con un menor tamaño y mayor potencia posibles, sin embargo, note que el 57

59 Capitulo 2: Modelo de Regresión Lineal tamaño del test y por lo tanto, el ETI, es una variable endógena al investigador, en tanto que él decide con que nivel de conanza trabajar. Luego, el objetivo se transforma en, dado un nivel de conanza, minimizar la ocurrencia de ETII. Intuitivamente, si usted escoge un nivel de signicancia pequeño (1 %, por ejemplo), sus zonas de rechazo serán pequeñas, con lo cual, inevitablemente, la zona de no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII. P-value Otra forma alternativa al valor crítico de tabla para rechazar o no rechazar nuestra nula, corresponde al uso de los llamados p-values, los cuales son reportados en cualquier paquete estadístico. El p-value (p) se dene como: p = p(t calculado ) = P ( Z t calculado ) = 2(1 Φ( t calculado )) (2.67) es decir, el p-value representa la probabilidad de que el valor crítico (t de tabla, en nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de significancia exacto asociado a un resultado econométrico en particular. Por ejemplo, un p-value de 0.07 indica que un coeciente es estadisticamente signicativo en un nivel de 0.07 (o con un 93 % de conanza). Ejemplo: Suponga el siguiente Modelo de Regresión Lineal Simple: Y i = β 1 + β 2 X i + u i para i = 1,..., N Además posee la siguiente información muestral de X e Y: Y X El estimador MCO de β 1 y β 2 es el siguiente: [ ] [ ] 1 [ ˆβ ˆβ = = ˆβ La matriz de varianzas y covarianzas de ˆβ es: ] = [ 2,1935 0,2338 ] ˆV ( ˆβ) = ˆσ 2 u(x X) 1 = 0,436 2 [ ] 1 = [ 0, , , , ] 58

60 Capitulo 2: Modelo de Regresión Lineal Primero veamos el ajuste de este modelo, es decir, en que grado la variable x explica a la variable y, para lo cual calculemos el R 2 y R 2 : R 2 = 1 RSS 4 T SS = 1 i=1 û2 i 4 i=1 (Y i Y ) = 1 0,436 = 0, R 2 = 1 RSS/2 T SS/3 = 1 4 i=1 û2 i /2 4 i=1 (Y i Y ) 2 /3 = 0,953 Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el modelo incluye constante, el R 2 se puede interpretar como la proporción de la variabilidad de la variable independiente que es explicada por la variabilidad de la variable dependiente, la que en este caso alcanza un 97 %. Ahora veamos si estos parámetros estimados son signicativos a un 95 % de con- anza, para lo cual realizaremos un test t de signicancia a cada uno de ellos: 1. Test de signicancia de ˆβ 1 : H 0 : ˆβ 1 = 0 H 1 : ˆβ 1 0 ˆβ 1 t = V ar( ˆβ 1 ) t 2 De esta forma, el valor calculado para el estadístico t es: t c = 2, = 5, , El valor de tabla del estadístico t a un 95 % de conanza y con dos grados de libertad es 4,303. Probabilidad Se Rechaza (2,5%)) No se Rechaza Se Rechaza (2,5%) t(2)=4,303 t(2)=4,303 tc=5,158 59

61 Capitulo 2: Modelo de Regresión Lineal De esta forma, se rechaza la hipótesis nula de que ˆβ 1 =0, y por lo tanto el parámetro estimado resulta ser estadísticamente signicativo. 2. Test de signicancia de ˆβ 2 : H 0 : ˆβ 2 = 0 H 1 : ˆβ 2 0 t = ˆβ 2 V ar( ˆβ 2 ) t 2 De esta forma, el valor calculado para el estadístico t es: t c = 0, , = 7, El valor de tabla del estadístico t a un 95 % de conanza y con dos grados de libertad es 4,303. Probabilidad Se Rechaza (2,5%)) No se Rechaza Se Rechaza (2,5%) t(2)=4,303 t(2)=4,303 tc=7,893 De esta forma, se rechaza la hipótesis nula de que ˆβ 2 =0, y por lo tanto el parámetro estimado resulta ser estadísticamente signicativo. 3. TAREA: Testee la siguiente hipótesis nula: H 0 : ˆβ 1 ˆβ 2 = 2 H 1 : ˆβ 1 ˆβ

62 Capitulo 2: Modelo de Regresión Lineal Test F (Conjunto de hipótesis lineales) Los casos 6. y 5. corresponden a un conjunto de hipótesis a testear. En el caso 5. correspondía a un subconjunto particular de parámetros, mientras que el caso 6. correspondía a la nula de que todos ellos eran cero, menos la constante. En dichos casos se aplica la fórmula del test F según la ecuación (2.63) y los criterios de rechazo siguen lo expuesto en la sección anterior. Sin embargo, en ambos casos podemos derivar expresiones alternativas para nuestro test. Todas las pendientes del modelo son cero: En este caso, se puede demostrar que el test F puede expresarse como: F = ESS/(k 1) RSS/(n k) F (k 1,n k) (2.68) o alternativamente, utilizando la denición del R 2 : F = R 2 /(k 1) (1 R 2 )/(n k) F (k 1,n k) (2.69) Un subconjunto de las pendientes del modelo son cero: En este caso, se puede demostrar que el test F puede expresarse como: F = (û û û û)/k 2 û û/(n k) F (k 2, n k) (2.70) donde û denotan los residuos MCO restringidos (donde k 2 representa el número de regresores que han sido restringidos a cero), mientras que û representan los residuos del modelo MCO original Intervalos de Conanza Una forma alternativa (o mejor dicho complementaria) de examinar la signicancia estadística de un parámetro ( o un conjunto de ellos) es a través de intervalos de conanza (IC). Ellos nos indican, dado un nivel de conanza, el rango de valores admisibles del coeciente que se estima. Los niveles de conanza generalmente utilizados son 99 %, 95 % y 90 % (al igual que en los test de hipótesis), 61

63 Capitulo 2: Modelo de Regresión Lineal donde el tamaño de los mismos es necesariamente decreciente 9. Una manera natural de obtener el IC asociado a ˆβ i es a través del test t asociado. Vimos entonces que él corresponde a: ˆβ i β i0 V ar( ˆβ i ) t n k entonces, si deseamos un IC del (1-α) % de conanza (es decir, de α % de signicancia) para el parámetro ˆβ i, basta obtener de las tablas de distribución el valor λ α correspondiente, es decir: 1 α = P r Z α/2 = P r Z 1 α/2 = P r ˆβ i β i0 V ar( ˆβ i ) ˆβ i β i0 V ar( ˆβ i ) Z 1 α/2 Z 1 α/2 [ ˆβ i Z 1 α/2 V ar( ˆβ i ) β i0 ˆβ i + Z 1 α/2 V ar( ˆβ i ) donde la tercera expresión se obtiene de despejar β i0 de la segunda. Note que el intervalo ha sido construido en base a una distribución simétrica (como la t o la normal), por lo cual el valor de tabla a escoger debe corresponder a α/2. Note además que dicho intervalo está construido sólo en base a constantes conocidas. Una vez construido, se puede contrastar la nula (H 0 : β i = β i0 ) al nivel de signicancia α sencillamente observando si β i0 pertenece al intervalo (en cuyo caso no rechazamos la nula) o se encuentra fuera de él (en cuyo caso rechazamos la nula) 10. Nuevamente, la validez de dicho intervalo de conanza depende críticamente del supuesto de distribución de los errores. En el caso que el valor Z α se obtenga de la tabla t, como ya sabemos, estamos suponiendo que los errores siguen una distribución normal. Un caso más general es utilizar los valores críticos de la distribución normal estándar. También es posible derivar regiones de conanza, es decir, IC de conanza simultáneos para una conjunto de parámetros, sin embargo, su utilización es escasa 9 Intuitivamente, ya que a más exacta es mi estimación del rango posible, con menos conanza puedo armar estar en lo correcto. 10 Una forma fácil de verlo es pensando en β i0 =0, es decir, que la variable x i no ayuda a explicar y. 62 ]

64 Capitulo 2: Modelo de Regresión Lineal en econometría aplicada (½a menos que su pregunta puntual lo requiera!). Finalmente derivaremos el intervalo de conanza para la varianza de los errores. Sabemos de la ecuación (2.61) que: û û σ 2 χ2 n k (n k) σ 2 σ 2 χ 2 n k (2.71) Utilizando la misma lógica que utilizamos para el IC de un parámetro ˆβ, tenemos que el IC para σ 2 corresponde a: [ (n k) σ 2 χ 2 n k,α σ 2 ] (n k) σ2 = (1 α) (2.72) χ 2 n k,1 α Note que los valores críticos utilizados corresponden a χ 2 n k,1 α y χ 2 n k,α, ya que la distribución χ 2 es una distribución asimétrica Test de Normalidad (Test de Jarque-Bera) Consideramos ahora el problema de utilizar los momentos de los residuos MCO para hacer inferencia sobre la distribución de los errores poblacionales. Dado que algunas de las propiedades de MCO y de la inferencia dependen del supuesto de normalidad en los errores, es importante poseer un contraste para dicho supuesto. Como es sabido, la distribución normal es simétrica y mesocúrtica. La simetría implica que el tercer momento poblacional E(u 3 ) en torno a la media, es cero. El hecho que sea mesocúrtica implica que la kurtosis es 3 (es decir, el ancho de las colas de la distribución, el cual se mide utilizando el cuarto momento en torno a la media). Recordemos entonces que el coeciente de simetría poblacional se dene como: S = E(u 3 ) mientras que la kurtosis (o coeciente de): (σ 2 ) 3 2 K = E(u4 ) (σ 2 ) 2 63

65 Capitulo 2: Modelo de Regresión Lineal En base a los anteriores, Bera y Jarke (1981), propusieron el siguiente estadígrafo, construido bajo la nula de normalidad: [Ŝ JB = n 6 + ( ˆK ] 3) 2 a χ 2 (2) 24 Donde los estimadores muestrales del coeciente de asimetría y kurtosis se obtienen al considerar que un estimador natural de: µ r = E[û r ] corresponde a: n m r = 1 n Note que el estadígrafo está denido en términos del exceso de kurtosis, por lo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula de normalidad. Note además que el estadístico es esencialmente no constructivo, en términos de que no nos indica que camino seguir en caso de rechazar la nula, además de que no rechazar normalidad no implica conrmar su existencia. Sin embargo, en la práctica corresponde al test más utilizado. i=1 û r i 64

66 Capitulo 2: Modelo de Regresión Lineal 2.9. Predicción La predicción es una de las herramientas más atractivas y utilizadas en Econometría. Si el modelo que hemos escogido conrma la teoría en consideración, es decir, a sobrevivido a las pruebas de hipótesis, podemos utilizar el modelo estimado Ŷ = X β para predecir. La predicción se puede efectuar para un valor puntual de la variable dependiente, y 0, correspondiente a un valor dado de los regresores, x 0, o predecir el valor esperado E[y 0 /x 0 ] condicional a las variables explicativas. Supongamos primero que queremos predecir un valor individual de Y, y 0, asociado a un vector de regresores x 0 j con j = 1, 2..., k de dimensión 1 k. De acuerdo con el modelo econométrico se tiene que y 0 = β 1 +x 0 2β x 0 k β k+u 0. Para predecir el valor de y 0 podemos utilizar la estimación MCO del modelo, ŷ 0 = x 0 β. De esta forma, el error de predicción estará dado por : e 0 = y 0 ŷ 0 = x 0 (β β) + u 0 En donde se distinguen dos fuentes del error de predicción El error en la estimación del vector β El error estocástico inherente al modelo u 0 Sin embargo, si consideramos que el estimador MCO es insesgado y mantenemos los supuestos de nuestro modelo de regresión lineal, es trivial mostrar que el valor esperado del error de predicción será cero. Además, podemos calcular la varianza del error de predicción: V ar(ê 0 ) = E[x 0 (β β)(β β) x 0 + 2x 0 (β β)u 0 + u 0 u 0 ] V ar(ê 0 ) = σ 2 µ + σ 2 µx 0 (X X) 1 x 0 La varianza del error de predicción dependerá de la matriz de regresores X de dimensión n k que se utilizó para obtener las estimaciones de β. Sabemos que a mayor dispersion de las variables explicativas menor varianza tendrán nuestras estimaciones MCO 11. Además dependerá del vector x 0 que hemos asumido 11 Es posible y se recomienda derivar una expresión para la varianza del error de predicción utilizando un modelo con 2 regresores. En está expresión se aprecia claramente la dependencia de la varianza del error de predicción con la dispersion en torno a la media de las variables explicativas. 65

67 Capitulo 2: Modelo de Regresión Lineal conocido y del parámetro σ 2 µ, el cual no conocemos y deberá ser reemplazado por su estimador σ 2 µ si es que queremos construir un intervalo de conanza para la predicción ŷ 0. Bajo supuestos de normalidad del término de error, el error de predicción es una combinación lineal de dos variables normales por lo tanto tiene una distribución Normal(0, σ 2 e). Por lo tanto, por una razonamiento análogo al de las secciones anteriores se tiene que: y 0 ŷ 0 N(0, 1) σµ(1 2 + x 0 (X X) 1 x 0 ) y 0 ŷ 0 t n k σ µ(1 2 + x 0 (X X) 1 x 0 ) Por lo tanto, dada una predicción puntual ŷ 0 y una estimación de la desviación estándar del error de predicción podemos construir un intervalo de conanza para el valor de y 0 : P r[ŷ 0 t 1 α/2,n k V ar(ê0 ) y 0 ŷ 0 + t 1 α/2,t k V ar(ê0 )] = 1 α Consideremos ahora que el investigador no está interesado en predecir el valor de la variable endógena y 0, si no tan solo su valor esperado E(y 0 ) = x 0 β. La predicción, al igual que en el caso anterior, será x 0 β. La diferencia es que el error de predicción en este caso estará denido por ẽ = E[y 0 ] x 0 β = x 0 β x 0 β = x 0 (β β). Calculando entonces la varianza (Hacerlo!) de este nuevo error de predicción podemos construir ahora un intervalo de conanza para E(y 0 ) de la misma forma que antes. E[y 0 ] ŷ0 N(0, 1) σµ(x 2 0 (X X) 1 x 0 ) E[y 0 ] ŷ0 t n k σ µ(x 2 0 (X X) 1 x 0 ) P r[ŷ 0 t 1 α/2,n k V ar(ẽ0 ) E[y 0 ] ŷ 0 + t 1 α/2,t k V ar(ẽ0 )] = 1 α Donde utilizamos V ar(ŷ0 ) = V ar(x 0 β) = x 0 V ar( β)x 0 = σ 2 µx 0 (X X) 1 x 0. La siguiente gura ejemplica las predicciones de y 0 y E[y 0 /x 0 ] en un modelo de 2 variables independientes. 66

68 Capitulo 2: Modelo de Regresión Lineal Medición de la precisión de la predicción Se han propuesto varias medidas para valorar la precisión de los modelos de predicción. Muchas de estas medidas están para evaluar la predicción expost, es decir, predicciones para las que las variables exógenas no tienen que ser predichas. Dos de estas medidas que se basan en los residuos de la predicción, son la raíz cuadrada del error cuadrado medio y el error absoluto medio. i RMSE = (y i ŷ i ) 2 n 0 67

69 Capitulo 2: Modelo de Regresión Lineal MAE = i y i ŷ i n 0 Donde n 0 es el número de períodos que hay que predecir. Estos métodos presentan un problema obvio de escala. Algunas medidas que no presentan este problema se basan en el estadístico U de Theil. (1/n U = 0 ) i (y i ŷ i ) 2 (1/n 0 ) i y2 i Ejemplo: Supongamos que un analista comercial está pensando en construir un edicio comercial para luego vender. Sin embargo, no sabe cuales son las características que debiera tener el edicio para maximizar su rentabilidad. Para descubrir esto el se propone realizar un análisis de regresión. El analista elige al azar una muestra de 11 edicios de ocinas de 1500 edicios posibles. Estos datos los puede utilizar para emplear el análisis de regresión lineal multiple para estimar el valor de un edicio de ocinas en un área determinada basándose en las siguientes variables. x1 x2 x3 x4 y Datos Supercie m2 Ocinas Entradas Antiguedad años Valor Edicio US$ , , Teniendo los datos podemos entonces utilizar cualquier software estadístico que nos permita desarrollar la estimación por mínimos cuadrados ordinarios del modelo de regresión. Supongamos que el modelo que mejor describe el comportamiento de nuestra variable dependiente es un modelo lineal del tipo: Utilizando el software Stata tenemos: y i = β 1 + β 2 x 2i + β 3 x 3i + β 4 x 4i + µ i 68

70 Capitulo 2: Modelo de Regresión Lineal A mayor número de metros cuadrados, entradas y cantidad de ocinas del edicio mayor es el valor comercial de este. Además, mientras más años de construcción menor es el valor del edicio. Todas las variables incluidas en el modelo son estadísticamente signicativas( lo cual se puede ver comparando los test calculados con los de t de tabla, o viendo directamente el p-value) individualmente (Test t) y conjuntamente(test F). Un porcentaje importante de la varianza del precio es explicada por la varianza de las variables explicativas, conclusión obtenida a partir del alto R 2 y R 2 observado. Las conclusiones obtenidas a partir de la inferencia realizada son válidas s i el supuesto de normalidad de los errores se cumple. Para estudiar esto observemos el comportamiento de los errores estimados y realicemos un Test de Normalidad(Jarque- Bera). 69

71 Capitulo 2: Modelo de Regresión Lineal Podemos ver que la distribución de los errores no es del todo simétrica (Skewness = 1,2) y que tampoco presenta un comportamiento mesocurtico (Kurtosis = 3). Ambos elementos se ven reejados en el estadísitico Jarque - Bera, el cual cae en la zona de rechazo (Ver además p -value). Las estimaciones realizadas anteriormente pueden hacerse en cualquier programa estadístico, incluso en el sub utilizado programa excel, el cual posee un comando que permite obtener estimaciones de regresiones lineal de manera mu rápida. 70

72 Capitulo 2: Modelo de Regresión Lineal Con los parámetros estimados es posible realizar predicciones del valor de un edicio particular condicional a sus características. ŷ i = β 1 + β 2 x 2i + β 3 x 3i + β 4 x 4i Por ejemplo podría calcular el valor tasado de un edicio de ocinas en la misma zona con 2500 metros cuadrados, tres ocinas, dos entradas y una antiguedad de 25 años. Es decir realizar predicciones fuera de la muestra = , ,24 25 Para analizar la capacidad predictiva de nuestro modelo realicemos predicciones utilizando la muestra que ya tenemos. Utilizando por ejemplo el programa Eviews tenemos. 71

73 Capitulo 2: Modelo de Regresión Lineal 72

74 Capitulo 2: Modelo de Regresión Lineal Si analizamos los errores de predicción podemos ver que en promedio son cero, tal como se demostró en clases. Para ver la relación existente entre la varianza de la predicción y una de las variables explicativas podemos realizar un ajuste con una variable. Podemos ver que la varianza de la predicción es mayor a medida que las variables explicativas están más lejos de su media. 73

75 Capitulo 2: Modelo de Regresión Lineal Estimación Máximo Verosímil (EMV) Hasta el momento hemos adoptado el criterio de estimación consistente con escoger los valores de los parámetros ( ˆβ,ˆσ 2 ) de modo de minimizar la suma de los residuos al cuadrado. A continuación, expondremos otra forma de obtener los parámetros de interés, el cual, a diferencia de OLS, descansa en un determinado supuesto respecto de la distribución del término de error, teniendo por objetivo, como veremos más adelante, determinar los parámetros que maximicen la probabilidad de ocurrencia de la muestra observada. La ventaja de MV es que puede producir estimadores consistentes y asintóticamente ecientes cuando MCO falla. Sea Y'=[y 1, y 2,..., y n ] un vector n 1 de valores muestrales para la variable dependiente, los cuales dependen de un vector k 1 θ' = [θ 1, θ 2,..., θ k ]. Sea f(y; θ) la densidad conjunta asociada. A dicha probabilidad conjunta se le llama función de Verosimilitud y se denota por L( ): L(θ; y) = f(y; θ) Note que hemos invertido la notación entre L y la densidad. Ello porque la densidad describe los valores probables de Y dado un vector θ determinado, sin embargo, en nuestro caso el sentido es inverso: estamos interesados en el vector θ dado un vector Y determinado. Al maximizar L(θ; Y ) respecto de θ se obtienen los estimadores máximo verosímiles (ˆθ MV ), los cuales maximizan la probabilidad de ocurrencia de la muestra observada, es decir: ˆθ MV = máx L(θ; Y ) (2.73) θ o equivalentemente 12ˆθMV = máx θ ln(l(θ; Y )) = máx l(θ; Y ) (2.74) θ Luego, si asumimos que las observaciones de Y son independientes, entonces 13 : n n l(θ; Y ) = ln( L i (θ; y i )) = l i (θ; y i ) (2.75) i=1 12 En general se utiliza el logaritmo de la función de verosimilitud, denotado como l = ln(l) como función objetivo. Note que dicha transformación es inocua, en términos de que el vector de parámetros que maximize l será el que a su vez maximize L, ya que: l θ = 1 L 13 L θ Bajo independencia, la función de distribución conjunta de una muestra corresponde a la multiplicación de las funciones de densidad individuales. 74 i=1

76 Capitulo 2: Modelo de Regresión Lineal La primera derivada de L es generalmente conocida como Score, s = (θ; Y ), por lo cual ˆθ MV se obtienen al igualar el score a cero Propiedades de los estimadores MV Las propiedades de los estimadores ML se derivan en grandes muestras, por lo cual hablaremos de las propiedades asintóticas de los mismos. Ellas son: 1. Consistencia: plim(ˆθ MV ) = θ (2.76) es decir, asintóticamente, el parámetro estimado corresponde al parámetro poblacional. 2. Eciencia Asintótica: La varianza del estimador ML alcanza la llamada Cota Inferior de Cramer Rao, es decir I(θ) 1. Esta propiedad asintótica es la principal virtud de los estimadores ML. La cota inferior de Cramer Rao corresponde al inverso de la matriz de información (que deniremos a continuación), la cual corresponde a la mínima varianza que puede poseer un estimador insesgado. 3. Normalidad Asintótica: ˆθ MV a N(θ, I(θ) 1 ) (2.77) es decir, el estimador ML distribuye asintóticamente normal, con media θ y varianza igual al inverso de la llamada matriz de información (I(θ)). Esta última se dene como: I(θ) = E [ l l ] [ ] 2 l = E θ θ θ θ donde note que la matriz hessiana de segundas derivadas de L es una matriz cuadrada y simétrica de orden k k. 4. Invarianza: Si ˆθ es el estimador ML de θ y g(θ) es una función continua de θ, entonces g(ˆθ) es el estimador ML de g(θ). 75

77 Capitulo 2: Modelo de Regresión Lineal Estimación MV Como ya es usual, sea el siguiente modelo poblacional: Y = Xβ + u donde las matrices poseen los tamaños usuales y u iid N(0, σ 2 I). Entonces: f(u 1, u 2,..., u n ; σ 2 I) = f(u 1 ) f(u 2 ) f(u n ) = n f(u i ) y asumiendo una distribución normal para los errores, tenemos que la función de verosimilitud corresponde a: f(u 1, u 2,..., u n ; σ 2 I) = = i=1 n 1 u 2 2πσ 2 exp i 2σ 2 (2.78) i=1 1 (2πσ 2 ) n 2 luego, dado nuestro modelo poblacional, tenemos que: máx β,σ L = f(y 1, y 2,..., y n ; X, σ 2, β) = β,σ 2 2 ln(l) = máx 1 (2πσ 2 ) n 2 exp u u 2σ 2 (2.79) exp (Y Xβ) (Y Xβ) 2σ 2 (2.80) con lo cual, nuestros estimadores ˆθ MV = [ ˆβ MV ˆσ MV 2 ] se obtienen siguiendo la regla expuesta en (2.74): ( ) ln 1 exp (Y Xβ) (Y Xβ) 2σ 2 con lo cual, las CPO: = máx β,σ 2 (2πσ 2 ) n 2 ( n 2 ln(2π) n 2 ln(σ2 ) (Y Xβ) (Y Xβ) 2σ 2 lnl β = 1ˆσ 2 X (Y X ˆβ) = 0 ) (2.81) = ˆβ MV = (X X) 1 X Y (2.82) lnl σ = n 2ˆσ ˆσ 4 (Y X ˆβ) (Y X ˆβ) = 0 = ˆσ 2 MV = (Y X ˆβ MV ) (Y X ˆβ MV ) n (2.83) 76

78 Capitulo 2: Modelo de Regresión Lineal Entonces, bajo normalidad de los errores, el estimador ˆβ MV es equivalente al estimador MCO. Sin embargo, note que el estimador de la varianza de los errores (ˆσ MV ) da lugar al estimador sesgado. Nos queda entonces derivar la varianza de los estimadores MV. Vimos que la matriz de varianzas correspondía al inverso de la matriz de información (I(θ)). Por facilidad de cálculo, generalmente se utiliza la segunda denición de I(θ), es decir, la de las segundas derivadas de la función de verosimilitud. Entonces: 2 l = X X β β σ 2 [ ] 2 l E β β E E 2 l β σ = u 2 X σ 4 = X X σ 2 (2.84) [ ] 2 l = 0 (2.85) β σ 2 2 l (σ 2 ) 2 = n 2σ u u 4 σ 6 [ ] 2 l = n (2.86) (σ 2 ) 2 2σ 4 donde esta última esperanza se deriva del hecho que E(u u) = nσ 2. Entonces, la matriz de información corresponde a: ( X ) X 0 I(β, σ) = σ 2 n (2.87) 0 2σ 4 mientras que su inversa: I(β, σ) 1 = ( ) (X X) 1 σ 2 0 2σ 0 4 n (2.88) Note que el hecho que la matriz de información (y por lo tanto su inversa) sea una matriz diagonal, reeja que X y u se distribuyen independientemente (de otra 77

79 Capitulo 2: Modelo de Regresión Lineal forma E(X u) 0). Ejemplo: Considere la siguiente función de densidad condicional: f(y x) = λe λy (λy) x x! y 0, λ 0 Obtenga el estimador de máxima verosimilitud de λ. Primero debemos recordar que cada observación i de la variable dependiente y tiene la siguiente densidad condicional a la variable explicativa x: f(y i x i, λ) = λe λy i (λy i ) x i x i! El logaritmo de la función de verosimilitud asociada a cada observación i es: l i (λ y i, x i ) = ( λe λy i ) (λy i ) x i ln x i! = ln λ λy i + x i (ln λ + ln y i ) ln(x i!) De esta forma, aplicando sumatoria a la ecuación anterior obtengo la verosimilitud conjunta: L(λ y, x) = n ln λ λ n y i + ln λ i=1 n x i + i=1 n x i ln y i i=1 n ln(x i!) Maximizando la expresión anterior con respecto a λ obtenemos el estimador Máximo Verosímil: L λ = ṋ n n λ i=1 y i + i i=1 ˆλ = 0 n ˆλ n n y i + x i = 0 i=1 i=1 i=1 ˆλ = n + n i=1 x i n i=1 y i ˆλ = 1 + x y Ahora suponga que disponemos de los siguientes datos de la variable x e y: y x

80 Capitulo 2: Modelo de Regresión Lineal En este caso el estimador Máximo Verosímil de λ es: ˆλ = 1 + x y = = 2,8 79

81 Capitulo 2: Modelo de Regresión Lineal Inferencia en el contexto MV Test de Razón de Verosimilitud (LR) El valor de la función de verosimilitud, L( ˆβ, ˆσ 2 ), corresponde al valor de la verosimilitud irrestricta, es decir, sin imponer ninguna restricción sobre los parámetros del modelo. Suponiendo entonces que nuestro interés se centra en una serie de restricciones lineales del tipo Rβ = r (donde R y r se denen como en la sección 2.8), entonces el modelo original es estimable en su versión restringida, al maximizar la función de verosimilitud sujeta a Rβ = r, cuyo resultado son los estimadores β y σ 2. Luego L( β, σ2 ) corresponde al valor de la verosimilitud restringida. El valor de la verosimilitud restringida no puede ser superior al de la no restringida, sin embargo, podría esperarse que si las restricciones impuestas son correctas, el valor de la primera esté cerca del de la segunda. Entonces, denimos la razón de verosimilitud (λ) como: λ = L( β, σ 2 ) L( ˆβ, ˆσ 2 ) El test LR se dene entonces como: LR = 2 ln λ = 2[ln L( ˆβ, ˆσ 2 ) ln L( β, σ 2 )] a χ 2 (q) (2.89) donde q corresponde al número de restricciones impuestas (es decir, el número de las de R). Intuitivamente, el valor del estadígrafo crecerá a mayor sea la discrepancia entre los valores de la verosimilitud restringida y la no restringida, lo cual nos aleja de la posibilidad que las restricciones impuestas sea válidas (no rechazo de la nula). En el caso que los errores distribuyan normal, es posible derivar una versión alternativa del estadígrafo utilizando los residuos. Reemplazando ˆβ MV y ˆσ 2 MV en l es posible demostrar: ( ) n L( ˆβ, ˆσ 2 ) = (2πe) n 2 ( ˆσ2 ) n 2πe 2 2 = (û û) n 2 (2.90) n Luego, si denimos como û NR los residuos del modelo irrestricto y como û R, reemplazando en la denición del test, obtenemos: LR = n(ln û Rû R ln û NRû NR ) (2.91) 80

82 Capitulo 2: Modelo de Regresión Lineal Test de Wald (W) Un segundo test asintótico en el contexto MV corresponde al llamado Test de Wald. Dicho test se basa en evaluar la hipótesis nula en los coecientes estimados y evaluar cuan cercano es el resultado comprado a lo propuesto por la nula. Una de las ventajas del test de Wald es que sólo necesita de la estimación no restringida. Así, una vez obtenido ˆβ, un vector (R ˆβ r) cercano a cero tendería a apoyar la hipótesis nula. Siguiendo la misma lógica de la demostración del test F, si: entonces, bajo la hipótesis nula: entonces, se puede demostrar que: ˆβ a (β, I(β) 1 ) (2.92) (R ˆβ r) a (0, RI(β) 1 R ) (2.93) (R ˆβ r) [RI(β) 1 R ] 1 (R ˆβ r) a χ 2 q (2.94) donde q es el número de las de R y por lo tanto, el número de restricciones (según la denimos en la sección 2.8). Luego, como los estimadores MV distribuyen asintóticamente normales, entonces la matriz de información expuesta en la ecuación (2.88) es válida en muestras grandes, tenemos que el estadístico de Wald se dene como 14 : W = (R ˆβ r) [R(X X) 1 R ] 1 (R ˆβ r) ˆσ 2 a χ 2 q (2.95) Una nota: Dijimos que el test era válido asintóticamente, donde hemos utilizado el resultado de normalidad asintótica de MV. En caso de que los errores efectivamente distribuyan normal en muestra nita, el test (lógicamente) mantiene su distribución Test del Multiplicador de Lagrange (LM) Un tercer test corresponde al test LM, el cual también es conocido como el test del Score. recordemos que el Score corresponde a la matriz de primeras derivadas 14 Note que hemos utilizado sólo el bloque superior izquierdo de la inversa de la matriz de información. Ello porque el test corresponde a los parámetros asociados a los coecientes de la regresión. Además, ello es posible porque la matriz es diagonal, lo cual implica que no existe correlación entre los errores y los regresores. 81

83 Capitulo 2: Modelo de Regresión Lineal de la función de Verosimilitud: s(θ) = ln L θ = l θ Como vimos en la introducción, s(ˆθ) = 0, por lo cual, al evaluar el score en el estimador restringido bajo la nula Rβ r = 0 ( β), generalmente obtendremos un vector diferente de cero, sin embargo, si la nula no se puede rechazar, esperaríamos obtener un vector cercano a cero. Se puede demostrar que el score posee media cero y varianza igual a la matriz de información (I(θ)). Por lo tanto, tenemos que la forma cuadrática: s (θ)i(θ) 1 s(θ) a χ 2 con lo cual, al evaluar en el vector de parámetros restringido tenemos que bajo la nula, el test LM se dene y distribuye como: LM = s ( θ)i( θ) 1 s( θ) a χ 2 q (2.96) Note que contraposición al test de Wald, sólo necesitamos calcular el estimador restringido. De hecho, su popularidad reside en que muchas veces es más fácil calcular el estimador restringido que el irrestricto. Dada la normalidad asintótica de los estimadores MV, podemos reducir el estadígrafo a una forma mucho más simple. Para ver lo anterior, considere una notación matricial del score: s(θ) = [ l β l σ 2 ] = [ 1 ] X u σ 2 n + u u 2σ 2 2σ 4 entonces, para evaluar el score en la estimación restringida, utilizamos los residuos restringidos, los cuales denotaremos por: u = Y X β y por lo tanto: con lo cual: s( θ) = ˆσ 2 = u u n [ 1 ˆσ 2 X u 0 82 ] (2.97)

84 Capitulo 2: Modelo de Regresión Lineal Entonces, tomado en cuenta la denición de I(θ) 1 dada en (2.87) y evaluándola en el estimador restringido, tenemos que nuestro test en (2.96) queda como: LM = [ 1 u σ X 0 ] [ ] [ ] σ 2 (X X) σ u X 2 2 σ n = u X(X X) 1 X u σ 2 = n u X(X X) 1 X u u u (2.98) = nr 2 a χ 2 q (2.99) donde el R 2 corresponde a la bondad de ajuste de la regresión auxiliar entre u y X. Resumiendo, el test se implementa en tres simples pasos: 1. Estimar el modelo restringido y obtener sus residuos 2. Con ellos correr una regresión de ellos contra X. Obtener el R 2 3. Construir el estadístico Ejemplo: Siguiendo con el ejemplo anterior, testee la hipótesis nula de que λ = 5. (i) Test de Razón de Verosimilitud: recordemos que el estadístico de este test es: LR = 2[ln L(ˆλ) ln L( λ)] a χ 2 (q) Primero debemos evaluar el logaritmo de la verosimilitud en el parámetro no restringido (estimado): L(ˆλ y, x) = n ln ˆλ ˆλ n y i + ln ˆλ n n n x i + x i ln y i ln(x i!) i=1 i=1 i=1 i=1 = 4 ln(2,8) 2, ln(2,8) ,04 97,014 = 5, El siguiente paso es computar el logaritmo de la función de verosimilitud restringida, es decir, evaluada en el valor del λ bajo la hipótesis nula ( λ = 5): L( λ y, x) = n ln λ λ n y i + ln λ n n n x i + x i ln y i ln(x i!) i=1 i=1 i=1 = 4 ln(5) ln(5) ,04 97,014 = 16, i=1

85 Capitulo 2: Modelo de Regresión Lineal Luego debemos computar el estadístico restando ambas verosimilitudes en logaritmos y multiplicar esta diferencia por 2: LR = 2[ln L(ˆλ) ln L( λ)] = 2[ 5, , ] = 23, Finalmente, debemos comparar el valor de este estadístico con el valor de tabla de una χ 2 con 1 grado de libertad (sólo estamos testeando una hipótesis). El valor de la χ 2 con un grado de libertad a un 5 % de signicancia es de 3.84, por lo tanto se rechaza la hipótesis nula de que λ sea igual a 5. (ii) Test de Wald: para poder realizar este test primero necesitamos computar la matriz de varianzas y covarianzas del estimador, el inverso de la matriz de información. Recordemos la forma de esta matriz: [ l l ] [ ] 2 l I(θ) = E = E θ θ θ θ El score (o primera derivada de el logaritmo de la función de verosimilitud era: lnl λ = n n n λ i=1 y i + x i λ i=1 Ahora, la segunda derivada (o Hessiano) es: lnl 2 = n n λ λ λ i=1 x i 2 λ 2 lnl 2 = (n + n i=1 x i) λ λ λ 2 Como la variable x es ja el valor esperado del hessiano corresponde a la misma expresión, luego el negativo de esto constituye la matriz de información: I(λ) = (n + n i=1 x i) λ 2 (4 + 52) I(λ) = λ 2 I(λ) = 56 λ 2 Ahora el estadístico de Wald se construye de la siguiente forma: W = (ˆλ 5) I(ˆλ)(ˆλ 5) χ

86 Capitulo 2: Modelo de Regresión Lineal Reemplazando ˆλ por 2.8: W c = ( ) 56 (2,8 5) (2,8 5) (2,8) 2 W c = 34,6 Como el valor calculado del estadístico de Wald resulta ser mayor al valor de tabla de una χ 2 con un grado de libertad, se rechaza la hipótesis nula de que ˆλ = 5. (iii) Test de multiplicador de Lagrange: para construir este estadístico necesitamos evaluar el score y la matriz de información en el estimador restringuido ( λ), que en este caso es igual a 5: s( λ) = ñ λ n i=1 I( λ) = 56 (5) 2 = 2,24 Reemplazando en el estadístico: y i + n i=1 λ = = 8,8 LM = s( λ) I( λ) 1 s( λ) LM = ( 8,8)(2,24) 1 ( 8,8) = 34,6 Con lo cual se rechaza la hipótesis nula de que ˆλ = Algunas acotaciones respecto a la estimación y la inferencia MV 1. La sección asume que la distribución de los errores sigue una distribución normal. Sin embargo, suponer errores normales es sólo uno de los posibles supuestos respecto a la distribución de los errores. Existe una gran cantidad de posibilidades al respecto, utilizándose otras como la distribución logística y la exponencial, muy regularmente en otros tópicos econométricos. Lo anterior es una ventaja de la estimación MV, dado que sus propiedades asintóticas se mantienen independientemente de la distribución utilizada. 2. Otra ventaja corresponde a la posibilidad de utilizar modelos no lineales. MCO (tal y como lo hemos estudiado) sólo permite estimar modelos lineales en parámetros, mientras que MV permite no linealidades (aunque ello implique la imposibilidad de obtener de obtener formas funcionales cerradas 85

87 Capitulo 2: Modelo de Regresión Lineal para nuestros estimadores, lo cual implica necesariamente utilizar métodos numéricos para optimizar la función objetivo). 3. Otra ventaja reside en la inferencia. Toda la inferencia vista en MCO poseía distribución exacta bajo el supuesto de normalidad. Los test asintóticos visto en la inferencia MV son válidos bajo cualquier distribución supuesta (aunque asintóticamente). 4. Adicionalmente, los tres test vistos son capaces de lidiar con restricciones no lineales. ¾Por qué? Porque MV es capaz de lidiar con modelos no lineales Es posible demostrar que W LR LM al ser aplicados a un modelo lineal. Los tres son asintóticamente equivalentes, sin embargo, en muestras nitas arrojarán resultados diferentes. 6. ¾Cuándo es recomendable utilizar un test t o un test F por sobre un test asintótico? 7. Todos los paquetes estadísticos reportan el valor de la función de verosimilitud (es decir, la función evaluada en los parámetros estimados). Ello, muchas veces es utilizado como un criterio de selección entre modelos (recuerde que nuestro objetivo es maximizar la función de verosimilitud). 15 Un ejemplo de restricción no lineal corresponde a H 0 : ln(β 2 3) = 0,1+ln(β 2 ). Para estimar el modelo restringido basta con aislar β 2 e introducirlo en la función de verosimilitud que será maximizada por métodos numéricos. 86

88 Capítulo 3 Forma Funcional y Especicación 3.1. Regresores Estocásticos en el Modelo de Regresión Lineal En el desarrollo del modelo de regresión lineal realizado en la sección 2.4 asumimos que nuestras variables explicativas eran determinísticas (Supuesto 2). En ese contexto, cada vez que tomábamos una muestra diferente los regresores permanecían jos y solo la variable dependiente cambiaba, haciendo entonces que la regresión muestral fuera una aproximación a la regresión poblacional. En está sección procederemos a eliminar este supuesto 1 y veremos cuales son las consecuencias de asumir regresores estocásticos en las estimaciones del modelo de regresión lineal. Es decir, asumiremos ahora que X es obtenida aleatoriamente a partir de alguna distribución de probabilidad. Si X es estocástico, X debe ser independiente de u si queremos mantener las propiedades estadísticas de los estimadores MCO. Un método adecuado para obtener las propiedades estadísticas de β consiste en obtener primero los resultados condicionados en X. Esto equivale al caso de los regresores no estocásticos. Después buscamos los resultados incondicionales "promediando"(por ejemplo, por integración total) las distribuciones condicionadas. La clave de este razonamiento es que, si podemos establecer insesgamiento condicionado en un X arbitrario, podemos promediar las X para obtener un resultado incondicionado. Manteniendo los supuestos 3 y 4 dados por E(u x)=e(u)=0, V ar(u X) = V ar(u) = 1 Todos los otros supuestos realizados anteriormente se mantienen. 87

89 Capitulo 3: Forma Funcional y Especicación σ 2 podemos al igual que antes estudiar si MCO es insesgado. β = β + (X X) 1 X u E[ β X] = β + (X X) 1 X E[u X] = β Ya que por supuesto 3 E[u X] = 0. Podemos ahora calcular el valor esperado incondicional aplicando esperanza sobre todo el espacio posible de los regresores. E[ β] = E x [E[ β X]] E[ β] = β + E x [(X X) 1 X E[u X]] = β Por lo tanto, β también es insesgado incondicionalmente.e[ β] = E x [E[ β X]] = β. El insesgamiento de los parámetros MCO es robusto a los supuestos de la matriz X. Con respecto a la varianza de β condicionada en la matriz de variables independientes tenemos V [ β X] = σ 2 (X X) 1 Sin embargo, la varianza incondicional de β esta dada por 2 V [ β] = E x [V [ β X]] + V x [E[ β X]] V [ β] = E x [V [ β X]] + V x [β] V [ β] = E x [V [ β X]] = E[σ 2 (X X) 1 ] = σ 2 E[(X X) 1 ] Nuestra conclusión inicial se altera un poco, tenemos que sustituir (X X) 1 por su valor esperado para obtener la matriz de covarianzas apropiadas. La varianza incondicionada de β solo puede ser descrita en términos del comportamiento medio de X. Sin embargo, el teorema de Gauss Markov seguirá aplicando. Ya que si para cada X particular el estimador MCO es el mejor estimador lineal insesgado también lo será para los valores medios de los regresores. 2 Aplicando descomposición de la varianza(ver). 88

90 Capitulo 3: Forma Funcional y Especicación Conclusiones: Si los errores son independientes de las X entonces se cumplirá el Teorema de Gauss Markov. Bajo normalidad del error los test estadísticos tienen la misma distribución que en el caso de las X no estocásticas Incorporación de No Linealidades En la sección 2 asumimos que el modelo de regresión debía ser lineal. Sin embargo, muchas de las relaciones económicas no son lineales. Veamos el siguiente ejemplo de la relación entre las ventas de los portales de Internet y el número de visitas al portal. Claramente la relación es no lineal. No es lo mismo en términos de ventas aumentar desde 40 visitas a 50 que de 10 visitas a 20. Pero, ¾Cómo podemos incorporar no linealidad entre Y y X en nuestro modelo de regresión?. Básicamente lo que haremos es utilizar algunos tipos de transformación de variables. Esto nos permitirá tener un modelo no lineal y a partir de la aplicación de las transformaciones tener un modelo de regresión lineal para el que se cumplen todas las cosas que hemos visto. 89

91 Capitulo 3: Forma Funcional y Especicación Transformación Logarítmica Suponga un modelo original no lineal de la siguiente forma Y i = β 1 X β 2 i u i. Si aplicamos logaritmo nos quedará un modelo transformado de la siguiente forma ln(y i ) = ln(β 1 ) + β 2 ln(x i ) + ln(u i ) En donde β 2 = Y X corresponde a la elasticidad X de Y. Este tipo de X Y transformaciones es muy útil en modelos de demanda y de producción. Transformación Semilogarítmica Suponga un modelo original no lineal de la siguiente forma Y i = β 1 e β 2X i u i. Si aplicamos logaritmo nos quedará un modelo transformado de la siguiente forma ln(y i ) = ln(β 1 ) + β 2 X i + ln(u i ) En donde β 2 = Y 1 corresponde a la semi elasticidad X de Y. Una utilización común de la formulación semilogarítmica se da en los casos de X Y crecimiento exponencial. Si X es el tiempo t, entonces ln(y ) = β t 2 =Tasa media de crecimiento de Y. Transformación Recíproca Suponga un modelo original no lineal de la siguiente forma Y i = β β 2 X i + u i. El cual podemos expresar como un modelo transformado de la siguiente forma En donde β 2 = Y X Y i = β 1 + β 2 Z i + u i corresponde al parámetro usual. Si no se conoce a priori la forma funcional, existen algunos métodos que podrían identicar la existencia de alguna no linealidad. A continuación veremos uno de ellos Test de No Linealidades Omitidas (Test de Reset) Una pregunta interesante de plantearse es si nuestro modelo ha omitido no linealidades en ciertos regresores 3. Ramsey (1969) introdujo el siguiente test. Bajo 3 Es importante no confundir la no linealidad en regresores Vs no linealidades en parámetros. Nuestro enfoque se basa en el primer tipo de ellas. El segundo es de mayor complejidad en tanto 90

92 Capitulo 3: Forma Funcional y Especicación la nula, el modelo poblacional corresponde a: Y = Xβ + u luego, denotamos, como ya es usual, Ŷ = X ˆβ. Ramsey propuso estimar el siguiente modelo auxiliar a través de MCO. Y = X ˆβ 1 + Z ˆβ 2 + û donde: Z = [ Ŷ 2 Ŷ 3... Ŷ m ] luego la nula: H 0 : No Existen no linealidades omitidas H 0 : β 2 =0 puede ser testeada utilizando un test de Wald sobre β 2. Es posible demostrar que bajo la nula W a χ 2 m 1. Por lo tanto, la nula se rechaza al α % de signicancia si el estadígrafo es mayor que el valor crítico correspondiente. Para implementar el test, m (es decir, el número de potencias de Y a incluir en la regresión auxiliar) debe ser seleccionado previamente. Típicamente, valores pequeños como 2, 3 o 4 parecen funcionar mejor. que al derivar la función objetivo con respecto a los parámetros de interés, podemos no obtener una forma funcional cerrada para nuestro estimador. Ello nos llevará generalmente a utilizar métodos numéricos para maximizar o minimizar nuestra función objetivo, la cual, incluso puede dejar de ser estrictamente cóncava. 91

93 Capitulo 3: Forma Funcional y Especicación 3.3. Variables Dummies o cualitativas En en análisis de regresión, la variable dependiente esta inuida frecuentemente no solo por variables continuas como so el ingreso, producción, precios, costos, estatura, temperatura, etc..., sino también por variables que son esencialmente cualitativas, estos son regresores binarios, es decir, variables que sólo toman el valor 0 o 1. Dichas variables son llamadas variables dummies, variables dicotómicas o variables cticias. Muchas veces el regresor es binario porque así fue recogido en la encuesta. Sin embargo, en otros casos el regresor binario ha sido construido a partir de otras variables de los datos. Algunos ejemplos de variable dummies son: género, raza, religión, nacionalidad, región geográca, etc...con respecto a las dos primeras variables mencionadas por ejemplo, se ha encontrado que manteniendo todos los demás factores constantes, las trabajadoras mujeres ganan menos que sus colegas hombres, y que las personas de color ganan menos que las blancas. Este patrón puede resultar de discriminación sexual o racial, pero cualquiera sea la razón, las variables cualitativas tales como género o raza sí inuyen sobre la variable dependiente. Por ejemplo, consideremos la siguiente variable dummy para género (mujer/hombre) del individuo. Entonces la variable dummy consistirá en un vector (n 1) con elementos 0 o 1 según corresponda. Es decir: { 1 mujer d 1i = (3.1) 0 hombre A modo de ejemplo, pensemos en una ecuación simple de salarios E(Salario(W)/Género), la cual implica el siguiente modelo: W i = β 0 + β 1 d 1i + u i (3.2) entonces, dada la especicación escogida para la dummy, tenemos que: β 0 = E(W/hombre) β 0 + β 1 = E(W/mujer) Alternativamente, podríamos haber denido la dummy de la siguiente forma: { 0 mujer d 2i = (3.3) 1 hombre 92

94 Capitulo 3: Forma Funcional y Especicación y el modelo como W i = β 0 + β 1 d 2i + u i entonces, en esta segunda especicación escogida para la dummy, tenemos que: β 0 + β 1 = E(W/hombre) β 0 = E(W/mujer) Una tercera forma de denir el modelo sería incluyendo ambas dummies: W i = β 1 d 1i + β 2 d 2i + u i con el cual tendríamos que los retornos a ambos géneros serían: β 2 = E(W/hombre) β 1 = E(W/mujer) Los tres modelos anteriores son equivalentes. Note que en el tercer modelo no incluimos término constante ya que ello haría que la matriz X fuese singular y por lo tanto, no invertible. Dicho error de especicación es llamado en la literatura Trampa de las Dummies y corresponde a un error netamente del investigador, no de los datos. Un modelo de regresión puede contener variables explicativas que son exclusivamente dicotómicas o cualitativas, tales modelos se denominas Modelos de análisis de varianza (ANOVA), estos modelos son utilizados para determinar la signicancia estadística de la diferencias de medias entre grupos, por ejemplo, serviría para determinar si existe diferencia signicativa entre los ingresos medios de los hombres y mujeres. Ejemplo I: Contamos con datos de ingreso proveniente de la ocupación principal para el año 2000, de acuerdo a zona geográca de Chile: Norte (de la primera a la cuarta región), Centro (quinta región, sexta región y región metropolitana) y Sur (de la séptima a la duodécima región). Suponga que deseamos averiguar si el salario promedio diere entre las distintas zonas geográcas, si tomamos el promedio de los salarios de los individuos en cada una de las zonas obtenemos lo siguiente: Zona Geográfica Salario Promedio Norte $ 270,154 Centro $ 296,857.8 Sur $240,

95 Capitulo 3: Forma Funcional y Especicación Estos números son claramente diferentes entre sí, pero lo que nos interesa saber es si esta diferencia es estadísticamente signicativa, para esto utilizaremos un modelo ANOVA. Consideremos el siguiente modelo de regresión: donde: Y i = β 0 + β 1 D 1i + β 2 D 2i + u i Y i =Salario del individuo i. D 1i =es una variable dummy que toma valor 1 si la persona i vive en el norte y cero sino. D 2i = es una variable dummy que toma valor 1 si la persona i vive en el sur y cero sino. Este modelo es como cualquier otro modelo de regresión lineal, la única diferencia que ahora todo nuestras variables explicativas son binarias. De esta forma, el salario promedio de los individuos que viven en el norte es: E(Y i D 1i = 1, D 2i = 0) = β 0 + β 1 de igual forma el salario promedio de los individuos que viven en el sur es: E(Y i D 1i = 0, D 2i = 1) = β 0 + β 2 y por último, el salario promedio de los individuos que viven en el centro es: E(Y i D 1i = 0, D 2i = 0) = β 0 Así, el salario promedio de los individuos de la zona centro esta dado por el intercepto de la ecuación de regresión, además los coecientes β 1 y β 2 ("pendiente"), indican la cantidad en que los salarios promedios del norte y sur dieren de los del centro, respectivamente. Ahora necesitamos ver si estas diferencias son estadísticamente signicativas. El modelo estimado es: 94

96 β Capitulo 3: Forma Funcional y Especicación Como los tres coecientes estimados resultan ser estadísticamente signicativos, la diferencia en los salarios promedios entre regiones es estadísticamente signi- cativa. De esta forma, se puede concluir que los salarios en la zona centro son estadísticamente mayores a los de la zona norte y sur, y que los de la zona norte son estadísticamente superior a los de la zona sur. Es importante tener claro que las variables dicotómicas simplemente señalaran las diferencias, si es que estas existen, pero no sugieren razones por las cuales estas se presentan. Desde ahora llamaremos a la categoría que no se le asigna dummy (en nuestro ejemplo la zona centro) como categoría base, todas las comparaciones se harán respecto a esta categoría. Los coecientes correspondientes a las variables dicotómicas los llamaremos coecientes de interacción diferencial. Los modelos ANOVA que acabamos de analizar no son muy frecuentes en economía, sólo se utilizan para testear diferencias de medias. Los modelos econométricos generalmente son más amplios e introducen tanto variables explicativas continuas como dicotómicas. Por ejemplo, es razonable suponer que, además del género, existen otros factores que explican el salario (educación y experiencia (entre otros) siguiendo a Mincer (1974)). Especiquemos nuevamente el modelo en (3.2) como E(Salario (W)/Educación (E), Género): W i = β 0 + β 1 d 2i + β 2 E i + u i Dicho modelo presenta un efecto intercepto para el género, es decir, hombres y mujeres poseen diferente intercepto, pero igual pendiente (β 2 ) en educación (retorno a la educación): W Hombres β 2 Mujeres β 0+β 1 2 β 0 Salario y Educación, diferencia de intercepto entre hombres y mujeres E 95

97 β Capitulo 3: Forma Funcional y Especicación Ahora, si quisiéramos especicar un modelo en que además las pendientes varíen con el género (retornos a la educación diferenciados), tendríamos el siguiente modelo: W i = β 0 + β 1 d 2i + β 2 E i + β 3 d 2i E i + u i donde: E(Salario (W)/Educación (E), Hombre)=β 0 + β 1 +β 2 E+β 3 E. E(Salario (W)/Educación (E), Mujer)=β 0 +β 2 E. E(Salario(W )/Educacin(E),Hombre) E = β 2 + β 3. E(Salario(W )/Educacin(E),Mujer) E = β 2. En el caso que existan otros regresores continuos (experiencia, por ejemplo), podría ser deseable poseer efectos diferenciados en la pendiente sólo para algunos de ellos. W Hombres β 2 +β 3 Mujeres β 0+β 1 2 β 0 Salario y Educación, diferencia de intercepto y pendiente entre hombres y mujeres E 96

98 Capitulo 3: Forma Funcional y Especicación Posibles usos de las variables Dummies Como hemos mencionado las variable dummies pueden reejar características individuales como género, status marital,raza, etc, y de esta forma las habiamos llamado variable cualitativas. Sin embargo, este no es el único motivo para incluir dummies en una regresión. Existen además aquellas dummies llamadas dummies estacionales cuyo objetivo es controlar por factores temporales de los datos. Por ejemplo, estimando la demanda de helados, es posible que exista un. ef ecto verano"por lo cual la demanda aumente en algunos trimestres o bimestres, de esta forma para controlar dicho efecto, se deben incluir 4 dummies cada una correspondiente a un trimestre del año (o 6 en el caso del bimestre, o 2 en el caso del semestre, etc.). Recuerde que el caso de incluir una constante debe retirar discrecionalmente alguna de ellas, la cual servirá como trimestre de referencia. Las dummies también pueden ser útiles para captar efectos umbrales. Siguiendo con nuestro ejemplo de educación, podríamos tener que en la encuesta, la variable Educación no fue recogida en forma continua, sino discreta (es decir, si la persona posee: Educación Básica (8 años), Educación Media (12 años), Educación Universitaria (17 años), Educación universitaria con postgrado (19 años)). Deniendo una dummy por cada nivel de educación, el coeciente asociado a cada una de ellas nos mostraría el retorno a cada tipo de educación. Finalmente, las dummies pueden ser de utilidad para cuanticar efectos condicionales. Ya habíamos enunciado éstas cuando vimos E(W/E,género), en que permitimos que la pendiente varíe entre géneros. Dichas dummies son de interés cuando queremos captar algún efecto condicional a alguna característica. Por ejemplo, el retorno a la educación dado que se es mujer, o que se es casado, o que se es blanco, etc. En dicho caso, basta introducir la dummy que identica el estado condicional multiplicada por la variable de interés. Concluyendo, la forma en que se incluyan las variables binarias en el modelo de regresión depende de la pregunta que el investigador desee responder o del objetivo que tenga para incluirlas. Creatividad y teoría. Desde el punto de vista de la teoría de regresión, d i corresponde a un variable aleatoria del mismo proceso de muestro que generó el resto de las variables. Veamos entonces como manejarlas algebraicamente. Sea el modelo simple: o en nuestra notación matricial usual: W i = β 1 d 1i + β 2 d 2i + u i Y = Xβ + u 97

99 Capitulo 3: Forma Funcional y Especicación donde β = (β 1 β 2 ) y X = [D 1 D 2 ], entonces: ˆβ = (X X) 1 X Y [ ] D = 1 D 1 D 1D 1 [ 2 D 1 Y D 2D 1 D 2D 2 D 2Y [ n n = i=1 d2 1i i=1 d 1id 2i = = n i=1 d 1id 2i [ n1 0 [ ȳ1 0 n 2 ] ȳ 2 n i=1 d2 2i ] 1 [ n i=1 d ] n 1iy i i=1 d 2iy i ] ] 1 [ n i=1 d ] n 1iy i i=1 d 2iy i donde n 1 y n 2 son el número de observaciones con d 1i =1 y d 2i =1, respectivamente, y ȳ 1 y ȳ 2 corresponden a las medias muestrales entre las respectivas observaciones. Y con respecto a la varianza de los estimadores: V (β) = (X X) 1ˆσ 2 [ ] ˆσ 2 n = 1 0 ˆσ 0 2 n 2 donde: n ˆσ 2 = 1 n û 2 i i=1 es el estimador basado en la muestra completa. 98

100 Capitulo 3: Forma Funcional y Especicación Ejemplo II: A continuación veremos la aplicación de la llamada. Ec uación de Mincer"para estimar el retorno a la educación. Los datos corresponden a un grupo de jóvenes chilenos egresados de la educación media técnica, los que fueron entrevistados en La primera gura muestra la estimación de la ecuación de Mincer en su versión original (1974): ln(salario) i = α + β 1 Educacion i + u i Consideremos ahora una versión más completa del modelo en que incluimos la experiencia y una dummy que toma el valor 1 si el individuo es una mujer: Note que el retorno a la educación sigue siendo positivo, mientras que la dummy para mujer es negativa (¾Qué signica que el parámetro sea negativo?). Veamos a continuación, la misma especicación, sólo que esta vez la dummy se dene como 1 si el individuo es hombre: 99

101 Capitulo 3: Forma Funcional y Especicación ¾Cómo es el parámetro de la dummy para el hombre comparado con el de la mujer? ¾Qué pasa con la estimación del resto de los parámetros?. 100

102 Capitulo 3: Forma Funcional y Especicación 3.4. Variable Dependiente Rezagada Cuando trabajamos con series de tiempo, es posible que sea de nuestro interés incluir rezagos de la variable dependiente como variables explicativas. Ello puede ocurrir cuando creemos que existe cierta persistencia de nuestra variable dependiente. Por ejemplo, para tratar de explicar el comportamiento de la inación (π t ), tendría sentido introducir como variables explicativas, junto con la tasa de crecimiento del dinero (m t ), rezagos de la propia tasa de inación: π t = β 0 + β 1 π t 1 + β 2 m t + u t Supongamos el modelo más simple posible: y t = β 1 y t 1 + u t con β 1 < 1 (3.4) Adelantándonos a la teoría de series de tiempo, el modelo anterior recibe el nombre de Proceso Autorregresivo de Primer Orden (AR(1)), donde el nombre de autorregresivo se debe a que la variable se explica por rezagos de ella misma y de primer orden porque depende sólo del primer rezago (el orden indica el número máximo de rezagos incluidos). La estimación MCO del modelo anterior es ˆβ = (X X) 1 X Y, donde X=[i,Y t 1 ], con la diferencia que esta vez poseemos n-1 datos, a menos que supongamos un valor inicial para Y 0. En este caso dejan de cumplirse uno de los supuestos bajo los cuales vimos las propiedades del estimador MCO y la inferencia asociada, aunque continuemos haciendo los supuestos pertinentes para el término de error, el modelo viola el supuesto de regresores jos (no estocásticos). Analicemos esto con más detalle, el estimador MCO de β 1 en (3.4) es: ˆβ 1 = T t=2 y ty t 1 T t=2 y t 1 2 = T t=2 (β 1y t 1 + u t )y t 1 T t=2 y2 t 1 T t=2 = β 1 + u ty t 1 T t=2 y t 1 2 para que este estimador sea insesgado se requiere que: E [ T t=2 u ty t 1 T t=2 y t 1 2 ] = 0 (3.5) 101

103 Capitulo 3: Forma Funcional y Especicación lo cual se cumplirá en la medida que y s y u t sean independientes para todo (t,s). Para examinar este punto con más detalle, substituyamos el modelo en repetidas ocasiones hasta llegar a una forma general: y 1 = β 1 y 0 + u 1 y 2 = β 1 y 1 + u 2 y 2 = β 1 (β 1 y 0 + u 1 ) + u 2 = β1y (u 2 + β 1 u 1 ) y 3 = β 1 y 2 + u 3 y 3 = β 1 (β 2 1y 0 + u 2 + β 1 u 1 ) + u 3 = β 3 1y 0 + β 2 1u 1 + β 1 u 2 + u 3. y t = β1y t 0 + (u t + β 1 u t 1 + β1u 2 t β1 t 1 u 1 ) Luego, multiplicando y t por u t, u t 1, u t 2, etc. y tomando esperanza, tenemos que: E(y t u t ) = σ 2 E(y t u t 1 ) = β 1 σ 2 E(y t u t 2 ) = β 2 1σ 2 Por lo tanto, el valor actual de y se encuentra correlacionado con el error actual y pasado (no con los futuros). De la misma forma, rezagando la expresión nal para y t, multiplicando por u t, u t 1, u t 2, etc. se puede vericar que el regresor y t 1 no se encuentra correlacionado con el valor actual del error, pero si con sus valores pasados. Ello implica que nuestro supuesto E(u i X i ) = 0 ya no es válido, por lo cual, la matriz de varianzas y covarianzas involucradas ya no será una matriz de ceros, lo cual se traducirá en que los estimadores MCO ya no serán insesgados, pero si consistentes (Demostrarlo). Note que lo anterior es válido para rezagos de la variable dependiente, pero no para rezagos de variables explicativas, en cuanto estos últimos pueden ser aún interpretados como jos. El único problema que puede presentar el incluir este tipo de regresores es la alta correlación que existente entre el valor presente del regresor y de su o sus rezagos incluidos en el modelo. Ello da origen a problemas de multicolinealidad. 102

104 Capitulo 3: Forma Funcional y Especicación Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor Tenemos la siguiente información sobre Índice de Precios al Consumidor (IPC) desde 1982 al A partir de esta información podemos construir la inación (cambio porcentual en el índice de precios): π t = IP C t IP C t 1 IP C t 1 Veamos que resultados obtenemos al realizar la siguiente regresión: IP C t = β 0 + β 1 IP C t 1 + u t 4 Información obtenida del Banco Central de Chile: 103

105 Capitulo 3: Forma Funcional y Especicación Cuando el coeciente de la variable dependiente rezagada es muy cercano a 1, se dice que la serie tiene raiz unitaria 5. Sin embargo, este no es el caso. Si teoricamente siempre se espera que la inación sea pequeña pero positiva, deberiamos esperar que el índice de precios siempre fuera creciendo, y por lo tanto esta serie más que tener una raiz unitaria tiene una tendencia. La persistencia en el índice de precios al consumidor es casi obvia. Lo que nos interesa es determinar si existe persistencia en la inación, la que deberíamos esperar fuera estable en el tiempo y con valores relativamente bajos y positivos. Vemos que sucede al estimar el siguiente modelo: π t = β 0 + β 1 π t 1 + u t El coeciente β 1 es signicativo y del orden del 0.8 ¾Que signica esto?. 5 Cuando una serie tiene raiz unitaria, esta no es estacionaria, lo que signica que no uctúa en torno a su valor promedio. El test t de signicancia del parámetro que acompaña a la variable dependiente, no sirve para evaluar la hipótesis de raiz unitaria. Comente error tipo I 104

106 Capitulo 3: Forma Funcional y Especicación 3.5. Selección de Modelos Una pregunta crucial que se enfrenta en econometría aplicada es como escoger entre diversas especicaciones planteadas para responder una misma pregunta. No existe un respuesta única al problema anterior, sin embargo, algunas recomendaciones son: Elegir el modelo más parsimonioso (lo más pequeño posible) Que posea un buen ajuste Que sea consistente con los datos observados Sin embargo, el caso de tener que elegir entre modelos anidados, es posible utilizar los llamados Criterios de Información. Suponga que usted desea escoger entre alguno de los siguientes modelos: Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + u (1) Y = α 0 + α 1 x 1 + α 3 x 3 + v (2) Y = φ 0 + φ(x 1 + x 2 ) + ω (3) donde se dice que el modelo (1) encompasa al (2) y al (3), ya que los dos segundos son el versiones restringidas del primero. Luego, se dice (2) y (3) son anidados en (1) La pregunta relevante es ¾Cuál de las tres especicaciones anteriores es mejor?. Los criterios de información nos ayudan a responder dicha pregunta. El primer criterio de información es el Criterio de Akaike (ACI) y se dene como: ACI = 2 ln L n + k n mientras que el Criterio de Schwarz (BIC) se dene como: BIC = 2 ln L n + k ln(n) n Luego, el criterio de selección entre modelos anidados corresponde a elegir el modelo con menor criterio de información. Note que para que los criterios sean comprables, deben poseer el mismo tamaño de muestra. 105

107 Capitulo 3: Forma Funcional y Especicación Ejemplo: Retornos a la educación, diferencias entre hombres y mujeres Recordemos lo aprendido en la sección 3.3 del curso. Veíamos que para estimar el retorno a la educación, es decir, cuanto ingreso adicional me genera un año más de educación, podíamos considerar al menos tres especicaciones: Modelo I : W i = β 0 + β 1 d 2i + β 2 E i + β 3 E i d 2i + u i Modelo II : W i = β 0 + β 1 d 2i + β 2 E i + u i Modelo III : W i = β 0 + β 2 E i + u i donde W i era el logaritmo natural del salario del individuo i, d 2i era una variable dummy que tomaba el valor 1 si la persona i era hombre y 0 sino, E i eran los años de educación del individuo i y E i d 2i era una variable interactiva. Además tenemos que el Modelo II anida al modelo III, y el modelo I anida a los modelos II y III. De esta forma, podemos utilizar los criterios de información de Akaike y Schwarz para determinar con que especicación nos quedamos. Estimación del Modelo I: W i = β 0 + β 1 d 2i + β 2 E i + β 3 E i d 2i + u i 106

108 Capitulo 3: Forma Funcional y Especicación Estimación del Modelo II: W i = β 0 + β 1 d 2i + β 2 E i + u i Estimación del Modelo III: W i = β 0 + β 2 E i + u i 107

109 Capitulo 3: Forma Funcional y Especicación En resumen: Modelo Akaike Schwarz I II II Como debemos elegir el modelo que minimize el criterio de información, de acuerdo a ambos criterios debemos elegir el Modelo I. 108

110 Capitulo 3: Forma Funcional y Especicación 3.6. Regresión Particionada Sea el siguiente modelo de regresión lineal con k regresores: Y = Xβ + u La matrix X de dimensión n k puede ser particionada en dos submatrices de dimensiones n k 1 y n k 2 que llamaremos respectivamente X 1 y X 2. De igual forma el vector de parámetros β debe ser particionado en dos subvectores β 1 y β 2 asociado a cada una de las submatrices de variables explicativas. De esta forma, el modelo anterior puede ser reescrito como: Y = X 1 β 1 + X 2 β 2 + u En términos matriciales estamos haciendo lo siguiente: [ ] X = X1 X 2 n k n k 1 n k 2 β = k 1 β 1 k 1 1 β 2 k 2 1 tal que k = k 1 + k 2 Recordando que la estimación mínimos cuadrados ordinaria implica despejar el vector de parámetros del sistema de ecuaciones normales X X ˆβ = X Y, podemos escribir esto en función de las matrices particionadas: [( ) X 1 X 2 ( ) ] [ ] [ ] ˆβ1 X X 1 X 2 = 1 Y ˆβ 2 X 2Y [ ] [ ] [ ] X 1 X 1 X 1X 2 ˆβ1 X X 2X 1 X 2X = 1 Y 2 ˆβ 2 X 2Y Lo que puede ser expresado de la siguiente forma: X 1X 1 ˆβ1 + X 1X 2 ˆβ2 = X 1Y X 2X 1 ˆβ1 + X 2X 2 ˆβ2 = X 2Y (i) (ii) De (ii) podemos despejar ˆβ 2 : X 2X 2 ˆβ2 = X 2Y X 2X 1 ˆβ1 X 2X 2 ˆβ2 = X 2(Y X 1 ˆβ1 ) ˆβ 2 = (X 2X 2 ) 1 X 2(Y X 1 ˆβ1 ) (iii) 109

111 Capitulo 3: Forma Funcional y Especicación Reemplazando (iii) en (i): X 1Y = X 1X 1 ˆβ1 + X 1 X 2 (X 2X 2 ) 1 X 2 }{{} P 2 (Y X 1 ˆβ1 ) X 1Y = X 1X 1 ˆβ1 + X 1P 2 Y X 1P 2 X 1 ˆβ1 X 1Y X 1P 2 Y = X 1X 1 ˆβ1 X 1P 2 X 1 ˆβ1 X 1 (I P 2 ) Y = X 1 (I P }{{} 2 ) X }{{} 1 ˆβ1 M 2 Así, obtenemos el estimador MCO de β 1 (y β 2 en forma análoga) de una regresión particionada: ˆβ 1 = (X 1M 2 X 1 ) 1 X 1M 2 Y ˆβ 2 = (X 2M 1 X 2 ) 1 X 2M 1 Y También se puede demostrar que las matrices de varianzas y covarianzas de ambos estimadores son: ˆV ( ˆβ 1 ) = σ 2 (X 1M 2 X 1 ) 1 ˆV ( ˆβ 2 ) = σ 2 (X 2M 1 X 2 ) 1 Donde σ 2 se obtiene utilizando la muestra completa. M Omisión de Variables Relevantes Impacto sobre el Insesgamiento Considere el siguiente modelo poblacional (expresado en desvíos con respecto a la media): Y = X 1 β 1 + X 2 β 2 + u Suponga ahora que el investigador se equivoca y estima el siguiente modelo: Y = X 1 β 1 + u Estimando el modelo incorrecto obtenemos: ˆβ 1 = (X 1X 1 ) 1 X 1Y = β 1 + (X 1X 1 ) 1 X 1X 2 β 2 + (X 1X 1 ) 1 X 1u 110

112 Capitulo 3: Forma Funcional y Especicación por lo cual: E( ˆβ 1 ) = β 1 + (X 1X 1 ) 1 X 1X 2 β 2 = β 1 + Zβ 2 Ello implica que por lo general, la omisión de variables relevantes (que pertenecen al modelo poblacional), causará que los parámetros estimados sea sesgados. Ello no sucederá, sólo en el caso que Z=0 (es decir que X 1 y X 2 sea ortogonales) o si β 2 =0 (aunque dicho caso es contradictorio, dado que implicaría que la variable no pertenece al modelo poblacional). La dirección del sesgo es difícil de obtener, sin embargo, el análisis se simpli- ca si pensamos en β 1 y β 2 como escalares. En dicho caso: E( ˆβ 1 ) = β 1 + Cov(X 1, X 2 ) β 2 V (X 1 ) De lo anterior, se desprende que la dirección del sesgo depende de como covarien las variables incluidas con respecto a las excluidas y del signo del parámetro omitido Impacto sobre la Varianza Estimando el modelo incorrecto, el estimador de la varianza será: V ( ˆβ 1 /X 1 ) = σ 2 (X 1X 1 ) 1 mientras que si hubiéramos estimado el modelo correcto, se puede demostrar que la varianza del estimador insesgado de β 1 ( ˆβ 1) correspondería a: V ( ˆβ 1/X 1, X 2 ) = σ 2 (X 1M 2 X 1 ) 1 donde M 2 = I X 2 (X 2X 2 ) 1 X 2. Luego, comparamos las inversas de ambas matrices: (V ( ˆβ 1 /X 1 )) 1 (V ( ˆβ 1/X 1, X 2 )) 1 = σ 2 (X 1X 2 (X 2X 2 ) 1 X 2X 1 ) tal que se puede demostrar que dicha matriz es denida positiva. Por lo tanto, el omitir variables relevantes implica que los parámetros estimados serán sesgados y que sus varianzas serán menores. Más aún, también es posible demostrar que el estimador de la varianza de los errores ( σ 2 ) es sesgado hacia arriba (la varianza poblacional es menor). 111

113 Capitulo 3: Forma Funcional y Especicación Ejemplo Suponga que un investigador quiere estimar el retorno a la educación y que el modelo verdadero(obviamente es un caso ilustrativo) está dado por: W i = β 1 E i + β 2 EXP i + u i (1) Donde W i corresponde al logaritmo del salario del individuo i, E i corresponde a los años de educación del individuo i, EXP i corresponde a los años de experiencia laboral del individuo i 6 y u i corresponde a un término de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimación. W i = β 1 E i + u i (1) Los resultados del modelo verdadero son Los resultados el modelo estimado son 6 La cual esta denida como EXP i = Edad i E i

114 Capitulo 3: Forma Funcional y Especicación Podemos ver el parámetro que acompaña a la variable años de educación es menor en el modelo estimado que en el modelo verdadero. Esta dirección del sesgo se puede explicar por el signo del parámetro que acompaña a la variable experiencia en el modelo verdadero y a la relación existente entre educación y experiencia en el mercado laboral. 113

115 Capitulo 3: Forma Funcional y Especicación 3.8. Inclusión de Variable Irrelevantes Impacto sobre Insesgamiento Considere ahora el siguiente modelo poblacional: Y = X 1 β 1 + u Suponga ahora que el investigador se equivoca y estima el siguiente modelo: Y = X 1 β 1 + X 2 β 2 + u Estimando el modelo incorrecto obtenemos: ˆβ 1 = (X 1M 2 X 1 ) 1 X 1M 2 Y = β 1 + (X 1M 2 X 1 ) 1 X 1M 2 u donde M 2 se dene igual que el la sección anterior. Entonces: E( ˆβ 1 ) = β 1 y con el mismo razonamiento, se puede demostrar que: E( σ 2 ) = ( ) û û E T k 1 k 2 = σ 2 es decir, la inclusión de variable irrelevantes no causa sesgo en los parámetros estimados, ni en la varianza de los errores estimados. Bajo dichos resultados, pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo, nos falta estudiar que sucede con la varianza de los parámetros estimados Impacto sobre Varianza Recordemos que: ˆβ 1 = β 1 + (X 1M 2 X 1 ) 1 X 1M 2 u con lo cual, la varianza estimada: V ( ˆβ 1 /X 1, X 2 ) = σ 2 (X 1M 2 X 1 ) 1 114

116 Capitulo 3: Forma Funcional y Especicación mientras que la varianza verdadera: V ( ˆβ 1 /X1 ) = σ 2 (X 1X 1 ) 1 entonces, como probamos con anterioridad, la varianza verdadera es menor que la varianza estimada. Ello implica que el incluir regresores adicionales, aumenta la varianza de nuestros parámetros estimados, lo cual se traduce en parámetros menos ecientes Ejemplo Suponga que un investigador quiere estimar el retorno a la educación y que el modelo verdadero(obviamente es un caso ilustrativo) está dado por: W i = β 1 + β 2 E i + u i (1) Donde W i corresponde al logaritmo del salario del individuo i, E i corresponde a los años de educación del individuo i y u i corresponde a u término de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimación. W i = β 1 + β 2 E i + β 3 D i + u i (1) Donde D i corresponde a una variable dicotómica que toma el valor 1 si el individuo fuma y 0 si no fuma. Los resultados del modelo verdadero son Los resultados el modelo estimado son: 115

117 Capitulo 3: Forma Funcional y Especicación Podemos ver no existe una variación importante en los parámetros del modelo estimado y el modelo verdadero. Sin embargo, tal como habíamos demostrado, la varianza de los parámetros aumenta disminuyendo entonces la eciencia. 116

118 Capitulo 3: Forma Funcional y Especicación 3.9. Perturbaciones no Esféricas Un supuesto importante en el modelo clásico de regresión lineal (Supuesto 4) es que los errores u i son homocedásticos, es decir la varianza es constante para todo valor de X i : V ar(u i ) = V ar(u j ) para i j Figura 8: Homocedasticidad Cuando el supuesto 4 no se cumple los errores son Heterocedasticos: Figura 9: Heterocedasticidad Además se suponía que los términos de error no estaban correlacionados entre si (Supuesto 5): Cov(u i u j ) = 0 para i j 117

119 Capitulo 3: Forma Funcional y Especicación Es decir, teníamos que E[uu ]=σ 2 I n, ahora si el término de error no cumple con los supuestos del modelo de regresión lineal tenemos que E[uu ]=σ 2 Ω. Donde Ω es una matriz denida positiva Consecuencias de estimación por MCO Recordemos que el estimador MCO es: ˆβ = (X X) 1 X Y = β + (X X) 1 X u Como el supuesto de que E[u X] = 0 se mantiene, tenemos que la E[ ˆβ X] = β y por lo tanto, E[ ˆβ β]=0. De esta forma, el estimador MCO con perturbaciones no esféricas sigue siendo insesgado y consistente. Pero no será eciente, dado E[uu ]=σ 2 Ω entonces la varianza de ˆβ es: [ ( V ar( ˆβ) ) ( ) ] = E ˆβ β ˆβ β = E [ (X X) 1 X uu X(X X) 1] = σ 2 (X X) 1 (X ΩX)(X X) 1 De esta forma, solo si Ω = I n la matriz de covarianzas de ˆβ será igual a σ 2 (X X) 1, por lo tanto el estimador MCO en presencia de perturbaciones no esféricas no tendrá varianza mínima, es decir, no será eciente. Entonces cualquier inferencia basada en σ 2 (X X) 1 llevará a conclusiones erróneas Estimación Eciente: Mínimos Cuadrados Generalizados La estimación eciente de β en el modelo generalizado, donde los errores pueden no ser esféricos, requiere el conocimiento de Ω. Para comenzar supondremos que Ω es una matriz conocida, simétrica y denida positiva. Bajo estas condiciones el Método de Mínimos Cuadrados Generalizados nos permite estimar de manera eciente los parámetros. Dado que Ω es una matriz simétrica denida positiva, puede ser descompues- 118

120 Capitulo 3: Forma Funcional y Especicación ta de la siguiente manera: 7 Ω = CΛC donde las columnas de C son los vectores propios de Ω y los valores propios (λ j ) de Ω se encuentran en la diagonal de Λ. Entonces sea Λ 1/2, la matriz diagonal con el j-ésimo elemento igual a λ j y sea T = CΛ 1/2. De esta forma, Ω = T T. Además sea P = CΛ 1/2 y por lo tanto, Ω 1 = P P. 8 Si pre multiplicamos Y = Xβ + u por P obtenemos: P Y = P Xβ + P u o Y = X β + u (3.6) Notemos que (3.6) es un modelo transformado de forma tal que: V ar(u ) = E[u u ] = σ 2 P ΩP = σ 2 I n (3.7) Por lo tanto, el modelo transformado cumple con los supuestos del modelo clásico de regresión, y se puede utilizar MCO para estimar el parámetro β: ˆβ MCG = (X X ) 1 X Y = (X P P X) 1 X P P Y = (X Ω 1 X) 1 X Ω 1 Y Como el estimador MCG de β es idéntico al estimador MCO aplicado al modelo transformado (3.6) y que cumple con los supuestos, ˆβ MCG es MELI Test de Hipótesis Nuevamente como el estimador MCG es igual al estimador MCO sólo que se aplica al modelo transformado, todos los procesos para testear hipótesis y construir intervalos de conanza se mantienen. Por ejemplo si queremos testear q hipótesis lineales H 0 : Q β = c, se tiene el 7 Esto se conoce como Descomposición Espectral de una matriz. 8 Esto viene de la ortogonalidad de C, lo que implica que I = C C = CC y entonces C = C

121 Capitulo 3: Forma Funcional y Especicación siguiente estadístico F: ( Q ˆβMCG c) ( ) [Q σ MCG 2 (X X ) 1 Q] 1 Q ˆβMCG c 1 q q ( Q ˆβMCG c) ( [Q (X X ) 1 Q] 1 Q ˆβMCG c σ 2 MCG ) F q,n k F q,n k donde σ MCG 2 es el estimador insesgado de σ 2 en presencia de perturbaciones no esféricas: ( Y X σ MCG 2 = û û ˆβ ) MCG Ω 1 (Y X ˆβ ) MCG n k = n k Estimación cuando Ω es desconocida: Mínimos Cuadrados Factibles Anteriormente asumimos que Ω era conocida, en este caso una simple transformación del modelo de regresión lineal lleva a una matriz de covarianza esférica. En la práctica, Ω es desconocida y es necesario estimar los parámetros al interior de esta matriz. Entonces lo que debemos hacer es sustituir Ω por un estimador de ella ˆΩ. Esto se denomina estimador Mínimos Cuadrados Factibles (MCF), donde el estimador de β se dene de la siguiente forma: ˆβ MCF = ( X ˆΩ 1 X) 1 X ˆΩ 1 y El problema es que tenemos más incógnitas (n(n+1)/2) en Ω que observaciones, para n>1. En la práctica para lograr la estimación de Ω debemos asumir que es función de un número jo y reducido de parámetros θ. El problema se reduce a encontrar ˆθ y usarlo para computar ˆΩ = Ω(ˆθ). 120

122 Capitulo 3: Forma Funcional y Especicación Heterocedasticidad La Heterocedasticidad surge cuando a pesar de que Cov(u i u j )=0 para i j, las varianzas de cada observación son diferentes, es decir, V ar(u j ) = σj 2 para j=1,...,n. La matriz de covarianzas en este caso es: E[uu ] = σ 2 Ω = σ1 2 0 ω = σ σn 2 0 ω n salario x x x Recta de regesión poblacional (RRP) x x x x x x x Escolaridad Figura 2: Distribución de los salarios para distintos niveles de educación. La heterocedasticidad es un problema bastante recurrente, especialmente al trabajar con datos de corte transversal. Algunas razones por las que u i puede variar son las siguientes: En los modelos de aprendizaje sobre errores, a medida que la gente aprende, sus errores de comportamiento son menores, así en este caso a medida que aumentan las horas de práctica de una cierta actividad, la varianza de los errores se reduce. A medida que aumentan los ingresos, la gente tiene más posibilidades de disponer de parte de ese ingreso de la forma que desee. Así en una regresión de ahorro contra ingreso, es posible que σi 2 aumente en la medida que el ingreso aumenta. La Heterocedasticidad también puede surgir por la presencia de factores atípicos, que es muy diferente a las restantes observaciones. 121

123 Capitulo 3: Forma Funcional y Especicación Al omitir variables relevantes, a parte del sesgo que se produce en las estimaciones por esto, se produce Heterocedasticidad ya que este variable estará en el término de error y por lo tanto la varianza dependerá de ella. Otra fuente de Heterocedasticidad es la asimetría en la distribución de una o más variables explicativas incluidas en el modelo, por ejemplo: ingreso, riqueza y educación. 122

124 Capitulo 3: Forma Funcional y Especicación Como mencionamos anteriormente en presencia de Heterocedasticidad el estimador MCO seguirá siendo insesgado, pero no tendrá varianza mínima. El estimador que si cumple con la propiedad de MELI es el de MCG. Este último estimador requiere conocimiento de la matriz Ω. Sin embargo, White (1980) ha propuesto una aproximación a la matriz de covarianzas del estimador MCO: V ar( ˆβ X) = (X X) 1 (X σ 2 ΩX)(X X) 1 que no requiere una representación especica de la forma funcional que adopta la heterocedasticidad, por lo que no tendremos riesgo de asumir una forma funcional incorrecta. La sugerencia de White es que la varianza del estimador ˆβ MCO la siguiente forma: ( ) V ar( ˆβ X) 1 = n(x X) 1 n σ2 X ΩX (X X) 1 se exprese de se dene: Σ = n 1 σ 2 X ΩX = n 1 σi 2 x i x i n i=1 la que se estima de la siguiente forma: n ˆΣ = n 1 û 2 i x i x i i=1 White demuestra bajo condiciones generales que: n ˆΣ = n 1 û 2 i x i x p i Σ i=1 De esta forma, una estimación consistente de la matriz de covarianzas es: V ar( ˆβ X) = n(x X) 1 ˆΣ(X X) 1 (3.8) su comparación con σ 2 (X X) 1 puede dar noción del grado de heterocedasticidad. La estimación de White de una matriz consistente con Heterocedasticidad es un resultado muy útil, ya que no se necesita saber la naturaleza de la Heterocedasticidad. Ante la duda de presencia de este problema es mejor ocupar este estimador ya que no produce alteraciones, y nos permite hacer inferencia correcta con o sin la presencia de Heterocedasticidad. 123

125 Capitulo 3: Forma Funcional y Especicación Contrastes de Heterocedasticidad: 1. El contraste de White: La hipótesis nula es de Homocedasticidad (al igual que en todos los contrastes que estudiaremos). Esto es, H 0 : σi 2 = σ 2 i, bajo la hipótesis nula el estimador de la matriz de covarianzas de ˆβ es V ar( ˆβ X) = σ 2 (X X) 1, pero bajo la hipótesis alternativa es (3.8). Basado en la observación de esto, White propone un test que puede obtenerse al calcular nr 2 de una regresión de û 2 i contra todos los productos posibles entre las variables explicativas. Demuestra que nr 2 χ 2 J 1, donde J es el número de regresores de esta ecuación. Consideremos el siguiente modelo: y i = β 0 + β 1 x i + β 2 z i + u i Los pasos para realizar el test de White son: a) Obtener ˆβ y los residuos de la estimación del modelo anterior por MCO {û i } n i=1 b) Correr una regresión de û 2 i sobre una constante, x i, z i, x 2 i, z 2 i y x i z i. c) Computar nr 2 de la regresión anterior d) Para el nivel de signicancia escogido, comparar nr 2 con el valor crítico de una distribución chi cuadrado con 5 grados de libertad. Si nr 2 excede el valor crítico se rechaza la hipótesis nula de Homocedasticidad. 2. El contraste de Goldfeld y Quandt: este contraste parte del supuesto de que la magnitud de σi 2 depende de cierta variable z i, la que generalmente es una variable explicativa pero no es necesario. Supongamos que dicha relación es positiva, es decir, para valores más altos de z i mayor es σi 2. Las observaciones se dividen en dos grupos, bajo la hipótesis nula ambos grupos tienen la misma varianza, pero bajo la alternativa las varianzas dieren signicativamente. Entonces el contraste consiste en: a) Ordenar las observaciones por los valores de la variable z i, de menor a mayor. b) Omitir p observaciones en la mitad de la muestra, se sugiere no eliminar más de la tercera parte de las observaciones. c) Estimar dos veces el modelo original, una con las n p primeras observaciones muestrales y otra con las n p últimas observaciones en la 2 2 muestra. Notar que p debe ser lo sucientemente pequeño de manera que T p sea mayor al número de parámetros

126 Capitulo 3: Forma Funcional y Especicación d) Se calcula es estadístico: û 2û 2 F û m,m con m = n p k 1û 1 2 Si se sospecha que la varianza del error depende inversamente de z i, entonces las observaciones se deben ordenar de mayor a menor. Si se llega a la conclusión de que el término de error del modelo no presenta heterocedasticidad, podría deberse a que hemos comenzado con una mala especicación del parámetro σ 2 i, que quizás depende de un variable diferente a la que hemos supuesto. Por esta razón el contraste debería realizarse varias veces con distintas variables de las que tengamos sospechas pueda depender la varianza del término de error. 3. El contraste de Breusch y Pagan: supongamos que la varianza del término de error de cada observación depende de un vector de variables z i de dimensión p, es decir: σ 2 i = h(z iα) = h(α 0 + α 1 z 1i + α 2 z 2i α p z pi ) Notemos que si todos los coecientes α's excepto el correspondiente a α 0 fuesen cero, tendríamos una situación de Homocedasticidad. Por lo tanto, si puedieramos estimar los coecientes α 0, α 1,...,α p un contraste para la hipótesis nula de Homocedasticidad es: H 0 : α 1 = α 2 =... = α p = 0 Los pasos para realizar este contraste son: a) Se estima por MCO el modelo original y se obtienen los residuos correspondientes. b) Se obtiene la serie de residuos normalizados al cuadrado: ê 2 i = û2 i ˆσ 2 u i = 1,..., n donde ˆσ 2 u = n i=1 û2 i n c) Se estima una regresión de ê 2 i sobre una constante y las variables z 1i, z 2i,...,z pi y se obtiene la suma explicada (SE) de dicha regresión. 9 d) Bajo la hipótesis nula de Homocedasticidad y dado el supuesto de normalidad del término de error, la razón SE 2 se distribuye χ 2 p. 9 Recordemos que la suma explicada de una regresión es igual a n i=1 (ŷ i y) 2, cuando y i es la variable dependiente. 125

127 Capitulo 3: Forma Funcional y Especicación 4. El contraste de Glesjer: este contraste es más ambicioso que el anterior, ya que trata de estimar la verdadera estructura de Heterocedasticidad, no limitándose a una estructura lineal. Sin embargo, una limitación del contraste de Glesjer es que sólo resulta útil cuando se cree que dicha estructura puede explicarse solo con una variable. Este contraste se hace en tres etapas: a) Estimar el modelo por MCO y obtener los residuos correspondientes. b) Estimar una regresión del valor absoluto de û i, o su cuadrado û 2, sobre una potencia de la variable z i, es decir: û i = δ 0 + δ 1 z h i + ν i para distintos valores del exponente h: h = { 1, 1, 1 2, 1 2}. Escoger el valor de h que proporcione una mejor regresión (coeciente δ 1 signi- cativo y una suma residual pequeña). c) Una vez seleccionado h, se divide el vector de dimensión (k+1) formado por las observaciones (y i,x i ) de cada periodo por ˆδ 0 +ˆδ 1 z h i si se estimo la regresión de û i y por ˆδ0 + ˆδ 1 z h i si se estimo û 2 i, y se estima el modelo de nuevo por MCO, pero ahora con las variables transformadas. Ejemplo: Producción y Empleo por comunidades autónomas de España Como ejemplo, estimemos la relación que existe entre empleo y Pib en las comunidades autónomas españolas. Se dispone datos del PIB en miles de millones de pesetas, y de ocupados, en miles de personas para 1989, los que se muestran en la siguiente tabla: 126

128 σ Capitulo 3: Forma Funcional y Especicación Estimador de la desviación estandar del error ~ 2 u σ u = SEC/(n-k) = /16 = ~ =

129 Capitulo 3: Forma Funcional y Especicación El estimador del parámetro asociado al empleo resulta ser signicativo, por cada 1,000 empleador el PIB aumenta en 3,760 millones de pesetas. Sin embargo, la estimación de la constante es bastante imprecisa, y por ello resulta ser no signicativa. Existe la posibilidad de que la varianza del componente del PIB no explicado por el empleo aumente con este, es decir, tengamos un problema de heterocedasticidad, donde σ i depende de empleo i, y de esta forma, σi 2 depende de empleo 2 i. Con esta sospecha, es necesario testear Heterocedasticidad. 1. Test Breusch-Pagan: para realizar este test, primero de la estimación MCO del modelo de interés se obtienen los residuos, luego se computan los residuos normalizados (dividir cada residuo al cuadrado por el estimador de la varianza del error). Se estima una regresión entre los residuos generalizados y el empleo al cuadrado. SE Una vez realizada la estimación se construye el estadístico SE = 7,64, que resulta 2 ser mayor al valor de tabla de una χ 2 1 al 95 % de conanza (3.84), de esta forma se rechaza la hipótesis nula de homocedasticidad. 2. Test Goldfeld y Quandt: es de esperar que la varianza dependa positivamente del nivel de empleo, de esta forma, ordenamos las observaciones de menor a mayor nivel de empleo y omitimos las 6 observaciones que ocupan los lugares centrales. Luego estimamos dos modelos cada uno con 6 observaciones, y se computa el estadístico λ igual a la división de la suma residual: 128

130 Capitulo 3: Forma Funcional y Especicación λ =93.2 Este estadístico λ debe ser comparado con el valor de tabla de una distribución F m,m al 95 % de conanza, que es igual a De esta forma, nuevamente se rechaza la hipótesis nula de Homocedasticidad. 129

131 Capitulo 3: Forma Funcional y Especicación Autocorrelación Al comienzo de esta sección examinamos el caso general cuando la matriz de varianzas y covarianzas del error dejaba de cumplir los supuestos 4 y 5, en este caso la matriz ya no era σ 2 I n, sino que era igual a σ 2 Ω. La forma que tome esta matriz Ω dependerá de cual de los dos supuestos se estaba rompiendo. En la sección 3.8.5, vimos que forma toma la matriz Ω si se rompe el supuesto 4 de Homocedasticidad en el término de error, en este caso la matriz de varianzas y covarianzas del error es no escalar (o no esférica) porque los elementos de la diagonal eran distintos para cada observación i. Por otra parte, la autocorrelación es un problema que surge cuando rompemos el supuesto 5 de no autocorrelación en los errores. Ello implica que: Cov(u i u j ) 0 para i j La autocorrelación en el término de error se da en los datos se serie de tiempo, donde es un problema bastante común. Luego, nuestra matriz de varianzas y covarianzas del error ya no será una matriz diagonal (como en el caso de varianzas esféricas y no esférica pero sólo con heterocedasticidad) ya que el término de error se encuentra correlacionado consigo mismo a través del tiempo. La forma que toma la matriz cuando sólo tenemos autocorrelación pero los errores son homocedásticos: donde σ t,q = cov(u t u q ). E[uu ] = σ 2 Ω = Nuestro modelo ahora será: σ 2 σ 1,2 σ 1,3 σ 1,T σ 2,1 σ 2 σ 2,3 σ 2,T σ 3,1 σ 3,2 σ 2 σ 3,T σ T,1 σ T,2 σ T,3 σ 2 y t = X t β + u t t = 1, 2,..., T. (3.9) u t = ρu t 1 + ε t donde, como vimos en la sección 3.4, el error sigue un proceso AR(1). 130

132 Capitulo 3: Forma Funcional y Especicación Matriz de Varianzas y Covarianzas cuando u t es un AR(1): En este caso el término de error tiene la forma señalada en (3.9): u t = ρu t 1 + ε t 1. V (u t ) = V (ρu t 1 + ε t )=ρ 2 V (u t 1 ) + σ 2 ε, de esta forma V (u t ) = σ2 ε 1 ρ 2 2. Como E(u t ) = 0, Cov(u t u t 1 ) = E(u t u t 1 ). Calculemos esta última esperanza: u t u t 1 = u t 1 (ρu t 1 + ε t ) = ρu 2 t 1 + u t 1 ε t /E( ) E(u t u t 1 ) = ρ E(u 2 }{{ t 1) + E(u t 1ε t ) }}{{} σ 2 0 E(u t u t 1 ) = ρσ 2 3. Siguiendo la misma lógica anterior, E(u t, u t 2 ) se calcula de la siguiente forma: u t u t 2 = u t 2 (ρu t 1 + ε t ) = ρu t 1 u t 2 + u t 2 ε t /E( ) E(u t u t 2 ) = ρ E(u t 1 u t 2 ) + E(u }{{} t 2ε t ) }{{} ρσ 2 0 E(u t u t 2 ) = ρ 2 σ 2 4. Así se puede derivar la siguiente expresión genérica: E(u t u t (T 1) ) = ρ T 1 σ 2 131

133 Capitulo 3: Forma Funcional y Especicación Entonces: E[uu ] = σ 2 Ω = = σ 2 σ 1,2 σ 1,3 σ 1,T σ 2,1 σ 2 σ 2,3 σ 2,T σ 3,1 σ 3,2 σ 2 σ 3,T σ T,1 σ T,2 σ T,3 σ 2 σ 2 ρ σ 2 ρ 2 σ 2 ρ T 1 σ 2 ρ σ 2 σ 2 ρ σ 2 ρ T 2 σ 2 ρ 2 σ 2 ρ σ 2 σ 2 ρ T 3 σ 2 = σ ρ T 1 σ 2 ρ T 2 σ 2 ρ T 3 σ 2 σ 2 1 ρ ρ 2 ρ T 1 ρ 1 ρ ρ T 2 ρ 2 ρ 1 ρ T ρ T 1 ρ T 2 ρ T 3 1 Naturaleza y causas de la autocorrelación Existe autocorrelación cuando el término de error de un modelo econométrico está correlacionado consigo mismo a través del tiempo. Por supuesto, no es necesario que u t este correlacionado consigo mismo sólo un periodo atrás, esta correlación puede ser de cualquier orden, es decir, u t puede ser un AR(1), AR(2),...,AR(q), etc. Así, dependiendo de cual sea el orden de la autocorrelación en el término de error, la matriz de varianzas y covarianzas ira tomando distintas formas. La autocorrelación en el término de error puede ser producida por varias causas: Existencia de ciclos y tendencias: Si la autocorrelación es positiva (es decir, en (3.9) el coeciente ρ es positivo), un valor alto de u t que genera un valor de y t por sobre su media condicional, tendrá una probabilidad elevada de ir seguido por un valor alto de u t+1, y por ello, de un valor de y t+1 por encima del promedio; lo mismo ocurría para y t debajo del promedio. Sin embargo, si existe autocorrelación negativa, valores de y t por sobre su valor promedio condicional irán seguidos, con alta probabilidad, de valores de y t+1 por debajo de su promedio. Por lo tanto, la autocorrelación positiva esta asociada a la existencia de rachas de valores altos y bajos de y t. 132

134 Capitulo 3: Forma Funcional y Especicación Autocorrelación Positiva Autocorrelación Negativa Entonces, si debido a la inercia presente en la mayoría de las variables macroeconómicas la variable endógena presenta ciclos, y estos no son bien explicados por la variables exógenas del modelo, el término de error tendrá autocorrelación. Por otra parte, también es cierto que la mayoría de las variables económicas (y especialmente las variables medidas en términos nominales) tienen una tendencia, generalmente creciente. Si el conjunto de variables explicativas del modelo no explican adecuadamente dicho comportamiento, entonces el término de error incorporará dicha tendencia, lo que conduce a existencia de autocorrelación positiva:una primera racha de residuos negativos seguidos por otra racha de residuos positivos. X X X X X X X X X X X X X X X X X X X X X X Modelo verdadero Modelo estimado Autocorrelación producida por una tendencia Variables omitidas: Omisión tanto de variables relevantes, de no linealidades y de relaciones dinámicas (rezagos de la variable dependiente) serán 133

135 Capitulo 3: Forma Funcional y Especicación incorporadas al término de error, causando posible autocorrelación (además de las diculatdes que usted ya comoce de las secciones 3.4 y 3.6). Corolario: Si usted encuentra autocorrelación en sus residuos, entonces revise su modelo, ya que el error está captando información relevante que usted está omitiendo. Todo lo dicho en las secciones hasta aplican en este contexto (recuerde que la matriz Ω se planteó en términos generales). De esta forma, MCO sigue siendo insesgado, pero pierde eciencia, por lo cual ya no es MELI. El estimador de mínima varianza en este contexto es MCG, y en caso de desconocerse la forma de la autocorrelación se debe utilizar MCF. Sin embargo y siguiendo el espíritu de la corrección de White, Newey y West (1987) propusieron una corrección para la matriz de varianzas y covarianzas de MCO. Recordemos que en este contexto se cumple que: V ar( ˆβ MCO /X) = σ 2 (X X) 1 X ΩX(X X) 1 mientras que el estimador de Newey-West corresponde a: donde el estimador consistente de S es: V ar( ˆβ MCO /X) = n(x X) 1 S(X X) 1 (3.10) Ŝ = 1 n n t=1 s=1 t s <L n w(t s)û t û s x t x s (3.11) donde L corresponde al orden máximo de autocorrelación del término de error (que no siempre es fácil de determinar). 134

136 Capitulo 3: Forma Funcional y Especicación Contrastes de Autocorrelación 1. Test de Durbin-Watson (d): Lejos el test más utilizado para detectar autocorrelación de los residuos es el test propuesto en 1951 por Durbin y G.S Watson. El test está diseñado para detectar autocorrelación en los residuos de la forma u t = ρu t 1 +ε t (AR(1)), donde ε es ruido blanco (media cero y varianza constante). La nula corresponde a no autocorrelación de los residuos (H 0 : ρ = 0 H 1 : ρ 0)y el test se dene como: d = n t=2 (û t û t 1 ) 2 n t=1 û2 t (3.12) Si ρ > 0, los valores de û probablemente serán muy cercanos, por lo cual el numerador será muy pequeño en comparación al residuo mismo. Ello implica que d será pequeño. Si ρ < 0, entonces el numerador probablemente será grande, más grande que el residuos n si mismo. Ello implica que d será grande 10. Se puede demostrar que para muestra grandes d converge a: con: d 2(1 ˆρ) (3.13) ˆρ = n t=2 ûtû t 1 n t=1 û2 t donde ρ puede ser obtenido de la siguiente regresión: û t = ρû t 1 + u t (3.14) Respecto a los valores críticos del test, la distribución en muestras nitas depende del supuesto de normalidad de los errores y de la matriz X, por lo cual Durbin y Watson derivaron las tablas de valores de críticos para facilitar la aplicación del test. Sin embargo, dichos valores poseen rangos indeterminados, en los cuales no podemos tomar una decisión respecto a la nula. El test distribuye con dos colas y se presenta en la siguiente gura: 10 Por lo tanto, autocorrelación positiva tenderá a arrojar un pequeño d, mientras que autocorrelación negativa tenderá a arrojar un d grande 135

137 Capitulo 3: Forma Funcional y Especicación Por ejemplo, el test rechaza la nula de no autocorrelación en favor de la alternativa de correlación positiva si DW < dl y lo rechaza ante la alternativa de correlación negativa de los errores si DW > 4 dl. El test posee dos zonas grises que se presentan en los intervalos (dl,du) y (4-du, 4-dl), en las cuales no podemos decir nada respecto de la nula. Finalmente, si DW cae dentro del intervalo (du, 4-du) no se rechaza la nula de no autocorrelación. Sin embargo, las tablas de valores críticos son raramente utilizadas. Lo anterior debido a que si no existe autocorrelación, por la ecuación (3.13) sabemos que el valor de d será cercano a dos, mientras que si hay evidencia de autocorrelación positiva d será muy pequeño y si existe evidencia de autocorrelación negativa,d será grande. El test posee dos grandes omisiones. Primero, sólo sirve para detectar autocorrelación de orden 1 en los errores y segundo, no puede ser aplicado si se incluyen regresores de la variable dependiente en el modelo (porque se construye bajo el supuesto de regresores determinísticos). Además, se debe tener presente que el test está construido bajo normalidad de los errores y que existen las zonas grises o indeterminadas de las que hablábamos con anterioridad. 2. Test de h-durbin (h) Una variación del test DW puede ser aplicada cuando existen variables rezagadas de la variable dependiente en nuestro 136

138 Capitulo 3: Forma Funcional y Especicación modelo. Esta variación se conoce como test de h-durbin. El estadígrafo es: ( h = 1 DW ) n a N(0, 1) (3.15) 2 1 nˆσ 2ˆα donde ˆσ 2ˆα a la varianza del parámetro asociado al primer rezago de la variable dependiente incluido en el modelo. Algunas notas respecto al test. Primero, no importa cuantos rezagos de Y se hallan incluido en el modelo: sólo nos interesa la varianza del primero de ellos. Segundo, el test no es aplicable cuando nˆσ 2ˆα > 1 y tercero, las propiedades del test sólo son conocidas asintóticamente, por lo cual debe ser implementado con cuidado en muestras pequeñas. 3. Test de Breusch y Godfrey Este test es una alternativa para testear autocorrelaciones de ordenes superiores a 1 y se basa en el test LM introducido en la sección La nula, al igual que en todos los test de autocorrelación es que los residuos no se encuentran correlacionados. Consideremos para distintos valores de k, el siguiente conjunto de estadísticos: r k = n t=1 ûtû t k n t=1 û2 t (3.16) note que si k=1, entonces estamos en una caso parecido al estadístico DW. Los pasos para realizar el test son: a) Estimar el modelo por MCO y obtener los residuos û. El modelo puede incluir rezagos de la variable dependiente. b) Estimar una regresión auxiliar de û t sobre p rezagos: û t 1,..., û t p, incluyendo las variables exógenas (X) del modelo original. Note que deberá excluir p observaciones. c) Calcular el R 2 de la regresión auxiliar d) Construir el estadígrafo nr 2 χ 2 p La lógica del test se basa en que si no existe autocorrelación, entonces los residuos MCO no deberían ser explicados por sus retardos, por lo cual el R 2 de la regresión auxiliar debería ser cercano a cero, lo cual nos llevaría a un bajo valor del estadígrafo y a un no rechazo de la nula. 4. Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadrado de las primeras p autocorrelaciones de los residuos MCO. El estadígrafo se dene como: Q = n 137 p rj 2 (3.17) j=1

139 Capitulo 3: Forma Funcional y Especicación donde: n t=j+1 r j = ûtû t j t=1 û2 t La distribución del estadígrafo bajo la nula de no autocorrelación es χ 2 con grados de libertad igual a p menos el número de rezagos del error incluidos en la especicación autorregresiva del error. De ello se deduce que el test permite detectar autocorrelación de ordenes superiores a 1. Estimación de Modelos con Autocorrelación Como vimos anteriormente la matriz Ω en presencia de autocorrelación es: 1 ρ ρ 2 ρ T 1 ρ 1 ρ ρ T 2 Ω = ρ 2 ρ 1 ρ T ρ T 1 ρ T 2 ρ T 3 1 Se puede demostrar que la matriz P en este caso es: 1 ρ ρ P = 0 ρ ρ 1 Entonces utilizando esta matriz P podemos transformar el modelo y aplicar Mínimos Cuadrados Generalizados. Al premultiplicar X e Y por la matriz P tendremos que la primera observación se transforma de la siguiente forma: 1 ρ2 y 1 = ( 1 ρ 2 )x 1β + ( 1 ρ 2 )u 1 (3.18) Y para el resto de las (T 1) observaciones la transformación es la siguiente: y t ρy t 1 = (x t ρx t 1 ) β + u t ρu t 1 }{{} ε t (3.19) El que la primera observación de la muestra tenga un trato especial, es porque para ella no existe una observación anterior, y por lo tanto, es imposible aplicar la transformación en (3.19). 138

140 Capitulo 3: Forma Funcional y Especicación 1. Estimación MCF: El Método de Cochrane Orcutt La matriz P que transforma nuestro modelo en un libre de autocorrelación en el error, es tal que cada observación de las variables dependientes, explicativas y término de error, se debe transformar de acuerdo a (3.19). Si es que nuestro modelo es el siguiente: y t = x t β + u t u t = ρu t 1 + ε t El modelo transformado es de la siguiente forma: y t ρy t 1 }{{} y t = (x t ρx t 1 ) β + u }{{} t ρu }{{ t 1 } x ε t t y t = x t β + ε t El Método de Cochrane-Orcutt es un procedimiento iterativo para obtener la estimación de β y ρ: a) Estimar por Mínimos Cuadrados Ordinarios la regresión de interés, ignorando la presencia (conocida) de autocorrelación de primer orden en el término de error. b) Utilizar los residuos MCO para estimar el parámetro ρ. Esto puede hacerse mediante una regresión de û t contra û t 1, o a partir del estadístico DW de la estimación anterior. c) Utilizar este parámetro ˆρ para transformar las variables, y obtener y t y x t. d) Estimar por MCO un modelo con las variables transformadas, para obtener un nuevo vector de coecientes β. e) Utilizar esta nueva estimación para computar otro vector de residuos, y utilizar estos residuos para obtener una nuevaestimación de ρ f ) Repetir este procedimiento hasta que los β convergan 11. Este Método puede ser fácilmente generalizado con autocorrelación de orden superior. 2. Estimación por Máxima Verosimilitud 11 Esto sucede cuando la diferencia entre el vector de parámetros β diere innitesimalmente del β obtenido en la vuelta anterior. 139

141 Capitulo 3: Forma Funcional y Especicación Supongamos que se pretende estimar el modelo de regresión con autocorrelación de primer orden. Además debemos asumir alguna distribución para ε t (recuerde que este es un requisito para poder estimar por máxima verosimilitud). Supongamos que ε t se distribuye N(0, σε). 2 Así, la función de verosimilitud es: ( ) T 1 ([ ]) T t=1 L = exp ε2 t (3.20) σ ε 2π 2σε 2 Recordemos que P es la matriz que transforma u t en ε t, es decir, ε t = P u t. La función de verosimilitud en (3.20) se puede expresar en función del término de error u t (AR(1)) como 12 : ( ) T 1 L = 1 ([ (1 ρ 2 )u 2 ρ 2 1 ]) T t=2 exp (u t ρu t 1 ) 2 σ ε 2π 2σ 2 ε dado que en este caso el determinante de P ( P ) es 1 ρ 2. Finalmente, la función de verosimilitud en función del término de error original autocorrelacionado es: ( ) T 1 L = 1 ([ ]) u Ω 1 u ρ 2 exp σ ε 2π La ventaja de este método es que puedo estimar simultáneamente β y ρ. 2σ 2 ε (3.21) 12 Ver Greene, Análisis Econométrico página 69. Si la función de densidad conjunta de la variable ε t es: ( ) T 1 ([ ]) T t=2 f(ε) = exp ε2 t σ ε 2π 2σε 2 o equivalentemente: ( ) T ([ 1 ε ]) ε f(ε) = exp σ ε 2π la función de densidad de conjunta de P u t = ε t es: 2σ 2 ε ( ) T ([ 1 u P ]) P u f(u) = P exp σ ε 2π 2σ 2 ε 140

142 Capitulo 3: Forma Funcional y Especicación El logaritmo de la Verosimilitud Condicional 13 en términos de observables es: ( ) T 1 lnl = ln(2π) 2 ( T 1 2 ) ln(σ 2 ε) 1 2σ 2 ε T [(y t x t β) ρ(y t 1 x t 1 β)] 2 t=2 Las condiciones de primer orden del problema de Máxima Verosimilitud son: lnl β lnl ρ lnl σ 2 ε = 1ˆσ 2 ε = 1ˆσ 2 ε T ˆε t x t = 0 (k ecuaciones) (3.22) t=2 T (û t ˆρû t 1 )û t 1 = 0 (1 ecuacion) (3.23) t=2 (T 1) = 2 1 ˆσ 2 ε T t=2 + ˆε2 t = 0 (1 ecuacion) (3.24) ˆσ 4 ε De (3.22) podemos encontrar el estimador MV de β, que como podemos observar coincide con el estimador MCF. De (3.23) se determina el estimador MV de ρ: ˆρ = T t=2 ûtû t 1 û t 1 que corresponde exactamente a lo sugerido por el método de Cochrane-Orcutt. Ejemplo: Estimación de Función Consumo Suponga estamos interesados en estimar una función Consumo: C t = β 0 + β 1 Y t + u t (3.25) donde C t es el consumo e Y t es el Ingreso. Para esto contamos con información del consumo agregado del sector público y privado y del PIB de España para los años Estas series se muestran en el siguiente gráco: 13 La estimación condicional toma la primera observación como dada y es eliminada de la estimación, es decir, se estima con (T-1) observaciones 141

143 Capitulo 3: Forma Funcional y Especicación CONSUMO PIB Ahora estimemos (3.25) utilizando la información disponible: 142

144 Capitulo 3: Forma Funcional y Especicación Dependent Variable: CONSUMO Method: Least Squares Date: 11/09/04 Time: 15:51 Sample: Included observations: 35 CONSUMO=C(1)+C(2)*PIB Coefficient Std. Error t-statistic Prob. C(1) C(2) R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Durbin-Watson stat Si comparamos el valor del DW (0.34) con el valor de tabla (k'=1 y n=35 al 95 % de conanza, di=1.4 y ds=1.52), tenemos que se rechaza la hipótesis nula de no autocorrelación a favor de autocorrelación positiva. Además podemos apreciar grácamente la forma autorregresiva de los residuos: Residual Actual Fitted Veamos que sucede con nuestros parámetros estimados si aplicamos la corrección de Newey-West a nuestra estimación MCO: 143

145 Capitulo 3: Forma Funcional y Especicación Dependent Variable: CONSUMO Method: Least Squares Date: 11/09/04 Time: 15:59 Sample: Included observations: 35 Newey-West HAC Standard Errors & Covariance (lag truncation=3) CONSUMO=C(1)+C(2)*PIB Coefficient Std. Error t-statistic Prob. C(1) C(2) R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterio Sum squared resid Schwarz criterion Log likelihood Durbin-Watson sat

146 Capitulo 3: Forma Funcional y Especicación Para realizar la estimación MCF de la propensión marginal a consumir (que es equivalente a la estimación Máximo Verosímil) debemos primero estimar la función autorregresiva del error. Para esto determinemos primero el vector de residuos de la estimación MCO de nuestro modelo de interés: Y luego estimamos el siguiente modelo: 145

147 Capitulo 3: Forma Funcional y Especicación ρ^ Una vez estimado ρ podemos transformar el modelo original de acuerdo a la ecuación (3.19), de forma que el error transformado (ε t ) cumple con los requisitos para que MCO sea MELI: 146

148 Capitulo 3: Forma Funcional y Especicación La estimación del modelo transformado arroja los siguientes resultados: 147

149 Capitulo 3: Forma Funcional y Especicación Primero, podemos notar que el DW es 1.81, mayor al límite superior de tabla (1.52) y menor a (4 ds) = 2,48, por lo tanto no se puede rechazar la nula de no autocorrelación. El parámetro de la propensión marginal a consumir es exactamente el mismo que el obtenido de la estimación MCO del modelo original. 148

150 Capítulo 4 Problemas con los datos 4.1. Multicolinealidad Es prácticamente imposible encontrar dos variables económicas cuyo coeciente de correlación es una determinada muestra sea numéricamente cero, dicho coe- ciente puede tomar valores pequeños pero nunca llegar a ser cero. Granger y Newbold (1974) entre otros autores han ilustrado como el sólo hecho de introducir una tendencia lineal en dos series de tiempo independientes aumenta su correlación notablemente. La Multicolinealidad aparece cuando las variables explicativas en modelo econométrico están correlacionadas entre si, esto tiene efectos negativas cuando se quire estimar los parámetros del modelo por MCO. Existen diversas fuentes de la multicolinealidad: El método de recolección de información empleado, obtención de muestras en un intervalo limitado de valores de los regresores en la población. Restricción en el modelo o en la población objeto de muestreo. Especicación del modelo. Consideremos el siguiente modelo: y i = β 1 + β 2 x 2i β k x ki + u i 149

151 Capitulo 4: Problemas con los datos Si existe la inversa de X'X, el estimador MCO de este modelo, viene dado por ˆβ MCO = (X X) 1 X y y su matriz de covarianzas es Var( ˆβ)=σ 2 u(x X) 1. Supongamos que la x ji tiene un alto grado de correlación con las demás variables explicativas de modelo, es decir que la regresión lineal: x ji = δ 1 + δ 2 x 2i δ j 1 x j 1,i + δ j+1 x j+1,i δ k 1 x ki + ν i (4.1) tiene un coeciente de determinación alto. En estas condiciones la variable x ji puede escribirse aproximadamente como una combinación lineal del resto de las variables explicativas del modelo, lo que se puede apreciar en la ecuación (4.1). Como consecuencia una de las columnas de la matriz X, la correspondiente a x ji, puede escribirse como una combinación lienal aproximada de las demás columnas de X, y de esta forma (X'X) será aproximadamente singular. En la medida que el determinante de (X'X) sea distinto de cero, existirá (X'X) 1, y por lo tanto también existirá es el estimador MCO, y sigue cumpliendo con la propiedad de MELI, pero se tienen las siguientes consecuencias: 1. La solución del sistema de ecuaciones normales está mal denido: mientras la dependencia de x ji sea aleatoria como lo muestra la ecuación (4.1) y no exacta, X'X no será exactamente singular y existirá un único estimador MCO, ya que existe una única solución al sistema de ecuaciones normales, pero también habrá un número de vectores β 1, β 2,..., que al sustituirlos en el sistema de ecuaciones normales, serían aproximadamente una solución al mismo. 2. Pequeñas variaciones muestrales por incorporar o sustraer un número reducido de observaciones muestrales, introducirá ligeros cambios en (X'X) y X'y, pero podrían generar importantes cambios en la solución ˆβ del sistema de ecuaciones normales. 3. Al ser la matriz X'X casi singular, es muy pequeña. Como consecuencia la matriz de covarianzas será muy grande, por lo tanto el estimador MCO es poco preciso en este caso. 150

152 Capitulo 4: Problemas con los datos Multicolinealidad Exacta y Multicolinealidad Aproximada La presencia de multicolinealidad en un modelo de regresión lineal puede ser de dos formas: Multicolinealidad Exacta: una de las variables explicativas es una combinación lineal determinística de todas las demás (o algunas de ellas). Multicolinealidad Aproximada: ocurre cuando una de las variables es aproximadamente igual a una combinación lineal de las restantes, como en la ecuación (3.1). En la práctica, contrario a lo que se pudiera esperara es más complicado la multicolinealidad aproximada que la exacta Detección de Multicolinealidad Puesto que la multicolinealidad es un problema de naturaleza muestral, que surge principalmente por el carácter no experimental de la mayoría de la información recopilada en las Ciencias Sociales, no tiene una manera única de ser detectada. Lo que se tiene son algunas reglas prácticas detalladas a continuación: 1. El R 2 es alto, pero los parámetros no resultan ser individualmente signicativos. Por ejemplo: Considere los siguientes datos: Tabla 6: Multicolinealidad Periodo y i x 2i x 3i x 4i Las variables x 3 y x 4 tienen las mismas observaciones numéricas solo que en distinto orden, de forma tal que la correlación entre x 2 y estas dos variables 151

153 Capitulo 4: Problemas con los datos son: ρ 23 = 0,32 y ρ 24 = 0,93, altamente diferentes entre sí. Una regresión de y i sobre x 2i, x 3i y una constante generó las siguientes estimaciones MCO: y t = 10,81 (2,6) + 2,92x 2i (0,42) R 2 = 0,92 ˆσ 2 u = 2,09 0,54x 3i (0,21) + û i (4.2) Una regresión de y contra una constante, x 2 y x 4, produjo las siguientes estimaciones: y i = 6,67 + 1,33x 2i + 0,67x 4i + û i (4.3) (3,27) (1,61) (0,81) R 2 = 0,83 ˆσ 2 u = 3,16 Ambas regresiones no incluyen las mismas variables explicativas y por lo tanto, no son comparables. Sin embargo, en el segundo modelo donde el grado de correlación entre las variables explicativas es alto, podemos apreciar que a pesar de que el R 2 es alto, los parámetros resultan ser insignicativos individualmente (t 4 =2.78). 152

154 Capitulo 4: Problemas con los datos 2. Pequeños cambios en los datos, produce importantes variaciones en las estimaciones mínimo cuadráticas. 3. Los coecientes pueden tener signos opuestos a los esperados o una magnitud poco creíble Otros métodos de detección de multicolinealidad (a) Métodos basados en la correlación entre variables explicativas: una de las consecuencias de la multicolinealidad era varianzas de los estimadores bastante altas. Entonces, ¾Cúal es la relación entre la varianza estimada y el grado de correlación entre las variables explicativas?. Si descomponemos la matriz X de la siguiente forma: X = [x j ; X j ] donde x j es un vector columna correspondiente a la j-ésima variable explicativa y X j una matriz de n (k-1) con las observaciones de las restantes variables. Entonces, X'X puede escribirse como: [ ] x X X = j x j x jx j X jx j X jx j De esta forma, el elemento (1,1) de (X X) 1 es (Demostrar): 1 [(x jx j ) x jx j (X jx j ) 1 (X jx j )] 1 = (x jm j x j ) 1 donde M j = I n X j (X jx j ) 1 X j y donde x jm j x j corresponde a la suma de los residuos al cuadrado de una regresión de x j sobre X j, de esta forma se tiene que: V ar( ˆβ j ) = Lo que tiene la siguiente expresión: V ar( ˆβ j ) = 1 Recordar que la inversa de una matriz particionada es: σ2 u x j M jx j (4.4) σ 2 u ST j (1 R 2 j ) (4.5) [ ] 1 [ A11 A 12 A 1 = 11 (I + A 12F 2 A 21 A 1 11 ) A 1 11 A 12F 2 A 21 A 22 F 2 A 21 A 1 11 F 2 donde F 2 =(A 22 -A 21 A 1 11 A 12). 153 ]

155 Capitulo 4: Problemas con los datos donde ST j es la suma total de la regresión entre x j y X j (ST j = n i=1 (x ji x j ) 2 ) y R 2 j es el coeciente de determinación de esta misma regresión. La varianza de ˆβ j depende de tres cosas: La varianza del término de error, que es independiente del grado de correlación entre las x's. La suma total propia de la variable x j, la que depende solo de esta variable. El coeciente de determinación R 2 j, el que si depende del grado del grado de correlación entre la variable x j y las restantes, es decir, depende del grado de multicolinealidad. La cota inferior para la varianza de ˆβ j, cuando R 2 j=0, es: V ar( ˆβ 0 j ) = σ2 u ST j Por lo que la relación entre las varianzas de la estimación de β j en un caso de correlación entre variables explicativas y el caso de independencia lineal es: V ar( ˆβ j ) V ar( ˆβ 0 j ) = 1 1 R 2 j 154

Estadística para la Economía y la Gestión IN 3401

Estadística para la Economía y la Gestión IN 3401 Estadística para la Economía y la Gestión IN 3401 3 de junio de 2010 1 Modelo de Regresión con 2 Variables Método de Mínimos Cuadrados Ordinarios Supuestos detrás del método MCO Errores estándar de los

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple Facultad de Ciencias Sociales - UdelaR Índice 7.1 Introducción 7.2 Análisis de regresión 7.3 El Modelo de Regresión

Más detalles

T2. El modelo lineal simple

T2. El modelo lineal simple T2. El modelo lineal simple Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 40 Índice 1 Planteamiento e hipótesis básicas 2 Estimación de

Más detalles

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Los estimadores mínimo cuadráticos bajo los supuestos clásicos Los estimadores mínimo cuadráticos bajo los supuestos clásicos Propiedades estadísticas e inferencia Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni MCO bajo los supuestos clásicos 1

Más detalles

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía ECONOMETRÍA I Tema 2: El Modelo de Regresión Lineal Simple Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA I 1 / 42 Modelo de Regresión

Más detalles

Formulación matricial del modelo lineal general

Formulación matricial del modelo lineal general Formulación matricial del modelo lineal general Estimadores MCO, propiedades e inferencia usando matrices Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni Formulación matricial del modelo

Más detalles

Curso de nivelación Estadística y Matemática

Curso de nivelación Estadística y Matemática Modelo de Curso de nivelación Estadística y Matemática Pruebas de hipótesis, y Modelos ARIMA Programa Técnico en Riesgo, 2017 Agenda Modelo de 1 2 Asociación Medidas de asociación para variables intervalo

Más detalles

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) NOTA IMPORTANTE - Estas notas son complementarias a las notas de clase del primer semestre correspondientes a los temas de Regresión

Más detalles

Tema 4. Regresión lineal simple

Tema 4. Regresión lineal simple Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias

Más detalles

Estimación del modelo lineal con dos variables

Estimación del modelo lineal con dos variables Estimación del modelo lineal con dos variables el método de mínimos cuadrados ordinarios (MCO) Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni Estimación del modelo lineal por MCO 1

Más detalles

Estadística para la Economía y la Gestión IN 3401 Clase 5

Estadística para la Economía y la Gestión IN 3401 Clase 5 Estadística para la Economía y la Gestión IN 3401 Clase 5 Problemas con los Datos 9 de junio de 2010 1 Multicolinealidad Multicolinealidad Exacta y Multicolinealidad Aproximada Detección de Multicolinealidad

Más detalles

Errores de especificación

Errores de especificación CAPíTULO 5 Errores de especificación Estrictamente hablando, un error de especificación es el incumplimiento de cualquiera de los supuestos básicos del modelo lineal general. En un sentido más laxo, esta

Más detalles

ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN ANÁLISIS DE REGRESIÓN INTRODUCCIÓN Francis Galtón DEFINICIÓN Análisis de Regresión Es una técnica estadística que se usa para investigar y modelar la relación entre variables. Respuesta Independiente Y

Más detalles

Teoría de la decisión

Teoría de la decisión 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia

Más detalles

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10 Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores

Más detalles

TEMA 5: Especificación y Predicción en el MRL

TEMA 5: Especificación y Predicción en el MRL EMA 5: Especificación y Predicción en el MRL Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) ema 5: Especificación y Predicción Curso

Más detalles

Econometría Aplicada

Econometría Aplicada Econometría Aplicada Inferencia estadística, bondad de ajuste y predicción Víctor Medina Intervalos de confianza Intervalos de confianza Intervalos de confianza Intervalos de confianza La pregunta que

Más detalles

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO TEMA 3: PROPIEDADES DEL ESTIMADOR MCO S. Álvarez, A. Beyaert, M. Camacho, M. González, A. Quesada Departamento de Métodos Cuantitativos para la Economía y la Empresa Econometría (3º GADE) Lo que estudiaremos

Más detalles

Tema 8: Regresión y Correlación

Tema 8: Regresión y Correlación Tema 8: Regresión y Correlación Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 1 / 12 Índice

Más detalles

PROPIEDADES DEL ESTIMADOR MCO

PROPIEDADES DEL ESTIMADOR MCO TEMA 3 PROPIEDADES DEL ESTIMADOR MCO S. Álvarez, A. Beyaert, M. Camacho, M. González, A. Quesada Departamento de Métodos Cuantitativos para la Economía y la Empresa Econometría (3º GADE) Lo que estudiaremos

Más detalles

TEMA 2: Propiedades de los estimadores MCO

TEMA 2: Propiedades de los estimadores MCO TEMA 2: Propiedades de los estimadores MCO Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 2: Pdades de los estimadores MCO Curso

Más detalles

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 10: Introducción a los problemas de Asociación y Correlación Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación

Más detalles

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios. ema El Modelo de Regresión Lineal con Regresores Aleatorios Introducción En este tema vamos a analizar las propiedades del modelo de regresión lineal con regresores aleatorios Suponer que los regresores

Más detalles

Julio Deride Silva. 4 de junio de 2010

Julio Deride Silva. 4 de junio de 2010 Curvas ROC y Regresión Lineal Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 4 de junio de 2010 Tabla de Contenidos Curvas ROC y Regresión Lineal

Más detalles

Obligatoria Optativa Extracurricular Curso Seminario Taller. Clave seriación 45 Laboratorio. Horas prácticas de campo

Obligatoria Optativa Extracurricular Curso Seminario Taller. Clave seriación 45 Laboratorio. Horas prácticas de campo Carta descriptiva Datos de identificación Programa Nombre de la asignatura Tipo de Asignatura Maestría en Economía Aplicada Econometría I Ciclo Primer semestre Obligatoria Optativa Extracurricular Curso

Más detalles

Estadística para la Economía y la Gestión IN 3401 Clase 5

Estadística para la Economía y la Gestión IN 3401 Clase 5 Estadística para la Economía y la Gestión IN 3401 Clase 5 21 de octubre de 2009 1 Variables Dummies o cualitativas 2 Omisión de Variables Relevantes Impacto sobre el Insesgamiento Impacto sobre la Varianza

Más detalles

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16 Regresión Lineal Rodrigo A. Alfaro 2009 Rodrigo A. Alfaro (BCCh) Regresión Lineal 2009 1 / 16 Contenidos 1 Regresiones Lineales Regresión Clásica Paquetes estadísticos 2 Estadísticos de Ajuste Global 3

Más detalles

El Modelo de Regresión Lineal General Estimación

El Modelo de Regresión Lineal General Estimación Tema 5 El Modelo de Regresión Lineal General Estimación Pilar González y Susan Orbe Dpto Economía Aplicada III (Econometría y Estadística) Pilar González y Susan Orbe OCW 2013 Tema 5 MRLG: Estimación 1

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

El Modelo de Regresión Lineal

El Modelo de Regresión Lineal ECONOMETRÍA I El Modelo de Regresión Lineal Dante A. Urbina CONTENIDOS 1. Regresión Lineal Simple 2. Regresión Lineal Múltiple 3. Multicolinealidad 4. Heterocedasticidad 5. Autocorrelación 6. Variables

Más detalles

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación ECONOMETRÍA I Tema 3: El Modelo de Regresión Lineal Múltiple: estimación Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA I 1 / 45

Más detalles

TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Modelo de regresión múltiple.

Más detalles

La línea recta: Serie1

La línea recta: Serie1 La línea recta: En una línea recta tenemos una relación entre dos variables, la independiente (x) y la dependiente (y). La forma en que se relacionan dependerá de la función que describa dicha relación.

Más detalles

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992. Universidad Nacional Autónoma de Nicaragua UNAN-Managua Curso de Análisis y Diseño de Modelos Econométricos Profesor: MSc. Julio Rito Vargas Avilés. Participantes: Docentes /FAREM-Carazo Encuentro No.4

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 TEMA 1 INTRODUCCIÓN Estimación por máxima verosimilitud y conceptos de teoría asintótica 1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD) La estimación

Más detalles

Grado en Finanzas y Contabilidad

Grado en Finanzas y Contabilidad Econometría Grado en Finanzas y Contabilidad Apuntes basados en el libro Introduction to Econometrics: A modern Approach de Wooldridge 3.1 Colinealidad Exacta 3.2 Los efectos de la multicolinealidad Del

Más detalles

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por

Más detalles

Econometría II. Hoja de Problemas 1

Econometría II. Hoja de Problemas 1 Econometría II. Hoja de Problemas 1 Nota: En todos los contrastes tome como nivel de significación 0.05. 1. SeanZ 1,...,Z T variables aleatorias independientes, cada una de ellas con distribución de Bernouilli

Más detalles

La econometría : una mirada de pájaro

La econometría : una mirada de pájaro La econometría : una mirada de pájaro Contenido Objetivo Definición de Econometría Modelos determinista y estocástico Metodología de la econometría Propiedades de un modelo econométrico Supuestos de un

Más detalles

Econometria de Datos en Paneles

Econometria de Datos en Paneles Universidad de San Andres Agosto de 2011 Porque paneles? Ejemplo (Cronwell y Trumbull): Determinantes del crimen y = g(i), y = crimen, I = variables de justicia criminal. Corte transversal: (y i, I i )

Más detalles

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño 7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL Jorge Eduardo Ortiz Triviño jeortizt@unal.edu.co http:/www.docentes.unal.edu.co/jeortizt/ Introducción Los datos frecuentemente son dados para valores

Más detalles

GUIÓN TEMA 2. PROPIEDADES DE LOS ESTIMADORES MCO 2.1 PROPIEDADES ESTADÍSTICAS DEL ES- TIMADOR MCO DE.

GUIÓN TEMA 2. PROPIEDADES DE LOS ESTIMADORES MCO 2.1 PROPIEDADES ESTADÍSTICAS DEL ES- TIMADOR MCO DE. ECONOMETRIA I. Departamento de Fundamentos del Análisis Económico Universidad de Alicante. Curso 011/1 GUIÓN TEMA. PROPIEDADES DE LOS ESTIMADORES MCO Bibliografía apartados.1,. y.3: Greene, 6.6.1, 6.6.3

Más detalles

Tema 2: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes 1 Tema 2: Análisis de datos bivariantes En este tema: Tabla de contingencia, tabla de doble entrada, distribución conjunta. Frecuencias relativas, marginales, condicionadas. Diagrama de dispersión. Tipos

Más detalles

MÓDULO X. LA DINÁMICA DE LA ECONOMÍA MUNDIAL PROGRAMA OPERATIVO MATEMÁTICAS ECONOMETRÍA I. Profesor: Noé Becerra Rodríguez.

MÓDULO X. LA DINÁMICA DE LA ECONOMÍA MUNDIAL PROGRAMA OPERATIVO MATEMÁTICAS ECONOMETRÍA I. Profesor: Noé Becerra Rodríguez. MÓDULO X. LA DINÁMICA DE LA ECONOMÍA MUNDIAL PROGRAMA OPERATIVO MATEMÁTICAS ECONOMETRÍA I Profesor: Noé Becerra Rodríguez Objetivo general: Introducir los aspectos fundamentales del proceso de construcción

Más detalles

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R Capítulo 6 Multicolinealidad Luis Quintana Romero Objetivo Identificar la multicolinealidad en un modelo econométrico, así como las pruebas de detección de la multicolinealidad y correcciones. Introducción

Más detalles

Modelo lineal general (K variables)

Modelo lineal general (K variables) Modelo lineal general (K variables) Interpretación y usos Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni Modelo lineal general 1 / 45 Temario de la clase 1 El modelo lineal general

Más detalles

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión INTERPRETACIÓN DE LA REGRESIÓN Este gráfico muestra el salario por hora de 570 individuos. 1 Interpretación de la regresión. regresión Salario-Estudios Source SS df MS Number of obs = 570 ---------+------------------------------

Más detalles

TEMA 3 REGRESIÓN Y CORRELACIÓN

TEMA 3 REGRESIÓN Y CORRELACIÓN TEMA 3 REGRESIÓN Y CORRELACIÓN Regresión mínimo-cuadrática bidimensional Planteamiento del problema Dadas dos variables aleatorias X e Y definidas sobre un mismo espacio de probabilidad (asociadas a un

Más detalles

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO 1 rojo 1 2 3 4 5 6 Supongamos que tenemos dos dados, uno rojo y otro verde, cada uno de los cuales toma valores entre

Más detalles

Econometría de Económicas Ejercicios para el tema 2 y 3

Econometría de Económicas Ejercicios para el tema 2 y 3 Econometría de Económicas Ejercicios para el tema 2 y 3 Curso 2005-2006 Profesores Amparo Sancho Perez Guadalupe Serrano Pedro Perez 1 1- Los datos que se adjuntan hacen referencia a los datos de producción

Más detalles

2. Modelos con regresores endógenos

2. Modelos con regresores endógenos . Introducción ema 3. Regresores Endógenos. Bibliografía: Wooldridge, 5., 5.4 y 6.2 En este tema vamos a estudiar el modelo lineal con regresores potencialmente endógenos. Veremos primero las consecuencias

Más detalles

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión

Más detalles

Métodos Estadísticos Multivariados

Métodos Estadísticos Multivariados Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 20 Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre

Más detalles

Tema 2. Heterocedasticidad. 1 El modelo de regresión lineal con errores heterocedásticos

Tema 2. Heterocedasticidad. 1 El modelo de regresión lineal con errores heterocedásticos ema 2. Heterocedasticidad. El modelo de regresión lineal con errores heterocedásticos En este tema vamos a analizar el modelo de regresión lineal Y t = X tβ + u t, donde X t = (X t, X 2t,.., X kt y β =

Más detalles

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN CURSO DE BIOESTADÍSTICA BÁSICA Y SPSS ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN Amaia Bilbao González Unidad de Investigación Hospital Universitario Basurto (OSI Bilbao-Basurto)

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes Tema 3: Análisis de datos bivariantes 1 Contenidos 3.1 Tablas de doble entrada. Datos bivariantes. Estructura de la tabla de doble entrada. Distribuciones de frecuencias marginales. Distribución conjunta

Más detalles

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS CONTENIDO 1 Ajuste de Curvas 2 Análisis de Regresión 2.1 Métodos de Mínimos Cuadrados 2.2 Regresión Lineal AJUSTE DE CURVAS Uno de los objetivos en

Más detalles

Prueba de Hipótesis. Para dos muestras

Prueba de Hipótesis. Para dos muestras Prueba de Hipótesis Para dos muestras Muestras grandes (n mayor a 30) Utilizar tabla Z Ho: μ1 = μ2 H1: μ1 μ2 Localizar en valor de Zt en la tabla Z Error estándar de la diferencia de medias Prueba de

Más detalles

peso edad grasas Regresión lineal simple Los datos

peso edad grasas Regresión lineal simple Los datos Regresión lineal simple Los datos Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos

Más detalles

Mínimos Cuadrados Generalizados

Mínimos Cuadrados Generalizados Mínimos Cuadrados Generalizados Román Salmerón Gómez Los dos últimos temas de la asignatura han estado enfocados en estudiar por separado la relajación de las hipótesis de que las perturbaciones estén

Más detalles

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis TODO ECONOMETRIA Bondad del ajuste Contraste de hipótesis Índice Bondad del ajuste: Coeficiente de determinación, R R ajustado Contraste de hipótesis Contrastes de hipótesis de significación individual:

Más detalles

Tema 2: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes Tema 2: Análisis de datos bivariantes Los contenidos a desarrollar en este tema son los siguientes: 1. Tablas de doble entrada. 2. Diagramas de dispersión. 3. Covarianza y Correlación. 4. Regresión lineal.

Más detalles

Inferencia. Mauricio Olivares. 19 de junio de 2015 ITAM

Inferencia. Mauricio Olivares. 19 de junio de 2015 ITAM Inferencia Mauricio Olivares ITAM 19 de junio de 2015 Recuerda de nuestra clase anterior que m(x) = α + βx. Recuerda de nuestra clase anterior que m(x) = α + βx. Esta es una relación poblacional, no hay

Más detalles

Qué es una regresión lineal?

Qué es una regresión lineal? Apéndice B Qué es una regresión lineal? José Miguel Benavente I. Introducción En varios capítulos de este libro se ocupan regresiones lineales y se afirma que el coeficiente de regresión indica cuánto

Más detalles

Econometría II Grado en finanzas y contabilidad

Econometría II Grado en finanzas y contabilidad Econometría II Grado en finanzas y contabilidad Variables aleatorias y procesos estocásticos. La FAC y el correlograma Profesora: Dolores García Martos E-mail:mdgmarto@est-econ.uc3m.es Este documento es

Más detalles

Definición de Correlación

Definición de Correlación Definición de Correlación En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias: Estudiar cómo influye la estatura del padre sobre la estatura del

Más detalles

1. La Distribución Normal

1. La Distribución Normal 1. La Distribución Normal Los espacios muestrales continuos y las variables aleatorias continuas se presentan siempre que se manejan cantidades que se miden en una escala continua; por ejemplo, cuando

Más detalles

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE ESCUELA UNIVERSITARIA DE ENFERMERIA DE TERUEL 1 er CURSO DE GRADO DE ENFERMERIA Estadística en Ciencias de la Salud 7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE PROFESOR Dr. Santiago

Más detalles

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias

Más detalles

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del

Más detalles

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre

Más detalles

Tema 3: Estimación estadística de modelos probabilistas. (primera parte)

Tema 3: Estimación estadística de modelos probabilistas. (primera parte) Tema 3: Estimación estadística de modelos probabilistas. (primera parte) Estructura de este tema: 1. 2 Estimación por intervalos de confianza. 3 Contrastes de hipótesis. Planteamiento del problema Inconveniente:

Más detalles

Vectores Autorregresivos (VAR)

Vectores Autorregresivos (VAR) Econometria de Series Temporales Vectores Autorregresivos (VAR) Walter Sosa Escudero Universidad de San Andr es y UNLP 1 Procesos estocasticos multivariados Y t =[Y 1t ;Y 2t ; ;Y Nt ] 0 ; t =1; 2;:::;T

Más detalles

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple Pronósticos, Series de Tiempo y Regresión Capítulo 4: Regresión Lineal Múltiple Temas Modelo de regresión lineal múltiple Estimaciones de Mínimos Cuadrados Ordinarios (MCO); estimación puntual y predicción

Más detalles

Tema 5. Muestreo y distribuciones muestrales

Tema 5. Muestreo y distribuciones muestrales 1 Tema 5. Muestreo y distribuciones muestrales En este tema: Muestreo y muestras aleatorias simples. Distribución de la media muestral: Esperanza y varianza. Distribución exacta en el caso normal. Distribución

Más detalles

Conceptos Básicos de Inferencia

Conceptos Básicos de Inferencia Conceptos Básicos de Inferencia Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Inferencia Estadística Cuando obtenemos una muestra, conocemos

Más detalles

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M. En este capítulo, vamos a abordar la Estimación Puntual, que es uno de los tres grandes conjuntos de técnicas que

Más detalles

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos:

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos: UNIDAD Nº4 TEORÍA DE REGRESIÓN Y CORRELACIÓN 1.- Teoría de Regresión.- En términos de estadística los conceptos de regresión y ajuste con líneas paralelas son sinónimos lo cual resulta estimar los valores

Más detalles

Teorema Central del Límite (1)

Teorema Central del Límite (1) Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico

Más detalles

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Regresión lineal Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 01 de enero de 2012

Más detalles

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple ESTDÍSTIC PLICD Grado en Nutrición Humana y Dietética Planteamiento del problema Tema 4: Regresión lineal simple Recta de regresión de mínimos cuadrados El modelo de regresión lineal simple IC y contrastes

Más detalles

Medidas de asociación lineal y el modelo lineal con dos variables

Medidas de asociación lineal y el modelo lineal con dos variables Medidas de asociación lineal y el modelo lineal con dos variables Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni El modelo lineal con dos variables 1 / 28 Introducción Nos interesa

Más detalles

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos Contenido Acerca de los autores.............................. Prefacio.... xvii CAPÍTULO 1 Introducción... 1 Introducción.............................................. 1 1.1 Ideas de la estadística.........................................

Más detalles

El Modelo de Regresión Simple

El Modelo de Regresión Simple El Modelo de Regresión Simple Carlos Velasco 1 1 Departamento de Economía Universidad Carlos III de Madrid Econometría I Máster en Economía Industrial Universidad Carlos III de Madrid Curso 2007/08 C Velasco

Más detalles

Examen de Introducción a la Econometría 8 de septiembre de 2008

Examen de Introducción a la Econometría 8 de septiembre de 2008 NOMBRE DNI: GRUPO Firma: MODELO 1: SOLUCIONES Examen de Introducción a la Econometría 8 de septiembre de 008 Sólo una respuesta es válida. Debe justificar la respuesta de cada pregunta en el espacio que

Más detalles

2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS

2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS 2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS Los modelos cuantitativos de pronósticos son modelos matemáticos que se basan en datos históricos. Estos modelos suponen que los

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

Distribuciones Bidimensionales.

Distribuciones Bidimensionales. Distribuciones Bidimensionales. 1.- Variables Estadísticas Bidimensionales. Las variables estadísticas bidimensionales se representan por el par (X, Y) donde, X es una variable unidimensional, e Y es otra

Más detalles

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS NOV 2015 PLAN DE ESTUDIO 1. ESTADISTICA DESCRIPTIVA 1. MEDIDAS DE TENDENCIA CENTRAL PRIMER MOMENTO 2. OTRAS MEDIDAS DE TENDENCIA CENTRAL 3. MEDIDAS

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11

Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11 Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11 Distribución de Probabilidad Recordamos conceptos: Variable aleatoria: es aquella que se asocia un número o un dato probabilístico, como

Más detalles

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación Estadística Tema 3 Esperanzas 31 Esperanza Propiedades 32 Varianza y covarianza Correlación 33 Esperanza y varianza condicional Predicción Objetivos 1 Medidas características distribución de VA 2 Media

Más detalles

Análisis de la Varianza (ANOVA) y Correlación

Análisis de la Varianza (ANOVA) y Correlación Universidad de Chile Rodrigo Assar FCFM MA34B Andrés Iturriaga DIM Víctor Riquelme Análisis de la Varianza (ANOVA) y Correlación Resumen El test ANOVA analiza la relación entre una variable numérica y

Más detalles

ENRIC RUIZ MORILLAS ESTADÍSTICA APLICADA A EXPERIMENTOS Y MEDICIONES

ENRIC RUIZ MORILLAS ESTADÍSTICA APLICADA A EXPERIMENTOS Y MEDICIONES ENRIC RUIZ MORILLAS ESTADÍSTICA APLICADA A EXPERIMENTOS Y MEDICIONES Índice 1. Experimento y medición...1 2. Frecuencia y probabilidad...3 3. Características teóricas de las variables aleatorias...25 4.

Más detalles

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento. UNIVERSIDAD DE ATACAMA FACULTAD DE CIENCIAS JURÍDICAS / CARRERA DE TRABAJO SOCIAL TECNOLOGÍA INFORMÁTICA I (SPSS) ESTADÍSTICA DESCRIPTIVA CON MÁS DE UNA VARIABLE Profesor: Hugo S. Salinas. Primer Semestre

Más detalles

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal Estadística Inferencial Sesión No. 9 Regresión y correlación lineal Contextualización En la administración, las decisiones suelen basarse en la relación entre dos o más variables. En esta sesión se estudia

Más detalles