Regresión cuantílica Beatriz Sánchez Reyes 22 de septiembre de 2010
Índice Definición de cuantil Regresión cuantílica - Estimación - Inferencia Regresión mediana (Ejemplo) Regresión cuartílica (Ejemplo)
Definición de cuantil Un cuantil es un valor b de la muestra que deja por debajo una proporción de observaciones igual a θ* y una proporción (1-θ) de observaciones por encima. Los cuantiles más utilizados son: - Mediana - Cuartiles - Deciles - Percentiles o centiles Una forma alternativa de expresar los cuantiles es a través del siguiente problema de minimización: *0<θ<1
Regresión cuantílica La regresión cuantílica (Koenker y Basset, 1978) busca modelizar la relación existente entre x e y para distintos cuantiles de la distribución de la variable dependiente y. y i =x i β θ + u i
Estimación (I) La estimación de los parámetros en el caso de la regresión cuantílica se lleva a cabo a través de la minimización de las desviaciones absolutas ponderadas con pesos asimétricos:
Estimación (II) Una forma alternativa a la expresión anterior: Donde tal que: ρ(u) (θ-1) θ u
Estimación (III) Expresado como un problema de programación lineal, se tiene la siguiente expresión:
Inferencia (I) Cálculo de Λ θ mediante bootstrapp (Efron, 1979): donde:
Inferencia (II) Pseudo- R 2 =
Regresión mediana La regresión mediana es un caso particular de la regresión cuantílica en el que: θ=0,5 Por tanto, la expresión para el cálculo de los parámetros de la regresión quedaría de la siguiente manera:
Ejemplo 1: Regresión mediana ante la presencia de atípicos var_pob i =(renta_pc) i β θ + u i var_pob i : Variación de la población en cada uno de los municipios extremeños de más de 5.000 habitantes entre los años 1999 y 2009. (renta_pc) i : Renta per cápita de los municipios extremeños de más de 5.000 habitantes en 2007 (último año disponible). θ=0,5
Paso 1.- Estimar los modelos: var_pob i =(renta_pc) i β MCO + u i var_pob i =(renta_pc) i β Med + u i Paso 2.- Estimar y comparar los modelos anteriores ante la presencia de un dato atípico.
. REGRESIÓN MCO reg var_pob renta_pc Source SS df MS Number of obs = 40 -------------+------------------------------ F( 1, 38) = 16.03 Model 688.84859 1 688.84859 Prob > F = 0.0003 Residual 1632.80496 38 42.9685515 R-squared = 0.2967 -------------+------------------------------ Adj R-squared = 0.2782 Total 2321.65355 39 59.5295781 Root MSE = 6.555 ------------------------------------------------------------------------------ var_pob Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- renta_pc.0039573.0009884 4.00 0.000.0019565.0059582 _cons -39.478 10.9443-3.61 0.001-61.63358-17.32242 ------------------------------------------------------------------------------. REGRESIÓN CUANTÍLICA qreg var_pob renta_pc Iteration 1: WLS sum of weighted deviations = 197.2375 Iteration 1: sum of abs. weighted deviations = 197.00522 Iteration 2: sum of abs. weighted deviations = 195.62679 Median regression Number of obs = 40 Raw sum of deviations 256.7947 (about 3.8062935) Min sum of deviations 195.6268 Pseudo R2 = 0.2382 ------------------------------------------------------------------------------ var_pob Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- renta_pc.0047281.001102 4.29 0.000.0024972.006959 _cons -48.34135 12.20507-3.96 0.000-73.04922-23.63347 ------------------------------------------------------------------------------ -10 0 10 20-10 0 10 20 9000 10000 11000 12000 13000 14000 renta_pc var_pob Fitted values 9000 10000 11000 12000 13000 14000 renta_pc var_pob Fitted values
. REGRESIÓN MCO reg var_pob renta_pc Source SS df MS Number of obs = 40 -------------+------------------------------ F( 1, 38) = 0.01 Model 1.65009625 1 1.65009625 Prob > F = 0.9410 Residual 11280.3495 38 296.851303 R-squared = 0.0001 -------------+------------------------------ Adj R-squared = -0.0262 Total 11281.9996 39 289.282041 Root MSE = 17.229 ------------------------------------------------------------------------------ var_pob Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- renta_pc -.0001937.0025978-0.07 0.941 -.0054527.0050653 _cons 8.570905 28.76618 0.30 0.767-49.66319 66.805. REGRESIÓN CUANTÍLICA qreg var_pob renta_pc Iteration 1: WLS sum of weighted deviations = 313.11749 Iteration 1: sum of abs. weighted deviations = 300.26033 Iteration 2: sum of abs. weighted deviations = 295.65072 Iteration 3: sum of abs. weighted deviations = 288.26053 Iteration 4: sum of abs. weighted deviations = 287.3096 Iteration 5: sum of abs. weighted deviations = 287.24892 Median regression Number of obs = 40 Raw sum of deviations 348.4169 (about 3.8062935) Min sum of deviations 287.2489 Pseudo R2 = 0.1756 ------------------------------------------------------------------------------ var_pob Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- renta_pc.0047281.001102 4.29 0.000.0024972.006959 _cons -48.34135 12.20507-3.96 0.000-73.04922-23.63347 0 50 0 50 100 100 9000 10000 11000 12000 13000 14000 renta_pc 9000 10000 11000 12000 13000 14000 renta_pc var_pob Fitted values var_pob Fitted values
Regresión cuartílica La regresión cuartílica es otro caso particular de la regresión cuantílica en el que: θ=0,25; y i =x i β 0,25 + u i θ=0,5; y i =x i β 0,50 + u i θ=0,75 y i =x i β 0,75 + u i
Ejemplo 2: Regresión cuartílica ante la presencia de heteroscedasticidad Base de datos: Ingreso y gasto medio mensual de 200 individuos. Consumo y gasto medio mensual 6.000 5.000 Gastos ( ) 4.000 3.000 2.000 1.000 0 0 1.000 2.000 3.000 4.000 5.000 6.000 Ingresos ( )
Paso 1.- Estimar los modelos: gasto i =ingreso i β 0,25 + u i gasto i =ingreso i β 0,50 + u i gasto i =ingreso i β 0,75 + u i Paso 2.- Comprobar que hay diferencias significativas entre cuartiles.
Estimación del modelo para θ=0,25; θ=0,50 y θ=0,75.. sqreg gasto ingreso, q(.25.50.75) (fitting base model) (bootstrapping...) Simultaneous quantile regression Number of obs = 200 bootstrap(20) SEs.25 Pseudo R2 = 0.7072.50 Pseudo R2 = 0.7755.75 Pseudo R2 = 0.8243 ------------------------------------------------------------------------------ Bootstrap gasto Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- q25 ingreso.6205204.0227141 27.32 0.000.5757277.665313 _cons 233.2106 23.56546 9.90 0.000 186.7391 279.6821 -------------+---------------------------------------------------------------- q50 ingreso.7431851.0389875 19.06 0.000.6663011.8200691 _cons 179.2339 36.59756 4.90 0.000 107.0628 251.4049 -------------+---------------------------------------------------------------- q75 ingreso.8626156.0298075 28.94 0.000.8038346.9213966 _cons 103.004 29.64797 3.47 0.001 44.53763 161.4703 ------------------------------------------------------------------------------
Comprobación de que existen diferencias entre cuartiles. iqreg gasto ingreso, q(.25.75) (fitting base model) (bootstrapping...).75-.25 Interquantile regression Number of obs = 200 bootstrap(20) SEs.75 Pseudo R2 = 0.8243.25 Pseudo R2 = 0.7072 ------------------------------------------------------------------------------ Bootstrap gasto Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- ingreso.2420952.0268284 9.02 0.000.1891892.2950013 _cons -130.2067 21.62142-6.02 0.000-172.8445-87.56885 ------------------------------------------------------------------------------. test [q25]ingreso=[q75]ingreso ( 1) [q25]ingreso - [q75]ingreso = 0 F( 1, 198) = 66.81 Prob > F = 0.0000
Conclusión La minimización de las desviaciones en valor absoluto en lugar de al cuadrado (MCO), hace que la regresión cuantílica sea especialmente útil ante la presencia de atípicos, heteroscedasticidad o cambio estructural.