Regresión Cuantílica o Quantile Regression

Regresón Cuantílca o Quantle Regresson A. Cameron and P. rved, (005), Macroeconometrcs, Methods and Applcatons, Cambrdge Unversty Press. R. Koenker, (005), Quantle Regresson, Econometrc Socety Monographs C. M. Kuan, (004), An Introducton to Quantle Regresson, Insttute of Economcs, Academa Snca, awan. www.snca.edu.tw/as/ssrc/ckuan

Introduccón En general, en estudos empírcos se está nteresado en analzar el comportamento de una varable dependente dada la nformacón contenda en un conjunto de regresores o varables explcatoras. Un enfoque estándar es especfcar un modelo de regresón lneal y estmar sus parámetros no conocdos medante el método OLS o el método LAD. El método OLS estma los parámetros mnmzando la suma de los errores al cuadrado y lleva a una aproxmacón de la funcón meda de la dstrbucón condconal de la varable dependente. El método LAD mnmza la suma de los errores absolutos y conduce a una aproxmacón de la funcón de la medana Condconal. Aunque la meda y la medana son dos meddas de localzacón mportantes que representan el comportamento promedo o la tendenca central de una dstrbucón, cuentan muy poco acerca del comportamento en las colas de la dstrbucón.

El solo análss de los comportamentos de la meda o de la medana condconal no darán el panorama completo del verdadero comportamento subyacente de la dstrbucón Ejemplo: 3

Qué sucede s no solo se está nteresado en la meda? 4

Un nuevo punto en el análss de regresón es el enfoque de regresón por cuantles propuesta por Koenker y Bassett (978) Este enfoque permte estmar dstntas funcones cuantílcas de la dstrbucón condconal, entre ellas la funcón medana como caso especal. Cada funcón cuantílca caracterza un punto partcular de la dstrbucón condconal. Así, combnando dferentes regresones cuantílcas se tene una descrpcón más completa de la dstrbucón condconal subyacente Análss partcularmente útl cuando la dstrbucón condconal no presenta la forma estándar: -asmetría -colas más gruesas -truncamentos 5

Algunas ventajas y desventajas Algunas ventajas: Robustez de los resultados frente a valores atípcos de la varable regresada Efcenca para un conjunto amplo de dstrbucones del error Algunas desventajas: Alto grado de trabajo computaconal En contraste con OLS la funcón objetvo es no dferencable en el orgen y por consguente no puede darse una solucón cerrada No se cuenta aún con un buen desarrollo de la teoría asntótca Un agran cantdad de autores están trabajando en este punto 6

Funcón cuantílca Para cualquer ( 0,) y para cualquer varable aleatora ésmo El cuantl de puede defnrse como: (contínua o dscreta): ξ R ( < ξ ) P( ξ ) P ξ ξ Al menos por cento de la masa de la probabldad de es menor o gual a ξ y por lo menos porcento de la masa de probabldad de es mas alto que http://www.stat.wvu.edu/srs/modules/normal/normal.html ξ 7

al probabldad: Sempre exste Es únca sempre la varable aleatora sea una varable contínua La gualdad sempre se alcanza al ser la varable aleatora contínua Algunas dstrbucones y algunas funcones cuantílcas 8

S es una varable aleatora se defne: CDF P( y) F ( y) QF Q F ( y) nf yf ( y) Funcón contínua a la derecha { } Funcón contínua a la zquerda F Q Q ( 0, ) R Inverso de la de acumulacón R ( 0,) F 9

( 0,), Q Para cualquer nos proporcona el no condconal ésmo cuantl de Algunas propedades nteresantes: Crecente monotónca g funcón contnua a la zquerda ( 0,) P ( Q ) P( g( ) g( Q )) Para una varable aleatora contnua, se defne la funcón de densdad de de probabldad (PDF): ( y) df f ( y) dy De forma smlar, para la funcón cuantílca se tene: dq S Funcón de densdad cuantílca d 0

Algunas fórmulas adconales df ( F ) f F d df d df d f ( F ) dq d f ( F ) Recíproco de la funcón de densdad evaluado en el cuantl de nterés S f ( F )

Cuantles empírcos Sea y, y, L, y n una muestra aleatora su funcón de dstrbucón empírca está defnda por la razón entre el numero de observacones menores o guales al valor de nterés y el número total de observacones: F ( y) # ( y y) De gual manera, se puede defnr la funcón cuantílca empírca como: F ( y) n ( y y) # nf y,0< < n Q Con el propósto de obtener el cuantl deseado: Ordenar la muestra Revsar en que observacón se alcanza el umbral Método para el cálculo de los cuantles Q arg mn y ξ + y ξ { { ξ R y ξ y < ξ Funcón objetvo Funcón de pérdda ponderada

Ejemplo: Evaluacón de la funcón objetvo para una muestra aleatora tomada de una dstrbucón normal estándar para 0. 5 Ordenamento Mnmzacón de la funcón Objetvo en el ntervalo: -0.9487, -0.668757 de las observacones 4 3

Explcacón 4

0.5 Pérdda Funcón compuesta de pérdda Suma derecha Suma zquerda La funcón objetvo es convexa y se puede obtener el ntervalo donde se produce el mínmo. 5

El concepto de ordenar se remplaza por el de optmzar una funcón de pérdda ponderada Ejemplo: En el caso de la meda Defncón: funcón de verfcacón Permte reformular la funcón objetvo ρ S S ( u) u( I( u< 0) ) u< 0 ρ( u) u( ) u 0 ρ ( u) u Donde 0 < < Varable ndcadora 6

Q arg mn ρ( ξ) y ξ R Provee el cuantl deseado ρ Explcacón: ( ) y ξ u ( y ξ ) ( y ξ )( I( y ξ < 0) ) ( y ξ )( I( y < ξ )) ξ ( y ξ ) y ξ negatvo ( y ξ )( ) ( y ξ ) 7

El óptmo de la funcón de pérdda provee el cuantl deseado Valor esperado de la funcón de pérdda: E[ ρ( yξ) ] ( yξ) df( y) ( yξ) df( y) Notacón f ( y) ξ ξ df dy ( y) omando la dervada respecto a ξ se tene: E [ ρ ( yξ )] ξ ( yξ) F( y) ξ ξ ξ ( y) + F( y) F ξ ξ ( yξ) F( y) ξ ( F ( ξ )) + ( + F) 0 + F ξ ( ξ ) + F( ξ ) F( ξ ) Hacendo la dervada gual a cero se tene: F( ξ ) La funcón de pérdda esperada es convexa y se mnmza solo s se tene 8

Regresón cuantílca Una vez estudado el punto de cómo determnar cuantles empírcos, la pregunta que surge es: Como podría ser utlzada esta nueva formulacón en el análss de regresón? Al utlzar un modelo de regresón lneal: y + u,, L, E u 0 E y Donde se supone que [ ] [ ] El vector de parámetros puede estmarse por OLS: arg mn R k y Supóngase y + u,,, L, n El ésmo cuantl del térmno de error condconal a los regresores (No el valor esperado) 0 Q u, Q Q Q u u ( u, ) ( ), ( ) cero 9

0 El cuantl condconal de con respecto a puede ser escrto: ésmo y y Q Reunendo las sguentes ecuacones: { { + < R ξ ξ ξ ξ ξ y y y y Q arg mn R y Q ξ ξ ρ arg mn y Q Para cualquer el vector de parámetros puede ser estmado de la sguente forma: 0, { { + < R mn arg k y y y y R y k ρ mn arg

odas las observacones por encma del hperplano estmado por, es decr, la dferenca absoluta entre y y son ponderadas por y todas las observacones por debajo son ponderadas por. La medana condconal se tene cuando 0. 5 0.5 arg mn 0.5 R y 0. k 5 ésmo El estmador de del cuantl puede ser obtendo mnmzando su contraparte muestral. Es decr, puede entenderse como el promedo ponderado asmétrco de los errores absolutos, con ponderacones sobre errores postvos y sobre los errores negatvos: V ( ; ) y + y : y : y<

Medante la funcón se tene: V ( ; ) ρ ( y ) ρ { } ( y ) y 0 < La condcón de prmer orden de la mnmzacón de V ; es: : 0 { y < 0 } Excepto en y, la dervada no está defnda Resolvendo para se obtene ) el ésmo estmador de regresón cuantílca para Una vez se obtene ), el hperplano de regresón cuantílca y los resduales son estmados: ) ) ) e y

Mentras más regresones cuantílcas se estmen, mejor puede entenderse la forma de la dstrbucón condconal. S la recta de regresón medana dfere de la obtenda a través de OLS (meda) de manera sgnfcatva, la dstrbucón es asmétrca. La dstrbucón condconal es asmétrca a la zquerda s las líneas cuantlcas superores están muy cerca unas de otras en comparacón con las líneas cuantílcas Inferores. En general se puede encontrar que las regresones cuantílcas estmadas dferen entre s a través de los cuantles. Lo cual sugere que las varables explcatvas pueden tener dferentes mpactos sobre la varable dependente. Es decr, el mpacto depende de la localzacón de la dstrbucón condconal. 3

Cálculo del estmador El estmador de la regresón cuantílca no es sencllo de calcular debdo a que la funcón objetvo no es dferencable, por consguente los métodos estándar de optmzacón numérca no son fáclmente aplcables. En la práctca, la estmacón de la regresón cuantílca es usualmente llevada a cabo resolvendo un problema de programacón lneal. + + ( ) k +, j j j + j y e x e e j Donde es el jésmo coefcente de tal que: ( j ) ( j ) mn,0 j + j max,0 parte postva parte negatva + j j j 4

e e e + De gual forma, se tene t t t e + Sea e + El vector Sea e El vector e Z +,, e +, e De dmensones de elementos ( k+ ) [,,, ] x A I I k+ no negatvos De lo anteror se tene la sguente especfcacón no lneal: AZ Donde: + + + ( e e ) { } dmensónx y t dmensónxk t-ésma fla t 5

Se defne: c [ ] 0,0, ι, ι ( ) 0 kdmensonal ι dmensonal La funcón objetvo V ( ; ) cz Mnmzar V ; es equvalente a mnmzar c Z con respecto a, sujeto a las restrccón de que AZ y que Z no contene elementos negatvos. Z Para resolver el problema de programacón lneal Barrodale y Roberts (974) dseñaron un algortmo basado en el método smplex para la estmacón LAD. Este fue extenddo posterormente por Koenker y d Orey (987) para la estmacón cuantílca. (La mplementacón de este procedmento está en Koenker s (004) quantle regresson package for he R Proyect) 6

Comentaros generales En el modelo de regresón cuantílca, para cualquer 0, el cuantl condconal de respecto a la matrz de regresores puede ser calculada como: Q ) arg mn ρ y k R Varando, el método de regresón cuantílca nos permte evaluar la dstrbucón condconal completa de la varable dependente. En contraste con el enfoque de OLS el cual nos provee de un únco valor: la meda condconal La estructura flexble del QR es capaz de detectar algunas formas de comportamento heteroscedástco en los datos, analzando dferentes cuantles. Koenker y Portnoy (999) establecen que en un modelo con regresores, exsten k resduales con valores de cero. La proporcón de resduales negatvos es + aproxmadamente gual a y la proporcón de postvos es k 7

Donde se tene + + + k k, + Negatvos Postvos En OLS se calcula el R como una medda de bondad de ajuste: ( y) ( yy) ( y ) mn mn R mn mn ( yy) Koenker y Machado (999) proponen una medda smlar para la regresón cuantílca: ρ ( mn Q( y) ) mn ρ ( y ) R mn ρ( y Q( y) ) mn ρ( y Q( y) ) Mde el éxto relatvo del modelo de regresón cuantílca. Puede ser nterpretado como una medda de bondad de ajuste local, para un cuantl partcular. 8

Lo que no es concepto erróneo Algunas veces de forma equvocada puede pensarse que la regresón por cuantles puede ser estmada smplemente segmentando en subconjuntos de acuerdo con su dstrbucón no condconal y luego estmar OLS para cada subconjunto. Sesgo de seleccón Hallock, Madalozzo y Rech (003) Resultados equvocados como producto del truncamento de la varable Aun cuando el ajuste concreto en un cuantl condconal está determnado por k puntos, la decsón sobre los k puntos depende de la muestra completa para cualquer cuantl 9

Equvaranza, robustez, efcenca e nterpretacón Koenker y Bassett (978) muestran las sguentes propedades de equvalenca de los coefcentes estmados de la regresón cuantílca:.. 3. 4. ( λy, ) λ ( y, ) λ [ 0, ) ( λy, ) λ ( y, ) λ [ 0, ) k ( y+ γ, ) ( y, ) + γ γ R ( y, A) A ( y, ) A Nosngular. y. establecen que es equvarante en escala. S la varable dependente es reescalada por el factor λ es reescalada en la msma proporcón. 3. Se conoce como propedad de localzacón o regresón equvarante: s es la solucón de y, + es la solucón de ( y * *, ) dondey y+ γ γ 4. Equvaranza de reparametrzacón de la matrz de dseño. La transformacón de está dada por la nversa de la matrz de transformacón de 30

Las propedades. - 4. son compartdas por el estmador OLS El estmado QR dsfruta de otra propedad de equvaranza, la cual es más fuerte que las anterores: 5. Q ( h( y) ) hq ( y) con h() enr Es decr, los cuantles condconales son equvarantes frente a transformacones no decrecentes sobre la varable dependente. La meda condconal no comparte tal propedad: Eh( y) [ ] h( E[ y] ) 6. Otra propedad de la regresón cuantílca es la robustez frente a valores atípcos o extremos de la varable dependente. Una vez fjado el hperplano cuantílco condconal, cualquer observacón por encma del plano puede ser arbtraramente grande o cualquera por debajo muy pequeña sn alterar la solucón establecda. 3

Dervadas En OLS los coefcentes de regresón se nterpretan como dervadas parcales del valor esperado de y [ y] E k k En regresón cuantílca la nterpretacón es smlar, k Q ( y) k Responde a la pregunta sobre Cómo reaccona el ésmo cuantl condconal de y ante cambos en k Ejemplo: Q ( log( y) ) Q ( log( y) ) k e, k 3

Normaldad asntótca Resultados asntótcos e Inferenca Cuantles muestrales Q arg mn ρ( ξ) y ξ R Cuantl muestral undmensonal La ley de los grandes números establece que la funcón de dstrbucón empírca de una v.a undmensonal converge unformemente en probabldad a la verdadera funcón de dstrbucón. ( Q ξ ) N( 0, ω ) ω fy ( ξ) S y El espacamento de los datos en un cuantl específco determna la precsón del valor estmado 33

34 Regresón lneal cuantílca Λ 0, ~ 0, N JH H N J lm y Q f H lm S los errores se suponen, la prmera ecuacón se smplfca de la sguente manera: d 0, J F f N sendo lm J

Dstrbucón asntótca conjunta ζ k, L, ( ) Sea ζ m (, L, ) Su valor estmado m m estmadores de regresón cuantílca La dstrbucón asntótca conjunta de éstos m vectores de coefcentes estmados está dada por: Ω J H ( ζ ) N( 0, Ω) ( w ) ( mn(, ) ) H JH ζ j lm lm f j ( Q ( y )) j j 35

Estmacón del espacamento (Sparcty) Resduales d Bajo el supuesto de errores d ( ) N 0, J f ( F ) Para llevar a cabo cualquer proceso de nferenca se debe estmar el cuadrado del recíproco de la densdad f( F ) Sabemos que S S F S f ( F ) Q F ( + h ) F ( h ) h Estmacón de la funcón cuantílca Ancho de banda Cocente en dferenca de la funcón cuantílca empírca 36

La pregunta que surge es Cómo selecconar de forma adecuada el parámetro de ancho de banda? Bofnger (975) h S / 5 4. 5 S 5 Mnmza el error medo cuadrátco en condcones regulares def Dado que S no es muy sensble a F, se puede calcular h para S algunas dstrbucones. En general S S f ( φ( Φ ) + ( ( Φ ) ) 5 f + f f 4 /5 4.5 h Consderando f φ f f f Dstrbucón normal: f f ( F ) Φ Dado que la dstrbucón gaussana es smétrca, es smlar en y en h 37

El ancho de banda es más pequeño en la medda en que o aumentan. Este últmo alejándose por encma o por debajo de 0.5 Hall Sheather (988) /3 3. 5 S Zα S 3 h donde Z Φ α α Dstrbucón normal h /3 3 Z α.5 ( φ( Φ ) + ( Φ ) 3 Una tercera y más smple alternatva es propuesta por Buchnsky (99) h Z α Chamberlan 38

Ancho de Banda amaño de la muestra Ancho de Banda Hall- Sheather Bofnger : 0.5 0.75 0.95 amaño de muestra 39

Ancho de Banda - Bofnger Ancho de Banda Hall- Sheather α 0.0 α 0. Chamberlan α 0.0 α 0. 500 40

4 Una vez determnado el ancho de banda nos centramos en la pregunta de cómo calcular la funcón cuantílca empírca: F Q h h F h F S + Enfoque sencllo:. omar los resduales de la regresón cuantílca fjada para un cuantl selecconado * y u,,, * L. Ordenamento de resduales u,, : L 3. Estmacón de la funcón cuantílca empírca Estadístca de orden u F, 4. Estmacón lneal a trozos + + +,, 0, ~ u j j u u u F j j λ λ,,, + j j L λ

4 Otro enfoque fue el presentado por Bassett y Koenker (98): F En resumen: h h F h F S + u F, + + +,, 0, ~ u j j u u u F j j λ λ 5 5 / 5 4. S S h 3 3 /3 5. α S S Z h α Z h

Espacamento estmado para una muestra aleatora para 500 valores de la Dstrbucón normal estándar Sparcty Bofnger Hall- Sheather Chamberlan 43

Bootstrappng Exsten dversas propuestas para estmar la funcón de espacamento y muchas de ellas se basan en técncas de resamplng o bootstrappng (Efron (979)). Exsten dferentes mplementacones del procedmento de bootstrap. Resduales bootstrap sugerda por Efron (98) Regresón no lneal en la medana Una adaptacón para el caso de regresón cuantílca fue desarrolado por Hahn (995). Establecer el modelo de regresón cuantílca y obtenga sus resduales: u y,, L,. Extraer una muestra con reemplazamento de tamaño de la dstrbucón empírca estmada de los resduales ( resdual bootstrappng): u Lu * *,,,, 3. Calcular: y + u * *, 44

45 4. Determnar el coefcente bootstrap de regresón cuantílca: ρ * * mn arg y k R 5. Repetr el proceso veces hasta alcanzar: B *, *,,, B L 6. Construr la matrz de var-cov asntótca de la sguente manera: *, *, Λ b B b b B

Resduales no d En la ecuacón ( ) N( 0, H JH ) ~ N( 0, Λ ) La varanza asntótca de los coefcentes estmados de la regresón cuantílca presenta dferentes densdad en cada observacón. La prmera propuesta es la de Hendrcks y Koenker (99):. estmar la funcón de densdad para cada observacón : f ( Q ( y )) h ( ) + h h H Debe ser estmada completa. Es decr, para cada observacón. Los valores obtendos son ncludos en H, en caso de que el denomnador no sea Postvo se debe hacer la sguente correccón: f + ( Q ( y )) max 0, h con ε > 0 ( ) + h h ε 46

47 La segunda propuesta es la de Powell (986-99): :,, K y u h u K h H Funcón Kernel Bootstrappng En el caso en que el térmno de error sea ndependente aunque no dentcamente dstrbudo se puede llevara cabo un bootstrap de la matrz de dseño que provee una alternatva de los resduales. Muestrear de la dstrbucón empírca conjunta: y,. Determnar para el conjunto de duplas selecconadas: * 3. Llevar a cabo el procedmento veces y construr luego la matrz de var-cov: B *, *, Λ b B b b B

Procedmentos de prueba Se han revsado dferentes formas de estmar la matrz de varanza asntótca de los coefcentes estmados de regresón, se presentan a contnuacón algunas pruebas basadas en dcha matrz. Prueba de Wald Consdere el sguente modelo de regresón cuantílca: Con la sguente hpótess lneal: y + u, H : R 0 r Koenker y Bassett (98) proponen el sguente test estadístco para verfcar la valdez de la hpótess nula: w ( R r)( RΛ R ) ( R r) ~ χ ( r) 48

est de Razón de Verosmltud Sea V el valor de la funcón objetvo en el mnmzador no restrngdo: ( ) V argmn ρ y k R Sea V ~ el valor de la funcón objetvo en el ~ mnmzador restrngdo: ( y ) V ~ arg mn ρ k R R r Koenker y Machado (99) muestran que bajo errores d : L ( V ~ V ) S ~ χ ( R) 49