1.Variables ficticias en el modelo de regresión: ejemplos.

J.M.Arranz y M.M. Zamora.Varables fctcas en el modelo de regresón: ejemplos. Las varables fctcas recogen los efectos dferencales que se producen en el comportamento de los agentes económcos debdo a dferentes causas como las sguentes: De tpo temporal: Para recoger efectos dferentes en funcón del tempo en que se producen las observacones de las varables (por ejemplo, consumo en perodos de guerra o paz). De carácter espacal: Para tener en cuenta la pertenenca o no de la observacón a una determnada zona (por ejemplo, consumo en zonas rurales o urbanas). De tpo cualtatvo: Para recoger los efectos de varables cualtatvas como el género, el estado cvl, tener o no cargas famlares, nvel de educacón, etc. sobre el comportamento de los agentes económcos en decsones de consumo, de oferta de trabajo, etc. Otras causas: Para conocer los efectos que las varables cuanttatvas tenen sobre la varable endógena, dstnguendo por submuestras (por ejemplo, la propensón margnal al consumo de ndvduos de rentas altas o bajas).. Interpretacón de los efectos de las varables explcatvas fctcas: Tpos de modelos. Para nterpretar los efectos de las varables explcatvas fctcas en un modelo de regresón se utlza un ejemplo sencllo. Se supone que tenemos una muestra de ndvduos ocupados y una característca ocupaconal que ndca s el ndvduo es

lcencado o no. A partr de este supuesto se pretende explcar el nvel salaral de los ndvduos y para ello se plantea la sguente regresón: = â X + u () donde es el salaro ndvdual y X es una varable fctca que toma el valor s el ndvduo es lcencado y 0 en caso contraro. En () β mde el salaro esperado de un trabajador no lcencado y β mde la dferenca entre los salaros esperados del trabajador lcencado y no lcencado. Estos efectos de los parámetros se pueden comprobar s se toman esperanzas de la expresón (). Así: â s X = 0 E( ) = () â s X = Exste un test relevante que es contrastar H o :β =0. S se acepta esta hpótess, no hay dferencas salarales entre trabajadores lcencados y aquellos que no lo son. Asmsmo, s se consdera que en lugar de tener una varable de cualfcacón con dos valores dstntos (lcencado o no), se tene que hay trabajadores con tres nveles dferentes de cualfcacón (lcencado, dplomado y no cualfcado) que tenen dferente salaro. Para contrastarlo se plantea la sguente ecuacón: = â X X + u () donde es el salaro ndvdual; X es una varable fctca que toma el valor s el ndvduo es lcencado, 0 en caso contraro; y X toma el valor s el ndvduo es dplomado, 0 en caso contraro. Tomando valores esperados del salaro en la expresón ():

â s X = 0 y X = 0 E ( ) = â s X = y X = 0 (4) â s X = 0 y X = donde β mde el salaro esperado de un trabajador no cualfcado; β mde la dferenca entre el salaro esperado de un trabajador lcencado y no cualfcado; y β la dferenca entre el salaro esperado de un trabajador dplomado y no cualfcado. Nuevamente, exsten contrastes relevantes. Por ejemplo, s se contrasta H o :β =0 y se acepta la hpótess, no hay dferencas entre los salaros medos de los trabajadores lcencados y no cualfcados. Tampoco habría dferencas salarales entre los trabajadores dplomados y no cualfcados s se acepta la hpótess H o :β =0. Fnalmente, se podría contrastar s hay dferencas entre los salaros medos de los trabajadores lcencados y dplomados a partr de la expresón (). En este caso se podría plantear un test F para la hpótess nula H o :β =β. Sn embargo, operando con las varables fctcas del modelo se puede realzar un contraste más sencllo medante la dstrbucón t. S se escrbe el modelo de regresón () como: = γ + γ X + γ (X + X ) + u (5) Cuando se ntroducen varables fctcas en un modelo de regresón y el atrbuto está compuesto de m alternatvas, se deben nclur m- varables fctcas. De lo contraro, se produce un problema de multcolnealdad perfecta conocdo como trampa de las varables fctcas en el modelo a no ser que se excluya la constante cuando se ncluyen m varables cualtatvas.

estando, X y X defndas como antes, y expresando el valor esperado del salaro como: ã s X = 0 y X = 0 E( ) = ã + ã + ã s X = y X = 0 (6) ã + ã s X = 0 y X = Entonces, el contraste se puede realzar sobre la hpótess H o :γ =0 medante un t rato. Los modelos planteados hasta ahora son muy sencllos, y pueden ser poco realstas porque no ncluyen otras varables que nfluyen sobre los salaros de los trabajadores. S se tene nformacón no solo de los salaros y el nvel de cualfcacón sno tambén de otras varable como la edad, los años de experenca, el sector de actvdad, etc., la ncorporacón de esas varables se realzaría sn nnguna dfcultad. Así, se puede plantear un modelo como: = â X + ãz + u (7) donde X ndca s el trabajador es cualfcado o no y Z es el número de años de antgüedad en la empresa del trabajador. La expresón (7) se denomna modelos de varables fctcas de tpo I. En este modelo la cualfcacón sólo afecta a la constante u ordenada en el orgen. De forma que los salaros medos para los trabajadores se expresarían como: â + ãe(z ) s se trata de un trabaja dor cualfc. E ( ) = (8) â + ãe(z ) s se trata de un trabaja dor no cualfc. Podría darse el caso que la cualfcacón tuvera efectos sobre los pagos que por antgüedad tenen los trabajadores. Así, el modelo de varables fctcas tpo II recogería estos hechos

= â + ãz + ϕ (Z X ) + u (9) los salaros esperados serían: â E( ) = â + (ã + ϕ)e(z + ãe(z ) s se trata de un trabaja dor cualfc. ) s se trata de un trabaja dor no cualfc. (0) El modelo de varables fctcas tpo III no sólo presenta dferencas en la ordenada en el orgen como en el de tpo I o cambos en la pendente como en el de tpo II. Sno tambén recoge efectos de la cualfcacón en los salaros medos, como efectos de nteraccón con la experenca del trabajador. = â + β X + ãz + ϕ(z X ) + u () donde los valores esperados de los salaros medos de los trabajadores serían: â E( ) = â + ãe(z + (ã + ϕ)e(z ) s se trata de un trabaja dor cualfc. ) s se trata de un trabaja dor no cualfc. () Incluso se podrían plantear regresones separadas para cada submuestra, cualfcados y no cualfcados, y verfcar s exsten dferencas. De esta forma se evta la ntroduccón de una varable fctca que aproxme la característca por nveles de cualfcacón. Las dos regresones se pueden expresar de la sguente manera: Grupo de cualfcados: = α + α Z + u c c c Grupo de no cualfcados: = ë + ë Z + u (b) nc nc nc Hacendo el supuesto de gualdad de varanzas entre los dos grupos, la dferenca entre los coefcentes correspondentes al térmno ndependente de las regresones (b) concde con el coefcente β de la regresón (8). Además, la 4

dferenca entre los coefcentes correspondentes a la pendente es gual a los coefcentes asocados a las nteraccones de la varable fctca cualfcacón con la varable explcatva número de años de antgüedad en la empresa del trabajador, es decr, α -λ =ϕ en (9), etc. Estas gualdades segurán sendo valdas s susttumos los coefcentes por sus correspondentes estmadores. Sn embargo, al separar la muestra total en dos grupos, la estmacón de la varanza de las perturbacones dfere de un grupo a otro, y, por tanto, las desvacones típcas estmadas de los dstntos coefcentes vararán de utlzar la ecuacón (9) a realzar su estmacón con las ecuacones (b). Esto provoca dferencas en los valores de los estadístcos t correspondentes a los coefcentes estmados entre las ecuacones (9) y (b). Por tanto, la eleccón entre (9) y (b) debe tenerse en cuenta s la prncpal motvacón del estudo es conocer cómo afectan de forma dferente el número de años de antgüedad al caso de los ndvduos cualfcados y no cualfcados, o ben smplemente, la cuantía de esta dferenca. En el prmer caso se utlzará la estmacón por grupos, ecuacón (b), mentras que en el segundo caso se puede utlzar la ecuacón (9) para todas las observacones conjuntamente. Fnalmente, se va consderar la utldad de las varables fctcas para desestaconalzar una sere temporal. Al estudar la evolucón temporal de cualquer magntud económca utlzando un conjunto de varables explcatvas, es convenente tener en cuenta las varacones que se producen como consecuenca del fenómeno de la estaconaldad. La estaconaldad es una varacón de la sere de perodcdad nferor a un año. Los fenómenos estaconales son de carácter cultural o nsttuconal, y no están en prncpo, relaconados con nngún factor estrctamente económco. Ejemplo de utldad de las varables fctcas para el tratamento de la estaconaldad. 5

Consderemos por ejemplo el Índce de Produccón Industral en España (IPI). Este ndcador sufre una caída espectacular durante el mes de Agosto debdo a las vacacones de verano. Tambén, sufre otra más pequeña en el mes de Dcembre por las festas de Navdad. S el objetvo es estudar predccones para el IPI medante una sere trmestral, la cartera de peddos (P) se ncluye al ser un factor que antcpa las varacones del IPI, además de tres varables fctcas d,d,d, donde d toma el valor se la observacón t-ésma se produce en el segundo trmestre, 0 en caso contraro; d toma el valor s la observacón t-ésma se corresponde al tercer trmestre, 0 en caso contraro; d toma el valor s la observacón t-ésma corresponde al cuarto trmestre, 0 en caso contraro. El modelo sería: IPI t = á + á P + á d + á d + á d + t 4 5 u t Donde α,α 4,α 5 mden el efecto estaconal dferencal con respecto al prmer trmestre, que es la categoría de referenca. Un supuesto mplícto en esta forma de cuantfcar la estaconaldad es que ésta no varía de un año a otro.. Varables endógenas cualtatvas y tratamento: modelos de probabldad lneal, probt y logt. En este apartado se plantean tres modelos dferentes para el tratamento de varables endógenas cualtatvas bnaras. S se toma el ejemplo que trata de estudar la partcpacón o no en el mercado de trabajo de la mujer en funcón de varables como el número de hjos, el salaro del mardo, el nvel educatvo o, la edad, etc. la varable dependente tene naturaleza dcotómca. En otras palabras tene dos opcones: partcpar en el mercado de trabajo o no formar parte del 6

msmo. Pasemos prmero a analzar el modelo de probabldad lneal, más tarde el modelo probt y logt.. El modelo de probabldad lneal. Este modelo se puede presentar de la sguente manera: = â X X +... X + u () k k donde toma el valor s se elge la prmera opcón, y 0 en caso contraro; X j (j=,.,k) son varables explcatvas y u es una perturbacón aleatora que cumple las hpótess expuestas para el modelo clásco de regresón. Para nterpretar el modelo expuesto a través de la expresón (), se pueden tomar esperanzas y consderar que la varable dependente toma sólo valores y 0. E( ) = â = P( X = ) + 0 P( X +... = 0) = P( k X = ) k = (4) Los valores predchos para la varable endógena ^` mden la probabldad de que el ndvduo -ésmo elja la prmera opcón (denotada por el valor ), dados los valores de las varables explcatvas X, X, X k para dcho ndvduo. La estmacón de este modelo por mínmos cuadrados ordnaros (MCO) presenta tres nconvenentes que se exponen a contnuacón: En prmer lugar, las perturbacones aleatoras u no sguen una dstrbucón normal. Sno una dstrbucón bnomal. No obstante, la forma de la dstrbucón de u no es problema porque para una muestra grande la dstrbucón bnomal se aproxma a una normal. En segundo lugar, el térmno u es heterocedastco. La heterocedastcdad conlleva problemas de efcenca aunque los estmadores por MCO sean 7

nsesgados y consstentes. Tampoco es un gran nconvenente porque se puede realzar una transformacón adecuada para que la perturbacón aleatora sea homocedastca. En tercer lugar, el mayor nconvenente es que no hay nnguna garantía de que las predccones que el modelo proporcona de estén restrngdas al ntervalo 0 y. Este hecho consttuye un grave problema asocado con el modelo de probabldad lneal.. El modelo probt. Debdo a los nconvenentes manfestados anterormente en el modelo de probabldad lneal, se necesta transformar el modelo orgnal de tal manera que restrnja la predccón de a estar dentro del ntervalo (0,). Esto requere trasladar los valores que pertenecen a una recta real a un ntervalo, de manera que mantengan las propedades de un modelo de regresón. Para ello, es necesaro utlzar para E( )= P una funcón de dstrbucón de probabldad que se escrba como: P = F(â X X +... â X ) (5) + k k Bajo el supuesto de transformacón del modelo utlzando una funcón de dstrbucón de probabldad unforme, se obtene la versón restrngda del modelo de probabldad lneal. No obstante, entre las muchas alternatvas para F(.) en (5), las más comunes son la dstrbucón normal (modelo probt) y la logístca (modelo logt). Para comprender el funconamento del modelo, se supone que exste una varable contnua latente (no observada) que es funcón lneal de las varables explcatvas: 8

= â X X +... X + u (6) * k k Las observacones de * no están dsponbles. Estos datos solo se conocen s las observacones ndvduales están en una categoría (valores altos de * ) o en otra (valores bajos de * ). De esta forma se puede expresar la probabldad de observar los valores altos de * como: P = P( = F = ) = P[ u > (â X X +... kxk )] [ (â X X +... X )] = F(z ) k k = (7) sendo z = â X X +... â X ). ( + k k Tambén, se puede calcular la Pr ( =0) medante el complementaro al suceso anteror F(-z )).Además, como u está dstrbuda como una normal, y por tanto, tambén lo está z, las probabldades en (7) se pueden calcular medante la expresón: P = F(z )= ð z e t z dt que se corresponde con la funcón de dstrbucón de la normal estándar.. El modelo logt. S se supone que la dstrbucón de F(.) en (5) es la logístca, tenemos el modelo logt. La expresón de la funcón logístca es: P = F(z ) = z + e (8) 9

sendo e la base del logartmo natural. En realdad, el modelo logt puede estmarse medante el procedmento de MCO. De forma que: -z e = - P P y tomando logartmos naturales queda: P Ln = á X +... + P â k X k (9) S se dspone de datos apropados, es decr de frecuencas para cada ndvduo, el modelo expresado en (9) se estma por MCO sn dfcultad. Sn embargo, la estmacón del modelo logt y probt se realza normalmente por el procedmento máxmo verosíml. 0