I F ESTUDIOS FISCALES INSTITUTO DE TÉCNICAS DE EVALUACIÓN DE IMPACTO: PROPENSITY SCORE MATCHING Y APLICACIONES PRÁCTICAS CON STATA

Transcripción

1 TÉCNICAS DE EVALUACIÓN DE IMPACTO: PROPENSITY SCORE MATCHING Y APLICACIONES PRÁCTICAS CON STATA Autora: Magdalena Rodríguez Coma Instituto de Estudios Fiscales DOC. n. o 2/2012 N.I.P.O.: INSTITUTO DE I F ESTUDIOS FISCALES

2 N.B.: Las opiniones expresadas en este documento son de la exclusiva responsabilidad de los autores, pudiendo no coincidir con las del Instituto de Estudios Fiscales. Edita: Instituto de Estudios Fiscales I.S.S.N.: Depósito Legal: M

3 ÍNDICE 11. INTRODUCCIÓN 12. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES 13. IMPORTANCIA DE LOS DISEÑOS CUASI-EXPERIMENTALES EN LA EVALUACIÓN 14. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES 15. EL PROBLEMA DE LA DIMENSIONALIDAD 16. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN 17. PROPENSITY SCORE MATCHING (PSM) 18. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE INDEPENDENCIA CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM 19. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN. CÁLCULO DEL PROPENSITY SCORE (PS) CON STATA 10. DIFERENTES ALGORITMOS DE MATCHING 11. ESTIMACIÓN DEL CONTRAFACTUAL, EVALUACIÓN DE RESULTADOS Y ESTIMACIÓN DE ERRORES CON STATA Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en el método del vecino mas cercano (Nearest Neighbor Matching) Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching con estratificación (Becker & Ichino) Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en Kernel Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Radius Matching Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del tratamiento Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando el PSMATH2 (autores Edwin Leuven y B) 12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS RESULTADOS Sensibilidad a los algoritmos de Matching Sensibilidad a la especificación del modelo de participación 13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES 14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS 15. CONCLUSIONES ANEXOS Anexo 1. Software libre y alternativas comerciales a STATA para implementar métodos de Matching y PS 3

4 Anexo 2. Direcciones útiles en Internet Anexo 3. Glosario Anexo 4. Documentación adicional REFERENCIAS BIBLIOGRAFICAS 4

5 Instituto de Estudios Fiscales 1. INTRODUCCIÓN El uso de técnicas micro econométricas para estimar los efectos las políticas de desarrollo se ha convertido en un enfoque común, no sólo para los estudiosos, sino también para los responsables políticos involucrados en el diseño, implantación y evaluación de proyectos en diferentes campos. Desde el punto de vista académico, la mayor parte de los estudios de evaluación publicados son cuasiexperimentales y se basan en la aplicación de estas técnicas a la información proporcionada por importantes fuentes de datos secundarias 1. Entre estas técnicas cuasi-experimentales, el Propensity Score Matching (PSM) se aplica cada vez más en la comunidad de evaluación de políticas. En este trabajo se proporciona una guía de los aspectos clave para utilizar la metodología de PSM, con aplicaciones prácticas y ejemplos utilizando el programa STATA. Este documento ha sido elaborado con fines docentes. Dirigido a los alumnos asistentes al III CURSO DE EVALUACIÓN DE POLÍTICAS PÚBLICAS Y PROGRAMAS PRESUPUESTARIOS celebrado en el Instituto de Estudios Fiscales, en Madrid del 3 al 28 de octubre de 2011, puede ser útil a profesionales interesados en la comprensión de la aplicación de estas técnicas a determinados problemas de evaluación. La unidad didáctica resume las condiciones básicas para que el PSM se pueda utilizar para evaluar el impacto de un programa y también las fuentes de datos necesaria. Se explica de qué modo, en base al supuesto de independencia condicional junto con la hipótesis de soporte común, puede reducirse el sesgo de selección cuando la participación en un programa se determina a través de un modelo de participación especificado con variables que miden características observables. Se contemplan los principales aspectos técnicos de forma sencilla, abordándolos desde una perspectiva conceptual, que permita la comprensión de la metodología y su aplicación al trabajo empírico. También se describen diferentes algoritmos de matching y algunos test para evaluar la calidad de los resultados, ilustrando la importancia de realizar siempre un análisis de sensibilidad de las estimaciones que proporcione mayor credibilidad a las evaluaciones de impacto realizadas. La inclusión de ejemplos basados en estudios de casos, se refieren a investigaciones realizadas con registros administrativos procedentes de un programa social (IMI) que proporciona rentas a los más desfavorecidos, combinadas con programas de ayuda a la reinserción laboral 2 y pretende facilitar a los alumnos la aplicación práctica con software y datos reales. Estos ejemplos, realizados con STATA 3, abarcan evaluación de efectos directos, indirectos y también evaluación de una matriz de decisión en un contexto de tratamientos múltiples. Se dedica 4 un apartado al software libre para tratar métodos de matching y PSM y alternativas comerciales de otros programas econométricos a STATA, con objeto de presentar a los lectores una panorámica más completa de las posibilidades analíticas que les permita adoptar las decisiones adecuadas en cada caso. También se presenta un glosario 5 con una breve descripción de los conceptos fundamentales de esta metodología. El apartado de referencias bibliográficas abarca referencias fundamentales 6, manuales del Banco Mundial y Banco Inter-americano de Desarrollo 7, referencias para aplicaciones con STATA 8 y estudios empíricos. 1 A estos efectos, es interesante consultar Social Experimentation, Program Evaluation, and Public Policy (2009), volumen que contiene una colección de los mejores artículos de experimentos sociales y evaluación de programas que han aparecido en Journal of Policy Analysis and Management (JPAM). 2 Estudios realizados por Ayala y Rodríguez (2006, 2007, 2010a, 2010b, 2011). 3 En el III Curso de Evaluación de Políticas Públicas y Programas Presupuestarios se dedican varias sesiones a formación en STATA. En un excelente manual sobre evaluación de impacto como es el de Shahidur R. Khandker, Gayatri B. Koolwal, Hussain Samad (2009) se incluyen todos los ejemplos con STATA. 4 Véase Anexo 1. 5 Los términos que aparecen en el texto en cursiva se incluyen en el glosario del Anexo 3 6 Caliendo, M. and Kopeinig, S. ( 2005); Dehejia, R. (2005); Dehejia, R.H. and Wahba, S. (2002); Heckman, J.;, Ichimura, H. and Todd, P. (1998); Heckman, James J.; LaLonde, Robert and Smith, Jeffrey (1999).; Imbens, G.W. (2004); Jalan, J. and Ravallion, M. (2003); Rosenbaum, P. and Rubin, D. (1983); Smith, J. and Todd, P. (2005). 7 Shahidur R.K. et al. (2009); Gertler, P.J. et al. (2011); Baker Judy L. (2000); Heinrich C. et al. (2010). 8 Abadie, A., D. et al. (2004); Becker, S.O. & Caliendo, M. (2007); Becker, S., &. Ichino, A. (2002); Nannicini, T. (2007). 5

6 2. EVALUACIÓN DE IMPACTO. ESPECIAL REFERENCIA A PROGRAMAS SOCIALES En todas las actividades de evaluación de programas es de interés fundamental conocer si una intervención concreta, tal y como ha sido diseñada, es eficaz en el logro de sus objetivos principales. Una intervención bien diseñada (o "tratamiento") generalmente se basa en la teoría y la evidencia empírica, articulada en torno a los mecanismos de intervención del colectivo implicado en el proyecto, que en la práctica suele ser complejo e interdisciplinar, para lograr sus objetivos y producir los resultados deseados. El principal reto de la evaluación de impacto, para que sea creíble, es la construcción de la hipótesis resultado, es decir, lo que habría sucedido a los participantes en ausencia de tratamiento. Este fenómeno es inobservable por su propia definición, es lo que se denomina resultado contrafactual, y tiene que ser estimado utilizando métodos estadísticos dado que no se puede observar. La evaluación experimental, en la que la asignación al tratamiento (o la participación en el programa) es aleatoria, se utiliza en la evaluación de las intervenciones debido a sus ventajas estadísticas en la identificación de los impactos del programa. Cuando existe una asignación aleatoria de los participantes a un programa, los grupos de participante y no participantes son comparables a efectos de resultados medibles u objetivos definidos por indicadores. La aleatoriedad asegura que los grupos son comparables. Un tema muy relacionado como es el de la causalidad, que está en el fondo de todos los debates sobre evaluación, tiene enfoques poliédricos en la literatura y de gran complejidad 9. El tema de la causalidad es el núcleo de la evaluación de programas. La pregunta relevante podría ser: Existe alguna actuación deliberada, a veces llamada tratamiento o variable independiente que causa un cambio en determinados resultados o variables dependientes, con una vinculación teórica entre ellos? Desde una perspectiva de evaluación de programas públicos, los tratamientos incluyen programas y políticas de gobierno, legislación e innovaciones de la gestión pública. La asignación aleatoria al tratamiento se considera el estándar de oro (gold standard) en el trabajo de evaluación simplemente porque 10 las unidades asignadas a los grupos tratamiento y control deben ser estadísticamente equivalentes en ambas características: las observables y las no observables. Una asignación aleatoria a los grupos de tratamiento y control permite asegurar que la participación en la intervención es el único factor diferenciador entre las unidades que participan y quienes quedan excluidos del programa, por lo que el grupo de control se puede utilizar para evaluar lo que habría sucedido a los participantes en ausencia de la intervención, sin necesidad de estimar un cortrafactual. Las unidades participantes pueden diferir en características medibles y no medibles. Desde una perspectiva de evaluación, las diferencias medibles (por ejemplo, edad, peso, altura, número de hijos, ingresos, nivel de estudios) no son problemáticas, ya que pueden ser controladas en los análisis estadísticos, si bien puede suponer un esfuerzo considerable recopilar y disponer de los datos. Sin embargo, las diferencias imposibles de medir (por ejemplo, la inteligencia, la motivación, el altruismo) son mucho más problemáticas, porque si están relacionadas con las medidas de resultado, pueden tener grandes efectos sobre las estimaciones de los impactos del programa. Hacer caso omiso de características pertinentes no medidas, normalmente sesga las estimaciones de los impactos del programa. Esta fuente de sesgo se llama sesgo de selección o sesgo de auto-selección si los participantes son voluntarios para el tratamiento. En relación a la evaluación de programas sociales, es interesante investigar la incorporación de medidas activas de empleo en los programas de garantía de rentas. En España el desarrollo relativamente reciente de estas medidas y la dispersión de algunas de estas actuaciones, tanto en el plano territorial como funcional, impide contar con un conjunto de evaluaciones tan extendido como el de otros países. Buena parte de estas iniciativas han surgido al hilo de la creciente asunción de competencias por parte de los gobiernos autonómicos y locales, siendo compleja la sistematización de los logros y los límites. 9 Sobre este tema y más concretamente la inferencia causal en las ciencias sociales pueden resultar de interés los trabajos de M.E.Sobel (1995, 1996, 1998) y Holland(1986). Pearl (2009) presenta una revisión de los más recientes avances en la inferencia causal. Glymour (1986) desarrolla la importancia filosófica del tema. 10 Céteris páribus: método en el que se mantienen constantes todas las variables de una situación, excepto aquella cuya influencia se desea estudiar, permitiendo simplificar el análisis en fenómenos complejos. Expresión que, en economía, facilita la aplicación de modelos abstractos. 6

7 Instituto de Estudios Fiscales No existe en la actualidad una base de datos común de las diferentes experiencias territoriales. Sólo algunas Comunidades Autónomas cuentan con sistemas de registros adecuados para la evaluación 11. Como ejemplo de las posibilidades y límites del uso de este tipo de información, pueden consultarse algunos resultados de las evaluaciones realizadas del programa (IMI) de renta mínima de inserción de la Comunidad Autónoma de Madrid (Ayala y Rodríguez, 2006, 2007, 2011), que utilizando técnicas de evaluación de impacto PSM con información procedente de registros administrativos y de encuestas realizadas a los beneficiarios que pasan por el programa IMI, estudian la movilidad general de los hogares participantes, identificando una serie de características socioeconómicas que determinan una mayor duración en los programas y que deberían ser tenidas en cuenta a la hora de decidir incluir a los beneficiarios en las actividades orientadas al empleo. Las iniciativas que consigan aumentar la empleabilidad de los beneficiarios contribuirán a reducir los procesos de dependencia de las prestaciones. En este sentido conviene resaltar la importancia de evaluar efectos indirectos de los programas que mejoren la empleabilidad, tema en el que se volverá a incidir más adelante. Otra conclusión importante de las evaluaciones realizadas se refiere a que las actividades orientadas al mercado de trabajo reducen la probabilidad de que los hogares vuelvan a los programas o alargan, al menos, el tiempo pasado fuera de los programas en el caso de las reincorporaciones, es decir alargan el tiempo de independencia del programa. También se han investigado los factores que influyen en las reincorporaciones al programa, estudiando los efectos combinados de la longitud del primer episodio en el programa y el tipo de salida la primera vez 12. Los ejemplos que se incluyen en estas páginas como estudios de caso, para realizar las estimaciones del PSM y evaluación de efectos del tratamiento con STATA, proceden de un fichero de micro datos obtenido a partir de las bases de datos utilizadas en estos trabajos. El fichero no contiene la información completa, es un subconjunto de registros y variables con fines docentes que permita realizar en clase ejercicios que ayuden a una mejor comprensión de los conceptos (Fichero PSMDATOS). 3. IMPORTANCIA DE LOS DISEÑOS CUASI EXPERIMENTALES EN LA EVALUACIÓN A pesar de que la asignación aleatoria al tratamiento, que se realiza en la evaluación experimental, es una herramienta extraordinariamente útil para la evaluación, no siempre es factible ni a veces siquiera deseable su utilización. Además de lo costosa que puede resultar obtener la cooperación de los responsables y participantes en el proyecto en estudio que se trata de evaluar, un diseño de asignación aleatoria exige que la planificación, desarrollo e implementación se realice antes del inicio de la intervención. Se trata en estos casos de evaluaciones ex ante. Pocos estudios de evaluación han sido diseñados antes de la ejecución del programa, en estos casos se pueden realizar diseños cuasi- experimentales para evaluar los programas. En algunas situaciones existen consideraciones éticas que no deben ser menospreciadas. Tampoco es irrelevante la complejidad que supone establecer la aleatoriedad en sentido estricto, que en muchas ocasiones resulta muy difícil aplicar en la práctica.. La cuestión está en diseñar un proceso de asignación al azar que no pueda ser socavado por los técnicos del programa, que tienen incentivos para demostrar la efectividad del programa, unidades que quieran poder optar por estar dentro o fuera del tratamiento, o políticos que quieran garantizar que las unidades de tratamiento en sus distritos políticos (bien sean personas, escuelas, hospitales, plantas de tratamiento de agua etc.) son los preferidos. A veces, la aplicación de la aleatoriedad puede requerir la modificación de complicados paquetes de software para asegurar que los solicitantes seleccionados al azar se eligen solamente para formar parte del grupo de tratamiento o el de control. Algunos experimentos han incorporado explícitamente las presiones para socavar el proceso de asignación aleatoria en su diseño inicial 13. La evaluación ex post también tiene ventajas, no exclusivamente de costes. En muchos casos permite aprovechar una información que ya existe, procedente de la gestión y puesta en marcha del pro 11 Es el caso, entre otras, de Navarra, donde el sistema de registros del programa de Renta Básica ha permitido evaluaciones sistemáticas de los resultados de las estrategias de activación. 12 Ayala, L. & Rodríguez, M. (2010) utilizan modelos de duración paramétricos, incluyendo tres dimensiones: la duración del primer episodio, las condiciones macroeconómicas y características socio demográficas. 13 Puede consultarse King et al. (2007). 7

8 grama que no se tiene a priori, con lo que elementos desconocidos del proceso que puedan producir disfunciones es factible que sean tenidos en cuenta introduciéndolos como información adicional que permita una evaluación más realista y certera. A menudo los métodos no experimentales son necesarios para abordar las evaluaciones de forma más global y completa. A través de la aplicación de métodos rigurosos de evaluación no experimental, se puede avanzar de forma notable en la comprensión de la efectividad de las intervenciones sobre los resultados principales de interés Además de proporcionar estimaciones directas de los efectos del programa sobre los resultados relevantes, con estos métodos también se pueden abordar una gran variedad de cuestiones relacionadas y complementarias con los objetivos fundamentales de la intervención, Por ejemplo, si algunas de las intervenciones son más eficaces para determinados grupos particulares ó individuos con características específicas que para otros. Además de permitir conocer los posibles factores que quedan fuera del control de los responsables y pueden influir en los resultados y cómo puede modificarse la intervención para tenerlos en cuenta. En estas páginas se describe el método de evaluación no experimental denominado propensity score matching (PSM), método que se enmarca en el contexto de la estimación no paramétrica. El PSM utiliza la información de un grupo de unidades que no participan en la intervención y tienen características observables similares a los que participan, para identificar lo que habría ocurrido a las unidades participantes en ausencia de la intervención. La clave es buscar y construir un grupo de comparación válido (contrafactual) para calcular la diferencia de los resultados entre los participantes y los no participantes que son similares desde el punto de vista observacional. De esta forma es posible estimar los efectos de la intervención. En los últimos años debido a las facilidades proporcionadas por las mejoras en la capacidad de cálculo, los algoritmos de asociación y el desarrollo de software específico, los métodos que emparejan directamente a los participantes con los no participantes que tienen características similares han sustituido a la regresión como uno de los métodos preferidos para la estimación del impacto de la intervención a partir de datos del grupo de comparación construido con esta técnica. 4. EL PROBLEMA DEL SESGO DE SELECCIÓN AL MEDIR EFECTOS CAUSALES James Heckman introdujo el concepto de sesgo de selección en la econometría moderna. Recibió el Premio Nobel de Economía en 2000 por sus trabajos pioneros en abordar esta problemática 14 y abrió un camino que ha producido una amplia y compleja literatura para corregirlo. Desde entonces, se han desarrollado una variedad de métodos para corregir el sesgo de selección incluyendo el propensity score matching (PSM), el estimador de la doble diferencia (DD) los métodos de variables instrumentales (VI), los enfoques de modelos con efectos fijos (EF), cada uno de ellos con sus propias limitaciones y aplicables sólo en determinadas circunstancias. La idea general del procedimiento PSM es sencilla. En ausencia de un diseño experimental la asignación al tratamiento es con frecuencia no aleatoria, y por lo tanto, los participantes en el tratamiento y los excluidos pueden variar no sólo en cuanto ser o no participantes, sino también en otras características que afecten tanto a la participación como al resultado de interés para la evaluación. Para evitar los sesgos que esto puede generar, los métodos de emparejamiento (matching) tratan de encontrar una unidad no tratada que sea similar" a una unidad participante, lo que permite una estimación del impacto de la intervención como la diferencia entre el resultado de un participante y el caso de comparación emparejado. Calculando la media de todos los participantes y la de los no participantes emparejados, el método proporciona, a través de la diferencia de medias, una estimación del impacto medio del programa para los participantes. El mayor reto en la evaluación de cualquier intervención o programa es obtener una estimación fiable del denominado contrafactual es decir de la situación contraria: Qué habría sido de las unidades participantes si no hubieran participado? Sin una respuesta creíble a esta pregunta, no es posible determinar si la intervención ha influido realmente en los resultados de los participantes o no. Sin 14 Véase Heckman, J.J. (2001). Artículo que además de servir como excelente referencia de los avances de la econometría moderna, incluye una bibliografía muy extensa sobre trabajos de evaluación de impacto con micro datos. 8

9 Instituto de Estudios Fiscales embargo, como su nombre indica, es imposible observar la situación contraria que solamente puede ser estimada. La evaluación del programa se enfrenta por tanto a un problema de falta de datos, ausencia de información suficiente para el investigador, que el estadístico Paul Holland 15 considera el problema fundamental de la inferencia causal: es imposible observar los resultados de la misma unidad en condiciones de tratamiento y al mismo tiempo en condiciones de no recibir el tratamiento (Holland 1986), no es factible observar al individuo que está en un programa y al mismo tiempo no está. En principio, una posible solución a este problema consiste en calcular un resultado hipotético basado en un grupo de no participantes y calcular el impacto de la intervención como la diferencia en el resultado medio entre los grupos: diferencia de medias entre el grupo de tratados y no tratados. Sin embargo, este planteamiento sólo es válido en una situación muy precisa: el grupo de comparación debe ser estadísticamente equivalente al grupo tratado. En otras palabras, los grupos deben ser idénticos, excepto por el hecho de que uno de ellos recibió el tratamiento. Por lo tanto, la principal preocupación es cómo encontrar un grupo de comparación adecuado. Sin tener un grupo de comparación válido, no es posible atribuir al programa la causa de los efectos que se tratan de evaluar. Cuando existe sesgo de selección porque no existe una asignación aleatoria de los participantes a un programa, los grupos de participante y no participantes no son comparables a efectos de resultados medibles u objetivos definidos por indicadores. La ausencia de aleatoriedad genera sesgos dado que los grupos no son comparables. Para eliminar o corregir estos sesgos, es preciso construir un grupo de comparación válido acudiendo a técnicas cuasi experimentales como el PSM. Con carácter general, los estudios cuasi-experimentales y no experimentales que tratan de corregir estadísticamente el sesgo de selección, suelen tener mayor credibilidad que los estudios en los que se ignora por completo el sesgo de selección. 5. EL PROBLEMA DE LA DIMENSIONALIDAD Uno de los temas críticos en la aplicación de técnicas de matching es definir claramente y justificar lo que significa "similar". Aunque puede ser relativamente sencillo asignar una unidad de comparación basada en una única característica observable, en la práctica, para que el proceso de matching logre eliminar el sesgo potencial, tiene que hacerse considerando una amplia gama de variables observables y observadas en las que las unidades de tratamiento y de comparación pueden variar. Lo que introduce el denominado problema de la dimensionalidad. Con las técnicas de matching se pretende emparejar cada unidad participante en el programa (tratada) con una o varias unidades similares, en términos de variables observadas X, no participantes (sin tratamiento). Cuando X es una única variable, p. ej. La edad, el concepto similar es claro: la misma edad o la más próxima posible. Cuando hay dos variables p. ej. Edad y nivel educativo (NE) el concepto ya no resulta tan obvio. Al comparar el Caso-1 (35 años, NE4) con el Caso-2 (36 años, NE1) y el Caso-3 (50 años, NE4) Cuál de ellos es similar al Caso-1? El Caso-2 es más próximo al Caso-1 en edad, pero el Caso-3 lo es en nivel de estudios. Cuando se trabaja con múltiples variables X, no está definida con claridad la idea de proximidad. Rosembaum y Rubin resolvieron este problema proponiendo el cálculo de una medida única el propensity score (PS), probabilidad estimada de participación en el programa mediante un modelo probit o logit 16 con variables explicativas X 17. Los resultados de Rosembaum y Rubin forman la base teórica del propensity score matching (PSM): la probabilidad de participación en un programa estimada a través del PS resume toda la información relevante contenida en las variables X. La idea de proximidad en PS se define con claridad proporcionando una solución excelente al problema, cuya mayor 15 Véase Holland (1986). 16 Modelos estadísticos que generalizan los modelos lineales clásicos, son modelos con heterocedasticidad, que estiman los parámetros por el método de máxima verosimilitud. Toda la formalización teórica puede verse en Mc Cullach, P. & Nelder, J.A. (1983). 17 Véase Rosenbaum, P.R. and Rubin, D.B. (1983). 9

10 ventaja consiste en la reducción de la dimensionalidad, que permite emparejar por una única variable (PS) en lugar de un conjunto completo de variables observadas X. 6. FUENTES DE INFORMACIÓN PARA LA EVALUACIÓN Mientras que los experimentos aleatorios suelen exigir una recogida de datos original, la gran mayoría de las evaluaciones cuasi-experimentales utilizan datos secundarios previamente recogidos en las estadísticas oficiales del país de que se trate, censos y encuestas y también registros administrativos del estado, comunidad autónoma, provincia o ciudad, en función del ámbito territorial de la evaluación y otras fuentes similares. Al tratarse de evaluaciones ex post, permiten utilizar la propia información generada en la puesta en marcha del programa que se trata de evaluar y la de la gestión de las prestaciones que contempla el mismo. En este sentido, disminuye los costes de la evaluación, y permite aprovechar la información disponible con otros fines, aunque debe tenerse en cuenta la gran cantidad de transformaciones necesarias para convertir registros administrativos en bases de datos utilizables en la evaluación empírica 18. Los datos necesarios para el PSM han de permitir que se cumpla el supuesto de independencia condicional, es decir que una vez controladas todas las características observadas relevantes, las unidades de comparación deberían tener, en promedio, el mismo resultado que las unidades de tratamiento hubieran tenido en ausencia de la intervención. Esto exige trabajar con micro datos para estimar el modelo de participación y no suele ser suficiente disponer de datos agregados. La mayoría de los estudios de evaluación publicados son cuasi-experimentales y se basan en importantes fuentes de datos secundarias 19. Dado que, en muchos casos, el investigador no sabe con precisión los criterios que determinan la participación en el programa, es conveniente controlar todas las variables que se sospecha que influyen en la selección para participar en el tratamiento, aunque debe tenerse en consideración que el control de muchas variables puede generar problemas con el cumplimiento de la hipótesis de soporte común y esta es tan fundamental como la anterior para caracterizar correctamente el PSM. Como resultado de ello, el investigador debe tener acceso a un gran número de variables con suficiente calidad para realizar las estimaciones. La investigación empírica realizada en evaluación de impacto ex post, ha mostrado que también es importante que los datos de las unidades de tratamiento y los de las unidades de control procedan de las mismas fuentes, con los mismos instrumentos de recogida, mismas unidades de medida y mismas definiciones. En los casos en que los datos sobre las unidades de tratamiento y las unidades de comparación se derivan de diferentes fuentes, es fundamental tratar de evitar que las variables se construyan de la misma forma (por ejemplo, con los mismos sistemas de codificación, si hay evidencia de lo contrario). Es muy importante dar un tratamiento similar a los valores missing para las unidades tratadas y no tratadas. A pesar de que los datos siempre tienen errores y esto es un problema potencial, el sesgo en las estimaciones de impacto puede ser relativamente pequeño si los datos de tratados y no tratados tienen la misma estructura de error debido al uso del mismo sistema de imputaciones. Por el contrario, si existen diferencias sistemáticas en la forma en que se trataron los errores, en particular las medidas de los indicadores de resultado, incluso pequeñas diferencias pueden inducir importantes sesgos en las estimaciones de impacto. Es conveniente que los datos estén tomados en el mismo momento de tiempo en lugar de que exista un desfase temporal que provoque alteraciones importantes en los conceptos, definiciones, sistemas de codificación etc., a efectos de validez de la comparación. Todas estas consideraciones sobre las exigencias de los datos hacen que sean tan limitativos como la propia hipótesis de independencia condicional para poder llevar a cabo una evaluación de calidad mediante PSM. 18 Véase Ayala L. y Rodríguez M. (2007 a). La publicación que contiene este trabajo, referenciada en la bibliografía incluye múltiples estudios que contemplan esta problemática desde distintos enfoques y ámbitos temáticos. 19 Por ejemplo, en EEUU el sitio web de NLSY (National Longitudinal Surveys) contiene más de artículos de revistas basados en el NSL, monografías, documentos de trabajo, y disertaciones El sitio web de PSID (Panel Study of Income Dynamics Institute for Social Research Bureau of Labor Statistics) incluye más de artículos de revistas, libros y capítulos de libros y actas de congresos. 10

11 Instituto de Estudios Fiscales Los estudios de Ayala y Rodríguez, utilizados como ejemplos en este documento, que han sido realizados utilizando técnicas de evaluación de impacto PSM, se basan en la información procedente de registros administrativos y de encuestas realizadas a los beneficiarios que pasan por el programa IMI. En programas con cierta trayectoria, la posibilidad de explotar estos registros permite disponer de bases de datos longitudinales, que, gracias a la existencia de un conjunto de métodos de análisis cada vez más sofisticadas aplicables a micro datos, hacen posible abordar diferentes aspectos relacionados tanto con el funcionamiento de los programas como con las características de los hogares beneficiarios. En el campo de las políticas sociales en España, existe una experiencia limitada en el uso de registros administrativos para la investigación. De ahí deriva la menor tradición en la utilización de datos administrativos para evaluar estas políticas, que en otros países ha permitido contar con un importante acervo de resultados. En España no existe esta cultura y es muy reciente y reducida, todavía, la importancia de los registros administrativos como fuente de datos, aunque la progresiva disminución de los costes en el proceso automático de la información permite acceder a ellos mediante herramientas analíticas modernas y eficientes. En otros países, como los nórdicos, el seguimiento y la evaluación de las políticas sociales se han basado, tradicionalmente, en el uso de registros administrativos. Algunas Comunidades Autónomas, en nuestro país, han realizado esfuerzos notables para convertir esos registros en bases de datos para el estudio de las políticas dirigidas a los hogares con menores ingresos. Las ventajas de la utilización de los datos administrativos sobre los programas de garantía de rentas son varias. La riqueza informativa contenida en los ficheros de beneficiarios representa un gran activo de conocimiento de la realidad social. Los sistemas administrativos en algunos servicios sociales son, además, esencialmente dinámicos y pueden ayudar a evaluar los cambios producidos a lo largo del tiempo, ya que ofrecen la posibilidad de seguir a los mismos individuos a lo largo de un periodo amplio. Su gran tamaño y, muy a menudo, la cobertura de universos completos permiten abordar tipos de análisis imposibles de realizar con otras fuentes. Existe, además, la posibilidad de enriquecer la base de micro datos creada a partir del proceso administrativo mediante el cruce con otras fuentes procedentes de encuestas, estadísticas oficiales u otros registros administrativos. No se debe olvidar, sin embargo, que existen también algunos problemas en la utilización de los datos administrativos para el estudio de los hogares de baja renta y la evaluación de los programas de garantía de rentas. Estos datos deben ser depurados antes de poder ser utilizados para la investigación, ya que existen numerosas fuentes potenciales de errores y los formatos no suelen ser adecuados para el análisis. Esta depuración incluye el proceso completo de transformación de los registros tal cual están en el sistema de información para la gestión en un fichero analítico. La preferencia por ficheros longitudinales en la mayor parte de los proyectos de investigación y evaluación de estos programas suele exigir también transformaciones importantes en la estructura de los ficheros de datos administrativos. Estos trabajos suelen verse ampliamente compensados cuando se consigue llevar a cabo las evaluaciones de impacto que permiten conocer mejor la realidad, el funcionamiento de los programas y las posibles mejoras que permitan utilizar los recursos públicos con mayor utilidad social. 7. PROPENSITY SCORE MATCHING (PSM) Existe una amplia y variada literatura sobre la aplicación de la técnica de PSM en la evaluación de programas. Por ejemplo, Heckman, Ichimura y Todd (1998), Lechner (1999), Dehejia y Wahba (2002) y Smith y Todd (2005) utilizan las técnicas de PSM para estimar el impacto del mercado de trabajo y programas de capacitación sobre la renta; Jalan y Ravallion (2003) evalúan los programas de empleo y lucha contra la pobreza. En el campo de la medicina los ejemplos son abundantes. Tiene gran interés la reciente controversia en el Stat. Med., iniciada con el trabajo de Peter C. Austin 20 que realiza una evaluación crítica del propensity score matching en la literatura médica incluyendo 47 artículos que abarcan el período comprendido entre 1996 y 2003 y permite obtener una panorámica muy completa en este ámbito. También el trabajo previo de Kurth et al. ((2005) en el que los autores comparan cinco métodos de evaluación, entre los que se incluyen varios algoritmos de PSM, para evaluar los efectos de un 20 Véase Austin: (2008), Hill (2008), Hansen (2008) y Stuart(2008). 11

12 fármaco en más de 6000 pacientes con problemas de isquemia procedentes de un registro de accidentes cerebro vasculares en Alemania. En cuanto a evaluaciones relacionadas con la asistencia sanitaria, Trujillo, Portillo y Vernon (2005) analizan el impacto de la participación del seguro de salud en la atención sanitaria, Galiani, Gertler y Schargrodsky (2005) estudian el efecto de suministro de agua en la mortalidad infantil. Otros ámbitos de aplicación como la educación y la política permiten encontrar ejemplos como el trabajo de Almus y Czarnitzki (2003) y Moser (2005) que evalúan el impacto de los subsidios de investigación y desarrollo y las leyes de patentes en la innovación; Lavy (2002) estima el efecto de los incentivos de desempeño docente en el rendimiento de los alumnos, y Persson, Tabellini y Trebbi (2003) analizan el impacto de la reforma electoral en materia de corrupción. En España, además de los trabajos citados de Ayala y Rodríguez, la Agencia de Evaluación de Calidad (AEVAL), dependiente del Ministerio de Política Territorial y Administración Pública, realizó la evaluación de la política de bonificaciones y reducciones de cuotas de la Seguridad Social destinada a las personas en situación de discapacidad con esta metodología 21. El Propensity score matching (PSM), es un algoritmo que empareja participantes y no participantes en un programa en base a la probabilidad condicional de participar (PS), dada una serie de características observables. Si los resultados son independientes de la participación, condicionada en variables observables, utilizar el grupo de comparación obtenido de esta forma, permite lograr un estimador no sesgado del impacto medio del programa. El PSM es una de las innovaciones más importantes en el desarrollo aplicado de los métodos de emparejamiento, resuelve el problema de la dimensionalidad sintetizando toda la información que proporcionan múltiples variables en una variable única, permitiendo realizar el matching con sola dimensión. El PSM se define como la probabilidad de que una unidad de la muestra combinada de participantes y no participantes reciba el tratamiento, a partir de un conjunto de variables observadas. Si toda la información relevante para la participación y los resultados es observada por el investigador, el PSM (probabilidad estimada de participación) produce emparejamientos válidos para estimar el impacto de una intervención. Por lo tanto, en lugar de intentar que coincidan en todos los valores de las variables observadas, los casos pueden ser comparados sobre la base del PSM exclusivamente. Existen fundamentalmente dos tipos de algoritmos de matching: el nearest neighbor matchig (vecino más próximo) que empareja una unidad participante con la unidad del grupo de comparación que tenga el PS más parecido y los métodos basados en kernel que emparejan a cada participante con un resultado calculado como una media ponderada kernel de resultados de todos los no participantes. 8. IMPORTANCIA DEL CUMPLIMIENTO DE LAS HIPÓTESIS DE INDEPENDENCIA 8. CONDICIONADA Y SOPORTE COMÚN EN LA APLICACIÓN DEL PSM Una respuesta individual es una función de participación con características observables e inobservables. En general los que no participan difieren de los que participan en la situación de la participación. La heterogeneidad es debida tanto a características observables como no observables. En el contexto de los estudios observacionales, no experimentales, el PSM se enmarca en el contexto de la estimación no paramétrica. Para obtener estimadores consistentes del impacto del programa, con este método, hay que asumir lo que se denomina independencia condicional en su aplicación. También denominada selección en observables, supone una fuerte restricción de ortogonalidad entre los posibles resultados y el estado del tratamiento, dadas las variables observadas. Lo que conlleva asumir esta hipótesis es que la participación, condicionada a las características observables, es independiente de los posibles resultados. Selección en observables implica que las características inobservables no juegan ningún papel para determinar la participación 22. A partir de aquí, para obtener un grupo de comparación que permita evaluar los efectos de la participación, se buscará para cada participante uno o varios no participantes que tengan las mismas características observables. 21 Véase Aeval (2009). 22 Véase Dehejia and Wahba (2002). 12

13 Instituto de Estudios Fiscales En la práctica, la sospecha de que esta hipótesis no se sostiene, es l o que condiciona la validez de un estudio realizado con esta técnica. La credibilidad de lo s resultados precisa de otra hipótesis adicional: la certeza de que existe un solapamiento en la distribución de observables entre el grupo de tratados y el grupo de comparac ión, lo que se denomina hipótesis de soporte común, que es tan restrictiva como la selección en observables. La posibilidad de aplicar el PSM en una evaluación de impacto sue le exigir ciertos equilibrios en los condicio nantes, aproximándose todo lo posible al cumpli miento de ambas hipóte sis, con la consideración adicional de que los datos de que se dispone tengan la riquez a y calidad suficiente para poder abordarlo, de acuerdo con las consideraciones que se exponen en el apartado 6. Para que el matching resulte posible se precisa que existan unidades en el grupo de comparación con los mismos valores de PS que los que partic ipan en el programa de interés. Ello exige un solapamiento o intersección de las distribuc iones del PS entre los dos grupos que se van a comparar. En el caso de que existan unidades en las que los valores de las va riables obse rvadas que entran en la ecuación de estimación del PS dan como resultado que no reciban nunca el t ratamiento o que siempre lo reciban, no existe contrafactual para ellos. Los que nunca reciben tratamiento no tie nen con quien emparejarse en el grupo de tratados, los que siempre reciben tratamie nto no pueden emparej arse con nadie en el grupo de controles. En el histograma del ej emplo de la página 36 puede observarse de modo gráfico esta posibilidad. En estos casos lo que de be hacerse es restringir el matching y la estimación del efecto del tratamiento a la región de soporte común. En la pr áctica lo que implica es que debe r estringirse el análisis al grupo de no participantes cuyos valores del PS se solapan con los de los que participan. Si se asume la selección en características observables porque se acepta que se cumpl e la hipótesi s de soporte común, el matching debe hacerse teniendo en cuenta que del colectivo de no participantes se sele ccione un grupo de comparación en el cual la distribución de las características observadas sea lo más parecida posible a la distribución en el grupo de participantes. En el caso de un matching exacto, la única diferencia que existe entre un participante y su pareja es que el participante recibe el tra tamiento y su contrafactual no lo recibe. De ahí se de riva que los grupos sean comparables y que pue da aplicarse el método PSM para estimas el efecto del programa. En el diagrama que se incluye más abajo, se presentan de modo esquemático los rangos de casos emparejados en función del PS estimado (color naranja) y los exclu idos por ambos extremos del PS (color verde). Estos últimos no se incluirían en el aná lisis por quedar fuera de la zona de soporte común. 13

14 A continuación se incluye la función de densidad, estimada mediante una función kernel normal, para el PS de participantes y no participantes donde puede apreciarse una zona de soporte común entre 0.3 y 0.9 aproximadamente. El gráfico está realizado con datos reales procedentes del trabajo de Ayala L. and Rodríguez, M. (2011). Es importante destacar que la utilización del PS como única medida de todas las características observables que intervienen en su estimación, simplificando de modo notable todo el proceso de evaluación, es posible debido al hecho de que la hipótesis de independencia condicional se mantiene cuando se utiliza el PS en lugar de todas las variables (Rosembaun and Rubin 1983). 9. MODELO DE PARTICIPACIÓN EN EL PROGRAMA. ECUACIÓN DE ASIGNACIÓN. 9. CÁLCULO DEL PROPENSITY SCORE (PS) CON STATA En el marco de la evaluación de impacto, el propensity score, introducido por Rosembaum y Rubin (1993) es un método alternativo al diseño experimental y a otros enfoques cuasi-experimentales para estimar efectos del tratamiento cuando la asignación al mismo no es aleatoria, siempre que se pueda asumir selección en observables o lo que es lo mismo independencia condicional. Se utiliza un modelo logit o probit 23, con variable dependiente binaria que indica el tratamiento y variables explicativas X, define la ecuación de asignación al programa. El valor del PS calculado mediante esta esta ecuación es una probabilidad estimada de participar en el tratamiento, condicionada a las variables X, que facilita obtener un contrafactual, eliminando el problema de la dimensionalidad. El comando STATA que permite estimar el propensity score, es decir la probabilidad de que una unidad en la muestra combinada de los participantes y los no participantes reciba el tratamiento, dado un conjunto de variables observadas, es el pscore. Comando: Instalar el comando en el PC: pscore Buscar información sobre el comando: ssc install pscore, replace help pscore Con una estructura similar a cualquier comando de STATA, las páginas de información sobre pscore que se obtienen a través de help, incluyen la sintaxis, es decir la forma en que debe ser escrito en el editor de STATA la sentencia completa del comando pscore. 23 El marco teórico de estos modelos puede verse en McCullagh, P. and Nelder, J.A. (1983). 14

15 Instituto de Estudios Fiscales A continuación hay una descripción detallada de todas las utilidades del comando: estima la probabilidad de recibir el tratamiento (PS) mediante un modelo probit o logit, a partir de un conjunto de variables y agrupa los individuos en bloques en función del valor estimado por el modelo para el PS, muestra una estadística resumiendo la distribución del PS estimado en los bloques y aplica un test de comprobación de la hipótesis de equilibrio de cada una de las variables que intervienen en el modelo. En el caso de que no se verifique esta hipótesis, se especifica un modelo menos parsimonioso para el PS. Por último se almacena en una variable el valor del PS para cada registro y opcionalmente el número de bloque al que pertenece. El PS estimado de esta forma puede ser utilizado conjuntamente con otros comandos de STATA como attr, attk, attnw, attnd, para obtener estimaciones del efecto medio del tratamiento en los tratados, utilizando diferentes fórmulas de matching: radio, kernel, vecino más próximo en una de las dos versiones (con pesos iguales ó con recorrido aleatorio), con estratificación De ellos se hablará más adelante en este documento. La información continúa con una descripción detallada de todas las posibles opciones que admite el comando, incluyen unas notas sobre aspectos relevantes como la consideración de los valores missing, como debe ser la variable que describe el tratamiento, la conveniencia de actualizar STATA antes de proceder a realizar el análisis y algunas otras. A continuación se incluyen algunos ejemplos de cómo se utiliza el comando y la referencia de los autores, en este caso Sascha O. Becker Center for Economic Studies, University of Munich y Andrea Ichino Department of Economics, European University Institute, Florence. Por último, la referencia a comandos relacionados con pscore y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando. A título de ejemplo del funcionamiento, utilizando un fichero ficticio de datos transformados (PSMDATOS), procedente de los estudios realizados por Ayala y Rodriguez con los registros administrativos del IMI de la CAM, se estima el PS con STATA, para conocer la probabilidad de 15

16 participar en proyectos de inserción entre el colectivo de los perceptores de un subsidio de rentas mínimas. La probabilidad se estima en función de las variables observadas a la entrada en el programa IMI: tamaño del hogar, nivel de educacuón, nivel de empleabilidad, número de problemas sociales, edad y sexo de los participantes. PSMDATOS es el fichero que contiene los microdatos. Las variable eval1 es una variable dicotómica que toma valor 1 cunado un beneficiario del IMI participa en proyectos de inserción, y valor 0 en caso contrario. Las varibles observadas que se incluyen el el modelo, en este fichero de datos se denominan gtotal, pesola, sexo, ed, estu, emplea y problemas. El valor del ps estimado por el modelo se almacenará en la variable psclase. Se incluye comsup como opción, en cumplimiento de la hipótesis de soporte común, para restringir el análisis a todos los tratados y todos los controles que cumplen la propiedad de equilibrio de todas las variables que intervienen en la estimación. Esta opción genera automáticamente una variable dicotómica adicional denominada comsup que identifica cuando toma valor 1 los registros que están en la zona de soporte común. Las siguientes sentencias de STATA: use "C:\psmdatos", clear pscore eval1 gtotal pesola sexo ed estu emplea problemas, pscore (psclase) blockid (bkclase) comsup Producen los resultados que se incluyen a continuación: **************************************************** Algorithm to estimate the propensity score **************************************************** The treatment is eval1 eval1 Freq. Percent Cum , Total 1, Estimation of the propensity score Iteration 0: log likelihood = Iteration 1: log likelihood = Iteration 2: log likelihood = Probit regression Number of obs = 1446 LR chi2(7) = Prob > chi2 = Log likelihood = Pseudo R2 = eval1 Coef. Std. Err. z P> z [95% Conf. Interval] gtotal pesola sexo ed estu emplea problemas _cons Note: the common support option has been selected The region of common support is [ , ] Description of the estimated propensity score in region of common support Estimated propensity score Percentiles Smallest 1% % % Obs % Sum of Wgt % Mean Largest Std. Dev % % Variance % Skewness % Kurtosis

17 Instituto de Estudios Fiscales El fichero tiene 1849 casos de los cuales un 56,14 % participan en proyectos de inserción. El modelo que estima el PS es un model o probit, que estima los parámetros por el método de máxima-verosimilitud, eliminando los valores missing y con dos iteraciones. Las variables mas significativas son edad, empleabilidad y número de problemas y la región de soporte común abarca desde 0.35 a 0.83, de un rango teórico entre 0 y 1. A continuación se presenta la distribución del PS estimado en la región de soporte común: Description of the estimated propensity score in region of common support Estimated propensity score Percentiles Smallest 1% % % Obs % Sum of Wgt % Mean Largest Std. Dev % % Variance % Skewness % Kurtosis Por último se incluy en en los resultados el número de bloques (7) que logra equilibrar la media del PS, el grupo de tra tados con la media, el grupo de controles en cada uno de los 7 estratos y el resultado satisfactorio del test de equilibrio que añade una tabla con la distribución del número de tratados y controles en cada uno de los estratos de la región de soporte común. Se añaden dos nuevas variables al fichero original psclase y bkclase. En la variable psclase se almacenen los valores estimados del propensity score. En la variable bkclase se almacena el número del bloque a que pertenece cada uno de los valores del PS estimado. Puede añadirse la opción detail para obtener una documentación mas detallada de los pasos realizados hasta llegar a obtener los resultados finales. 17

18 10. DIFERENTES ALGORITMOS DE MATCHING Cuando hay que elegir entre los diferentes algoritmos mediante los que se trata de emparejar, en base al PS, unidades tratadas con unidades del grupo de control hay determinadas cuestiones que deben ser tenidas en cuenta. En primer lugar si se realiza el matching con o sin reemplazamiento, además de establecer una medida de proximidad, establecer un sistema de ponderación y decidir cuantas unidades de comparación se emparejan con cada unidad de tratamiento. Historicamente, el matching uno a uno es el primero que se ha utilizado. Se realiza mediante un muestreo sin reemplazamiento en el grupo de comparación, es decir cada unidad del grupo de comparación unicamente se empareja una vez y cada unidad participante tiene un enlace en el grupo de control. Los problemas en este caso se presentan cuando la hipótesis de soporte comun deja amplias zonas de la distribución del PS sin solapar, y también cuando el grupo de comparación es muy reducido. En estos casos las unidades tratadas se emparejan con otras que no son similiares 24. Por ello muchas veces se utiliza el muestreo con reemplazamiento, y una misma unidad del grupo de comparación se utiliza como pareja de varios casos. Las especificaciones alternativas al mathing uno a uno son mas recientes. Si en lugar de un elemento del grupo de comparación se utilizan todos los que tienen un PS próximo, las estimaciones utilizan mejor la información disponible y son mas estables. La contrapartida es que si un mismo elemento del grupo de comparación se utiliza muchas veces podría aumentar el error de muestreo. Entre los algoritmos de matching mas utilizados en la práctica y uno de los que produce mejores resultados es el denominado nearest neighbor matching (vecino mas próximo). Consiste sencillamente en elegir del grupo de comparación el elemento con el PS mas proximo. El sistema puede utilizarse con o sin reemplazamiento. En el último caso hay un matching uno a uno, en el primero un elemento del grupo de control es utilizado mas de una vez. El radius matchig debe emplearse cuando existe riesgo de un matching muy pobre por alguna de las razones ya aludidas. Consiste en especificar una distancia máxima del PS (caliper) dentro de cuyo radio se busca el enlace. La idea es que no solamente se utiliza el mas proximo dentro del radio sinó todos los que existan en el grupo de comparación que estén dentro del radio, sin limitación de número, con lo que se asegura que son tan similares como se quiera establecer al definir el caliper. El kernel matching es un estimador de matching no paramétrico que compara el resultado de cada unidad tratada con una media ponderada de los resultados de todas las unidades del grupo de comparación, utilizando las mayores ponderaciones para las unidades con PS mas parecido al que se compara. Este enfoque tiene como ventaja una varianza menor, la contrapartida es que algunos emparejamientos pueden producirse con unidades que no son similares. Cuando se aplica este enfoque, hay que asegurarse que el grado de cumplimiento de la hipótesis de soporte común es elevado. La aplicación de este sistema necesita decidir sobre el tipo de kernel, generalmente Gaussiano y Epanechnikov, y el intervalo. Todos estos algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas indicado en cada contexto. Es evidente que el nearest neighbor uno a uno garantiza que se está utilizando la unidad mas similar para construir el contrafactual minimizando el sesgo, pero al no tener en cuenta una gran cantidad de información del grupo de comparación aumenta la varianza, lo que implica una pérdida de precisión. Cuando se utiliza muestreo con reemplazamiento, el aumento de precisión se realiza a costa de un contrafactual menos similar 11. ESTIMACIÓN DEL CONTRAFACTUAL, EVALUACIÓN DE RESULTADOS Y 11. ESTIMACIÓN DE ERRORES CON STATA Una vez estimado el PS, se debe estimar el contrafactual para evaluar los efectos del tratamiento. En este momento existe una gran cantidad de software disponible para realizar estas estimaciones que 24 Véase Dehejia, R.H. and Wahba, S. (2002). 18

19 Instituto de Estudios Fiscales permiten elegir cualquiera de los algoritmos de matching descritos 25. STATA es uno de los productos comerciales que cuenta con varios programas que surgen principalmente de tres grupos de desarrolladores. En primer lugar Becker and Ichino (2002) programan comandos para nearest neighbor, kernel, radius, and matching con estratificación. Becker and Caliendo proponen el comando mhbounds para realizar análisis de sensibilidad. En segundo lugar, Leuven and Sianesi (2003) desarrollan el software PSMATH2 que incluye estimaciones de nearest neighbor, caliper matching (con y sin reemplazamiento), radius, kernel, locallinear matching y matching con métrica de Mahalanobis, además de comandos para comprobar el cumplimiento de la hipótesis de soporte común psgraph, y el test de equilibrio de las variables que se incluyen en la estimación del PS pstest. El comando nnmatch implementado por Abadie, A., D. Drukker, J.L. Herr, and G. Imbens en 2004, permite estimar los efectos medios del tratamiento para todas las unidades y no únicamente para tratados y grupo de comparación, especificar la métrica de la distancia, el número de emparejamientos y también incluye estimadores de la varianza robustos a la heterocedasticidad 27. Debe tenerse en cuenta que los modelos logit y probit son modelos con heterocedasticidad que se estiman por el método de máxima verosimilitud. Con posterioridad Ichino, A., F. Mealli, and T. Nannicini 2006, implementan el comando sensatt para realizar análisis de sensibilidad de los efectos medios del tratamiento. El comando cem, debido a Blackwell, M.; Iacus, S.; King,G,; Porro, G introduce un nuevo método de estimación de efectos. El algoritmo se describe en Iacus, King and Porro Es interesante destacar que también está disponible para R (software libre) y para SPSS como se indica en el Anexo 1. En el apartado siguiente se describe el funcionamiento de algunos de estos programas y se proponen algunos ejemplos para realizar con STATA Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching basado en el método del vecino mas cercano (nearest neighbor matching) Este método realiza una ordenación previa de todos los registros del fichero por el valor del PS calculado con el comando pscore. Una vez en orden, para cada caso busca el control mas próximo en el valor del PS recorriendo el conjunto de datos del grupo de comparación hacia arriba y hacia abajo. Si una unidad tratada empareja igual de bien hacia arriba y hacia abajo con dos unidades no tratadas, el programa da la misma ponderación a ambos grupos de emparejamiento. Hay otra forma de buscar los controles por este método, utilizando la aleatoriedad para el recorrido en el conjunto de datos hacia arriba y hacia abajo. En la práctica no suele ser muy frecuente encontrar varios vecinos mas próximos, en particular cuando las variables utilizadas para la estimación del PS son continuas. En estos casos los resultados para ambos sistemas coinciden. Los comandos de STATA, diseñados por Becker and Ichino para relizar el matching son attnw, en el caso de ponderación igual hacia arriba y hacia abajo y attnd cuando se trata del recorrido aleatorio (random draw) en el conjunto del grupo de comparación. Comando: attnw Instalar el comando en el PC: ssc install attnw, replace Buscar información sobre el comando: help attnw 25 En el Anexo 1 se incluyen referencias de software libre y alternativas comerciales a STATA para implementar métodos de PSM. 26 Puede consultarse la descripción en Becker & Caliendo (2007). 27 Véase Abadie, A., D. & others. (2004), Abadie & Imbens (2006, 2008, 2011) para conocer el marco teórico de este software. 28 Información disponible en 19

20 Las páginas de información sobre attnw que se obtienen a partir de help: En el caso del comando attnd Comando: attnd Instalar el comando en el PC: Buscar información sobre el comando: ssc install attnd, replace help attnd Las páginas de información muestran la descripción,opciones, notas, ejemplos, autores (Becker & Ichino) y direcciones para obtener mas información. Casi todos los comandos que permiten estimar el efecto medio del tratamiento con STATA, incluyen opciones que permiten calcular los errores mediante bootstrap, método propuesto por Bradley Efron en 1979, que permite aproximar la distribución de un estadístico en el muestreo mediante la generación de varias muestras por ordenador 29. Ponerlo en práctica exige gran capacidad de cálculo, y es por esta razón por la que los fuertes avances tecnólogicos en la potencia de los ordenadores actuales, facilita el cálculo del sesgo, varianza, intervalos de confianza y contraste de hipótesis estadísticas mediante bootstrapping. Debido a esta facilidad es normal encontrar la posibilidad de utilizar este método en el software destinado a aplicar PSM. 29 Sobre este tema puede consultarse Efron, B. & Tibshirani, R.J. (1993). En Abadie, A. & Imbens, G. (2006) se proponen unas modificaciones para lograr que los estimadores de los efectos medios del tratamiento sean consistentes y asintóticamente normales. El software para calcular estos estimadores está disponible en el comando de STATA nnmatch. 20

21 Instituto de Estudios Fiscales El próximo ejemplo consiste en utilizar el fichero PSMDATOS para realizar la estimación del efecto medio del tratamiento en los tratados, por ambos sistemas de emparejamiento, con el método nearest neighbor matching. El planteamiento es análogo al que se realiza en el apartado La comparación de los resultados con los obtenidos con diferentes algoritmos de matching presenta un análisis de sensibilidad que aumenta, en su caso, la robustez y por tanto la credibilidad de las estimaciones. Téngase en cuenta que todos los ejemplos de este documento se realizan con el mismo fichero PSMDATOS y con los resultados de estimar el PS obtenidos en el apartado 10 a través del comando pscore, con la exigencia de soporte común, utilizando 7 variables observadas (edad, empleabilidad, número de problemas, sexo,nivel de estudios, número de miembros del hogar, hogar monoparental) para los hogares participantes y no participantes en proyectos de inserción sociolaboral, dentro de los beneficiarios de un programa de rentas mínimas de la Comunidad Autónoma de Madrid. 21

22 Por tanto, al mantener en todos los ejemplos el mismo PS que está almacenado en la variable psclase, para realizar las estimaciones del efecto medio del tratamiento en los tratados (ATT) a través de los diferentes métodos de matching, no es necesario expliciar de nuevo las variables de la ecuación de asignación. Además, se utiliza la posible variabilidad de los resultados como análisis de sensibilidad a los distintos métodos de emparejamiento. Tal y como se indica mas adelante, en el apartado 12, también es interesante realizar un análisis de sensibilidad de los resultados a diferentes especificaciones de la ecuación de participación. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attnd psalud0 eval1, pscore (psclase) boot attnw psalud0 eval1, pscore (psclase) boot Producen los siguientes resultados: n. treat. n. contr. ATT Std. Err. t Note: the numbers of treated and controls refer to actual nearest neighbour matches ATT estimation with Nearest Neighbor Matching method (equal weights version) Analytical standard errors n. treat. n. contr. ATT Std. Err. t Note: the numbers of treated and controls refer to actual nearest neighbour matches Aunque se mantiene el signo negativo del efecto, la magnitud es mucho menor y se pierde la significación estadística. El análisis de sensibilidad de los resultados a los algoritmos de matching realizados con los comandos attr, attk, attnw, attnd, pueden efectuarse también con el comando sensatt, que implementa el análisis de sensibilidad propuesto por Ichino, Mealli, and Nannicini (2006). Su funcionamiento se describe en la ayuda del comando (help) Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Matching con estratificación (Becker & Ichino) El comando STATA que pesrmite realizar el matching con estratificación, es decir un emparejamiento entre casos y controles basado en una variable que contiene el número de bloque (estrato) al que pertenece el registro de la zona de soporte común, además de la variable que contiene el valor del PS previamente estimado, es atts. Comando: atts Instalar el comando en el PC: Buscar información sobre el comando: ssc install atts, replace help atts Las páginas de información sobre atts que se obtienen a través de help, de modo similar al caso de otros comandos incluyen la sintaxis, descripción detallada de todas las utilidades del comando, opciones posibles, notas sobre aspectos relevantes, ejemplos, referencias de los autores de los programas, dirección de internet donde se puede obtener mayor información sobre los algoritmos de cálculo y comandos relacionados con el que se describe. 22

23 Instituto de Estudios Fiscales En este caso, atts, permite haber realizado previamente la estimación del PS y del número de bloque al que pertenece cada registro del fichero, a través del comando pscore descrito anteriormente, utilizando esta información para realizar el matching, ya que por construcción, el cálculo del PS y del número de estratos que permite verificar la hipótesis de equilibrio del PS en cada uno de ellos hace que la asignación al grupo de tratamiento y de control pueda considerarse aleatoria. Debe ejecutarse pscore con la opción comsup, para obtener unos resultados correctos sobre el número de tratados y controles estimados con anterioridad. Se describe en el apartado 9. Para calcular el ATT (efecto medio del tratamiento en los tratados), se utiliza una media ponderada por el número de tratados de los efectos del tratamiento en cada uno de los bloques. Se calcula como la diferencia de resultados medios entre tratados y controles dentro del mismo bloque para el cual pscore ha logrado equilibrar todas las variables que intervienen en el cálculo del PS. Entre las posibles opciones del comando, que se incluyen a continuación, figura bootstrap, que permite calcular los errores de la estimación del efecto del tratamiento, mediante esta técnica. Otras opciones descritas, que tienen relación con este cálculo de errores, son reps, noisily y dots, referidas al número de réplicas de muestras que se solicitan (por defecto son 50), a la información en los resultados del efecto producido en cada una de las muestras, y al requerimiento de que figure un punto en la pantalla cada vez que comienzan los cálculos con una nueva réplica de muestra. Se describen además las opciones obligatorias pscore que indica el nombre de la variable que contiene la información del propensity score previamente calculado, blockid que indica el nombre de la variable que contiene el número de bloque al que pertenece el propensity score. Por último las opciones detail para obtener una información más detallada de todos los procesos de cálculo hasta llegar a los resultados finales y comsup que restringe los valores utilizados para el cálculo del ATT a la zona d soporte común. 23

24 En las notas se hace una referencia al cálculo de los errores por bootstrapping, con las especificidades de la estimación por estratos, y una explicación de los casos en que en alguno de los estratos no haya ningún caso y/o control o exista solamente un caso y/o un control. A continuación unas referencias al almacenamiento de los resultados en el fichero de análisis: ATT, errores, valor del test de la t y en su caso errores y test calculados por bootstrapping. Tras los ejemplos de cómo se utiliza el comando, la referencia de los autores (Becker & Ichino), la referencia a comandos relacionados con atts y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando. Utilizando el fichero PSMDATOS, a título de ejemplo, se estima con STATA el efecto medio del tratamiento en los tratados (ATT) mediante un matching con estratificación. Se trata de ver si los participantes en proyectos de inserción laboral, dentro del colectivo de los perceptores de un subsidio de rentas mínimas, tienen mejores resultados, en términos de salud, que los que participan en proyectos de capacitación general. Es un ejemplo en el que se miden efectos indirectos de un programa. El programa no va dirigido a mejorar la salud de los beneficiarios, pero hay un círculo virtuoso empleo-salud, y mejorar la salud puede mejorar la empleabilidad. Conocer rasultados en términos de salud puede ayudar a definir mejor el programa. La variable eval1 toma valor 1 cuando el beneficiario participa en proyectos de inserción sociolaboral y valor 0 en caso contrario. El propensity score que se almacena en la variable psclase, se ha calculado previamente con STATA en el ejercicio anterior cumpliendo con la propiedad de equilibrio de todas las variables que intervenían en la ecuación de asignación, en la zona de soporte común en todos los estratos. La variable que contiene el PS previamente estimado en el ejercicio anterior es psclase. El estrato a que pertenece cada PS se refleja en la variable bkclase como se había indicado en el ejercicio anterior. Las siguientes sentencias de STATA: use "C:\psmdatos", clear atts psalud0 eval1, pscore (psclase) blockid (bkclase) boot Producen los siguientes resultados ATT estimation with the Stratification method Analytical standard errors n. treat. n. contr. ATT Std. Err. t Bootstrapping of standard errors command: statistic: (obs=1849) atts psalud0 eval1, pscore(psclase) blockid(bkclase) r(atts) Bootstrap statistics Variable Reps Observed Bias Std. Err. [95% Conf. Interval] bs (N) (P) (BC) N = normal, P = percentile, BC = bias-corrected ATT estimation with the Stratification method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t Indicando un resultado negativo en términos de problemas de salud, o lo que es lo mismo los participantes en proyectos de inserción laboral tienen menos problemas de salud que los que no participan. El error de la estimación obtenido por bootstrapping con 50 réplicas de muestra mantiene el efecto 24

25 Instituto de Estudios Fiscales negativo dentro del intervalo. Añadiendo la opción detail, se muestran los pasos intermedios previos al resultado final que se presentan a continuación. ***************************************************** Estimation of the ATT with the stratification method ***************************************************** The outcome is psalud0 Variable Obs Mean Std. Dev. Min Max psalud The treatment is eval1 eval1 Freq. Percent Cum , Total 1, The distribution of the pscore is Estimated propensity score Percentiles Smallest 1% % % Obs % Sum of Wgt % Mean Largest Std. Dev % % Variance % Skewness % Kurtosis The structure of blocks is Key frequency column percentage Number of block Total eval , Total , > bkclase = 2 Variable Obs Mean Std. Dev. Min Max psclase > bkclase = 3 Variable Obs Mean Std. Dev. Min Max psclase > bkclase = 4 Variable Obs Mean Std. Dev. Min Max psclase > bkclase = 5 Variable Obs Mean Std. Dev. Min Max psclase > bkclase = 6 Variable Obs Mean Std. Dev. Min Max psclase > bkclase = 7 Variable Obs Mean Std. Dev. Min Max psclase > bkclase =. Variable Obs Mean Std. Dev. Min Max psclase Computation of treatment effect block by block Block 1 does not have observations Move to next block Block 7 does not have controls The effect of treatment is set to 0 25

26 11.3 Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando 11.3 Matching basado en Kernel El comando STATA que pesrmite realizar el matching basado en una función kernel, es decir un emparejamiento en el cual la unidad de control que se empareja con una observación tratada se obtiene como una función kernel ponderada media de los resultados de los controles, es attk. Comando: attk Instalar el comando en el PC: Buscar información sobre el comando: ssc install attk, replace help attk Analogamente al caso de otros comandos STATA, a través de help se obtiene la sintaxis, descripción detallada de todas las utilidades y posibles opciones, ejemplos, referencias de los autores de los programas (Backer & Ichino), dirección de internet donde se puede obtener mayor información sobre los algoritmos de cálculo y comandos relacionados. Entre las opciones posibles, epan permite elegir el kernel Epanechnicov en lugar del Gaussiano que se calcula por defecto, en cuyo caso a través de la opción bwidth se define el intervalo para aplicar la fórmula Epanechnicov, que si no se especifica STATA utiliza por defecto También es posible calcular los errores por bootstrapping con este método y especificar el número de réplicas muestrales, establecidas por defecto en 50. Analogamente al caso de otros comandos, attk permite haber realizado previamante la estimación del valor del PS a través del comando ya descrito pscore, que debe ejecutarse con la opción comsup para obtener resultados para la zona de soporte común. 26

27 Instituto de Estudios Fiscales También existe la posiblidad de almacenar. en escalares los resultados: media de tratados, media de controles, número de tratados, número de controles, errores, valor del test de la t en el fichero de análisis etc, de forma similar al caso de otros comandos con otros algoritmos de matching. El ejemplo siguiente utiliza el fichero PSMDATOS para estimar el efecto medio del tratamiento en los tratados mediante kernel matching, repitiendo el ejercicio del apartado 12.1, lo que permitirá apreciar la sensibilidad de los resultados al cambio de algoritmo de matching. Las siguientes sentencias de STATA: use "C:\psmdatos", clear attk psalud0 eval1, pscore (psclase) blockid (bkclase) boot producen los siguientes resultados: ATT estimation with the Kernel Matching method n. treat. n. contr. ATT Std. Err. t Note: Analytical standard errors cannot be computed. Use the bootstrap option to get bootstrapped standard errors. Bootstrapping of standard errors command: attk psalud0 eval1, pscore(psclase) bwidth(.06) statistic: r(attk) (obs=1849) El ATT estimado con este algoritmo, emparejamiento basado el el cálculo del PS previamente realizado con el comando pscore para la zona de soporte común da un resultado de , utilizando el método kernel Gaussiano. El cálculo de errores por bootstrapping, con 50 reposiciones de muestra y un intervalo por defecto establecido en 0.06 genera los resultados que aparecen a continuación: Bootstrap statistics Variable Reps Observed Bias Std. Err. [95% Conf. Interval] bs (N) (P) (BC) N = normal, P = percentile, BC = bias-corrected ATT estimation with the Kernel Matching method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t El error calculado es Estos resultados comparados con los del ejercicio 12.2, son bastante parecidos (ATT= Std. Error=0.024). Se mantiene el resultado negativo en términos de problemas de salud de magnitud parecida, con un error similar que mantiene el efecto negativo dentro del intervalo. Parece que está avalado por dos algoritmos de matching diferentes, que los participantes en proyectos de inserción laboral tienen menos problemas de salud que los que no participan. Con la sentencia: attk psalud0 eval1, pscore(psclase) boot epan bwidth(0.01) Se realizan las estimaciones de nuevo con el método de matching kernel Epanechnicov y un intervalo de 0.01 que produce resultados parecidos, tal como se indica a continuación: 27

28 ATT estimation with the Kernel Matching method Bootstrapped standard errors n. treat. n. contr. ATT Std. Err. t Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando Radius Matching En este caso el emparejamiento entre casos y controles se realiza con un algoritmo que, a partir del PS calculado, busca cada control en un radio establecido por el usuario. STATA mediante el comando attr establece por defecto el radio en

29 Instituto de Estudios Fiscales Por medio de la opción radius, el usuario puede cambiar este valor. El comando attr debe utilizarse una vez estimado correctamente el PS, lo que puede realizarse mediante pscore. También puede estimarse en el propio proceso del comando attr, especificando la lista de todas las variables utilizadas en la ecuación de participación, pero en este caso no se realiza el test de equilibrio. Se establecen opciones para calcular los errores por bootstrapping, además de las opciones asociadas habitualmente con este procedimiento de estimación. También se contemplan ejemplos y notas. Los autores (Becker & Ichino), facilitan su página y la dirección de internet donde pueden encontrarse referencias a las fórmulas y algorítmos utilizados en los programas que conforman el comando 30. Se puede repetir el ejercicio del apartado anterior con este comando, para apreciar la sensibilidad de los resultados al cambio en el algoritmo de matching. Este proceso es muy lento, por lo que no es aconsejable hacerlo en clase En este caso las sentencias que deben utilizarse son las siguientes: use "C:\psmdatos", clear attr psalud0 eval1, pscore (psclase) boot Comandos de STATA para realizar un análisis de sensibilidad de los efectos medios del tratamiento Los comandos para implementar el análisis de sensibilidad son: sensatt que utiliza una simulación de variable binaria, mhbounds que utiliza los límites de Mantel-Haenszel. Puede consultarse su funcionamiento en la ayuda de STATA Estimación del efecto medio del tratamiento en los tratados (ATT) con STATA utilizando el comando psmath2 (autores Edwin Leuven y Barbara Sianesi) Con el comando psmath2 se pueden implementar una variedad de métodos de propensity score matching vecino mas próximo, kernel (Gaussiano, Uniforma, Epanechnicov), caliper, radio, así como la métrica completa de Mahalanobis. El mismo comando puede utilizarse también para estimar unicamente el PS. 30 Véase Anexo 2. 29

30 Comando: Instalar el comando en el PC: psmatch2 Buscar información sobre el comando: ssc install psmatch2, replace help psmatch2 En el próximo ejemplo utilizando el fichero PSMDATOS, estimaremos el PS a partir de las variables observadas que incluiremos en el modelo de asignación al tratamiento eval1. El ejercicio es el mismo que el realizado con el comando pscore.en la página 17. La siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, common Produce los resultados que aparecen a continuación: Probit regression Number of obs = 1446 LR chi2(7) = Prob > chi2 = Log likelihood = Pseudo R2 = eval1 Coef. Std. Err. z P> z [95% Conf. Interval] gtotal pesola sexo ed estu emplea problemas _cons There are observations with identical propensity score values. The sort order of the data could affect your results. Make sure that the sort order is random before calling psmatch2. 30

31 Instituto de Estudios Fiscales Como puede comprobarse son idénticos a los obtenidos con los mismos datos y el comando pscore. Una vez calculado el PS con el comando psmatch2, se puede hacer un test de equilibrio de las variables que intervienen en el modelo mediante el comando pstest. También, con posterioridad al cálculo del PS, el comando psgraph presenta un gráfico del histograma del PS para casos y controles lo que permite visualizar el grado de cumplimiento de la hipótesis de soporte común. El comando graph, en este ejemplo, realiza el gráfico que aparece a continuación: Propensity Score Untreated Treated: Off support Treated: On support Este histograma representa que existe un cumplimiento aceptable de la hipótesis y permite además reflejar casos de tratados fuera del soporte común (color verde) a los que se aludía en el apartado 9 de este documento. Para estimar el efecto medio del tratamiento en los tratados con el método kernel normal con psmath2, puede utilizarse la siguiente sentencia: psmatch2 eval1 gtotal pesola sexo ed estu emplea problemas, kernel k(normal) common ate out(psalud0). Que produce los siguientes resultados: Probit regression Number of obs = 1432 LR chi2(7) = Prob > chi2 = Log likelihood = Pseudo R2 = eval1 Coef. Std. Err. z P> z [95% Conf. Interval] gtotal pesola sexo ed estu emplea problemas _cons Variable Sample Treated Controls Difference S.E. T-stat psalud0 Unmatched ATT ATU ATE Note: S.E. does not take into account that the propensity score is estimated. psmatch2: psmatch2: Common Treatment support assignment Off suppo On suppor Total Untreated Treated Total 6 1,426 1,432 31

32 Resultados muy similares a los obtenidos en el ejemplo del apartado 11. Los participantes en proyectos de inserción laboral tienen menos problemas de salud que los no participantes. 12. IMPORTANCIA DE REALIZAR UN ANÁLISIS DE SENSIBILIDAD DE LOS 12. RESULTADOS El objetivo del análisis de sensibilidad es explorar si las estimaciones coincidentes son robustas a la selección en variables no observables (Caliendo y Kopeinig, 2008). Tal y como se describía en el apartado 10, todos los algoritmos de matching implican una elección entre sesgo y precisión, sin que exista una regla clara de cual es el mas indicado en cada contexto. Las consideraciones en torno al tamaño del grupo de comparación a la hora de elegir uno en concreto no resultan suficientes para garantizar el resultado con ninguno de los métodos. Por ello, lo mas conveniente, es comprobar de forma empírica la robustez de los estimadores, lo cual es factible realizando las estimaciones del efecto del tratamiento utilizando distintos algoritmos de matching y comprobando la importancia de las variaciones a estos cambios. La sensibilidad de los resultados debe medirse también en relación a la especificación del modelo de participación (Dehejia 2005) Sensibilidad a los algoritmos de Matching 32

33 Instituto de Estudios Fiscales Los resultados que se presentan en esta tabla proceden del trabajo de Ayala, L. y Rodríguez, M. (2011). Muestran todas las variables resultado, para las que se han estimado los efectos medios del tratamiento, mediante cuatro algoritmos de matching diferentes. Se trata de evaluar si la participación en programas de reinserción laboral, produce mejores resultados en términos de salud y comportamientos saludables medidos por los 6 indicadores presentados en la tabla, que participar en programas dirigidos a mejorar capacidades en la vida cotidiana. Los resultados en cuanto a salud física, son relativamente robustos, mantenimiento de efectos negativos en los problemas de salud física. No sucede lo mismo en términos de salud mental. El signo negativo del efecto y la magnitud aproximada que resulta con todos los algoritmos aplicados en hábitos como la adicción al juego y al alcohol, pone de manifiesto que los resultados son estables Sensibilidad a la especificación del modelo de participación En el trabajo de Rajeev Dehejia (2005) pueden encontrarse algunas sugerencias para la selección de variables del modelo de asignación, así como la recomendación de ampliar el análisis de sensibilidad de los resultados a pequeños cambios en la especificación de PS, incluyendo y excluyendo términos de orden más elevado en la ecuación y contemplando interacciones entre variables. Se presenta a continuación una tabla resumen del estudio de Ayala y Rodríguez citado en el apartado anterior a título de ejemplo. 33

34 13. EVALUACIÓN DE TRATAMIENTOS MÚLTIPLES Las estrategias orientadas a la reinserción rápida de los beneficiarios de programas de welfare en el mercado de trabajo combinan, con frecuencia, programas a mas largo plazo con objetivos de formación y capacitación de los beneficiarios 31. Cuando se evalúan estos programas es habitual que existan difentes tratamientos simultáneos orientados a la reinserción laboral coexistiendo con tratamientos orientados al desarrollo de capital humano, es decir heterogeneidad de programas o tratamientos múltiples. En estos casos tiene interés evaluar la efectividad de un programa frente a otro contemplando medidas alternativas de éxito para estudiar el impacto de cada uno de ellos en función de indicadores diversos, o lo que es lo mismo diferentes variables resultado como pueden ser distintas formas de empleo más o menos estable, indicadores de bienestar material, bienestar subjetivo indicadores del estado de salud y muchas otras. La situación de partida para la evaluación, en estos casos, es de heterogeneidad de programas y medidas alternativas de resultados. Desde el punto de vista analítico, la estimación del PS, puede enfocarse como un modelo logit multinomial, en el que la variable explicada es una variable categórica que toma tantos valores como tratamientos excluyentes se trata de evaluar, pasando de un modelo de dos estados a uno de múltiples estados 32.También es posible abordarlo estimando tantos modelos logit o probit como contrafactuales sean necesarios, para evaluar programas heterogéneos. La exigencia de que los tratamientos sean excluyentes, es decir que los beneficiarios que participan en uno no lo hacen simultaneamente en otro, está conticionada por el marco teórico, por lo que en la práctica puede ser necesario realizar una nueva definición de los tratamientos que cumpla con esta necesidad. Evaluation Treatment A Treatment B Participation in a work-related scheme Participation in general work-related schemes Participation in intensive work-related schemes Participation in mixed work-related schemes Participation in intensive work-related schemes Participation in mixed work-related schemes Non-participation in a work-related scheme Non-participation in a work-related scheme Non-participation in a work-related scheme Non-participation in a work-related scheme Participation in a general work-related scheme Participation in a general work-related scheme En el trabajo de Ayala, L. y Rodríguez, M. 2006b, relizado con datos del IMI, se agrega toda una casuística de diferentes tratamientos en cuatro mutuamente excluyentes: actividades intensivas de empleo (1), actividades generales orientadas al empleo(2), actividades orientadas a mejorar habitos de vida(3), actividades orientadas al empleo generales e intensivas(1+2). A partir de estas definiciones se realiazan varias evaluaciones (tratamientos múltiples) de unos tratamientos frente a otros para observar los resultados desde el punto de vista del empleo, pobreza subjetiva, situación económica comparada con 10 años antes, bienestar material y problemas de vivienda (medidas alternativas de éxito). En la tabla anterior se incluyen 6 de las evaluaciones realizadas. Cada grupo de tratados exige un grupo de comparación estimado mediante PSM. Las estimaciones de la función de densidad, mediante una función kernel normal, para el PS de participantes y no participantes en cada evaluación permiten apreciar el grado cumplimiento de la hipótesis de soporte común para cada evaluación. 31 Véase Cancian and Meyer (2004), Moffitt (2001). 32 Véase Imbens (2000), Lechner (2001, 2002), Sianesi (2008), Imbens and Wooldridge (2009). 34

35 Instituto de Estudios Fiscales Con el comando graph de STATA en combinación con el comando psmath2, se obtienen los histogramas del PS para los 6 tratamientos tal como se indicaba en el apartado A continuación se incluye una tabla resumen de los efectos de cada evaluación en términos del ATT para 7 variables resultado. 35

36 Los programas orientados al empleo tienen más éxito para independizar a las familias que dependen del IMI, aunque no parece suficiente para mejorar el bienestar material. De los subprogramas orientados al empleo, los programas intensivos dan mejor resultado que los generales tanto en términos de empleo como de bienestar material. 14. EVALUACIÓN DE EFECTOS INDIRECTOS DE LOS PROGRAMAS Hay un interés creciente entre los investigadores y también en la sociedad en evaluar los efectos de la prevalencia de enfermedades físicas, mentales y problemas de comportamiento entre los perceptores de prestaciones de welfare. Interesantes trabajos publicados en EEUU 33 lo muestran. Se han estudiado las interferencias de los problemas de salud física y mental para lograr los objetivos de estos programas y también hay evidencias de que estas situaciones de salud precaria pueden ser concurrentes con problemas de capital humano 34. En los años 80 en Inglaterra se realizaron una gran cantidad de investigaciones sobre las consecuencias del desempleo sobre la salud 35. La Organización Mundial de la Salud tiene en marcha Health Impact Assessment (HIA) una campaña para promover la salud en todas las políticas que enmarca con rotundidad esta línea de investigación: identificar los impactos indirectos sobre la salud de políticas, planes y proyectos en sectores y áreas que no son salud 36. Desde un punto de vista de evaluación de programas, este planteamiento se corresponde con lo que podría definirse como efectos indirectos, dado que mejorar la salud no entra dentro de los objetivos que se persiguen con un programa de reinserción sociolaboral, o en un programa que trata de proporcionar rentas a ciudadanos necesitados. El enfoque analítico descrito en este documento, es totalmente válido en estos casos y varía unicamente en que en el momento de definir los indicadores de resultados para medir el éxito del programa, se incluyen además de las variables que representan los objetivos del mismo, otras que contemplan situaciones de salud de los beneficiarios de los programas sociales. El trabajo de Ayala y Rodríguez (2011), puede servir como ejemplo de evaluación de efectos indirectos con técnicas de propensiy score matching 37. En concreto, en los ejemplos propuestos en los apartados anteriores, la variable resultado (Psalud0) es precisamente una de las que mide efectos indirectos de la participación de los beneficiarios del programa IMI en proyectos destinados a la reinserción laboral. A continuación se incluyen los principales resultados obtenidos en términos de salud física y mental, y problemas ligados a adicciones como alcoholismo y dependencias del juego y drogas, que aunque no son concluyentes presentan efectos positivos. De hecho la reducción de problemas de salud física, aumenta la empleabilidad y puede tener un efecto empleo positivo en el futuro. Además se reduciría el gasto de hacer frente a los problemas de salud. 33 Véase Bjorklund (1985), Kovess et al. (1999), Danziger et al. (2000), Coiro (2008), Cawley and Danziger (2005), Meara and Frank (2006). 34 Son interesantes los trabajos de Danziger, Kalil and Anderson ( 2000), Jayakody et al. (2000). 35 Una buena síntesis de estos trabajos se presenta en Fagin & Little (1984). 36 A estos efectos puede consultarse 37 Las tablas que se incluyen aquí proceden de una versión posterior del trabajo que está en evaluación. 36

37 Instituto de Estudios Fiscales Sirvan estas líneas para dar una idea de la gran cantidad de posibilidades que las técnicas cuasi experimentales proporcionan a los investigadores, si bien la disponibilidad de los datos necesarios no siempre se produce. En este caso, una encuesta realizada a beneficiarios del programa IMI, ha permitido recabar una gran cantidad de información que no suele ser fácil de obtener. 15. CONCLUSIONES El tema de la causalidad es la esencia de la evaluación de programas: Hay alguna actuación deliberada que causa un cambio en determinados resultados existiendo una vinculación teórica entre ellos? Desde una perspectiva de evaluación de programas públicos, los tratamientos están en gran parte compuestos de los programas de gobierno, políticas, legislación e innovaciones de la gestión pública. En cambio, en el campo de la medicina, pionero en este tema y del que se ha incorporado una gran 37

38 parte de la terminología, los tratamientos pueden incluir, entre otros, la utilización de nuevos sistemas de medicamentos, procedimientos quirúrgicos, y el uso de nuevos recursos médicos. Comparar sin más los resultados del grupo de tratados con el de no tratados para atribuir la causa al tratamiento implica resultados sesgados. El PSM es una de las técnicas más utilizadas para hacer frente a los sesgos asociados con factores observables al evaluar el impacto de un programa. El procedimiento se basa en la estimación de un contrafactual, y en la definición de grupos comparables de tratados y no tratados. El objetivo principal de este documento que es facilitar una guía para la aplicación del estimador PSM, ha contado con ejemplos que ilustran los conceptos importantes en la evaluación de impacto y el PSM, ayudando a plantear las preguntas que con frecuencia son de interés en las evaluaciones y explicando por qué, a menudo, son necesarios los métodos no experimentales para abordar evaluaciones de impacto de forma complementaria. La utilización de STATA en los ejemplos prácticos, pretende aprovechar las enseñanzas impartidas en otros módulos del Curso, evitando la dispersión de la atención por desconocimiento del software utilizado. La inclusión de referencias de software libre y otras alternativas comerciales en el Anexo 1, pretende ampliar el campo de referencia de las herramientas analíticas que los alumnos puedan utilizar en el futuro, en consonancia con su situación laboral específica. Se ha tratado, por tanto, de proporcionar información sobre cuestiones de evaluación de programas con la idea de relacionar las técnicas, describiendo el contexto en el que el PSM es una metodología válida teniendo en cuenta los supuestos teóricos y las hipótesis que es necesario verificar para su aplicación, pero con un enfoque eminentemente práctico. Toda la formalización teórica necesaria está disponible en la bibliografía recomendada y materiales complementarios facilitados a los alumnos. Al tratarse de una metodología de evaluación cuantitativa, se ha abordado la necesidad de contar con fuentes de información adecuadas y la problemática que puede existir con los datos disponibles para que se respeten las condiciones que garanticen que el PSM sea una técnica apropiada para estimar el efecto del programa que se trata de evaluar. También se ha explicado la mecánica básica de esta técnica, los principales condicionantes y cuestiones a tener en cuenta en la implementación del estimador PSM. Con posterioridad a la estimación del PS, debe realizarse la elección de un algoritmo de emparejamiento, para estimar el efecto del tratamiento y por último algunos test para evaluar la validez de las hipótesis y la calidad del PSM. Se han contemplado cuestiones como el cálculo de errores estándar del estimador con técnicas de bootstrapping, algunos problemas que pueden surgir en la aplicación de las técnicas de PSM y la conveniencia de realizar un análisis de sensibilidad que incluya tanto la especificación del modelo de participación como los algoritmos de matching. A modo de síntesis, tras haber descrito las principales cuestiones a considerar en la aplicación de esta metodología, se incluye a continuación la secuencia que debe respetarse al abordar una evaluación de impacto mediante PSM. Lo que exige realizar, de forma ordenada, las siguientes tareas: Dado que se trata de una técnica cuantitativa, lo esencial para iniciarla es disponer de la información que permita abordarla, en concreto micro datos que se utilizaran para definir el modelo de participación a partir de características observables de las unidades en estudio, tanto participantes como no participantes. Esta información deberá utilizarse también para la definición de los indicadores de resultados que se consideren convenientes y que servirán de medida del éxito del programa o política que se trate de evaluar y que en definitiva permiten medir el grado de cumplimiento de los objetivos que se persiguen con el programa, es decir los efectos directos. En determinados casos la información disponible permite además detectar efectos indirectos, positivos o negativos, que pueden haberse producido sin que se hayan planteado inicialmente al poner en marcha la política o el programa. Debe tenerse presente que la calidad de la investigación depende en gran medida de la calidad de los datos utilizados. A partir de los datos disponibles, en primer lugar es necesario especificar el modelo de participación, es decir la ecuación de asignación al programa que se pretende evaluar, y es necesario predecir la probabilidad de participación a partir del modelo. Un objetivo clave de este momento es incluir todas las variables que puedan afectar tanto a la participación en el programa como al resultado de interés. Con ello se logra que, condicionado a estas variables observadas y medidas, no haya factores no 38

39 Instituto de Estudios Fiscales medidos que afecten tanto a la participación como a los resultados de la falta de participación. Estas variables observadas se utilizan para calcular el propensity score (probabilidad estimada de participación en el programa: PS) mediante un modelo probit o logit, que es una estimación paramétrica de un modelo con variable dependiente binaria que, calcula los parámetros por el método de máxima verosimilitud, en el marco de los modelos lineales generalizados (P. McCullach and J.A. Nelder, 1983). En economía son los denominados modelos de elección discreta. A continuación, las unidades participantes en el programa (tratadas) se emparejan (matching) con unidades similares no participantes (sin tratamiento) basándose en la proximidad del valor de su PS. En este punto, se debe elegir un algoritmo de matching entre las diferentes alternativas posibles (vecino más cercano, radio, kernel, etc) teniendo en cuenta las características y posibles problemas de los datos: tamaño de la muestra y trade-off entre el sesgo y la varianza de los estimadores. El software disponible 38 y en concreto STATA, permite aplicar cualquiera de estos algoritmos, basados en la distancia de Mahalanobis. Una vez logrado que cada unidad de tratamiento haya sido emparejada con una o varias unidades no tratadas (matching), se puede evaluar el impacto del programa calculando sencillamente una diferencia de medias del valor de la variable elegida para medir los resultados del programa entre tratados y no tratados. Debe tenerse en cuenta que después del matching, se dispone de un grupo de tratados y un grupo de no tratados que ya son comparables, porque la metodología PSM ha corregido el sesgo de selección. Estos resultados deben complementarse con un test de equilibrio de las variables utilizadas en el modelo de participación entre los grupos y con un test de robustez de los estimadores. Quizás la cuestión más importante en la aplicación de PSM es comprender en que contextos tiene mayor probabilidad de funcionar siempre que se disponga de datos que permitan aplicarlo. Como ya se ha mencionado, el PSM requiere de dos condiciones fundamentales para la correcta estimación del impacto de un programa. La primera, es el supuesto de independencia condicional (condición de selección en características observables), se mantiene cuando la asignación al tratamiento es determinada únicamente por las características observables. Si es probable que la participación en el programa se derive de factores que no son observables para el investigador, el estimador de emparejamiento (matching) puede ser sesgado. Sin embargo, en presencia de información pre-tratamiento, se puede aplicar una versión modificada, el estimador matching de doble diferencia para corregir algunos de estos sesgos, siempre y cuando el efecto de factores no observados sea fijo en el tiempo. La segunda condición, conocida como supuesto de soporte común, requiere la existencia de un solapamiento importante entre los valores del PS de los tratados y el de los no tratados. Si esta hipótesis no se sostiene, es imposible construir un contrafactual para estimar el impacto del programa. Es crucial, por tanto, evaluar cuidadosamente si estas dos condiciones se cumplen antes de la aplicación del enfoque del PSM que se ha descrito en estas páginas. La comprensión sólida del programa que se trata de evaluar y una fuerte base teórica y conceptual son esenciales para definir si la metodología del PSM es una técnica apropiada para estimar el impacto del programa. Por ello los equipos de evaluación deben contar con profesionales de las diferentes disciplinas que integran el proceso, la evaluación es un trabajo de equipo que precisa personas bien formadas en técnicas cuantitativas que colaboren con los expertos del programa y contribuyan a generar evaluaciones de calidad, creíbles y respetadas. 38 Véase Anexo 1. 39

40

41 Instituto de Estudios Fiscales ANEXOS ANEXO 1. Software libre y alternativas comerciales a STATA para implementar métodos de Matching AN PSAgraphics Es una colección de funciones que realizan gráficos para el análisis propensity score. Desarrollado en R, es software libre. Descrito en profundidad en James E. Helmreich, Robert M. Pruzek (2009). PSAgraphics: An R Package to Support Propensity Score Analysis. Journal of Statistical Software 29(6), cem Stefano Iacus, Gary King, and Giuseppe Porro son los autores de cem (Coarsened Exact Matching), progama desarrollado para R, y también para STATA y para SPSS para estimar efectos causales mediante métodos de matching. Matching Página web para la distribución de Matching, software desarrollado en R para estimar efectos causales mediante propensity score matching. Contiene una gran cantidad de documentación de interés. Matchit Daniel Ho, Kosuke Imai, Gary King, Elizabeth Stuart son los autores de MatchIt, procesos no paramétricos previos a estimaciones paramétricas. Zelig Kosuke Imai, Gary King, Olivia Lau son los autores de Zelig desarrollado en R. Matchit está integrado en R que incluye una colección de análisis estadístico mucho más completa que las técnicas de matching. También puede descargarse de esta página la documentación e instrucciones de instalación de Zelig y un documento con los avances más recientes del producto. rbounds Diseñado por Luke J. Keele con el software Matching desarrollado en R, está orientado al análisis de sensibilidad con el método de Rosenbaum (2002). Puede descargarse de la página de CRAN. SAS Nota técnica. Algoritmo Greedy matching Matching 1:1 vecino mas próximo (nearest neighbor). Documentado en el SUGI: Parsons, L. S. (2001). Reducing bias in a propensity score matched-pair sample using greedy matching techniques.sas SUGI 26, Paper Parsons, L.S. (2005). Using SAS software to perform a case-control match on propensity score in an observational study.sas SUGI 30, Paper

42 Macro Gmatch Emparejamiento de uno o más controles utilizando la macro GREEDY. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: Macro Vmatch Emparejamiento de casos con controles utilizando un algoritmo de matching óptimo. Programada por Kosanke, J., and Bergstralh, E. (2004). Disponible en: Macro Mahalanobis Emparejamiento uno a uno, basado en PS y distancia de Mahalanobis. Programada por Feng, W.W., Jun, Y., and Xu, R. (2005). A method/macro based on propensity score and Mahalanobis distance to reduce bias in treatment comparison in observational study. Disponible en: Modelo de selección ponderado en PS Descrito en Leslie, S. and Thiebaud, P. (2006).Using propensity scores to adjust for treatment selection bias. Disponible en: Procedimientos SAS PROC SURVEYSELECT Descrito en Robby Diseker (2004) SUGI PROC QLIM Descrito en R. Scott Leslie y Hassan Ghomrawi (2008) SAS Global FORUM PROC DISTANCE / PROC CANDISC / PROC DISCRIM SPSS Matching 1:1 vecino mas próximo (nearest neighbor PS matching). Programado por Painter, John. (2004), desarrollado y probado en SPSS Disponible en: EXCEL Aplicación de análisis de sensibilidad realizada por Thomas E. Love, Center for Health Care Research & Policy. Documentado en Thomas E. Love (2008) Simple Sensitivity Analyses for Matched Samples. Disponible en. 42

43 Instituto de Estudios Fiscales ANEXO 2. Direcciones útiles en internet Página de Edwin Leuven Tiene un documento muy interesante de Introducción a STATA. Además de toda la documentación sobre el comando psmath2 y muchas referencias de software libre para análisis econométrico. Página de Guido Imbens Tiene software disponible para implementar estimadores matching y regresión en discontinuidad con STATA y MATLAB. 43

44 Página de Sascha O. Becker Contiene software disponible para implementar estimadores matching con STATA pscore y análisis de sensibilidad nhbounds. Página de Barbara Sianesi Contiene varios trabajos muy interesantes sobre evaluación de impacto aplicando propensity score matching y evaluación con múltiples tratamientos. Coautora del comando de STATA psmatch2. 44

45 Instituto de Estudios Fiscales Página de Andrea Ichino Contiene software disponible para implementar estimadores matching con STATA pscore y análisis de sensibilidad nhbounds. Coautor de los comandos con Becker. Página de Jasjeet S. Sekhon Contiene la dirección de una página especial de software para matching multivariante y propensity score matching a través de la que se que distribuye Matching producto desarrollado en R que se incluye en el apartado de software libre de este documento. Puede descargarse una gran cantidad de información sobre Linux y R y muy interesantes trabajos sobre métodos cuantitativos. 45

46 Página de Thomas Ezra Love Contiene materiales muy interesantes sobre propensity score matching. También muchos enlaces. Página del Banco Mundial De donde se pueden descargar los mejores manuales de evaluación de impacto y muchos otros recursos. Conviene consultarla a menudo. 46

47 Instituto de Estudios Fiscales Página de STATA sheet=stata&output=xml_no_dtd/ Resultado de la búsqueda de documentación para propensity score matching con STATA. Página de The Stata Journal Publicación trimestral que incluye artículos sobre la utilización del software STATA y también sobre técnicas analíticas de datos. Se necesita suscripción para poder descargarlos. Trabajos de interés sobre propensity score matching Vol2 N4 y 8, Vol4 N3, Vol7 N1 3 y 4, Vol8 N3 y 4, Vol9 N4. 47

48 Página de R Permite descargar el software R y toda la documentación necesaria. Entorno de software libre, disponible para Linux, Windows y MacOS X, orientado al análisis estadístico y gráfico, en el que están desarrolladas gran cantidad de aplicaciones para análisis propensity score Una de las más interesantes es el paquete PSAgraphics, que puede descargarse desde la misma página. Página de CRAN Red mundial de ftp y servidores web, que contiene versiones idénticas de código y documentación de R totalmente actualizadas. 48

49 Instituto de Estudios Fiscales Página de SCILAB Software libre para cálculo numérico. Muy parecido a Matlab. Puede descargarse el software y toda la documentación necesaria. Otras direcciones: psmatch2 pscore cem 49