Descubre millones de libros electrónicos, audiolibros y mucho más con una prueba gratuita

Solo $11.99/mes después de la prueba. Puedes cancelar en cualquier momento.

Antología sobre evaluación de impacto: Conceptos y debates sobre causalidad, rigor y validez
Antología sobre evaluación de impacto: Conceptos y debates sobre causalidad, rigor y validez
Antología sobre evaluación de impacto: Conceptos y debates sobre causalidad, rigor y validez
Libro electrónico615 páginas13 horas

Antología sobre evaluación de impacto: Conceptos y debates sobre causalidad, rigor y validez

Calificación: 0 de 5 estrellas

()

Leer la vista previa

Información de este libro electrónico

La evaluación de impacto es un tipo de estudio que permite identificar si las políticas, los programas o proyectos causaron un efecto positivo sobre la población que los recibió. Si partimos de la premisa de que las políticas públicas son instrumentales —medios para alcanzar un fin—, la evaluación de impacto es, en muchos sentidos, su prueba de fue
IdiomaEspañol
Fecha de lanzamiento20 ene 2022
Antología sobre evaluación de impacto: Conceptos y debates sobre causalidad, rigor y validez

Relacionado con Antología sobre evaluación de impacto

Libros electrónicos relacionados

Política pública para usted

Ver más

Artículos relacionados

Comentarios para Antología sobre evaluación de impacto

Calificación: 0 de 5 estrellas
0 calificaciones

0 clasificaciones0 comentarios

¿Qué te pareció?

Toca para calificar

Los comentarios deben tener al menos 10 palabras

    Vista previa del libro

    Antología sobre evaluación de impacto - Walter Williams

    Estudio introductorio

    Gabriela Pérez Yarahuán y Claudia Maldonado Trujillo*

    Felix qui potuit rerum cognoscere causas

    ¡Feliz quien ha podido conocer las causas de las cosas!

    Virgilio¹

    La evaluación de impacto de políticas y programas gubernamentales se distingue por identificar el valor público de una intervención al estimar su efecto causal independiente sobre la población atendida. Si partimos de la premisa de que las políticas públicas son instrumentales por definición —medios para alcanzar un fin (resolver un problema público)—, se puede concluir que la evaluación de impacto es, en muchos sentidos, su prueba de fuego. Por abocarse a la realización de inferencias causales, la evaluación de impacto se considera la joya de la corona de la investigación aplicada y un referente obligado en el movimiento de políticas públicas basadas en evidencia.

    El objetivo fundamental de la investigación aplicada es probar hipótesis y generar evidencia sólida que produzca conocimiento utilizable, que sirva para la innovación y el diseño de intervenciones más eficaces y costo-efectivas. Por esta razón, la reflexión sobre los alcances y límites de la evaluación de impacto conduce, necesariamente, a debates centrales de la filosofía de la ciencia y el debate metodológico especializado: ¿Qué es la evidencia científica y cómo se produce? ¿Cómo deben interpretarse los resultados? ¿Cuál es su ámbito de validez?

    El auge de la evaluación de impacto está en el centro de lo que hoy se conoce como el movimiento de política pública basada en evidencia (evidence-based policy). Éste se refiere a los esfuerzos emprendidos por un conjunto de actores nacionales e internacionales para encauzar a los gobiernos a tomar mejores decisiones a partir de los hallazgos de la investigación relevante y, de esta forma, potenciar el uso de los recursos públicos y generar una rendición de cuentas más efectiva. La evidencia generada por la investigación, además de enfocarse en acciones que contribuyen al bienestar, permite conocer cuáles intervenciones o programas no generan los efectos deseados sobre la población, y de esta manera no desperdiciar recursos escasos en acciones inocuas o contraproducentes. El surgimiento de la política pública basada en evidencia (EBP, por sus siglas en inglés) se debe a tres razones principales (Haskins, 2018). Primero, diversas disciplinas sociales adoptaron métodos de investigación que utilizan principios de la experimentación científica; esta práctica se desarrolló con mayor frecuencia y de manera más sistemática conforme la recolección de datos e información sobre diversos fenómenos económicos, políticos o sociales se tornó más accesible. En los últimos treinta años, la innovación tecnológica ha hecho posible que los costos del levantamiento, la transformación y el procesamiento de datos hayan disminuido considerablemente y, con ello, que una mayor cantidad de investigadores tenga las posibilidades de emprender estudios que comparen poblaciones con diferentes características, incluida su participación en diversas intervenciones. Aunado a esto, el avance en métodos estadísticos y econométricos permite incorporar técnicas para aislar el efecto de las variables de interés y controlar sesgos derivados de otras variables intervinientes en el estudio de fenómenos sociales.²

    La segunda razón por la que hoy se promueve con mayor ímpetu la EBP es la acumulación de estudios a lo largo del tiempo que muestran los resultados de intervenciones similares en contextos diferentes. Ante los cuestionamientos de validez externa de la experimentación (dificultades para generalizar y extrapolar los resultados), han surgido iniciativas internacionales que promueven el análisis y la síntesis de los estudios experimentales sobre intervenciones similares. Dichos metanálisis, también conocidos como revisiones sistemáticas (Uman, 2011) o evaluaciones realistas (Pawson, 2002), proveen una rica fuente de evidencia que puede utilizarse para la toma de decisiones.³

    La tercera razón del auge del movimiento de EBP es que, cada vez más, los funcionarios públicos, representantes gubernamentales y organizaciones de la sociedad civil (OSC) internalizan el concepto de resultados en el discurso público sobre la acción gubernamental. Las transiciones democráticas han promovido que las discusiones sobre el presupuesto sean cada vez más abiertas y que surjan actores sociales que vigilan las decisiones que se toman. Las posturas que proponen que ciertos programas reciban financiamiento público gozan, en general, de mayor legitimidad cuando se basan en evidencia.

    Las crisis fiscales y económicas de la década de 1970 dieron pie en algunos países, entre ellos el Reino Unido, a una serie de cambios en las formas de organización y actuación de los aparatos gubernamentales. Se extendió entonces la idea de una gestión pública diferente, que reemplazaba las formas tradicionales de la administración pública que había enfatizado la centralización, el control y la vigilancia de los procesos. La aplicación de la nueva gestión pública (Hood, 1991) y su énfasis en la creación de valor público ha puesto atención a los impactos que genera la acción gubernamental. La adopción de la perspectiva de resultados ha fortalecido el papel de la evaluación de programas en la gestión pública contemporánea, ha detonado un aumento en la demanda de información sobre resultados y evidencia creíble y rigurosa sobre los efectos de las intervenciones y, también, ha contribuido a que se incorpore un lenguaje científico más especializado en el discurso y la reflexión gubernamentales. La investigación ha cobrado mayor relevancia para documentar la racionalidad y eficacia del gobierno, debido a la utilidad que tiene para justificar y legitimar sus acciones.

    Aunque con características propias y trayectorias diferenciadas, los países de América Latina también iniciaron reformas inspiradas en la nueva gestión pública en respuesta a las crisis y el creciente descontento ciudadano con el desempeño gubernamental, y adoptaron medidas para transitar a la gestión para resultados (GpR) como nuevo paradigma gubernamental. La GpR supone mucho más que realizar evaluaciones de impacto,⁴ pero sin duda ha contribuido a destacar su importancia.

    El Centro para el Aprendizaje en Evaluación y Resultados de América Latina y el Caribe (CLEAR LAC, por sus siglas en inglés) forma parte de una iniciativa global dedicada al fortalecimiento de capacidades en evaluación, monitoreo y gestión para resultados. La convicción del conjunto de donadores que hizo posible el establecimiento de seis centros,⁵ todos albergados en instituciones académicas de reconocido prestigio alrededor del mundo, es que las políticas públicas sustentadas en sistemas de monitoreo y evaluación son más efectivas, porque tienen como fundamento la información y la evidencia derivadas de la aplicación de métodos de investigación científica rigurosa, particularmente la evaluación.

    La visión que inspira a CLEAR es promover una comunidad de aprendizaje robusta y un diálogo informado mediante una red de centros que combinen la apropiación regional con la vocación por el aprendizaje internacional como estrategia de formación de capacidades. En la literatura sobre formación de capacidades, se incluyen atributos a nivel individual y organizacional sobre la conciencia o percepción de la importancia de la evaluación, así como actitudes, conocimiento, liderazgo, cultura, integración y recursos (Labin et al., 2012). Estos atributos se consideran indispensables para la construcción de sistemas de monitoreo y evaluación que influyan en el proceso decisorio de las políticas públicas. Por ello, es necesario considerar la adquisición y el perfeccionamiento de diversas capacidades y la participación de un conjunto de actores que conforman la oferta y la demanda de los productos del monitoreo y la evaluación. Dichas capacidades requieren el despliegue de un lenguaje común que proporcione los elementos para que los diferentes actores en la esfera política y administrativa puedan colaborar en la construcción y continua utilización de información derivada de los sistemas de monitoreo y la evaluación en el ciclo de políticas públicas.

    En los países de América Latina, cuya tradición evaluativa es reciente, la construcción de este lenguaje común representa retos adicionales. En primer lugar, son democracias jóvenes con dinámicas de competencia político-electoral de corto plazo que inhiben la práctica evaluativa. En segundo, la mayoría de las fuentes de información sobre evaluación no se encuentran disponibles en español y los pocos espacios institucionales han limitado la formación teórica y práctica en evaluación. En tercer lugar, el incipiente desarrollo, la institucionalidad y los recursos para la investigación en las organizaciones de la sociedad civil, frente a la preponderancia y centralidad del aparato gubernamental, han restringido los espacios naturales para el progreso de la teoría y la práctica de la evaluación.

    En este contexto, CLEAR lanzó en 2015 la serie de antologías CIDE-CLEAR, dedicada a difundir textos que son referentes clave y presentan los debates fundamentales de la evaluación como disciplina entre un público más amplio en América Latina. Nuestro objetivo es contribuir a la formación y fortalecimiento de capacidades, abonando al acervo bibliográfico en lengua española sobre aspectos indispensables para la comprensión de la teoría y la práctica evaluativas. Buscamos, con esto, reducir las brechas de conocimiento para fomentar un debate informado y necesario, así como también proporcionar material útil para la enseñanza de la evaluación.

    La primera antología (Maldonado y Pérez Yarahuán, 2015) reunió traducciones al español de un conjunto diverso de textos canónicos en el debate anglosajón sobre la emergencia, el ethos y el telos de la evaluación como disciplina y como práctica de los regímenes democráticos. Esta segunda antología buscar reducir no sólo la barrera del idioma, sino aquella asociada con el lenguaje metodológico especializado de los debates sobre evaluación de impacto cuantitativa. Además de ayudar a comprender los métodos que se usan para generar inferencias causales válidas mediante la construcción de un contrafactual, los textos seleccionados ilustran un debate sofisticado en torno a la teoría y la práctica de la evaluación de impacto.

    Causalidad, experimentación y evaluación de impacto cuasiexperimental

    La evaluación de impacto es inseparable del concepto de causalidad, ya que utiliza diversos métodos de la investigación científica para afirmar si una intervención determinada (subsidio, impuesto, regulación o cualquier tipo de intervención intencional) produce los cambios esperados en la población. Por esta razón, la evaluación de impacto es el tipo de evaluación más cercano a los debates epistemológicos y metodológicos de las ciencias aplicadas, y también el motivo de intensos cuestionamientos éticos y políticos en torno al papel de la experimentación social en políticas públicas.

    Causalidad

    David Hume (1711-1776) decía que la causalidad era el cemento del universo. La idea de causalidad es inherente al pensamiento humano en su búsqueda por dar sentido al mundo que lo rodea. La búsqueda de las causas de diversos acontecimientos o fenómenos naturales y sociales está profundamente arraigada en nuestra psique. En palabras de Kahneman (2011: 115), somos buscadores de patrones, creyentes en un mundo coherente, en el que las regularidades no aparecen por accidente sino como resultado de una causalidad mecánica o una intención.

    En la Grecia antigua, la causa —el sustantivo aitia— equivalía a la razón o explicación de un acontecimiento. En su sentido original, ésta implicaba también atribuir la responsabilidad con el objetivo de encontrar fallas o dar crédito. En los debates clásicos sobre las causas de las cosas, aitia se refería a la identificación o identidad de las causas, pero también y, de manera fundamental, a aquello que cuenta como explicación (Broadie, 2009). En la Edad Media, el debate sobre causalidad se ocupó de las primeras causas. La causa esencial de Tomás de Aquino conducía a la idea de Dios como origen de todas las cosas, materiales e inmateriales (Marenbon, 2009).

    El debate contemporáneo sobre causalidad es producto de la Ilustración. No obstante, la filosofía idealista de Kant, por ejemplo, niega la existencia objetiva de la causalidad por considerarla una categoría subjetiva, una aportación de la conciencia humana a la naturaleza (Kant, 2009). David Hume, referencia obligada en este debate, planteaba que todos los objetos que se consideran causa y efecto son contiguos, y nada puede operar en un tiempo o lugar que se halle separado del de su propia existencia (Hume, 2001: 70). Destacó la contigüidad, la precedencia (la causa es siempre anterior al efecto) y la unión constante como condiciones indispensables de la relación de causa y efecto. John Stuart Mill (1882), por su parte, entiende la causalidad como la asociación regular e incondicional de dos eventos. Una causa representa la conjunción completa de las condiciones necesarias y suficientes para que ocurra el efecto, y es revelada por la observación, de manera inductiva. El filósofo Bertrand Russell concibe la causalidad como un principio universal e introduce el concepto de línea causal como la serie temporal de eventos relacionados de tal forma que, dado uno de ellos, algo puede inferirse sobre los otros (Russell, 1948: 459). Para Russell, la causalidad supone que "dado cualquier evento, e1, existe un evento e2 y un intervalo de tiempo r tal que, cuando ocurre e1, le sigue e2 después de un intervalo r" (Russell, 1919:184).

    Los deductivistas lógicos, como Hempel y Oppenheim, analizan la naturaleza de la explicación causal como una relación lógica y empírica entre un explanans (la variable explicativa) y un explanandum (aquella que se desea explicar). Una explicación causal completa es producto del razonamiento deductivo y se convierte en una adecuada predicción (Hempel y Oppenheim, 1948).

    Brady (2011) sintetiza la evolución del concepto de causalidad en cuatro perspectivas provenientes de la filosofía y la estadística: 1) la existencia de una regularidad en el vínculo de causas y efectos (teorías de regularidad), 2) la ausencia de efecto cuando la causa no se presenta (teorías contrafactuales), 3) la presencia del efecto cuando la causa es el resultado de una intención explícita (teorías intencionales), 4) la existencia de mecanismos (actividades y procesos) que vinculan causas con efectos (teorías de proceso causal). A esta clasificación pueden agregarse las teorías probabilísticas.

    El primer enfoque se deriva de los estudios correlacionales, procedentes de la teoría de Hume, que conceptualizan la causalidad no sólo como una secuencia temporal y adyacente entre dos fenómenos o sucesos, sino principalmente como la existencia de regularidad en la asociación. Desde esta perspectiva se afirma que existe una relación de causalidad entre dos hechos cuando a uno le sucede el otro invariablemente. Sin embargo, el concepto de Hume no plantea la existencia explícita de un mecanismo entre causas y efectos. Es decir, para él es suficiente que un fenómeno se presente de forma previa y adyacente a otro, y que los dos se observen de manera constante para establecer que existe causalidad entre el que ocurre primero (causa) y el que ocurre después (efecto). El concepto causa-efecto con base en la regularidad de Hume fue la perspectiva dominante de causalidad en el siglo XIX y parte del XX (Brady, 2011).

    El concepto de causalidad entendido principalmente como regularidad es cuestionable, porque su planteamiento establece una propiedad de simetría entre causa y efecto, y porque ignora las relaciones subyacentes o los mecanismos de la relación causal. La propiedad de simetría se presenta en esta concepción de causalidad porque sólo supone que se generará determinado efecto en presencia de una causa, pero no requiere que en ausencia del efecto la causa no se presente. Aunque se puede argumentar que, en la teoría de Hume, el requisito de precedencia temporal de la causa sobre el efecto puede acercarse a la propiedad de asimetría de causalidad, esto no necesariamente resuelve el problema. Se puede encontrar una regularidad entre dos hechos, uno precediendo al otro, y tener un tercer hecho que precede a los anteriores como el factor de la causa de los dos posteriores. Un ejemplo de esta situación es un estudio (Quinn et al., 1999) en el que se afirmaba haber probado que los infantes que dormían mientras se dejaba prendida una luz nocturna eran más propensos a desarrollar miopía. Un estudio posterior encontró que los padres que padecen miopía, debido a su discapacidad visual, son más propensos a dejar luces nocturnas prendidas en el cuarto de los niños, y que la miopía es una condición heredada genéticamente (Gwiazda et al., 2000). En este caso, el factor causal de la miopía en los niños es la herencia genética de los padres, por lo que no existe causalidad entre la luz nocturna y la miopía desarrollada en los niños. El enfoque de regularidad de Hume identifica una condición necesaria para la causalidad, pero no concluyente en el concepto, ya que la simple asociación regular no significa causalidad.

    Para afirmar causalidad no basta con observar una correlación regular; también es necesario que exista una relación asimétrica lógica entre causa y efecto. Es decir, que ante la presencia de la causa se produzca el efecto, pero que el efecto no se produzca si la causa no se presenta.⁶ Esta relación asimétrica entre causa y efecto es la clave para el desarrollo del concepto de contrafactual utilizado en las evaluaciones de impacto cuantitativas. El desarrollo más acabado del concepto contrafactual y su vinculación con la causalidad se encuentra en el trabajo del filósofo David Lewis (1973). El significado literal de contrafactual es una situación ajena a la realidad observada. El contrafactual se entiende como un enunciado, típicamente expresado en modo subjuntivo, en el que una premisa que contiene un hecho falso es seguida por una afirmación acerca de lo que habría pasado si el hecho hubiera sido verdadero (Brady, 2011). Por ejemplo, si el Programa A no se hubiera implementado, la asistencia escolar habría sido menor. Existe una relación directa entre el enunciado contrafactual y la causalidad, pues la implicación directa es que la causa del aumento en la asistencia escolar es el Programa A.

    El enfoque de Lewis sobre la relación entre el contrafactual y la causalidad supone que, si existen dos hechos o situaciones, llamémosles X y Y, se puede afirmar que X es la causa de Y si y sólo si las siguientes dos premisas son verdaderas: 1) si ocurre X, entonces ocurre Y; 2) si no ocurre X, entonces no ocurre Y. La razón para argumentar que sólo existe causalidad si estas dos premisas son verdaderas es que, si Y ocurre en ausencia de X, entonces debe haber otras causas de la ocurrencia de Y. En el caso sobre la miopía infantil, se demostró que los niños de padres miopes padecen miopía incluso si no están expuestos a la luz durante la noche.

    La noción contrafactual de causalidad nos permite evitar la llamada falacia de la atribución, que consiste en confundir una subsecuencia (un evento posterior) con una consecuencia (un efecto) al atribuir causalidad donde sólo hay contigüidad o correlación. La vinculación del concepto de causalidad con el contrafactual tiene la gran ventaja de que el requisito de regularidad observada, de lo que se supone causa y efecto, no es indispensable y, de esta manera, permite probar hipótesis de forma empírica sobre la causalidad entre hechos no observados previamente. Esto es útil para las innovaciones de políticas y programas públicos.

    En nuestro ejemplo, se podría decir que el Programa A es la causa del aumento en la asistencia escolar si y sólo si podemos probar que 1) el Programa A se implementó y la asistencia escolar aumentó y 2) el Programa A no se implementó y la asistencia escolar no aumentó. El problema del contrafactual para la investigación aplicada es evidente: resulta imposible observar estas dos situaciones al mismo tiempo. En la realidad, el Programa A se implementa o no. ¿Cómo se puede probar, entonces, que el Programa A es la causa del incremento en la asistencia escolar?

    La solución de Lewis al problema fundamental de la inferencia causal es realizar la comparación de los escenarios o los mundos más similares en donde las causas, X, no estén presentes; es decir, debe ser cierto que, en el mundo más similar donde no se implementa el Programa A, la asistencia escolar no aumenta. Si esto es cierto, entonces podemos atribuir el efecto X (el aumento en la asistencia escolar) a la causa Y (el Programa A). Pero ¿qué significa el mundo más similar? Ante la imposibilidad de manipular la mecánica cuántica y observar universos paralelos, ¿cómo podemos analizar lo que pasa en ese mundo más similar?

    Experimentación

    El diseño experimental en la investigación es una de las soluciones empleadas para enfrentar el dilema del contrafactual. Los experimentos puros, de laboratorio tradicional, permiten aislar e identificar los efectos causales porque permiten controlar las condiciones físicas, químicas, ambientales, etc. (covariables); es decir, descartar hipótesis alternativas, de tal forma que los sujetos u objetos de la experimentación sólo puedan verse afectados por aquello que intencionalmente quiere probarse como la causa de un efecto observado.⁷ En este tipo de investigación se realizan pruebas con sujetos u objetos idénticos, en los que se aplica o no determinado tratamiento para observar los cambios que éste genera en ellos. De esta forma, se puede atribuir el cambio observado a la variable manipulada (el tratamiento) e identificar así un efecto causal independiente.

    Los experimentos de laboratorio provienen de la física y la química del siglo XIX. En el mundo social, es prácticamente imposible replicar ese tipo de condiciones. No es factible generar de manera artificial un entorno en el que estén controlados todos los elementos sociales, culturales o políticos que puedan afectar el comportamiento de los individuos en sociedad, ni otros factores ambientales o físicos que directa o indirectamente pudieran afectar el resultado del tratamiento o programa que se desea poner a prueba. Una de las soluciones a esta imposibilidad, adoptada en las ciencias sociales aplicadas con mucho entusiasmo, es la experimentación en campo.

    Todo experimento compara dos situaciones o grupos diferentes; uno de ellos ha sido sometido a un cambio intencional mientras que el otro no. El objetivo de todo experimento es medir las diferencias entre uno y otro, partiendo del supuesto de que en ambos casos las circunstancias son exactamente las mismas (el mundo más similar). La experimentación en campo consiste en generar grupos de comparación mediante la aleatorización. Esto significa que la población de interés se divide en grupos mediante un mecanismo no determinista en el que cada unidad de la población tiene la misma probabilidad de ser seleccionada para recibir el tratamiento (programa o intervención). Con base en esta selección aleatoria se procede, entonces, a aplicar el tratamiento sólo a quienes hayan resultado seleccionados, y después de un tiempo se comparan los resultados que obtuvo el grupo que recibió el tratamiento con los resultados del grupo que no lo recibió (grupo de control). La teoría de la probabilidad se convierte en el fundamento para hacer inferencias estadísticas sobre las diferencias promedio observadas entre el grupo de tratamiento y el de control seleccionados de manera aleatoria.

    Se ha argumentado ampliamente que ésta es la metodología más robusta para estimar el impacto de un programa y, por lo tanto, para comprobar la existencia de una relación de causa-efecto en contextos sociales. En primer lugar, porque la aleatorización permite eliminar el sesgo de selección tanto en las características observables como en las no observables de las unidades de la población estudiada, lo que permite construir un grupo de control que constituye un contrafactual válido para el grupo de tratamiento. En otras palabras, la aleatorización permite descartar que existan diferencias entre el grupo de tratamiento y el de control que pudieran influir en la variable de resultado y, por lo tanto, todo cambio que llegue a observarse en la variable de resultado puede atribuirse al tratamiento. En segundo lugar, porque el control experimental maximiza la posibilidad de descartar hipótesis alternativas mediante la manipulación discreta (dicotómica) de la variable de interés.

    Los experimentos, o ensayos controlados aleatorizados (RCT, por sus siglas en inglés), se han utilizado de manera sistemática en diferentes ramas de la ciencia, sobre todo en la medicina, que ha sido pionera en aplicar dichas técnicas de investigación. Para la economía y las políticas públicas, su uso es de más reciente data (Levitt y List, 2008). Su utilización en la agricultura en las décadas de 1920 y 1930 se centró en estudiar la productividad del campo. Fue entonces cuando se comenzó a utilizar de manera sistemática la aleatorización para seleccionar predios en los que se aplicaba algún tratamiento (fertilizantes, semillas, formas de riego, etc.) y otros en los que no, con el fin de comparar mediciones de los resultados en la productividad (Fisher, 1935).

    Los experimentos sociales comenzaron a desarrollarse a partir de la década de 1960. Existen ejemplos sobre las tarifas eléctricas en Gran Bretaña y sobre servicios para el empleo en Suecia (Levitt y List, 2008). En Estados Unidos, uno de los más citados en la literatura, por ser el primero que utilizó la aleatorización a gran escala en la población estadounidense para un programa social, fue el estudio experimental del impuesto negativo sobre la renta. Su objetivo era medir los efectos (empleo, consumo, gasto, movilidad social) de una compensación monetaria que el gobierno ofrecía a familias con ingresos que estuvieran entre 50 y 125 por ciento de la línea de pobreza (Ross, 1970). A partir de este experimento a gran escala, se realizaron cientos de evaluaciones de tipo experimental en una variedad de políticas públicas, como capacitaciones para el empleo, tarifas eléctricas, sistemas de seguros médicos, subsidios a la vivienda, etcétera (Hausman y Wise, 1986).

    La evaluación experimental de programas públicos supone una gran promesa para la investigación aplicada y la gestión pública. En primer lugar, ofrece la credibilidad y transparencia del rigor científico que proviene del método experimental en sí (y sus variantes cuasiexperimentales). En segundo lugar, permite rendir cuentas a los ciudadanos por los resultados (outcomes) de las políticas y no por sus productos (outputs). En tercer lugar, conduce a mejorar la toma decisiones al prevenir utilizar recursos públicos en intervenciones que no funcionan y promover la adopción de mejores programas basados en evidencia de impacto. Por último, usar este tipo de herramientas para la evaluación de programas ofrece la posibilidad de materializar el sueño de Campbell: convertirnos en una sociedad que experimenta, en constante proceso de auto-mejora mediante la innovación y la experimentación.

    En las últimas cinco décadas, la experimentación en diferentes aspectos de interés para las ciencias sociales se ha extendido como uno de los métodos de investigación social con mayor atractivo y legitimidad. Miles de experimentos sociales se han realizado en universidades, centros de investigación aplicada, organismos financieros internacionales y consultorías privadas. Existen organizaciones, como la Manpower Demonstration Research Corporation (MDRC), el Abdul Latif Jameel Poverty Action Lab (J-PAL) y la International Initiative for Impact Evaluation (3ie), que realizan RCT como estrategia de evaluación de impacto para la toma de decisiones y los promueven como el estándar de oro de la investigación científica. Existen más de cien laboratorios que se dedican a la experimentación con el fin de probar diversas intervenciones de política pública (Fuller y Lochard, 2016; Williamson, 2015). La gran aspiración de algunas de estas organizaciones es que la proliferación de este tipo de estrategias permitirá acumular conocimiento generalizable sobre qué funciona y qué no como un bien público internacional, y que esto permitirá racionalizar la movilización de recursos públicos para la atención de problemas sociales. Esta evidencia sobre la efectividad de las intervenciones, al internalizarse en la toma de decisiones y difundirse en todo el mundo, permitiría resolver grandes problemas globales, como la pobreza extrema.

    Vale la pena señalar que existen diferentes tipos de experimentos, con distintos propósitos y metodologías. En un tipo de experimento, se invita a los sujetos a participar en un ambiente controlado en el que son divididos de manera aleatoria y deben tomar decisiones sobre situaciones que se les presentan. Este tipo de experimentos se ha utilizado para investigar aspectos sobre el comportamiento vinculados con la teoría de juegos (Camerer, 2003) y la psicología. Otro tipo de experimentos son aquellos que no se llevan a cabo en una situación controlada como la anterior, sino en campo. En este tipo de experimentos, se selecciona a los sujetos previamente para el experimento, se les informa de su participación y se distribuyen de manera aleatoria; la intervención se aplica en circunstancias usuales que enfrentan los sujetos. La intención del experimento, en ambos casos, es observar y medir las diferencias entre los participantes a partir de su exposición (o no) a determinada intervención. Se pueden consultar ejemplos del segundo tipo de experimento en el trabajo de J-PAL. Un tercer tipo es el experimento natural, en donde los sujetos están divididos en dos grupos homogéneos por circunstancias espontáneas, y uno de ellos está expuesto a una intervención mientras el otro no. Este tipo de experimento natural se ha usado, por ejemplo, para estimar los efectos de la contaminación en la salud de los habitantes de dos poblaciones diferentes, pero adyacentes, que enfrentan políticas medioambientales diferentes (Chen et al., 2013). Un ejemplo en el contexto mexicano es la evaluación del impacto —en parámetros de salud y bienestar— de colocar pisos firmes en viviendas de hogares en zonas marginadas. En 2005, una evaluación de impacto aprovechó el hecho de que dos ciudades colindantes, pero que pertenecían a diferentes entidades federativas del país, se diferenciaban porque en una de ellas el gobierno estatal había instrumentado el programa Piso Firme (Cattaneo et al., 2009).

    Como se ha visto, un elemento constitutivo de la experimentación social es la comparación de grupos similares para generar el contrafactual y atribuir causalidad a la intervención. La aleatorización ha sido el mecanismo utilizado para construir el contrafactual; por lo tanto, un entendimiento claro de este mecanismo es esencial para la evaluación de impacto. Un experimento en campo debe considerar diferentes elementos, como los niveles a los que se realizará la aleatorización (individual, organizacional o geográfico), las variables tomadas en cuenta para seleccionar a la población que conformará el experimento, la posibilidad de que haya efectos indirectos en los sujetos no seleccionados, la deserción de algunos sujetos del experimento, etcétera.

    En las ciencias sociales, los RCT se acercan, más que cualquier otro método de investigación, al modelo aspiracional de cientificidad y predicción, proveniente de la física del siglo XIX. El argumento de superioridad de los estudios experimentales sobre otros diseños metodológicos se sustenta en la construcción del contrafactual por medio de la aleatorización, que posibilita aislar otras variables intervinientes. La postura de superioridad del método experimental se fortaleció con estudios que mostraban los sesgos e imprecisiones comunes en las estrategias observacionales (LaLonde, 1986) y con afirmaciones, un tanto extremas, de que los ensayos controlados aleatorizados permiten dirimir conflictos ideológicos y políticos (la neutralidad e inobjetabilidad de la evidencia experimental).

    Evaluación de impacto cuasiexperimental

    A pesar de que la evaluación de impacto experimental ha logrado colocarse para muchos como el estándar de oro de la investigación social, existen críticas importantes que ponen en duda su estatus como el único método riguroso. Las críticas provienen de importantes voces de la academia, cuyos textos aparecen en este libro.

    Las principales críticas a los RCT en general se agrupan en dos grandes categorías: validez interna y validez externa. La primera se refiere, por una parte, a que al aleatorizar los grupos sean verdaderamente equivalentes en todas las variables que pudieran afectar el resultado de interés; por otra parte, se refiere también a la inocuidad en el comportamiento de los individuos por su participación en el estudio: el supuesto de que la alteración no genera expectativas y que no existe contaminación del tratamiento o posibles efectos secundarios en los no tratados. La segunda categoría —validez externa— alude a la factibilidad de establecer generalizaciones a partir de los resultados observados en el estudio, ya que los experimentos se aplican a un subconjunto específico de sujetos que puede tener características y contextos distintos del resto de la población para la que se quiere generalizar.

    Existen otras razones para argumentar en contra de los ensayos controlados aleatorizados como el estándar de oro de la evaluación de impacto. Una de ellas es su falta de poder explicativo: los RCT estiman si un resultado de interés mejoró o no, pero no permiten saber por qué. Dicen de qué tamaño son las diferencias estimadas entre el grupo de tratamiento y el de control, pero no las razones por las cuales se encontraron esas diferencias. Es decir, sirven para conocer la dirección y magnitud del efecto (qué funciona), pero no para comprender la lógica de la causalidad (por qué funciona) (Heckman y Smith, 1995).

    La aleatorización no es la única manera de investigar la causalidad. Más aún, las posibilidades de realizar evaluaciones experimentales con aleatorización intencional a gran escala son, en el mejor de los casos, escasas; en su camino se interponen cuestionamientos éticos, la visión de corto plazo de los gobiernos y su limitada capacidad instrumental para llevarlas a cabo. Los métodos de evaluación cuasiexperimentales, al igual que los experimentales, prueban hipótesis sobre intervenciones en grupos con y sin tratamiento, pero dichos grupos no se seleccionan de manera aleatoria. Además de su mayor factibilidad de instrumentación, los estudios cuasiexperimentales (también llamados observacionales) tienen diversas ventajas: la información que utilizan se basa en situaciones reales, por lo que su validez externa es mayor que en los escenarios artificiales creados por los experimentos; también son útiles para identificar tendencias y poner a prueba teorías previas, y sus hallazgos pueden ayudar a corroborar aquellos derivados de estudios de caso.

    La evaluación de impacto cuasiexperimental no está exenta de retos. Uno de los más estudiados es la presencia del sesgo de selección, es decir, la existencia de diferencias sistemáticas en características no observables entre el grupo de tratamiento y el de control. Esto sucede cuando el proceso de selección en alguno de los grupos es motivado por variables o características de los individuos que afectan el resultado de la intervención, pero que no pueden incorporarse de manera explícita en las estimaciones por ser características desconocidas o de las que no se tienen datos, o bien imposibles de medir. Para resolver este problema, la innovación en la econometría ha proporcionado métodos para estimar los impactos de intervenciones con grados de precisión estadística aceptables, entre ellos el método de variables instrumentales, la regresión discontinua y el emparejamiento o matching. Otro reto, considerado por algunos como virtud, es que la creación de modelos debe responder a teorías previamente estructuradas sobre el comportamiento de los sujetos incluidos, con la consecuente implicación de incluir la gama de variables intervinientes.

    Una de las condiciones indispensables para estimar el efecto causal con métodos cuasiexperimentales es que existan bases de datos detalladas con las que se puedan identificar todas las variables incluidas en los modelos estimados, tanto para las poblaciones que reciben como para las que no reciben la intervención. Esto puede ser un reto serio, sobre todo en sistemas de monitoreo deficientes o ante la falta de sistemas de información accesibles, consistentes y articulados.

    Apuntes sobre las contribuciones incluidas en este tomo

    La evaluación de impacto es una herramienta fundamental de la gestión para resultados y la política pública basada en evidencia. Al mismo tiempo, es el tipo de evaluación que se utiliza con menos frecuencia, a pesar de su innegable contribución a la generación de conocimiento sobre qué funciona. Entre otros factores, destacan los incentivos políticos que impiden la realización de pruebas piloto aleatorizadas de programas nuevos y las dificultades logísticas de la realización de experimentos internamente válidos en la práctica, así como el hecho de que las estrategias cuasiexperimentales son muy intensivas en datos y no están completamente exentas de la sospecha de sesgos. También se ha argumentado que las evaluaciones más rigurosas no logran producir resultados a tiempo para la toma de decisiones o generan hallazgos triviales, que no son utilizables desde el punto de vista del tomador de decisiones.

    Sin duda, un factor adicional que explica la suboferta y subutilización de las evaluaciones de impacto tiene que ver con su alto nivel de especialización. Hasta tiempos recientes, adquirir las herramientas, el lenguaje y el conocimiento necesarios para realizar este tipo de evaluación e interpretar sus resultados de manera válida suponía una formación de posgrado en economía, estadística y disciplinas afines, y el acceso a una literatura especializada escrita en otro idioma (sobre todo en inglés).

    Una formación completa en evaluación pasa, necesariamente, por el manejo sofisticado de los conceptos, las herramientas y las implicaciones de las evaluaciones de impacto cuantitativas. Por esta razón, decidimos dedicar esta segunda antología a este importante tema, para contribuir a reducir barreras de entrada. Para la selección de textos, tuvimos que tomar decisiones difíciles para preservar la vocación de esta antología. Optamos por privilegiar una aproximación profunda y, al mismo tiempo, crítica y diversa de un tema acotado, en vez de discutir todas las variantes y los enfoques utilizados para la evaluación de impacto. Buscamos realizar una selección que permitiera a los lectores conocer los elementos imprescindibles del debate intraparadigmático sobre la evaluación de impacto cuantitativa.

    Por cuestiones de extensión y alcance, en este volumen no se aborda la llamada guerra de paradigmas (enfoques cuantitativos vs. cualitativos); se destaca, en cambio, la deseabilidad de adoptar métodos mixtos anclados en la pregunta, no en el método (Bamberger et al., 2010). Partimos de la premisa de que, para cualquier discusión útil en torno a este debate, es necesario primero conocer a fondo los atributos de cada paradigma. Por esta razón, en este volumen se hace alusión exclusiva a la evaluación cuantitativa, sin que esto implique un juicio de ninguna índole sobre la evaluación de impacto cualitativa.

    Al mismo tiempo, buscamos ofrecer una mirada crítica y diversa del debate sobre evaluación de impacto, y tratamos de evitar dos peligros comunes en la discusión: por un lado, las críticas y descalificaciones de carácter político, y las que caricaturizan el método utilizado; por otro, las críticas que parten de posicionamientos epistemológicos distintos (por ejemplo, la crítica constructivista al modelo de causalidad) por tratarse de cuestiones metateóricas.

    Para contribuir a la formación en evaluación de impacto cuantitativa y a un diálogo informado sobre sus alcances y límites, seleccionamos un conjunto de textos representativos, pedagógicos y diversos que permitan al lector familiarizarse con los conceptos básicos⁹ de la evaluación de impacto basada en el enfoque experimental, con la suficiente profundidad para valorar y ponderar las numerosas críticas que han surgido en reacción a la presunción de superioridad del método experimental. Los autores de estos textos son todos conocidos y reconocidos en la teoría y la práctica del análisis de políticas, la evaluación de impacto, la economía del desarrollo y la filosofía de la ciencia. Sus textos plantean visiones, propuestas y cuestionamientos serios y sofisticados que han tenido influencia en las discusiones metodológicas de la disciplina y la comunidad de práctica.

    Este tomo abre con un texto fundacional de Donald T. Campbell que articula de manera extraordinaria la imaginación y visión políticas detrás de la apuesta por el método que crea la evaluación de impacto. Por el lenguaje técnico especializado que caracteriza a la evaluación de impacto, con frecuencia se olvida que se trata de una herramienta técnica que responde a retos eminentemente políticos: el aprendizaje sobre la eficacia gubernamental, el uso eficiente de los recursos públicos y la rendición de cuentas al ciudadano. En ese sentido, la evaluación de impacto está directamente relacionada con las exigencias de la gobernanza democrática. Más que una herramienta tecnocrática, la evaluación rigurosa de impacto es una apuesta democrática e ilustrada. En muchos sentidos, Campbell es para la evaluación de impacto lo que Lasswell para el enfoque de políticas públicas: el padre fundador que hace una apuesta metodológica y disciplinaria con un ambicioso proyecto político.

    Donald Campbell fue un incansable defensor de utilizar la investigación científica para el avance social. Su perspectiva multidisciplinaria le permitió un enfoque amplio sobre las formas de impulsar el cambio social utilizando el conocimiento. En el texto incluido en esta antología, originalmente escrito en 1969 pero publicado en 1991, el autor describe ampliamente las características deseables de una sociedad idealizada que progresa a través de la experimentación. El ideal de una sociedad es el que pone a prueba soluciones a problemas sociales recurrentes a través de evaluaciones multidimensionales bien diseñadas. La propuesta de Campbell alude a la construcción de una ideología para el sistema político. Los atributos que esta sociedad debe poseer son la acción, la honestidad, la apertura, la aplicación de la ciencia, la rendición de cuentas, la aceptación de la crítica y el apego a los procesos, la descentralización, el idealismo de medios y fines, y la responsabilidad social. La sociedad que experimenta es una sociedad que prefiere la innovación a la inercia, una sociedad abierta en términos de Popper. Una sociedad que mantenga los valores de honestidad, crítica, apertura, experimentación y la aceptación del cambio ante la presentación de evidencia.

    En este artículo, Campbell habla extensamente de la evaluación utilizando experimentos, de sus virtudes y sus retos, entre los que menciona las formas imperfectas de medición de bienestar o calidad de vida, y los retos para la validez interna y externa de la evaluación de impacto. Igualmente, destaca un reto de la mayor importancia: cómo integrar la evidencia generada para la toma de decisiones. Campbell aboga por incorporar mecanismos en el poder legislativo para informar las decisiones a partir de la evidencia generada por la sociedad que experimenta.

    El artículo de Henry W. Riecken y sus colaboradores hace una pregunta muy pertinente que puede pasar desapercibida a primera vista en la evaluación de impacto, y que está en el trasfondo de la experimentación social: ¿Cuál es su propósito concreto? O bien, ¿de qué manera puede contribuir la experimentación a mejorar las políticas públicas?

    En este breve texto, los autores proponen un continuum de objetivos, que en realidad se estructura como una lista útil de objetivos principales por los que deberíamos experimentar en el ámbito de los programas públicos. Primero, es necesario probar la hipótesis básica causa-efecto del insumo específico que será la base de la intervención; por ejemplo, es necesario comprobar que un complemento alimenticio tiene efecto sobre el desarrollo cognitivo de los niños, o que el tamaño del grupo en un salón de clases tiene efectos sobre el rendimiento escolar. Una vez probada la hipótesis básica, es necesario verificar si existen mecanismos para que los insumos se transformen en el resultado deseado. Así, por ejemplo, no basta con saber si el complemento alimenticio tiene efectos sobre la nutrición si no se evalúa si dicho complemento se adapta a las condiciones de consumo de los hogares o si no se ingiere de la manera adecuada. El argumento es que es necesario evaluar, mediante la experimentación, que el programa contemple los elementos necesarios para hacer efectivo el cambio deseado, es decir, probar la teoría de cambio del programa. Otro tipo de experimentos tiene que ver con el desarrollo general del programa; en este tipo, lo que se intenta demostrar es el funcionamiento de los componentes del programa. Con estos experimentos se pueden evaluar variaciones o intensidades del programa; por ejemplo, se podría probar si impartir talleres a las madres de familia produce mejores efectos sobre la nutrición infantil en las familias que los programas que distribuyen dichos beneficios, en comparación con un grupo al que no se imparten dichos talleres. Un tercer tipo de experimentos tiene que ver con probar entre diseños alternativos; las familias podrían seleccionar entre escoger diferentes talleres de educación sobre nutrición, obtener despensas alimentarias o complementos alimenticios. La evaluación consistiría en determinar cuál de estos tratamientos tiene mejores efectos sobre la nutrición infantil. Otro tipo de experimentos busca estimar los valores críticos de ciertos parámetros; en este tipo de experimentos, se podría evaluar si la frecuencia o duración de talleres de nutrición tiene un efecto diferenciado sobre la nutrición infantil.

    La contribución de este texto es que presenta la experimentación como una parte integral del ciclo de políticas públicas, al contribuir a la planeación, implementación, demostración y ajuste de programas. Si bien existen otros tipos de información que alimentan este proceso, los autores abogan por utilizar la experimentación como fuente para informar la política pública debido a su capacidad para producir evidencia de manera más convincente, en comparación con otros posibles mecanismos para recolectar información. Además, argumentan que las ventajas de realizar experimentos es que su puesta en práctica lleva a pensar en una gran cantidad de detalles y analizar creencias previas que puedan resultar falsas, lo que puede contribuir a diseñar mejores programas a gran escala.

    La centralidad del mecanismo aleatorio en la experimentación nos llevó a incluir el capítulo dedicado a este tema del Handbook on Impact Evaluation de Khandker y sus colaboradores, en el cual se exponen sus fortalezas y retos. Lo más valioso del documento es que contiene ejemplos prácticos de intervenciones gubernamentales y sus respectivas evaluaciones. Por tratarse de un manual, su tono es sobre todo esquemático y didáctico.

    El cuento de Martin Ravallion es uno de los documentos más pedagógicos e intuitivos en la literatura especializada en evaluación de impacto. El texto presenta un excursus por los derroteros más comunes de la falacia de la atribución y obliga al lector a pensar en los beneficios (impactos o resultados) de manera rigurosa y disciplinada. El ejercicio mental propuesto por Ravallion incluye una presentación cuidadosa y extraordinariamente intuitiva de las diversas perspectivas y metodologías existentes para identificar el impacto real de una intervención en contextos reales. Ravallion, un evaluador sumamente experimentado, presenta diferentes estrategias metodológicas experimentales y cuasiexperimentales (diferencia en diferencias, variables instrumentales, emparejamiento por puntajes de propensión) para tratar de resolver la misteriosa desaparición de los beneficios de un programa social que, en apariencia, se esfuman cuando se realizan comparaciones ingenuas.

    El personaje principal en el cuento de Ravallion se enfrenta al reto de estimar los efectos de un programa que condiciona transferencias monetarias a cambio de que

    ¿Disfrutas la vista previa?
    Página 1 de 1