Aplicación de la Teoría de Respuesta al Ítem en Educación Ambiental Gladys Linares Fleites y Robinson Ramírez González Resumen La Teoría de Respuesta al Ítem (Item Response Theory o IRT), usada en psicología y en educación para medir o estimar rasgos o habilidades latentes de los individuos, tiene actualmente un importante campo de aplicación en otras ramas de la ciencia como las ambientales. Esta teoría permite, mediante modelos estadísticos, caracterizar los reactivos o ítems de un instrumento de medición (prueba, tests, cuestionario, escala o constructo) basándose en el nivel de dificultad, y además comparar el nivel de habilidad de cada individuo frente a la dificultad de cada ítem, independientemente del nivel de los otros individuos participantes en un estudio. En esta teoría, para reactivos cuyas respuestas son dicotómicas (si o no), es común el uso del modelo Rasch, y de los modelos logísticos de un parámetro (1PLM). Estos modelos se han utilizado para caracterizar la Subescala de Educación Ambiental de un cuestionario que pretende medir el grado de bienestar individual y familiar de una Unidad Habitacional Militar de la ciudad de Puebla. En este trabajo se ha utilizado el software estadístico libre R con el paquete ltm. Palabras clave: Modelo de Rasch, Modelos logísticos, Análisis factorial I. INTRODUCCIÓN La Teoría de Respuesta al Ítem (IRT, siglas en inglés de Item Response Theory) es una familia de procedimientos estadísticos para analizar y describir el comportamiento de un instrumento de medición (prueba, test, cuestionario, escala o constructo). Estos procedimientos poseen tres rasgos distintivos: (a) se enfocan en el comportamiento de los ítems o reactivos individuales, (b) describen el comportamiento del ítem en diferentes niveles y (c) se basan en modelos [6]. Si bien los modelos de la IRT son encontrados mayormente en la literatura referida a evaluaciones psicológicas y educativas, ellos están siendo aplicados con mucho éxito en otros campos. El uso de la IRT tiene la ventaja de generalizar la información de manera flexible e incrementar la eficiencia y la utilidad de los procesos de medición. En este trabajo se presenta una aplicación del la IRT al campo de la Educación Ambiental. Como parte de un proyecto de investigación en Ciencias Ambientales que persigue obtener información, a través de un cuestionario elaborado al respecto, sobre el grado de bienestar familiar y colectivo de usuarios de una Unidad Habitacional Militar del estado de Puebla, se desarrolló una Subescala sobre Educación Ambiental. Se persigue el objetivo, mediante esta teoría, de caracterizar los reactivos o ítems de esa Subescala. Posgrado en Ciencias Ambientales. Instituto de Ciencias (ICUAP) de la Benemérita Universidad de Puebla (BUAP). En los siguientes apartados se desarrollan, primero, los aspectos conceptuales de la IRT y los criterios utilizados para la evaluación de modelos; segundo, se presenta el paquete ltm [3] del software estadístico libre R, que es utilizado en esa investigación; y, tercero, se aplican los procedimientos de la IRT a la Subescala de Educación Ambiental, antes mencionada. Finalmente, se brindan algunas conclusiones y referencias. II. TEORÍA DE RESPUESTA AL ITEM (IRT) La Teoría de Respuesta al Ítem (IRT) es un área en desarrollo que trata de medir rasgos latentes a través de una serie de modelos matemáticos [4]. En general, los modelos de variables latentes son modelos de regresión multivariantes que enlazan una variable respuesta con otra no observada. La IRT se ha desarrollado en los últimos años, registrándose numerosas aplicaciones y, en especial, se está utilizando en la construcción de instrumentos de medición. La IRT, también conocida como Teoría de Rasgo Latente, asume que entre la respuesta que una persona ofrece a una pregunta de un cuestionario y el rasgo o habilidad (puede entenderse también la actitud, la aptitud, la preferencia, el prejuicio, etc.) de la persona, existe una relación no lineal que se puede expresar en términos probabilísticos [5]. El conjunto de los cálculos que se aplican para ello determina los distintos modelos y resultados de la IRT. La unidad básica de estudio en la IRT es el ítem o reactivo. Según esta teoría, la habilidad (actitud hacia el ambiente, en este trabajo) es considerada una variable continua real que puede ser medida en una escala que tiene un punto medio igual a cero y que generalmente se denota con el símbolo. De esta manera se puede comparar habilidades (actitudes) entre individuos, comparando el parámetro de cada uno de ellos. La IRT afirma que si una persona tiene un cierto nivel n de actitud favorable hacia el medio ambiente, por ejemplo, tendrá asociado a dicho valor una probabilidad de que conteste positivamente a una pregunta sobre acciones que lo mejoren. Expresado de otra manera, si una persona responde favorablemente a un ítem, es posible suponer que esta persona posee un determinado nivel de actitud favorable hacia el ambiente. La relación entre la respuesta de la persona al ítem y el rasgo o habilidad (actitud hacia el medio ambiente) que esta tiene, se estima mediante una función probabilística, que se representa por la Curva Característica del Ítem (ICC); esta función indica la probabilidad de éxito en la respuesta, dependiendo del nivel de habilidad latente del individuo. Para ítems o reactivos donde la respuesta es dicotómica, esto es, se admite sólo la posibilidad de éxito o fracaso, probabilidad de éxito será: la
p = P(X = 1) = exp (f(θ)) 1 +exp (f(θ)). (1) El símbolo X es una variable aleatoria que indica que la respuesta muestra una actitud positiva (éxito: X=1) o negativa (fracaso: X=0). Según la expresión que tome la función f ( ) se tiene diferentes modelos [1]. El modelo más simple es el conocido como modelo de Rasch, donde la probabilidad de éxito en la respuesta está dada por: p = exp (θ δi) 1+exp (θ δi). (2) El símbolo i es el parámetro de dificultad del ítem i. Tanto él como se refieren a la misma escala de medición. Según la ecuación (2), en este modelo la probabilidad de éxito es una función de la diferencia entre la habilidad (actitud) de una persona y la dificultad del ítem [1]. Si ambas son iguales la probabilidad de éxito es 0.5. Cuanto mayor sea i, más a la derecha se posicionará la curva ICC, y mayor será la dificultad del ítem. Las curvas de los diferentes ítems no se cruzan. Otro modelo de la teoría de la IRT es el Modelo Logístico de un parámetro (1PLM), donde se establece un parámetro de discriminación denotado por α, que se supone que es el mismo para todos ítems. La probabilidad de éxito de la respuesta está dada por: p = exp (α(θ δi)) 1+exp (α(θ δi)). (3) El modelo de Rasch es un caso particular del modelo 1PLM, donde el parámetro de discriminación α = 1. Además de los dos modelos anteriores, en la IRT se utilizan los modelos logísticos de dos parámetros (2PLM) y de tres parámetros (3PLM). En el modelo 2PLM la función de probabilidad tiene en cuenta los parámetros de dificultad ( i) y de discriminación (α i ) de cada ítem. En el modelo 3PLM se introduce otro parámetro desconocido que tiene en cuenta la probabilidad de que el ítem haya sido respondido al azar y que se conoce como parámetro de adivinación. En [7] se proponen los siguientes criterios para evaluar cual modelo debe usarse: Criterio 1. Verificación de los supuestos del modelo A. Unidimensionalidad B. Igualdad de discriminación C. Posibilidad de adivinar la respuesta correcta Criterio 2. Características esperadas del modelo Criterio 3. Modelo de predicciones de los resultados reales de las pruebas. Una breve explicación de esos criterios se brinda a continuación. 1: Verificación de los supuestos del modelo A. Unidimensionalidad La unidimensionalidad se refiere al hecho de que el instrumento sólo debe medir una capacidad latente. Esta condición se aplica a la mayoría de los modelos de la IRT. La unidimensionalidad puede ser investigada a través de los valores propios en un análisis factorial. Se concluye que el instrumento es unidimensional si al trazar los valores propios (del más grande al menor) de la matriz de correlación entre ítems hay un primer factor dominante. Otra posibilidad de concluir la unidimensionalidad es calcular la relación entre el primer y segundo autovalores. Si la relación es alta, es decir, arriba de un valor crítico la prueba es unidimensional. B. Igualdad de discriminación La igualdad de discriminación puede ser verificada a través del examen de la correlación entre el ítem i y el puntaje total del instrumento, es decir, con la correlación biserial puntual, que se utiliza cuando queremos conocer la correlación existente entre dos variables, de las cuales una ha sido medida en escala de intervalos y la otra resulta ser una variable dicotómica. La desviación estándar debe ser pequeña si hay igual discriminación. C. Posibilidad de adivinar la respuesta correcta Una manera de examinar si se produce la adivinación es observar cómo los individuos con habilidades bajas responden a los ítems más difíciles en la prueba. 2. Características esperadas del modelo El segundo criterio, que se denomina características esperadas del modelo, es de interés no importando qué modelo se utiliza. La invariancia de las estimaciones de los parámetros de habilidad necesita ser examinado, lo que significa que las estimaciones de θ no deben depender de si los ítems son fáciles o difíciles, ni de los diferentes grupos en la muestra, es decir, grupos con bajas o altas habilidades. En otras palabras, debe existir una correlación lineal entre estas estimaciones. 3. Modelo de predicciones de los resultados reales de las pruebas El tercer criterio, referido a la predicción del modelo de los resultados reales del cuestionario, puede ser examinado comparando las Curvas Características del Ítem (ICC) para cada ítem con el otro. El tercer criterio también puede examinarse utilizando gráficos de distribuciones de puntuaciones observadas y predichas o usando pruebas chi cuadrado. III. LENGUAJE R Y PAQUETE LTM El lenguaje de programación R (R Core Team, 2013) es la implementación open source del software estadístico S, distribuido en forma gratuita bajo licencia GPL (General Public License) del proyecto de software libre GNU [2]. Permite definir funciones nuevas a partir de aquellas que trae el programa, las que pueden agruparse en lo que se llaman paquetes. En este trabajo se utilizó el paquete ltm [3] que permite estimar los parámetros de los modelos estadísticos descritos. Las técnicas de estimación asumen que los individuos son independientes entre sí y que los reactivos funcionan de la misma manera para todos los individuos, es decir, no existen
factores de diferenciación en la capacidad de respuesta de los participantes en una investigación. La literatura muestra cuatro técnicas para la estimación de los parámetros de los modelos de IRT, a saber, Máxima verosimilitud conjunta Máxima verosimilitud condicional Máxima verosimilitud marginal Bayesiana El paquete ltm utiliza la Estimación de Máxima Verosimilitud Marginal. Los parámetros de los modelos 1PLM, 2PLM y 3PLM se obtienen con las funciones rasch( ), ltm( ) y tpm( ) respectivamente. En el caso del modelo de Rasch, también se utiliza rasch( ), pero restringiendo en el argumento de la función el valor del parámetro de discriminación a 1. Para cualquiera de los cuatro modelos, con la función factor.scores( ) se accede al parámetro de habilidad (actitud) de los individuos. El paquete también dispone de la función plot( ) que permite graficar las curvas características de los ítems, las curvas de información del ítem y del test. La función anova( ) permite decidir, entre dos modelos, cuál ajusta mejor los datos experimentales, realizando el test de razón de verosimilitud (LRT). La misma función anova( ) devuelve los valores BIC y AIC, correspondientes al Criterio de Información Bayesiano y al Criterio de Información de Akaike, respectivamente, para seleccionar el modelo que mejor se ajusta a los datos. En ambos casos, cuanto menor es el valor obtenido, mejor resulta el modelo. IV. APLICACIÓN En el Posgrado de Ciencias Ambientales del Instituto de Ciencias de la Benemérita Universidad Autónoma de Puebla, se está desarrollando un proyecto de investigación que pretende obtener información, a través de un cuestionario elaborado al efecto, sobre el grado de bienestar familiar y colectivo de usuarios de una Unidad Habitacional Militar de la ciudad de Puebla, Puebla. Dicho instrumento incluye una Subescala sobre Educación Ambiental con cuatro preguntas (reactivos o ítems), que se enuncian a continuación: P1. El tema de la protección al ambiente es interesante? P2. Recicla el agua cuando se baña o lava la ropa? P3. Emplea alguna medida para ahorrar energía eléctrica en su casa? P4. Separa la basura orgánica de la inorgánica? Cada una de estas preguntas tiene sólo dos posibilidades de respuesta: si o no. La respuesta si se considera el éxito y se codifica con 1. La población de esta Unidad Habitacional Militar está integrada de 384 departamentos ocupados por Jefes, Oficiales y Tropa pertenecientes a la Secretaria de la Defensa Nacional, agrupados en dos áreas: la tipo A con 156 departamentos y la tipo B con 228 departamentos La muestra se obtuvo por un muestreo estratificado proporcional, tomando como estrato el área. El tamaño de la muestra es de 107 departamentos (39 en el Área A y 68 en el Área B ) calculado con un nivel de confianza del 95% y un error de muestreo de 0.1. La encuesta se realizó a través de una entrevista individual y anónima, a una persona adulta de cada departamento seleccionado. A continuación se desarrollan los criterios que se utilizan para caracterizar los reactivos o ítems (preguntas) de la Subescala de Educación Ambiental. Criterio 1: Verificación de los supuestos del modelo A. Unidimensionalidad Se obtuvieron los valores y vectores de la matriz de correlaciones de las cuatro preguntas, los que se muestran en la Tabla 1. Puede observarse que el primer factor (F1) explica el 44% de la variabilidad total del fenómeno, esto es el doble de lo que explica el segundo factor (F2) y, además, puede afirmarse que las cuatro preguntas son importantes en F1, dado que todos los coeficientes de la combinación lineal (elementos del vector propio asociado) son altos y similares. De estos resultados puede concluirse que esta Subescala es unidimensional. Tabla 1. Valores y vectores propios de la matriz de correlaciones Valores 1.7706 0.9166 0.6764 0.6365 Propios Proporción 0.443 0.229 0.169 0.159 Proporción 0.443 0.672 0.841 1.000 Acumulada Ítem F1 F2 P1-0.548 0.050 P2-0.457 0.644 P3-0.566-0.010 P4-0.414-0.764 B. Igualdad de discriminación Como se explicó anteriormente, la igualdad de discriminación puede ser verificada a través del examen de la correlación entre el ítem i y el puntaje total del instrumento, es decir, con la correlación biserial puntual (rpbi), que se muestra en la Tabla 2. El puntaje total ha sido medido en escala de intervalos y el ítem es una variable dicotómica. Puede observarse que los coeficientes de correlación biserial puntual de cada ítem con el puntaje total no son iguales. Cuanto más alto es el valor de rpbi, mayor será la discriminación del ítem. Así, en este caso, los ítems P1 y P3 son los que más discriminan, le sigue en importancia el P2 y, por último, el P4. El supuesto de considerar todos los reactivos con igual nivel de discriminación en los modelos de Rasch y 1PLM, es dudoso en este caso.
Tabla 2. Coeficiente de correlación biserial puntual de cada ítem con el puntaje total Incluído Excluído P1 0.7630 0.4186 P2 0.6079 0.3219 P3 0.7369 0.4419 P4 0.5038 0.2750 La tabla 3, que muestra el coeficiente alpha de Cronbach, profundiza en este aspecto. Obsérvese que el coeficiente de confiabilidad alpha de Cronbach es aceptable (0.5753). La exclusión de las preguntas P1 y P3 haría descender considerablemente este coeficiente. Sin embargo, la eliminación de la pregunta P4 haría descender la confiabilidad muy poco; este resultado corrobora el análisis de correlación punto biserial con respecto a P4. Tabla 3. Coeficiente de alpha de Cronbach Valor Todos los ítems 0.5753 Excluyendo P1 0.4560 Excluyendo P2 0.5299 Excluyendo P3 0.4267 Excluyendo P4 0.5652 Por otra parte, en la tabla 4 se observa que la hipótesis nula de que las preguntas P2 y P4 no están asociadas se acepta con valor de p de 0.62, esto es, existe una relación no significativa. Las restantes parejas de ítems rechazan la hipótesis nula y se consideran que están relacionadas. Tabla 4. Asociaciones por pareja de ítems Item i Item j p.value 1 2 4 0.62 2 3 4 0.02 3 1 4 0.02 4 1 2 0.01 5 2 3 0.001 6 1 3 0.001 Criterio 2. Características esperadas del modelo En la Tabla 5 se presenta el parámetro estimado para cada ítem según el modelo de Rasch; la tabla muestra la salida del programa ltm. En el modelo de Rasch, el parámetro de discriminación α de todos los ítems es 1, como ya habíamos expresado. El ítem de menor dificultad es el P4 y el de mayor dificultad el P1. Para comprobar si el modelo se ajusta a los datos se utiliza, el método de remuestreo Bootstrap para la Bondad de Ajuste de la prueba Chi cuadrado. El valor del estadístico observado es 13.07, evaluado para 200 conjuntos de datos. Se concluye que el modelo no se ajusta a los datos, dado que el valor de p es 0.28, no rechazándose la hipótesis nula de que el modelo no se ajusta. Tabla 5. Parámetro en el modelo Rasch Resumen del modelo log.lik AIC BIC -182.5404 373.0807 383.5806 Coeficientes value std.err z.vals Dffclt.P1 0.5422 0.2457 2.2068 Dffclt.P2-2.1086 0.3184-6.6229 Dffclt.P3-1.4312 0.2749-5.2065 Dffclt.P4-2.9015 0.4025-7.2089 Dscrmn 1.0000 NA NA En la Tabla 6 se presenta el parámetro estimado para cada ítem según el modelo 1PLM, mostrando de manera similar al caso anterior, la salida del programa ltm. En este modelo 1PLM, el parámetro de discriminación α de todos los ítems es 2.0188. De manera similar al modelo de Rasch, el ítem de menor dificultad es el P4 y el de mayor dificultad el P1. Los dos criterios de selección de modelos, el AIC y el BIC, son menores en el modelo 1PLM que en el modelo de Rasch, lo que apunta a que el modelo 1PLM se ajusta mejor a los datos. Tabla 6. Parámetro en el modelo 1PLM Resumen del modelo log.lik AIC BIC -177.5312 365.0623 378.1872 Coeficientes value std.err z.vals Dffclt.P1 0.3563 0.1702 2.0935 Dffclt.P2-1.3903 0.2424-5.7359 Dffclt.P3-0.9583 0.1993-4.8092 Dffclt.P4-1.8778 0.3117-6.0236 Dscrmn 2.0188 0.3922 5.1479 Obsérvese que a través de los modelos se obtienen resultados semejantes a lo que mostraban los procedimientos descriptivos, reiterándose que la pregunta más importante es P1 y la menos importante la P4. Comparación de los modelos mediante anova( ) Se utilizó la función anova() para decidir qué modelo ajusta mejor a los datos. La tabla 7 muestra los resultados obtenidos al comparar los dos modelos, considerando como hipótesis nula que aquel que mejor ajusta a los datos es el de
Information 0.0 0.2 0.4 0.6 0.8 1.0 Probability 0.0 0.2 0.4 0.6 0.8 1.0 menor número de parámetros. Evaluando el valor de la prueba de razón de verosimilitud (LRT, por sus siglas en ínglés) y el valor de p.value, se puede rechazar la hipótesis nula a favor de la hipótesis alternativa. Se concluye que el modelo 1PLM se ajusta mejor a los datos, lo que coincide con el análisis de los criterios AIC y BIC. Figura 1. Curva Característica del Ítem (ICC) de la Subescala de Educación Ambiental Item Characteristic Curves Tabla 7. Comparación del modelo Rasch vs 1PLM Tabla de Razón de Verosimilitud AIC BIC log.lik LRT df p.value Rasch 373.08 383.58-182.54 1PLM 365.06 378.19-177.53 10.02 1 0.002 Criterio 3. Modelo de predicciones de los resultados reales de las pruebas La tabla 8 muestra las estimaciones del parámetro (Factor-Scores) para los patrones de la respuesta observada en el modelo 1PLM. El método de estimación utilizado para estas estimaciones es el Bayes empírico. Tabla 8. Factor-Scores para los patrones de Respuesta Observada P1 P2 P3 P4 Obs Exp z1 se.z1 1 0 0 0 0 2 3.066-1.871 0.546 2 0 0 0 1 6 5.147-1.317 0.514 3 0 0 1 1 6 4.511-0.762 0.544 4 0 1 0 0 3 1.924-1.317 0.514 5 0 1 0 1 11 10.789-0.762 0.544 6 0 1 1 0 3 1.686-0.762 0.544 7 0 1 1 1 31 33.980-0.092 0.607 8 1 0 1 1 1 1.000-0.092 0.607 9 1 1 0 1 2 2.391-0.092 0.607 10 1 1 1 1 37 35.785 0.739 0.693 Finalmente, las figuras 1, 2 y 3 que brinda el paquete ltm, resumen la caracterización de la Subescala de Educación Ambiental. La figura 1, que representa la Curva Característica del Ítem (ICC), muestra que el ítem P4 está situado más a la derecha del gráfico, señalando que es de mayor grado de dificultad y, por tanto, puede considerarse la pregunta más importante de la Subescala. En orden de importancia quedarían las preguntas P3, P2 y P4. -4-2 0 2 4 Ability La figura 2 señala resultados similares. La pregunta P4 es la que brinda la mayor información sobre la actitud hacia el medio ambiente, y la información de los restantes ítem siguen el mismo comportamiento de ICC. Figura 2. Curva de Información del Ítem de la Subescala de Educación Ambiental Item Information Curves P1 P2 P3 P4-4 -2 0 2 4 Ability
Information 0.0 0.5 1.0 1.5 2.0 2.5 Figura 3. Función de Información de la Subescala de Educación Ambiental Test Information Function [2] R. Core Team, R: A language and environment for statistical computing. R Foundation for Statistical Computing, Austria, 2013. [3] Rizopoulos, D., ltm: An R package for Latent Variable Modelling and Item Response Theory Analyses, Journal of Statistical Software, 17 (5), 1-25, 2006. [4] Rizopoulos, D., Latent Trait Models under IRT ltm Package, Versión 1.0-0, 2013. [5] Thorpe, Geoffrey L. and Favia, Andrej, "Data Analysis Using Item Response Theory Methodology: An Introduction to Selected Programs and Applications." Psychology Faculty Scholarship. Paper 20, 2012. http://digitalcommons.library.umaine.edu/psy_facpub/20 [6] Yen, W.M. Item response theory. In M. Alkin (Ed.), Encyclopedia of Educational Research, Sixth Edition, 657-667, NY: Macmillan. 1992. -4-2 0 2 4 Ability [7] Wiberg, M. Classical Test Theory vs. Item Response Theory An evaluation of the theory test in the Swedish driving-license test. EM No 50, UMEA UNIVERSITET, 2004. De acuerdo a la Curva del Test de Información (figura 3) observamos que los ítems preguntados en la Subescala de Educación Ambiental, principalmente brindan información para los individuos con baja habilidad (actitud negativa hacia el medio ambiente). V. CONCLUSIÓN Los resultados obtenidos señalan que la Subescala de Educación Ambiental del Cuestionario sobre el Grado de Bienestar familiar y colectivo de usuarios de una Unidad Habitacional Militar del estado de Puebla, es capaz de medir la actitud hacia el medio ambiente de esos usuarios, aunque se recomienda profundizar en la información que brinda el ítem P4 y si es posible simplificar la Subescala eliminando esa pregunta. Debe destacarse, finalmente, que el paquete ltm es muy potente, versátil y fácil de utilizar, brindando la posibilidad de acceder a toda la información necesaria para determinar los niveles de habilidad (actitudes hacia el medio ambiente) de los individuos (usuarios) y los parámetros de varias distribuciones estadísticas de la IRT. REFERENCIAS [1] Berejnoi, C. y Barros, M. A. Comparación de diferentes modelos de la Teoría de Respuesta al Ítem En: Cuadernos de la Facultad de Ingeniería. EDITORIAL EUCASA. Año 8 / número 8 / noviembre. Salta Argentina, 2014.