CÓMO EVALUAMOS? ANÁLISIS DE ÍTEMS DE OPCIÓN MÚLTIPLE Y SU RELACIÓN CON ERRORES EN LA CONSTRUCCIÓN

CÓMO EVALUAMOS? ANÁLISIS DE ÍTEMS DE OPCIÓN MÚLTIPLE Y SU RELACIÓN CON ERRORES EN LA CONSTRUCCIÓN Carmen García García,Vicente Ponsoda y Alejandro Sierra Universidad Autónoma de Madrid En la evaluación del aprendizaje de nuestros estudiantes es habitual emplear ítems de opción múltiple, de ahí la importancia de conocer las consecuencias que su construcción y/o análisis defectuoso pueden acarrear para las calificaciones que otorgamos. En este trabajo recogimos una muestra de 35 exámenes, y sus respuestas, de asignaturas impartidas en la licenciatura de Psicología y de Informática de la Universidad Autónoma de Madrid (UAM) durante los cursos 2007/08 y 2008/09. Para cada examen se realiza un análisis de los ítems obteniendo sus índices de dificultad y de discriminación y se analiza si éstos se ven afectados, y cómo, por el número de formas del examen, la posición de la opción correcta y por fallos en la redacción al incumplirse alguna de las recomendaciones propuestas por Haladyna, Downing y Rodríguez (2002). A pesar de que la muestra de exámenes no es representativa, ofrecemos datos sobre la calidad psicométrica de los exámenes con los que realmente evaluamos en la universidad. No conocemos ningún trabajo que aporte tal información. Los ítems de elección múltiple tienen un papel importante en la evaluación en los niveles educativos superiores. Como muestra de ello diremos que sólo en la convocatoria de febrero de 2008 en la UAM más de 30.000 estudiantes fueron evaluados mediante este tipo de ítems. Se podría pensar que los profesores tenemos la habilidad de escribir buenos ítems sin necesidad de recibir instrucción para ello. Sin embargo, tal y como muestran los análisis que presentaremos más tarde esto dista mucho de ser así. Ítems defectuosos tienen como consecuencia exámenes con baja fiabilidad, pero cuáles son las consecuencias de que un examen tenga poca fiabilidad? para mostrar los efectos de la falta de fiabilidad se obtuvieron, por simulación estadística, las puntuaciones de 1.000 estudiantes en tres exámenes de opción múltiple de 50 preguntas. Uno de fiabilidad 0,89, otro de 0,65 y el tercero de 0,32 [1]. El objetivo era ver como cambiaba la proporción de estudiantes que eran erróneamente aprobados o suspendidos. Se fijó el punto de corte para el aprobado en 20 aciertos. Aprueba, por tanto quien tiene una puntuación observada (X) de 20 o más puntos. La Figura 1, que corresponde a un examen cuyo coeficiente era 0,89, muestra que el porcentaje de estudiantes que aprobaría el examen sería del 84%, pero sólo un 80% tendría una puntuación verdadera (T) superior a 20, por lo que un 4% de estudiantes lo aprobaría, pero tendría una T de suspenso. Igualmente tendríamos un 4% de suspensos con una T de aprobado. En resumen, en el examen más fiable suspenderíamos o aprobaríamos por error al 8% de los estudiantes. Como se muestra en la Tabla 1 a medida que la fiabilidad del examen baja la proporción de estudiantes mal calificados aumenta. Tabla 1. Errores en la calificación de los estudiantes en función de la fiabilidad del examen Coeficiente de fiabilidad Aprobados que deberían suspender Suspensos que deberían aprobar 0,89 0,04 0,04 0,08 0,65 0,06 0,10 0,16 0,32 0,06 0,17 0,23 Calificaciones erróneas [1] Estos valores coincidían con el coeficiente alfa más alto, medio y menor obtenidos en la muestra de exámenes analizados. 344

Figura 1. Diagrama de dispersión de las puntuaciones observadas (X) y verdaderas (T) obtenidas por simulación, en un examen de 1.000 estudiantes cuyo coeficiente de fiabilidad era 0,89 Conscientes de la importancia que este sistema de evaluación tiene, las universidades están implantando sistemas de evaluación de la calidad de los exámenes. Por ejemplo, Muntinga y Schuil (2007) estudian las consecuencias de un sistema de análisis automático de ítems que su universidad les pide que utilicen para determinar qué ítems de cada examen han de ser anulados y no contar en la evaluación. Lo aplicaron a sucesivas convocatorias de una misma materia. El sistema clasifica cada ítem en una de tres categorías: Retener, Posible eliminación y Eliminar. Los criterios utilizados son el índice de dificultad y de discriminación corregido. Los autores muestran como los ítems que son aplicados en más de un examen no reciben una clasificación consistente; es decir, para un mismo ítem el sistema recomienda que sea retenido en algunas ocasiones y eliminado en otras. Un sistema de análisis de ítems que funcione adecuadamente debiera ser consistente en sus decisiones. Una posible explicación para la falta de consistencia, es que los indicadores obtenidos, que son los habitualmente empleados para rechazar preguntas de los exámenes, varíen de forma considerable a causa de ser calculados en muestras no demasiado grandes. Con el objetivo de explorar el efecto del tamaño de la muestra en la que se aplica el examen sobre los valores de los índices de dificultad y de discriminación, hemos realizado un estudio de simulación para determinar qué tamaño ha de tener la muestra para que se pueda esperar que las características de los ítems cambien poco si los volviésemos a aplicar en otra muestra similar, de modo que podamos esperar resultados consistentes al ser aplicados en muestras similares. En este estudio aplicamos un test de 20 ítems a 10 muestras de sujetos simulados similares. Obtenemos, por ejemplo, los índices de dificultad (p) de los 20 ítems en cada muestra. Para ver si estamos obteniendo valores similares en las 10 muestras obtuvimos las 45 correlaciones de Pearson que resultan de formar todos los pares posibles de dos columnas a partir de las 10 muestras. Si los valores de p de los 20 ítems que se obtienen en las distintas muestras son similares entre sí, la media de las 45 correlaciones será alta y tanto mayor cuanto mayor sea la similaridad. El procedimiento descrito se ha aplicado a muestras de distinto tamaño (50, 100, 200 y 400 sujetos simulados) y obtuvimos el índice de dificultad (p) y la correlación biserial puntual corregida ( ). En la Tabla 2 se muestra el mayor, el menor y el valor medio de las 45 correlaciones (r) obtenidas con cada tamaño muestral. Tabla 2. Estabilidad de los índices de dificultad (p) y de discriminación corregido ( ) en función del tamaño muestral (n) n r media r mínima r máxima 50 100 200 400 p 0,73 0,55 0,91 0,32-0,02 0,67 p 0,82 0,68 0,93 0,42-0,05 0,77 p 0,91 0,82 0,96 0,56 0,37 0,78 p 0,94 0,87 0,97 0,74 0,60 0,94 345

De la Tabla 2 pueden extraerse varias conclusiones. Las correlaciones ítem-resto del test de los 20 ítems obtenidos en una muestra de 50 sujetos pueden diferir bastante de las obtenidas en otra de iguales características (la correlación media es 0,32 y entre dos muestras se ha obtenido una correlación de solo -0,02). La correlación media entre los indicadores de dificultad es más alta (0,73). Hay que ir a una muestra de 400 sujetos simulados para que la correlación media de las correlaciones ítemresto del test alcance ese valor. Por lo tanto, con muestras de 50 estudiantes podemos fiarnos de la ordenación que hayamos encontrado de los valores de p: los ítems que hayan resultado más fáciles es probable que resulten más fáciles en otra aplicación de similares características, pero eso no ocurre con el indicador de discriminación. Hacen falta muestras mayores para sacar conclusiones en este caso. Burton (2001) concluye que tanto el índice p como las correlaciones ítem-test son muy poco estables a no ser que se obtengan en muestras mucho mayores de las que habitualmente tenemos en los contextos educativos. Su utilidad debiera ceñirse a permitirnos comprobar las características de los ítems que resultan diagnosticados como muy buenos o muy malos. Estos últimos son los más interesantes porque pueden revelar que hay algún error en la clave de respuestas. En las siguientes secciones se presentan resultados obtenidos para éstos y otros indicadores en la muestra de exámenes recogida. Muestra Método Se analizaron las respuestas a 35 exámenes de opción múltiple realizados en la UAM entre los cursos 2005/6 y 2008/9. Veintiséis eran exámenes de 9 asignaturas distintas de la licenciatura de Psicología. Los 9 restantes eran exámenes realizados en la Escuela Politécnica Superior y correspondían a 4 asignaturas distintas. Todos los exámenes estaban compuestos por ítems de opción múltiple con 3 alternativas. El número de ítems de los exámenes oscilaba entre 18 ítems (1 examen) y 50 ítems (5 exámenes). Como media los exámenes tenían 32 ítems. Un 34%, es decir 12 exámenes, tenían 30 ítems. El número de estudiantes que respondían a cada examen era muy variable. La muestra más pequeña era de 31 estudiantes y la mayor de 477. La mitad de los exámenes habían sido respondidos por 114 estudiantes o menos. Sólo un 25% de los exámenes habían sido respondidos por más de 202 estudiantes. Media por ítem Resultados Si dividimos la puntuación media obtenida en el examen entre el número de ítems del examen obtenemos la media por ítem para cada examen, que vendría a ser un indicador de la facilidad media de los ítems del examen. Valores próximos a 1 nos indicarían ítems muy fáciles y próximos a 0 ítems muy difíciles. McAlpine (2002a) y Johnstone (2005) han sugerido como media de una evaluación aceptable valores entre el 0,50 y 0,60. La Tabla 3 muestra los principales resultados. Tabla 3. Estadísticos descriptivos de la media por ítem en los 35 exámenes Mínimo Máximo Media S x Media por ítem 0,33 0,75 0,57 0,084 La media por ítem más baja fue 0,33 y la más alta 0,75. Solo 16 de los exámenes (45,7%) obtuvieron valores comprendidos en el rango recomendable. Cinco exámenes (14,3%) obtuvieron medias inferiores a 0,5 y catorce exámenes (40%) superiores a 0,6. 346

Índice de discriminación corregido Como indicador de la discriminación de los ítems se calculó la correlación del ítem con el resto del test después de restarle la puntuación del ítem ( ). La Tabla 4 muestra los resultados. El valor mínimo obtenido fue 0,07 y el máximo 0,39. Treinta y uno de los 33 exámenes presentan valores menores a 0,3. Catorce (40%) de los exámenes presentan una correlación media no significativa. Tabla 4. Medias de los índices de discriminación corregidos en los 35 exámenes Mínimo Máximo Media S x 0,07 0,39 0,21 0,07 Coeficiente alfa de Cronbach McAlpine (2002b) sugiere que las evaluaciones con los ítems de opción múltiple deberían tener un alfa de al menos 0,70. En nuestros datos, 17 exámenes (48,6%) presentan un alfa inferior. El alfa mínimo fue 0,32 y el máximo 0,89. Una de las variables que influye sobre el valor de a es la longitud del test, si todos ellos tuviesen la misma longitud, 30 ítems, serían 19 (54,3%) los exámenes que no alcanzarían el valor propuesto. La correlación entre el coeficiente alfa y la varianza de las puntuaciones en el examen fue significativa (r = 0,73, p < 0,01). La Tabla 5 muestra los principales resultados. Tabla 5. Estadísticos descriptivos del coeficiente alfa de Cronbach en los 35 exámenes Mínimo Máximo Media S x a 0,32 0,89 0,65 0,14 Efecto del número de formas del examen Encontramos un efecto significativo del número de formas del examen sobre el valor de alfa [2]1 F (2, 32) = 3,744, p < 0,04, pero no sobre el valor de la dificultad media de los ítems F (2, 32) = 2,603, p > 0,05. La prueba de Tukey nos indica que los exámenes con 2 formas consiguen alfas significativamente superiores, pero no había diferencias significativas entre 1 ó 4, ni tampoco entre 2 ó 4 formas. La Tabla 6 muestra los resultados. Tabla 6. Coeficiente alfa en función del número de formas del examen N Media S x 1 forma 12 0,57* 0,15 2 formas 15 0,71* 0,12 4 formas 8 0,66 0,10 Total 35 0,65 0,14 * p <0,05 Posición de la opción correcta Attali y Bar-Hillel (2003) encuentran que hay una tendencia a colocar la opción correcta en las posiciones intermedias y que como consecuencia los ítems en los que la opción correcta ocupa esta [2] También se obtuvo un efecto, tal y como era de esperar, sobre. 347

posición tienden a resultar más fáciles y menos discriminativos. La Tabla 7 muestra la distribución de la opción correcta en una muestra formada por 669 ítems de 3 opciones que correspondían a 21 exámenes diferentes. Como se puede observar la distribución encontrada no es uniforme. La opción correcta se coloca en la primera posición con menor frecuencia que en la segunda y la tercera χ 2 (2, N = 669) 6,47, p < 0,04). Tabla 7. Frecuencia con que la opción correcta ocupa cada opción del ítem. (N = 669) Posición de la opción correcta nº de ítems Primera 192 Segunda 239 Tercera 238 No se obtuvieron efectos de la posición de la opción correcta sobre la dificultad (p) ni sobre la discriminación ( ). Los resultados se pueden observar en la Tabla 8. Tabla 8. Valores medios de p y en función de la posición de la opción correcta Posición de la opción correcta Media Primera 0,55 0,23 p Segunda 0,54 0,23 Tercera 0,55 0,23 Segunda 0,21 0,16 Primera 0,20 0,16 Tercera 0,20 0,15 S x Análisis de los errores de redacción Sierra y Ponsoda (en preparación) extrajeron de forma automática 40 características de los enunciados de los ítems relacionadas con la calidad de redacción, según las recomendaciones de Haladyna (p. ej: la varianza del número de caracteres de las opciones, la presencia de determinantes en los distractores, las palabras compartidas entre el enunciado y la opción correcta, etc.). Estudiaron mediante regresión lineal y un algoritmo genético qué variables de las 40 ayudaban a predecir las características psicométricas de los ítems (sus valores p y ). La capacidad predictora de los indicadores resultó muy pobre, no encontrándose ninguno claramente asociado a las propiedades psicométricas, en línea con otros resultados (como los de Boldt, 1998). Conclusión Es práctica común para los profesores poner un examen, puntuarlo y olvidarse de la evaluación hasta la siguiente convocatoria. Sin embargo, el análisis de las respuestas de los estudiantes a los exámenes es esencial para mejorar la calidad de la evaluación. Este análisis es especialmente importante para los ítems de respuesta seleccionada ya que estos suelen ser reutilizados en cursos siguientes. Con una reflexión formal sobre las respuestas a los exámenes además de mejorar los ítems con los que se realiza la evaluación se podría mejorar el rendimiento de los estudiantes. Las preguntas que mostrasen ser más adecuadas deberían usarse no solo para la evaluación, también en las etapas de aprendizaje. Sin embargo, muchos profesores no son especialistas en medición y no analizan rutinariamente sus evaluaciones usando los estándares asociados a la fiabilidad y la validez. Un profesor no tiene la habilidad de escribir buenos ítems sin recibir instrucción. Muchos ítems de opción múltiple están mal 348

escritos, intentan medir un objetivo para el que no son adecuados, contienen pistas de la respuesta correcta o están redactados de modo ambiguo. Un análisis apropiado de las respuestas de los estudiantes a las evaluaciones es un paso esencial para mejorar la calidad de la evaluación en si misma, así como de la docencia y del aprendizaje. Referencias Attali, Y. y Bar-Hillel, M. (2003). Guess Where: The Position of Correct answers in Multiple Choice Tests Items as a Psychometric Variable. Journal of Educational Measurement, 40 (2), 109-128. Boldt, R. F. (1998). GRE Analytical Reasoning Item Statistics Prediction Study. GRE Board Report Nº 94-02P. Burton, R. F. (2001). Quantifying the Effects of Chance in Multiple-Choice and True/False Tests: Item Selection and Guessing of Answers. Assessment and Evaluation in Higher Education, 26, 41-50. Haladyna, T. M., Downing, S. M. y Rodríguez, M. C. (2002). A Review of Multiple-Choice Item- Writing Guidelines for Classroom Assessment. Applied Measurement in Education, 15(3), 309 334. Johnstone, A. (2005). Evaluation of Teaching: Practice Guide. The Higher Education Academy. Physical Sciences Centre. McAlpine, M. (2002a). Principles of Assessment. Computer Assisted Assessment Centre. University of Luton. McAlpine, M. (2002b). A Summary of Methods of Item Analysis. Computer Assisted Assessment Centre. University of Luton. Muntinga, J. H. J. y Schuil, H. A. (2007). Effects of Automatic Item Eliminations Based on Item Test Analysis. Advances in Physiology Education, 31, 247-252. Sierra, A. y Ponsoda, V. (en preparación). Calidad de la redacción de los ítems de opción múltiple y sus propiedades psicométricas. 349