en Microbiología aplicando diferentes índices

Evaluación Revista Argentina de calidad de Educación de exámenes Médica de opción múltiple 29 Vol 5 - Nº 1 - Marzo 2012: 29-34 artículo original Evaluación de calidad de exámenes de opción múltiple en Microbiología aplicando diferentes índices María Margarita Vece 1, Rosa Mabel Lepera 2, Liliana Mónica Tefaha 3, Humberto Eduardo Musa 4 1, 4 Cátedra de Microbiología; 2, 3 1 ra Cátedra de Patología y Clínica Médica, Facultad de Medicina, Universidad Nacional de Tucumán * vecereynaga@gmail.com - Teléfono: 03814235269 FAX: 03814253681 Avenida Mate de Luna 3023. San Miguel de Tucumán (CP 4000) Argentina RESUMEN Introducción: la Cátedra de Microbiología (Facultad de Medicina, UNT) implementó el examen de selección múltiple en 2007. Desde entonces se realizaron evaluaciones psicométricas. En 2010 comenzó a aplicarse el índice de calidad de Galofré. El propósito del trabajo es presentar los resultados de estas evaluaciones y analizar las transformaciones en la calidad de los exámenes. Materiales y métodos: se evaluó retrospectivamente, con escala de Galofré, exámenes finales de 100 ítems aplicados en 2008 y 2009, paralelamente se modificaron o descartaron ítems defectuosos para aplicar prospectivamente la escala en las pruebas 2010. Se calcularon: índices de dificultad, discriminación, distractores funcionantes y porcentaje de aprobados en exámenes que rindieron 30 o más alumnos durante 2009 y 2010. Resultados: hubo diferencia significativa (p: 0,0001) del índice de calidad y del número de ítems con índice mayor a tres cuando se compararon exámenes 2009 y 2010. No hubo diferencia significativa (0,057) en índices de dificultad, discriminación y distractores funcionantes entre los mismos años. Se observó una tendencia a aumentar los ítems de dificultad media y con 3 distractores funcionantes. Aprobados 2009: 95%; 2010: 73%. Conclusiones: la escala de Galofré resultó muy útil, mejoró significativamente la calidad técnica de la prueba y favoreció la tendencia a obtener curvas óptimas de distribución del índice de dificultad, aumentar los distractores funcionantes y llevar el porcentaje de aprobados a niveles más adecuados. Debería utilizarse sistemáticamente para reformular el banco de preguntas de las cátedras con exámenes de opción múltiple. Palabras clave: Calidad técnica - Ítems de opción múltiple - Escala de Galofré Introducción La evaluación de los instrumentos de examen es una parte importante de la tarea educativa. Este concepto fue claramente descripto hace algunos años en la publicación de Scriven: los evaluadores tienen la obligación profesional de que las evaluaciones propuestas o finalizadas estén sujetas a una evaluación competente 1. El pedagogo José Gimeno Sacristán, en su libro Teoría de la Enseñanza y Desarrollo del Curriculum 2, propone considerar a la evaluación como una comprobación de la validez de las estrategias didácticas, es decir, como el momento de buscar los datos que nos ayuden a decidir si la estrategia metodológica desarrollada fue o no adecuada, o en qué medida lo fue, para guiar un proceso de enseñanza que desemboque en la obtención de los resultados de aprendizaje previamente propuestos. Desde este enfoque, uno de los grandes valores de la evaluación es el de ser un instrumento de investigación en la didáctica. El primer paso a seguir en la temática de evaluar la evaluación es plantearla a nivel institucional aunque ello produzca cierta inquietud. La Cátedra de Microbiología de la Facultad de Medicina de la UNT implementó en el año 2007 un proyecto de innovación pedagógica en el cursado intensivo de la materia, que proponía como estrategia de enseñanza-aprendizaje el aprendizaje basado en problema y como método de evaluación el examen escrito estructurado de selección múltiple en reemplazo de la evaluación oral.

30 Revista Argentina de Educación Médica Vol 5 - Nº 1 - Marzo 2012 Clásicamente se señala que la mayor desventaja de estas pruebas es que evalúan conocimiento de tipo memorístico, más que razonamiento elaborado y la diferencia entre reconocer la respuesta correcta en lugar de recuperarla de la memoria. Esto ocurre especialmente cuando son construidas en formato de estímulo pobre en contexto, sin embargo, es posible diseñar ítems con descripciones ricas del contexto que simulan casos reales y evalúan más adecuadamente las competencias del nivel sabe cómo. Dado su empleo tan extendido, existe buen grado de evidencia sobre sus características psicométricas 3. Teniendo en cuenta la complejidad de este tipo de pruebas, en cuanto a su elaboración, redacción de ítems, necesidad de recursos humanos calificados y tiempo necesario para realizarlas, se decidió convocar a todos los docentes de la cátedra para su construcción. Se elaboró un banco de 1000 ítems (aproximadamente 100 por cada unidad temática) que fueron revisados por los profesores. A partir de este banco se seleccionaron los ítems que se incluyeron en cada examen. Desde entonces se empezaron a desarrollar, de manera sistemática, mecanismos de evaluación de calidad de los exámenes tanto parciales como finales para poder abordar procesos de transformación y mejora. Durante los años 2007 y 2008 se realizó la evaluación de los exámenes, teniendo en cuenta las características psicométricas: confiabilidad de la prueba, validez de los ítems y sus índices de dificultad (p) 4 y discriminación (ID) 5. En 2009 se agregó el análisis de distribución de los distractores funcionantes (DF) 6. Es importante destacar que tanto p, como ID y el análisis de la distribución de los DF, solo pueden realizarse luego de tomar la evaluación y que son siempre relativos al grupo de sujetos que rinden. A partir del 2010 se decidió aplicar el índice de calidad desarrollado por el Dr. Alberto Galofré 7 (ICG) teniendo en cuenta las recomendaciones para la construcción de los ítems de cada prueba. Con el propósito de mejorar o eliminar aquellos ítems que poseían defectos, el índice fue calculado previamente a cada evaluación. Simultáneamente de manera retrospectiva se calcularon los ICG de los exámenes finales de 2008 y 2009. Esto permitió poner en marcha procesos de investigación sobre la evaluación para poder documentar y difundir resultados que sirvan para la discusión y la transformación, teniendo en cuenta que la aprobación de un examen acredita parcialmente para la obtención del título de médico. Los objetivos del presente trabajo fueron: 1) Realizar un análisis retrospectivo del ICG de los exámenes finales 2008 y 2009. 2) Realizar un análisis prospectivo del ICG de los exámenes finales del 2010 y compararlos con los resultados obtenidos en 2008 y 2009. 3) Analizar si hubo cambios en p, ID, en la cantidad de DF y en el porcentaje de aprobados, entre los exámenes 2009 y 2010. Materiales y métodos Durante el año 2010 docentes, de la Facultad de Medicina de la UNT realizaron un trabajo observacional analítico, de corte transversal, cuantitativo, de evaluación de exámenes de opción múltiple. Se trabajó con exámenes finales de 100 ítems, con una clave y tres distractores (4 opciones) cada uno. Se calculó retrospectivamente el ICG en 8 evaluaciones aplicadas en el año 2008 y 4 en 2009 y prospectivamente en 7 exámenes del 2010. Previo al cálculo del índice, los docentes involucrados en este trabajo acordaron la interpretación de las diez recomendaciones de Galofré sobre la calidad técnica de un ítem de selección múltiple bien construido, adaptadas a la asignatura que se evaluó. Las recomendaciones consideradas fueron: 1) presencia de viñeta, 2) enunciado completo, 3) evitar el uso de negaciones, 4) concordancia gramatical entre enunciado y opciones, 5) distractores verosímiles, 6) extensión similar entre las opciones, 7) evitar las opciones ninguna y todas las anteriores, 8) opciones ordenadas numéricamente, 9) opciones homogéneas (similares en cuanto al contenido), 10) nivel taxonómico de aplicación de conocimiento o superior. Puntajes del índice utilizado: - 5: con viñeta, sin defectos de construcción. - 4: sin viñeta, sin defectos de construcción. - 3: con o sin viñeta, con 1 defecto. - 2: con o sin viñeta, con 2 defectos. - 1: con o sin viñeta, con 3 o más defectos. En el programa ACCESS se desarrolló una planilla, encabezada por las 10 recomendaciones que permitió establecer el índice de calidad de cada ítem y del examen. De acuerdo al índice de calidad los ítems clasificados con puntuación 5 fueron de óptima calidad; los con puntaje 3 y 4 fueron buenos con posibilidad de mejorar y los con puntaje 1 y 2 debían mejorarse o descartarse. Se consideró como examen bien construido aquel que lograba un índice de calidad igual o mayor a 3. Todos los ítems fueron revisados, los que tuvieron un puntaje menor a 3 se reformularon para obtener un índice de 3 o mayor y se guardaron en el banco de preguntas de la cátedra. El método de corrección de los exámenes finales se realizó en forma electrónica, generándose automáticamente los puntajes de cada examen. A cada respuesta

Evaluación de calidad de exámenes de opción múltiple 31 correcta se le otorgó 1 punto y la exigencia para la aprobación fue obtener un puntaje mínimo del 60%. Los datos enviados por la dirección de tecnologías de información y comunicación se transcribieron a un software 8 que calcula el porcentaje de elección de cada distractor, p, ID y porcentaje de aprobados. El porcentaje de elección de cada distractor permite catalogar como DF al que fue elegido al menos por un 5% de los examinados. Si un distractor no cumplía con este requisito significa que no funcionó como tal 9, 10, 11, 12. Este análisis debe realizarse siempre antes de comunicar los resultados de un examen ya que permite analizar la validez de los ítems y decidir si alguno debe ser anulado, lo cual lleva implícito la modificación del puntaje máximo de la prueba. El p expresa la proporción de sujetos que respondió correctamente un ítem de una prueba. Se puede establecer el grado de dificultad de una pregunta en función de cómo la respondieron los alumnos utilizando el criterio de interpretación 10 indicado en la Tabla 1. Se sugiere elaborar evaluaciones adoptando una distribución de los ítems con valores de p según se indica en la Tabla 2. El ID se utiliza para diferenciar entre los alumnos que saben y los que no10 utilizando el criterio de interpretación indicado en la Tabla 3. Se sugiere lograr evaluaciones en donde se obtenga una distribución de los ítems con valores de ID como indica la Tabla 4. El p, ID, el porcentaje de distribución de DF y el porcentaje de aprobados se efectuó a todas las Ítem X Tabla I Criterio de interpretación del p % que responden correctamente Muy fácil (MF) 85 al 100 Relativamente fácil (RF) 69 al 84 Dificultad media (DM) 32 al 68 Relativamente difícil (RD) 16 al 31 Muy difícil (MD) 0 al 15 Tabla II Valores sugeridos de distribución del p p % MF 5 RF 20 DM 50 RD 20 MD 5 pruebas 2009 y 2010 que fueron rendidas por 30 alumnos o más. Para realizar el análisis estadístico de los resultados se empleó el programa SPSS 15.0. Nivel de significación utilizado 5%. Test de ANOVA con comparaciones múltiples de Bonferroni. Test Mann- Whitney. RESULTADOS Tabla III Criterio de interpretación del ID ID % Ítem Conducta a seguir 40 y más MB Conservar 39 a 30 B A mejorar 29 a 20 R Debe mejorarse 19 y menos D Debe descartarse o revisarse Tabla IV Valores sugeridos de distribución del ID Ítem ID % MB Más del 25 B Entre 24 y 16 R Menos del 15 D Menos del 5 Los resultados obtenidos y el correspondiente análisis estadístico de los datos se muestran en las siguientes Tablas y Gráficos. Gráfico 1 Media e intervalo de confianza del 95% (IC 95%) del valor del ICG para los exámenes 2008, 2009 y 2010. Gráfico 2 Media e IC 95% del número de ítems con ICG de 3 o más, por año. Para los resultados que se muestran en tablas 5 y 6 se utilizaron 3 exámenes del año 2009 y 4 del 2010. Tabla 5 Distribución promedio del porcentaje de ítems según la cantidad de DF por año. Tabla 6 Comparación de medidas descriptivas del número de ítems con tres DF. Gráfico 3 Media e IC 95% del número de ítems clasificados según p. Gráfico 4 Comparación de la distribución del p en exámenes 2009 con la curva de distribución óptima. Gráfico 5 Comparación de la distribución del p en exámenes 2010 con la curva de distribución óptima. Gráfico 6 Media e IC del 95% del número de ítems clasificados según ID. En relación al número de aprobados se obtuvo en el año 2009 un promedio de 95% y en el 2010 de 73%.

32 Revista Argentina de Educación Médica Vol 5 - Nº 1 - Marzo 2012 Gráfico 1. Gráfico 1 Media e intervalo de confianza del 95% (IC 95%) del valor del ICG para los exámenes 2008, 2009 y 2010. El valor promedio del ICG para el 2008 fue de 2,89 (IC95% 2.82-2.95); para el 2009 este valor corresponde a 3.09 (IC95% 2.91-3.28) y para el 2010 es de 4.15 (IC95% 3.96-4.34). ANOVA, p<0.0001, se hicieron comparaciones múltiples con Bonferroni. Gráfico 3. Media e IC 95% del número de ítems clasificados según p. Para calcular estos datos se unificaron los ítems MF y RF (figuran como fácil en el gráfico) y los MD y RD (figuran como difícil en el gráfico). En el año 2009 el número promedio de preguntas fáciles fue de 62 (IC95% 40-83), y el de dificultad media fue de 31 (IC95% 15-46). En tanto en el año 2010 estos promedios correspondieron a 49 (IC95% 46-52) y 45 (IC95% 42-48) respectivamente. Test Mann-Whitney, p=0.057 para categoría fácil, p=0.057 para categoría media, p=0.114 para categoría difícil. Gráfico 2. Media e IC 95% del número de ítems con ICG de 3 o más, por año. En el año 2008 el número promedio de ítems con índice de calidad de 3 o más fue de 59 (IC95% 55-62); en el año 2009 este fue de 66 (IC95% 53-78) y en el 2010 de 96 (IC95% 93-100). ANOVA, p<0.0001, comparaciones múltiples por Bonferroni. Tabla V Distribución promedio del porcentaje de ítems según la cantidad de DF por año Gráfico 4. Comparación de la distribución del p en exámenes 2009 con la curva de distribución óptima. DF 0 1 2 3 Año 2009 18 28 35 9 Año 2010 7 25 38 30 Tabla VI Comparación de medidas descriptivas del número de ítems con tres DF Nº de Mediana Media Error Mann-Whitney exámenes estándar Gráfico 5. Comparación de la distribución del p en exámenes 2010 con la curva de distribución óptima. Año 2009 3 18 19 1,53 Año 2010 4 30,5 29,5 2,33 p=0,057 DISCUSIÓN En los resultados obtenidos del estudio del ICG (Gráfico 1) se observa que el valor promedio de dicho índice en los exámenes del 2010 fue significativamente mayor que para los del 2008 y los del 2009, no

Evaluación de calidad de exámenes de opción múltiple 33 Gráfico 6. Media e IC del 95% del número de ítems clasificados según ID. En el año 2009 el número promedio de ítems clasificados por el ID como MB y B fue de 28 (IC95% 0-59), y como R y D fue de 72 (IC95% 41-100). En tanto en el año 2010 estos promedios correspondieron a 41 (IC95% 39-44) y 59 (IC95% 56-61) respectivamente. Test Mann-Whitney, p=0.229 para ambas categorías. existiendo diferencia significativa entre los valores medios del ICG entre 2008 y 2009. En cuanto a la distribución del número de ítems con ICG de 3 o más por año (Gráfico 2), se puede observar que el número de dichos ítems fue significativamente mayor en el año 2010 y no hubo cambios significativos entre 2008 y 2009. Estas diferencias se pueden atribuir a la aplicación prospectiva del índice de calidad según la escala de Galofré en 2010 y a la eliminación de la mayoría de los ítems con índices menores de 3. La revisión de los exámenes por un equipo profesional que aplicó el ICG mejoró los índices de calidad técnica de las pruebas logrando pasar de valores por debajo de lo deseable en 2008, a valores en el límite de lo aconsejado en 2009, acercándose al óptimo en 2010. Analizando estos resultados y teniendo en cuenta trabajos publicados, que han calculado el ICG luego de la prueba 13, 14, puede decirse que se logró un muy buen nivel de calidad en los exámenes de 2010 al aplicar el ICG en forma prospectiva. Cuando se analiza la distribución del porcentaje de ítems según el número de DF (Tabla 5) y el número de ítems con tres DF en los años 2009 y 2010 (Tabla 6) se observa una diferencia que se halla en el límite de la significación, probablemente debido al tamaño de la muestra, evidenciándose a pesar de ello una clara tendencia en 2010, al aumento de ítems con tres DF y la disminución de los que tienen cero DF. En los exámenes 2010 se obtuvo 30% de los ítems con 3 DF y 38% con 2 DF; otros trabajos como el publicado por Marie Tarrant 6 obtienen un 13,8% con 3 DF y un 49% con 2 DF y el de Amanda Galli 13 supera el 80% con 4DF. La baja frecuencia de ítems con 3 DF en el presente trabajo, merece una revisión de la plausibilidad de los distractores y, como plantean actualmente diferentes autores 6, 15, considerar la posibilidad de utilizar sólo 2 distractores igualmente atractivos. Se puede concluir que lo que mejora un ítem no es la cantidad total de distractores, sino la calidad de los mismos en cuanto a su posibilidad de ser elegidos. Si bien los resultados que comparan p entre 2009 y 2010 (Gráfico 3) no resultan estadísticamente significativos, se detecta en 2010 una tendencia a disminuir los ítems fáciles y a aumentar los de DM con una dispersión de datos mucho menor y cuando se observan los gráficos que muestran la distribución de los ítems en relación a la curva de distribución óptima se puede ver como los exámenes 2010 se acercan mucho más a lo óptimo, mientras que en 2009 la distribución es mas aleatoria. (Gráficos 4 y 5). Como evidencian las curvas un buen examen es aquel que tiene un 50% de preguntas de DM y las pruebas aplicadas en 2010 alcanzaron el 45%. Si bien los ID de los exámenes 2009 comparados con los de 2010 no tuvieron diferencias estadísticamente significativas, aún así se puede observar cómo se concentran los valores alrededor de la media en 2010; existiendo una tendencia a aumentar los ítems con ID MB y B y a disminuir los R y D, con persistencia de un porcentaje aun importante de ítems que discriminan mal (Gráfico 6). Como ya se mencionó ambos índices (p e ID) se hallan influenciados por el grupo de sujetos que rinde el examen. Finalmente, el trabajo docente realizado en la aplicación de índices, la revisión y reformulación de ítems y distractores, evidencia un cambio en el porcentaje de aprobados entre 2009 (93%) y 2010 (73%). En este estudio, la prioridad en el año 2010, fue el criterio de aplicar el ICG al redactar o reformular los ítems previamente al examen y los resultados obtenidos en cuanto a la calidad del mismo están directamente relacionados a esta práctica. Actualmente se trabaja para tratar de aumentar los ítems de DM y el porcentaje de ítems con todos sus DF. Los resultados de realizar esta tarea en forma sistemática y sostenida en el tiempo serán motivo de futuras revisiones, en las que, al ampliar el número de pruebas examinadas se espera confirmar las tendencias comentadas. Abordar el problema de la evaluación supone necesariamente tocar todos los problemas fundamentales de la pedagogía. Cuánto más se profundiza en su dominio, más conciencia se tiene del carácter enciclopédico de nuestra ignorancia y más cuestionamos nuestras certidumbres. Cada interrogante planteado lleva a otros interrogantes. Cada árbol se enlaza con otro y el bosque aparece en toda su inmensidad 16.

34 Revista Argentina de Educación Médica Vol 5 - Nº 1 - Marzo 2012 CONCLUSIONES La aplicación previa al examen de la escala de Galofré es muy útil y mejora significativamente la calidad técnica de la prueba, con una marcada tendencia a lograr curvas óptimas de distribución de p, aumentar el número de DF y llevar el porcentaje de aprobados a niveles más adecuados. Esta escala debería aplicarse de manera sistemática a todos los ítems de opción múltiple que componen el banco de preguntas de una cátedra como parte de la evaluación de los instrumentos, lo cual permitiría redactar pruebas que evalúen más adecuadamente conocimientos y algunos aspectos de habilidades y destrezas mentales. Complementarla con el análisis de p y del número de DF conduciría a obtener exámenes de opción múltiple de óptima calidad. Agradecimientos Reconocemos los inestimables aportes de las: - Lic. Amanda Galli por su colaboración académica y bibliográfica que motivaron el presente trabajo. - Licenciada Mg. Marcela D Urso en el análisis estadístico de los datos. Destacamos la colaboración de las ayudantes estudiantiles Cecilia León y Marcela Minniti en la recolección de los datos. REFERENCIAS BIBLIOGRÁFICAS 1. Scriven, M. The methology of evaluation. En R.W. Tyler, R. M. Gagné y M. Scriven (Eds.). Perspectives of curriculum evaluation, 39-83, 1967. Chicago, IL: Rand Mc Nally. 2. Gimeno Sacristán J. Teoría de la enseñanza y desarrollo del currículo. 4 Edición: Rei, 1992, Buenos Aires. Argentina. 3. Durante E. Algunos métodos de evaluación de las competencias: Escalando la pirámide de Miller; Rev. Hosp. Ital. B. Aires Vol. 26 N 2, agosto 2006. 4. Crocker, L. y Algina, J. Introduction to Classical and Modern Test Theory. Holt, Rinehart and Winston. 1986. 5. Ebel, R.L. y Frisbie, D.A. Essentials of Education Measurement. Englewood Cliffs, NJ: Prentice Hall. 1986. 6. Tarrant M, Ware J and Mohammed A. An assessment of functioning and non- functioning distractors in multiple-choice questions: a descriptive analysis BMC Medical Education 2009, 9:40-48. Artículo disponible en: http://www.biomedcentral.com/1472-6920/9/40. 7. Galofré A. Construcción del índice de calidad de las preguntas. 2005. http://www.saidem.org.ar/docs/mbts. Acceso 7 de febrero 2011. 8. Vece, M. M. y Vece M. B. Software de Aplicación: Evaluando evaluaciones. Cálculo de índices de dificultad y de discriminación en evaluaciones estructuradas. Facultad de Medicina - Facultad de Ciencias Naturales e IML de la Universidad Nacional de Tucumán. Agosto 2009. Registro dirección nacional derecho de autor 773735. ISBN 978-987-05-67448. 9. Case S, Swanson D. Nacional Board of Medical Examiners. Cómo elaborar preguntas para evaluaciones escritas en el área de ciencias básicas y clínicas. Tercera edición. Philadelphia. 2006. 10. Guilbert JJ. Guía pedagógica para el personal de salud. OPS/OMS. Ginebra. 1981. 11. Castro C, Galli A. Evaluación Educacional. Módulos 1-2-3. AFACIMERA. Buenos Aires. 2002. htpp://www. saidem.org.ar/docs/mbts.php. Acceso 19 de abril 2011. 12. Lafourcade P. Evaluación de los aprendizajes. Kapelusz. Buenos Aires. 1969. 13. Galli, A. Hábich, D. Yulitta, H. Selección de residentes en un hospital de comunidad: resultados obtenidos por los egresados de distintas universidades y análisis de la calidad del examen administrado. Revista Argentina de Educación Médica. Vol 2 - N 1: 8-14, Abril 2008. 14. Galli A, Castrillón S y col. Calidad de un examen según Escala de Galofré. Resumen CO-36-001, 1/2/11 versión on line: http://wwww2.udec.cl/ofem/recs. Revista Educación en Ciencias de la Salud. Chile. 15. Rogausch A, Hofer R y col. Rarely selected distractors in high stakes medical multiple-choice examinations and their recognition by item authors: a simulation and survey. BMC Medical Education 2010, 10:85. http://www.biomedcentral.com/1472-6920/10/85. 16. Cardinet J. Évaluation scolaire et práctique. Bruxelles: De Boeck Université 1986 b.