MEMORIA FINAL DE PROYECTOS DE INNOVACIÓN DOCENTE CONVOCATORIA CURSO 2010/2012 DATOS DEL/DE LA SOLICITANTE Nombre Fernando Apellidos Martínez Santiago D.N.I. 26016529X E-mail dofer@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2888 Departamento Informática Categoría Contratado Doctor DATOS DEL PROYECTO Título RADAR: registro de actividades docentes asistidas por rótulos Línea de actuación Proyecto de Innovación para asignaturas Departamento/s implicados Informática Asignatura/s implicada/s Informática, Ingeniería del Lenguaje Informática Empresarial, Fundamentos de BBDD, Informática Aplicada a la Gestión Pública, Informática y Sociedad. Titulación/Grado implicado/s Grado de Ingeniería Industrial, Grado de Ingeniería Informática, Grado de Ingeniería Geomática y Topografía, Grado de Gestión y Administración Pública Curso/s implicado/s 1º del Grado de Ingeniería Industrial, 4º de Ingeniería Informática, 4º de LADE, 1º Grado en Ingeniería Geomática y Topográfica, 1º Grado en Gestión y Administración Pública, 2º del Grado de Ingeniería Informática Nº de alumnos afectados 600 MEMORIA DEL PROYECTO Justificación
Lo que se propone en este proyecto de innovación docente es la creación de una herramienta que de manera automática: - - añada subtítulos a las grabaciones (podcasts) realizadas por el profesor. Tales subtítulos se corresponden con una transcripción de todo lo dicho por el profesor durante la clase. - modifique tales subtítulos simplificando la sintaxis del texto original, si el alumno lo desea. - traduzca los subtítulos a otro idioma. Los alumnos que de un modo más directo se beneficiarían de tal herramienta son personas que presentan: - discapacidad auditiva severa. - algún tipo de trastorno cognitivo sensible a la longitud del mensaje y el tiempo disponible para interpretarlo, presentando una capacidad intelectual normal por lo demás. Entre otros, personas diagnosticadas con trastorno de espectro autista, síndrome de Asperger, trastorno específico del lenguaje, trastorno por déficit de atención Todos ellos son trastornos que dificultan el normal seguimiento de las clases aun teniendo el alumno, en muchos casos, la capacidad intelectual necesaria para cursar estudios universitarios. - personas cuyo conocimiento del idioma español no le permita una correcta compresión oral.
Objetivos conseguidos - Se ha conseguido definir una configuración que combina software de reconocimiento de voz, sistema de recepción de audio inalámbrico, sistema de vídeo y transcripción del texto reconocido que tiene una calidad aceptable. - Se ha desarrollado un software que a partir del audio, el video y la transcripción del audio, genera un video subtitulado. - Se ha desarrollado un software que, dados los medios disponibles, sincroniza audio y video. - Se ha evaluado el resultado entre el alumnado mediante encuestas. Contenidos desarrollados - Configuración hardware/software para el registro de audio y video - Software de sincronización parcial de audio/vídeo - Software para la integración de audio/vídeo e inclusión de subtítulos en el vídeo Descripción global de la experiencia
En general, ha sido una experiencia de la que hemos aprendido mucho sobre el problema que hemos abordado, si bien hemos encontrado algunas dificultades más de las previstas: - El mejor software de reconocimiento de voz actual es Dragon NaturallySpeaking, pero hemos comprobado que este software, que es excelente, es extremadamente sensible a la calidad de la fuente de audio. Por ello tuvimos que desechar el audio grabado directamente por el micrófono integrado en la cámara de vídeo. Tras multitud de pruebas dimos con que la mejor opción era grabar el audio con un sistema inalámbrico de audio dotado de un micrófono de tipo corbatero. A su vez el receptor inalámbrico del micro está conectado a una tarjeta de sonido externa de gran calidad mediante un cable XLR- XLR (balanceado). Esta configuración (figura 1) es fruto de muchas sesiones de pruebas. Cada una de estas pruebas ha requerido el tedioso proceso de entrenamiento del software de reconocimiento de voz para esa configuración concreta e impartir, aunque sea solo parcialmente, algún contenido de clase. Contenido oral Micrófono corbatero Shure WI93 Receptor Shure inalámbrico shure PG4 Tarjeta de sonido externa Sound Blaster X-Fi HD Cámara de vídeo gran angular HD Sony Handycam HDR CX Tablet PC con software específico para almacenar la transcripción Figura 1. Configuración diseñada para el registro de las clases
- El mayor problema técnico que hemos tenido ha sido el hecho de no poder contar con el software de desarrollo (SDK) del software de reconocimiento de voz de Dragon, cuyo coste mínimo es de 3000 eur. Por ello tuvimos que utilizar una licencia comercial del software, completamente cerrada y sin posibilidad de personalización. Esto ha tenido importantes consecuencias, siendo la principal la imposibilidad de sincronizar correctamente audio y vídeo. Debido a que Dragon NaturallySpeker va generando el texto transcrito sin más, es imposible saber el momento exacto en que se genera cada frase. Dicho de otro, lo que obtenemos al final de la clase es un documento de texto con la transcripción completa de la clase, sin más. Esto hace imposible sincronizar correctamente texto y audio. Con el SDK este problema no existiría, ya que podríamos haber desarrollado un pequeño programa que anotara junto con el texto, el momento exacto en que se recibió la señal de audio a transcribir. - Otro problema importante, este de carácter tecnológico, es que si bien Dragon NaturallySpeaker correctamente entrenado y con la configuración adecuado funciona realmente bien, es un software de dictado. Esto es, espera que se le indique donde hay una coma o un punto, por ejemplo. Si bien no es un problema menor, de haber tenido la información relativa al instante en que se recibe cada frase, se podrían haber realizado aproximaciones por software basándose en la sintaxis de la frase y la longitud de los espacios en silencio. - Igualmente, por las limitaciones del presupuesto, desde un primer momento se desechó realizar traducciones de las transcripciones, ya que cualquier traductor de calidad quedaba completamente fuera de presupuesto. Metodología empleada (sesiones de trabajo, actividades, recursos didácticos, cronograma, etc.)
Se ha seguido la metodología propuesta en la solicitud del presente proyecto, quedado para este segundo año la puesta en marcha y la evaluación del resultado mediante encuestas. Los recursos empleados durante este año son: 1. Software de dictado Dragon Naturally Speaker 2. Micrófonos de baja impedancia con salida no balanceada y salida balanceada 3. Cámara de video de gran angular 4. Ordenador Portátil equipado con tarjeta de sonido externa. 5. Tarjeta USB de recepción de infrarrojos. Las sesiones de trabajo han sido principalmente de tres tipos: 1. Pruebas de configuración del sistema. Cada una de estas pruebas conlleva elegir una fuente de audio y vídeo, entrenar Dragon Naturally Speaker, impartir unos minutos de clase y evaluar el resultado. El tiempo aproximado de cada una de estas pruebas es de unas dos horas. Se han hecho 27 de estas pruebas. 2. Grabación de clases magistrales, tanto reales con alumnos, como ficticias, sin alumnado, con la única finalidad de evaluar el presente proyecto. En este punto quisiéramos destacar que hemos colaborado con otro proyecto de innovación docente denominado proyecto Podcasting, dirigido por D. Manuel García Vega, profesor del dpto. de Informática. Los podcasts han sido generados usando la configuración desarrollada para este proyecto y descrita en la figura 1. De este modo, tales registros han sido utilizados en ambos proyectos. 3. Desarrollo de diversos módulos de software. Si bien en su mayor parte todo el software utilizado ha sido adquirido, ha sido necesario hacer pequeños desarrollos: ya que audio y vídeo han sido grabados separadamente, se ha desarrollado un software para asegurar que la grabación de ambas fuentes comienzan exactamente en el mismo instante, mediante el uso del mando a distancia de la cámara de vídeo y una tarjeta USB de puertos infrarrojos conectada al PC
Resultados obtenidos (los materiales o documentos que se hayan producido en la experiencia deben presentarse en forma de anexo) - Configuración hardware/software para el registro de audio y vídeo (figura 1) - Software para la sincronización parcial de audio y vídeo. - Diversas grabaciones de clases magistrales sin subtítulos (próximamente disponibles en http://sinai.ujaen.es/dofer/descargas/videos.rar) - Transcripciones completas de las clases. - Evaluación de la calidad de la transcripción de las clases por parte del alumnado de las asignaturas Sistemas Operativos (grado en Ingeniería Informática), Informática Aplicada y Bases de Datos ((Ingeniería en geodesia y cartografía) - Proyección e Impacto (transferencia de los resultados y mejoras en el aprendizaje demostrables)
Este proyecto ha sido una prueba de concepto, de viabilidad del modelo propuesto de transcripción automática, pero que para poder llegar como un producto utilizable directamente por el alumnado requiere de la adquisición del SDK del software de transcripción, ya que de otra manera es imposible una sincronización correcta entre audio y video. En cualquier caso, se han generado podcasts que sí están a disposición del alumnado. También se les entregó algunas clases transcritas, pero solo para la evaluación de tales transcripciones como tales, no para seguir una clase, ya que sin una mínima sincronización audio/vídeo es muy dificultoso seguir la clase a partir de una transcripción completa de la clase. En definitiva, a día de hoy está a disposición del alumnado: - Clases de diversas asignaturas grabadas y disponibles para su descarga - Transcripciones de algunas de esas clases. - Respecto a las mejoras demostrables, a partir de la encuesta pasada a 203 alumnos, de los cuales ninguno manifestó tener dificultades con el lenguaje oral. En esta muestra se concluye que el 87% encuentra útil o muy útil tener acceso a grabaciones de clases, el 78% encuentra que la configuración utilizada da una calidad de video suficiente y el 70% considera que la calidad de audio es igualmente suficiente (en aquellos casos que se usó el micrófono corbatero este porcentaje sube al 82%). El 93% encontraría útil la inclusión de subtítulos en aquellos casos donde el medio oral no sea posible. Este porcentaje cae al 22% en caso de que no se supongan problemas de recepción/compresión oral. Esto es, en su mayoría el alumnado percibe como útil la inclusión de subtítulos solo en aquellos casos donde realmente es necesario. Finalmente un 43% del alumnado juzga suficientemente buenas las transcripciones realizadas por Dragon. Pensamos que este porcentaje sería mucho más alto si pudiéramos sincronizar correctamente audio y video, además de incluir algunos signos de puntuación y ser más estrictos en la inclusión de vocabulario nuevo en la base de datos de Dragon NaturallySpeaker.
Evaluación del proceso y Autoevaluación (instrumentos y recursos empleados) La evaluación del proyecto ha sido llevada a cabo mediante: - la observación directa del resultado por parte del profesorado implicado - Encuestas entre el alumnado. La encuesta utilizada se encuentra anexa en el anexo A Otras consideraciones
Consideramos que este proyecto como prueba de concepto ha demostrado que el enfoque es válido, si bien no es perfecto. Además de requerir el software de desarrollo de Dragon, que tiene un coste elevado, existen otras dificultades: - el necesario entrenamiento del software para cada profesor que quiera transcribir las clases - la bastante laboriosa preparación de todo el equipo (portátil, micrófono, cámara ), que lleva cierto y tiempo. Además tiene un elevado coste: cámara, micrófono, portátil, licencias de software - la necesidad de que el profesor tenga que ser consciente durante la clase de que es necesario de que hable, si bien con normalidad, procurando pronunciar con claridad - la ausencia de signos de puntuación en la transcripción, salvo que el profesor los indique, requiere también de alguna investigación adicional para que el presente proyecto pueda llegar definitivamente al alumnado En definitiva, consideramos que es un proyecto tecnológicamente factible, y con una evidente utilidad entre parte de la comunidad universitaria. Es por ello que es nuestra intención solicitar la continuación de este proyecto, con la intención de adquirir un SDK completo de Dragon, y poder generar estos mismos videos en sincronía con el audio con una precisión mucho mayor de lo que ha sido posible con los medios de los que deponemos. Gastos generados en el segundo año
Fungibles Dos cajas de DVDs de doble capa Inventariables - Viajes/Actividades - Otros Justificación Los DVD se han utilizado para poder grabar los videos. Deben ser de doble capa para poder grabarlos en HD DATOS DE LOS MIEMBROS DEL GRUPO Nombre Alfonso Apellidos Ureña López D.N.I. 52552054K E-mail laurena@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2895 Departamento Informática Categoría Titular de Universidad Firma Nombre María Teresa Apellidos Martín Valdivia D.N.I. 26006595N E-mail maite@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2898 Departamento Informática Categoría Titular de Universidad Firma Nombre Fernando Apellidos Martínez Santiago D.N.I. 26016529-X E-mail dofer@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2888 Departamento Informática Categoría Contratado Doctor Firma
Nombre Arturo Apellidos Montejo Ráez D.N.I. 26026531F E-mail amontejo@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2882 Departamento Informática Categoría Contratado Doctor Firma Nombre Manuel Carlos Apellidos Díaz Galiano D.N.I. 26032999N E-mail mcdiaz@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2882 Departamento Informática Categoría Colaborador Firma Nombre Miguel Ángel Apellidos García Cumbreras D.N.I. 52871272E E-mail magc@ujaen.es Centro Escuela Politécnica Superior Teléfono (8) 2420 Departamento Informática Categoría Contratado doctor Firma (Añadir tantas tablas como participantes en el Proyecto) VºBº de Coordinador/a Fdo.: Jaén, a 31 de Agosto de 2012 VICERRECTOR DE DOCENCIA Y PROFESORADO DE LA UNIVERSIDAD DE JAÉN
ANEXO A: ENCUESTA utilizada entre el alumnado Nro. de encuesta: Proyecto RADAR. Asignatura: Plan de Estudios: Fecha: Clase impartida: ------------------------------------------------------------------------------------------------------------------------------ Puntúe las siguientes afirmaciones del 1 al 5, representando el 1 el completo desacuerdo, y el 5, el completo acuerdo con la cuestión. 1- Es útil poder descargar grabaciones de clase a través de internet 2- En relación a estas grabaciones, la calidad del vídeo es adecuada 3- En relación a estas grabaciones, la calidad del audio es adecuada 4- En relación a estas grabaciones, el tiempo de descarga es aceptable 5- En caso que fuera posible, es útil poder descargar grabaciones con subtitulos, aun no teniendo ningun problema para la recepción y/o compresión del lenguaje oral 6- En caso que fuera posible, es útil poder descargar grabaciones con subtitulos únicamente si se tiene algún problema para la recepción y/o compresión del lenguaje oral 7- En las clases que el profesor ha grabado la clase no me ha costado más seguir lo que decía, ni he notado que hablara diferente a una clase normal. 8- Las transcripciones entregadas de algunas clases son suficientemente fidedignas, y se podría seguir una clase solo con ellas y el vídeo correspondiente.