Convirtiendo el Contenido de Archivos. en Objetos de Aprendizaje

Convirtiendo el Contenido de Archivos en Objetos de Aprendizaje Alvaro Hernández, Claudia Badell, Rodolfo Sum, Regina Motz Instituto de Computación, Facultad de Ingeniería, Universidad de la República, Uruguay Abstract. The search, selection and assembly of educational materials for e- learning courses entails significant costs. To improve this situation, emerges the concept of Learning Object (LO) as an element reusable and interoperable. This paper presents a system that based on a corpus of documents, extracts a set of educational components of a subject area, and package them into LOs of fine granularity, and generates metadata in a semi automatically way. Ontologies are used to define the theme area. Pedagogical components are modeled contextual rules, and are used to find patterns inside the documents. We present the result of evaluating the prototype with the extraction of LO for a first course. Resumo. Procurar e selecionar conteúdo para criar cursos de educação implica custos significativos.. Para melhorar esta situação, surge o conceito de Objeto de Aprendizagem (ODA). Este trabalho apresenta um sistema que, a partir de um corpus de documentos, extrae informações sobre uma área temática, e uma coleção de componentes educacionais. Esta informação é empacotada em objetos de aprendizagem de granularidade fina, juntamente com uma coleção de metadados. Ontologias são utilizadas para definir a área temática; componentes pedagógicos são modelados com regras contextuais, e são usados para encontrar padrões nos documentos. Palavras Chaves: Objeto de Aprendizagem, Ontologia. 1. Introducción En la actualidad muchos docentes publican en sitios web materiales como complemento a los cursos presenciales. Al querer llevar estos cursos presenciales a cursos a distancia vuelven a generar todo el material prácticamente de cero. Ocasionalmente pueden encontrar asistencia en la plataforma de educación a distancia que usan para ingresar sus materiales. Sin embargo, dentro de la Universidad de la República (Uruguay), identificamos el proceso de generación de materiales como el cuello de botella para la adopción de las plataformas de educación a distancia. Como estrategia para disminuir estos costos, surge la idea de compartir y reutilizar material digital. Para esto, es necesario que sea desarrollado con formato estándar y contenga información que describa su contenido. Lograr componentes reutilizables requiere que sean armados con diferentes niveles de granularidad, de modo que puedan construirse nuevos componentes partiendo de los más simples.

Componentes de menor granularidad permiten mayor reutilización. En este contexto, surge el concepto de ODA Objeto Digital de Aprendizaje [Willey 2000] [Inostroza 2005], material educativo digital, auto-contenido y re-utilizable, poseedor de información que permite describir su contenido (metadata). Las herramientas llamadas LCMS Learning Content Management System, como Moodle [http://www.moodle.org] y ATutor [http://www.atutor.ca], utilizan estándares que facilitan la interoperabilidad, durabilidad y reutilización de los contenidos educativos. Un estándar ampliamente usado es SCORM [Sharable Content Object Reference Model], que propone un formato de empaquetamiento, navegación y secuenciación, y LOM [Learning Object Metadata], que define una estructura para su descripción mediante metadatos. El uso de ODA se está consolidando en la comunidad de los educadores, valorándose positivamente sus características de re-utilización e interoperabilidad. Estas características se ven acrecentadas cuando se trabaja con ODAs de granularidad fina. Un ODA de granularidad gruesa puede ser un curso completo, mientras que ODAs de granularidad fina pueden ser ejemplos, definiciones, ejercicios. Este trabajo muestra la explotación de herramientas de la web semántica [Berners-Lee, Hendler y Lassila 2001], como lo son las ontologías, y herramientas de procesamiento del lenguaje natural, para la realización de un servicio que permite asistir al docente en la extracción de información desde materiales provenientes de diversos tipos de fuentes. Es capaz de extraer automáticamente objetos de aprendizaje que aborden cierta área temática, pero además, los provee con metadatos que describen su contenido. La herramienta que este trabajo presenta es un extractor de ODAs de granularidad fina. El resto del trabajo está organizado de la siguiente forma. En la Sección 2 se detallan las dificultades que hay que resolver para la extracción automática de ODAs. En la Sección 3 se presenta la arquitectura general del asistente Looking4LO propuesto para resolver este problema. En la Sección 4 se muestran los resultados obtenidos con el prototipo inicial, aplicándolo al área temática de las redes de comunicaciones de datos y finalmente, la Sección 5 presenta algunas conclusiones y líneas de trabajos futuros. 2. El problema de Extraer ODAs La extracción de ODAs desde el contenido de archivos presenta la misma problemática que la extracción de información desde textos. El primer escollo es cómo identificar en los mismos la información buscada. Esto es lo que se conoce como el problema de recuperación de información. Si nos limitamos a utilizar para este problema buscadores tradicionales, donde las búsquedas se realizan utilizando solamente palabras clave, estaríamos realizando lo que se denomina búsqueda sintáctica. Este tipo de búsquedas presenta, entre otros, los siguientes problemas: Sinonimia: la búsqueda no tiene en cuenta los sinónimos del término. Multilingüismo: si la palabra de búsqueda está en español, no tiene en cuenta dicha palabra en otros idiomas. Por lo tanto, si la consulta no identifica en forma precisa lo que se está buscando, se puede obtener un resultado que no es acorde a nuestras necesidades. Sería deseable

poder evitar los problemas anteriormente mencionados, identificando inequívocamente los conceptos presentes en los documentos de interés, y de esta forma encontrar la información requerida, logrando lo que se denomina búsqueda semántica. Estas búsquedas se basan en la utilización de tesauros y también de ontologías. La idea es realizar búsquedas semánticas sobre un conjunto de documentos con el fin de encontrar los conceptos buscados. Aquí el problema es poder realizar de forma adecuada la búsqueda semántica, y para ello se necesita de un Modelo de Dominio. Una vez que se tienen los conceptos que se buscan identificados en el texto, se deben identificar las porciones del texto que se pueden asociar a objetos de aprendizaje. La dificultad aquí reside en cómo realizar esta identificación para que pueda ser realizada de forma automática. Para esta parte contamos con lo que se puede denominar un Modelo Pedagógico. Finalmente el último paso tiene la dificultad de realizar el empaquetado de los ODAs identificados en la etapa anterior con metadatos. En un ODA los metadatos nos permiten obtener características del mismo, que no pueden ser incorporadas directamente en el material educativo. Bajo estas condiciones entonces, se identificaron tres elementos fundamentales que debe recibir el Sistema al momento de realizar la extracción: Modelo Pedagógico, Modelo de Dominio y Fuentes. Modelo Pedagógico refiere a una abstracción que sirve para modelar un curso. En el ámbito de pedagogía involucra conceptos más complejos que los utilizados en este trabajo. Aquí, se utiliza para identificar una estructura formada por elementos que cumplen una función o rol dentro de un curso, y llamamos Componentes Pedagógicos a estos elementos. Algunos de estos componentes son definiciones, ejemplos, ejercicios, cuestionarios, etc. Modelo de Dominio refiere a un área temática de interés. Su función consiste en definir cualquier objeto o entidad que se quiera representar, y se utiliza para modelar el tema sobre el que se busca extraer ODAs. Temáticas de interés pueden ser matemática, programación de computadoras, historia, cocina o cualquier otra sobre la que se quiera extraer ODAs. Por lo tanto, el Modelo de Dominio define sobre qué tema se quiere buscar, y los Componentes Pedagógicos qué es lo que se busca sobre él. La salida del Sistema es un conjunto de ODAs. Cada uno de estos tiene el contenido que trata la temática objetivo, y a su vez, se corresponde con algún componente pedagógico, explicitado en el correspondiente metadato. En la Figura 1 se presenta un esquema con los participantes del Sistema.

Figura 1. Descripción del problema. 3. Asistente para Extracción de ODAs El asistente para la extracción de objetos de aprendizaje presenta una arquitectura flexible para su fácil extensión, en varios aspectos. Muchas de las características deseables del Sistema fueron influyentes en el diseño. Una característica que se atendió fue la facilidad de incorporación de nuevos tipos de documentos a ser procesados. Por lo tanto, se implementó un manejador de extractores que permite la existencia de varios extractores sobre distintos tipos de archivos. Esto posibilita al usuario seleccionar qué extractor usar en cada extracción, e incorporar fácilmente uno nuevo. La necesidad de brindar al usuario los ODAs resultado de la extracción, condujo a la creación de empaquetadores, que tienen la responsabilidad de presentar y persistir dicha información. De manera similar al punto anterior, se implementó un manejador de empaquetadores y se facilita la incorporación de nuevas formas de empaquetamiento. Otra característica importante que debía tener el Sistema, era la capacidad de configuración del modelo de dominio a utilizar. Para esto, el dominio es modelado con una ontología, la cual es recibida como parámetro al momento de la extracción. El usuario final solamente debe brindar la ontología que define el dominio sobre el que desea trabajar. El conjunto de Componentes Pedagógicos extraíbles también debía ser extensible, permitiendo la incorporación de nuevos componentes a extraer, o la modificación de la estrategia para la identificación de los mismos. Para esto, cada extractor incorporado a la arquitectura debe informar los Componentes Pedagógicos y metadatos que es capaz de extraer. La unión de éstos, determinará el conjunto de Componentes Pedagógicos y metadatos extraíbles por el Sistema. La estrategia de identificación y extracción de ODAs es responsabilidad de cada extractor. En la Figura 2 se puede observar un esquema de la arquitectura desarrollada.

Figura 2. Arquitectura del Asistente Las entradas al Sistema son recibidas por el Controlador, que identifica el tipo de cada documento a analizar, y lo delega al wrapper correspondiente junto con el resto de los parámetros de entrada. La salida de estos wrappers son ODAs enriquecidos con metadatos los cuales son recibidos por el Empaquetador, que persiste o presenta esta información en un formato particular. Toda herramienta automática de extracción de información, debe tomar la decisión de que estrategia utilizar para delimitar el comienzo y fin de la información a extraer. Un objetivo importante en este sentido, fue brindar flexibilidad para cambiar la estrategia de delimitación del contenido de un ODA. En el prototipo, todos los wrappers utilizan un mismo motor de extracción, el cual hace uso del patrón Strategy para brindar dicha flexibilidad. 3.1. Metadatos Una decisión importante en el prototipo fue el modelado de los metadatos que describen a un ODA. Cada ODA contiene una colección de agrupaciones de metadatos. Se identificaron cuatro agrupaciones, donde cada una conserva los metadatos de acuerdo al origen de donde provinieron los mismos. Los metadatos se pueden agrupar en metadatos externos, fuente, generales y específicos. Los metadatos externos son los metadatos que desde la interfaz son ingresados por el usuario. Son los únicos que se cargan de forma manual y son incluidos en todos los ODAs extraídos. Los metadatos fuente corresponden a los extraídos por cada wrapper a partir del tipo de documento que examina. Estos metadatos dependen de la fuente que está siendo analizada. Un claro ejemplo de estos, son los metadatos SCORM que son obtenidos desde el archivo imanifest.xml. Los metadatos específicos son extraídos de forma automática por cada wrapper a partir del contenido, y son aquellos metadatos que aplican a un Componente

Pedagógico específico. Estos metadatos proveen información sobre ese Componente Pedagógico, y no tienen alcance fuera de éste. Por ejemplo, para un teorema podría calcularse el tiempo medio de lectura. Los metadatos generales son también extraídos por cada wrapper a partir del contenido, y a diferencia de los específicos, estos tienen alcance sobre todo el documento que recibe como parámetro. Un claro ejemplo de estos sería la extracción del autor del documento. 3.2. Motor de Extracción El motor de extracción tiene como objetivo extraer ODAs desde un documento utilizando una ontología que define el área temática de interés. La plataforma que se utilizó para implementar la extracción de ODAs fue GATE - General Architecture for Text Engineering [http://gate.ac.uk/], que permite procesar los siguientes formatos de documentos: TXT, HTML, SGML, RTF, XML, Email, PDF y WORD. Además permite integrar componentes de Procesamiento de Lenguaje Natural para construir aplicaciones. En esta plataforma los tipos de componentes más importantes son: -Recursos Lingüísticos LR: recursos de sólo datos, como diccionarios u ontologías. -Recursos de Procesamiento PR: unidades de procesamiento de datos como por ejemplo, tokenizadores, etiquetadores léxicos, separadores de oraciones, reconocedores de entidades, etc. Una característica del etiquetador léxico es que es dependiente del idioma. GATE no ofrece un recurso que permita realizar el etiquetado léxico en español. Debido a esto, se utilizó un plugin diseñado por el laboratorio CLaC - Computational Linguistics at Concordia de la Universidad de Concordia de Montreal que permite realizar el etiquetado léxico en español. Los Componente Pedagógicos se identifican a traves de reglas contextuales. Cuando se encuentra en el texto un patrón que coincida con la regla, entonces dicha porción de texto se identifica como un nuevo componente pedagógico. Las reglas contextuales utilizadas están implementadas en Jape - Java Annotation Patterns Engine [JAPE]. Jape es un lenguaje que permite escribir expresiones regulares sobre anotaciones, como también permite la búsqueda de patrones con el fin de crear nuevas anotaciones. 4. Evaluación del prototipo En esta sección se muestran los resultados obtenidos de la evaluación sobre el prototipo, el que se puede encontrar en www/looking4lo.sourceforge.net El área temática fue Redes de Comunicaciones, por lo que, durante una pasantía realizada en la Universidad Nacional de Educación a Distancia, se creó una ontología para la evaluación. Con respecto a los fuentes utilizados, se seleccionó un conjunto de archivos de prueba de diferentes formatos, que tratan sobre redes de comunicaciones. Uno de estos archivos es una tesis de doctorado de la UNED que introduce el tema de Redes Comunicaciones, por lo que contiene material de buena calidad. Además se incluyeron ejercicios, exámenes y otros documentos, obtenidos de Internet. Previo a la ejecución de las pruebas, se analizó manualmente la muestra de

documentos para determinar en cada uno, donde se encuentra la información que se corresponde a una definición, ejercicio o ejemplo. Además, se identificó cuales de los metada tos que el prototipo puede extraer se encontraban en cada documento. Se realizaron dos ciclos de pruebas, la primera para realizar una evaluación preliminar del prototipo, e identificar qué se podía mejorar del mismo. Para el segundo ciclo se realizaron algunos cambios sobre los modelos, que permitieron mejorar los resultados en la extracción. En la ontología, se agregaron conceptos extendiendo la representación del dominio, permitiendo detectar las ocurrencias de los conceptos no identificados en el primer ciclo. Con respecto a las reglas, se encontró que una de las utilizadas para la detección de definiciones, si bien cumplía esta función, además clasificaba falsos positivos, por lo que se decidió removerla. La regla consistía en identificar un concepto del dominio seguido de :. 4.1. Extracción de Componentes Pedagógicos Los resultados se presentan en tablas, que incluyen los valores esperados y obtenidos para cada archivo de entrada. Se utilizó una tabla para cada tipo de componente pedagógico. Además, se indica la cantidad de falsos positivos, así como la razón por la que no se detectaron algunos componentes pedagógicos. Las fallas por no detección de componentes pedagógicos se clasifican por dos razones posibles: el concepto buscado no se encontraba en la ontología, o no se definieron reglas que permitieran detectar el componente pedagógico. Los falsos positivos corresponden a texto que tiene el mismo patrón que los diseñados para detectar componentes, pero que en realidad no se trata sobre los componentes buscados. En la Figura 3 se presentan los resultados correspondientes al Componente Pedagógico definición. En la columna Fuente se listan los nombres de los archivos de entrada; a continuación el tipo del archivo y luego los resultados esperados y obtenidos. Figura 3 Resultados en la extracción de Definiciones La columna Cantidad Esperada indica cuantas definiciones se encontraron de forma manual en el documento. Cantidad Detectada indica el número de ODAs efectivamente generados, y la suma con los valores debajo de las columnas Cantidad no Detectada coincide con la primera. En los casos en que el Sistema genera un ODA que no corresponde (falso positivo), este valor se declara en la última columna. Las tablas para ejemplos y ejercicios contienen la misma información. A continuación, en las Figura 4 y 5 se presentan los resultados en la extracción de Ejemplos y Ejercicios respectivamente.

Figura 4 Resultados en la extracción de Ejemplos Figura 5 Resultados en la extracción de Ejercicios 4.2. Extracción de metadatos A continuación, se presentan los resultados en la generación de metadatos que forman parte de los ODAs. Esta información está separada de acuerdo a la clasificación y alcance de los metadatos. Por un lado, autor, como representante de los Metadatos Generales que aplican a todos los ODAs extraídos de un mismo documento; y por otro, los Metadatos Específicos que están asociados a un tipo de componente pedagógico. El alcance de estos últimos es local a cada ODA. Como metadatos específicos se tiene, tiempo de lectura para las definiciones, tiene imagen para ejemplos y nivel de interactividad para los ejercicios. La extracción de la información sobre el/los autores se hace sobre todo el contenido del documento. En la muestra utilizada para las pruebas, la mayoría de los documentos no incluía el autor como parte de su contenido. Esto se representa con un 0 en la columna Esperados. En los casos en que se cuenta con el nombre del/los autores del documento, el valor esperado es el número de ODAs que contienen la información de sus autores (de todos los tipos de ODAs). La columna Encontrados indica cuantos de estos ODA contienen el metadato con la información correcta. En la Figura 6 se presentan los resultados para la extracción del metadato general autor.

Figura 6 Resultados extracción de Autor Para los metadatos específicos, la información que se registró es diferente, ya que cada metadato contiene información que es local a una ODA, y a su vez, cada tipo de componente pedagógico puede tener sus metadatos específicos particulares. 5. Conclusiones y Trabajo Futuro En este trabajo presentamos nuestra propuesta para la extracción automática de objetos de aprendizaje y sus metadatos, desde el contenido de archivos en distintos formatos. Desarrollamos un prototipo que fue experimentado con datos reales para generar ODAs y mostramos los resultados obtenidos con este prototipo inicial y comparamos los resultados obtenidos en dos pasadas donde se mejoró la ontología de dominio utilizada, colocándole en la segunda pasada términos más específicos. La conclusión preliminar que esto muestra confirma lo previsto, en referencia a que la ontología de dominio es un factor crítico en el proceso de extracción. Además, se incorporó el uso de un modelo pedagógico a través de Componentes Pedagógicos al momento de la extracción. Para la evaluación del prototipo se construyó una ontología que sólo contiene uno o dos niveles de clases, con instancias que permiten realizar correspondencias sobre los documentos de prueba. El objetivo fue evaluar las anotaciones y construir reglas para manejarlas. Las anotaciones basadas en la ontología no utilizan la información contenida en sus relaciones, con lo que una parte muy importante del modelo no está siendo utilizada, perdiendo mucho del potencial que las ontologías ofrecen. Utilizando el potencial de las reglas Jape se puede llegar a detectar las relaciones semánticas entre los conceptos, y con ello mejorar la precisión de las búsquedas. Al mismo tiempo esta información podría ser utilizada para mejorar la delimitación de los ODAs. Cuando se identifica un tema, se podría analizar el conjunto de oraciones siguientes y mientras éstas sigan haciendo referencia al mismo tema o tengan alguna relación semántica con el tema identificado primariamente, se las incluye en el ODA.

Un concepto fundamental para el análisis del texto es el de contexto. Al introducir un término, éste tiene un cierto rango dentro del texto donde puede ser referenciado sin hacerse de forma explícita. Por lo tanto, determinar que tema se está tratando en cierto fragmento de texto, puede requerir evaluar el entorno de dicho fragmento. Un ejemplo de contexto y rango es el provisto por los títulos. Todo lo que esté dentro del alcance de un título, podrá apartarse del tema, pero el objetivo del contenido estará orientado a tratar ese tema. En particular, parece más intuitivo pensar que esto se cumpla cuando se trata de material técnico o educativo. Un paso importante sería extraer las imágenes, gráficos y tablas de los documentos procesados y empaquetarlos como ODAs. El prototipo esta orientado a la extracción de texto, pero se implementaron reglas para detectar la ocurrencia de imágenes, identificando los textos donde se mencionan. Referencias David A. Wiley. (2000) Connecting learning object to instructional design theory: A definition, a metaphor, and a taxonomy. The Instructional Use of Learning Objects.Versión Online : http://www.reusability.org/read/chapters/wiley.doc Patricio Inostroza (2005)- APROA Comunidad FAQ: Sobre Objetos de Aprendizaje URL: http://146.83.43.182/aproa/1116/article-68380.html#h2_1 Tim Berners-Lee, James Hendler y Ora Lassila The Semantic Web, Scientific American., 5 2001 http://www.sciam.com/article.cfm?articleid=00048144-10d2-1c70-84a9809ec588ef21&catid=2 ATutor - URL: http://www.atutor.ca Moodle - URL: http://www.moodle.org SCORM-Sharable Content Object Reference Model http://adlnet.gov/scorm/index.aspx LOM Learning Object Metadata http://ltsc.ieee.org/wg12/ GATE General Architecture for Text Engineering URL: http://gate.ac.uk/ Proyecto TC Textual Corpora and tools for their exploration, Universidad de Stuttgart URL:http://www.ims.unistuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagg er.html JAPE Java Annotation Patterns Engine http://gate.ac.uk/sale/tao/index.html#x1-1690007