de mathiase@fing.edu.uy Grupo de Procesamiento de Lenguaje Natural Instituto de Computación Montevideo, 2012
Contenido
El proyecto consiste en la construcción de una herramienta para el reconocimiento e interpretación de expresiones temporales en español. Forma parte de un proyecto de mas amplio de tratamiento automático de textos en termino de eventos, expresiones temporales y las relaciones entre estos. (TEMANTEX)
El tiempo cumple un rol activo en varias facetas de nuestras vidas, esto lleva a referirse al tiempo de diversas maneras. Las expresiones temporales son expresiones lingüísticas que indican la duración o localización de un evento respecto al tiempo.
Ejemplos el 7 de abril de 1987 durante 23 minutos algun día de marzo mañana de mañana por algún tiempo el jueves que viene a las 5 de la tarde...
Un problema central al enfrentarse al tratamiento automático de expresiones temporales es su diversidad y abundancia Clasificarlas en función de su información semántica es una alternativa para amortiguar este problema
Duración vs. Localización Las expresiones de localización son aquellas que indican la localización de un evento en el tiempo el 15 de octubre de 2005 los primeros días de abril hoy, mañana, ayer en Navidad Las de duración aquellas que indican su duración durante 4 horas por varios minutos durante mucho tiempo
Absolutas vs. Relativas Las expresiones relativas son aquellas que requieren información temporal adicional para ser interpretadas el año pasado ayer 5 días después el 17 de ese mismo mes el 20 de noviembre de lo contrario son absolutas. algún día de octubre de 2009 en 1997 en el verano de 1995 en el siglo XI a.c
Precisas vs. Difusas Las expresiones precisas son aquellas cuyas cuya información temporal es posible interpretar con exactitud. durante 5 minutos el 5 de enero de 2010 el martes que viene el siglo pasado de lo contrario son difusas o vagas. durante muchas horas por un tiempo algún día del mes que viene algún martes de abril
TimeML Es un esquema de anotación para eventos, expresiones temporales y relaciones entre estos. Está basado en XML. La especificación de la última versión de TimeML se encuentra en http://timeml.org/site/ publications/timemldocs/timeml_1.2.1.html
TimeML Ejemplo
TCNL - Time Calculus for Natural Language TCNL es una especificación para representar información temporal Consiste en la construcción objetos temporales mediante el uso de otros objetos y operadores. Apunta a contar con representaciones amigablemente inferibles de las expresiones temporales.
TCNL - Time Calculus for Natural Language Tipos de Objetos Temporales Existe tres tipos de objetos temporales: Cantidades, Coordenadas y Enumeraciones. Las cantidades (Q) son restricciones numéricas sobre unidades temporales. (ej. 1 hora, 30 min ) Las coordenadas (C) son una conjunción de restricciones de igualdad sobre unidades temporales. (ej. {martes dia_sem, 15 dia, 3 mes }) Las enumeraciones (E) son conjuntos de coordenadas. (ej. [{3 mes }, {4 mes }])
TCNL - Time Calculus for Natural Language Operadores + + / : C Q C suma y resta exacta +/ : C Q C suma y resta con coerción [ : ] : C C E y [ : ] : C Q E intervalos @ : Q E C ordinal
TCNL - Time Calculus for Natural Language Ejemplos a las 3 de la tarde del martes {15 hora, martes dia_sem } durante 20 minutos 20 min mañana foco + 1 dia 1 mes después foco + +1 mes el mes que viene foco + 1 mes
Trabajo realizado Se construyó un repertorio de expresiones temporales Se investigó y extendió TCNL ampliando el espectro de expresiones temporales representables. (CTemp) Se definió un esquema de anotación de expresiones temporales. (ETemp) Inspirado en trabajos realizados sobre TimeML Utiliza CTemp Se investigaron diversos enfoques para llevar a cabo el reconocimiento y la interpretación automáticamente Se construyó una gramática de reglas contextuales
CTemp Agrega al TCNL clásico el uso de cuantificadores con el fin de representar expresiones difusas Agrega la noción de valores compuestos (operadores y a nivel de valores) Agrega el operador @@ : Q E E denominado operador de selección (o cardinal) Considera un operador de coerción según una granularidad ( : C Gran C)(ej. foco mes ) Considera una granularidad ficticia denotada void para indicar vaguedad a nivel de granularidad
CTemp Ejemplos durante algunos minutos alguno min un tiempo después foco + 1 void entre marzo y abril [{marzo mes } : {abril mes }] el 4 y 5 de febrero {2 mes, 4 5 dia } este siglo foco siglo algunos días de abril alguno dia @@{4 mes }
ETemp Es un esquema de anotación basado en XML para la anotación de expresiones temporales que contempla las caracteristicas composicionales de las expresiones temporales. Consiste en tres etiquetas: etemp, stemp (interna) e itemp. etemp y stemp marcan la extensión de expresiones y subexpresiones temporales. itemp marca indices y modificadores temporales etemp contiene los siguientes atributos: id, estructura (rec atom enum rango patron), tipo (dur loc), clase (prec sub abs), precisión (prec vaga), dir (+,-,nula), gran, s_vag, foco y ctemp.
ETemp Ejemplos
Reconocimiento / Interpretación Reglas Contextuales Se construyó una gramática de reglas contextuales que realiza el reconocimiento e interpretación en simultaneo Se utilizó el interprete de reglas contextuales desarrollado por el grupo de PLN del InCo Las reglas contextuales resuelven algunas carencias de las gramáticas con rasgos Tienen la ventaja de poder acceder a información interna de las palabras (lema, categoría, número, genero,...) brindada por Freeling Permiten el uso de contextos en las reglas Tienen la ventaja de permitir procesamiento mediante el uso de condiciones en las reglas Expresiones (predicados Temporales Prolog)
Evaluación Se utilizó un corpus de 12 mil palabras con 220 expresiones temporales. Reconocimiento Prec Recall F Bio 94.8 87.3 90.9 Fútbol 77.2 90 83.1 Tot 81.4 89.1 85.1 Interpretación Prec Recall F Bio 84.5 86.0 85.2 Fútbol 70.6 89.0 78.7 Tot 73.9 88.2 80.4
Apéndice Referencias Referencias I TimeML Working Group. A Formal Specification Language for Events and Temporal Expressions. October, 2005. Benjamin Han, Donna Gates and Lori Levin. From Language to Time: A Temporal Expression Anchorer. Carnegie Mellon University, 4th Workshop on Inference in Computational Semantics, 2003.
Apéndice Referencias Referencias II Dina Wonsever, Marisa Malcuori, Esquema de anotación de expresiones y marcas temporales. Facultad de Ingenieria, UdelaR, Reporte Técnico RT 11-15, 2011.