Reconocimiento eficiente de marcadores del discurso en español



Documentos relacionados
Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Elementos requeridos para crearlos (ejemplo: el compilador)

forma de entrenar a la nuerona en su aprendizaje.

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Operación de Microsoft Word

SÍNTESIS Y PERSPECTIVAS

UNIDAD I: LÓGICA PROPOSICIONAL

GedicoPDA: software de preventa

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Sistemas de Gestión de Calidad. Control documental

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso

Capítulo 9. Archivos de sintaxis

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Indicaciones específicas para los análisis estadísticos.

Operación de Microsoft Excel

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Estructuras de Control - Diagrama de Flujo

ANÁLISIS DE DATOS NO NUMERICOS

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Gestión de la Configuración

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Operación Microsoft Access 97

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Base de datos en Excel

Capítulo VI. Diagramas de Entidad Relación

Centro de Capacitación en Informática

Funcionamiento de la sección Unidades Centinela (UC)

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Generación de funciones lógicas mediante decodificadores binarios con salidas activas a nivel alto

EL CONOCIMIENTO CIENTÍFICO DE LA LA PEDAGOGÍA COMO CIENCIA DE LA EDUCACIÓN. Teoría de la Educación Tema 11

PARTE 3 ECUACIONES DE EQUIVALENCIA FINANCIERA T E M A S

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

1.1. Introducción y conceptos básicos

Elaboración de Mapas Conceptuales

GUÍA RED SOCIAL FACEBOOK

Guía paso a paso para la cumplimentación del formulario de candidatura

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

Redacción de Artículos Técnicos. UCR ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides

Capítulo IV. Manejo de Problemas

Introducción a la Firma Electrónica en MIDAS

Introducción a la plataforma Moodle Aníbal de la Torre Plataforma Moodle. Accediendo a los contenidos

Test de Idioma Francés. Manual del evaluador

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Unidad 1. Fundamentos en Gestión de Riesgos

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

CAPITULO III A. GENERALIDADES

Tema 2: Modelo Entidad-Relación(ER)

Formularios. Formularios Diapositiva 1

Análisis de propuestas de evaluación en las aulas de América Latina

by Tim Tran:

Sistemas de numeración

Cómo sistematizar una experiencia?

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

revista transparencia transparencia y UNIVERSIDADES

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

ARREGLOS DEFINICION GENERAL DE ARREGLO

Charla N 6: Utilidades de Consulta de datos.

Capitulo I. Introducción

SIIGO Pyme. Procesos Gestión de Ventas. Cartilla I

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Covarianza y coeficiente de correlación

x

La Web Semántica como herramienta para e-learning

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Master en Gestion de la Calidad

Unidad 18. Clasificación según el momento en que se determinan los costos.

manera integral existe, hay coches para todos, desde los muy lujosos hasta los muy

Servicios Educativos Del Estado De Chihuahua Sistema Integral de Presupuestos y Materiales. Indice. Introducción Barra de Herramientas...

Aspectos a considerar en la adopción por primera vez en la transición a las NIIF para PYMES

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

Introducción. Metadatos

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

trámite, organización, consulta, conservación y disposición final de los documentos

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Como se mencionó en la parte de la teoría, no existe consenso en cuanto a la

TRÁFICO DE PISO 2. Rev. 1 15/04/09

Aproximación local. Plano tangente. Derivadas parciales.

COMO MEDIR LA EFECTIVIDAD DE LA CONCIENTIZACIÓN

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Sistema de Gestión Académica TESEO. Revisión 1.0. Servicio de Informática Área de Gestión (GESTIÓN DE RESÚMENES DE TESIS DOCTORALES)

Capítulo 5. Conclusiones.

Medias Móviles: Señales para invertir en la Bolsa

TEMA 39: OPERACIONES LOCALES EN EL MODELO RASTER

Diseño orientado a los objetos

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

CAPÍTULO 3: MARCO TEÓRICO. Lean Manufacturing (LM) es un conjunto de técnicas desarrolladas por la Compañía

Ingeniería en Informática

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

Manual del Usuario. Sistema de Help Desk

1.1 QUÉ ES EL INVENTARIO DE OPERACIONES ESTADÍSTICAS?

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

1. Construcción de Planes de Acción Sectoriales (PAS)

2 EL DOCUMENTO DE ESPECIFICACIONES

Tema 3. Medidas de tendencia central Introducción. Contenido

Problemas fáciles y problemas difíciles. Cuando a los niños les planteamos problemas de suma y resta, Laura dejó sin resolver el siguiente problema:

Criterios de Selección de Inversiones: El Valor Actual Neto y sus derivados *.

Transcripción:

Juan José Prada prada@fing.edu.uy Guillermo Moncecchi gmonce@fing.edu.uy Facultad de Ingeniería - Universidad de la República Uruguay Julio Herrera y Reissig 565 Piso 5 Reconocimiento eficiente de marcadores del discurso en español Resumen Las reglas contextuales tienen como propósito el análisis y etiquetado de porciones de texto, teniendo en cuenta el contexto en el que estos segmentos aparecen. Este formalismo se puede utilizar para el reconocimiento de los marcadores discursivos. Estos se pueden ver como operadores que añaden estructura al texto y sus argumentos son los segmentos de texto que entran en la relación determinada por ellos. Una técnica para la implementación de las reglas de reconocimiento de estos términos consiste en el uso de transductores. Los transductores son un modelo de autómata finito con transiciones sobre parejas de símbolos, que permiten definir relaciones regulares entre lenguajes. Esto hace posible que se puedan realizar reemplazos sobre un texto origen en un cierto contexto, para obtener un texto destino. Con la operación de composición, se pueden generar reemplazos en cascada. La técnica inicial propuesta es generar transductores para cada regla de reconocimiento de los marcadores por separado, y luego hacer la composición de éstos para obtener el reconocedor final. Posteriormente se incorporan modificaciones para mejorar la eficiencia en tiempo y espacio, como por ejemplo la sustitución de la composición de transductores (que puede generar autómatas excesivamente grandes) por la aplicación en secuencia de los mismos, tomando como entrada de uno la salida de otro. Se propone un prototipo usando transductores para el reconocimiento de marcadores discursivos y su contexto de actuación para textos irrestrictos en español. Palabras clave: marcadores discursivos, transductores, reglas contextuales, resumen automático por filtrado 1.- Introducción Con el término marcadores discursivos nos referimos a un conjunto de términos que establecen relaciones entre segmentos textuales. Son por ejemplo marcadores discursivos: en primer lugar, resumiendo, sin embargo, además. Su cometido es fundamentalmente el de guiar y ordenar los procesos de interpretación asociados a la comprensión de un texto. Los marcadores discursivos se pueden ver como operadores que añaden estructura al texto y cuyos argumentos son segmentos de texto que entran en la relación determinada por el marcador. Son en general operadores binarios, si bien en algunos casos la aridad de la relación es mayor que 2 (como ocurre, por ejemplo con el marcador compuesto : en primer lugar, en segundo lugar,, finalmente). La detección e interpretación de los marcadores discursivos forma parte de distintos procesos de interpretación y extracción de información de textos. En particular, para la actividad de producir resúmenes automáticos basados en el enfoque por filtrado ([Mar97], [Leh95]), el tener agrupadas frases bajo estructuras contextuales más complejas, brinda la posibilidad de obtener resúmenes donde se mantendría una mayor coherencia en el texto resultante en función de las frases extraídas. Sin duda, uno de los mayores desafíos a la hora de realizar este tipo de resúmenes consiste en mantener la intención comunicativa del hablante y es por eso que puede suceder que cuando se selecciona por algún criterio determinadas oraciones de un texto, alguna de las escogidas forme parte de un razonamiento en un cierto contexto, y pierda el sentido si es extraída sin el contexto correspondiente. En la siguiente sección se presentan brevemente los marcadores y una clasificación basada en la propuesta de María A. Martín Zorraquino y José Portolés [Zor99]. Posteriormente, se describen los formalismos: de Reglas Contextuales [Won01], utilizado para el enunciado de las reglas que permiten el análisis de los textos, tanto para encontrar los marcadores como para determinar su alcance, y de Relaciones Regulares [Bee99], que se plantea como forma eficiente de representación de las reglas y su implementación. Finalmente, se muestran los criterios utilizados en el procesamiento e implementación de las reglas para los distintos marcadores, y algunas conclusiones obtenidas. Para la generación de un propotipo, se utilizó la herramienta xfst de Xerox para el conjunto de reglas especificadas con el formalismo de expresiones y relaciones regulares. Las pruebas se realizaron sobre un conjunto de documentos (fundamentalmente artículos periodísticos) extraídos de distintas fuentes (Corpus CREA de la RAE, CORIN 1 [Cav00], periódicos uruguayos en Internet). 2.- Los marcadores del discurso 1 El proyecto CORIN está vinculado con el proyecto Aspectos semánticos de la interface gramática-discurso: estudios descriptivos y comparados (Action ECOS SUD Nº U97H02) dirigido por el Prof. Dr. Adolfo Elizaincín (Universidad de la República) y la Profa. Dra. Brenda Laca (Université de Paris VII (URA 1028 CNRS) y Université de Paris VIII).

2.1 Introducción La siguiente es una definición de marcador del discurso extraída de [Zor99]: "Los marcadores del discurso, son unidades lingüísticas invariables, no ejercen una función sintáctica en el marco de la predicación oracional - son pues, elementos marginales - y poseen un cometido coincidente en el discurso: el de guiar, de acuerdo con sus propiedades morfosintácticas, semánticas y pragmáticas, las inferencias que se realizan en la comunicación." El hecho de guiar las inferencias en el proceso comunicativo está determinando de algún modo, que se establezca un conjunto de relaciones entre distintas partes del texto, construyendo estructuras más complejas vinculadas justamente por estas marcas. Tales relaciones pueden ser de distinta índole: justificación de razonamientos, inferencias, contrariedad de enunciados, secuencias ordenadas de frases, etc. 2.2 Clasificación de los marcadores discursivos Se presenta aquí una clasificación del conjunto de términos que pueden considerarse marcadores discursivos, que sirve como soporte en este trabajo. La misma está basada en el estudio que hacen sobre el tema María Antonia Martín Zorraquino y José Portolés Lázaro en Los marcadores del discurso [Zor99]. Proponen agrupar el conjunto de términos en 5 clases aunque dentro de cada una existen subclases. Estructuradores de la información: carecen de significado argumentativo y su cometido es la organización informativa de los discursos. Se clasifican en: ordenadores; comentadores ; digresores. Algunos ejemplos: en primer lugar, finalmente, a propósito. Conectores: vinculan semántica y pragmáticamente un miembro del discurso con otro anterior, de tal forma que el marcador guía las inferencias que se han de efectuar del conjunto de los dos miembros discursivos conectados. Se clasifican en: aditivos; consecutivos; contraargumentativos. Algunos ejemplos: además, por lo tanto, sin embargo. Reformuladores: presentan con una expresión más adecuada - el miembro del discurso en el cual se encuentran - lo expuesto en un miembro anterior. Se clasifican en: explicativos; de rectificación; de distanciamiento; recapitulativos. Algunos ejemplos: es decir, de todas formas. Operadores argumentativos: refuerzan o ejemplifican un argumento. Condicionan por su significado, las posibilidades argumentativas del miembro en el que se incluyen sin relacionarlo con otro anterior. Se clasifican en: de refuerzo argumentativo; de concreción. Algunos ejemplos: por ejemplo, de hecho. Conversacionales 2 : aquellos cuyo uso más frecuente es en la conversación: oye, bien, hombre. No son homogéneos desde el punto de vista de la categoría gramatical, y son en muchos casos polisémicos. A su vez, varios elementos contribuyen a la detección de un marcador así como al tipo de relación que este establece, como, por ejemplo, su ubicación, la puntuación y como puede afectar en el contexto de actuación. 3.- Representación formal de las reglas 3.1 Reglas Contextuales Este formalismo ha sido desarrollado por el Grupo de Procesamiento del Lenguaje Natural (PLN) del In.Co. 3 [Won01]. Su propósito es el análisis y etiquetado de porciones de texto que cumplen determinada función dentro del mismo considerando además que éstos segmentos se encuentren en un cierto contexto. Las reglas incluyen palabras, signos de puntuación y las propias etiquetas asociadas a porciones de texto ya marcadas. Se indica el orden en que debe aparecer una secuencia de elementos y así generar una nueva etiqueta. La secuencia de elementos no tiene porque ser contigua; pueden intercalarse otros segmentos completos de texto. Este sistema de reglas está basado en los Sistemas de Exploración Contextual. En estos podemos mencionar el Método de Exploración Contextual (MEC) desarrollado por el grupo La.L.I.C. (Paris IV) y dirigido por Jean Pierre Desclés [Des96] y [Des97]. La idea del método gira en torno a la utilización del contexto 4 para identificar información semántica. Desde esta óptica, cualquier elemento que aparece en un texto puede considerarse para determinar si cierta información semántica está presente. Se trata de poder establecer distintas actividades a partir de análisis de documentos, tales como la extracción de información, resúmenes automáticos, búsqueda de definiciones en un texto, etc. Emplea para esto el conocimiento exclusivamente lingüístico presente en el documento, buscando determinadas unidades o expresiones lingüísticas llamadas indicadores y otras llamadas índices que complementan a los primeros. 3.1.1 Las reglas Un texto está básicamente formado por palabras y signos de puntuación; pero además, existe otro tipo de información que tiene que ver con la organización del mismo; elementos tales como títulos, párrafos, etc.. 2 Por trabajar sobre discursos escritos, estos no son considerados 3 Instituto de Computación de la Facultad de Ingeniería, URURGUAY 4 en el sentido de co-texto, lo que rodea a la oración analizada

Partiendo de este primer modelo de texto, uno puede procesarlo para agregar más información asociada ya sea a una palabra así como también a un conjunto de palabras. Una regla contextual es una expresión que identifica una porción de texto en un documento y le coloca una etiqueta. En esta regla, se puede expresar cierto contexto a la izquierda y/o a la derecha de la porción analizada que determine efectivamente la función que cumple el segmento analizado. Se establece entonces, un cierto orden en el cual se deben presentar las distintas unidades en el texto. Como ya se mencionó, estas unidades pueden no aparecer contiguas y distar un máximo (medido en tokens) entre una y otra, así como indicar que determinados elementos no deben estar presentes entre ellas (zona de exclusión). Sintaxis básica: Ejemplo: arg1_semb_o Etiqueta Contexto izquierdo \ Cuerpo / Contexto derecho ; Zona de Exclusión <O> \ *(S,100) / </O><O><SEMB> cm ; S={</O>} Esta regla etiqueta con el nombre arg1_semb_o al primer miembro asociado a un marcador discursivo contraargumentativo sin embargo que contiene dicho término como primer elemento de una oración (y que ésta no es la primer oración de un párrafo). Dicho argumento lo constituye la oración anterior a la que aparece el marcador. Entonces, el contexto derecho, esta formado (de derecha a izquierda) por una, (se colocó la marca cm), precedida del tag asociado al marcador sin embargo <SEMB> que aparece al principio de una oración (marcado con el símbolo <O>). A su vez, el contexto izquierdo lo constituye exclusivamente la marca de comienzo de oración; ya que el argumento (arg1_semb_o) excluye las marcas (por eso se coloca en el contexto derecho </O>). Además se especifica que ese primer miembro que es lo que aparece entre los símbolos \ y /, no puede contener una marca de fin de oración </O> (expresado en la zona de exclusión S). 3.2 Relaciones Regulares 3.2.1 Transductores y Relaciones Regulares Los transductores de estado finito son una extensión a los autómatas finitos tradicionales; tienen la misma estructura, pero con transiciones definidas sobre parejas de símbolos de dos alfabetos. Así como los autómatas de estado finito definen lenguajes regulares, los transductores permiten definir relaciones regulares, esto es, relaciones que mapean strings de un lenguaje regular a strings de otro lenguaje regular. Tienen como principal virtud el permitir el mapeo en un tiempo sólo dependiente del largo de la entrada, sin importar la complejidad de la relación. A partir del trabajo de Kaplan y Kay [Kap94], se extiende la definición de expresión regular para admitir términos consistentes en n-uplas de símbolos, permitiendo con esto la representación de relaciones regulares. En este mismo trabajo se demuestra que las relaciones regulares de igual largo (esto es, que mapean strings de igual largo entre ambos lenguajes relacionados) son equivalentes a las relaciones reconocidas por los transductores sin transiciones épsilon. Las relaciones regulares son particularmente adecuadas para la representación de reemplazos. Esto es, dada una tira de un lenguaje, la relación devuelve una tira consistente en la tira original, con cierta subtira (eventualmente reconocida dentro de un contexto) sustituida por otra. Otra característica fundamental de los transductores es la posibilidad de componerlos, esto es: dados dos transductores, obtener un transductor único que represente la aplicación sucesiva de ambos. En este trabajo se utilizaron los operadores para la definición de relaciones regulares utilizado por Xerox [Bee99]. La especificación de las expresiones regulares según esta propuesta, amplía la definición clásica para incluir relaciones regulares e introduce mas operadores, precisamente para facilitar su uso. A continuación se presenta un ejemplo de regla implementada a través de este cálculo de expresiones regulares. Además, es posible representar reemplazos y marcado de un texto, a través del operador @-> (left-to-right longest match replacement). Para realizar varios reemplazos en cascada, se utiliza el operador de composición. define oracion <O>?* </O> [S i n e m b a r g o,] @-> <SIN_EMBARGO> </SIN_EMBARGO>.o. oracion @-> <ARG1SEMBO> </ARG1SEMBO> _ <O><SIN_EMBARGO>,,?+ @-> <ARG2SEMBO> </ARGSEMBO> </SIN_EMBARGO> _ </O>.o. <ARG1SEMBO>?* </ARG2SEMBO> @-> <CONTRARG> </CONTRARG> ; Esta regla intenta identificar al marcador Sin embargo en su ocurrencia como conector de oraciones, por medio de la composición de tres transductores. El primero identifica el texto, y le agrega marcas para separarlo del resto del texto. El segundo, marca los argumentos primero y segundo, indicando, por ejemplo, que una oración es primer argumento si la siguiente oración comienza con el marcador; a su vez, lo que sigue es marcado como el segundo argumento. El tercer transductor marca todo como una estructura de conector contraargumentativo. Los tres transductores se componen para obtener otro que recibe como entrada el texto, y lo devuelve marcado según la regla.

4.- Procesamiento 4.1 Criterios para el etiquetado Se cuenta con 2 tipos de reglas: aquellas que determinan los marcadores y asignan las etiquetas a los mismos (operadores), y aquellas que etiquetan el texto - los párrafos, las oraciones y grupos de ellos - en función de los marcadores y su ubicación, es decir, marcan los argumentos establecidos por el alcance de dichos marcadores. El estudio del alcance de los marcadores así como las reglas que permiten desambiguar estos términos se puede ver en [Pra01]. Notar que se trata en muchos casos de unidades polisémicas 5, es decir, que en ciertos contextos o entre determinados signos lingüísticos como conjunciones o signos de puntuación, la unidad léxica definida como marcador puede no cumplir con la función discursiva. Vale decir, que en estos casos el procesamiento semántico pasa a depender de otras claves lingüísticas que marquen tanto el significado como el contexto de actuación. Asimismo, se cuenta con un sistema de prioridades entre los marcadores para cuando existe superposición entre sus alcances. El criterio será regirse por esa lista de manera tal de que un miembro en lugar de ser el tipo correspondiente según su regla de alcance pasa a ser la nueva unidad que surge a partir del alcance del marcador que tiene mayor prioridad. A modo de ejemplo, ------------------------ arg1_semb_o ------------------ <P><O>... </O><O> Además, </O> arg1_ademas_o arg2_ademas_o gr_adit_ademas_o ---- arg2_semb_o ----- <O> Sin embargo, </O><O>... </O></P> Al tener por un lado una regla que determine que el 1er miembro de un marcador conrtraargumentativo sin embargo sea la oración anterior, provoca que la oración que comienza con el Además, sea por un lado arg2_adit_o y por otro arg1_semb_o. La propuesta consiste en tener otra regla de manera tal de que como el marcador además tiene una prioridad mayor que el sin embargo, se indique este hecho y que se genere otro arg1_semb_o que abarque todo el gr_adit_ademas_o (que cubre desde el comienzo del párrafo). Luego, con un procedimiento ad-hoc del parser, se eliminan los arcos que se encuentran totalmente contenidos en otro arco. De esta forma, el arg1_semb_o que coincide con el arg2_adit_o se elimina. 4.2 Pruebas realizadas y resultados obtenidos En este punto, se explicará cual fue el corpus empleado tanto para la determinación de las reglas que definen los marcadores y su alcance así como para su validación. 4.2.1 El Corpus Se utilizó un conjunto de párrafos de la Real Academia Española (Corpus CREA 6 ). Este corpus consiste en textos de diversa procedencia, tanto escritos como orales desde 1975 a la fecha y que surgen de revistas, periódicos, libros, abarcando diversos temas. También se extrajeron párrafos de noticias de los diarios de Montevideo. Para la validación de los criterios de alcance propuestos, se trabajó con documentos completos a los efectos de comprobar mejor la incidencia que pudieran tener a lo largo del documento así como la interacción de unos marcadores sobre otros. Para esto se utilizó un corpus armado con noticias de los diarios uruguayos (El Observador, El País, La República) y con corpus CORIN 7. Es importante señalar que artículos seleccionados para la determinación de las hipótesis y los empleados para las pruebas posteriores fueron distintos. 4.2.2 El Prototipo Como se mencionó, para la implementación del prototipo se utilizaron transductores. Si bien los transductores son muy usados para tokenización y análisis morfológico -donde se comportan muy aceptablemente- no suelen ser empleados para tagging ni parsing, ya que tienden a crecer mucho al componerlos. Debe tenerse en cuenta que la composición de dos transductores de p y m estados respectivamente pueden llegar a conformar un transductor de p*m estados en el peor caso. Sin embargo, existen algoritmos para determinización y minimización que reducen la cantidad de estados y transiciones. A pesar de esto, la 5 pluralidad en el significado de una palabra 6 Corpus de Referencia del Español Actual (http://cronos.rae.es/creanet.html) 7 Corpus Informatizado: textos del español de Uruguay

experiencia mostró que la composición de los transductores para unas pocas reglas, generó transductores inmanejables en espacio y tiempo de generación. Como ejemplo, se presentan algunos números (cabe señalar que los transductores obtenidos se encuentran minimizados): - transductor que reconoce y etiqueta marcadores ( el conector sin embargo y los ordenadores en primer lugar, en segundo lugar,..., finalmente) 14 estados / 82 arcos - transductor que reconoce y etiqueta las ocurrencias del marcador sin embargo ubicado al comienzo de oración (3 reglas) 127 estados / 751 arcos - transductor con la composición de los dos anteriores 306 estados / 2698 arcos - transductor que reconoce y etiqueta las ocurrencias del marcador sin embargo a comienzo de párrafo (3 reglas) 149 estados / 1049 arcos - si componemos los dos primeros transductores con este último para tener el reconocimiento de las estructuras derivadas de ocurrencias del sin embargo (no se consideraron ocurrencias intraoracionales) llegamos a tener un transductor con 7883 estados / 97599 arcos Una solución para este problema pasa por la aplicación en secuencia de los transductores que codifican cada regla. Es decir, ejecutar uno a continuación del otro, tomando como entrada del segundo la salida del primero. Esto claramente introduce el concepto de secuencia y deja de lado la filosofía de los tranductores, pero permite que el reconocimiento se realice en tiempos del orden n * cantidad de reglas. 5.- Conclusiones En este trabajo se elabora en base a un conjunto de unidades textuales denominadas marcadores discursivos una estructura discursiva compuesta por mas de una oración o párrafo en función de la relación establecida por tales elementos y su contexto. Se construye un prototipo para el reconocimiento de los marcadores. Una conclusión muy importante que se puede sacar luego de desarrollar esta propuesta, es que se pudo expresar un conjunto de reglas para determinar la existencia de marcadores discursivos y su contexto de actuación con el uso de un formalismo para la especificación, y otro para la implementación. Estos formalismos tienen como principal ventaja el permitir una codificación rápida y sencilla de las reglas, lo que hace que se pueda verificar con ejemplos concretos si las heurísticas relacionadas con el alcance de ciertos marcadores son correctas. Asimismo, el utilizar transductores hace que el testeo de las reglas sea muy eficiente, puesto que el orden del procesamiento es n, siendo n el largo del texto. En este trabajo, se asoció cada regla con un transductor. Si se quiere manejar un conjunto de reglas, hay que componer los transductores correspondientes, lo que provoca problemas de tiempo de generación y espacio. Esto se resuelve con la aplicación en secuencia, aunque alejándose del paradigma. Puede verse, además, que los resultados obtenidos son integrables en herramientas informáticas que realicen análisis de textos para distintas aplicaciones como por ejemplo la realización de resumen automático por filtrado. Bibliografía [Bee99] Beesley K.R.; Kartunnen, L.(1999) DRAFT: Finite-State Morphology: Xerox Tools and Techniques documento de la compañía Xerox [Cav00] Caviglia S., Malcuori M., Grassi M. (2000) Corpus Informatizado: textos del español del Uruguay(CORIN), IV Congreso de Linguistica General, Universidad de Cádiz, abril de 2000 [Des96] Desclés, J.P. (1996) Systèmes d exploration contextuelle Table ronde sur le Contexte, Caen [Des97] Desclés, J.P.; Cartier, E.; Jackiewicz, A.; Minel, J.L. (1997) Textual Processing and Contextual Exploration Method Context97, Río de Janeiro [Kap94] Kaplan, R.; Kay,M. (1994) "Regular models of phonological rule systems" Computational Linguistics, vol. 20, no. 3, pp. 331--378 [Leh95] Lehmam, A. (1995) Le résumé de textes techniques et scientifiques, aspects lingüistiques et computationnels. Tesis doctoral Université Nancy 2 [Mar97] Marcu, D. (1997) The Rethorical Parsing, Summarization and Generation of Natural LanguagesText. Tesis doctoral. Universidad de Toronto [Moh96] Mohri, M. (1996) On Some Applications of Finite-State Automata Theory to Natural Language Processing [Pra01] Prada J.J. (2001) Marcadores del discurso en español. Análisis y representación Tesis de maestria, Universidad de la República, Uruguay [Rae73] Real Academia Española (1973) Esbozo de una nueva gramática de la lengua española Madrid Espa-Calpe [Roc97] Roche,E., Shabes,Y. (1997) "Finite-State Language Processing. Introduction" [Won01] Wonsever, D.; Minel, J.L. (2001) Contextual Rules for Text Analysis, Lecture Notes in Computer Science 2004, :509-523 [Zor99] Martín Zorraquino, M.A.; Portolés Lázzaro, J. (1999) Los marcadores del discurso en RAE Gramática Descriptiva de la Lengua Española Tomo 3 Entre la oración y el discurso Morfología ; dirigida por I. Bosque y V. Demonte Cap. 63 :4051-4203. Madrid:Espa Calpe