Curso de traducción automática de lenguas naturales

Documentos relacionados
Curso de traducción automática de lenguas naturales

Curso de traducción automática de lenguas naturales

Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/04/2016.

Curso de semántica general

Seminario de análisis del discurso

Seminario de análisis del discurso

Introducción a la lingüística computacional

César Antonio Aguilar Facultad de Lenguas y Letras 10/06/2013

Seminario de análisis del discurso

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 21/03/2016.

Alineación de textos y traducción automática

Seminario de análisis del discurso

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 14/03/2016.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 13/03/2017.

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 16/03/2017.

César Antonio Aguilar Facultad de Lenguas y Letras 12/09/2017

César Antonio Aguilar Facultad de Lenguas y Letras 16/10/2017

César Antonio Aguilar Facultad de Lenguas y Letras 08/04/2013

Curso de traducción automática de lenguas naturales

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 17/04/2017.

Introducción a la lingüística computacional

César Antonio Aguilar Facultad de Lenguas y Letras 22/04/2013

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/03/2017.

Método de Traducción Automática por Traducción Estadística

César Antonio Aguilar Facultad de Lenguas y Letras 03/11/2016

Curso de procesamiento del lenguaje natural

Pontificia Universidad Católica del Ecuador

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 15/05/2017.

Seminario de análisis del discurso

La Piedra Rosetta de la Bioquímica

Curso de semántica general

Aprendizaje de Idiomas con Rosetta Stone

Relación entre Daniel 7, Apocalipsis 13

Traducción automática en la SGAD. PLATA Plataforma de Traducción Automática.

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 10/04/2017.

2 Análisis Sintáctico Superficial. 4 Semántica Léxica. 5 Recuperación de Información. 6 Extracción de Información. 7 Búsqueda de Respuestas

LINGÜÍSTICA DE CORPUS Y ENSEÑANZA DEL ESPAÑOL COMO 2/L

CRITERIOS DE EVALUACIÓN

Fifth Grade/Quinto Grado Report Card Details Informe Información de la Tarjeta

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 03/05/2017.

Curso de procesamiento del lenguaje natural

CARRERA: TÉCNICO SUPERIOR EN COMERCIO EXTERIOR Y MARKETING INTERNACIONAL MATERIA: INGLES TECNICO I

Introducción a la lingüística computacional

Algoritmos de Búsqueda

Made in Turkey/ Hecho en pavo: errores de la traducción en secundaria

GRIEGO CRITERIOS DE EVALUACIÓN

Universidad Fermín Toro. Cabudare Lara

PROFESORADO. csv:

EL ESPAÑOL EN EL MUNDO: PRESENTE Y FUTURO

Programación dinámica: un último ejemplo

INDICE Capitulo 1. Concepción de los lenguajes de Indización 1. Definición 2. Principio: La post coordinación 3. Tipología

Instituto Tecnológico de Lázaro Cárdenas Ingeniería Electrónica. Interpolación Spline

Síntesis Resultados de Aprendizaje III. Educación Media. Simce 2014 Inglés

AREA/MATERIA: Griego II (LOMCE) (00,07,50,01,21,20,02,51,90,40,30) CURSO: 2º ETAPA: Bachillerato de Humanidades y Ciencias Sociales

1.7. Número de créditos / Credit allotment

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

Manual de etiquetación de Marcadores del Discurso en el Corpus DIME

CURSO INTENSIVO DE VERANO PREPARACIÓN INGLES B1. (Del 1 al 26 de julio)

VINCULACIÓN DE LAS COMPETENCIAS BÁSICAS CON LOS CRITERIOS DE EVALUACIÓN Y LOS CONTENIDOS MATERIA DE LENGUA CASTELLANA Y LITERATURA

Identificación del material AICLE

Terminological support for exchange students. Creation of a German English Spanish online dictionary

Fansub VS Fastsub. Qué es la traducción?

Francés: Traducción de textos legales, administrativos y económicos

Traducción del habla

Poeta ayer, hoy triste y pobre filósofo trasnochado tengo en monedas de cobre el oro de ayer cambiado.

Grade 4 Mathematics Assessment

Alba Quiñones, V. de (2009). El análisis de errores en el campo del español como lengua extranjera: algunas cuestiones metodológicas.

El plan de estudios de Grado en Traducción e Interpretación ha sido estructurado en materias y asignaturas, definidas éstas como:

COMPETENCIAS BÁSICAS MÍNIMAS GARANTIZADAS

ANGLES - Inglés

Etapa 1: El Dialogo. Etapa 2: Las Especificaciones

UNIVERSIDAD NACIONAL DE LA MATANZA

Diccionario inteligente TERMInológico para el sector TURístico

César Antonio Aguilar Facultad de Lenguas y Letras 29/04/2013

INGLÉS - SABER & APRENDER #2: Una nueva forma de aprender inglés (Spanish Edition)

Cuadrados fractáureos

CURSO: 1º LENGUA Y LITERATURA

0886 GRADO EN LINGÜÍSTICA

LENGUA y LITERATURA ITALIANA

Grado en Lingüística y Lenguas Aplicadas

Lesson 17: Can, Cannot, Can...? Lección 17: Poder, No Poder, Puedo...?

Informática HOT POTATOES

Lesson 17: Can, Cannot, Can...? Lección 17: Poder, No Poder, Puedo...?

Taller de desarrollo profesional limitaciones lingüísticas Proceso de administración de las pruebas LAS Links

El binomio pictograma-musicograma en clase de inglés en infantil

Doble Grado en. Estudios Árabes e Islámicos y Estudios Franceses FACULTAD DE FILOSOFÍA Y LETRAS

Fun with infinitives

Lingüística y Lenguas Aplicadas

Criterios de calificación de Lengua castellana y literatura. ESO. IES AIRÉN

Curso de procesamiento del lenguaje natural

5. Conjugar tiempos verbales griegos del modo indicativo aportando su traducción correspondiente.

lunes, 5 de enero 2015

CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS

Curso de procesamiento del lenguaje natural

Transcripción:

Curso de traducción automática de lenguas naturales César Antonio Aguilar Facultad de Lenguas y Letras 25/09/2015 Cesar.Aguilar72@gmail.com

Síntesis de la clase pasada (1) En la clase pasada, abordamos la relación que hay entre traducción automática y corpus lingüísticos. Así, a grandes rasgos, vimos que los corpus pueden verse como colecciones de datos que nos brindan información empírica sobre el funcionamiento de un modelo del lenguaje. Los corpus son muy útiles porque nos brindan un modelo a escala respecto al comportamiento de una lengua.

Síntesis de la clase pasada (2) Una de las tareas basadas en el uso de corpus que ha tenido éxito en traducción es el uso de colecciones de textos paralelos, las cuales permiten identificar similitudes y diferencias entre idiomas:

Corpus paralelos (1) Conforme a lo que vimos en nuestra clase anterior, un corpus paralelo es un recurso lingüístico que consiste en un texto (o una colección de textos) traducido a varios idiomas, con el fin de hacer analizar las similitudes y diferencias entre éstos. https://ucnk.ff.cuni.cz/intercorp/

Corpus paralelos (2) La idea de los corpus paralelos no es algo nuevo, y de hecho, el primer corpus que se conoce data del año 196 A. C. Fue descubierto en el año 1799 por tropas francesas instaladas en Egipto, y descifrada en 1822 gracias al trabajo de Jean- François Champollion (1790-1832). A este corpus se le conoce como Piedra Rosseta.

Corpus paralelos (3) La Piedra Rosseta es un fragmento perteneciente a una estela conmemorativa para el Faraón Ptolomeo V. El mensaje que muestra está escrito en tres lenguas: egipcio (en concreto, jeroglíficos), demótico (que parece funcionar aquí como una especie de interlengua) y griego, ya que el Faraón era descendiente de Ptolomeo Sóter, un general de Alejandro Magno.

Algunas tareas (1) Los corpus paralelos como herramienta de trabajo son muy valiosas, pues nos ayudan a hacer comparaciones entre lenguas, en aras de comprender varios fenómenos, p. e.: el orden de palabras: SVO (Subject-Verb-Object) languages English, German, French, Mandarin I baked a pizza SOV Languages Japanese, Hindi English: He adores listening to music Japanese: kare ha ongaku wo kiku no ga daisuki desu he VSO languages music to listening adores Irish, Classical Arabic, Tagalog

Algunas tareas (2) En traducción, uno de los mayores aportes que ha brindado el uso de corpus paralelos es potenciar el universo de opciones para elegir desde palabras hasta segmentos discursivos equivalentes entre una lengua y otra. Por ejemplo, en una traducción basada en el uso de diccionario, se nos presentan problemas como el siguiente:

Algunas tareas (3) Tomando en cuenta las limitaciones propias de espacio que tiene un diccionario (su repertorio léxico es limitado, a pesar de la cantidad de vocablos que pueda incluir), qué pasa si empleamos un conjunto de palabras contenidas en un corpus?:

Algunas tareas (4) Según las frecuencias de uso que vemos en la lámina anterior, parece que la traducción canónica de la palabra alemana Haus al inglés sería House Con todo, Haus puede ser equivalente a Building o Home? Si aplicamos algunas probabilidades, podríamos lograr un grado de confianza fiable en caso de que optemos por estas palabras:

Algunas tareas (5) Ahora bien, siempre es fácil dar con una equivalencia guiándonos por los datos proporcionados por un corpus? Piensen en estos ejemplos: Word to phrases: English French computer science informatique Part of Speech divergences English German She likes to sing Sie singt gerne [She sings likefully] English Spanish I m hungry Tengo hambre [I have hunger]

Algunas tareas (6) Otro caso relevante: los corpus paralelos nos podrían ayudar a entender mejor las diferencias entre interfaces sintáctico-semánticas? Veamos estos casos: English Spanish The bottle floated out. Satellite-framed languages: La botella salió flotando. The bottle exited floating direction of motion is marked on the satellite Crawl out, float off, jump down, walk over to, run after Most of Indo-European, Hungarian, Finnish, Chinese Verb-framed languages: direction of motion is marked on the verb Spanish, French, Arabic, Hebrew, Japanese, Tamil, Polynesian, Mayan, Bantu families

Algunas tareas (7) Desde el enfoque a de la tipología lingüística, las estructuras argumentales son una de las mejores evidencias que hay para demostrar la complejidad de las lenguas humanas, lo que afecta sin duda toda tarea de traducción: Found divergences in 32% of sentences in UN Spanish/English Corpus Part of Speech Phrase/Light verb Structural Heads swap Arguments swap X tener hambre Y have hunger X dar puñaladas a Z X stab Z X entrar en Y X enter Y X cruzar Y nadando X swim across Y X gustar a Y Y likes X 98% 83% 35% 8% 6%

Alineamiento de palabras (1) Para resolver parte de estos problemas, en los últimos años se ha planteado una estrategia que ayuda a revalorar la traducción léxica, sobre todo cuando consideramos la información que comparten dos más palabras dentro de un contexto dado. A esta estrategia se le conoce como alineamiento de palabras (ing. Word Alignment). Vamos a ver a continuación en qué consiste.

Alineamiento de palabras (2) El concepto de alineamiento de palabras, dentro del marco de la traducción automática, se enfoca en la capacidad de los sistemas automáticos de asociar trozos de texto (palabras, expresiones, frases,...) en un idioma dado con su equivalente en el otro idioma. De esta forma, el resultado de este alineamiento se puede dar como traducción final. Con todo, lo usual es que las técnicas de alineamiento se apliquen como primeras etapas de otras técnicas para refinar estas traducciones.

Alineamiento de palabras (3) Una tarea de alineamiento parte de lo siguiente: consideremos dos secuencias de palabras que, dentro de una secuencia, comparten las mismas posiciones (o por lo menos estas posiciones se distribuyen de forma casi similar entre tales secuencias). Un ejemplo es:

Alineamiento de palabras (4) Para calcular este alineamiento, lo que requerimos es establecer una función que nos permita mapear, dado un segmento en una lengua dada (E), qué tan probable es que otro segmento en otra lengua (F) muestre una distribución similar, esto es: De acuerdo con el ejemplo, lo que tratamos de resolver es qué tanto las palabras de dos segmentos específicos comparten las mismas posiciones o no.

Alineamiento de palabras (5) Claro está, no siempre se encuentran segmentos exactamente iguales, por lo que debemos considerar modificaciones respecto a las posiciones que ocupan las palabras en dichas secuencias. Así, digamos que no sólo nos quedamos con una traducción de orden léxico, sino que incluso podemos considerar reglas de transformación sintácticas, p.e.:

Alineamiento de palabras (6) Y como en todo, siempre tendremos casos especiales. Uno de ellos, por decir algo, es cuando tenemos segmentos que pueden ser codificados en más de una palabra en la lengua de llegada, en tanto que en la lengua de origen son expresados en una, p.e.:

Alineamiento de palabras (7) En otros casos, más bien requerimos suprimir una palabra, p.e.:

Alineamiento de palabras (8) Y en otros más, requerimos lo contrario, añadir palabras, p.e.:

Calculando alineamientos (1) Vamos a ver ahora cómo son los cálculos probabilísticos para resolver un alineamiento de palabras. Primero, tenemos que darle valores a nuestra función de alineamiento, esto es:

Calculando alineamientos (2) Ahora, para entender mejor cómo distribuimos estos valores, podemos usar una tabla como la siguiente:

Calculando alineamientos (3) Considerando esta clase de valoraciones y tablas, podemos resolver secuencias complejas como la siguiente:

Calculando alineamientos (4) Esto puede ser representado del siguiente modo:

Calculando alineamientos (5) Visto lo anterior, varios autores, entre ellos Daniel Jurafsky y James Martin, proponen la siguiente fórmula para establecer una función de alineamiento:

Calculando alineamientos (6) Siguiendo la fórmula anterior, los primeros en proponer un algoritmo de alineamiento fueron 4 investigadores de IBM en 1993 (al respecto, véase la clase del 28/08/2015 para mayores detalles). El algoritmo es el siguiente:

Calculando alineamientos (7) Aplicándolo a nuestro segmento anterior, obtenemos:

Gracias por su atención Blog del curso: http://cesaraguilar.weebly.com/curso-deprocesamiento-del-lenguaje-natural.html