Introducción a la lingüística computacional

Documentos relacionados
Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Curso de traducción automática de lenguas naturales

Introducción a la lingüística computacional

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 23/05/2017.

Aprendizaje de etiquetas basado en transformaciones

Seminario de análisis del discurso

Curso de traducción automática de lenguas naturales

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Procesamiento del Lenguaje Natural Comparación de algoritmos de lematización

Introducción a la lingüística computacional

Curso de traducción automática de lenguas naturales

Seminario de análisis del discurso

Introducción a la lingüística computacional

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

César Antonio Aguilar Facultad de Lenguas y Letras 27/10/2016

Curso de semántica general

Introducción a la lingüística computacional

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 31/05/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 29/03/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 17/04/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 23/05/2016.

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 25/05/2017.

Introducción a la lingüística computacional

César Antonio Aguilar Facultad de Lenguas y Letras 16/10/2017

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 12/06/2017.

Introducción a la lingüística computacional

Curso de procesamiento del lenguaje natural

Raúl

César Antonio Aguilar Facultad de Lenguas y Letras 12/10/2017

Asignatura: Horas: Total (horas): Obligatoria X Teóricas 3.0 Semana 3.0 de elección Optativa Prácticas Semanas 48.0

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 21/03/2016.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/04/2016.

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA CICLO BÁSICO DEPARTAMENTO DE ENSEÑANZAS GENERALES

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 30/05/2016.

César Antonio Aguilar Facultad de Lenguas y Letras 07/11/2017

Seminario de análisis del discurso

Curso de procesamiento del lenguaje natural

Curso de traducción automática de lenguas naturales

Tema 2. Tercera parte. Clases abiertas: Clases cerradas:

LATÍN II 2º BACH CONTENIDOS, CRITERIOS DE EVALUACION Y ESTANDARES DE APRENDIZAJE

Introducción a la lingüística computacional

Pontificia Universidad Católica del Ecuador

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 01/06/2016.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 10/04/2017.

Curso de semántica general

LATÍN II DE 2º DE BACHILLERATO

AREA/MATERIA: Latín II (LOMCE) (00,07,50,01,21,20,02,51,90,40,30) CURSO: 2º ETAPA: Bachillerato de Humanidades y Ciencias Sociales

Seminario de análisis del discurso

LINGÜÍSTICA DE CORPUS Y ENSEÑANZA DEL ESPAÑOL COMO 2/L

Stemming Lematización. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Pontificia Universidad Católica del Ecuador

Seminario de análisis del discurso

César Antonio Aguilar Facultad de Lenguas y Letras 22/04/2013

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 08/06/2017.

Introducción a la lingüística computacional

Seminario de análisis del discurso

APRENDIZAJE Y USO DEL ESPAÑOL COMO LENGUA MATERNA

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 13/03/2017.

Contenidos Criterios de evaluación Estándares de aprendizaje evaluables Bloque 1. El latín, origen de las lenguas romances Bloque 2.

Curso de procesamiento del lenguaje natural

LICENCIATURA EN SERVICIO SOCIAL. Inglés I. Profesores. Titular: Trad. Públ Cecilia A. Irrazábal

Sistemas inteligentes Casos de uso de IA

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/03/2017.

GRIEGO CRITERIOS DE EVALUACIÓN

1 Tema 1: Internet. 2 Tema 2: La web. 3 Tema 3: Principios de Recuperación de Información. 4 Tema 4: Búsqueda de información en la web

César Antonio Aguilar Facultad de Lenguas y Letras 03/11/2016

EXTRACTO DE LA PROGRAMACIÓN DE LATÍN II IES PROFESOR ÁNGEL YSERN CURSO 2017/18

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 29/05/2017.

Universidad Fermín Toro. Cabudare Lara

Curso de traducción automática de lenguas naturales

índice Prefacio Capítulo 1: La lingüística: Ciencia cognitiva 1 PorAntxon Olarrea

César Antonio Aguilar Facultad de Lenguas y Letras 10/06/2013

Pontificia Universidad Católica del Ecuador

Reconocimiento Automático de Voz

SKETCH ENGINE. Seminario de Traducción Automática Magíster en Traducción Pontificia Universidad Católica de Chile

Inamovible e inconmensurable es mi amor

EXTRACTO DE LA PROGRAMACIÓN DE LATÍN 4º ESO

César Antonio Aguilar Facultad de Lenguas y Letras 08/04/2013

Curso de procesamiento del lenguaje natural

3. Comprender el concepto de declinación/flexión verbal.

Procesadores de Lenguaje

PROGRAMACIÓN DE LATÍN I 2013/2014

El estudiante, para superar esta asignatura, deberá demostrar los siguientes resultados...

INFORME DE MATERIAS NO SUPERADAS: LATÍN II CURSO 2017/2018 GRUPO 2º Bachillerato DEPARTAMENTO DE FILOSOFÍA Y CULTURA CLÁSICA OBJETIVOS DE LATÍN II

Introducción al Procesamiento de Lenguaje Natural. Grupo PLN - InCo

El estudiante, para superar esta asignatura, deberá demostrar los siguientes resultados...

Qué es la morfología?

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES A C A T L Á N

Morfología del español

Transcripción:

Introducción a la lingüística computacional César Antonio Aguilar Facultad de Lenguas y Letras 03/10/2017 Cesar.Aguilar72@gmail.com

Síntesis de la clase pasada (1) En la clase pasada vimos cómo puede realizarse un análisis de palabras aplicando un proceso denominado lematización, el cual consiste en asociar una forma de palabra aparecida en un texto con su forma canónica (o lematizada).

Síntesis de la clase pasada (2) Para lograr esto, aplicamos el algoritmo de Porter, el cual nos permite identificar y segmentar los sufijos ligados a una raíz, de tal suerte que podemos separalos a partir de un corte de +/- 5 caracteres:

Por qué es importante la lematización? (1) Cuando analizamos el vocabulario de un texto, además de tener una buena segmentación del mismo, requerimos que dicha segmentación nos ayude a reconocer y asociar de manera pertinente una etiqueta gramatical con su correspondiente forma de palabra.

Por qué es importante la lematización? (2) La lematización es una tarea que nos permite analizar computacionalmente el nivel morfológico de lenguas documentadas y con tradición escrita, tales como el inglés o el español. Empero, no es la única vía para hacer esta clase de análisis. Un caso concreto: cuál es la situación de las lenguas indígenas de América?

Por qué es importante la lematización? (3) Algunas lenguas cuentan con registros históricos tales como el náhuatl, gracias al trabajo de misioneros como Andrés de Olmos u Horacio Carochi, autor de la primera gramática de esta lengua. Sin embargo, no siempre ocurre así con todas las lenguas.

7 Morfología y entropía (1) El uso de la entropía en lingüística computacional es sumamente útil para líneas de investigación como la morfología. Veamos un ejemplo, revisando el trabajo de un colega mexicano, Alfonso Medina (El Colegio de México), quien ha desarrollado un sistema capaz de detectar afijos en distintas lenguas, implementando un método nosupervisado. http://cell.comex.mx/index.p hp/alfonso-medina

8 Morfología y entropía (2) Chuj (lengua perteneciente al grupo mayense) Rarámuri (lengua perteneciente al grupo yutoazteca) La idea de Alfonso es la siguiente: si bien algoritmos como el de Porter son excelentes para detectar las raíces y los sufijos de una lengua, muchas veces es insuficiente para determinar estas unidades en lenguas poco o nada documentadas. En México, existen muchos de estos casos:

9 Morfología y entropía (3) Los sufijos, como toda unidad lingüística, están sometidos a dos relaciones concretas: las sintagmáticas, y las paradigmáticas: En términos probabilísticos, Alfonso las describe como relaciones entre acompañantes y alternantes:

10 Morfología y entropía (4) Esto se traduce en una fórmula como la que sigue, en donde K es un valor que describe qué tan fijo o cambiante puede ser una unidad morfológica dentro de una palabra.

11 Morfología y entropía (5) La hipótesis de Alfonso es la siguiente: dadas una lista de raíces y sufijos de una lengua X, es posible identificar a los segundos considerando su alto nivel de entropía, resultado de poseer un potencial combinatorio alto.

12 Morfología y entropía (6) En contraste, las raíces se pueden reconocer tomando en cuenta que tienen un nivel de entropía bajo, y por lo mismo tienen un poder combinatorio reducido.

El algoritmo de Brill (1) Otro algoritmo útil en esta clase de procesamiento al nivel de palabra es el que desarrolló Eric Brill, el cual reconoce formas de palabras, asociándolas posteriormente a una etiqueta sintáctica. Al respecto pueden ver el siguiente sitio WEB: http://en.wikipedia.org/wiki/ Brill_tagger Eric Brill

El algoritmo de Brill (2) El algoritmo de Brill se fundamenta en el aprendizaje basado en transformaciones y dirigido por el error. Este algoritmo consta de los siguientes módulos:

El algoritmo de Brill (3) El etiquetador léxico funciona del siguiente modo:

El algoritmo de Brill (4) Por su parte, el etiquetador de palabras desconocidas intenta adivinar una etiqueta para una palabra desconocida en función de sus afijos (sufijos o prefijos), y de otras propiedades relevantes similares

El algoritmo de Brill (5) El algoritmo de Brill cuenta también con una plantilla genérica de transformaciones léxicas, esto es:

El algoritmo de Brill (6) El etiquetador contextual actúa justo después del etiquetador de palabras desconocidas, ya que aplica en orden una secuencia de reglas contextuales que han sido aprendidas de manera automática a partir del corpus de entrenamiento. Un ejemplo es:

El algoritmo de Brill (7) Veamos un caso aplicado al inglés. Supongamos que queremos aplicar un proceso de etiquetado basados en el Corpus Brown:

El algoritmo de Brill (8) Aplicamos nuestro etiquetador, y obtenemos oraciones anotadas como:

El algoritmo de Brill (9) Si aplicamos el algoritmo de Brill, el módulo de etiquetado contextual podría aplicar las siguientes reglas:

El algoritmo de Brill (10) Aplicando la segunda regla obtenemos: Para mayores detalles, pueden consultar la siguiente página, la cual es una explicación que dan Miguel Alonso, Jorge Graña y Jesús Virales, de la Universidad de La Coruña (España): http://www.grupolys.org/docencia/ln/biblioteca/traspas_brill.pdf

Gracias por su atención Blog del curso: http://cesaraguilar.weebly.com/introduccioacuten-a-lalinguumliacutestica-computacional.html