Introducción a la lingüística computacional

Documentos relacionados
Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

César Antonio Aguilar Facultad de Lenguas y Letras 16/10/2017

Seminario de análisis del discurso

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

César Antonio Aguilar Facultad de Lenguas y Letras 12/06/2012 Cesar.Aguilar72@gmail.com

Introducción a la lingüística computacional

Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

Curso de procesamiento del lenguaje natural

Curso de procesamiento del lenguaje natural

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 23/05/2017.

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

César Antonio Aguilar Facultad de Lenguas y Letras 12/10/2017

Introducción a la lingüística computacional

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Introducción a la lingüística computacional

Seminario de análisis del discurso

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

Curso de traducción automática de lenguas naturales

Curso de traducción automática de lenguas naturales

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 27/04/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 01/06/2016.

Seminario de análisis del discurso

Pragmática. César Antonio Aguilar Facultad de Lenguas y Letras 25/05/2017.

César Antonio Aguilar Facultad de Lenguas y Letras 07/11/2017

Introducción a la lingüística computacional

Tarea 2. José Alberto Benítez Andrades A. Descubrimiento de Información en Textos

Curso de procesamiento del lenguaje natural

Seminario de análisis del discurso

PARÁMETROS E INDICADORES PARA EL PERFIL: Enseñanza de la lengua adicional al Español

Curso de traducción automática de lenguas naturales

Curso de traducción automática de lenguas naturales

Calendarización detallada por unidad temática para las 16 semanas del semestre

Curso de procesamiento del lenguaje natural

CRITERIOS DE EVALUACIÓN Y CONTENIDOS MÍNIMOS 1º ESO

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/03/2017.

Curso de procesamiento del lenguaje natural

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 30/05/2016.

César Antonio Aguilar Facultad de Lenguas y Letras 27/10/2016

Curso de procesamiento del lenguaje natural

Introducción a la lingüística computacional

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 12/06/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 29/03/2017.

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 17/04/2017.

La lingüística y tecnología en la licenciatura en Lengua y Literaturas Hispánicas de la UNAM

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

INSTITUTO SUPERIOR DEL PROFESORADO DR. JOAQUÍN V. GONZÁLEZ

César Antonio Aguilar Facultad de Lenguas y Letras 08/04/2013

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 13/03/2017.

PRIMERA PARTE CONTEXTO Y MARCO TEORICO

DEPARTAMENTO DE INGLÉS CURSO CONTENIDOS MÍNIMOS PRUEBAS EXTRAORDINARIAS DE SEPTIEMBRE 1º ESO

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 14/03/2016.

import download() nltk

Lingüística computacional

CRITERIOS DE EVALUACIÓN

Seminario de análisis del discurso

U C A S A L UNIVERSIDAD CATOLICA DE SALTA

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 27/03/2017.

César Antonio Aguilar Facultad de Lenguas y Letras 22/04/2013

Curso de Inglés básico

INGLES NM4 4º EM. Unidad temáticas CONOCIMIENTOS BÁSICOS DEL PROFESOR

PROGRAMACIÓN DE 4º ESO ÍNDICE 3. TEMPORALIZACIÓN TRIMESTRAL: CRITERIOS DE EVALUACIÓN, ESTÁNDARES DE APRENDIZAJE E INSTRUMENTOS Y CRITERIOS DE

César Antonio Aguilar Facultad de Lenguas y Letras 12/09/2017

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 21/03/2016.

Código: ING-143. Horas Semanales: 4

Lingüística computacional

INGLES NM3 3º EM. Unidad temáticas CONOCIMIENTOS BÁSICOS DEL PROFESOR

UNIVERSIDAD CARLOS III DE MADRID PROGRAMA DE LA ASIGNATURA: LENGUA CASTELLANA

Propósitos por Ciclos

PROGRAMA TERCER EXAMEN DE INGLÉS

UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2007 CICLO BÁSICO DE INGENIERÍA ASIGNATURA

Curso de procesamiento del lenguaje natural

CONTENIDOS DE LAS PRUEBAS EXTRAORDINARIAS DE LA MATERIA DE LENGUA CASTELLANA Y LITERATURA 1º ESO

Seminario de análisis del discurso

GRAMMAR CONSOLIDATION

Plan de Acción Tutorial (PAT) Curso

GRADO EN FILOSOFÍA TABLA DE EQUIVALENCIA DE OTROS ESTUDIOS DE LA UNED AL GRADO EN FILOSOFÍA. CÓDIGO ASIGNATURA ASIGNATURA Derecho 01 (plan 1953)

PROGRAMACIÓN DE 2º ESO Y PMAR ÍNDICE

Código: ING-143. Horas Semanales: 4

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 10/04/2017.

Departamento de Inglés Ciclo Administrativo

LENGUA CASTELLANA Y LITERATURA

Secuenciación y distribución de contenidos Nivel Intermedio B1.2

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 06/04/2016.

INGLES JURIDICO SEGUNDO SEMESTRE

Curso de procesamiento del lenguaje natural

PROGRAMA DE RECUPERACIÓN PEDAGÓGICA

PLAN DE TRABAJO PARA EL ALUMNADO CON LA MATERIA DE LENGUA CASTELLANA Y LITERATURA PENDIENTE RECUPERACIÓN DE LA MATERIA PENDIENTE DE 1º ESO

Transcripción:

Introducción a la lingüística computacional César Antonio Aguilar Facultad de Lenguas y Letras 12/09/2017 Cesar.Aguilar72@gmail.com

Corpus lingüísticos (1) Para la lingüística contemporánea, y en particular para un área como PLN, el diseño y uso de corpus lingüísticos se ha convertido en una cuestión importante. Joaquim Llisterri, un fonetista catalán, ofrece el siguiente argumento: La función central de los corpus lingüísticos (o CLs) es establecer la relación entre la teoría y los datos, lo que permite hacer hipótesis pertinentes respecto al funcionamiento de una lengua natural. http://liceu.uab.es/~joaquim/home.html

Corpus lingüísticos (2) Un corpus lingüístico es una recopilación de un conjunto de materiales escritos y/o hablados, la cual nos sirve para hacer análisis lingüísticos. Los corpus son representativos y se organizan bajo criterios específicos. Regularmente se encuentran en soporte informático, pues su contenido llega a ser extenso (p. e., millones de palabras).

Corpus lingüísticos (3) Qué cosa no es un corpus?:

Anotación textual (1)

Anotación textual (2) Veamos un ejemplo real de un corpus lingüístico con anotado textual. Consulten la siguiente página: www.iling.unam.mx/corpus/ Aquí pueden acceder a un corpus de contextos definitorios en el área de ingeniería, desarrollado por el Grupo de Ingeniería Lingüística de la UNAM (México). http://grupos.iingen.unam.mx/iling/es-mx/paginas/default.aspx

Anotación textual (3) Un contexto definitorio (o CD) se compone de los siguientes elementos: Patrón discursivo Término Predicación verbal <Matemáticamente>, <la Teoría Lineal> <se considera como> <una primera aproximación de una descripción teórica completa acerca del comportamiento del oleaje.> CD Definición

Anotación textual (4)

Head/Body (1) La cabeza (o Head), es un conjunto de descriptores que resumen la información contenida en una página WEB:

Head/Body (2) En cambio, el Body ya es la estructuración de los contenidos de tal página:

Ordenar/clasificar (1)

Ordenar/clasificar (2)

Ordenar/clasificar (3)

Ordenar/clasificar (4) El resultado final es:

Ordenar/clasificar (5) Este corpus puede servir como un baseline capaz de entrenar motores de búsqueda como el siguiente: http://describe.com.mx:8080/_en6/

Sistemas de etiquetado XML

Etiquetado morfo-sintáctico (1)

Etiquetado morfo-sintáctico (2)

El corpus Brown (1)

El corpus Brown (2) El Brown es uno de los corpus electrónicos pioneros que cuenta con una anotación sintáctica. Para saber, vean esta entrada en Wikipedia: http://en.wikipedia.org/wiki/brown_corpus En la siguiente tabla, podemos ver un ejemplo de su contenido:

El corpus Brown (3) A través del intérprete de Python, podemos importar el corpus Brown de la librería de NLTK usando la siguiente instrucción: from nltk.corpus import brown Para saber qué tenemos en el Brown, podemos usar la siguiente instrucción, que nos muestra sus géneros literarios: brown.categories()

El corpus Brown (4) Veamos el resultado: Ahora, probemos las siguientes instrucciones: 1. brown.words(categories='news') 2. brown.words(fileids=['cg22']) 3. brown.sents(categories=['news', 'editorial', 'reviews'])

El corpus Brown (5) Veamos los resultados: De acuerdo con esto, podemos consultar el contenido del Brown usando dos clases de objetos: palabras y oraciones, y mostrar en pantalla los resultados de nuestras consultas.

El corpus Brown (6) Veamos un código un poco más complicado, con el cual podremos ver la distribución de verbos modales dentro del Brown. Para ello, necesitamos importar de la librería de NLTK la función Conditional FreqDist (o distribución de frecuencia condicional). Veamos: cfd_brown01 = nltk.conditionalfreqdist( (genre, word) for genre in brown.categories() for word in brown.words(categories=genre))

El corpus Brown (7) Una vez que hemos especificado que queremos calcular frecuencias de palabras dentro de los textos del Brown (considerando su género literario), ahora lo que debemos haces es especificar los objetos que vamos a buscar y contar, esto es: 1. genres = ['news', 'religion', 'hobbies', 'science-fiction', 'romance', 'humor'] 2. modals = ['can', 'could', 'may', 'might', 'must', 'will', 'shall']

El corpus Brown (8) Y el resultado es:

Gracias por su atención Blog del curso: http://cesaraguilar.weebly.com/curso-deprocesamiento-del-lenguaje-natural.html