Curso de procesamiento del lenguaje natural



Documentos relacionados
Grado en Lingüística y Lenguas Aplicadas

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

UNIVERSIDAD VERACRUZANA DIRECCIÓN ACADÉMICA DE CIENCIAS DE LA SALUD FACULTAD DE PSICOLOGÍA MATERIA : TALLER DE COMPUTACIÓN BÁSICA

Las asignaturas ponderadas para el acceso a este grado son:

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Profesora Patrocinante: Sr. John Atkinson. Alumna Srta. Carolina Zambrano M. Fecha 24 de Abril de 2006.

1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL

Introducción. Metadatos

Buscadores basados en agentes inteligentes

2.- Su profesión está ligada a la carrera en la que aquí da clases? Licenciatura Ingeniería Total SI NO

Programa FRIDA INFORME DE FINAL

Trabajo Final del programa FONTE (Formación Online de Tutores de Español) de Stella-Sofia Koutri

Investigación de Mercados

TEMA 5. PRODUCCIÓN DEL LENGUAJE

CURSO DE CHINO PARA LOS VIAJES NIVEL 1 (A1) -PROGRAMA ACADÉMICO-

CURSO COORDINADOR INNOVADOR

INTEGRACIÓN DE LA TECNOLOGÍA DENTRO DEL ÁREA EDUCATIVA

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Capitulo I. Introducción

PLAN DE MEJORAS PARA LA CARRERA PUBLICIDAD DIRIGIDO A EDUCACION CONTINUA 2012

Licenciatura en Enseñanza de Idiomas

Curso del Data Mining al Big Data

CoNaIISI do Congreso Nacional de Ingeniería Informática / Sistemas de Información

FICHA DE ASIGNATURA Curso

MODELO PEDAGÓGICO QUE SUSTENTA EL PROGRAMA DE POSTGRADO UNA: A PARTIR DE LA PERSPECTIVA DE SUS ACTORES

Introducción 1. INTRODUCCIÓN

PLAN DE MEJORAS PARA LA CARRERA DE RELACIONES PUBLICAS DIRIGIDO A EDUCACION CONTINUA 2012

Curso de Minería de Datos Instructor: Dr. Luis Carlos Molina Félix

activuspaper Text Mining and BI Abstract

Las Mediaciones Pedagógicas

Que es la Inteligencia Artificial?

Centro Standard Bank- Conciliación n Familia y Empresa (ConFyE) El balance de la vida laboral-personal entre los ejecutivos latinoamericanos.

GRADO EN LENGUAS MODERNAS, CULTURA Y COMUNICACIÓN

Quién es el hispanohablante? Antecedentes del estudiante Perfiles lingüísticos Variación lingüística

e-commerce vs. e-business

CÓMO TRABAJAR LOS CONTENIDOS LINGÜÍSTICOS. UNA GRAMÁTICA COMUNICATIVA Y MOTIVADORA PARA LA CLASE DE ELE. Blas Martínez Salido (Editorial SGEL)

CAPÍTULO I FORMULACIÓN DEL PROBLEMA

Experiencias de la Televisión Digital Interactiva en Colombia - ARTICA

TECNOLOGÍAS DE LA INFORMACIÓN. La sociedad de la información y las nuevas tecnologías.

Unidad 1. Fundamentos en Gestión de Riesgos

Comunicación: Herramientas Informáticas de Apoyo a la Educación: Experiencias. Autor: Ing. Hernán Mariño hernanmarino@uca.edu.ar

Capitulo III. Diseño del Sistema.

La Universidad como la Industria del Conocimiento

-Objetivos específicos del módulo: Capacidades, destrezas y competencias.

Administración del conocimiento y aprendizaje organizacional.

INGENIERÍA EN INFORMATICA

Capítulo 1. Introducción

Formalización de Dominios de Negocio para Proyectos de Explotación de Información basada en Técnicas de Ingeniería del Conocimiento

PREVISTA EN EL CURSO 2009/2010)

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Tecnologías de la Información en los Negocios

Grado en Estudios Ingleses

Componentes de los SBC

CARACTERÍSTICAS GENERALES

Un primer acercamiento a la CMDB.

Jornadas Tic en la Educación Superior

niño computacional Educando al de Turing Eduardo F. Morales

ENMKT616 Inteligencia de clientes y estrategia de relacionamiento

II ENCUENTRO NACIONAL SOBRE LA ENSEÑANZA DE LAS CIENCIAS EXACTAS Y NATURALES

Toda base de datos relacional se basa en dos objetos

1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Fundamentos de Ingeniería de Software. Ingeniería en Sistemas Computacionales.

VALORES CORPORATIVOS GRIFOLS

Generación de funciones lógicas mediante decodificadores binarios con salidas activas a nivel alto

Plan de Estudios. Diploma de Especialización en Seguridad Informática

sumo.uy 2012 Introducción y antecedentes

SISTEMAS DE NUMERACIÓN.

Servicio de revisión de textos

Inteligencia Artificial. Facultad de Ciencias Exactas y Tecnología Universidad Nacional de Tucumán Prof. Ing. Franco D. Menendez

g GRADO NELenguas Modernas

MANUAL BASICO DE WEBEX

Instituto Tecnológico de Tláhuac ESPECIALIDADES SISTEMA DE TRANSPORTE COLECTIVO METRO (STCM)

UNIDAD I: LÓGICA PROPOSICIONAL

PRESENTACIONES ORALES CON POWER POINTTARA LA ASIGNATURA "ESPAÑOL AVANZADO"

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

La importancia i de las interacciones: desde la sala de clases a la. Otb Octubre 2008 Camila Cortez,Ph.D. Centro de Innovación en Educación CIEdu,

PLAN DE ESTUDIOS DEL MÁSTER UNIVERSITARIO EN INGENIERÍA INDUSTRIAL. Curso Académico

2. Estructuras organizativas típicas en relación a Gestión de Clientes

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

INTRODUCION. no existen textos adecuados y suficientes, por lo que se hace

MAESTRÍA EN TRADUCTOLOGÍA

Nombre de la asignatura: Inteligencia Artificial. Créditos: Aportación al perfil

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

6.2. e-learning como sustituto o como complemento a la educación presencial Plataformas e-learning en Primaria.

CAPÍTULO I EL PROBLEMA PLANTEAMIENTO DEL PROBLEMA

APLICACIONES INFORMÁTICAS

Semántica española. César Antonio Aguilar Facultad de Lenguas y Letras 26/05/2015. caguilara@uc.cl

INNOVACIÓN PARA UN MUNDO CAMBIANTE DÓNDE NACE ESTE PROGRAMA? QUIÉN HIZO ESTE PROGRAMA?

by Tim Tran:

Programa de Estudio: Ingeniería en Sistemas Computacionales.

Procesamiento del Lenguaje Natural para recuperación de información

VENTAJAS Y DESVENTAJAS DE LAS TECNOLOGIAS

Qué puede hacer un lingüista en el área de inteligencia artificial?

Estadística, web, recursos interactivos, enseñanza secundaria y bachillerato.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Taxonomía de los principales temas de I A Por: Luis Guillermo Restrepo Rivas

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

La enseñanza del español de los negocios. Propuestas metodológicas y organización de proyectos Carlos Barroso 1 Universidad de Málaga (España)

Workflows? Sí, cuántos quiere?

Transcripción:

MPGI UC MAGISTER EN PROCESAMIENTO Y GESTIÓN DE LA INFORMACIÓN Curso de procesamiento del lenguaje natural César Antonio Aguilar Facultad de Lenguas y Letras 05/08/2015 Cesar.Aguilar72@gmail.com

PLN: qué es?

El Dr. Chandra platica con Sal, la hermana de Hal Uno de los ejemplos más creíbles que podemos ver en el cine sobre lo que es la interacción de tipo humano-máquina lo podemos ver en una película hecha por Stanley Kubrick en 1968: 2001: A Space Odyssey. En ella, vemos como el Dr. Sivasubramanian Chandrasegarampillai (o el Dr. Chandra) desarrolla en computador más avanzado de su tiempo, Hall 9000, capaz de realizar varias tareas complejas, entre ellas dialogar con astronautas. Nueve años después, Hall tiene una hermana, Sal 9000, la cual en esencia tiene los mismos atributos que su hermano mayor. Un ejemplo de su funcionamiento lo pueden ver en la liga que anoté en la página del curso.

Cosas más reales (1) Threepio, a pesar del avance tecnológico actual, es todavía parte de la cienciaficción. Qué podemos hacer hoy en día con las tecnologías del lenguaje? Para tener una mejor idea de lo que es el PLN, enfocado en este caso su relación con la ingeniería, veamos la explicación que nos da el Dr. Jesús Cardeñosa Lera, quien es un profesor/investigador de la Universidad Politécnica de Madrid (UPM), en una entrevista que le hacen para el canal Tendencias 21: www.youtube.com/watch?v=woxbdvv2qmi 4

Cosas más reales (2) Igualmente, un ejemplo de aplicación es el sistema de traducción automática Verbmobil, desarrollado bajo el auspicio del Ministerio Federal Alemán para la Educación, la Ciencia, la Investigación y la Tecnología en 1996. Liga al video: www.youtube.com/watch?v=nozbab-lmss Mayor información sobre Verbmobil: http://verbmobil.dfki.de/

Cosas más reales (3)

Cosas más reales (4)

Cosas más reales (5) Minería de textos: esta línea de investigación está enfocada en la obtención de información textual sumamente precisa, combinando métodos probabilísticos y formales, particularmente técnicas de aprendizaje automático y reconocimiento de patrones. Un ejemplo de un sistema para minería de textos es Medie, un motor de búsqueda de información médica desarrollado por el National Center of Text Mining (www.nactem.ac.uk): www.nactem.ac.uk/medie/search.cgi 8

Estableciendo equivalencias (1) Inteligencia artificial Deducción y razonamiento Representación del conocimiento Aprendizaje automático Percepción Creatividad Cibernética y robótica Inteligencia social Procesamiento del lenguaje natural Procesamiento de voz Procesamiento de texto

Estableciendo equivalencias (2) Lingüística teórica Fonética/ Fonología Morfología Lexicología Sintaxis Semántica Análisis del discurso Pragmática Lingüística computacional?

Estableciendo equivalencias (3) Lingüística aplicada Psicolingüística Lexicografía Traducción Sociolingüística Neurolingüística Terapia del lenguaje Adquisición y desarrollo del lenguaje Terminología Enseñanz a de lenguas Análisis político del discurso Ingeniería lingüística?

Estableciendo equivalencias (4) Lingüística computacional Procesamiento de voz Lematización /tokenización Lexicones Chunking /parsing Relaciones semánticas Representación del discurso Inferencias pragmáticas

Estableciendo equivalencias (5) Ingeniería lingüística Reconocimiento/ generación de voz Recuperación y extracción de información Clasificación de documentos Lexicografía computaciona l Extracción terminológica Minería de textos Traducción automática Sistemas preguntarespuesta Reconocimient o de entidades nombradas Corpus lingüísticos Resumen automátic o Ontologías

Estableciendo equivalencias (6) 14

Y qué hacemos? (1) Como todo buen lingüista, nos interesa estudiar, describir y modelar las formas y las funciones que operan en toda lengua humana. Como buenos computólogos, siguiendo la propuesta de Turing o Von Neumann, queremos ocupar ese conocimiento lingüístico para crear máquinas inteligentes.

Y qué hacemos? (2) Métodos basados en reglas lingüísticas: el lenguaje natural sigue una serie de reglas que sirven para construir estructuras con patrones regulares. Métodos estadísticos: el lenguaje natural, al presentar cierta regularidad, ofrece un margen de probabilidad estadística para determinar si es viable que se genere o no cierta estructura lingüística.

Y qué hacemos? (3)

Propuesta de trabajo (1) Siguiendo el ejemplo del NacTeM y su herramienta Medie, un tema de trabajo que podemos explorar durante el curso es el procesamiento de textos médicos, almacenados en repositorios electrónicos como MedLine. Esta línea de investigación ha priorizado el análisis de documentos escritos en inglés, dada la gran producción que se tiene hoy en día a nivel mundial. 18

Propuesta de trabajo (2) Estos trabajos siguen una secuencia de procesos que les permiten obtener información relevante de tales textos. 19

Propuesta de trabajo (3) Básicamente, esta línea de investigación se ha orientado hacia tres áreas concretas: Creación de taxonomías y ontologías Minería de textos Detección de similitudes semánticas 20

Propuesta de trabajo (4) En 2005 Paul Buitelaar, Philipp Cimiano y Bernardo Magnini desarrollaron el siguiente esquema, el cual resume una metodología para desarrollar ontologías (e igualmente taxonomías) basada en textos: 21

Propuesta de trabajo (5) Partiendo de esta idea, podemos desarrollar una cadena de procesamiento, esto es, una serie de procesos organizados de manera modular, en donde el resultado de uno es el input de otro. Veamos: 22

Propuesta de trabajo (6) Hacer esto, nos permite hacernos un modelo sobre cómo funciona el lenguaje natural, y particularmente también nos ayuda a entender cómo se configura un texto, tomando en cuenta las relaciones que se dan entre los niveles lingüísticos involucrados en tal configuración, esto es: 23

Punto de partida (1) Dado que en PLN trabajamos con criterios computacionales y lingüísticos, vamos a establecer un punto de partida común: Lenguas humanas sistema de signos Permiten expresar información sobre el mundo y las personas Se codifican siguiendo reglas y patrones regulares Tal regularidad es el fruto de un uso rutinario por parte de sus hablantes. Dicha rutina, con el tiempo, da lugar a una gramática

Puntos en común (2) Qué podemos hacer con una lengua viéndola como un sistema de signos? Hacer comparaciones entre distintas lenguas humanas Establecer modelos gramaticales Deducir reglas y patrones Aprovechar esos modelos para desarrollar sistemas de cómputo capaces de generar y comprender una lengua

Punto de partida (2) Una forma de ver las cosas, y que ha dejado mucho dinero a algunos, es utilizar el lenguaje natural para hacer búsquedas de información. Patrocinadores de la conferencia Empirical Methods in Natural Language Processing 2015 (www.emnlp2015.org)

Avisos (1) Confirmado: asistencia al XXXI Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural, Universidad de Alicante, España. Fechas: 11-23 de septiembre de 2015. Calendario del evento: http://gplsi.dlsi.ua.es/sepln15/es/node/52 Propuesta: trabajar con Tomás Infante, egresado del MPGI (Generación 2013) 27

Avisos (2) Por confirmar: asistencia al International Workshop on Artificial Intelligence and Cognition 2015, Universidad de Turín, Italia. Fechas: 28-29 de septiembre de 2015. Sitio del evento: www.di.unito.it/~lieto/aic2015/index.html Propuesta: trabajar con Tomás Infante, egresado del MPGI (Generación 2013) 28

Referencias de consulta (1) Libros básicos: 1. Bird, Steven, Klein, Ewan y Loper, Edward (2010): Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit, Sebastropol, Cal., O'Reilly Media. 2. Jurafsky, Daniel y James H. Martin (2007): Speech and Language Processing, New York, Prentice-Hall.

Referencias de consulta (2) Sitios WEB: 1. Página oficial de Python: www.python.org. 2. Página oficial de NLTK: www.nltk.org. 3. Página académica de Dan Jurafsky: www.stanford.edu/~jurafsky, Stanford University. 4. Página académica de James Martin: www.cs.colorado.edu/~martin/csci5832/, University of Colorado. 30

Gracias por su atención Blog del curso: http://cesaraguilar.weebly.com/curso-deprocesamiento-del-lenguaje-natural.html