Text Mining Introducción a PLN

Documentos relacionados
Curso. Lingüística Aplicada III (Procesamiento inteligente de textos)

Raúl

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Departamento de Filología PROGRAMACIÓN DIDÁCTICA. Nivel 3º ESO L. CASTELLANA

Desambiguación del Sentido de las Palabras (Word Sense Disambiguation)

PROGRAMACIÓN DE LATÍN I 2013/2014

6. Características básicas del desarrollo psico-evolutivo de los seis a los doce años. Aspectos cognitivos, motrices, afectivos y sociales. Implicacio

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina)

PRUEBA EXTRAORDINARIA DE SEPTIEMBRE LENGUA CASTELLANA Y LITERATURA 1º ESO

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

Programa de Inglés Lectura Nivel I

I N G L É S T É C N I C O NIVEL I

Especialidad: EDUCACIÓN PRIMARIA. 60 Temas

1º ESO LENGUA CASTELLANA Y LITERATURA CONTENIDOS

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA CICLO BÁSICO DEPARTAMENTO DE ENSEÑANZAS GENERALES

A la vanguardia de la evaluación psicológica w w w. t e a e d i c i o n e s. c o m

CURSOS DE RUMANO. Aproximación a la cultura y la civilización rumanas (miércoles, 17:30-19, aula 106; 25h; 1 ECTS)

Información Académica para Familias y Alumnos/as LENGUA CASTELLANA Y LITERATURA CURSO PRIMERO DE ESO CONTENIDOS MÍNIMOS. 1.

CURSOS DE RUMANO. Curso , 2º cuatrimestre

Curso de semántica general

Índice. Introducción. Introducción: análisis léxico. Tema 2. Primera parte. análisis. Objetivo: analizar las palabras del texto. Sintagmas: sintaxis.

EL TEXTO Y SU ANÁLISIS. Sanders, T. (2006). Text and Text Analysis Encyclopedia of Language and Linguistics

LINGÜÍSTICA DE CORPUS Y ENSEÑANZA DEL ESPAÑOL COMO 2/L

UNIDADES DE LA SINTAXIS. Sintagmas o Grupos sintácticos

Cuantificación: Los Cuantificadores y el resto de la oración

Reconocimiento Automático de Voz

COMPETENCIA BÁSICA N.º 1. COMPETENCIA LINGÜÍSTICA (1)

COMUNICACIÓN Y LENGUAJE. EL PROCESO DE COMUNICACIÓN HUMANA.

Asignación de Prosodia en Sistemas TTS

LA COMPRENSIÓN DESDE EL PUNTO DE VISTA DEL MARCO DE LA CONSTRUCCIÓN DE UNA ESTRUCTURA

Lingüística histórica y cambio gramatical

Nuevas Tecnologías aplicadas a las Finanzas. Especializaciones. 1. Ingeniería Lingüística. Un nuevo mercado. Presentación del curso:

Temas de Reflexión en el

1. Conocer los orígenes de las lenguas habladas en España, clasificarlas y localizarlas en un mapa.

TEMA 6: INTRODUCCIÓN A UML

CRITERIOS DE EVALUACIÓN, INSTRUMENTOS Y CRITERIOS DE CALIFICACIÓN CULTURA CLÁSICA 3º ESO

CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS

Alba Lucia Londoño Javier a. murillo m.

DEPARTAMENTO DE LENGUA CASTELLANA Y LITERATURA CURSO ESCOLAR APRENDIZAJES IMPRESCINDIBLES NIVEL 2º ESO

Manual de morfolo del español

PLANES DE RECUPERACIÓN DE 1º ESO PARA SEPTIEMBRE - curso 2013/14 LENGUA CASTELLANA Y LITERATURA

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

LENGUA ESPAÑOLA Y LITERATURA. Objetivos

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina)

NARRACIÓN, DESCRIPCIÓN, DIÁLOGO. LA ORACIÓN

CRITERIOS DE EVALUACIÓN

1.1 Aspectos Evaluados

El sustantivo y el adjetivo calificativo. [3.1] Cómo estudiar este tema? [3.2] Introducción T E M A

Inteligencia artificial

Aprendizajes para la programación y evaluación de competencias básicas. 2. Tablas de los aprendizajes de Primaria

Qué es la morfología?

La Oración Simple. Un emisor manda un mensaje y un receptor recibe el mensaje.

Definición de clases para una ontología en gastronomía Hazel Barahona Gamboa VII Coloquio de Lingüística computacional en la UNAM, agosto 2015

Procesadores de Lenguaje

Lógica de predicados

b) Criterios específicos de evaluación. Se evaluarán sobre los siguientes criterios:

La investigación sobre las lenguas de modalidad visogestual comienza a

TEMA 1 EL ANÁLISIS MORFOLÓGICO Y LAS CLASES DE PALABRAS

Narración y Literatura Infantil en Intervención en Lenguaje

CURSOS DE RUMANO. Curso , 2º cuatrimestre

PROGRAMA DE RECUPERACIÓN PEDAGÓGICA

INGLES NM3 3º EM. Unidad temáticas CONOCIMIENTOS BÁSICOS DEL PROFESOR

UNIVERSIDAD NACIONAL DE LA MATANZA

Universidad Autónoma Metropolitana Unidad Azcapotzalco. División de Ciencias Básicas e Ingeniería. Licenciatura en Ingeniería en Computación

Curso de procesamiento del lenguaje natural

LINGÜÍSTICA APLICADA A LA TRADUCCIÓN (8111) Profª. Larissa Timofeeva

PROGRAMA DE LABORATORIO SECCIÓN: ÁREA A LA QUE PERTENECE: POS-REQUISITO: AUXILIAR:

Departamento: Ingeniería en Sistemas de Información. Carrera: Tecnicatura Superior en Programación. Cátedra: Inglés I Primer año.

Pontificia Universidad Católica del Ecuador

CRITERIOS DE EVALUACIÓN

CINTENIDOS Y CRITERIOS DE EVALUACIÓN 3º ESO SEPTIEMBRE

UNIVERSIDAD DE PLAYA ANCHA FACULTAD DE HUMANIDADES. Vicerrectora Académica Dirección de Estudios, Innovación Curricular y Desarrollo Docente

Pontificia Universidad Católica del Ecuador

Inteligencia Artificial

Reconocimiento e Interpretación de Expresiones Temporales

LA FORMACIÓN DE PALABRAS EN LAS LENGUAS ROMÁNICAS: SU SEMÁNTICA EN DIACRONÍA Y SINCRONÍA. Abreviaturas 13 Prefacio 15.

Desambigüación del sentido de las palabras (WSD)

Métodos de Inteligencia Artificial

1.-DATOS DE LA ASIGNATURA

Itinerario: Inteligencia Computacional

REGISTRO DE INDICADORES DE RIESGO EN LA DETECCIÓN DE LA DISLEXIA

TABLA DE CONTENIDO. POSICIONAMIENTO ESTRATÉGICO DE LA ORGANIZACIÓN Clientes, usuarios y beneficiarios... 23

MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL. Programa Teoría y Técnicas de Interpretación en Lengua de Señas Cubana

Alba Lucia Londoño Raul martinez. A. Conocimiento y comprensión

1 CONTENIDOS TEMA 1. LOS TEXTOS PERIODÍSTICOS LENGUA Y LITERATURA 2º BACHILLERATO PROGRAMACIÓN CURSO I. CONTENIDOS LINGÜÍSTICOS

PROGRAMA de asignaturas

CÁLCULO DE PROBABILIDADES

Secondary Spanish Curriculum Overview - Lengua

Uso de PLN en otras disciplinas

UNIVERSIDAD CARLOS III DE MADRID PROGRAMA DE LA ASIGNATURA: LENGUA CASTELLANA

PROGRAMA de asignaturas

Alineación de textos y traducción automática

INSTITUCIÓN EDUCATIVA SAN VICENTE DE PAÚL ANÁLISIS RESULTADOS PRUEBAS SABER 3, 5 Y

El verbo I. Haber. Julián Cosmes-Cuesta Verbo I. Haber Gramática didáctica del español (2002): s

MÍNIMOS EXIGIBLES DE INGLÉS: 1º E.S.O.

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

María Moliner. Gramática básica del español GREDOS A/ SUB Hamburg

CICLO DE LICENCIATURA EN COMERCIO INTERNACIONAL

Propósitos por Ciclos

Transcripción:

Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 26 de Marzo de 2010

qué NO es la minería de texto minería de texto NO es... recuperación de información aprendizaje automático de ejemplos ya clasificados

objetivos de la minería de texto descubrir información desconocida hasta el momento (knowledge discovery) encontrar patrones para organizar datos

descubrir información desconocida: un ejemplo Don R. Swanson. 1991. Analysis of Unintended Connections Between Disjoint Science Literatures. SIGIR. a partir de títulos y abstracts de artículos de medicina se encuentran relaciones causales entre síntomas, drogas, efectos Problema: dolores de cabeza causados por migraña 1. el estrés se asocia con la migraña 2. el estrés provoca la pérdida de magnesio 2.1 el magnesio es un bloqueador del canal de calcio natural 2.2 los bloqueadores del canal de calcio evitan algunas migrañas 2.1 niveles altos de magnesio inhiben la depresión cortical extendida 2.2 la depresión cortical extendida se encuentra en migrañas

descubrir patrones para organizar datos: un ejemplo inducción de mapas conceptuales

descubrir patrones para organizar datos: un ejemplo inducción de mapas conceptuales

limitaciones de la minería de texto diferencias con KDD tradicional mayoría de ejemplos no clasificados (unsupervised learning) input no estructurado, es necesario identificar entidades identificar relaciones rango de resultados totalmente desconocido limitaciones de la minería de texto falta de abstracción alta dimensionalidad difícil de interpretar no está conectado con otros tipos de conocimiento

objetivo del PLN comprensión automática del lenguaje humano sub-objetivos: desambiguación de sentidos análisis sintáctico resolución de co-referencia interpretación semántica de oraciones

comprensión automática del lenguaje: un ejemplo sistema de diálogo hombre - máquina H - cuáles son los horarios de los trenes a Tarragona para ma~nana?... M - a las 7:30, 8, 9, 9:30, 10, 11, 11:30...

comprensión automática del lenguaje: un ejemplo sistema de diálogo hombre - máquina H - cuáles son los horarios de los trenes a Tarragona para ma~nana?... M - a las 7:30, 8, 9, 9:30, 10, 11, 11:30... desambiguación de sentidos: mañana = próximo día o mañana = primera parte del día?

comprensión automática del lenguaje: un ejemplo sistema de diálogo hombre - máquina H - cuáles son los horarios de los trenes a Tarragona para ma~nana?... M - a las 7:30, 8, 9, 9:30, 10, 11, 11:30... análisis sintáctico: horarios de trenes los a Tarragona

comprensión automática del lenguaje: un ejemplo sistema de diálogo hombre - máquina H - cuáles son los horarios de los trenes a Tarragona para ma~nana?... M - a las 7:30, 8, 9, 9:30, 10, 11, 11:30... resolución de co-referencia: horarios de trenes los desde Barcelona a Tarragona

comprensión automática del lenguaje: un ejemplo sistema de diálogo hombre - máquina H - cuáles son los horarios de los trenes a Tarragona para ma~nana?... M - a las 7:30, 8, 9, 9:30, 10, 11, 11:30... interpretación semántica de oraciones: fecha 23/04/2006 medio de transporte tren desde Barcelona-BCN hasta Tarragona-TGN horarios?

limitaciones del PLN limitaciones del PLN cuello de botella: recursos de conocimiento lingüístico poca cobertura recursos de conocimiento estáticos poca adaptación a entornos específicos

análisis de lenguaje natural cómo ayuda el PLN a la minería de texto análisis lingüístico mejor representación del texto generalización de fenómenos lingüísticos se sufre menos la escasez de datos representación teóricamente más adecuada mayor interpretabilidad conexión con bases de conocimiento extra-textuales

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones elgatocomepescado 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones el gato come pescado 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 3.1 detección de palabras especiales Woody Allen llegó a Donosti el miércoles a las dos. 3.2 asignación de etiquetas 3.3 desambiguación de etiquetas 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 3.1 detección de palabras especiales Woody Allen llegó a Donosti el miércoles a las dos. 3.2 asignación de etiquetas 3.3 desambiguación de etiquetas 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 3.1 detección de palabras especiales 3.2 asignación de etiquetas el DA0MS0 el gato NCMS000 gato come VMIP3S0,VMPP2S0 comer pescado NCMS000,VMP00SM pescado 3.3 desambiguación de etiquetas 4. análisis sintáctico 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 3.1 detección de palabras especiales 3.2 asignación de etiquetas 3.3 desambiguación de etiquetas 4. análisis sintáctico 5. análisis semántico el DA0MS0 el gato NCMS000 gato come VMIP3S0 comer pescado NCMS000 pescado

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks el gato come pescado 4.2 estructura de oración 4.3 funciones gramaticales, roles temáticos 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks Grupo Nominal(el gato) Grupo Verbal(come) Grupo Nominal(pescado) 4.2 estructura de oración 4.3 funciones gramaticales, roles temáticos 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks 4.2 estructura de oración O SN SV Especificador Grupo Nominal Grupo Verbal SN el gato come Grupo Nominal pescado 4.3 funciones gramaticales, roles temáticos 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks 4.2 estructura de oración 4.3 funciones gramaticales, roles temáticos O SN Sujeto SV Predicado Especificador Grupo Nominal Grupo Verbal SN Objeto el gato come Grupo Nominal pescado 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks 4.2 estructura de oración 4.3 funciones gramaticales, roles temáticos O SN Agente SV Especificador el Grupo Nominal gato Grupo Verbal come SN Tema Grupo Nominal pescado 5. análisis semántico

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 4.1 constituyentes básicos o chunks 4.2 estructura de oración 4.3 funciones gramaticales, roles temáticos O SN Tema SV Grupo Nominal pescado Grupo Verbal es comido SP Agente Especificador SN por Especificador Introducción a el PLN Grupo Nominal gato

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico 5.1 léxico el gato entidad ser vivo animal... felino doméstico determinado come acción voluntaria... pescado 5.2 proposicional entidad inanimado natural comestible entidad ser vivo animal vertebrado pez no determinado masa

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico 5.1 léxico Woody Allen persona artista actor cine persona artista director cine llegó acción desplazamiento... a Donosti lugar ciudad el miércoles a las dos 14:00GMT02/02/2005 5.2 proposicional

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico 5.1 léxico 5.2 proposicional gato(x) pescado(y) come(x,y)

análisis de lenguaje natural arquitectura básica de los sistemas de PLN 1. reconocimiento de idioma 2. segmentación de palabras, oraciones, secciones 3. análisis morfológico 4. análisis sintáctico 5. análisis semántico 5.1 léxico 5.2 proposicional llega(woody Allen,Donosti,14:00GMT02/02/2005)

aproximaciones al PLN análisis de lenguaje natural arquitecturas basadas en conocimiento 1. un humano desarrolla reglas de análisis y/o diccionarios 2. el conocimiento codificado en las reglas y diccionarios se aplica mediante un analizador automático arquitecturas basadas en aprendizaje automático 1. uno (o más) humanos analizan una muestra representativa de lenguaje natural (corpus anotado) 2. se aplica un proceso de inferencia de conocimiento (reglas y/o diccionarios) a esta muestra 3. el conocimiento obtenido automáticamente en forma de reglas y diccionarios, a menudo probabiĺısticos, se aplica mediante un analizador automático arquitecturas que se ayudan de minería de texto cómo ayuda la minería de texto al PLN superar el cuello de botella del conocimiento generado por humanos adaptar fácilmente los analizadores (portabilidad) arquitecturas Laura basadas Alonso i Alemany en minería Introducción dea PLN texto

técnicas levemente supervisadas técnicas no supervisadas técnicas levemente supervisadas aumento de lexicones aumento de ontologías aumento de gramáticas técnicas no supervisadas descubrimiento de traducciones descubrimiento de clases de palabras enriquecimiento de lexicones

aumento de lexicones técnicas levemente supervisadas técnicas no supervisadas reglas morfológicas para crear diccionarios para tagging co-ocurrencia con otras palabras para obtener bolsas de palabras temáticas

aumento de lexicones técnicas levemente supervisadas técnicas no supervisadas reglas morfológicas para crear diccionarios para tagging Goldsmith, John. 2001. Unsupervised Learning of the Morphology of a Natural Language. Computational Linguistics. 27 (2) 1. se caracterizan los diferentes paradigmas de palabras por sus rasgos morfológicos (escucho, escuchas, escuchamos) 2. en corpus, se encuentran todas las ocurrencias de una palabra 2.1 se identifica la raíz hipotetizando diferentes opciones dadas las formas encontradas, mediante un árbol de sufijos (trie) 2.2 se asigna cada raíz a uno o más paradigmas, con diferente fiabilidad, usando formas inambiguas del paradigma 2.3 si es necesario, se obtienen más ejemplos (pesados) de la web desventajas: hay que construir los paradigmas a mano útil solamente para lenguas con rica morfología flexiva co-ocurrencia con otras palabras para obtener bolsas de palabras temáticas

aumento de lexicones técnicas levemente supervisadas técnicas no supervisadas reglas morfológicas para crear diccionarios para tagging co-ocurrencia con otras palabras para obtener bolsas de palabras temáticas 1. partimos de un pequeño diccionario temático (p.ej., Roget s Thesaurus), donde cada tema (topic) está asociado a un conjunto de palabras (p.ej., tenis raqueta, red, set). 2. usamos palabras inambiguas (sólo están en una categoría) como indicadoras de tema 3. buscamos palabras que co-ocurren significativamente más con las palabras inambiguas de un tema (o con documentos asignados a un tema) (p.ej., Del Potro) 4. incorporamos estas palabras como indicadoras de tema (posiblemente, pesando su indicatividad con su ambigüedad) útil para categorización de textos, desambiguación de sentidos, inducción de mapas conceptuales desventajas: es necesario tener un inventario de temas pre-definido

aumento de lexicones técnicas levemente supervisadas técnicas no supervisadas reglas morfológicas para crear diccionarios para tagging co-ocurrencia con otras palabras para obtener bolsas de palabras temáticas 1. partimos de un pequeño diccionario temático (p.ej., Roget s Thesaurus), donde cada tema (topic) está asociado a un conjunto de palabras (p.ej., tenis raqueta, red, set). 2. usamos palabras inambiguas (sólo están en una categoría) como indicadoras de tema alternativa: en un documento las diferentes palabras votan por sus diferentes temas (repartiendo su capacidad de voto equitativamente entre sus diferentes temas) para determinar el tema del documento 3. buscamos palabras que co-ocurren significativamente más con las palabras inambiguas de un tema (o con documentos asignados a un tema) (p.ej., Del Potro) 4. incorporamos estas palabras como indicadoras de tema (posiblemente, pesando su indicatividad con su ambigüedad) útil para categorización de textos, desambiguación de

aumento de lexicones técnicas levemente supervisadas técnicas no supervisadas reglas morfológicas para crear diccionarios para tagging co-ocurrencia con otras palabras para obtener bolsas de palabras temáticas 1. partimos de un pequeño diccionario temático (p.ej., Roget s Thesaurus), donde cada tema (topic) está asociado a un conjunto de palabras (p.ej., tenis raqueta, red, set). 2. usamos palabras inambiguas (sólo están en una categoría) como indicadoras de tema 3. buscamos palabras que co-ocurren significativamente más con las palabras inambiguas de un tema (o con documentos asignados a un tema) (p.ej., Del Potro) 4. incorporamos estas palabras como indicadoras de tema (posiblemente, pesando su indicatividad con su ambigüedad) útil para categorización de textos, desambiguación de sentidos, inducción de mapas conceptuales desventajas: es necesario tener un inventario de temas pre-definido

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas entidad artefacto natural máquina herramienta no mecánico... vivo no vivo animado inanimado animal planta hongo mamífero pez reptil... la ontología estrella para PLN es WordNet (y sus extensiones: EuroWordNet, BalkaNet, GermaNet...)

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas patrones sintácticos para descubrir hipónimos, hiperónimos co-ocurrencia con otras palabras para determinar adjunción a una ontología

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas patrones sintácticos para descubrir hipónimos, hiperónimos N es un N, N es un tipo de N, N pertenece a los N (el tigre es un felino, Rosina es la presidenta de la Liga de Madres) útil si tenemos un corpus donde estos patrones se dan significativamente: diccionario, textos didácticos desventajas: alcance limitado, conocimiento típicamente enciclopédico (vs. sentido común), multiplicidad de patrones posiblemente ambiguos co-ocurrencia con otras palabras para determinar adjunción a una ontología

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas patrones sintácticos para descubrir hipónimos, hiperónimos co-ocurrencia con otras palabras para determinar adjunción a una ontología usando técnicas basadas en desambiguación de sentidos usando técnicas basadas en tematización

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas patrones sintácticos para descubrir hipónimos, hiperónimos co-ocurrencia con otras palabras para determinar adjunción a una ontología usando técnicas basadas en desambiguación de sentidos dada una palabra ambigua p de la ontología, 1. para todos los sentidos de p, buscamos otras palabras que estén asignadas únicamente a uno de sus sentidos (o hipo-sentidos, o hiper-sentidos) 2. recuperamos de la web la co-ocurrencia de p con cada una de las palabras inambiguas 3. pesamos los sentidos de p por su co-ocurrencia con estas palabras inambiguas desventajas: la palabra tiene que estar previamente descrita en la ontología, escasez de palabras inambiguas usando técnicas basadas en tematización

aumento de ontologías técnicas levemente supervisadas técnicas no supervisadas patrones sintácticos para descubrir hipónimos, hiperónimos co-ocurrencia con otras palabras para determinar adjunción a una ontología usando técnicas basadas en desambiguación de sentidos usando técnicas basadas en tematización 1. caracterizamos una rama de la ontología por las palabras que se encuentran en ella, pesando la contribución de su palabra por su ocurrencia en otras ramas 2. dadas las palabras de un documento que se encuentran en la ontología, determinamos la rama mayoritaria de un documento 3. encontramos las palabras que no están en la ontología y que ocurren significativamente más con una rama que con el resto, y las incorporamos a la ontología desventajas: las diferentes ramas de una ontología pueden co-existir en un mismo documento, cobertura desigual de las ontologías

aumento de gramáticas técnicas levemente supervisadas técnicas no supervisadas bootstrapping 1. pequeño recurso inicial (gramática o corpus) 2. se analiza un corpus mayor 3. se toman en cuenta los ejemplos con mayor fiabilidad 4. se aprende una gramática mayor co-training 1. pequeño recurso inicial (gramática o corpus) 2. se aprenden dos gramáticas diferentes 3. se analiza un corpus mayor 4. se toman en cuenta los ejemplos analizados igual por las dos gramáticas 5. se aprenden gramáticas mayores

descubrimiento de traducciones Traducción Automática Estadística técnicas levemente supervisadas técnicas no supervisadas 1. corpus paralelos (corpus con el mismo significado en dos lenguas distintas, p.ej., corpus del Parlamento Europeo) 2. alineación: identificar correspondencias entre segmentos cada vez más chicos de los dos textos 3. correspondencias entre palabras o secuencias de cada lengua: palabra - palabra palabra - - palabra palabra palabra - palabra palabra palabra - palabra palabra... 4. asignamos una fiabilidad a cada correspondencia, según la cantidad de veces que la hemos visto en el corpus 5. interpolación de modelos de diferente longitud y fiabilidad

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras caracterizar cada palabra p como un vector n-dimensional, cada dimensión se corresponde con una de las palabras que ocurren en el texto, la dimensión n del vector que caracteriza a la palabra p contiene la probabilidad de co-ocurrencia de la palabra p con la palabra de la dimensión n.

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: A El agua. come de el en está gato gatos gusta les lleno los mar mar. no pescado pescado. vive

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: -10% A El agua come de el en está gato gatos gusta les lleno los mar no pescado vive

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: -15% a agua come de el en está gato gatos gusta les lleno los mar no pescado vive

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: -20% a agua come de el en está gato gusta les lleno los mar no pescado vive

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: -60% agua come gato gusta lleno mar pescado vive

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras El gato come pescado. El pescado vive en el mar. El mar está lleno de agua. A los gatos no les gusta el agua. A los gatos les gusta el pescado. palabras a caracterizar: agua come gato gusta lleno mar pescado vive agua come gato gusta lleno mar pescado vive agua 1 1 1 1 come 1 1 gato 1 1 2 2 gusta 1 2 1 lleno 1 1 mar 1 1 1 1 pescado 1 2 1 1 1 vive 1 1

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras agua come gato gusta lleno mar pescado vive agua 1 1 1 1 come 1 1 gato 1 1 2 2 gusta 1 2 1 lleno 1 1 mar 1 1 1 1 pescado 1 2 1 1 1 vive 1 1 usar técnicas de clustering para encontrar grupos de significado: determinar qué vectores están más cercanos, según un criterio de distancia matemático

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras agua come gato gusta lleno mar pescado vive agua 1 1 1 1 come 1 1 gato 1 1 2 2 gusta 1 2 1 lleno 1 1 mar 1 1 1 1 pescado 1 2 1 1 1 vive 1 1 usar técnicas de clustering para encontrar grupos de significado: determinar qué palabras están más cercanas, según un criterio de distancia matemático

técnicas levemente supervisadas técnicas no supervisadas descubrimiento de clases de palabras agua come gato gusta lleno mar pescado vive agua 1 1 1 1 come 1 1 gato 1 1 2 2 gusta 1 2 1 lleno 1 1 mar 1 1 1 1 pescado 1 2 1 1 1 vive 1 1 usar técnicas de clustering para encontrar grupos de significado: determinar qué palabras se parecen más entre sí, según un criterio de distancia matemático

técnicas levemente supervisadas técnicas no supervisadas cuestiones a tener en cuenta en clustering selección de características (las dimensiones de los vectores) ni muchas, ni pocas adecuadas al objetivo que pretendemos conseguir. trabajar suficientes instancias de cada objeto para obtener representatividad estadística selección del criterio de distancia entre vectores distancia eucĺıdea: el más simple coseno: el más usado, con los mejores resultados divergencia de Kullback-Leibler, no es una distancia sino una diferencia entre distribuciones de probabilidad también se pueden usar técnicas más sofisticadas, como la descomposición en valores singulares, desarrollada en la técnica de Latent Semantic Analysis (T. K. Landauer, P. W. Foltz, and D. Laham. 1998. Introduction to Latent Semantic Analysis. Discourse Processes, 25.)

enriquecimiento de lexicones técnicas levemente supervisadas técnicas no supervisadas problema inicial: la información de los lexicones computacionales es insuficiente para aplicaciones de conocimiento profundo objetivo: asociar a los ítems de los lexicones información sobre su comportamiento respecto a las palabras circundantes 1. obtener ocurrencias en corpus de las palabras que queremos enriquecer (p.ej., verbos), posiblemente analizadas (p.ej., análisis sintáctico, semántico) 2. caracterizar las palabras-objetivo como vectores 3. aplicar técnicas de clustering o bootstrapping para encontrar clases de palabras con el mismo comportamiento sintáctico-semántico 4. aprender un clasificador a partir de estas clases y estos ejemplos 5. aplicarlo a palabras semejantes pero antes no vistas