Tema 2. Tercera parte. Clases abiertas: Clases cerradas:

Documentos relacionados
Índice. Introducción. Introducción: análisis léxico. Tema 2. Primera parte. análisis. Objetivo: analizar las palabras del texto. Sintagmas: sintaxis.

Introducción al Procesamiento de Lenguaje Natural. Obligatorio Corrector Ortográfico en Python

Tagging. POS Tagging Taggers basados en reglas Taggers estadísticos Taggers y aprendizaje automático Combinación de estrategias.

Introducción al Procesamiento de Lenguaje Natural. Grupo de PLN - InCo

Análisis Léxico. Maestría en Sistemas Computacionales Clave: MPSCO Créditos Sesiones Sábados. Rafael Vázquez Pérez. sábado 28 de febrero de 15

Procesadores de Lenguaje

UN MÓDULO DE DESAMBIGUACIÓN MORFOSINTÁCTICA PARA EL

TEMA 3. MORFOLOGÍA FLEXIVA Y LEXICA.

Etiquetado gramatical

Procesadores de Lenguaje

Raúl

Curso. Lingüística Aplicada III (Procesamiento inteligente de textos)

Un etiquetador morfológico para el español de Cuba

UNIDAD 3 MORFOLOGÍA, LEXICOLOGÍA Y SEMÁNTICA TALLER DE PRÁCTICAS II

PARTE I: ANTECEDENTES

ANEXO 1: DOCUMENTO ICONIX. Nº Requisito Funcional Prioridad 1 La aplicación será desarrollada en lenguaje JAVA. NF 1

UNIVERSIDAD CARLOS III DE MADRID

> Capítulo 3. Los sustantivos. Aspectos semánticos: clases de sustantivos 29. > Capítulo 4. Los sustantivos. Aspectos morfológicos: género y número 37

1. Introducción. 2. Componentes de la sintaxis. computacional. El análisis sintáctico es el esqueleto de. Dos problemas fundamentales:

Tarea 2. José Alberto Benítez Andrades A. Descubrimiento de Información en Textos

Qué es la morfología?

Desambiguación léxica basada en redes neuronales para el castellano

2 Conceptos de PLN: Análisis Sintáctico Superficial. 3 Conceptos de PLN: Semántica Léxica. 4 Extracción de Información. 5 Búsqueda de Respuestas

WSD usando Modelos de probabilidad de Máxima Entropía

Manual de morfolo del español

Técnicas básicas en el tratamiento informático de la lengua

TEMA 1 EL ANÁLISIS MORFOLÓGICO Y LAS CLASES DE PALABRAS

clases cerradas: preposiciones, artículos, conjunciones, pronombres, complementantes.

CATEGORÍAS GRAMATICALES: MORFOLOGÍA Y SINTAXIS

María Moliner. Gramática básica del español GREDOS A/ SUB Hamburg

Técnicas de etiquetado y desambiguación morfológica del inglés con reducida información contextual

LENGUAJE, LENGUA Y HABLA. EL SIGNO LINGÜÍSTICO.

ÍNDICE PRESENTACIÓN...12

Universidad Fermín Toro. Cabudare Lara

CLASES DE PALABRAS EL SUSTANTIVO Y EL ADJETIVO I

Las relaciones semánticas de términos polilexemáticos

SKETCH ENGINE. Seminario de Traducción Automática Magíster en Traducción Pontificia Universidad Católica de Chile

Se realizarán 10 preguntas, valoradas con un punto cada una.

Generación de un diccionario y herramientas de análisis morfológico para el español

Forma, función y significado de las partes de la oración: el adjetivo y el adverbio Aplicación práctica de estos contenidos en los programas de EFL

Morfosintaxis del Español

Text Mining Introducción a PLN

Seminario de análisis del discurso

Enju. A fast, accurate, and deep parser for English

Evaluación del lenguaje. Modelo psicolingüístico. 7. ANEXOS

Profesor de Español para Extranjeros ELE

Introducción al procesamiento del lenguaje natural (PLN)

Curso de procesamiento del lenguaje natural

Determinantes Demostrativos (de acuerdo a la Gramática de Andrés Bello) Prof. Yula Álvarez Las Heras

El texto. Propiedades. Clases de palabras (I) Unidad 2. Jaime Arias Prieto

Las aplicaciones de las tecnologías del habla

1. Introducción. 2. Instalación. 3. Primeros pasos

Modelos de Markov Ocultos (HMM)

El adjetivo calificativo. Ejercicios

Desambigüación del sentido de las palabras (WSD)

Curso de Gramática. Unidad II El sustantivo. Ejercicios El sustantivo. Ejercicios

PALABRAS Y SINTAGMAS, UNIDADES GRAMATICALES

A/ LEONARDO GÓMEZ TORREGO HABLAR Y ESCRIBIR CORRECTAMENTE. Gramática normativa del español actual. II Morfología y sintaxis AARCO/LIBROS, S.

Introducción a la lingüística computacional

1º ESO LENGUA CASTELLANA Y LITERATURA CONTENIDOS

UNIVERSIDAD CARLOS III DE MADRID PROGRAMA DE LA ASIGNATURA: LENGUA CASTELLANA

CLASES DE PALABRAS CATEGORÍAS GRAMATICALES

Un lematizador desambiguado con R

PROGRAMAS MATERIAS. MAYORES 25 AÑOS Lengua Española. Comentario de Texto

TITULACIÓN: Grado en Filología Hispánica CENTRO: Facultad de Humanidades y Ciencias de la Educación CURSO ACADÉMICO: GUÍA DOCENTE

Curso. Tecnologías de lenguaje natural

BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA

ANÁLISIS ESTADÍSTICO DEL COMPORTAMIENTO DEL PRIMER ETIQUETADOR CUBANO EN TRES DIFERENTES CORPUS DE LA PRENSA

Curso de procesamiento del lenguaje natural

Tecnologías del Lenguaje Humano aplicadas al aprendizaje de segundas lenguas

AGENDA DE TRABAJO LENGUA Y LITERATURA CASTELLANA 2º ESPA DISTANCIA CURSO 2018

Criterios de calificación de Lengua castellana y literatura. ESO. IES AIRÉN

PROGRAMA DE LENGUA CASTELLANA

ANÁLISIS SEMÁNTICO MULTIDIMENSIONAL APLICADO A LA DESAMBIGUACIÓN DEL LENGUAJE NATURAL. Yoan Gutiérrez Vázquez

La comunicación. Funciones del lenguaje. Las unidades lingüísticas Unidad 1. Jaime Arias Prieto

Determinantes Demostrativos. Ejercicios

ÍNDICE. LA COMUNICACIÓN. LENGUAJE VERBAL Y LENGUA. EL ESTUDIO DE LA LENGUA ESPAÑOLA... 1 Introducción... 2

LENGUA CASTELLANA Y LITERATURA. CONTENIDOS

Sistemas de Información II Tema 9. Bases de datos de texto

FICHA I.- COMUNICACIÓN Y LENGUAJE. Elementos (Funciones)

II.1 Curso de gramática. Unidad Determinantes interrogativos. Ejercicios Determinantes Interrogativos Ejercicios

Morfología derivativa y semántica léxica: la prefijación de auto-, co- e inter-

Los determinativos: posesivos

Tema 1: Procesamiento automático de lengua natural Margarita Alonso Ramos

La comunicación. Funciones del lenguaje. Las unidades lingüísticas Unidad 1. Jaime Arias Prieto

CONTENIDOS Y CRITERIOS DE CALIFICACIÓN LATÍN 4º ESO CURSO 2015/2016

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

Nombres, adjetivo calificativo, verbos, determinantes, conjunciones, preposiciones, interjecciones, pronombres y adverbios.

LA FORMACIÓN DE PALABRAS EN LAS LENGUAS ROMÁNICAS: SU SEMÁNTICA EN DIACRONÍA Y SINCRONÍA. Abreviaturas 13 Prefacio 15.

Introducción al Procesamiento de Lenguaje Natural. Obligatorio Corrector Ortográfico en Python

I N G L É S T É C N I C O NIVEL I

Brevísima Introducción a la Lingüística Computacional, Sistemas Conversacionales y Diálogo No-Cooperativo

CAPÍTULO 11 CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN

ÍNDICE PRESENTACIÓN... 3

El pronombre (El pronombre personal)

ETIQUETAS EAGLES (v. 2.0) REDUCIDAS

Uso de cadenas de Markov para la desambiguación morfológica y su aplicación al castellano

Modelos del Lenguaje. Qué es un ML? Modelos basados en N-gramas Modelos basados en Gramáticas Propuesta de T.D

INTRODUCCIÓN Y OBJETIVOS LOS ERRORES DE LA INTERLENGUA DEL HABLANTE NO NATIVO DELIMITACIÓN CONCEPTUAL DE LA INTERLENGUA...

Transcripción:

Análisis categorial Tema 2. Tercera parte. Análisis categorial Ingeniería del Lenguaje Natural Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante http://www.dlsi.ua.es/asignaturas/iln 1. Clases de palabras: las categorías gramaticales. 2. Etiquetado categorial (PoS-tagging). g) 3. Técnicas de desambiguación categorial. 4. El análisis categorial en aplicaciones de PLN. ILN 2 Clases de palabras, categoría gramatical, categorías léxicas, part of speech. Tipos de palabras según su categoría gramatical: nombre, verbo, etc. Palabras de la misma categoría comparten contextos de aparición similares. Diferentes clasificaciones: EAGLES 12 PennTreeBank 45 Clases abiertas: Clases cerradas: Nombre Preposición Verbo Determinante Adjetivo Conjunción Adverbio Numerales ILN 3 ILN 4

EAGLES: EAGLES: ILN 5 ILN 6 EAGLES: Corpus anotados con categoría gramatical: Brown corpus (inglés) PennTreeBank (inglés) CLIC-TALP (español y catalán) ILN 7 ILN 8

Etiquetado categorial PoS tagging. Proceso de asignar automáticamente la categoría gramatical correspondiente a las palabras y tokens de un texto. t Entrada texto plano + lista de etiquetas Salida palabra (lema) etiqueta t Etiqueta t = categoría + información ió morfológica. Conjunto de etiquetas predefinido. ILN 9 ILN 10 Ejemplo (MACO+ su su DP3CS0 Gobierno Gobierno NP00000 podría poder VMIC3S0 rechazar rechazar VMN0000 la el DA0FS0 ayuda ayuda NCFS000 internacional internacional AQ0CS0 que que CS recibe recibir VMIP3S0 si si CS ésta este PD0FS000 se se P0000000 condiciona condicionar VMIP3S0 a a SPS00 que que CS en en SPS00 el el DA0MS0 país país NCMS000 haya haber VASP3S0 " " Fe convulsiones convulsión NCFP000 políticas político AQ0FP0 " " Fe.. Fp MACO+ - Freeling) ILN 11 Ambigüedad categorial Problema: ambigüedad categorial. Una palabra puede pertenecer a más de una categoría gramatical. En cada categoría gramatical, puede tener diferentes significados. Ej. WordNet ILN 12

Ambigüedad categorial su su DP3CS0 Gobierno Gobierno NP00000 podría poder VMIC1S0 poder VMIC3S0 rechazar rechazar VMN0000 la el DA0FS0 la NCMS000 él PP3FSA00 ayuda ayuda NCFS000 ayuda NCMS000 ayudar VMIP3S0 ayudar VMM02S0 internacional internacional AQ0CS0 internacional NCCS000 internacional NCFS000 que que CS que PR0CN000 recibe recibir VMIP3S0 recibir VMM02S0 si si CS si NCMS000 si RG ésta este PD0FS000 se se P0000000 él P0300000 él PP3CN000 condiciona condicionar VMIP3S0 condicionar VMM02S0 a a NCFS000 a SPS00 que que CS que PR0CN000 en en SPS00 el el DA0MS0 país país NCMS000 haya haber VAM03S0 haber VASP1S0 haber VASP3S0 haya NCFS000 " " Fe convulsiones convulsionar VMSP2S0 convulsión NCFP000 políticas política NCFP000 político AQ0FP0 " " Fe.. Fp ILN 13 Ambigüedad categorial Tipos de ambigüedad categorial. Ambigüedad intracategorial: Ambigüedad intercategorial: ILN 14 Ambigüedad categorial Ambigüedad categorial Ambigüedad intracategorial: Un mismo token sólo pertenece a una categoría, pero dentro de ésta puede tener diferentes rasgos. Ejemplo: cantamos diría. Ambigüedad intercategorial: Ambigüedad intracategorial: Ambigüedad intercategorial: Un mismo token puede pertenecer a más de una categoría. ILN 15 ILN 16

Ambigüedad categorial Técnicas de desambiguación categorial Casos más frecuentes de ambigüedad intercategorial: t i Determinante-pronombre: algunas Nombre propio Nombre común: generalísimo Nombre verbo: cuenta Adjetivo calificativo Determinante... Postura común: desambiguación por contexto (local). Palabras anteriores y posteriores en las que aparece la palabra ambigua. ILN 17 ILN 18 Complejidad de la desambiguación Técnicas de desambiguación categorial La complejidad de la desambiguación categorial depende d del contexto t en que aparece la palabra No de la cantidad d de categorías a las que puede pertenecer. Las palabras de mayor uso son las más ambiguas y las más difíciles de desambiguar. Técnicas básicas: 1. Basadas en reglas (conocimiento). 2. Técnicas estocásticas. 3. Técnicas híbridas. ILN 19 ILN 20

Basado en reglas Basado en reglas Modelo racionalista Arquitectura t básica: 1. Diccionarios: todas las palabras agrupadas por categorías gramaticales. 2. Conjunto de reglas de desambiguación: Creación manual. ENGTWOL (Voutilainen,( 1995): ) Inglés. Palabra + lema + categoría + morfología. 110 restricciones para casos incorrectos. Reglas que indican lo incorrecto, basado en Gramáticas de restricciones (Constraint Grammar, Karlsson 1995). ILN 21 ILN 22 Analizadores estocásticos Modelo empiricista Aprendizaje a partir de un corpus ya anotado con categorías gramaticales. Representación del contexto Palabra etiqueta. Bigramas y trigramas Técnicas de probabilidad: P(p e) = P(p e) * P(e e_anterior) Analizadores estocásticos Modelos os Ocultos de Markov (HMM) Aproximación clásica Otras aproximaciones: Trigramas: TnT parser (T. Brants) Máxima entropía Áb Árboles de decisión ió Support Vector Machines etc. ILN 23 ILN 24

Analizadores Híbridos Intentan combinar los aspectos positivos de cada aproximación. Aproximaciones básicas: 1. Combinación de reglas creadas a mano con reglas extraídas automáticamente. 2. Extracción automática de reglas, análisis s de errores es y corrección manual, y adición manual de nuevas reglas. Analizadores Híbridos Transformation-based tagging (TBT) (Brill 1995) Inglés Basado en un proceso de refinamiento y transformación de etiquetas. Consta de reglas que especifican etiquetas determinadas (manuales) Basado en reglas Aprendizaje automático de nuevas reglas Estocástico. ILN 25 ILN 26 Analizadores Híbridos MACO+ y RELAX (Márquez 2000) (Freeling) Español, catalán e inglés. Combina restricciones lingüísticas (manuales) con diferentes técnicas de aprendizaje automático: bigramas, trigramas, árboles de decisión. ILN 27 Un último problema... Cómo analizar palabras que no están en los diccionarios? 1. Considerar la palabra nueva como ambigua: puede pertenecer a todas la categorías gramaticales Luego aplicar reglas de desambiguación 2. Según la probabilidad de cada categoría para aceptar palabras nuevas: nombre > verbo > adverbio / adjetivo >... > preposición / conjunción. 3. Con reglas manuales a partir de los morfemas (sufijos, prefijos, etc.): -mente adverbio; -es Nombre plural; -ar verbo... Hay ambigüedad: solar/n. ILN 28

Análisis categorial en aplicaciones de PLN Aporta mucha información sobre cada palabra y su contexto local Permite un tratamiento más profundo que la simple palabra (token-lemma). Necesario en todas aquellas aplicaciones que necesiten un tratamiento profundo de la lengua: RI y EI: lematizador + análisis categorial: necesario saber tipo de palabra de la consulta. WSD: Desambiguación del sentido a partir de la categoría gramatical; Información del contexto para desambiguar la semántica QA: Sobre qué se pregunta (nombre, verbo, etc.) y su sentido. ILN 29