Análisis Léxico. Maestría en Sistemas Computacionales Clave: MPSCO Créditos Sesiones Sábados. Rafael Vázquez Pérez. sábado 28 de febrero de 15

Documentos relacionados
Índice. Introducción. Introducción: análisis léxico. Tema 2. Primera parte. análisis. Objetivo: analizar las palabras del texto. Sintagmas: sintaxis.

Raúl

Curso. Lingüística Aplicada III (Procesamiento inteligente de textos)

FACULTAD DE MÚSICA COMUNICACIÓN ORAL Y ESCRITA PLANEAMIENTO Coordinadora: PROF. LIC. EMILCE TORRES DE PAREDES.

1º ESO LENGUA CASTELLANA Y LITERATURA CONTENIDOS

Profesor de Español para Extranjeros ELE

Procesadores de Lenguaje

Qué es la morfología?

Profesor de Español para Extranjeros ELE (Online) Titulación certificada por EUROINNOVA BUSINESS SCHOOL

Manual de morfolo del español

Etiquetado gramatical

Temas de Reflexión en el

Información Académica para Familias y Alumnos/as LENGUA CASTELLANA Y LITERATURA CURSO PRIMERO DE ESO CONTENIDOS MÍNIMOS. 1.

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE COMUNICACIÓN, LINGÜÍSTICA Y LITERATURA ESCUELA DE LINGÜÍSTICA

Desambiguación del Sentido de las Palabras (Word Sense Disambiguation)

Se realizarán 10 preguntas, valoradas con un punto cada una.

LATÍN I : OBJETIVOS, CONTENIDOS, CRITERIOS DE EVALUACIÓN UNIDAD DIDÁCTICA I

ANEXO III 2.º DE EDUCACIÓN SECUNDARIA

TEMA 1 EL ANÁLISIS MORFOLÓGICO Y LAS CLASES DE PALABRAS

Recuperación de Lengua de 1º de ESO

Curso de procesamiento del lenguaje natural

Pontificia Universidad Católica del Ecuador

b) Criterios específicos de evaluación. Se evaluarán sobre los siguientes criterios:

código: POC-PC edición: 01 Página 1 de 5

Al final del curso los estudiantes comprenderán de manera general la manera correcta del uso del español escrito.

Pontificia Universidad Católica del Ecuador

María Moliner. Gramática básica del español GREDOS A/ SUB Hamburg

Griego I Alejandro Curiel R. / Cecilia Velázquez Richards

REDACCIÓN ADMINISTRATIVA. -Nociones Básicas-

PRUEBA EXTRAORDINARIA DE SEPTIEMBRE LENGUA CASTELLANA Y LITERATURA 1º ESO

Evaluación del lenguaje. Modelo psicolingüístico. 7. ANEXOS

clases cerradas: preposiciones, artículos, conjunciones, pronombres, complementantes.

ÍNDICE PRESENTACIÓN...12

I.E.S.S.Ma. ESPACIO CURRICULAR: INGLÉS TÉCNICO CARRERA: TECNICATURA SUPERIOR EN EVALUACIÓN Y GESTIÓN AMBIENTAL CURSO: 3º AÑO (2º CUATRIMESTRE)

4º ESO CRITERIOS DE EVALUACIÓN. Unidad 1. Unidad 2. Unidad 3. Unidad 4. Unidad 5

Departamento de Filología PROGRAMACIÓN DIDÁCTICA. Nivel 3º ESO L. CASTELLANA

CONTENIDOS MÍNIMOS PARA LA PRUEBA EXTRAORDINARIA DE SEPTIEMBRE. 1º BACHILLERATO.

Prof. Mercedes Cartón Lengua castellana y Literatura 1º de Bachillerato Colegio ORVALLE

Departamento de FILOLOGÍA PROGRAMA DE LA ASIGNATURA 1º BACHILLERATO GRIEGO I

Curso de Acceso a la Universidad para Mayores de 25 años (CAM-25)

> Capítulo 3. Los sustantivos. Aspectos semánticos: clases de sustantivos 29. > Capítulo 4. Los sustantivos. Aspectos morfológicos: género y número 37

PRIMER TRIMESTRE CONTENIDOS Y CRITERIOS DE EVALUACIÓN LENGUA 4º ED. PRIMARIA BLOQUE DE ORTOGRAFÍA. Contenidos

1. Conocer los orígenes de las lenguas habladas en España, clasificarlas y localizarlas en un mapa.

Pontificia Universidad Católica del Ecuador

1º de Bachillerato (GRIEGO)

Pontificia Universidad Católica del Ecuador

1. CLASES DE ORACIONES

PLANES DE RECUPERACIÓN DE 1º ESO PARA SEPTIEMBRE - curso 2013/14 LENGUA CASTELLANA Y LITERATURA

Examen Primaria. Lengua y. Literatura. TEMA: Gramática. Uniendo las palabras.

CONCEPTOS; PROCEDIMIENTOS Y CRITERIOS DE EVALUACIÓN

El verbo I. Haber. Julián Cosmes-Cuesta Verbo I. Haber Gramática didáctica del español (2002): s

MARía LUZ GUTIÉRREZ ARAUS PROBLEMAS FUNDAMENTALES DE LA GRAMÁTICA DEL ESPAÑOL COMO 2/L

CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1º BACHILLERATO SEPTIEMBRE

Profesor de Español para Extranjeros ELE (Online)

PROGRAMACIÓN DE LATÍN I 2013/2014

Índice general. Manual de introducción a la lingüística descriptiva

WSD usando Modelos de probabilidad de Máxima Entropía

código: POC-PC edición: 01 Página 1 de 11

INSTITUTO SUPERIOR TECNOLÓGICO DE CINE Y ACTUACIÓN Carrera: Realización y Actuación de Cine y Fotografía y Sonido de Cine

Desambigüación del sentido de las palabras (WSD)

Lingüística histórica y cambio gramatical

Curso de Gramática. Unidad II El sustantivo. Ejercicios El sustantivo. Ejercicios

INGLES NM3 3º EM. Unidad temáticas CONOCIMIENTOS BÁSICOS DEL PROFESOR

CONTENIDOS MÍNIMOS EXIGIBLES

INTRODUCCIÓN La lengua como sistema El signo lingüístico Las articulaciones La lengua como pluralidad de sistemas 24

LATÍN I DEPARTAMENTO DE LATÍN: Prueba extraordinaria, Septiembre de 2016

1.- Comprender la comunicación verbal y no verbal en discursos y en textos.

Curso Práctico de Francés para Secretariado de Dirección. Idiomas

3. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ

PROGRAMACION 3º PRIMARIA LENGUA

Contenidos 1º E.S.O. Castellano

Introducción a la lingüística computacional

Traducción automática en la SGAD. PLATA Plataforma de Traducción Automática.

La comunicación. Funciones del lenguaje. Las unidades lingüísticas Unidad 1. Jaime Arias Prieto

Tema 2: Las palabras: el signo lingüístico, los monemas

UNIVERSIDAD CARLOS III DE MADRID PROGRAMA DE LA ASIGNATURA: LENGUA CASTELLANA

Pontificia Universidad Católica del Ecuador

Inteligencia artificial

CONTENIDOS DE LENGUA CASTELLANA Y LITERATURA. 2º ESO. PRUEBA EXTRAORDINARIA DE SEPTIEMBRE

GUÍA BREVE SOBRE LENGUA CASTELLANA Y LITERATURA DE 2º DE BACHARELATO

Capítulo 6 Las palabras y su significado. (pp )

Bloque de ortografía. Bloque de gramática PRIMER TRIMESTRE CONTENIDOS

COLEGIO DECROLY AMERICANO Middle School IDIOMA ESPAÑOL. Destreza / Contenido 1. Comprender la comunicación en discursos y en textos.

LAS FORMAS NO PERSONALES DEL VERBO

Secondary Spanish Curriculum Overview - Lengua

DEPARTAMENTO DE FILOLOGÍA. PROGRAMACIÓN DIDÁCTICA CORTA de RECUPERACIÓN DE LENGUA CURSO

CLASES DE PALABRAS CATEGORÍAS GRAMATICALES

LICENCIATURA EN LINGÜÍSTICA LISTADO DE MATERIAS CONTENIDO PLAN:

Tarea 2. José Alberto Benítez Andrades A. Descubrimiento de Información en Textos

PROGRAMA DE LABORATORIO SECCIÓN: ÁREA A LA QUE PERTENECE: POS-REQUISITO: AUXILIAR:

LA FORMACIÓN DE PALABRAS EN LAS LENGUAS ROMÁNICAS: SU SEMÁNTICA EN DIACRONÍA Y SINCRONÍA. Abreviaturas 13 Prefacio 15.

1º ESO LENGUA. Unidades lingüísticas (17-18). Morfemas ( ).

UNIDADES DE LA SINTAXIS. Sintagmas o Grupos sintácticos

4. Las competencias comunicativas: lingüística, socio-lingüística y pragmática. Definición, análisis de sus componentes y su gradación en niveles.

Introducción al Procesamiento de Lenguaje Natural. Obligatorio Corrector Ortográfico en Python

Pretérito perfecto y Pretérito pluscuamperfecto

Pontificia Universidad Católica del Ecuador

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE INGENIERÍA CICLO BÁSICO DEPARTAMENTO DE ENSEÑANZAS GENERALES

I N G L É S T É C N I C O NIVEL I

Transcripción:

Análisis Léxico Maestría en Sistemas Computacionales Clave: MPSCO-0108 6 Créditos Sesiones Sábados Rafael Vázquez Pérez

Agenda 2.1 Introducción al análisis léxico. 2.2 N-grams. 2.3 Part-of-Speech Tagging. 2.4 Modelo de Entropía Máxima.

Introducción Los textos y las lenguas: diferentes unidades de análisis. Fundamento de cualquier sistema de PLN. Objetivo: analizar las palabras del texto. Palabras: léxico. Sintagmas: sintaxis. Argumentos: sintaxis y semántica. Proposiciones: semántica. Epígrafes: texto. Intervenciones: pragmática. etc.

Introducción: Análisis Léxico Fundamento de cualquier sistema de PLN Objetivo: analizar las palabras del texto Palabra: unidad básica de procesamiento Las oraciones y textos están formados palabras La palabra lleva asociada un conjunto de información morfológica, sintáctica y semántica necesaria en procesos de análisis posteriores. Toda esta información se almacena en el léxico o en el diccionario

Introducción: Análisis Léxico

Que es una palabra? Aproximación simple: Cadena separada por blancos en un texto. La impresora ha sido limpiada por Juan. La: La vs. la. impresora ha sido limpiada vs. ha sido limpiada. por Juan. : signos de puntuación.

Que es una palabra? Otros problemas: Contracciones: al =a + el, del = de + el, etc. Adjunción de pronombres a verbos (clíticos): díselo = di + se + lo Unidades que se representan ortográficamente con más de una palabra: sin embargo, no obstante, etc.

La Unidad Palabra Dos conceptos: Token-Type Token: aparición concreta de una palabra en un texto dentro de un contexto determinado. Type: Unidad abstracta que engloba a todas las apariciones de una misma palabra en un texto.

Token-Type Ejemplo: El perro sin amo no es perro ni amo. perro: 2 token 1 type. amo: 2 token 1 type.

Tokenización Separación de un texto en secuencias de un unidades lingüísticas elementales (palabras). Tokens Palabras entre espacios en blanco. Diferencias mayúscula-minúscula (si no es pertinente). No se considera la mayúscula Signos de puntuación. Algunas unidades multi-palabra: nombres propios. Fechas. Unidades monetarias. etc.

Tokenizacion ejemplo La Casa no es la casa? - No, es la casa La: tres tokens, un type. Casa: tres tokens, un type. No se considera las mayúsculas Separación de signos de puntuación como tokens independientes

Normalización Problemas que no resuelve la tokenización: Homógrafos. Contracciones y adjunciones. Determinar una forma única común a todas las posibles formas de una misma palabra. Flexión y derivación léxica. Flexión verbal Singular vs. plural Masculino vs. femenino etc. Formas verbales complejas. Unidades multi-palabra complejas

Normalización Determinar una forma única común a todas las posibles formas de una misma palabra. Lema.- Lematización Raíz o tema.- Stemmer

Lema y Lematización Muchas palabras pueden variar en su forma: Flexión y derivación. Todas responden a una misma palabra: lexema. Lema: forma única con la que se nombra un lexema. Forma no marcada: Nombres y adjetivos: masculino singular Verbos: infinitivo Forma canónica: ítem del diccionario.

Lema y Lexema Lematización.- Proceso de asociar los tokens de un texto a su lema correspondiente. Ejemplo Andaría, he andado, anduve,etc: andar Blanca, blanco : blanco Casas, casa, casita, casona,etc.: casa

Raiz y morfema Estructura interna de una palabra: Raíz o tema: significado léxico. Morfema: significado gramatical. Libre ría Carnice ría Cant abamos Luch abamos Casa s

Raiz y morfema Stemmer: proceso de extracción de la raiz o tema de las palabras de un texto. Ejemplo: Antes: Cantaría en todas las madrugadas Después: Canta en toda la madrugada Se pierden los rasgos morfológicos. Útil, por ejemplo, en recuperación de información, donde la morfología no es relevante. Stemmer de Porter y de Lancaster

Análisis Morfológico Descomponer la palabra en raiz + morfemas : Stemmer: Hermano herman Identificar morfema para interpretación y/o formación de nuevas palabras: casa (lugar para vivir) + s (plural) En-torp-e-cedor-es Obtener el lema asociado Hermano/a hermano Cantaríamos cantar Necesario para acceder a la información del léxico

Análisis Morfológico Formación y derivación de palabras. Composición: unión o concatenación de dos palabras distintas para formar una única Brisa Parabrisas Limpiaparabrisas Derivación: adjunción de morfemas a una raíz para formar una palabras diferente Camión Camionero Cantar Cantante Siglas y Acrónimos Euro..., CAM, etc

Análisis Morfológico PC-KIMMO tagger/análisis morfológico Universidad de Las Palmas de Gran Canaria Maco ++ analizador morfológico español y análisis sintáctico (UPC)

La unidad palabra No se puede definir qué es una palabra. Tokenizaciones Normalización: lema y raíz Lematización Stemmer Más que cadenas separadas por blancos Apariciones en un texto: tokens y types.

Léxico o Diccionario Repositorio de Información linguística estructurado por palabras (lexemas). Recurso básica para la mayoría de tareas de PLN.

Léxico Información que puede estar asociada a cada unidad léxica en un diccionario Categoría gramatical. Información morfológica Información sintáctica Información semántica

Información asociada al Lema Categoría sintáctica: Categorías cerradas determinante, preposición Otras abiertas verbo, adjetivos, nombres,

Información asociada al Lema Información morfológica: Características de concordancia: género, número, persona, tiempo, voz, aspecto, etc. Reglas de flexión y derivación: morfemas. Reglas de formación de las palabras: compuestas y derivadas. Información sintáctica: Subcategorización y patrones sintácticos. Concurrencias y n-gramas.

Información asociada al Lema Información semántica Restricciones de selección: Complementos que rige un verbo Significado léxico Forma Lógica Rol semántico

Representación de la Información Necesidad de representación formal. Estructuras de rasgos (Feature Structures) manzana: Sintáctica: Categoría: nombre Concordancia: Genero: femenino Número: singular... Semántica: manzana(x)

Representación de la Información Necesidad de representación formal Redes (Wordnet): Manzana Hipónimo: Manzana Golden Hiperónimo: Fruto

Representación de la Información Actualmente los léxicos se desarrollan junto a ontologías (Niremburg & Raskin 2004): Ontología: Estructurado por conceptos Supra-lingüístico. Léxico: Información propia de cada lengua. Estructurado por palabra

Adquisición de la Información Fuentes de información léxica Humanos Recursos léxicos estructurados Recursos léxicos no estructurados Recursos híbridos

Adquisición de la Información Procedimiento de extracción de información léxica Construcción manual: Precisión. Adquisición automática a partir de recursos léxicos preesxistentes: Cobertura Procedimiento híbridos

Adquisición de la Información Recursos desarrollados por humanos: Wordnet.- Información Semántica CYC Ontology.- 100 000 términos Ontología semántica Linguistic String Project.- Información léxica para 10000 entradas Comlex.- Información sintáctica 38000 palabras en inglés LDOCE3-NLP.- Diccionario con 80 000 termino

Adquisición de la Información Recursos léxicos estructurados Diccionarios electrónicos monolingües: LDOCE Diccionario para estudiantes. 35.956 entradas y 76.059 definiciones. 86% de códigos semánticos y 44% de pragmaticos. Diccionarios electrónicos bilingües Collins Spanish/English (Knigth & Luk 94) Vox/Harrap s Spanish/English (Rigau 98) Vocabulario controlado de 2.000 palabras para evitar circularidad.

Adquisición de la Información Recursos léxicos estructurados Diccionarios electrónicos bilingues Enciclopedias Encarta (Richardson et al. 98) Wikipedia Otros Guías telefónicas, etc.

Adquisición de la Información Recursos léxicos no estructurados Corpus: WSJ Brown Corpus SemCor 3LB

Adquisición de Información Ventajas uso de diccionarios y recursos estructurados: Precisión La información ha sido validada por que es en principio correcta. Desventaja: Muchos de estos recursos no han sido creados para tareas de PLN, por lo que presentan problemas específicos. Ejemplo: ambigüedad de las definicion

Adquisición de Información Ventajas uso corpus Muestra la información tal cual la usan los habitantes sin estar mediatizada por humanos Muestra las palabras en su contexto Permite adquirir información estadística Desventaja Mucha información linguistica es dificil de extraer al estar implícita (categorías gramaticales, sentidos)

Análisis léxico Acceso desde cualquier módulo al léxico, según la información que necesite (semántica, sintáctica, categorial, etc.) Siempre que se trate de información asociada a una unidad léxica

Análisis léxico Análisis morfológico: forma de la palabra, derivación, etc Análisis léxico-categorial: categoría de la palabra PoS taggers Análisis léxico-semántico: significados y sentidos Resolución de la ambiguedad de las palabras o Word Sense Disambiguation (WSD)

N-gramas Modelos del Lenguaje

Modelos Probabilisticos del Lenguaje La meta de hoy: asignar una probabilidad a una frase Traducción de Maquina P(vientos fuertes esta noche)>p(vientos grandes esta noche) Corrección Ortográfica La Oficina esta cerca 15 minuetos de mi casa P(cerca 15 minutos de) > P( cerca 15 minuetos de) Reconocimiento del Habla P(I saw a van) >> P( eyes awe of an) Resúmenes automáticos, Preguntas-Respuestas

Modelos Probabilisticos del Lenguaje Meta: Calcular la probabilidad de una frase o secuencia de palabras: P(W)=P(w1,w2,w3,w4,w5...wn) Tarea Relativa: Probabilidad de una palabra proxima. P(w5 w1,w2,w3,w4) Un modelo que calcule: P(W) o lenguaje Mejor: Gramatica P(w5 w1,w2,w3,w4) es llamado modelo de Pero el modelo de lenguaje es un standard

Como calcular P(W) P(su,agua,es,tan,transparente,que) Intuición: Regla de la cadena de la probabilidad Recordando: P(A,B,C,D)=P(A)P(B A)P(C A,B)P(D A,B,C) La regla general de la cadena

La regla de la cadena aplicada para calcular la probabilidad conjunta de palabras en una frase P( su agua es tan transparente que )= P(su)*P(agua su)*p(es su agua)*p(tan su agua es)*p(transparente su agua es tan)

Como estimar estas probabilidades? Podríamos contar y dividir? P(el su agua es tan transparente que)= Count(su agua es tan transparente que el) Count(su agua es tan transparente que) No, son muchas frases posibles Nunca veremos suficientes datos para estimar estos

Suposición de Markov Suposición simplificada P(el su agua es tan transparente que) P(el que) o tal vez P(el su agua es tan transparente que) P(el transparente que)

Suposición de Markov En otras palabras, aproximamos cada componente en el producto.

Estimando Probabilidades de Bigramas

Ejemplo

Ejercicio Jugadores del equipo de futbol Tiburones Rojos de Veracruz realizaron este viernes una importante visita al Hospital Regional de Veracruz, como parte del acercamiento que la plantilla mantiene con sus aficionados. Edgar Melitón Hernández, Daniel Villalva y Leiton Jiménez, asistieron a dicho centro de salud, atendiendo el llamado de dos aficionados del equipo, quienes el pasado jueves sufrieron un lamentable accidente carretero cuando se dirigían al entrenamiento vespertino del equipo en los campos de la Finca Junior. Los Tiburones Rojos fueron recibidos por los doctores Roberto Ventura Zepeda y Roberto Carlos Muñoz Joachín, quienes guiaron a los futbolistas hasta los dormitorios en que los fieles seguidores de nuestro equipo son reportados afortunadamente como fuera de peligro. Calcular P(Tiburones de) P(Rojos Tiburones) P(Tiburones Los)

Part-of-Speech Tagging Tal vez todo comenzó con Aristóteles en (384-322 ac), tuvo la idea de dividir una oración en partes para su análisis. Categorías lexicales, clases de palabras, tags. Viene de Dionisio de Traxia de Alejandría (100 AC) la idea de que todavía está con nosotros que hay 8 partes del discurso

Clases Abiertas vs Cerradas Clases Cerradas Artículos: un, una, el, la,... Pronombres: yo, el, ella Preposiciones: a, ante, bajo, cabe Clases Abiertas: Nombres, Verbos, Adjetivos, Adverbios

Etiquetado POS Las palabras con frecuencia tienen mas de un POS: back he back door = JJ On my back=nn Win the voters back = RB Promised to back the bill = VB

POS Tagging El método mas usado: Diccionario Input: Plays well with others Ambiguity: NNS/VBZ UH/JJ/NN/RB IN NNS Output: Plays/VBZ well/rb with/in others/nns

Etiquetado Gramatical En linguística computacional, el etiquetado gramatical (conocido también por su nombre en inglés, part-of-speech tagging, POS tagging o POST) es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto su categoría gramatical Este proceso se puede realizar de acuerdo con la definición de la palabra o el contexto en que aparece, por ejemplo su relación con las palabras adyacentes en una frase, oración, o en un parrafo. Uno de los usos de este etiquetado tiene lugar en el contexto de la linguística computacional, mediante el empleo de algoritmos que realizan el etiquetado mediante etiquetas descriptivas predefinidas.

Modelo de Máxima Tarea Entropia