Análisis Léxico. Maestría en Sistemas Computacionales Clave: MPSCO Créditos Sesiones Sábados. Rafael Vázquez Pérez. sábado 28 de febrero de 15

Análisis Léxico Maestría en Sistemas Computacionales Clave: MPSCO-0108 6 Créditos Sesiones Sábados Rafael Vázquez Pérez

Agenda 2.1 Introducción al análisis léxico. 2.2 N-grams. 2.3 Part-of-Speech Tagging. 2.4 Modelo de Entropía Máxima.

Introducción Los textos y las lenguas: diferentes unidades de análisis. Fundamento de cualquier sistema de PLN. Objetivo: analizar las palabras del texto. Palabras: léxico. Sintagmas: sintaxis. Argumentos: sintaxis y semántica. Proposiciones: semántica. Epígrafes: texto. Intervenciones: pragmática. etc.

Introducción: Análisis Léxico Fundamento de cualquier sistema de PLN Objetivo: analizar las palabras del texto Palabra: unidad básica de procesamiento Las oraciones y textos están formados palabras La palabra lleva asociada un conjunto de información morfológica, sintáctica y semántica necesaria en procesos de análisis posteriores. Toda esta información se almacena en el léxico o en el diccionario

Introducción: Análisis Léxico

Que es una palabra? Aproximación simple: Cadena separada por blancos en un texto. La impresora ha sido limpiada por Juan. La: La vs. la. impresora ha sido limpiada vs. ha sido limpiada. por Juan. : signos de puntuación.

Que es una palabra? Otros problemas: Contracciones: al =a + el, del = de + el, etc. Adjunción de pronombres a verbos (clíticos): díselo = di + se + lo Unidades que se representan ortográficamente con más de una palabra: sin embargo, no obstante, etc.

La Unidad Palabra Dos conceptos: Token-Type Token: aparición concreta de una palabra en un texto dentro de un contexto determinado. Type: Unidad abstracta que engloba a todas las apariciones de una misma palabra en un texto.

Token-Type Ejemplo: El perro sin amo no es perro ni amo. perro: 2 token 1 type. amo: 2 token 1 type.

Tokenización Separación de un texto en secuencias de un unidades lingüísticas elementales (palabras). Tokens Palabras entre espacios en blanco. Diferencias mayúscula-minúscula (si no es pertinente). No se considera la mayúscula Signos de puntuación. Algunas unidades multi-palabra: nombres propios. Fechas. Unidades monetarias. etc.

Tokenizacion ejemplo La Casa no es la casa? - No, es la casa La: tres tokens, un type. Casa: tres tokens, un type. No se considera las mayúsculas Separación de signos de puntuación como tokens independientes

Normalización Problemas que no resuelve la tokenización: Homógrafos. Contracciones y adjunciones. Determinar una forma única común a todas las posibles formas de una misma palabra. Flexión y derivación léxica. Flexión verbal Singular vs. plural Masculino vs. femenino etc. Formas verbales complejas. Unidades multi-palabra complejas

Normalización Determinar una forma única común a todas las posibles formas de una misma palabra. Lema.- Lematización Raíz o tema.- Stemmer

Lema y Lematización Muchas palabras pueden variar en su forma: Flexión y derivación. Todas responden a una misma palabra: lexema. Lema: forma única con la que se nombra un lexema. Forma no marcada: Nombres y adjetivos: masculino singular Verbos: infinitivo Forma canónica: ítem del diccionario.

Lema y Lexema Lematización.- Proceso de asociar los tokens de un texto a su lema correspondiente. Ejemplo Andaría, he andado, anduve,etc: andar Blanca, blanco : blanco Casas, casa, casita, casona,etc.: casa

Raiz y morfema Estructura interna de una palabra: Raíz o tema: significado léxico. Morfema: significado gramatical. Libre ría Carnice ría Cant abamos Luch abamos Casa s

Raiz y morfema Stemmer: proceso de extracción de la raiz o tema de las palabras de un texto. Ejemplo: Antes: Cantaría en todas las madrugadas Después: Canta en toda la madrugada Se pierden los rasgos morfológicos. Útil, por ejemplo, en recuperación de información, donde la morfología no es relevante. Stemmer de Porter y de Lancaster

Análisis Morfológico Descomponer la palabra en raiz + morfemas : Stemmer: Hermano herman Identificar morfema para interpretación y/o formación de nuevas palabras: casa (lugar para vivir) + s (plural) En-torp-e-cedor-es Obtener el lema asociado Hermano/a hermano Cantaríamos cantar Necesario para acceder a la información del léxico

Análisis Morfológico Formación y derivación de palabras. Composición: unión o concatenación de dos palabras distintas para formar una única Brisa Parabrisas Limpiaparabrisas Derivación: adjunción de morfemas a una raíz para formar una palabras diferente Camión Camionero Cantar Cantante Siglas y Acrónimos Euro..., CAM, etc

Análisis Morfológico PC-KIMMO tagger/análisis morfológico Universidad de Las Palmas de Gran Canaria Maco ++ analizador morfológico español y análisis sintáctico (UPC)

La unidad palabra No se puede definir qué es una palabra. Tokenizaciones Normalización: lema y raíz Lematización Stemmer Más que cadenas separadas por blancos Apariciones en un texto: tokens y types.

Léxico o Diccionario Repositorio de Información linguística estructurado por palabras (lexemas). Recurso básica para la mayoría de tareas de PLN.

Léxico Información que puede estar asociada a cada unidad léxica en un diccionario Categoría gramatical. Información morfológica Información sintáctica Información semántica

Información asociada al Lema Categoría sintáctica: Categorías cerradas determinante, preposición Otras abiertas verbo, adjetivos, nombres,

Información asociada al Lema Información morfológica: Características de concordancia: género, número, persona, tiempo, voz, aspecto, etc. Reglas de flexión y derivación: morfemas. Reglas de formación de las palabras: compuestas y derivadas. Información sintáctica: Subcategorización y patrones sintácticos. Concurrencias y n-gramas.

Información asociada al Lema Información semántica Restricciones de selección: Complementos que rige un verbo Significado léxico Forma Lógica Rol semántico

Representación de la Información Necesidad de representación formal. Estructuras de rasgos (Feature Structures) manzana: Sintáctica: Categoría: nombre Concordancia: Genero: femenino Número: singular... Semántica: manzana(x)

Representación de la Información Necesidad de representación formal Redes (Wordnet): Manzana Hipónimo: Manzana Golden Hiperónimo: Fruto

Representación de la Información Actualmente los léxicos se desarrollan junto a ontologías (Niremburg & Raskin 2004): Ontología: Estructurado por conceptos Supra-lingüístico. Léxico: Información propia de cada lengua. Estructurado por palabra

Adquisición de la Información Fuentes de información léxica Humanos Recursos léxicos estructurados Recursos léxicos no estructurados Recursos híbridos

Adquisición de la Información Procedimiento de extracción de información léxica Construcción manual: Precisión. Adquisición automática a partir de recursos léxicos preesxistentes: Cobertura Procedimiento híbridos

Adquisición de la Información Recursos desarrollados por humanos: Wordnet.- Información Semántica CYC Ontology.- 100 000 términos Ontología semántica Linguistic String Project.- Información léxica para 10000 entradas Comlex.- Información sintáctica 38000 palabras en inglés LDOCE3-NLP.- Diccionario con 80 000 termino

Adquisición de la Información Recursos léxicos estructurados Diccionarios electrónicos monolingües: LDOCE Diccionario para estudiantes. 35.956 entradas y 76.059 definiciones. 86% de códigos semánticos y 44% de pragmaticos. Diccionarios electrónicos bilingües Collins Spanish/English (Knigth & Luk 94) Vox/Harrap s Spanish/English (Rigau 98) Vocabulario controlado de 2.000 palabras para evitar circularidad.

Adquisición de la Información Recursos léxicos estructurados Diccionarios electrónicos bilingues Enciclopedias Encarta (Richardson et al. 98) Wikipedia Otros Guías telefónicas, etc.

Adquisición de la Información Recursos léxicos no estructurados Corpus: WSJ Brown Corpus SemCor 3LB

Adquisición de Información Ventajas uso de diccionarios y recursos estructurados: Precisión La información ha sido validada por que es en principio correcta. Desventaja: Muchos de estos recursos no han sido creados para tareas de PLN, por lo que presentan problemas específicos. Ejemplo: ambigüedad de las definicion

Adquisición de Información Ventajas uso corpus Muestra la información tal cual la usan los habitantes sin estar mediatizada por humanos Muestra las palabras en su contexto Permite adquirir información estadística Desventaja Mucha información linguistica es dificil de extraer al estar implícita (categorías gramaticales, sentidos)

Análisis léxico Acceso desde cualquier módulo al léxico, según la información que necesite (semántica, sintáctica, categorial, etc.) Siempre que se trate de información asociada a una unidad léxica

Análisis léxico Análisis morfológico: forma de la palabra, derivación, etc Análisis léxico-categorial: categoría de la palabra PoS taggers Análisis léxico-semántico: significados y sentidos Resolución de la ambiguedad de las palabras o Word Sense Disambiguation (WSD)

N-gramas Modelos del Lenguaje

Modelos Probabilisticos del Lenguaje La meta de hoy: asignar una probabilidad a una frase Traducción de Maquina P(vientos fuertes esta noche)>p(vientos grandes esta noche) Corrección Ortográfica La Oficina esta cerca 15 minuetos de mi casa P(cerca 15 minutos de) > P( cerca 15 minuetos de) Reconocimiento del Habla P(I saw a van) >> P( eyes awe of an) Resúmenes automáticos, Preguntas-Respuestas

Modelos Probabilisticos del Lenguaje Meta: Calcular la probabilidad de una frase o secuencia de palabras: P(W)=P(w1,w2,w3,w4,w5...wn) Tarea Relativa: Probabilidad de una palabra proxima. P(w5 w1,w2,w3,w4) Un modelo que calcule: P(W) o lenguaje Mejor: Gramatica P(w5 w1,w2,w3,w4) es llamado modelo de Pero el modelo de lenguaje es un standard

Como calcular P(W) P(su,agua,es,tan,transparente,que) Intuición: Regla de la cadena de la probabilidad Recordando: P(A,B,C,D)=P(A)P(B A)P(C A,B)P(D A,B,C) La regla general de la cadena

La regla de la cadena aplicada para calcular la probabilidad conjunta de palabras en una frase P( su agua es tan transparente que )= P(su)*P(agua su)*p(es su agua)*p(tan su agua es)*p(transparente su agua es tan)

Como estimar estas probabilidades? Podríamos contar y dividir? P(el su agua es tan transparente que)= Count(su agua es tan transparente que el) Count(su agua es tan transparente que) No, son muchas frases posibles Nunca veremos suficientes datos para estimar estos

Suposición de Markov Suposición simplificada P(el su agua es tan transparente que) P(el que) o tal vez P(el su agua es tan transparente que) P(el transparente que)

Suposición de Markov En otras palabras, aproximamos cada componente en el producto.

Estimando Probabilidades de Bigramas

Ejemplo

Ejercicio Jugadores del equipo de futbol Tiburones Rojos de Veracruz realizaron este viernes una importante visita al Hospital Regional de Veracruz, como parte del acercamiento que la plantilla mantiene con sus aficionados. Edgar Melitón Hernández, Daniel Villalva y Leiton Jiménez, asistieron a dicho centro de salud, atendiendo el llamado de dos aficionados del equipo, quienes el pasado jueves sufrieron un lamentable accidente carretero cuando se dirigían al entrenamiento vespertino del equipo en los campos de la Finca Junior. Los Tiburones Rojos fueron recibidos por los doctores Roberto Ventura Zepeda y Roberto Carlos Muñoz Joachín, quienes guiaron a los futbolistas hasta los dormitorios en que los fieles seguidores de nuestro equipo son reportados afortunadamente como fuera de peligro. Calcular P(Tiburones de) P(Rojos Tiburones) P(Tiburones Los)

Part-of-Speech Tagging Tal vez todo comenzó con Aristóteles en (384-322 ac), tuvo la idea de dividir una oración en partes para su análisis. Categorías lexicales, clases de palabras, tags. Viene de Dionisio de Traxia de Alejandría (100 AC) la idea de que todavía está con nosotros que hay 8 partes del discurso

Clases Abiertas vs Cerradas Clases Cerradas Artículos: un, una, el, la,... Pronombres: yo, el, ella Preposiciones: a, ante, bajo, cabe Clases Abiertas: Nombres, Verbos, Adjetivos, Adverbios

Etiquetado POS Las palabras con frecuencia tienen mas de un POS: back he back door = JJ On my back=nn Win the voters back = RB Promised to back the bill = VB

POS Tagging El método mas usado: Diccionario Input: Plays well with others Ambiguity: NNS/VBZ UH/JJ/NN/RB IN NNS Output: Plays/VBZ well/rb with/in others/nns

Etiquetado Gramatical En linguística computacional, el etiquetado gramatical (conocido también por su nombre en inglés, part-of-speech tagging, POS tagging o POST) es el proceso de asignar (o etiquetar) a cada una de las palabras de un texto su categoría gramatical Este proceso se puede realizar de acuerdo con la definición de la palabra o el contexto en que aparece, por ejemplo su relación con las palabras adyacentes en una frase, oración, o en un parrafo. Uno de los usos de este etiquetado tiene lugar en el contexto de la linguística computacional, mediante el empleo de algoritmos que realizan el etiquetado mediante etiquetas descriptivas predefinidas.

Modelo de Máxima Tarea Entropia