Procesamiento del Lenguaje Natural para recuperación de información



Documentos relacionados
Introducción. Metadatos

Buscadores basados en agentes inteligentes

Componentes de los SBC

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Capítulo 6. Desarrollo del Software


Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Aprendiendo con las redes sociales

UNIDAD I: LÓGICA PROPOSICIONAL

Computing, nuevos horizontes para

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

Mesa de Ayuda Interna

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

forma de entrenar a la nuerona en su aprendizaje.

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Grado en Ingeniería Informática

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

CAPITULO VI CONCLUSIONES. Al haber analizado los conceptos presentados en este trabajo, pudimos llegar a la

Alberto Marcano Díaz

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Competencias generales vinculadas a los distintos módulos Módulo de Formación Básica

El objetivo principal del presente curso es proporcionar a sus alumnos los conocimientos y las herramientas básicas para la gestión de proyectos.

Gestión de proyectos

QUE TIPO DE TRADUCCION NECESITO? Nosotros le ayudamos a definir el tipo de traducción que se ajusta a sus necesidades.

Unidad 1. Fundamentos en Gestión de Riesgos

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Capitulo I. Introducción

Capítulo VI. Diagramas de Entidad Relación

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Ejemplos básicos de webmathematica para profesores

ANALIZANDO GRAFICADORES

Métodos Heurísticos en Inteligencia Artificial

understanding documents Digitalización y Captura Inteligente de Documentos

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capitulo III. Diseño del Sistema.

POSICIONAMIENTO WEB. Una web sin posicionamiento tiene muy limitado el tráfico y una página web sin tráfico es comercialmente inútil.

Cuadernillo ALUMNO 7 0 básico. Matemáticas

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

Mediante la aplicación de la metodología a los datos disponibles para este estudio, esta

CAPÍTULO 2 DEFINICIÓN DEL PROBLEMA

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

Qué necesito saber para tener mi sitio web en Internet?

Indicaciones específicas para los análisis estadísticos.

ESTUDIAR MATEMATICA EN CASA

Arquitectura de Aplicaciones

SECUENCIA DIDACTICA ADAPTADA

Descripción y tablas de especificaciones de las pruebas formativas. Área Matemática 2015

Guía de cursos de aprendizaje en línea. M0: Guía del curso

Para comprender las evaluaciones educativas Fichas didacticas

Sistemas de Información Geográficos (SIG o GIS)

ing Solution La forma más efectiva de llegar a sus clientes.

Test de Idioma Francés. Manual del evaluador

La Web Semántica como herramienta para e-learning

CÓMO TRABAJAR LOS CONTENIDOS LINGÜÍSTICOS. UNA GRAMÁTICA COMUNICATIVA Y MOTIVADORA PARA LA CLASE DE ELE. Blas Martínez Salido (Editorial SGEL)

GUÍA SOBRE RECONOCIMIENTO DE PRÁCTICAS ACADÉMICAS EXTERNAS EN LA ETSII DE LA UPCT PARA TITULACIONES DE GRADO Y MÁSTER CON ATRIBUCIONES PROFESIONALES

INTRODUCCION A LA PROGRAMACION DE PLC

Manual para la utilización de PrestaShop

DISEÑO DE INDICADORES DE DESIGUALDAD SOCIAL EN LAS CIUDADES.-

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Este instructivo ha sido ordenado de manera tal de ir explicando las distintas secciones, que son las siguientes:

CONTRATAS Y SUBCONTRATAS NOTAS

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

ESTIMACIÓN. puntual y por intervalo

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

GENERACIÓN DE CÓDIGO

ING. YIM APESTEGUI FLORENTINO

Proyecto Scratch:

LOS RECURSOS PARA EL TRABAJO Y LOS APRENDIZAJES INVOLUCRADOS PRINCIPALES APRENDIZAJES EN JUEGO

BÚSQUEDA AVANZADA EN INTERNET

Capítulo 1 Documentos HTML5

Lo que miden los niveles de dominio

XIII Jornadas de Enseñanza Universitaria de la Informática Teruel, 2007

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Objeto del informe. ALUMNO 1 Página: 1

1. INTRODUCCIÓN 1.1 INGENIERÍA

Análisis de aplicación: Virtual Machine Manager

Este documento se distribuye bajo los términos de la licencia Creative Commons by sa. sa/2.

Workflows? Sí, cuántos quiere?

6 M. C. J. A G U S T I N F L O R E S A V I L A

Instructivo de uso vfound Easy SEO v1.5.5

5. Experimentos y Resultados

4 m. Sabemos que las caras de las pirámides son proporcionales. Los triángulos son equiláteros y la base es un cuadrado.

1. Objetivos. 2. Idea Principal. Teoría de Autómatas y Lenguajes Formales. Boletín de Autoevaluación 3: Cómo se minimiza un AFD?.

Guía para comparar presupuestos de Traducción

SÍNTESIS Y PERSPECTIVAS

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

PUBLICACIÓN INFORMATIVA DE LA ASOCIACIÓN ESPAÑOLA DE FINANCIEROS DE EMPRESA N 64. MARZO

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Base de datos en Excel

Búsqueda booleana en Internet

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Programa de trabajo para Escuelas Asociadas

Programa de Evaluación del estado de Nueva York Contenidos Básicos Comunes de 3.º a 8.º Evaluación de Artes del idioma inglés

1 de cada 5 ticos usa redes Sociales

Trabajo lean (1): A que podemos llamar trabajo lean?

Transcripción:

1 de 8 19/03/2007 18:19 free web hosting free hit counter report abuse THE FRUIKIS The brain never dream s Home Procesamiento del Lenguaje Natural para recuperación de información Introducción Procesadores de lenguaje natural Modelos ocultos de Markov Algoritmo de Viterby Introducción En el último congreso internacional sobre Web Semántica, celebrado en Osaka, del 18 al 21 del mes pasado, la presencia de aplicaciones centradas en Procesamiento de Lenguaje Natural (PLN) fue más que notable. De hecho, Gate, una conocida aplicación para ingeniería lingüística diseñada en la universidad de Sheffield, fue una de las estrellas invitadas al figurar referenciada en un buen número de los trabajos presentados al congreso. Ahora bien, la utilidad del procesamiento natural del lenguaje para la implementación de una Web Semántica, no es un descubrimiento de este año. En el pasado 2004, Ricardo Baeza-Yates firmo un interesante trabajo sobre la aplicación de técnicas de procesamiento del lenguaje natural para la Recuperación de Información donde proponía a la Web Semántica como una de las principales aplicaciones prácticas de técnicas convinadas de PLN(procesamiento del lenguaje natural) y RI(recuperación de información). Muchos pueden argumentar que el propio padre de la idea defiende que la Web Semántica no es una Web basada en técnicas pertenecientes al área de Inteligencia Artificial (IA), pero esto no significa que no podamos utilizar estas técnicas como base y apoyo para la implementación de su idea, ya que, más allá de rencillas de carácter académico, todo lo que nos ayude a hacer realidad una nueva Web es útil independientemente de conceptualizaciones de carácter teórico. Hay que tener en cuenta que, hoy por hoy la Web Semántica no existe como tal, más allá de implementaciones puntuales de carácter experimental. El hecho de que exista pasa inexorablemente por la generación de contenidos web semánticos que den cuerpo a la idea de una web más organizada. La generación de contenidos de carácter semántico no es asimilable de forma manual por lo usuarios y autores de la Web, por lo que es necesario la automatización de todas, o por lo menos parte de las tareas de generación de contenidos web semánticos. Es aquí donde el PLN y la RI tienen mucho que aportar, ya que permiten la implementación de aplicaciones capaces de generar información de tipo semántico que dote de cuerpo a la Web Semántica y la conviertan en una realidad.

2 de 8 19/03/2007 18:19 Analizadores sintácticos, que permitan comprender la estructura de las frases de forma automática, etiquetadores léxicos, reconocedores de entidades como nombres, fechas lugares, todas ellas son herramientas automáticas esenciales para la generación de contenidos web semánticos, es más, me atrevo a decir que sin ellas no es posible una web semántica real, ya que el coste de elaboración manual de contenidos semánticos no es asimilable desde ningún punto de vista. Procesadores de lenguaje natural Como mencionamos anteriormente el Lenguaje Natural(LN) es el medio que utilizamos de manera cotidiana para establecer nuestra comunicación con las demás personas Este tipo de lenguaje es el que nos permite el designar las cosas actuales y razonar a cerca de ellas, fue desarrollado y organizado a partir de la experiencia humana y puede ser utilizado para situaciones altamente complejas y razonar muy sutilmente. La riqueza de sus componentes semánticos da a los lenguajes naturales su gran poder expresivo y su valor como una herramienta para razonamiento sutil. Por otro lado la sintaxis de un LN puede ser modelada fácilmente por un lenguaje formal, similar a los utilizados en las matemáticas y la lógica. Otra propiedad de los lenguajes naturales es la polisemantica, es decir la posibilidad de que una palabra en una oración tenga diversos significados. En un primer resumen, los lenguajes naturales se caracterizan por las siguientes propiedades: 1. 2. 3. Desarrollados por enriquecimiento progresivo antes de cualquier intento de formación de una teoría. La importancia de su carácter expresivo debido grandemente a la riqueza del componente semántico(polisemantica). Dificultad o imposibilidad de una formalización completa. Las aplicaciones del Procesamiento de Lenguajes Naturales son muy variadas, ya que su alcance es muy grande, algunas de las aplicaciones del PLN son: Traducción automática: se refiere más que nada a la traducción correcta de un lenguaje a otro, tomando en cuenta lo que se quiere expresar en cada oración, y no solo palabra por palabra. Una aproximación a este tipo de traductores es el babylon. Recuperación de la información: en esta aplicación, un claro ejemplo seria el siguiente: Una persona llega a la computadora y le dice(en LN) que es lo que busca, esta busca y le dice que es lo que tiene referente al tema.

3 de 8 19/03/2007 18:19 Extracción de Información y Resúmenes: Los nuevos programas, deben tener la capacidad de crear un resumen de un documento basándose en los datos proporcionados, realizando un análisis detallado del contenido y no solo la truncando las primeras Lineas de los párrafos. Resolución cooperativa de problemas: La computadora debe tener la capacidad de cooperar con los humanos para la solución de problemas complejos, proporcionando datos e información, incluyendo también, la demanda de información por parte del ordenador al usuario, debiendo existir una excelente interactividad entre el usuario y el ordenador. Tutores inteligentes: La aplicación del PLN en este aspecto, vienen por computadora, debiendo esta ser aprox. en un 99%, al tener esta la capacidad de evaluar al educando y tener la capacidad de adaptándose a cada tipo de alumno. Reconocimiento de Voz: Esta es una aplicación del PLN que más éxito ha obtenido en la actualidad, ya que las computadoras de hoy ya tienen esta característica, el reconocimiento de voz puede tener dos posibles usos: para identificar al usuario o para procesar lo que el usuario dicte, existiendo ya programas comerciales, que son accesibles por la mayoría de los usuarios, ejemplo: ViaVoice. Para continuar nuestro estudio de los lenguajes naturales, es necesario el que conozcamos los niveles del lenguaje, los cuales serán utilizados para la explicación de el siguiente tema que es la Arquitectura de un sistema de PLN. Los niveles de lenguaje que daremos a conocer son los siguientes: fonológico, morfológico, sintáctico, semántico, y pragmático. Nivel Fonológico: trata de cómo las palabras se relacionan con los sonidos que representan. Nivel Morfológico: trata de cómo las palabras se construyen a partir de unas unidades de significado mas pequeñas llamadas morfemas. Nivel Sintáctico: trata de cómo las palabras pueden unirse para formar oraciones, fijando el papel estructural que cada palabra juega en la oración y que sintagmas son parte de otros sintagmas. Nivel Semántico: trata del significado de las palabras y de cómo los significados se unen para dar significado a una oración, también se refiere al significado independiente del contexto, es decir de la oración aislada. Nivel Pragmático: trata de cómo las oraciones se usan en distintas situaciones y de cómo el uso afecta al significado de las oraciones. Se suele reconocer un subnivel recursivo: discursivo, que trata de cómo el significado de una oración se ve afectado por las oraciones inmediatamente anteriores.

4 de 8 19/03/2007 18:19 La explicación a la arquitectura mostrada para los sistemas PLN es sencilla: 1. El usuario le expresa a la computadora que es lo que desea hacer. 2. La computadora analiza las oraciones proporcionadas, en el sentid morfológico y sintáctico, es decir, si las frases contienen palabras compuestas por morfemas y si la estructura de las oracioneses correcta. 3. El siguiente paso, es analizar las oraciones semánticamente, es decir saber cual es el significado de cada oración, y asignar el significado de estas a expresiones lógicas. 4. Una vez realizado el paso anterior, ahora podemos hacer el análisis pragmático de la instrucción, es decir una vez analizadas las oraciones, ahora se analizan todas juntas, tomando en cuenta la situación de cada oración, analizando las oraciones anteriores, una vez realizado este paso, la computadora ya sabe que es lo que va a hacer, es decir, ya tiene la expresión final. 5. Una vez obtenida la expresión final, el siguiente paso es la ejecución de esta, para obtener así el Resultado y poder proporcionárselo al usuario. Uno de los grandes problemas del PLN se produce cuando una expresión en lenguaje natural posee más de una interpretación, es decir, cuando en el lenguaje de destino se le pueden asignar dos o más expresiones distintas. Este problema de la ambigüedad se presenta en todos los niveles del lenguaje, sin excepción. Ejemplo: "Juan vio a María, con el telescopio" "Juan vio a María con el telescopio" En apariencia este problema es demasiado sencillo, pero en realidad, es uno de los mas complicados y que más complicaciones ha dado para que el PLN pueda desarrollarse por completo, ya que al presentarse en todos los niveles del lenguaje, se tienen que desarrollar programas( en lenguaje formal) para solucionarlos en cada caso. Entre las técnicas inductivas aplicadas para resolver estas tareas de desambiguación se puede encontrar el aprendizaje basado en ejemplos, aprendizaje basado en reglas de transformación, inferencia gramatical, y aproximaciones estadísticas basadas en modelos de máxima entropía o en modelos de Markov. Estos últimos se han utilizado ampliamente en el campo del reconocimiento automático del habla tanto para el modelado acústico como para la construcción de modelos del lenguaje para el reconocimiento, tanto de palabras aisladas, como del discurso continuo. El éxito en estos sistemas y la disponibilidad de recursos ha permitido su extensión a los sistemas de PLN. Para poder llevar a cabo otras tareas de desambiguación en PLN utilizando modelos de Markov es necesario abordar cada una de éstas como problemas de etiquetado. Además del etiquetado morfosintáctico, otros problemas como son el análisis sintáctico supercial o la desambiguación del sentido de las palabras, también pueden reducirse a un problema de etiquetado. Por

5 de 8 19/03/2007 18:19 ejemplo, en la tarea de análisis supercial o chunking, el análisis de una oración puede representarse mediante etiquetas que indican a qué sintagma pertenece una palabra. En este caso, la secuencia de observaciones pueden ser etiquetas morfosintácticas y los estados del modelo representan etiquetas de sintagma o de chunk. En caso de considerarse un análisis más complejo, como es el caso de la detección de cláusulas, pueden utilizarse etiquetas estructuradas que marquen el nivel de anidamiento de la palabra dentro del análisis. La desambiguación semántica puede verse como la asignación de la secuencia más probable de etiquetas semánticas (o sentidos) a las palabras de una oración. Modelos ocultos de Markov Los modelos ocultos de Markov fueron desarrollados por A. Markov en 1913 para modelizar secuencias de palabras en ruso y en la actualidad se usan como herramienta estadística de propósito general. Se formaliza la etiquetación como un proceso doblemente aleatorio parametrizable (los parámetros se pueden estimar de forma precisa en el entrenamiento) en el que el modelo del lenguaje es representado por un autómata finito probabilista. El modelo de comunicación este representado por la probabilidad de emisión de una palabra en un estado dado (la probabilidad de la palabra depende s olo de la etiqueta), la descripción General del sistema se modeliza como un conjunto finito de estados, en el que pasado un intervalo de tiempo, el sistema cambia de estado de acuerdo a unas probabilidades asociadas a las transiciones entre estados. Dos tipos de modelos: Modelos Visibles: Cada estado tiene asociado un unico proceso observable. La salida del estado no es aleatoria. Modelos Ocultos: En cada estado hay varios tipos de observaciones con diferentes probabilidades. Modelo doblemente aleatorio: a) trasiciones entre estados b)observaciones asociadas. Uno de los procesos no es observable directamente Ejemplo: Tenemos una serie de urnas en las que hay bolas de diferentes colores. No conocemos cuantas bolas de cada color hay en cada urna. P(color 1) = b11 Lema 1...

6 de 8 19/03/2007 18:19 Lema N P(color M) = b1m... P(color 1) = bn1 P(color M) = bnm... Urnas = Estados Color = Observación Distintas probabilidades de cada color en cada urna.selección de urnas de acuerdo a las probabilidades de cada transición.única salida observable: un conjunto de colores.queremos saber cual es la secuencia de urnas más probable dada una secuencia de colores. Para modelizar etiquetas en PLN: Estados = Etiquetas (Urnas) Observaciones = Palabras (Colores) Secuencia de Observaciones = Frases del texto Instantes de tiempo = Posiciones dentro de la frase Es posible una misma palabra (color) en distintas etiquetas (urnas), lo que da lugar a ambigüedades. El mismo color (palabra) puede aparecer más de una vez en cada urna, (etiqueta) dando lugar a distintas probabilidades de emisi ón de palabras en cada etiqueta. El algoritmo de Viterbi El algoritmo de Viterbi fue inicialmente desarrollado para encontrar, dada una secuencia de símbolos, la serie de transiciones más probable entre los estados de una cadena de Markov necesaria para producir dicha secuencia. Este problema es el equivalente markoviano al análisis sintáctico en una gramática regular estocástica. El algoritmo de Viterbi es un caso particular del algoritmo de Programación Dinámica utilizado para encontrar un camino extremal en un grafo multietapa. Al igual que en el caso del análisis sintáctico para gramáticas regulares no deterministas, se recurre a un trellis, pero en este caso se define la función peso, no el dominio de los booleanos, sino en el intervalo [0..1], puesto que ahora representa la probabilidad de una regla o transición: [rho]( (j-1,u), (j,q) ) [propersubset] [0..1] y se sustituyen respectivamente las funciones "extremiza" por "max" y [circlemultiply] por el producto:

7 de 8 19/03/2007 18:19 C(j,q) = Al final del proceso C(n, Q ) nos proporciona la probabilidad (de máxima verosimilitud) de que la cadena analizada pertenezca al lenguaje de la gramática. Referencias interesantes: http://gate.ac.uk/conferences/iswc2003/ http://gate.ac.uk/semweb.html http://www.cc.gatech.edu/ccg/iswc05/ http://coleweb.dc.fi.udc.es/docencia/ln/ http://www.uantof.cl/facultades/csbasicas/matematicas/academicos/emartinez/magister/markov/markov.pdf http://www.dsic.upv.es/docs/bib-dig/tesis/etd-11262003-123346/tesisantoniomolina.pdf Descargas: Procesamiento del Lenguaje Natural para recuperación de información. Fecha ultima actualizacion: 18 de Abril de 2.007 Otros artículos de interes Evaluación de Buscadores Web Sistemas de Question-Answering Metadatos y documentos XML/RDF para recuperación Lenguajes de recuperación para la Web I Lenguajes de recuperación para la Web II Bases de datos nativas en Internet y sistemas para almacenar y recuperar documentos HTML, RDF y XML Modelos de recuperación I Motores de recuperación de documentos XML/RDF Usabilidad y Accesibilidad en el posicionamiento y en la recuperación de información, Extracción de información, Extracción y recuperación de información I Extracción y recuperación de información II Extracción y recuperación de información III Ontologías de metadatos y su fusión y mapeados de ontologías -> Minería de Textos

8 de 8 19/03/2007 18:19 Autor: Alberto Martínez Mena Tienes alguna duda, consulta o sugerencia? Móndanos un email. Búsqueda Google