S.E.I.T. cenidet. GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO



Documentos relacionados
Introducción. Metadatos

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Elementos requeridos para crearlos (ejemplo: el compilador)

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

Administración del conocimiento y aprendizaje organizacional.

Capítulo 5. Cliente-Servidor.

Buscadores basados en agentes inteligentes

Unidad II. - Las técnicas en las que se basó, las categorías de análisis o ejes centrales que permiten guiar el proceso de investigación.

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

O jeto de apre r ndizaje

5.2. PROYECTO RODA. (6/07/04).

<Generador de exámenes> Visión preliminar

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Diseño orientado a los objetos

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Mesa de Ayuda Interna

Capitulo III. Diseño del Sistema.

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

Capítulo 2. Planteamiento del problema. Capítulo 2 Planteamiento del problema

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Sistema de Mensajería Empresarial para generación Masiva de DTE

Arquitectura de Aplicaciones

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

La Web Semántica como herramienta para e-learning

comunidades de práctica

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Arquitectura Básica CÍCLOPE CMS

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Sistemas de Gestión de Calidad. Control documental

CENTENARIA Y BENEMÈRITA ESCUELA NORMAL DEL ESTADO DE QUERETARO ANDRES BALVANERA UNIDAD JALPAN SEMINARIO DE ANALISIS Y TRABAJO DOCENTE

Capítulo 2. Las Redes Neuronales Artificiales

SERVICE ORIENTED ARCHITECTURE (SOA) CONTENIDO

GENERALIDADES DE BASES DE DATOS

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Workflows? Sí, cuántos quiere?

2.1 Clasificación de los sistemas de Producción.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Usos de los Mapas Conceptuales en Educación

DEPARTAMENTO: Informática. MATERIA: Programación. NIVEL: 1º Desarrollo de Aplicaciones Multiplataforma

Metodología básica de gestión de proyectos. Octubre de 2003

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro

I INTRODUCCIÓN. 1.1 Objetivos

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Capítulo 9. Archivos de sintaxis

Introducción a la Firma Electrónica en MIDAS

Base de datos en Excel

Procedimiento de Sistemas de Información

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Guía de los cursos. Equipo docente:

La tutoría para la dirección de proyectos de investigación. Darder Mesquida, Antònia Universitat de les Illes Balears.

forma de entrenar a la nuerona en su aprendizaje.

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

Novedades. Introducción. Potencia

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

David Erosa García Programador del C.G.A. de la D.G. de Innovación Educativa y Formación del Profesorado. Consejería de Educación, Junta de Andalucía

Base de datos relacional

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Software de Simulación aplicado a entornos de e-learning

Operación Microsoft Windows

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

M.T.I. Arturo López Saldiña

INGENIERÍA DE SOFTWARE. Sesión 3: Tipos

CAPÍTULO 3 VISUAL BASIC

UNIDAD I: LÓGICA PROPOSICIONAL

Ingeniería de Software

SÍNTESIS Y PERSPECTIVAS

Introducción a Protégé

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

CAPÍTULO I INTRODUCCIÓN

Capítulo I. Marco Teórico

Introducción a las redes de computadores

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Práctica de introducción a

XBRL extensible Business Reporting Language. Noviembre / 2014

Capítulo 1. Introducción

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Acerca de esté Catálogo


Trabajo final de Ingeniería

Razones para que un investigador use Twitter

Test de Idioma Francés. Manual del evaluador

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN

Servidores Donantonio

Transcripción:

. Sistema Nacional de lnsliluios Tecnologicos Direccion General de lnsliluio~tecnologicos S.E.P. S.E.I.T. D.G.I.T. '' C E N TR O N A C I O NA L DE I N V E S T I C A C I ~ N Y DE S A RR O LL O T E C N O L ~ G I C O cenidet GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN CIENCIAS DE LA COMPUTACI~N P R E S E N,.T A ROBERTO CARLOS TOLEDO FLANDES Director de Tesis: M.C. José Antonio Zárate Marceleno Co-Director de Tesis: Dr. Rodolfo A. Pazos Rangel CUERNAVACA. MORELOS MARZO 2005

cenidet Centro Nacional de lnvestigacion y Desarrollo Tecnológico Sistema Nacional d e Institutos Tecnologicos Mi0 ACEPTACI~N DEL DOCUMENTO DE TESIS Cuernavaca, Mol-., a 18 de Febrero de 2005 Dr. Cerardo Reyes Salgado Jefe del Departamento de Ciencias de la Computación Presente. At'n Dr. Reiié Saiitaolaya Salgado Presidente de la Academia de Ciencias de la Coniputación Nos es zrato comunicarle, que conforme a los liiieaiiiientos para la obtención del gi-ado de Maestro en Ciencias de este Centro, y después de,haber sometido a revisión académica la tesis titulada: Generación de una ontología de dominio lingüístico para el español, realizada por el C. Roberto Carlos Toledo Flandes, y dirigida por el M.C. José Antonio Zárate Marceleño y el Dr. Rodolfo A. Pazos Rangel, y habiendo realizado las correcciones que le fueron indicadas, acordamos ACEPTAR el documento final de tesis, así mismo le solicitamos tenga a bien extender el correspondiente oficio de autoi-izacióii de itilpresión. Atentamente La Comisión de Revisión de Tesis h. 6".iC/.. Revisor C.C.P. Revisor Subdirección Académica Depaitaiiieiito de Servicios Escolares Directores de tesis Estudiante 'I izález Sema M.C. Mario Guiiléii Rodriguez Revisor

Centro Nacional de Invectigacion cenidet y Desarrollo Tecnologico Sistema Nacional de Institutos Tecnológicos AUTORIZACI~N DE IMPRESI~N DE TESIS MI1 Cuernavaca, Mor., a 18 de Febrero del 2005 C. Roberto Carlos Toledo Flandes Candidato al grado de Maestro en Ciencias en Ciencias de la Computación Presente. Después de haber atendido las iiidicaciones sugeridas por la Coiiiisión Revisora de la Academia de Cieiicias de la Computación en relación a, su trabajo de tesis cuyo titulo es: Generación de una ontología de dominio lingüístico para el español, me es grato comunicarle que confoniie a los liiieariiieiitos establecidos para la obteiiciói i del gad0 de Maestro en Cieiicias en este ceiiti-o se le coiicede la autorizacióii para que proceda cdii la iiiipresióii de su tesis. Ateiitaiiiciite n,, Di-. GerardgReyes Salgado Jefe del Departamento de Ciencias de la Coinputacióii c.c.p. Suhdireccioii Académica I resideiite de la Academia de Ciencias de la Coinputacióii Ilepaitaineiito de Servicios Escolares Ikoedieiite I!

Dedica toria DIOS, que me hace elfavor de iluminarme, dándomefuerza en mis caídas para volverme a Cevantary seguir mi camino alládo de mis seres más queridos. Con iiiucho cariño para inis papás Luíú y Emifio, que me 6rindaii sus mejores consejos y me apoyan incondícionahiiente en Cos 6uenos momentos y no tan 6uenos. mis hermanos @i&,luis, Marcosy a Iapequeña LuCi, porque como hemianos que somos nos hemos apoyado mutuamente y hemos estado juntos para vivir muchos momentosfellces. i m.is hqos DanieCy Diana,a quienes adoro y h han dado un nuevo sign$cado a 1n.ivda, regalandome esas sonrisas que es ecmejor motivo para seguir adehánte. A Lupita, mi compañera que me 6rinda tanto apoyo, amory cariño en este nuevo paso en mi V d a.

Agradecimientos Q u i e r o expresar q u e Iiaii c r e í d o en nii m i más sinccro agradecimiento a t o d a s las persoiias y que d e alguna manera hicieron p o s i b l e q u e este trabajo s e realizara: AI C e n t r o Nacional d e Investigacióii y D e s a r r o l l o T e c n o l ó g i c o, a i o d o el personal q u e labora en esta institución y p o r todo lo q u e en sus aulas y fuera d e e l l a s a p r e n d í. A Cosiiet y SEP por aportar los recursos e c o n ó m i c o s, contribuyendo enoriiieiiiente a la terminación d e esta t e s i s d e Maestría. A mi d i r e c t o r d e tesis, M. C. J o s é Antonio Z á r a t e Marceleño y m i c o d i r e c t o r d e tesis, el Dr. Rodolfo A. Pazos Rangel, por sus c o n t r i b u c i o n e s s i e m p r e acertadas, y el apoyo q u e s i e m p r e iiie brindaron. A m i s revisores M. C. Andrea Magadán S a l a z a r, M. C. J u a n Gabriel González Seriia y al M.C. M a r i o Guillén Rodriguez por su valiosa d i s p o s i c i ó n en l a revisión d e e s t e trabajo d e tesis y p o r s u s acertadas o b s e r v a c i o n e s, q u e 11 i ci e r a n pos i b I e mej o r a r I o. A Isaac, V e g a, May, Isidro, P a c o, Fredy, Xocliitl, M a n u e l, L u i s i l l o, Sheila, Alicia, Ariadna, Y o r c h, Pepe, Alex y R o d r i g a p o r ser m i s c o m p a ñ e r o s d e generación, y q u e j u n t o s supi'mos afrontar el reto d e e s t u d i a r la niaestria, pero lo m á s importante porque se c o n v i r t i e r o n en mis g r a n d e s a m i g o s, q u e dificilniente s e pueden encontrar en esta v i d a. A todos, m u c h a s gracias

i.as interfaces e11 leiiguale natural son una de las mejores alternativas para resolver el problenia de iiiteraccióii Iioiiibre-iiiáqiiiiia; sin embargo. su realización depende en gran iiiedida en el taiiiaiio de la base de coiiociiiiieiito y de su organización. Este proyecto forma parte de uiia tesis doctoral orientada a COIISII~I~S de bases de datos e11 espaiiol. El objeti\lo principal de la tesis doctoral es lograr la portabilidad de ni1 doniiiiio, y para este fin se propotieii dos niecaiiisnios: el uso de oiitologias para la Liase de coiiociiiiieiitos liiigüistica y la división de la base de coiiocinueiitos en una ontologia de dominio genérico y una de dominio especifico. Este trabajo se enfoca en poblar la ontología de dominio genérico. Está se realizó de dos fornias: La priniera fue obtener instancias de uiia serie de archivos de texto, capturados de iiiaiiera iiiaiiual de acuerdo a un forniato especifico (proyecto WordNet), y agregarlos a las clases previaniente definidas de la ontologia de doniiiiio genérico. La ontologia (clases e iiistaiicias) está foriiializada en el leiiguaje de iiiarcado de DARPA (DAML). La segunda forma fue desarrollar in1 procediiiueiito para la obtención de iiistaiicias a partir de textos en formato libre, a traves de nna serie de heii.aniientas desarrolladas en este trabajo y uiia herramienta coiiiercial de análisis de texto. Cabe destacar que el procediniiento anterior, sirve para encontrar patrones que identifican iiistaiicias de relaciones especificas (en yte trabajo de sinonimia y meroiiiiiua), sirve también para la identificación de otras relaciones entre palabras, y las iiistaiicias correspoiidieiires; además, el procedinuento para obtener tales instancias en formato libre peniuie iiicrenieiitar diiiániicamente la ontologia genérica, al analizar un coipus mas grande. Se describe el esquema DAML de la ontologia de doniinio genérico. así como una serie de patroiies que permitieron encoiitrar las instancias e incrementar dicha oiitologia, y de ese modo aumentar la capacidad de la iiiterfaz de leiiguaje natural hacia bases de datos. Finalmente. en esta tesis se analizan tres tipos distintos de documentos (syiisets. diccionario. texto libre) para comprobar el fuiicionaniiento de la lierraniienta. siendo los syiisets los que mejores resultados ofrece. Sin embargo. como trabajo futuro se propone,mejorar algunas de las técnicas y asi lograr resultados nias optimos e11 los dos tipos de docuiiieiitos restantes.

Iiiterfaces in iiatitral language are one of the best alternatives to solve the problelii of niaii-iiiacliiiie iiiteractioii: Iiowever their perforiiiaiice greatly depends 011 the interface's kiio\\,ledge base size alid oryiiizatioii. This pi~oject is part of a doctoral thesis aimed at database querying in Spaiiisli. l'lie Inlain objective ofthe thesis doctoral is to achieve doiiiaiii portability, and to this end two iiiecliaiiisiiis are proposed: the use of ontologies for die linguistic knowledge base and the division of the knowledge base into a generic doiiiaiii and a specific doiiiaiii ontology. imaiii focus of this work is tlie population oftlie generic domain ontology. It is was carried out in two ways: First one was to obtain instances from text files, fornierly captured accordiiil: to a specific format (WordNet project). and to add tlieiii to the classes previously defined of the generic oiitology. The ontology (instances and classes) is formalized in the DARPA Markup ldngiiage(daml). Second way was tlie obtaining of instances íroiii free format texts, tlirougli oí a toolkit developed in this work and a conuiiercial tool of text analysis. It is~iiecessary to Iiiglilight that former procedure, not only is good to find patterns to identify instances of specific relatioiisliips (synonymy, nieronyiny), but also is good to identify other relationships anioiig words, and the corresponding instances, besides. tlie procedure of obtaining text instances in fiee format allows to increase the generic ontology dynamically, by means of aiializiiig a bigger text corpus. The DAML schema of the generic ontology is described, as well as a series of patterns that allowed to find iiistances and io increase tliis ontology, and in that way to increase the capaciiy of the natural language interface. Finally. in this thesis three types different from docunients are analyzed (synsets, dictionary, free text) io check the operation of the tool, being the syiisets those that better results offer. Iiowever, like fuhire work intends to iniprove some of the tcclinical ones and tliis way to achieve better results in tlie two types of reiiiaining documents. i

Tabla de contenido...,..,...... I Lista de figuras... Lista de tablas......,. Glosario de termlnos...,...... V vii vi 1. INTRODUCCIÓN...... 1. l. Antecedentes... 1.2. Planteamiento del problema... 1.3. Objetivo de la tesis.......,...........,........... 1.4. Alcances y limitaciones... 1.5. Organización de la tesis......... 2. MARCO TEÓRICO... 2.1. Sistemas expertos... 2.1.I. Importancia de los sistemas expertos... 2.1.2. Creación de los sistemas expertos...... 2.2. Ontologias... 2.2.1. Componentes de la ontologia... 2.2.2. Lenguajes para especificación de ontologías...... 2.3. Extracción de la información..... 2.3.1. Componentes tipicos de un sistema de extracción de información.............................,....,. 2.4. Mineria de datos... 2.5. Mineria de textos... 2.6. Redes neuronales...,...... 8 9 10 10 11 12 12 15 16 17 19 20 I

3, ESTADO DEL ARTE... ~ " " ~ ~ ' " " ' ~ " " ~ " ' ~ ~ ' 3.1, Repositorios de palabras 23 ' ~ ' ~ ~ ~... 3.1.1. Diccionarios.,.,.....,.,..,...........,............................................... 3.1.2. WordNet......... 3.1.3. EuroWordNet... :,... ~'"""~'""''""'''~ 3.2. Recopilación de información,......... 3.2.1. Recuperación de archivos de texto.~... 3.3. Obtención de información...... 3.3.1. Herramientas de mineria de datos...,.. 25 " ~ " " " ~ ~ " ~ ' ~ ' ~ ~ ~ " ' " " 22 23 23 24 24 24 25 3.3.2. Trabajos relacionados...... 3.3.3. Trabajos con técnicas de mineria de datos... 3.3.4. Trabajos con técnicas de mineria de texto... 3.3.5. Trabajos sobre descubrimiento de relaciones... 3.4. Trabajos en la generación de ontologias... 3.5. Comentarios del capitulo... 20 29 29 30 32 33 4. ANÁLiSiS Y SOLUCIÓN CONCE,PTUAL DEL PROBLEMA... 4.1. Descripción general de la problemática... 4.2. Diseño general de la propuesta de solución... 4.2.1. Módulos de la plataforma......,......,,...,...,.,..... 4.2.1.1. Módulo de "preprocesamiento de la información"... 4.2.1.2. Módulo de "búsqueda de relaciones"... 4.2.1.3. Módulo de '"depuración".......................... 4.2.1.4. Módulo "interprete".....,,,,,,,,,,.,...,...,..,...,......,..,..,.... 4.2.1.5. Módulo de "creación de ontologia"... 4.3. Comentarios del capitulo..........,......... 35 36 37 39 39 40 41 42 43 44 5. DISEÑO E IMPLEMENTACI~N.DEL PROTOTIPO... 45 5.1. Casos de uso......,..................,. 5.1.1. Diagrama de casos de uso para información sin procesar... 46 46

5.1.2. Diagrama de casos de uso para información procesada... 5.2. Diagrama de actividad..... 5.3, paquetes desarrollados...... 5.4. Descripción de modulos... 5.5. Tecnologias utilizadas...... 5.5.1. DAML + OIL 5.5.2. Jena......... 5.6. Comentarios del capitulo... 48 51 54 55 56 56 57 57 6. PRUEBAS...... 6.1. Herramientas utilizadas......... 6.1.1. JBuilder Enterprise... 6.1.2. JDK...... 6.1.3. Recursos técnicos utilizados... 6.1.4. Jena......... 6.2. Escenarios de prue... 6.3. Plan de pruebas...... 6.4. Evaluación experimental...... 58 59 59 59 59 59 61 62 63 6.5. Comentarios del capitulo...... 74 7. CONCLUSIONES...,,,,,,.,,,.,.,,,,,,.,,,,,,..,,,,,,,,.... 75 7.1. Conclusiones........... 76 7.2. Beneficios......... 77 7.3. Trabajos futuros...,,,,,,,,,,,,,,,,,,,,,,... 77... 111

REFERENCIAS...... I... I ANEXO A INSTALACIÓN DEL MARCO DE APLICACIONES JENA... 78 82 ANEXO B DOCUMENTO A ANALIZAR'...... 86 ANEXO C ONTOLOGiAS EN DAML... 87 ANEXO D SYNSET... ANEXO E SYNSET EN DAML... 89 91 iv

Figura 1.1 Figura 2.1 Figura 2.2 Figura 2.3 Figura 3.1 Figura 3.2 Figura 3.3 Figura 3.4 Figura 3.5 Figura 3.6 Figura 4.1 Figura 4.2 Arquitectura de la interfaz en lenguaje natural hacia base de datos...... Componentes de un sistema de información... Estructura general de la mineria.de datos..... Tareas que conforman el proceso de descubrimiento de conocimiento......... Entorno de trabajo de la herramienta Statistica Data Miner 6.0 Demo... Entorno de trabajo de la herramienta PolyAnalyst 4.5... Entorno de trabajo de la herramienta TextAnalyst 2.1... Ejemplos de patrones sintácticos para hipónimos... Patrones sintácticos para hipónimos y merónimos... Arquitectura para el aprendizaje de ontologias para la Web semántica...... Modelo conceptual de la plataforma... M Ó d u I o "Prep ro ce s a m'ie n t o de I a I n f o r m a c i ó n" 3 16 17 18 26 27 28 30 31 33 37 39 Figura 4.3 Módulo "Búsqueda de Relaciones"...... 40 Figura 4.4 Figura 4.5 Figura 4.6 Figura 5.1 Figura 5.2 Figura 5.3 Figura 5.4 Mod u I o 'ID e p u ra c i ó n "...... M ód u I o "Interpret e"... Módulo "Creación de Ontologia"... Diagrama de casos de uso para la creación de ontologias a partir de texto libre... Diagrama de casos de uso para la creación de ontologias a partir de synsets... Diagrama de actividad del caso de uso "Analizar Corpus"... Diagrama de caso de uso de "Generar DAML" 42 43 44 46 46 52 53 V

Figura 5.5 Figura 5.6 Figura 5.7 Figura 5.8 Figura 6.1 Figura 6.2 Figura 6.3 Figura 6.4 Figura 6.5 Figura 6.6 Figura 6.7 Figura a.1 Figura a.2 Figura a.3 Figura a.4 Figura f.1 Figura f.2 Figura f.3 Figura f.4 Figura f.5 Figura f.6 Figura f.7 Clases del paquete ontogen... Clases del paquete generada... Clases de\ paquete escribedaml...... Clases del paquete synset......,. Escenario de prueba 1... Escenario de prueba 2...... Preprocesamiento del documento.,.......,......,....................... Ejemplares relacionados encontrados... Depuración de ejemplares... Ontologia final......... Documento codificado.en DAML a partir de synsets... Abrir ventana de propiedades del proyecto... Ventana de Propiedades del proyecto... sekcción de la biblioteca... Asistente para agregar biblioteca... Patrón para sustantivo-sustantivo.. Patrón para sustantivo-adjetivo... Patrón alterno para sustantivo-adjetivo,..,,,,,..,,,,,,,,.,.,,,,,.., Patrón para verbo-verbo...... <.. Patrón para sustantivo-verbo Patrón alterno para sustantivo-verbo... Patrón para alterno para sustantivo-sustantivo...,,,,,,.,,,,,,,,,,,.,.,..,,,..,,, 54 54 55 55 61 62 64 66 68 70 72 82 83 84 85 93 93 94 94 95 95 96 vi

Tabla 3.1. Tabla 6.1. Tabla comparativa de proyectos... Características del corpus... 60 Tabla 6.2. Características del lexicon... 60 Tabla 6.3 Características del texto,libre..., 61 Tabla 6.4. Plan de pruebas......... 62

Anáfora. Repetición. Arcaismo. Frase o palabra anticuada. Empleo de frases o palabras anticuadas Base de conocimiento. Colección de conocimiento que se utiliza para resolver problemas o hacer recomendaciones Caló. Lengua propia de la raza gitana. Algunos de cuyos términos han pasado al habla popular Elipsis. Figura de construcción que consiste'en suprimir en la oración aquellas palabras que no son indispensables para la claridad de la misma. Qué tal?. Asi, as. Y aquello, qué? Son oraciones elipticas. Hiperonimia. Relación de significados de un hiperónirno con respecto a sus hipónimos Hiperónimo. Palabra cuyo significado incluye al de otra u otras; p. ej. pájaro respecto a jilguero y gorrión, Hiponimia. Relación de significado de un hipónimo respecto a su hiperónimo. Hipónimo. Palabra cuyo significado esta incluido en el de otra; p. ej., gorrión respecto a pájaro Meronimia. Es la relación semántica entre una unidad lexica que denota una parte y lo que denota el correspondiente todo, p ej, brazo es parte de cuerpo humano Polisemia. Pluralidad de significados de una palabra

CAPITULO 1 INTRoDUCCION INTRODUCCI~N.. En este Capitulo se explica el contexto del trabajo, incluyendo los antecedentes, la problemática, el objetivo y los alcances, así como la organización del documento. 1

CAPITULO 1 INTRoDUCCION 1.I. Antecedentes Desde el origen del World Wide Web (WWW), su crecimiento en todo el mundo se ha incrementado de forma considerable, por consiguiente se ha logrado que una gran cantidad de información se encuentre disponible en difeientes formatos. por ejemplo: documentos de texto. bases de datos, documentos de HTML, XML, etc. En consecuencia, surge la necesidad de implementar nuevos medios para acceder y procesar dicha información. Por lo anterior, la sociedad demanda mayores servicios de acceso y análisis de la información. Una de las propuestas para mejorar dichos servicios es el procesamiento de IengUaJe natural (PLN). el cual fue descartado por varios años por limitaciones tecnológicas y que, gracias a los avances actuales, se ve como una alternativa viable. Las herramientas que trabajan con PLN necesitan recipientes de palabras, los cuales según sus características, son llamados bases de datos Iéxicas. sintácticas o bases de conocimiento lingüistico. En todas ellas se busca, además de guardar las palabras, almacenar las relaciones que tienen entre ellas y su comportamiento dentro del lenguaje, as como su funcionalidad tanto individualmente como en frases, y lo mas importante, esta información es codificada en algún tipo de formalismo que permite que pueda ser utilizada por aplicaciones, mas que por personas. Existen diferentes formalismos para representar el conocimiento lingüistico, uno de los cuales es la formalización mediante ontologías'. Las ontologias proporcionan un vocabulario unificado, consistente y coherente, expresado en lenguajes procesables por una computadora y con distinto grado de formalidad. Permiten que una aplicación pueda "dialogar" con otra, gracias a que las dos entienden lo mismo, aunque los términos empleados sean distintos. Existen ontologias prediseñadas, donde la información se presenta de una manera muy restringida, por lo tanto, no tienen un mecanismo de actualización o modificación de manera automática, siendo esto un problema para mantener la ontologia con información generalizada y actualizada. En este proyecto se generó una base de datos Iéxica. modelada como una ontología. Las aplicaciones desarrolladas para generar dicha ontologia. permiten que se incremente dinámicamente a través del análisis de textos. 1 Ontoloqia: Es un esquema de especificación donde se describen conceptos y relaciones en el dominio del discurso. Es una conceptualización del mundo en función de objetos, cualidades, distinciones y relaciones [l]. 2

CAPiTULO 1 INTRODUCCION 1.2. Planteamiento del problema La popularidad del uso de Internet ha ido incrementandose de manera impresionante y la mayoria de los usuarios que se incorporan a este fenómeno generalmente no tienen una educación formal en computación. Por otra parte la información publicada o disponible también ha sufrido un incremento considerable, con el inconveniente de que se encuentra disponible en diversos formatos (documentos en Word, PD.F. presentaciones, documentos de HTML. XML, ASP, entre otros), por lo que el problema de localizar información de acuerdo a las necesidades del Usuario se complica demasiado por la diversidad existente. Una solución al problema de que un Usuario pueda expresar fácilmente una consulta de información, son las Interfaces en Lenguaje Natural hacia Bases de Datos (ILNBD). Hacia finales del 2001 en el CENIDET se empezó a construir una ILNBD orientado a consultas de bases de datos en español, en la figura 1.I se observa que el proyecto se divide en una serie de módulos, que consisten en validar la consulta (formulada por el usuario) y generar un resultado, pero para poder realizar el análisis de tales consultas es necesario utilizar una base de li conocimientos. Esta base de conocimientos se modelará como una ontologia. Base de conocimientos Figura 1.1 Arquitectura de la lnterfaz en Lenguaje Natural hacia Bases de Datos. Se propone dividir la ontología.(base de conocimientos) en una ontología de dominio generico y una de dominio especifico, ya que si se cambia de contexto en la ILNBD, solo se 3

CAPITULO 1 INTRODUCC~ON tendrian que cambiar ciertos módulos, sin necesidad de cambiar la mayor parte de la OntolOgia. Actualmente como parte de una tesis de maestria se tiene desarrollado un editor de OntOlOgiaS para crear la ontología de dominio especifico 121. El proyecto aqui expuesto diseña un mecanismo que permite generar de una manera semiautomática la ontoiogia de dominio genérico, ya que hacerlo manualmente implica un gran trabajo. El gran problema es que la información necesaria para crear esta ontologia, no está tan explicitamente disponible, ya que las fuentes más comunes para generarla se encuentran en documentos, páginas Web, bases de datos, etc.. los cuales no fueron diseñados para codificar información como conceptos y relaciones. Esta Última información se encuentra en forma "implicita", pero extraerla no es una tarea facil, ya que las sutilezas del lenguaje hacen que muchas relaciones que existen, impliquen un gran esfuerzo de análisis para poder reconocerlas y extraerlas. Por ejemplo, de la famosa frase de Benito Juárez "A los amigos justicia y gracia y a los enemigos justicia a secas", sólo nos diria que amigos y enemigos son diferentes, pero en ninguna parte se puede concluir que sean antónimos. De igual forma, si concluyéramos que palabras con patrones sintácticos semejantes son sinónimos como "tu comida está servida" y "tu alimento esta servido", nos podria llevar a conclusiones,erróneas como que Juan y Luis son sinónimos, derivado de las frases "Juan está sentado" y "Luis está sentado". También existen palabras que se utilizan como adjetivos y sustantivos generando contextos idénticos, incluso cuando tienen diferentes funciones; de la expresión "la obligación de un técnico" y "el reporte técnico" el mismo contexto sintáctico se extraeria de las palabras "obligación" y "reporte", el cual seria <técnico>, por lo que para el sistema no habria ninguna distinción con respecto a su función. Aunque existen varios proyectos tendientes a generar una base de conocimientos de manera semiautomática como los siguientes: "Aplicaciones Cooperativas de recuperación de información ACORDEON 131, "El sistema de codificación y procesamiento del lenguaje natural de Planeta Actimedia" [4], "Base de datos sintácticos del español actual" [SI,etc; ninguno se orienta ai reuso. a la compartición de información, ni son diseñados de una manera modular. Estas deficiencias hacen que sea dificil implementar un lexicón2 y traducirla a una ontología. Otro problema relacionado es cuando se encuentran preposiciones en las frases u oraciones, que generalmente son ignoradas. No obstante, estas preposiciones tienen información 2 :Repositorio de información lexica elaborado con el objeto de servir de soporte representativo a diversas aplicaciones en el ámbito de las tecnologias del lenguaje humano, asi como el trabajo lexicografico tradicional.' es decir, la elaboración de diccionarios destinados a la consulta por un usuario humano [6]. 4

CAPITULO I INTRODUCC~ON semántica relevante para discriminar palabras. Considere la siguiente expresión: "marca de camisa" y "marca en la camisa", el mismo contexto <camisa> es extraido para el sustantivo "marca" en ambas expresiones. No obstante, la preposición "de" trae una dependencia sintáctica diferente que la preposición "en". por lo que las preposiciones deben ser consideradas como parte del contexto sintáctico. La dificultad de este trabajo de tesis radica en encontrar la técnica o técnicas de minería de datos más adecuadas que permitan generar una ontología a partir de un corpus3 de documentos, tratando, hasta donde sea posible, de discernir entre algunos problemas semánticos (SinónimOS, antónimos. homónimos, etc.). que pueden llevar a conclusiones erróneas, y que aquellas conclusiones que impliquen un gran trabajo de desambiguación, sean corregidas por un Usuario. que "refinaría" la ontología generada. 1.3. Objetivo de la tesis Construir una ontología del lenguaje español a partir de un corpus de documentos para una interfaz en lenguaje natural hacia bases de datos, y desarrollar las herramientas necesarias para crear y mantener dicha ontología 1.4. Alcances y limitaciones Alcances: 1. Recopilar un corpus de documentos del español hablado en Mexico (por lo menos 2000 páginas) y normalizarlo a formato texto (ASCII), eliminando caracteres de control e imágenes. 2. Crear una ontología intermedia a partir del corpus. Esta ontología tiene los resultados del análisis del corpus realizado por la herramienta, conteniendo posibles errores que deben ser validados por el usuario. 3. lmplementar herramientas que permitan eliminar conceptos erróneos o modificar conceptos ambiguos en la ontologia intermedia. 4. Generar un traductor de la ontología intermedia al lenguaje DAML. 5. lmplernentar un traductor de los synsets capturados al lenguaje DAML. 3 m: "Colección ordenada de textos codificados electrónicamente. un conjunto de bases de datos textuales unidas en un sistema.de estructuracion de datos, textos, referencias y utensilios informáticos para su tratamiento. bien en linea o en conexión directa a una computadora" [7]. 5

INTRODUCCION CAPITULO 1 Limitaciones: 1. NO se considera agregar a la ontologia tecnicismos, vuigarismos, arcaismos Y caló. aunque sí se pretende que manualmente se:le incorporen términos que sean necesarios. 2. Las pruebas solamente muestran que el corpus puede ser creado, modificado y que puede ser extendido, pero el corpus obtenido al final no cubrirá el cien por Ciento del lenguaje español en su variante de México. 3. El mecanismo de desambiguación en el sentido de las palabras no considera múitiples fuentes, y en su mayor parte, es asistido por un usuario. 4. En el análisis del corpus no se considera revisar aspectos de fenónienos lingüisticos como la anáfora, la elipsis, etc. 5. La versión utilizada de DAML es la,daml+oll de marzo del 2001 6. El lenguaje de programación de las herramientas es Java, el sistema operativo es Windows, y el manejador de bases de datos propuesto MySQL. 7, NO se optimiza el tiempo en que se genere la ontologia intermedia ni el tiempo en que se genera la ontologia final en DAML. 1.5. Organización de la tesis La tesis se organiza en los siguientes capítulos: Capitulo 1. Se presenta una introducción para situar al lector en el contexto en el cual se desarrolló esta tesis, definiendo además el planteamiento del problema, el objetivo, alcances y limitaciones de la misma. Capitulo 2. Se hace un recorrido por los diferentes conceptos y tecnologias involucradas en el proceso de representación de la información y las diferentes formas de recuperarla para el desarrollo del prototipo. Capitulo 3. Se describen brevemente los trabajos realizados, empezando con la recuperación y obtención de la información hasta su representación. Capitulo 4. Se describe el análisis realizado correspondiente a la propuesta de solución, con el fin de establecer una metodologia para encontrar relaciones léxico-semanticas y representarlos en un lenguaje. Capitulo 5. Se describen los módulos implementados que conforman esta herramienta. 6!I

CAPITULO 1 INTRODUCCION Capitulo 6. Se presentan los resultados de las pruebas realizadas al prototipo, que demuestran la funcionalidad del sistema implementado en el presente trabajo de investigación. Capitulo 7. Se plantean los conclusiones a las que se llegaron durante este trabajo de investigación, así como los beneficios ofrecidos por este proyecto, y se sugieren trabajos futuros que pueden dar continuidad a esta investigación. 7

CAPITULO 2 MARCO TEÓRICO MARCO TEÓRICO En este capitulo se explican los conceptos básicos en relación al trabajo de tesis, tales como lenguajes de marcado y métodos existentes para la recuperación de información. 8

CAP~TULO 2 MARCO TEÓRICO 2.1. Sistemas expertos [8] Uno de los objetivos de la herramienta desarrollada en la presente tesis es reducir el trabajo correspondiente a la búsqueda de palabras relacionadas y creación de la OntOlogia. est0 Se logra creando un sistema modelado como'sistema experto en el que se ofrecen las herramientas basicas y es entendible para un usuario con conocimientos básicos en el tema de ontologias. A continuación se menciona una breve explicación sobre los sistemas expertos, asi como dos secciones enfocados a su importancia y creación. Los sistemas expertos se pueden considerar como el primer producto verdaderamente operacional de la inteligencia artificial. Son programas de computadora diseñados para actuar como un especialista humano en un dominio particular o área de conocimiento. En este sentido, pueden considerarse como intermediarios entre el experto humano, que transmite su conocimiento al sistema y el usuario que lo utiliza para resolver un problema con la eficacia del especialista. El sistema experto utiliza para ello, el~conocimiento que tenga almacenado y algunos métodos de inferencia A la vez, el usuario puede aprender observando el comportamiento del sistema. Es decir, los sistemas expertos se pueden considerar simultáneamente como un medio de ejecución y transmisión del conocimiento. Lo que se intenta de esta manera es representar los mecanismos heuristicos que intervienen en un proceso de descubrimiento. Estos mecanismos forman ese conocimiento dificil de expresar que permite que los expertos humanos sean eficaces trabajando lo menos posible. Los sistemas expertos contienen ese "saber hacer". La caracteristica fundamental de un sistema experto es que separa los conocimientos almacenados (base de conocimiento) del programa que los controla (motor de inferencia). Los datos propios de un determinado problema se almacenan en una base de datos aparte (base de hechos). 9