S.E.I.T. cenidet. GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "S.E.I.T. cenidet. GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO"

Transcripción

1 . Sistema Nacional de lnsliluios Tecnologicos Direccion General de lnsliluio~tecnologicos S.E.P. S.E.I.T. D.G.I.T. '' C E N TR O N A C I O NA L DE I N V E S T I C A C I ~ N Y DE S A RR O LL O T E C N O L ~ G I C O cenidet GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN CIENCIAS DE LA COMPUTACI~N P R E S E N,.T A ROBERTO CARLOS TOLEDO FLANDES Director de Tesis: M.C. José Antonio Zárate Marceleno Co-Director de Tesis: Dr. Rodolfo A. Pazos Rangel CUERNAVACA. MORELOS MARZO 2005

2 cenidet Centro Nacional de lnvestigacion y Desarrollo Tecnológico Sistema Nacional d e Institutos Tecnologicos Mi0 ACEPTACI~N DEL DOCUMENTO DE TESIS Cuernavaca, Mol-., a 18 de Febrero de 2005 Dr. Cerardo Reyes Salgado Jefe del Departamento de Ciencias de la Computación Presente. At'n Dr. Reiié Saiitaolaya Salgado Presidente de la Academia de Ciencias de la Coniputación Nos es zrato comunicarle, que conforme a los liiieaiiiientos para la obtención del gi-ado de Maestro en Ciencias de este Centro, y después de,haber sometido a revisión académica la tesis titulada: Generación de una ontología de dominio lingüístico para el español, realizada por el C. Roberto Carlos Toledo Flandes, y dirigida por el M.C. José Antonio Zárate Marceleño y el Dr. Rodolfo A. Pazos Rangel, y habiendo realizado las correcciones que le fueron indicadas, acordamos ACEPTAR el documento final de tesis, así mismo le solicitamos tenga a bien extender el correspondiente oficio de autoi-izacióii de itilpresión. Atentamente La Comisión de Revisión de Tesis h. 6".iC/.. Revisor C.C.P. Revisor Subdirección Académica Depaitaiiieiito de Servicios Escolares Directores de tesis Estudiante 'I izález Sema M.C. Mario Guiiléii Rodriguez Revisor

3 Centro Nacional de Invectigacion cenidet y Desarrollo Tecnologico Sistema Nacional de Institutos Tecnológicos AUTORIZACI~N DE IMPRESI~N DE TESIS MI1 Cuernavaca, Mor., a 18 de Febrero del 2005 C. Roberto Carlos Toledo Flandes Candidato al grado de Maestro en Ciencias en Ciencias de la Computación Presente. Después de haber atendido las iiidicaciones sugeridas por la Coiiiisión Revisora de la Academia de Cieiicias de la Computación en relación a, su trabajo de tesis cuyo titulo es: Generación de una ontología de dominio lingüístico para el español, me es grato comunicarle que confoniie a los liiieariiieiitos establecidos para la obteiiciói i del gad0 de Maestro en Cieiicias en este ceiiti-o se le coiicede la autorizacióii para que proceda cdii la iiiipresióii de su tesis. Ateiitaiiiciite n,, Di-. GerardgReyes Salgado Jefe del Departamento de Ciencias de la Coinputacióii c.c.p. Suhdireccioii Académica I resideiite de la Academia de Ciencias de la Coinputacióii Ilepaitaineiito de Servicios Escolares Ikoedieiite I!

4 Dedica toria DIOS, que me hace elfavor de iluminarme, dándomefuerza en mis caídas para volverme a Cevantary seguir mi camino alládo de mis seres más queridos. Con iiiucho cariño para inis papás Luíú y Emifio, que me 6rindaii sus mejores consejos y me apoyan incondícionahiiente en Cos 6uenos momentos y no tan 6uenos. mis Marcosy a Iapequeña LuCi, porque como hemianos que somos nos hemos apoyado mutuamente y hemos estado juntos para vivir muchos momentosfellces. i m.is hqos DanieCy Diana,a quienes adoro y h han dado un nuevo sign$cado a 1n.ivda, regalandome esas sonrisas que es ecmejor motivo para seguir adehánte. A Lupita, mi compañera que me 6rinda tanto apoyo, amory cariño en este nuevo paso en mi V d a.

5 Agradecimientos Q u i e r o expresar q u e Iiaii c r e í d o en nii m i más sinccro agradecimiento a t o d a s las persoiias y que d e alguna manera hicieron p o s i b l e q u e este trabajo s e realizara: AI C e n t r o Nacional d e Investigacióii y D e s a r r o l l o T e c n o l ó g i c o, a i o d o el personal q u e labora en esta institución y p o r todo lo q u e en sus aulas y fuera d e e l l a s a p r e n d í. A Cosiiet y SEP por aportar los recursos e c o n ó m i c o s, contribuyendo enoriiieiiiente a la terminación d e esta t e s i s d e Maestría. A mi d i r e c t o r d e tesis, M. C. J o s é Antonio Z á r a t e Marceleño y m i c o d i r e c t o r d e tesis, el Dr. Rodolfo A. Pazos Rangel, por sus c o n t r i b u c i o n e s s i e m p r e acertadas, y el apoyo q u e s i e m p r e iiie brindaron. A m i s revisores M. C. Andrea Magadán S a l a z a r, M. C. J u a n Gabriel González Seriia y al M.C. M a r i o Guillén Rodriguez por su valiosa d i s p o s i c i ó n en l a revisión d e e s t e trabajo d e tesis y p o r s u s acertadas o b s e r v a c i o n e s, q u e 11 i ci e r a n pos i b I e mej o r a r I o. A Isaac, V e g a, May, Isidro, P a c o, Fredy, Xocliitl, M a n u e l, L u i s i l l o, Sheila, Alicia, Ariadna, Y o r c h, Pepe, Alex y R o d r i g a p o r ser m i s c o m p a ñ e r o s d e generación, y q u e j u n t o s supi'mos afrontar el reto d e e s t u d i a r la niaestria, pero lo m á s importante porque se c o n v i r t i e r o n en mis g r a n d e s a m i g o s, q u e dificilniente s e pueden encontrar en esta v i d a. A todos, m u c h a s gracias

6 i.as interfaces e11 leiiguale natural son una de las mejores alternativas para resolver el problenia de iiiteraccióii Iioiiibre-iiiáqiiiiia; sin embargo. su realización depende en gran iiiedida en el taiiiaiio de la base de coiiociiiiieiito y de su organización. Este proyecto forma parte de uiia tesis doctoral orientada a COIISII~I~S de bases de datos e11 espaiiol. El objeti\lo principal de la tesis doctoral es lograr la portabilidad de ni1 doniiiiio, y para este fin se propotieii dos niecaiiisnios: el uso de oiitologias para la Liase de coiiociiiiieiitos liiigüistica y la división de la base de coiiocinueiitos en una ontologia de dominio genérico y una de dominio especifico. Este trabajo se enfoca en poblar la ontología de dominio genérico. Está se realizó de dos fornias: La priniera fue obtener instancias de uiia serie de archivos de texto, capturados de iiiaiiera iiiaiiual de acuerdo a un forniato especifico (proyecto WordNet), y agregarlos a las clases previaniente definidas de la ontologia de doniiiiio genérico. La ontologia (clases e iiistaiicias) está foriiializada en el leiiguaje de iiiarcado de DARPA (DAML). La segunda forma fue desarrollar in1 procediiiueiito para la obtención de iiistaiicias a partir de textos en formato libre, a traves de nna serie de heii.aniientas desarrolladas en este trabajo y uiia herramienta coiiiercial de análisis de texto. Cabe destacar que el procediniiento anterior, sirve para encontrar patrones que identifican iiistaiicias de relaciones especificas (en yte trabajo de sinonimia y meroiiiiiua), sirve también para la identificación de otras relaciones entre palabras, y las iiistaiicias correspoiidieiires; además, el procedinuento para obtener tales instancias en formato libre peniuie iiicrenieiitar diiiániicamente la ontologia genérica, al analizar un coipus mas grande. Se describe el esquema DAML de la ontologia de doniinio genérico. así como una serie de patroiies que permitieron encoiitrar las instancias e incrementar dicha oiitologia, y de ese modo aumentar la capacidad de la iiiterfaz de leiiguaje natural hacia bases de datos. Finalmente. en esta tesis se analizan tres tipos distintos de documentos (syiisets. diccionario. texto libre) para comprobar el fuiicionaniiento de la lierraniienta. siendo los syiisets los que mejores resultados ofrece. Sin embargo. como trabajo futuro se propone,mejorar algunas de las técnicas y asi lograr resultados nias optimos e11 los dos tipos de docuiiieiitos restantes.

7 Iiiterfaces in iiatitral language are one of the best alternatives to solve the problelii of niaii-iiiacliiiie iiiteractioii: Iiowever their perforiiiaiice greatly depends 011 the interface's kiio\\,ledge base size alid oryiiizatioii. This pi~oject is part of a doctoral thesis aimed at database querying in Spaiiisli. l'lie Inlain objective ofthe thesis doctoral is to achieve doiiiaiii portability, and to this end two iiiecliaiiisiiis are proposed: the use of ontologies for die linguistic knowledge base and the division of the knowledge base into a generic doiiiaiii and a specific doiiiaiii ontology. imaiii focus of this work is tlie population oftlie generic domain ontology. It is was carried out in two ways: First one was to obtain instances from text files, fornierly captured accordiiil: to a specific format (WordNet project). and to add tlieiii to the classes previously defined of the generic oiitology. The ontology (instances and classes) is formalized in the DARPA Markup ldngiiage(daml). Second way was tlie obtaining of instances íroiii free format texts, tlirougli oí a toolkit developed in this work and a conuiiercial tool of text analysis. It is~iiecessary to Iiiglilight that former procedure, not only is good to find patterns to identify instances of specific relatioiisliips (synonymy, nieronyiny), but also is good to identify other relationships anioiig words, and the corresponding instances, besides. tlie procedure of obtaining text instances in fiee format allows to increase the generic ontology dynamically, by means of aiializiiig a bigger text corpus. The DAML schema of the generic ontology is described, as well as a series of patterns that allowed to find iiistances and io increase tliis ontology, and in that way to increase the capaciiy of the natural language interface. Finally. in this thesis three types different from docunients are analyzed (synsets, dictionary, free text) io check the operation of the tool, being the syiisets those that better results offer. Iiowever, like fuhire work intends to iniprove some of the tcclinical ones and tliis way to achieve better results in tlie two types of reiiiaining documents. i

8 Tabla de contenido...,.., I Lista de figuras... Lista de tablas......,. Glosario de termlnos..., V vii vi 1. INTRODUCCIÓN l. Antecedentes Planteamiento del problema Objetivo de la tesis , , Alcances y limitaciones Organización de la tesis MARCO TEÓRICO Sistemas expertos I. Importancia de los sistemas expertos Creación de los sistemas expertos Ontologias Componentes de la ontologia Lenguajes para especificación de ontologías Extracción de la información Componentes tipicos de un sistema de extracción de información ,...., Mineria de datos Mineria de textos Redes neuronales..., I

9 3, ESTADO DEL ARTE... ~ " " ~ ~ ' " " ' ~ " " ~ " ' ~ ~ ' 3.1, Repositorios de palabras 23 ' ~ ' ~ ~ ~ Diccionarios.,.,.....,.,.., , WordNet EuroWordNet... :,... ~'"""~'""''""'''~ 3.2. Recopilación de información, Recuperación de archivos de texto.~ Obtención de información Herramientas de mineria de datos...,.. 25 " ~ " " " ~ ~ " ~ ' ~ ' ~ ~ ~ " ' " " Trabajos relacionados Trabajos con técnicas de mineria de datos Trabajos con técnicas de mineria de texto Trabajos sobre descubrimiento de relaciones Trabajos en la generación de ontologias Comentarios del capitulo ANÁLiSiS Y SOLUCIÓN CONCE,PTUAL DEL PROBLEMA Descripción general de la problemática Diseño general de la propuesta de solución Módulos de la plataforma......,......,,...,...,., Módulo de "preprocesamiento de la información" Módulo de "búsqueda de relaciones" Módulo de '"depuración" Módulo "interprete".....,,,,,,,,,,.,...,...,..,...,......,..,.., Módulo de "creación de ontologia" Comentarios del capitulo , DISEÑO E IMPLEMENTACI~N.DEL PROTOTIPO Casos de uso......, , Diagrama de casos de uso para información sin procesar

10 Diagrama de casos de uso para información procesada Diagrama de actividad , paquetes desarrollados Descripción de modulos Tecnologias utilizadas DAML + OIL Jena Comentarios del capitulo PRUEBAS Herramientas utilizadas JBuilder Enterprise JDK Recursos técnicos utilizados Jena Escenarios de prue Plan de pruebas Evaluación experimental Comentarios del capitulo CONCLUSIONES...,,,,,,.,,,.,.,,,,,,.,,,,,,..,,,,,,,, Conclusiones Beneficios Trabajos futuros...,,,,,,,,,,,,,,,,,,,,,,

11 REFERENCIAS I... I ANEXO A INSTALACIÓN DEL MARCO DE APLICACIONES JENA ANEXO B DOCUMENTO A ANALIZAR' ANEXO C ONTOLOGiAS EN DAML ANEXO D SYNSET... ANEXO E SYNSET EN DAML iv

12 Figura 1.1 Figura 2.1 Figura 2.2 Figura 2.3 Figura 3.1 Figura 3.2 Figura 3.3 Figura 3.4 Figura 3.5 Figura 3.6 Figura 4.1 Figura 4.2 Arquitectura de la interfaz en lenguaje natural hacia base de datos Componentes de un sistema de información... Estructura general de la mineria.de datos..... Tareas que conforman el proceso de descubrimiento de conocimiento Entorno de trabajo de la herramienta Statistica Data Miner 6.0 Demo... Entorno de trabajo de la herramienta PolyAnalyst Entorno de trabajo de la herramienta TextAnalyst Ejemplos de patrones sintácticos para hipónimos... Patrones sintácticos para hipónimos y merónimos... Arquitectura para el aprendizaje de ontologias para la Web semántica Modelo conceptual de la plataforma... M Ó d u I o "Prep ro ce s a m'ie n t o de I a I n f o r m a c i ó n" Figura 4.3 Módulo "Búsqueda de Relaciones" Figura 4.4 Figura 4.5 Figura 4.6 Figura 5.1 Figura 5.2 Figura 5.3 Figura 5.4 Mod u I o 'ID e p u ra c i ó n " M ód u I o "Interpret e"... Módulo "Creación de Ontologia"... Diagrama de casos de uso para la creación de ontologias a partir de texto libre... Diagrama de casos de uso para la creación de ontologias a partir de synsets... Diagrama de actividad del caso de uso "Analizar Corpus"... Diagrama de caso de uso de "Generar DAML" V

13 Figura 5.5 Figura 5.6 Figura 5.7 Figura 5.8 Figura 6.1 Figura 6.2 Figura 6.3 Figura 6.4 Figura 6.5 Figura 6.6 Figura 6.7 Figura a.1 Figura a.2 Figura a.3 Figura a.4 Figura f.1 Figura f.2 Figura f.3 Figura f.4 Figura f.5 Figura f.6 Figura f.7 Clases del paquete ontogen... Clases del paquete generada... Clases de\ paquete escribedaml Clases del paquete synset......,. Escenario de prueba 1... Escenario de prueba Preprocesamiento del documento., ,......, Ejemplares relacionados encontrados... Depuración de ejemplares... Ontologia final Documento codificado.en DAML a partir de synsets... Abrir ventana de propiedades del proyecto... Ventana de Propiedades del proyecto... sekcción de la biblioteca... Asistente para agregar biblioteca... Patrón para sustantivo-sustantivo.. Patrón para sustantivo-adjetivo... Patrón alterno para sustantivo-adjetivo,..,,,,,..,,,,,,,,.,.,,,,,.., Patrón para verbo-verbo <.. Patrón para sustantivo-verbo Patrón alterno para sustantivo-verbo... Patrón para alterno para sustantivo-sustantivo...,,,,,,.,,,,,,,,,,,.,.,..,,,..,,, vi

14 Tabla 3.1. Tabla 6.1. Tabla comparativa de proyectos... Características del corpus Tabla 6.2. Características del lexicon Tabla 6.3 Características del texto,libre..., 61 Tabla 6.4. Plan de pruebas

15 Anáfora. Repetición. Arcaismo. Frase o palabra anticuada. Empleo de frases o palabras anticuadas Base de conocimiento. Colección de conocimiento que se utiliza para resolver problemas o hacer recomendaciones Caló. Lengua propia de la raza gitana. Algunos de cuyos términos han pasado al habla popular Elipsis. Figura de construcción que consiste'en suprimir en la oración aquellas palabras que no son indispensables para la claridad de la misma. Qué tal?. Asi, as. Y aquello, qué? Son oraciones elipticas. Hiperonimia. Relación de significados de un hiperónirno con respecto a sus hipónimos Hiperónimo. Palabra cuyo significado incluye al de otra u otras; p. ej. pájaro respecto a jilguero y gorrión, Hiponimia. Relación de significado de un hipónimo respecto a su hiperónimo. Hipónimo. Palabra cuyo significado esta incluido en el de otra; p. ej., gorrión respecto a pájaro Meronimia. Es la relación semántica entre una unidad lexica que denota una parte y lo que denota el correspondiente todo, p ej, brazo es parte de cuerpo humano Polisemia. Pluralidad de significados de una palabra

16 CAPITULO 1 INTRoDUCCION INTRODUCCI~N.. En este Capitulo se explica el contexto del trabajo, incluyendo los antecedentes, la problemática, el objetivo y los alcances, así como la organización del documento. 1

17 CAPITULO 1 INTRoDUCCION 1.I. Antecedentes Desde el origen del World Wide Web (WWW), su crecimiento en todo el mundo se ha incrementado de forma considerable, por consiguiente se ha logrado que una gran cantidad de información se encuentre disponible en difeientes formatos. por ejemplo: documentos de texto. bases de datos, documentos de HTML, XML, etc. En consecuencia, surge la necesidad de implementar nuevos medios para acceder y procesar dicha información. Por lo anterior, la sociedad demanda mayores servicios de acceso y análisis de la información. Una de las propuestas para mejorar dichos servicios es el procesamiento de IengUaJe natural (PLN). el cual fue descartado por varios años por limitaciones tecnológicas y que, gracias a los avances actuales, se ve como una alternativa viable. Las herramientas que trabajan con PLN necesitan recipientes de palabras, los cuales según sus características, son llamados bases de datos Iéxicas. sintácticas o bases de conocimiento lingüistico. En todas ellas se busca, además de guardar las palabras, almacenar las relaciones que tienen entre ellas y su comportamiento dentro del lenguaje, as como su funcionalidad tanto individualmente como en frases, y lo mas importante, esta información es codificada en algún tipo de formalismo que permite que pueda ser utilizada por aplicaciones, mas que por personas. Existen diferentes formalismos para representar el conocimiento lingüistico, uno de los cuales es la formalización mediante ontologías'. Las ontologias proporcionan un vocabulario unificado, consistente y coherente, expresado en lenguajes procesables por una computadora y con distinto grado de formalidad. Permiten que una aplicación pueda "dialogar" con otra, gracias a que las dos entienden lo mismo, aunque los términos empleados sean distintos. Existen ontologias prediseñadas, donde la información se presenta de una manera muy restringida, por lo tanto, no tienen un mecanismo de actualización o modificación de manera automática, siendo esto un problema para mantener la ontologia con información generalizada y actualizada. En este proyecto se generó una base de datos Iéxica. modelada como una ontología. Las aplicaciones desarrolladas para generar dicha ontologia. permiten que se incremente dinámicamente a través del análisis de textos. 1 Ontoloqia: Es un esquema de especificación donde se describen conceptos y relaciones en el dominio del discurso. Es una conceptualización del mundo en función de objetos, cualidades, distinciones y relaciones [l]. 2

18 CAPiTULO 1 INTRODUCCION 1.2. Planteamiento del problema La popularidad del uso de Internet ha ido incrementandose de manera impresionante y la mayoria de los usuarios que se incorporan a este fenómeno generalmente no tienen una educación formal en computación. Por otra parte la información publicada o disponible también ha sufrido un incremento considerable, con el inconveniente de que se encuentra disponible en diversos formatos (documentos en Word, PD.F. presentaciones, documentos de HTML. XML, ASP, entre otros), por lo que el problema de localizar información de acuerdo a las necesidades del Usuario se complica demasiado por la diversidad existente. Una solución al problema de que un Usuario pueda expresar fácilmente una consulta de información, son las Interfaces en Lenguaje Natural hacia Bases de Datos (ILNBD). Hacia finales del 2001 en el CENIDET se empezó a construir una ILNBD orientado a consultas de bases de datos en español, en la figura 1.I se observa que el proyecto se divide en una serie de módulos, que consisten en validar la consulta (formulada por el usuario) y generar un resultado, pero para poder realizar el análisis de tales consultas es necesario utilizar una base de li conocimientos. Esta base de conocimientos se modelará como una ontologia. Base de conocimientos Figura 1.1 Arquitectura de la lnterfaz en Lenguaje Natural hacia Bases de Datos. Se propone dividir la ontología.(base de conocimientos) en una ontología de dominio generico y una de dominio especifico, ya que si se cambia de contexto en la ILNBD, solo se 3

19 CAPITULO 1 INTRODUCC~ON tendrian que cambiar ciertos módulos, sin necesidad de cambiar la mayor parte de la OntolOgia. Actualmente como parte de una tesis de maestria se tiene desarrollado un editor de OntOlOgiaS para crear la ontología de dominio especifico 121. El proyecto aqui expuesto diseña un mecanismo que permite generar de una manera semiautomática la ontoiogia de dominio genérico, ya que hacerlo manualmente implica un gran trabajo. El gran problema es que la información necesaria para crear esta ontologia, no está tan explicitamente disponible, ya que las fuentes más comunes para generarla se encuentran en documentos, páginas Web, bases de datos, etc.. los cuales no fueron diseñados para codificar información como conceptos y relaciones. Esta Última información se encuentra en forma "implicita", pero extraerla no es una tarea facil, ya que las sutilezas del lenguaje hacen que muchas relaciones que existen, impliquen un gran esfuerzo de análisis para poder reconocerlas y extraerlas. Por ejemplo, de la famosa frase de Benito Juárez "A los amigos justicia y gracia y a los enemigos justicia a secas", sólo nos diria que amigos y enemigos son diferentes, pero en ninguna parte se puede concluir que sean antónimos. De igual forma, si concluyéramos que palabras con patrones sintácticos semejantes son sinónimos como "tu comida está servida" y "tu alimento esta servido", nos podria llevar a conclusiones,erróneas como que Juan y Luis son sinónimos, derivado de las frases "Juan está sentado" y "Luis está sentado". También existen palabras que se utilizan como adjetivos y sustantivos generando contextos idénticos, incluso cuando tienen diferentes funciones; de la expresión "la obligación de un técnico" y "el reporte técnico" el mismo contexto sintáctico se extraeria de las palabras "obligación" y "reporte", el cual seria <técnico>, por lo que para el sistema no habria ninguna distinción con respecto a su función. Aunque existen varios proyectos tendientes a generar una base de conocimientos de manera semiautomática como los siguientes: "Aplicaciones Cooperativas de recuperación de información ACORDEON 131, "El sistema de codificación y procesamiento del lenguaje natural de Planeta Actimedia" [4], "Base de datos sintácticos del español actual" [SI,etc; ninguno se orienta ai reuso. a la compartición de información, ni son diseñados de una manera modular. Estas deficiencias hacen que sea dificil implementar un lexicón2 y traducirla a una ontología. Otro problema relacionado es cuando se encuentran preposiciones en las frases u oraciones, que generalmente son ignoradas. No obstante, estas preposiciones tienen información 2 :Repositorio de información lexica elaborado con el objeto de servir de soporte representativo a diversas aplicaciones en el ámbito de las tecnologias del lenguaje humano, asi como el trabajo lexicografico tradicional.' es decir, la elaboración de diccionarios destinados a la consulta por un usuario humano [6]. 4

20 CAPITULO I INTRODUCC~ON semántica relevante para discriminar palabras. Considere la siguiente expresión: "marca de camisa" y "marca en la camisa", el mismo contexto <camisa> es extraido para el sustantivo "marca" en ambas expresiones. No obstante, la preposición "de" trae una dependencia sintáctica diferente que la preposición "en". por lo que las preposiciones deben ser consideradas como parte del contexto sintáctico. La dificultad de este trabajo de tesis radica en encontrar la técnica o técnicas de minería de datos más adecuadas que permitan generar una ontología a partir de un corpus3 de documentos, tratando, hasta donde sea posible, de discernir entre algunos problemas semánticos (SinónimOS, antónimos. homónimos, etc.). que pueden llevar a conclusiones erróneas, y que aquellas conclusiones que impliquen un gran trabajo de desambiguación, sean corregidas por un Usuario. que "refinaría" la ontología generada Objetivo de la tesis Construir una ontología del lenguaje español a partir de un corpus de documentos para una interfaz en lenguaje natural hacia bases de datos, y desarrollar las herramientas necesarias para crear y mantener dicha ontología 1.4. Alcances y limitaciones Alcances: 1. Recopilar un corpus de documentos del español hablado en Mexico (por lo menos 2000 páginas) y normalizarlo a formato texto (ASCII), eliminando caracteres de control e imágenes. 2. Crear una ontología intermedia a partir del corpus. Esta ontología tiene los resultados del análisis del corpus realizado por la herramienta, conteniendo posibles errores que deben ser validados por el usuario. 3. lmplementar herramientas que permitan eliminar conceptos erróneos o modificar conceptos ambiguos en la ontologia intermedia. 4. Generar un traductor de la ontología intermedia al lenguaje DAML. 5. lmplernentar un traductor de los synsets capturados al lenguaje DAML. 3 m: "Colección ordenada de textos codificados electrónicamente. un conjunto de bases de datos textuales unidas en un sistema.de estructuracion de datos, textos, referencias y utensilios informáticos para su tratamiento. bien en linea o en conexión directa a una computadora" [7]. 5

21 INTRODUCCION CAPITULO 1 Limitaciones: 1. NO se considera agregar a la ontologia tecnicismos, vuigarismos, arcaismos Y caló. aunque sí se pretende que manualmente se:le incorporen términos que sean necesarios. 2. Las pruebas solamente muestran que el corpus puede ser creado, modificado y que puede ser extendido, pero el corpus obtenido al final no cubrirá el cien por Ciento del lenguaje español en su variante de México. 3. El mecanismo de desambiguación en el sentido de las palabras no considera múitiples fuentes, y en su mayor parte, es asistido por un usuario. 4. En el análisis del corpus no se considera revisar aspectos de fenónienos lingüisticos como la anáfora, la elipsis, etc. 5. La versión utilizada de DAML es la,daml+oll de marzo del El lenguaje de programación de las herramientas es Java, el sistema operativo es Windows, y el manejador de bases de datos propuesto MySQL. 7, NO se optimiza el tiempo en que se genere la ontologia intermedia ni el tiempo en que se genera la ontologia final en DAML Organización de la tesis La tesis se organiza en los siguientes capítulos: Capitulo 1. Se presenta una introducción para situar al lector en el contexto en el cual se desarrolló esta tesis, definiendo además el planteamiento del problema, el objetivo, alcances y limitaciones de la misma. Capitulo 2. Se hace un recorrido por los diferentes conceptos y tecnologias involucradas en el proceso de representación de la información y las diferentes formas de recuperarla para el desarrollo del prototipo. Capitulo 3. Se describen brevemente los trabajos realizados, empezando con la recuperación y obtención de la información hasta su representación. Capitulo 4. Se describe el análisis realizado correspondiente a la propuesta de solución, con el fin de establecer una metodologia para encontrar relaciones léxico-semanticas y representarlos en un lenguaje. Capitulo 5. Se describen los módulos implementados que conforman esta herramienta. 6!I

22 CAPITULO 1 INTRODUCCION Capitulo 6. Se presentan los resultados de las pruebas realizadas al prototipo, que demuestran la funcionalidad del sistema implementado en el presente trabajo de investigación. Capitulo 7. Se plantean los conclusiones a las que se llegaron durante este trabajo de investigación, así como los beneficios ofrecidos por este proyecto, y se sugieren trabajos futuros que pueden dar continuidad a esta investigación. 7

23 CAPITULO 2 MARCO TEÓRICO MARCO TEÓRICO En este capitulo se explican los conceptos básicos en relación al trabajo de tesis, tales como lenguajes de marcado y métodos existentes para la recuperación de información. 8

24 CAP~TULO 2 MARCO TEÓRICO 2.1. Sistemas expertos [8] Uno de los objetivos de la herramienta desarrollada en la presente tesis es reducir el trabajo correspondiente a la búsqueda de palabras relacionadas y creación de la OntOlogia. est0 Se logra creando un sistema modelado como'sistema experto en el que se ofrecen las herramientas basicas y es entendible para un usuario con conocimientos básicos en el tema de ontologias. A continuación se menciona una breve explicación sobre los sistemas expertos, asi como dos secciones enfocados a su importancia y creación. Los sistemas expertos se pueden considerar como el primer producto verdaderamente operacional de la inteligencia artificial. Son programas de computadora diseñados para actuar como un especialista humano en un dominio particular o área de conocimiento. En este sentido, pueden considerarse como intermediarios entre el experto humano, que transmite su conocimiento al sistema y el usuario que lo utiliza para resolver un problema con la eficacia del especialista. El sistema experto utiliza para ello, el~conocimiento que tenga almacenado y algunos métodos de inferencia A la vez, el usuario puede aprender observando el comportamiento del sistema. Es decir, los sistemas expertos se pueden considerar simultáneamente como un medio de ejecución y transmisión del conocimiento. Lo que se intenta de esta manera es representar los mecanismos heuristicos que intervienen en un proceso de descubrimiento. Estos mecanismos forman ese conocimiento dificil de expresar que permite que los expertos humanos sean eficaces trabajando lo menos posible. Los sistemas expertos contienen ese "saber hacer". La caracteristica fundamental de un sistema experto es que separa los conocimientos almacenados (base de conocimiento) del programa que los controla (motor de inferencia). Los datos propios de un determinado problema se almacenan en una base de datos aparte (base de hechos). 9

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

CAMINO HACIA LA WEB SEMÁNTICA. Jorge Alejandro Castillo Morales Universidad de Edimburgo

CAMINO HACIA LA WEB SEMÁNTICA. Jorge Alejandro Castillo Morales Universidad de Edimburgo INVESTIGACIÓN & DESARROLLO, No 5: 115 120 (2005) ISSN 1814-6333 RESUMEN CAMINO HACIA LA WEB SEMÁNTICA Jorge Alejandro Castillo Morales Universidad de Edimburgo El rápido crecimiento de la Word Wide Web

Más detalles

Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas

Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas Autor: Pablo Barrera González Profesor: Carlos Delgado Kloos Fecha de presentación: 7 de Febrero

Más detalles

Búsqueda sobre catálogos basada en ontologías

Búsqueda sobre catálogos basada en ontologías Búsqueda sobre catálogos basada en ontologías Alianis Pérez Sosa, Yuniel Eliades Proenza Arias Universidad de las Ciencias Informáticas. Carretera a San Antonio Km 2 ½, Reparto Torrens, La Lisa, Ciudad

Más detalles

Seminario Web Semántica y Ontologías

Seminario Web Semántica y Ontologías Seminario Web Semántica y Ontologías Inteligencia Artificial 5 o Informática IA curso 2012-2013 CCIA Noviembre 2012 IA 1112 (CCIA) Seminario Web Semántica Noviembre-2012 1 / 15 Web Semántica vs. Web Actual

Más detalles

Análisis del Sistema de Información

Análisis del Sistema de Información Análisis del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD ASI 1: DEFINICIÓN DEL SISTEMA... 6 Tarea ASI 1.1: Determinación del Alcance del Sistema... 6 Tarea ASI 1.2: Identificación

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Capítulo 4. Ontologías y su representación jerárquica.

Capítulo 4. Ontologías y su representación jerárquica. Capítulo 4. Ontologías y su representación jerárquica. En la interpretación de alto nivel de información visual, se tienen muchos progresos en la derivación de características de bajo nivel a partir de

Más detalles

Ontologías ECSDI. Curso 2014/2015. LSI-FIB-UPC cbea. ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36

Ontologías ECSDI. Curso 2014/2015. LSI-FIB-UPC cbea. ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36 Ontologías ECSDI LSI-FIB-UPC cbea Curso 2014/2015 ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36 Índice 1 Introducción 2 Ontologias 3 Proyectos de Ontologías 4 Elementos de un ontología ECSDI

Más detalles

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl)

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) EVOLUCIÓN DE LA WEB Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) Contenido Historia del Internet. La Web 1.0. Definición. Características. La Web 2.0. Definición. Tecnologías de la

Más detalles

TEMA 1: INTRODUCCIÓN

TEMA 1: INTRODUCCIÓN 1 DISEÑO Y DESARROLLO DE COMPILADORES TEMA 1: INTRODUCCIÓN Qué es un Compilador? Un compilador no es más que un traductor, es decir, un programa que nos permite pasar información de un lenguaje a otro.

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto Organizaciones Virtuales e Integración de Información José Abásolo Prieto Universidad de los Andes Objetivo de la charla Mostrar que aunque la problemática de integración de información distribuida y heterogénea

Más detalles

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Programación orientada a

Programación orientada a Programación orientada a objetos con Java Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos de la programación

Más detalles

Uso de ontologías en tareas de recupero de información. Marcelo Tallarico Tesis de Licenciatura

Uso de ontologías en tareas de recupero de información. Marcelo Tallarico Tesis de Licenciatura Uso de ontologías en tareas de recupero de información Marcelo Tallarico Tesis de Licenciatura Uso de ontologías en tareas de recupero de información Objetivo Definición Componentes Clasificación Lenguajes

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

LA WEB DEL FUTURO. ALUMNOS: Miguel Ángel Merín Adrián Martínez. MÓDULO: Despliegue de Aplicaciones Web

LA WEB DEL FUTURO. ALUMNOS: Miguel Ángel Merín Adrián Martínez. MÓDULO: Despliegue de Aplicaciones Web LA WEB DEL FUTURO ALUMNOS: Miguel Ángel Merín Adrián Martínez MÓDULO: Despliegue de Aplicaciones Web CICLO: Desarrollo de Aplicaciones Web CPIFP Los Enlaces FECHA: 25 de octubre de 2012 INTRODUCCIÓN Vivimos

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

XML. El nuevo lenguaje universal

XML. El nuevo lenguaje universal Tema: XML el nuevo lenguaje universal. Autor: Marlene Melián Montalvo Institución: CITMATEL. Este trabajo consiste en una introducción al lenguaje XML. En el mismo se da a conocer su surgimiento, definiciones

Más detalles

OWL DESCRIPCION DE LA ONTOLOGÍA. Alberto Gómez López

OWL DESCRIPCION DE LA ONTOLOGÍA. Alberto Gómez López OWL DESCRIPCION DE LA ONTOLOGÍA Alberto Gómez López INDICE Introducción Utilidades de las ontologías para la Web OWL conceptos 3 Sub-lenguajes Sinopsis Lite Sinopsis Dl y Completo Descripción de la lengua

Más detalles

LENGUAJES NATURALES. TEMA. Análisis Semántico

LENGUAJES NATURALES. TEMA. Análisis Semántico LENGUAJES NATURALES TEMA. Análisis Semántico FJRP. LN, 2005 11 de diciembre de 2006 1. Introducción Sigue al análisis sintáctico, intentando determinar el significado de las frases analizadas. Aproximación

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

4 o Ingeniería Informática

4 o Ingeniería Informática Esquema del tema 1. Introducción 4 o Ingeniería Informática II26 Procesadores de lenguaje Estructura de los compiladores e intérpretes 2. Etapas del proceso de traducción 3. La interpretación 4. La arquitectura

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo. GLOSARIO Actor: Un actor es un usuario del sistema. Esto incluye usuarios humanos y otros sistemas computacionales. Un actor usa un Caso de Uso para ejecutar una porción de trabajo de valor para el negocio.

Más detalles

Tecnologías XML y Web Semántica. Departamento de Informática Universidad de Oviedo

Tecnologías XML y Web Semántica. Departamento de Informática Universidad de Oviedo Tecnologías XML y Web Semántica Departamento de Informática Universidad de Oviedo Fundamentos de la Web Semántica Justificación Esquema General Principales Vocabularios Departamento de Informática Universidad

Más detalles

Etapas del desarrollo

Etapas del desarrollo Capítulo 4 Etapas del desarrollo Este capítulo documenta la aplicación del modelo presentado anteriormente, para el caso de la detección y clasificación de eventos sísmicos sobre señales digitales. El

Más detalles

Introducción a la Web Semántica

Introducción a la Web Semántica Taller de Producción de Software 2007 Introducción a la Web Semántica Taller de Producción de Software 2º Semestre 2008 Indice Visión de la Web Semántica Arquitectura de la Web Semántica RDF Ontologías

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

GLOSARIO DE TERMINOS

GLOSARIO DE TERMINOS GLOSARIO DE TERMINOS A Aplicaciones Legacy.- Conjunto de aplicaciones desarrolladas o implementadas en plataformas de sistemas anteriores o antiguos. B Bases de Datos.- Organización y conservación de datos

Más detalles

La Web Semántica como herramienta para e-learning

La Web Semántica como herramienta para e-learning La Web Semántica como herramienta para e-learning Lidia Marina López llopez@uncoma.edu.ar Departamento de Ciencias de la Computación Universidad Nacional del Comahue Buenos Aires 1400 8300 Neuquén Tel.

Más detalles

Compiladores y Lenguajes de Programación. Maria de Guadalupe Cota Ortiz

Compiladores y Lenguajes de Programación. Maria de Guadalupe Cota Ortiz Compiladores y Lenguajes de Programación Maria de Guadalupe Cota Ortiz Organizaciones que rigen las normas para estandarización de Lenguajes de Programación IEEE (Instituto de Ingenieros Eléctricos y Electrónicos)

Más detalles

ONTOLOGÍAS E INTELIGENCIA ARTIFICIAL PARA LA RECUPERACIÓN EFICIENTE DEL CONOCIMIENTO

ONTOLOGÍAS E INTELIGENCIA ARTIFICIAL PARA LA RECUPERACIÓN EFICIENTE DEL CONOCIMIENTO ONTOLOGÍAS E INTELIGENCIA ARTIFICIAL PARA LA RECUPERACIÓN EFICIENTE DEL CONOCIMIENTO Antonio Martín*, Sonsoles Celestino, Adela Valdenebro, Julia Mensaque. Biblioteca Universidad de Sevilla, C/ San Fernando

Más detalles

Simulador de Protocolos de Red a tráves de WEB

Simulador de Protocolos de Red a tráves de WEB Simulador de Protocolos de Red a tráves de WEB Propuesta de Estudio 20071608 Director Ing. Francisco Antonio Polanco Montelongo Resumen Introducción Actualmente, el desarrollo tecnológico a alcanzado niveles

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Web Semántica. Características. Servicios Web. Juan Ramón Cayón Alcalde Curso de Doctorado: Adquisición de Conocimiento

Web Semántica. Características. Servicios Web. Juan Ramón Cayón Alcalde Curso de Doctorado: Adquisición de Conocimiento Web Semántica Características. Servicios Web Juan Ramón Cayón Alcalde Curso de Doctorado: Adquisición de Conocimiento Conceptos DAML - OIL - Taxonomías - Mapas Conceptuales - SHOE - OIF - Tesauros - Relaciones

Más detalles

Capítulo 5. Implementación y Tecnologías Utilizadas

Capítulo 5. Implementación y Tecnologías Utilizadas Capítulo 5. Implementación y Tecnologías Utilizadas Cada vez más, se está utilizando Flash para desarrollar aplicaciones basadas en Web, pues permite la construcción de ambientes con mayor interacción.

Más detalles

Ontologías en las IDEs

Ontologías en las IDEs 2 Jornadas IDE(s) de La República Argentina Ontologías en las IDEs Indalecio Fructuoso Bezos Cibulsky Universidad de La Punta San Luis 3 y 4 de Octubre de 2007 Evolución e la Organización de la Información

Más detalles

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Página 1 de 23 Índice del Documento 1.- Introducción... Página 4 2.- Propuesta

Más detalles

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre Ingeniería de Aplicaciones para la Web Semántica Clase 10 Ingeniería de ontologías Mg. A. G. Stankevicius Segundo Cuatrimestre 2005 Copyright 2 Copyright 2005 A. G. Stankevicius. Se asegura la libertad

Más detalles

Módulo Profesional 01: Bases de datos (código: 0484).

Módulo Profesional 01: Bases de datos (código: 0484). Módulo Profesional 01: Bases de datos (código: 0484). Actividades de enseñanza-aprendizaje que permiten alcanzar los objetivos del módulo. Interpretar diseños lógicos de bases de datos. Realizar el diseño

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Buscadores basados en agentes inteligentes

Buscadores basados en agentes inteligentes Buscadores basados en agentes inteligentes Los buscadores de contenido Estos han sido esenciales a lo largo de todo el desarrollo de la web. Basados en coincidencias de palabras o frases. Desventajas Escasa

Más detalles

Ingeniería de Software

Ingeniería de Software Ingeniería de Software MSDN Ingeniería de Software...1 Ingeniería del Software_/_ Ingeniería y Programación...1 Análisis de Requerimientos...2 Especificación...3 Diseño...4 Desarrollo en Equipo...5 Mantenimiento...6

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

GLOSARIO. Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de

GLOSARIO. Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de GLOSARIO Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de una descripción de bajo nivel (código fuente) para generar descripciones con un mayor grado de abstracción.

Más detalles

Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet

Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet Cuernavaca, Morelos Abril 2007 Temáticas de investigación Visión artificial y reconocimiento de patrones Sistemas híbridos neurosimbólicos

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL Página 1 de 21 CUALIFICACIÓN DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC154_3 Versión 5 Situación RD 1087/2005 Actualización

Más detalles

Introducción a las Ontologías

Introducción a las Ontologías Introducción a las Ontologías Gtión del Conocimiento Dr. Ariel Monterin ISISTAN Facultad de Ciencias. Exactas- UNICEN Conceptos principal Lenguaj para la construcción de Razonamiento con Conclusion Conceptos

Más detalles

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea Especificación de requisitos software Tabla de contenidos Juan José Amor David Escorial Ismael Olea 1. Introducción...3 1.1. Propósito...3 1.2. Ámbito del sistema...3 1.3. Definiciones, acrónimos y abreviaturas...3

Más detalles

1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL

1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 1 1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL La vertiente aplicada de la LC tiene como objetivo desarrollar

Más detalles

En la primera parte, se da a conocer el problema y las necesidades específicas a las que se desean dar solución con este proyecto.

En la primera parte, se da a conocer el problema y las necesidades específicas a las que se desean dar solución con este proyecto. 1. INTRODUCCIÓN La tecnología y la computación avanzan a pasos agigantados. Paralelamente los ataques en seguridad informática, exitosos o no, a organizaciones se hacen cada vez más constantes [ 1 ]. Los

Más detalles

HOJA TÉCNICA. SemTalk 2

HOJA TÉCNICA. SemTalk 2 HOJA TÉCNICA SemTalk 2 SemTalk 2 - Información Técnica SemTalk 2 es una herramienta para modelamiento de procesos de negocios y conocimientos orientado a objetos 100% compatible con MS Office. REQUERIMIENTOS

Más detalles

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Entidad Formadora: Plan Local De Formación Convocatoria 2010 Entidad Formadora: Enterprise Architect Comenzando Puede iniciar Enterprise Architect desde el ícono que se creó en su escritorio de Windows durante la instalación, o alternativamente: 1. Abrir el menú

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

PERFIL INTELIGENTE DE ONTOLOGÍAS PARA LA RECUPERACIÓN DE INFORMACIÓN. NORMA

PERFIL INTELIGENTE DE ONTOLOGÍAS PARA LA RECUPERACIÓN DE INFORMACIÓN. NORMA 155 PERFIL INTELIGENTE DE ONTOLOGÍAS PARA LA RECUPERACIÓN DE INFORMACIÓN. NORMA Antonio Martín, Sonsoles Celestino, Adela Valdenebro, Julia Mensaque. Biblioteca Universidad de Sevilla, España, toni@us.es

Más detalles

Division of Instruction: Albarrán Lax Petkiewicz López Powell Traducción: María De Melo con base en: http://commoncore- espanol.

Division of Instruction: Albarrán Lax Petkiewicz López Powell Traducción: María De Melo con base en: http://commoncore- espanol. Estándares de Lectura Literatura Ideas y detalles clave Composición y estructura Quinto Grado Integración de conocimientos e ideas Nivel de lectura y nivel de complejidad del texto Composición y estructura

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

I SEMANA ELECTRONICA REDES NEURONALES

I SEMANA ELECTRONICA REDES NEURONALES UNIVERSIDAD NACIONAL SAN ANTONIO ABAD A DEL CUSCO CARRERA PROFESIONAL DE INGENIERIA ELECTRONICA I SEMANA ELECTRONICA REDES NEURONALES Ing. Avid idromán González Se trata de una nueva forma de computación

Más detalles

WEB SEMÁNTICA (PARTE I): VISTA GENERAL DE RDF

WEB SEMÁNTICA (PARTE I): VISTA GENERAL DE RDF WEB SEMÁNTICA (PARTE I): VISTA GENERAL DE RDF Por M.A. Ing. Sergio José Rodríguez Méndez, srodriguez142857@gmail.com RESUMEN Este artículo tiene como objetivo presentar una introducción general al Marco

Más detalles

Recuperación de Información Bilingüe en la Web Semántica

Recuperación de Información Bilingüe en la Web Semántica Recuperación de Información Bilingüe en la Web Semántica Informe Final Tutor Msc. Juan José Prada Integrantes Silvana Castro Marina Larraud Instituto de Computación Facultad de Ingeniería UDELAR 2006-2007

Más detalles

Introducción. Metadatos

Introducción. Metadatos Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de

Más detalles

Según se afirma en [Santacruz,03], las tendencias de desarrollo de la Web semántica se centran en tres áreas aplicadas a la educación: la

Según se afirma en [Santacruz,03], las tendencias de desarrollo de la Web semántica se centran en tres áreas aplicadas a la educación: la Según se afirma en [Santacruz,03], las tendencias de desarrollo de la Web semántica se centran en tres áreas aplicadas a la educación: la informática, el diseño instructivo y los sistemas de bibliotecas.

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Diagrama de Clases. Diagrama de Clases

Diagrama de Clases. Diagrama de Clases Diagrama de Clases 1 Diagrama de Clases El propósito de este diagrama es el de representar los objetos fundamentales del sistema, es decir los que percibe el usuario y con los que espera tratar para completar

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos

Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos Alicia García-García, Xavier García-Massó, Antonia Ferrer, Luis-Millán González,

Más detalles

CAPÍTULO 1 Introducción

CAPÍTULO 1 Introducción CAPÍTULO 1 Introducción 1.1 Sistemas basados en conocimiento (Knowledge Based Systems) Los sistemas basados en conocimiento (Knowledge Based Systems. KBS) son aplicaciones que generan soluciones o respuestas

Más detalles

EVALUACIÓN DE BUSCADORES WEB Y RECUPERACIÓN DE INFORMACIÓN

EVALUACIÓN DE BUSCADORES WEB Y RECUPERACIÓN DE INFORMACIÓN EVALUACIÓN DE BUSCADORES WEB Y RECUPERACIÓN DE INFORMACIÓN EVALUACIÓ DE BUSCADORES WEB Aquí podemos encontrar información referente a la evaluación de buscadores Web. Encontramos información acerca de

Más detalles

Capítulo 2. Groupware

Capítulo 2. Groupware Capítulo 2. Groupware Hoy en día los sistemas de software que soportan y apoyan al trabajo en grupo han cobrado gran popularidad, debido a la naturaleza misma del ser humano a trabajar y desarrollarse

Más detalles

LOS LENGUAJES DE MARCADO APLICADOS A LOS REGISTROS BIBLIOGRÁFICOS. XML MARC DTD; XML MARC SCHEMA.

LOS LENGUAJES DE MARCADO APLICADOS A LOS REGISTROS BIBLIOGRÁFICOS. XML MARC DTD; XML MARC SCHEMA. LOS LENGUAJES DE MARCADO APLICADOS A LOS REGISTROS BIBLIOGRÁFICOS. XML MARC DTD; XML MARC SCHEMA. I. INTRODUCCIÓN A LOS LENGUAJES DE MARCADO Los lenguajes de marcado, también denominados lenguajes de marcas,

Más detalles

BASES DE DATOS MIS 308

BASES DE DATOS MIS 308 2. MODELOS DE DATOS Introducción 2.1 Entidad relación 2.2 Jerárquico 2.3 De red 2.4 Relacional Introducción Hoy en día las empresas manejan una gran cantidad de datos. Cualquier empresa que se precie debe

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 6. Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 6. Actualización Página 1 de 19 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 6 Situación Contraste externo Actualización

Más detalles

Universidad Autónoma Metropolitana

Universidad Autónoma Metropolitana Universidad Autónoma Metropolitana Unidad Azcapotzalco División de Ciencias Básicas e Ingeniería Licenciatura en Ingeniería en Computación Propuesta de Proyecto Terminal Composición de servicios web para

Más detalles

ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN

ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN Qué es un proyecto de investigación? Un proyecto de investigación consiste en el estudio de un tema en profundidad y

Más detalles

Curso a distancia: INTRODUCCIÓN AL DISEÑO LÓGICO PROGRAMABLE CON VHDL. Capítulo 3. Codificadores

Curso a distancia: INTRODUCCIÓN AL DISEÑO LÓGICO PROGRAMABLE CON VHDL. Capítulo 3. Codificadores Curso a distancia: INTRODUCCIÓN AL DISEÑO LÓGICO PROGRAMABLE CON VHDL Capítulo 3 Codificadores Codificadores binarios y codificadores de prioridad. Codificadores de 3 a 2 líneas y de 4 a dos líneas. Detector

Más detalles

En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto.

En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto. APÉNDICES En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto. APÉNDICE 1. Herramientas Las herramientas que se usaron en el análisis, desarrollo

Más detalles

Protocolos y Modelo OSI

Protocolos y Modelo OSI Protocolos y Modelo OSI. Mg. Gabriel H. Tolosa. tolosoft@unlu.edu.ar So as I look at transitioning to the communication platforms of the future, I see that the beauty of Internet protocols is you get the

Más detalles

Enterprise Analyst: Taller de Bautizo

Enterprise Analyst: Taller de Bautizo Enterprise Analyst: Taller de Bautizo Metas Entender la Necesidad de Ejecutar los Modelos Desarrollar un caso usando UML tradicional Identificar los problemas de UML Conocer la Herramienta Enterprise Analyst

Más detalles

Visualización y modelado de elementos geográficos en dispositivos móviles. Capítulo 5: Aplicaciones cliente

Visualización y modelado de elementos geográficos en dispositivos móviles. Capítulo 5: Aplicaciones cliente Capítulo 5: Aplicaciones cliente 46 5.1 La aplicación cliente en la Pocket PC La aplicación desarrollada para el cliente en un dispositivo móvil como corresponde a la Pocket PC necesita una capa muy delgada

Más detalles

COMPETENCIA PARA MANEJAR INFORMACIÓN (CMI) GLOSARIO

COMPETENCIA PARA MANEJAR INFORMACIÓN (CMI) GLOSARIO COMPETENCIA PARA MANEJAR INFORMACIÓN (CMI) GLOSARIO Descargue este documento en formato PDF (610KB; 10 páginas) (http://www.eduteka.org/pdfdir/glosariocmi.pdf) Definiciones que tienen como propósito facilitar

Más detalles

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB DENOMINACIÓN: CON TECNOLOGÍAS WEB Código: IFCD0210 Familia profesional: Informática y Comunicaciones Área profesional: Desarrollo Nivel de cualificación profesional: 3 Cualificación profesional de referencia:

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

Administración de Variabilidad en una línea de producto basada en modelos

Administración de Variabilidad en una línea de producto basada en modelos Administración de Variabilidad en una línea de producto basada en modelos Kelly Garcés Carlos Parra Hugo Arboleda Andres Yie Rubby Casallas Universidad de los Andes, Bogotá k-garces @uniandes.edu.co Universidad

Más detalles

CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 17 CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC303_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos 2.1. Principios básicos del Modelado de Objetos UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos Hoy en día muchos de los procesos que intervienen en un negocio o empresa y que resuelven

Más detalles

SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio

SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio Arturo Cepeda Pérez, Sergio Bravo Martín, Francisco José García Peñalvo Universidad de Salamanca, Facultad

Más detalles

Unidad V. Manejo de software para documentar. documentar

Unidad V. Manejo de software para documentar. documentar Unidad V Manejo de software para para documentar documentar 143 Do cumentación técnica Esquema conceptual: Unidad V Características Utilización Características Utilización 2. InDesign 1. FrameMaker 3.

Más detalles