S.E.I.T. cenidet. GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "S.E.I.T. cenidet. GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO"

Transcripción

1 . Sistema Nacional de lnsliluios Tecnologicos Direccion General de lnsliluio~tecnologicos S.E.P. S.E.I.T. D.G.I.T. '' C E N TR O N A C I O NA L DE I N V E S T I C A C I ~ N Y DE S A RR O LL O T E C N O L ~ G I C O cenidet GENERACIÓN DE,UNA ONTOLOGIA DE DOMINIO LINGÜíSTICO PARA EL ESPAÑOL A PARTIR DE DOCUMENTOS DE TEXTO T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN CIENCIAS DE LA COMPUTACI~N P R E S E N,.T A ROBERTO CARLOS TOLEDO FLANDES Director de Tesis: M.C. José Antonio Zárate Marceleno Co-Director de Tesis: Dr. Rodolfo A. Pazos Rangel CUERNAVACA. MORELOS MARZO 2005

2 cenidet Centro Nacional de lnvestigacion y Desarrollo Tecnológico Sistema Nacional d e Institutos Tecnologicos Mi0 ACEPTACI~N DEL DOCUMENTO DE TESIS Cuernavaca, Mol-., a 18 de Febrero de 2005 Dr. Cerardo Reyes Salgado Jefe del Departamento de Ciencias de la Computación Presente. At'n Dr. Reiié Saiitaolaya Salgado Presidente de la Academia de Ciencias de la Coniputación Nos es zrato comunicarle, que conforme a los liiieaiiiientos para la obtención del gi-ado de Maestro en Ciencias de este Centro, y después de,haber sometido a revisión académica la tesis titulada: Generación de una ontología de dominio lingüístico para el español, realizada por el C. Roberto Carlos Toledo Flandes, y dirigida por el M.C. José Antonio Zárate Marceleño y el Dr. Rodolfo A. Pazos Rangel, y habiendo realizado las correcciones que le fueron indicadas, acordamos ACEPTAR el documento final de tesis, así mismo le solicitamos tenga a bien extender el correspondiente oficio de autoi-izacióii de itilpresión. Atentamente La Comisión de Revisión de Tesis h. 6".iC/.. Revisor C.C.P. Revisor Subdirección Académica Depaitaiiieiito de Servicios Escolares Directores de tesis Estudiante 'I izález Sema M.C. Mario Guiiléii Rodriguez Revisor

3 Centro Nacional de Invectigacion cenidet y Desarrollo Tecnologico Sistema Nacional de Institutos Tecnológicos AUTORIZACI~N DE IMPRESI~N DE TESIS MI1 Cuernavaca, Mor., a 18 de Febrero del 2005 C. Roberto Carlos Toledo Flandes Candidato al grado de Maestro en Ciencias en Ciencias de la Computación Presente. Después de haber atendido las iiidicaciones sugeridas por la Coiiiisión Revisora de la Academia de Cieiicias de la Computación en relación a, su trabajo de tesis cuyo titulo es: Generación de una ontología de dominio lingüístico para el español, me es grato comunicarle que confoniie a los liiieariiieiitos establecidos para la obteiiciói i del gad0 de Maestro en Cieiicias en este ceiiti-o se le coiicede la autorizacióii para que proceda cdii la iiiipresióii de su tesis. Ateiitaiiiciite n,, Di-. GerardgReyes Salgado Jefe del Departamento de Ciencias de la Coinputacióii c.c.p. Suhdireccioii Académica I resideiite de la Academia de Ciencias de la Coinputacióii Ilepaitaineiito de Servicios Escolares Ikoedieiite I!

4 Dedica toria DIOS, que me hace elfavor de iluminarme, dándomefuerza en mis caídas para volverme a Cevantary seguir mi camino alládo de mis seres más queridos. Con iiiucho cariño para inis papás Luíú y Emifio, que me 6rindaii sus mejores consejos y me apoyan incondícionahiiente en Cos 6uenos momentos y no tan 6uenos. mis Marcosy a Iapequeña LuCi, porque como hemianos que somos nos hemos apoyado mutuamente y hemos estado juntos para vivir muchos momentosfellces. i m.is hqos DanieCy Diana,a quienes adoro y h han dado un nuevo sign$cado a 1n.ivda, regalandome esas sonrisas que es ecmejor motivo para seguir adehánte. A Lupita, mi compañera que me 6rinda tanto apoyo, amory cariño en este nuevo paso en mi V d a.

5 Agradecimientos Q u i e r o expresar q u e Iiaii c r e í d o en nii m i más sinccro agradecimiento a t o d a s las persoiias y que d e alguna manera hicieron p o s i b l e q u e este trabajo s e realizara: AI C e n t r o Nacional d e Investigacióii y D e s a r r o l l o T e c n o l ó g i c o, a i o d o el personal q u e labora en esta institución y p o r todo lo q u e en sus aulas y fuera d e e l l a s a p r e n d í. A Cosiiet y SEP por aportar los recursos e c o n ó m i c o s, contribuyendo enoriiieiiiente a la terminación d e esta t e s i s d e Maestría. A mi d i r e c t o r d e tesis, M. C. J o s é Antonio Z á r a t e Marceleño y m i c o d i r e c t o r d e tesis, el Dr. Rodolfo A. Pazos Rangel, por sus c o n t r i b u c i o n e s s i e m p r e acertadas, y el apoyo q u e s i e m p r e iiie brindaron. A m i s revisores M. C. Andrea Magadán S a l a z a r, M. C. J u a n Gabriel González Seriia y al M.C. M a r i o Guillén Rodriguez por su valiosa d i s p o s i c i ó n en l a revisión d e e s t e trabajo d e tesis y p o r s u s acertadas o b s e r v a c i o n e s, q u e 11 i ci e r a n pos i b I e mej o r a r I o. A Isaac, V e g a, May, Isidro, P a c o, Fredy, Xocliitl, M a n u e l, L u i s i l l o, Sheila, Alicia, Ariadna, Y o r c h, Pepe, Alex y R o d r i g a p o r ser m i s c o m p a ñ e r o s d e generación, y q u e j u n t o s supi'mos afrontar el reto d e e s t u d i a r la niaestria, pero lo m á s importante porque se c o n v i r t i e r o n en mis g r a n d e s a m i g o s, q u e dificilniente s e pueden encontrar en esta v i d a. A todos, m u c h a s gracias

6 i.as interfaces e11 leiiguale natural son una de las mejores alternativas para resolver el problenia de iiiteraccióii Iioiiibre-iiiáqiiiiia; sin embargo. su realización depende en gran iiiedida en el taiiiaiio de la base de coiiociiiiieiito y de su organización. Este proyecto forma parte de uiia tesis doctoral orientada a COIISII~I~S de bases de datos e11 espaiiol. El objeti\lo principal de la tesis doctoral es lograr la portabilidad de ni1 doniiiiio, y para este fin se propotieii dos niecaiiisnios: el uso de oiitologias para la Liase de coiiociiiiieiitos liiigüistica y la división de la base de coiiocinueiitos en una ontologia de dominio genérico y una de dominio especifico. Este trabajo se enfoca en poblar la ontología de dominio genérico. Está se realizó de dos fornias: La priniera fue obtener instancias de uiia serie de archivos de texto, capturados de iiiaiiera iiiaiiual de acuerdo a un forniato especifico (proyecto WordNet), y agregarlos a las clases previaniente definidas de la ontologia de doniiiiio genérico. La ontologia (clases e iiistaiicias) está foriiializada en el leiiguaje de iiiarcado de DARPA (DAML). La segunda forma fue desarrollar in1 procediiiueiito para la obtención de iiistaiicias a partir de textos en formato libre, a traves de nna serie de heii.aniientas desarrolladas en este trabajo y uiia herramienta coiiiercial de análisis de texto. Cabe destacar que el procediniiento anterior, sirve para encontrar patrones que identifican iiistaiicias de relaciones especificas (en yte trabajo de sinonimia y meroiiiiiua), sirve también para la identificación de otras relaciones entre palabras, y las iiistaiicias correspoiidieiires; además, el procedinuento para obtener tales instancias en formato libre peniuie iiicrenieiitar diiiániicamente la ontologia genérica, al analizar un coipus mas grande. Se describe el esquema DAML de la ontologia de doniinio genérico. así como una serie de patroiies que permitieron encoiitrar las instancias e incrementar dicha oiitologia, y de ese modo aumentar la capacidad de la iiiterfaz de leiiguaje natural hacia bases de datos. Finalmente. en esta tesis se analizan tres tipos distintos de documentos (syiisets. diccionario. texto libre) para comprobar el fuiicionaniiento de la lierraniienta. siendo los syiisets los que mejores resultados ofrece. Sin embargo. como trabajo futuro se propone,mejorar algunas de las técnicas y asi lograr resultados nias optimos e11 los dos tipos de docuiiieiitos restantes.

7 Iiiterfaces in iiatitral language are one of the best alternatives to solve the problelii of niaii-iiiacliiiie iiiteractioii: Iiowever their perforiiiaiice greatly depends 011 the interface's kiio\\,ledge base size alid oryiiizatioii. This pi~oject is part of a doctoral thesis aimed at database querying in Spaiiisli. l'lie Inlain objective ofthe thesis doctoral is to achieve doiiiaiii portability, and to this end two iiiecliaiiisiiis are proposed: the use of ontologies for die linguistic knowledge base and the division of the knowledge base into a generic doiiiaiii and a specific doiiiaiii ontology. imaiii focus of this work is tlie population oftlie generic domain ontology. It is was carried out in two ways: First one was to obtain instances from text files, fornierly captured accordiiil: to a specific format (WordNet project). and to add tlieiii to the classes previously defined of the generic oiitology. The ontology (instances and classes) is formalized in the DARPA Markup ldngiiage(daml). Second way was tlie obtaining of instances íroiii free format texts, tlirougli oí a toolkit developed in this work and a conuiiercial tool of text analysis. It is~iiecessary to Iiiglilight that former procedure, not only is good to find patterns to identify instances of specific relatioiisliips (synonymy, nieronyiny), but also is good to identify other relationships anioiig words, and the corresponding instances, besides. tlie procedure of obtaining text instances in fiee format allows to increase the generic ontology dynamically, by means of aiializiiig a bigger text corpus. The DAML schema of the generic ontology is described, as well as a series of patterns that allowed to find iiistances and io increase tliis ontology, and in that way to increase the capaciiy of the natural language interface. Finally. in this thesis three types different from docunients are analyzed (synsets, dictionary, free text) io check the operation of the tool, being the syiisets those that better results offer. Iiowever, like fuhire work intends to iniprove some of the tcclinical ones and tliis way to achieve better results in tlie two types of reiiiaining documents. i

8 Tabla de contenido...,.., I Lista de figuras... Lista de tablas......,. Glosario de termlnos..., V vii vi 1. INTRODUCCIÓN l. Antecedentes Planteamiento del problema Objetivo de la tesis , , Alcances y limitaciones Organización de la tesis MARCO TEÓRICO Sistemas expertos I. Importancia de los sistemas expertos Creación de los sistemas expertos Ontologias Componentes de la ontologia Lenguajes para especificación de ontologías Extracción de la información Componentes tipicos de un sistema de extracción de información ,...., Mineria de datos Mineria de textos Redes neuronales..., I

9 3, ESTADO DEL ARTE... ~ " " ~ ~ ' " " ' ~ " " ~ " ' ~ ~ ' 3.1, Repositorios de palabras 23 ' ~ ' ~ ~ ~ Diccionarios.,.,.....,.,.., , WordNet EuroWordNet... :,... ~'"""~'""''""'''~ 3.2. Recopilación de información, Recuperación de archivos de texto.~ Obtención de información Herramientas de mineria de datos...,.. 25 " ~ " " " ~ ~ " ~ ' ~ ' ~ ~ ~ " ' " " Trabajos relacionados Trabajos con técnicas de mineria de datos Trabajos con técnicas de mineria de texto Trabajos sobre descubrimiento de relaciones Trabajos en la generación de ontologias Comentarios del capitulo ANÁLiSiS Y SOLUCIÓN CONCE,PTUAL DEL PROBLEMA Descripción general de la problemática Diseño general de la propuesta de solución Módulos de la plataforma......,......,,...,...,., Módulo de "preprocesamiento de la información" Módulo de "búsqueda de relaciones" Módulo de '"depuración" Módulo "interprete".....,,,,,,,,,,.,...,...,..,...,......,..,.., Módulo de "creación de ontologia" Comentarios del capitulo , DISEÑO E IMPLEMENTACI~N.DEL PROTOTIPO Casos de uso......, , Diagrama de casos de uso para información sin procesar

10 Diagrama de casos de uso para información procesada Diagrama de actividad , paquetes desarrollados Descripción de modulos Tecnologias utilizadas DAML + OIL Jena Comentarios del capitulo PRUEBAS Herramientas utilizadas JBuilder Enterprise JDK Recursos técnicos utilizados Jena Escenarios de prue Plan de pruebas Evaluación experimental Comentarios del capitulo CONCLUSIONES...,,,,,,.,,,.,.,,,,,,.,,,,,,..,,,,,,,, Conclusiones Beneficios Trabajos futuros...,,,,,,,,,,,,,,,,,,,,,,

11 REFERENCIAS I... I ANEXO A INSTALACIÓN DEL MARCO DE APLICACIONES JENA ANEXO B DOCUMENTO A ANALIZAR' ANEXO C ONTOLOGiAS EN DAML ANEXO D SYNSET... ANEXO E SYNSET EN DAML iv

12 Figura 1.1 Figura 2.1 Figura 2.2 Figura 2.3 Figura 3.1 Figura 3.2 Figura 3.3 Figura 3.4 Figura 3.5 Figura 3.6 Figura 4.1 Figura 4.2 Arquitectura de la interfaz en lenguaje natural hacia base de datos Componentes de un sistema de información... Estructura general de la mineria.de datos..... Tareas que conforman el proceso de descubrimiento de conocimiento Entorno de trabajo de la herramienta Statistica Data Miner 6.0 Demo... Entorno de trabajo de la herramienta PolyAnalyst Entorno de trabajo de la herramienta TextAnalyst Ejemplos de patrones sintácticos para hipónimos... Patrones sintácticos para hipónimos y merónimos... Arquitectura para el aprendizaje de ontologias para la Web semántica Modelo conceptual de la plataforma... M Ó d u I o "Prep ro ce s a m'ie n t o de I a I n f o r m a c i ó n" Figura 4.3 Módulo "Búsqueda de Relaciones" Figura 4.4 Figura 4.5 Figura 4.6 Figura 5.1 Figura 5.2 Figura 5.3 Figura 5.4 Mod u I o 'ID e p u ra c i ó n " M ód u I o "Interpret e"... Módulo "Creación de Ontologia"... Diagrama de casos de uso para la creación de ontologias a partir de texto libre... Diagrama de casos de uso para la creación de ontologias a partir de synsets... Diagrama de actividad del caso de uso "Analizar Corpus"... Diagrama de caso de uso de "Generar DAML" V

13 Figura 5.5 Figura 5.6 Figura 5.7 Figura 5.8 Figura 6.1 Figura 6.2 Figura 6.3 Figura 6.4 Figura 6.5 Figura 6.6 Figura 6.7 Figura a.1 Figura a.2 Figura a.3 Figura a.4 Figura f.1 Figura f.2 Figura f.3 Figura f.4 Figura f.5 Figura f.6 Figura f.7 Clases del paquete ontogen... Clases del paquete generada... Clases de\ paquete escribedaml Clases del paquete synset......,. Escenario de prueba 1... Escenario de prueba Preprocesamiento del documento., ,......, Ejemplares relacionados encontrados... Depuración de ejemplares... Ontologia final Documento codificado.en DAML a partir de synsets... Abrir ventana de propiedades del proyecto... Ventana de Propiedades del proyecto... sekcción de la biblioteca... Asistente para agregar biblioteca... Patrón para sustantivo-sustantivo.. Patrón para sustantivo-adjetivo... Patrón alterno para sustantivo-adjetivo,..,,,,,..,,,,,,,,.,.,,,,,.., Patrón para verbo-verbo <.. Patrón para sustantivo-verbo Patrón alterno para sustantivo-verbo... Patrón para alterno para sustantivo-sustantivo...,,,,,,.,,,,,,,,,,,.,.,..,,,..,,, vi

14 Tabla 3.1. Tabla 6.1. Tabla comparativa de proyectos... Características del corpus Tabla 6.2. Características del lexicon Tabla 6.3 Características del texto,libre..., 61 Tabla 6.4. Plan de pruebas

15 Anáfora. Repetición. Arcaismo. Frase o palabra anticuada. Empleo de frases o palabras anticuadas Base de conocimiento. Colección de conocimiento que se utiliza para resolver problemas o hacer recomendaciones Caló. Lengua propia de la raza gitana. Algunos de cuyos términos han pasado al habla popular Elipsis. Figura de construcción que consiste'en suprimir en la oración aquellas palabras que no son indispensables para la claridad de la misma. Qué tal?. Asi, as. Y aquello, qué? Son oraciones elipticas. Hiperonimia. Relación de significados de un hiperónirno con respecto a sus hipónimos Hiperónimo. Palabra cuyo significado incluye al de otra u otras; p. ej. pájaro respecto a jilguero y gorrión, Hiponimia. Relación de significado de un hipónimo respecto a su hiperónimo. Hipónimo. Palabra cuyo significado esta incluido en el de otra; p. ej., gorrión respecto a pájaro Meronimia. Es la relación semántica entre una unidad lexica que denota una parte y lo que denota el correspondiente todo, p ej, brazo es parte de cuerpo humano Polisemia. Pluralidad de significados de una palabra

16 CAPITULO 1 INTRoDUCCION INTRODUCCI~N.. En este Capitulo se explica el contexto del trabajo, incluyendo los antecedentes, la problemática, el objetivo y los alcances, así como la organización del documento. 1

17 CAPITULO 1 INTRoDUCCION 1.I. Antecedentes Desde el origen del World Wide Web (WWW), su crecimiento en todo el mundo se ha incrementado de forma considerable, por consiguiente se ha logrado que una gran cantidad de información se encuentre disponible en difeientes formatos. por ejemplo: documentos de texto. bases de datos, documentos de HTML, XML, etc. En consecuencia, surge la necesidad de implementar nuevos medios para acceder y procesar dicha información. Por lo anterior, la sociedad demanda mayores servicios de acceso y análisis de la información. Una de las propuestas para mejorar dichos servicios es el procesamiento de IengUaJe natural (PLN). el cual fue descartado por varios años por limitaciones tecnológicas y que, gracias a los avances actuales, se ve como una alternativa viable. Las herramientas que trabajan con PLN necesitan recipientes de palabras, los cuales según sus características, son llamados bases de datos Iéxicas. sintácticas o bases de conocimiento lingüistico. En todas ellas se busca, además de guardar las palabras, almacenar las relaciones que tienen entre ellas y su comportamiento dentro del lenguaje, as como su funcionalidad tanto individualmente como en frases, y lo mas importante, esta información es codificada en algún tipo de formalismo que permite que pueda ser utilizada por aplicaciones, mas que por personas. Existen diferentes formalismos para representar el conocimiento lingüistico, uno de los cuales es la formalización mediante ontologías'. Las ontologias proporcionan un vocabulario unificado, consistente y coherente, expresado en lenguajes procesables por una computadora y con distinto grado de formalidad. Permiten que una aplicación pueda "dialogar" con otra, gracias a que las dos entienden lo mismo, aunque los términos empleados sean distintos. Existen ontologias prediseñadas, donde la información se presenta de una manera muy restringida, por lo tanto, no tienen un mecanismo de actualización o modificación de manera automática, siendo esto un problema para mantener la ontologia con información generalizada y actualizada. En este proyecto se generó una base de datos Iéxica. modelada como una ontología. Las aplicaciones desarrolladas para generar dicha ontologia. permiten que se incremente dinámicamente a través del análisis de textos. 1 Ontoloqia: Es un esquema de especificación donde se describen conceptos y relaciones en el dominio del discurso. Es una conceptualización del mundo en función de objetos, cualidades, distinciones y relaciones [l]. 2

18 CAPiTULO 1 INTRODUCCION 1.2. Planteamiento del problema La popularidad del uso de Internet ha ido incrementandose de manera impresionante y la mayoria de los usuarios que se incorporan a este fenómeno generalmente no tienen una educación formal en computación. Por otra parte la información publicada o disponible también ha sufrido un incremento considerable, con el inconveniente de que se encuentra disponible en diversos formatos (documentos en Word, PD.F. presentaciones, documentos de HTML. XML, ASP, entre otros), por lo que el problema de localizar información de acuerdo a las necesidades del Usuario se complica demasiado por la diversidad existente. Una solución al problema de que un Usuario pueda expresar fácilmente una consulta de información, son las Interfaces en Lenguaje Natural hacia Bases de Datos (ILNBD). Hacia finales del 2001 en el CENIDET se empezó a construir una ILNBD orientado a consultas de bases de datos en español, en la figura 1.I se observa que el proyecto se divide en una serie de módulos, que consisten en validar la consulta (formulada por el usuario) y generar un resultado, pero para poder realizar el análisis de tales consultas es necesario utilizar una base de li conocimientos. Esta base de conocimientos se modelará como una ontologia. Base de conocimientos Figura 1.1 Arquitectura de la lnterfaz en Lenguaje Natural hacia Bases de Datos. Se propone dividir la ontología.(base de conocimientos) en una ontología de dominio generico y una de dominio especifico, ya que si se cambia de contexto en la ILNBD, solo se 3

19 CAPITULO 1 INTRODUCC~ON tendrian que cambiar ciertos módulos, sin necesidad de cambiar la mayor parte de la OntolOgia. Actualmente como parte de una tesis de maestria se tiene desarrollado un editor de OntOlOgiaS para crear la ontología de dominio especifico 121. El proyecto aqui expuesto diseña un mecanismo que permite generar de una manera semiautomática la ontoiogia de dominio genérico, ya que hacerlo manualmente implica un gran trabajo. El gran problema es que la información necesaria para crear esta ontologia, no está tan explicitamente disponible, ya que las fuentes más comunes para generarla se encuentran en documentos, páginas Web, bases de datos, etc.. los cuales no fueron diseñados para codificar información como conceptos y relaciones. Esta Última información se encuentra en forma "implicita", pero extraerla no es una tarea facil, ya que las sutilezas del lenguaje hacen que muchas relaciones que existen, impliquen un gran esfuerzo de análisis para poder reconocerlas y extraerlas. Por ejemplo, de la famosa frase de Benito Juárez "A los amigos justicia y gracia y a los enemigos justicia a secas", sólo nos diria que amigos y enemigos son diferentes, pero en ninguna parte se puede concluir que sean antónimos. De igual forma, si concluyéramos que palabras con patrones sintácticos semejantes son sinónimos como "tu comida está servida" y "tu alimento esta servido", nos podria llevar a conclusiones,erróneas como que Juan y Luis son sinónimos, derivado de las frases "Juan está sentado" y "Luis está sentado". También existen palabras que se utilizan como adjetivos y sustantivos generando contextos idénticos, incluso cuando tienen diferentes funciones; de la expresión "la obligación de un técnico" y "el reporte técnico" el mismo contexto sintáctico se extraeria de las palabras "obligación" y "reporte", el cual seria <técnico>, por lo que para el sistema no habria ninguna distinción con respecto a su función. Aunque existen varios proyectos tendientes a generar una base de conocimientos de manera semiautomática como los siguientes: "Aplicaciones Cooperativas de recuperación de información ACORDEON 131, "El sistema de codificación y procesamiento del lenguaje natural de Planeta Actimedia" [4], "Base de datos sintácticos del español actual" [SI,etc; ninguno se orienta ai reuso. a la compartición de información, ni son diseñados de una manera modular. Estas deficiencias hacen que sea dificil implementar un lexicón2 y traducirla a una ontología. Otro problema relacionado es cuando se encuentran preposiciones en las frases u oraciones, que generalmente son ignoradas. No obstante, estas preposiciones tienen información 2 :Repositorio de información lexica elaborado con el objeto de servir de soporte representativo a diversas aplicaciones en el ámbito de las tecnologias del lenguaje humano, asi como el trabajo lexicografico tradicional.' es decir, la elaboración de diccionarios destinados a la consulta por un usuario humano [6]. 4

20 CAPITULO I INTRODUCC~ON semántica relevante para discriminar palabras. Considere la siguiente expresión: "marca de camisa" y "marca en la camisa", el mismo contexto <camisa> es extraido para el sustantivo "marca" en ambas expresiones. No obstante, la preposición "de" trae una dependencia sintáctica diferente que la preposición "en". por lo que las preposiciones deben ser consideradas como parte del contexto sintáctico. La dificultad de este trabajo de tesis radica en encontrar la técnica o técnicas de minería de datos más adecuadas que permitan generar una ontología a partir de un corpus3 de documentos, tratando, hasta donde sea posible, de discernir entre algunos problemas semánticos (SinónimOS, antónimos. homónimos, etc.). que pueden llevar a conclusiones erróneas, y que aquellas conclusiones que impliquen un gran trabajo de desambiguación, sean corregidas por un Usuario. que "refinaría" la ontología generada Objetivo de la tesis Construir una ontología del lenguaje español a partir de un corpus de documentos para una interfaz en lenguaje natural hacia bases de datos, y desarrollar las herramientas necesarias para crear y mantener dicha ontología 1.4. Alcances y limitaciones Alcances: 1. Recopilar un corpus de documentos del español hablado en Mexico (por lo menos 2000 páginas) y normalizarlo a formato texto (ASCII), eliminando caracteres de control e imágenes. 2. Crear una ontología intermedia a partir del corpus. Esta ontología tiene los resultados del análisis del corpus realizado por la herramienta, conteniendo posibles errores que deben ser validados por el usuario. 3. lmplementar herramientas que permitan eliminar conceptos erróneos o modificar conceptos ambiguos en la ontologia intermedia. 4. Generar un traductor de la ontología intermedia al lenguaje DAML. 5. lmplernentar un traductor de los synsets capturados al lenguaje DAML. 3 m: "Colección ordenada de textos codificados electrónicamente. un conjunto de bases de datos textuales unidas en un sistema.de estructuracion de datos, textos, referencias y utensilios informáticos para su tratamiento. bien en linea o en conexión directa a una computadora" [7]. 5

21 INTRODUCCION CAPITULO 1 Limitaciones: 1. NO se considera agregar a la ontologia tecnicismos, vuigarismos, arcaismos Y caló. aunque sí se pretende que manualmente se:le incorporen términos que sean necesarios. 2. Las pruebas solamente muestran que el corpus puede ser creado, modificado y que puede ser extendido, pero el corpus obtenido al final no cubrirá el cien por Ciento del lenguaje español en su variante de México. 3. El mecanismo de desambiguación en el sentido de las palabras no considera múitiples fuentes, y en su mayor parte, es asistido por un usuario. 4. En el análisis del corpus no se considera revisar aspectos de fenónienos lingüisticos como la anáfora, la elipsis, etc. 5. La versión utilizada de DAML es la,daml+oll de marzo del El lenguaje de programación de las herramientas es Java, el sistema operativo es Windows, y el manejador de bases de datos propuesto MySQL. 7, NO se optimiza el tiempo en que se genere la ontologia intermedia ni el tiempo en que se genera la ontologia final en DAML Organización de la tesis La tesis se organiza en los siguientes capítulos: Capitulo 1. Se presenta una introducción para situar al lector en el contexto en el cual se desarrolló esta tesis, definiendo además el planteamiento del problema, el objetivo, alcances y limitaciones de la misma. Capitulo 2. Se hace un recorrido por los diferentes conceptos y tecnologias involucradas en el proceso de representación de la información y las diferentes formas de recuperarla para el desarrollo del prototipo. Capitulo 3. Se describen brevemente los trabajos realizados, empezando con la recuperación y obtención de la información hasta su representación. Capitulo 4. Se describe el análisis realizado correspondiente a la propuesta de solución, con el fin de establecer una metodologia para encontrar relaciones léxico-semanticas y representarlos en un lenguaje. Capitulo 5. Se describen los módulos implementados que conforman esta herramienta. 6!I

22 CAPITULO 1 INTRODUCCION Capitulo 6. Se presentan los resultados de las pruebas realizadas al prototipo, que demuestran la funcionalidad del sistema implementado en el presente trabajo de investigación. Capitulo 7. Se plantean los conclusiones a las que se llegaron durante este trabajo de investigación, así como los beneficios ofrecidos por este proyecto, y se sugieren trabajos futuros que pueden dar continuidad a esta investigación. 7

23 CAPITULO 2 MARCO TEÓRICO MARCO TEÓRICO En este capitulo se explican los conceptos básicos en relación al trabajo de tesis, tales como lenguajes de marcado y métodos existentes para la recuperación de información. 8

24 CAP~TULO 2 MARCO TEÓRICO 2.1. Sistemas expertos [8] Uno de los objetivos de la herramienta desarrollada en la presente tesis es reducir el trabajo correspondiente a la búsqueda de palabras relacionadas y creación de la OntOlogia. est0 Se logra creando un sistema modelado como'sistema experto en el que se ofrecen las herramientas basicas y es entendible para un usuario con conocimientos básicos en el tema de ontologias. A continuación se menciona una breve explicación sobre los sistemas expertos, asi como dos secciones enfocados a su importancia y creación. Los sistemas expertos se pueden considerar como el primer producto verdaderamente operacional de la inteligencia artificial. Son programas de computadora diseñados para actuar como un especialista humano en un dominio particular o área de conocimiento. En este sentido, pueden considerarse como intermediarios entre el experto humano, que transmite su conocimiento al sistema y el usuario que lo utiliza para resolver un problema con la eficacia del especialista. El sistema experto utiliza para ello, el~conocimiento que tenga almacenado y algunos métodos de inferencia A la vez, el usuario puede aprender observando el comportamiento del sistema. Es decir, los sistemas expertos se pueden considerar simultáneamente como un medio de ejecución y transmisión del conocimiento. Lo que se intenta de esta manera es representar los mecanismos heuristicos que intervienen en un proceso de descubrimiento. Estos mecanismos forman ese conocimiento dificil de expresar que permite que los expertos humanos sean eficaces trabajando lo menos posible. Los sistemas expertos contienen ese "saber hacer". La caracteristica fundamental de un sistema experto es que separa los conocimientos almacenados (base de conocimiento) del programa que los controla (motor de inferencia). Los datos propios de un determinado problema se almacenan en una base de datos aparte (base de hechos). 9

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

Búsqueda sobre catálogos basada en ontologías

Búsqueda sobre catálogos basada en ontologías Búsqueda sobre catálogos basada en ontologías Alianis Pérez Sosa, Yuniel Eliades Proenza Arias Universidad de las Ciencias Informáticas. Carretera a San Antonio Km 2 ½, Reparto Torrens, La Lisa, Ciudad

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

TEMA 1: INTRODUCCIÓN

TEMA 1: INTRODUCCIÓN 1 DISEÑO Y DESARROLLO DE COMPILADORES TEMA 1: INTRODUCCIÓN Qué es un Compilador? Un compilador no es más que un traductor, es decir, un programa que nos permite pasar información de un lenguaje a otro.

Más detalles

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto Organizaciones Virtuales e Integración de Información José Abásolo Prieto Universidad de los Andes Objetivo de la charla Mostrar que aunque la problemática de integración de información distribuida y heterogénea

Más detalles

Análisis del Sistema de Información

Análisis del Sistema de Información Análisis del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD ASI 1: DEFINICIÓN DEL SISTEMA... 6 Tarea ASI 1.1: Determinación del Alcance del Sistema... 6 Tarea ASI 1.2: Identificación

Más detalles

Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas

Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas Gestión de la Información Multimedia en Internet Gestión del conocimiento DAML y ontologías consensuadas Autor: Pablo Barrera González Profesor: Carlos Delgado Kloos Fecha de presentación: 7 de Febrero

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

CAMINO HACIA LA WEB SEMÁNTICA. Jorge Alejandro Castillo Morales Universidad de Edimburgo

CAMINO HACIA LA WEB SEMÁNTICA. Jorge Alejandro Castillo Morales Universidad de Edimburgo INVESTIGACIÓN & DESARROLLO, No 5: 115 120 (2005) ISSN 1814-6333 RESUMEN CAMINO HACIA LA WEB SEMÁNTICA Jorge Alejandro Castillo Morales Universidad de Edimburgo El rápido crecimiento de la Word Wide Web

Más detalles

Uso de ontologías en tareas de recupero de información. Marcelo Tallarico Tesis de Licenciatura

Uso de ontologías en tareas de recupero de información. Marcelo Tallarico Tesis de Licenciatura Uso de ontologías en tareas de recupero de información Marcelo Tallarico Tesis de Licenciatura Uso de ontologías en tareas de recupero de información Objetivo Definición Componentes Clasificación Lenguajes

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl)

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) EVOLUCIÓN DE LA WEB Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) Contenido Historia del Internet. La Web 1.0. Definición. Características. La Web 2.0. Definición. Tecnologías de la

Más detalles

Ontologías ECSDI. Curso 2014/2015. LSI-FIB-UPC cbea. ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36

Ontologías ECSDI. Curso 2014/2015. LSI-FIB-UPC cbea. ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36 Ontologías ECSDI LSI-FIB-UPC cbea Curso 2014/2015 ECSDI (LSI-FIB-UPC cbea) Ontologías Curso 2014/2015 1 / 36 Índice 1 Introducción 2 Ontologias 3 Proyectos de Ontologías 4 Elementos de un ontología ECSDI

Más detalles

Ingeniería de Software

Ingeniería de Software Ingeniería de Software MSDN Ingeniería de Software...1 Ingeniería del Software_/_ Ingeniería y Programación...1 Análisis de Requerimientos...2 Especificación...3 Diseño...4 Desarrollo en Equipo...5 Mantenimiento...6

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo. GLOSARIO Actor: Un actor es un usuario del sistema. Esto incluye usuarios humanos y otros sistemas computacionales. Un actor usa un Caso de Uso para ejecutar una porción de trabajo de valor para el negocio.

Más detalles

Seminario Web Semántica y Ontologías

Seminario Web Semántica y Ontologías Seminario Web Semántica y Ontologías Inteligencia Artificial 5 o Informática IA curso 2012-2013 CCIA Noviembre 2012 IA 1112 (CCIA) Seminario Web Semántica Noviembre-2012 1 / 15 Web Semántica vs. Web Actual

Más detalles

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

Capítulo 4. Ontologías y su representación jerárquica.

Capítulo 4. Ontologías y su representación jerárquica. Capítulo 4. Ontologías y su representación jerárquica. En la interpretación de alto nivel de información visual, se tienen muchos progresos en la derivación de características de bajo nivel a partir de

Más detalles

En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto.

En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto. APÉNDICES En el siguiente apartado se detallan ciertos conceptos que ayudan a comprender en mayor medida el Proyecto. APÉNDICE 1. Herramientas Las herramientas que se usaron en el análisis, desarrollo

Más detalles

Compiladores y Lenguajes de Programación. Maria de Guadalupe Cota Ortiz

Compiladores y Lenguajes de Programación. Maria de Guadalupe Cota Ortiz Compiladores y Lenguajes de Programación Maria de Guadalupe Cota Ortiz Organizaciones que rigen las normas para estandarización de Lenguajes de Programación IEEE (Instituto de Ingenieros Eléctricos y Electrónicos)

Más detalles

Simulador de Protocolos de Red a tráves de WEB

Simulador de Protocolos de Red a tráves de WEB Simulador de Protocolos de Red a tráves de WEB Propuesta de Estudio 20071608 Director Ing. Francisco Antonio Polanco Montelongo Resumen Introducción Actualmente, el desarrollo tecnológico a alcanzado niveles

Más detalles

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea Especificación de requisitos software Tabla de contenidos Juan José Amor David Escorial Ismael Olea 1. Introducción...3 1.1. Propósito...3 1.2. Ámbito del sistema...3 1.3. Definiciones, acrónimos y abreviaturas...3

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Introducción. Metadatos

Introducción. Metadatos Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de

Más detalles

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción Dato: Hecho o valor a partir del cual se puede inferir una conclusión.

Más detalles

1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL

1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 1 1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL La vertiente aplicada de la LC tiene como objetivo desarrollar

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

GLOSARIO DE TERMINOS

GLOSARIO DE TERMINOS GLOSARIO DE TERMINOS A Aplicaciones Legacy.- Conjunto de aplicaciones desarrolladas o implementadas en plataformas de sistemas anteriores o antiguos. B Bases de Datos.- Organización y conservación de datos

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

HOJA TÉCNICA. SemTalk 2

HOJA TÉCNICA. SemTalk 2 HOJA TÉCNICA SemTalk 2 SemTalk 2 - Información Técnica SemTalk 2 es una herramienta para modelamiento de procesos de negocios y conocimientos orientado a objetos 100% compatible con MS Office. REQUERIMIENTOS

Más detalles

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro Capitulo 6 Conclusiones y Aplicaciones a Futuro. En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro para nuestro sistema. Se darán las conclusiones para cada aspecto del sistema,

Más detalles

VISIÓN GENERAL HERRAMIENTAS COMERCIALES

VISIÓN GENERAL HERRAMIENTAS COMERCIALES VISIÓN GENERAL El servidor de MS SQL se ha convertido en un estándar en muchas partes de la América corporativa. Puede manejar volúmenes de datos grandes y se integra bien con otros productos de Microsoft.

Más detalles

CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 17 CUALIFICACIÓN PROGRAMACIÓN DE SISTEMAS INFORMÁTICOS PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC303_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

GLOSARIO. Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de

GLOSARIO. Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de GLOSARIO Análisis Bottom-Up: Técnica utilizada en tareas de ingeniería inversa la cual parte de una descripción de bajo nivel (código fuente) para generar descripciones con un mayor grado de abstracción.

Más detalles

La Web Semántica como herramienta para e-learning

La Web Semántica como herramienta para e-learning La Web Semántica como herramienta para e-learning Lidia Marina López llopez@uncoma.edu.ar Departamento de Ciencias de la Computación Universidad Nacional del Comahue Buenos Aires 1400 8300 Neuquén Tel.

Más detalles

Programación orientada a

Programación orientada a Programación orientada a objetos con Java Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos de la programación

Más detalles

O jeto de apre r ndizaje

O jeto de apre r ndizaje Herramientas de Gestión para Objetos de Aprendizaje. Plataforma AGORA Victor Hugo Menéndez Domínguez Universidad Autónoma de Yucatán, México :: mdoming@uady.mx Manuel Emilio Prieto Méndez Universidad de

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

Estructura de Bases de datos. Leonardo Víquez Acuña

Estructura de Bases de datos. Leonardo Víquez Acuña Estructura de Bases de datos Leonardo Víquez Acuña Lenguajes de Bases de Datos Un sistema de bases de datos proporciona Un lenguaje de definición de datos para especificar el esquema de la base de datos

Más detalles

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el Capitulo II. Análisis de herramientas y tecnologías de desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el lenguaje de Modelo de Objetos llamado UML (Unified

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

LA WEB DEL FUTURO. ALUMNOS: Miguel Ángel Merín Adrián Martínez. MÓDULO: Despliegue de Aplicaciones Web

LA WEB DEL FUTURO. ALUMNOS: Miguel Ángel Merín Adrián Martínez. MÓDULO: Despliegue de Aplicaciones Web LA WEB DEL FUTURO ALUMNOS: Miguel Ángel Merín Adrián Martínez MÓDULO: Despliegue de Aplicaciones Web CICLO: Desarrollo de Aplicaciones Web CPIFP Los Enlaces FECHA: 25 de octubre de 2012 INTRODUCCIÓN Vivimos

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

Capítulo 5. Implementación y Tecnologías Utilizadas

Capítulo 5. Implementación y Tecnologías Utilizadas Capítulo 5. Implementación y Tecnologías Utilizadas Cada vez más, se está utilizando Flash para desarrollar aplicaciones basadas en Web, pues permite la construcción de ambientes con mayor interacción.

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre

Clase 10. Ingeniería de ontologías. Mg. A. G. Stankevicius. Segundo Cuatrimestre Ingeniería de Aplicaciones para la Web Semántica Clase 10 Ingeniería de ontologías Mg. A. G. Stankevicius Segundo Cuatrimestre 2005 Copyright 2 Copyright 2005 A. G. Stankevicius. Se asegura la libertad

Más detalles

XML. El nuevo lenguaje universal

XML. El nuevo lenguaje universal Tema: XML el nuevo lenguaje universal. Autor: Marlene Melián Montalvo Institución: CITMATEL. Este trabajo consiste en una introducción al lenguaje XML. En el mismo se da a conocer su surgimiento, definiciones

Más detalles

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Página 1 de 23 Índice del Documento 1.- Introducción... Página 4 2.- Propuesta

Más detalles

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos 2.1. Principios básicos del Modelado de Objetos UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos Hoy en día muchos de los procesos que intervienen en un negocio o empresa y que resuelven

Más detalles

LENGUAJES NATURALES. TEMA. Análisis Semántico

LENGUAJES NATURALES. TEMA. Análisis Semántico LENGUAJES NATURALES TEMA. Análisis Semántico FJRP. LN, 2005 11 de diciembre de 2006 1. Introducción Sigue al análisis sintáctico, intentando determinar el significado de las frases analizadas. Aproximación

Más detalles

I SEMANA ELECTRONICA REDES NEURONALES

I SEMANA ELECTRONICA REDES NEURONALES UNIVERSIDAD NACIONAL SAN ANTONIO ABAD A DEL CUSCO CARRERA PROFESIONAL DE INGENIERIA ELECTRONICA I SEMANA ELECTRONICA REDES NEURONALES Ing. Avid idromán González Se trata de una nueva forma de computación

Más detalles

Protocolos y Modelo OSI

Protocolos y Modelo OSI Protocolos y Modelo OSI. Mg. Gabriel H. Tolosa. tolosoft@unlu.edu.ar So as I look at transitioning to the communication platforms of the future, I see that the beauty of Internet protocols is you get the

Más detalles

TFC J2EE. Aplicación Web para la gestión de facturación de una empresa de cerrajería. Sara Gutiérrez Melero ITIG Junio de 2012

TFC J2EE. Aplicación Web para la gestión de facturación de una empresa de cerrajería. Sara Gutiérrez Melero ITIG Junio de 2012 TFC J2EE Aplicación Web para la gestión de facturación de una empresa de cerrajería Sara Gutiérrez Melero ITIG Junio de 2012 Consultor: Jose Juan Rodriguez Índice 1. Introducción Objetivos Planificación

Más detalles

CAPÍTULO I INTRODUCCIÓN

CAPÍTULO I INTRODUCCIÓN CAPÍTULO I INTRODUCCIÓN Una página Web es un documento situado en una red informática al que se accede mediante enlaces de hipertexto, y éste es aquel texto que contiene elementos a partir de los cuales

Más detalles

Unidad II. - Las técnicas en las que se basó, las categorías de análisis o ejes centrales que permiten guiar el proceso de investigación.

Unidad II. - Las técnicas en las que se basó, las categorías de análisis o ejes centrales que permiten guiar el proceso de investigación. Unidad II Metodología de Solución de Problemas 2.1 Descripción del problema (enunciado). Este aspecto nos indica describir de manera objetiva la realidad del problema que se esta investigando. En la descripción

Más detalles

Nombre de la asignatura: Inteligencia Artificial. Créditos: 2-2 - 4. Aportación al perfil

Nombre de la asignatura: Inteligencia Artificial. Créditos: 2-2 - 4. Aportación al perfil Nombre de la asignatura: Inteligencia Artificial Créditos: 2-2 - 4 Aportación al perfil Diseñar e implementar interfaces hombre- máquina y máquinamáquina para la automatización de sistemas. Identificar

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013 Presentación de Trabajo de Fin de Máster PROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS Máster en Lenguajes y Sistemas Informáticos:

Más detalles

INGENIERIA DE SOFTWARE I INTRODUCCIÓN A LA INGENIERIA DE SOFTWARE

INGENIERIA DE SOFTWARE I INTRODUCCIÓN A LA INGENIERIA DE SOFTWARE INGENIERIA DE SOFTWARE I INTRODUCCIÓN A LA INGENIERIA DE SOFTWARE Agenda El software. Definición de software Dominios de aplicación Software heredado La naturaleza de las webapps Ingeniería del software

Más detalles

OWL DESCRIPCION DE LA ONTOLOGÍA. Alberto Gómez López

OWL DESCRIPCION DE LA ONTOLOGÍA. Alberto Gómez López OWL DESCRIPCION DE LA ONTOLOGÍA Alberto Gómez López INDICE Introducción Utilidades de las ontologías para la Web OWL conceptos 3 Sub-lenguajes Sinopsis Lite Sinopsis Dl y Completo Descripción de la lengua

Más detalles

CA ERwin Data Profiler

CA ERwin Data Profiler RESUMEN DEL PRODUCTO: CA ERWIN DATA PROFILER CA ERwin Data Profiler CA ERWIN DATA PROFILER AYUDA A LAS ORGANIZACIONES A REDUCIR LOS COSTOS Y RIESGOS ASOCIADOS CON LA INTEGRACIÓN DE DATOS, AL BRINDAR CAPACIDADES

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Servicio de Difusión de la Creación Intelectual (SeDiCI)

Servicio de Difusión de la Creación Intelectual (SeDiCI) Servicio de Difusión de la Creación Intelectual (SeDiCI) SeDiCI es el repositorio institucional de la Universidad Nacional de La Plata (UNLP), creado con dos objetivos prioritarios: Para atender al rol

Más detalles

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Entidad Formadora: Plan Local De Formación Convocatoria 2010 Entidad Formadora: Enterprise Architect Comenzando Puede iniciar Enterprise Architect desde el ícono que se creó en su escritorio de Windows durante la instalación, o alternativamente: 1. Abrir el menú

Más detalles

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL

DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL Página 1 de 21 CUALIFICACIÓN DESARROLLO DE APLICACIONES CON TECNOLOGÍAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC154_3 Versión 5 Situación RD 1087/2005 Actualización

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Evaluar el rendimiento de los servicios de comunicaciones. ANEXO CLIV

Evaluar el rendimiento de los servicios de comunicaciones. ANEXO CLIV 746 Miércoles 5 octubre 2005 Suplemento del BOE núm. 238 CE2.1 Identificar los distintos sistemas de archivo utilizables en un dispositivo de almacenamiento dado para optimizar los procesos de registro

Más detalles

MODELADO DE OBJETOS DE DATOS

MODELADO DE OBJETOS DE DATOS Manual Página Web MODELADO DE OBJETOS DE DATOS MANUALES ESPECIALES Documento: Manual Páginas Web (SemanticWebBuilder). Fecha de Elaboración: Marzo de 2009. INFOTEC CONACYT FIDEICOMISO. Página i Glosario

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Etapas del desarrollo

Etapas del desarrollo Capítulo 4 Etapas del desarrollo Este capítulo documenta la aplicación del modelo presentado anteriormente, para el caso de la detección y clasificación de eventos sísmicos sobre señales digitales. El

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

GESTIÓN DE SOFTWARE INFORME SOBRE. Evaluación de Productos UNIVERSIDAD DE LA REPUBLICA - FACULTAD DE INGENIERÍA. Grupo 2

GESTIÓN DE SOFTWARE INFORME SOBRE. Evaluación de Productos UNIVERSIDAD DE LA REPUBLICA - FACULTAD DE INGENIERÍA. Grupo 2 UNIVERSIDAD DE LA REPUBLICA - FACULTAD DE INGENIERÍA GESTIÓN DE SOFTWARE INFORME SOBRE Evaluación de Productos Grupo 2 Marcelo Caponi 3.825.139-0 Daniel De Vera 4.120.602-3 José Luis Ibarra 4.347.596-3

Más detalles

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE Thomas A. Little Ph. D Traducción Autorizada por el Autor. Traductor: MANUEL H RAMIREZ Alta Via Consulting-América Latina La Modelación y Análisis de

Más detalles

Programación Orientada a Objetos Profr. Pedro Pablo Mayorga

Programación Orientada a Objetos Profr. Pedro Pablo Mayorga Actividad 2 Unidad 1 Ciclo de vida del software y Diseño Orientado a Objetos Ciclo de Vida del Software Un modelo de ciclo de vida define el estado de las fases a través de las cuales se mueve un proyecto

Más detalles

Documento de Competencias. Facultad de Informática, UPV/EHU. 1 Estructura general del Grado TE1 TE2 TE3 TE4 TE5 TE6 TE7 TE8

Documento de Competencias. Facultad de Informática, UPV/EHU. 1 Estructura general del Grado TE1 TE2 TE3 TE4 TE5 TE6 TE7 TE8 Documento de Competencias Grado en INGENIERÍA INFORMÁTICA Facultad de Informática, UPV/EHU 1 Estructura general del Grado 1.1 Fundamentos de Tecnología de los Principios de Diseño de Sistemas Digitales

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

Diagrama de Clases. Diagrama de Clases

Diagrama de Clases. Diagrama de Clases Diagrama de Clases 1 Diagrama de Clases El propósito de este diagrama es el de representar los objetos fundamentales del sistema, es decir los que percibe el usuario y con los que espera tratar para completar

Más detalles

Capitulo III. Diseño del Sistema.

Capitulo III. Diseño del Sistema. Capitulo III. Diseño del Sistema. Para el desarrollo del sistema en la presente tesis se utilizo el paradigma orientado a objetos utilizando el lenguaje Java en su versión 1.2. Por medio de este lenguaje

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Buscadores basados en agentes inteligentes

Buscadores basados en agentes inteligentes Buscadores basados en agentes inteligentes Los buscadores de contenido Estos han sido esenciales a lo largo de todo el desarrollo de la web. Basados en coincidencias de palabras o frases. Desventajas Escasa

Más detalles

Ministerio de Educación Base de datos en la Enseñanza. Glosario

Ministerio de Educación Base de datos en la Enseñanza. Glosario Ministerio de Educación Base de datos en la Enseñanza. Glosario Instituto de Tecnologías Educativas 2011 Glosario Glosario GLOSARIO Archivo Un archivo es un elemento que contiene información y que a su

Más detalles

Bases de Datos Geográficas

Bases de Datos Geográficas 2 Bases de Datos Geográficas El secreto del éxito es la constancia en el propósito Benjamín Disraeli Cuántas manzanas habrán caído sobre la cabeza de Newton antes que comprendiera lo que le estaban sugiriendo

Más detalles

Metodología ETL para el procesamiento de datos en repositorios de proyectos de software usando ontologías

Metodología ETL para el procesamiento de datos en repositorios de proyectos de software usando ontologías Metodología ETL para el procesamiento de datos en repositorios de proyectos de software usando ontologías Moises Gonzalez García Departamento de ingeniería en software CENIDET Cuernavaca Morelos moises@cenidet.edu.mx

Más detalles

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Programa de Capacitación y Certificación. INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Contenido PERFIL DE UN ESPECIALISTA EN BASES DE DATOS.... 3 6231. MANTENIENDO UNA BASE DE DATOS DE SQL SERVER 2008

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa.

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. BASES DE DATOS Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. La creación de una base de datos debe ser realizada cuidadosamente procurando

Más detalles

4 o Ingeniería Informática

4 o Ingeniería Informática Esquema del tema 1. Introducción 4 o Ingeniería Informática II26 Procesadores de lenguaje Estructura de los compiladores e intérpretes 2. Etapas del proceso de traducción 3. La interpretación 4. La arquitectura

Más detalles

Glosario. actividad. 1. (tarea) 2. es un subproceso que no requiere mas descomposición.

Glosario. actividad. 1. (tarea) 2. es un subproceso que no requiere mas descomposición. Glosario Aclaraciones Los conceptos del glosario están ordenados alfabéticamente. Un concepto puede ser un único término como meta o una frase como ambiente de ingeniería de software centrado en procesos.

Más detalles

CAPÍTULO 1 Introducción

CAPÍTULO 1 Introducción CAPÍTULO 1 Introducción 1.1 Sistemas basados en conocimiento (Knowledge Based Systems) Los sistemas basados en conocimiento (Knowledge Based Systems. KBS) son aplicaciones que generan soluciones o respuestas

Más detalles

Tecnologías XML y Web Semántica. Departamento de Informática Universidad de Oviedo

Tecnologías XML y Web Semántica. Departamento de Informática Universidad de Oviedo Tecnologías XML y Web Semántica Departamento de Informática Universidad de Oviedo Fundamentos de la Web Semántica Justificación Esquema General Principales Vocabularios Departamento de Informática Universidad

Más detalles

Ontologías en las IDEs

Ontologías en las IDEs 2 Jornadas IDE(s) de La República Argentina Ontologías en las IDEs Indalecio Fructuoso Bezos Cibulsky Universidad de La Punta San Luis 3 y 4 de Octubre de 2007 Evolución e la Organización de la Información

Más detalles

Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet

Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet Grupo de investigación Inteligencia Artificial (visión n artificial) cenidet Cuernavaca, Morelos Abril 2007 Temáticas de investigación Visión artificial y reconocimiento de patrones Sistemas híbridos neurosimbólicos

Más detalles