RESUMEN DE TESIS DOCTORAL. Minería de Texto empleando la Semejanza entre Estructuras Semánticas Text Mining using Comparison of Semantic Structures

Documentos relacionados
Medición de la creatividad bajo la visión del ingeniero

CÁLCULO DE APROXIMACIÓN A CRÍTICO. Orso J. A. (1) Facultad de Ciencias Exactas, Ingeniería y Agrimensura (UNR) CNEA

Figura 77. Tabla de los costes de transporte de la operativa actual según las dos metodologías.

Laboratorio 9. Equilibrio de distribución de un soluto en solventes inmiscibles

La efectividad de la política fiscal en el Perú:

Tema 2.2 TEORÍA DE LA ESTIMACIÓN

V. Materiales y Métodos. Castro (2002). Las propiedades de la corriente de alimentación se presentan en la tabla 2.

UN POCO DE HISTORIA Prof. Teuvo Kohonen UN POCO DE HISTORIA

Producto F1 F2 F3 F4 F5 F6 A B C Capacidad

Vaporización y condensación parcial de equilibrio

TEMA 6: INTERDEPENDENCIA COMPETENCIA

Probabilidad condicional

Laboratorio 9. Equilibrio de distribución de un soluto en solventes inmiscibles

RESUMEN DE TESIS DOCTORAL. Minería de Texto empleando la Semejanza entre Estructuras Semánticas

Esfuerzos y herencias

Equilibrio de Fases y Químico

Aprendizaje neuronal aplicado a la fusión de colecciones multilingües en CLIR

Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados

) para toda permutación (p p 1 p

Un método de agrupamiento de grafos conceptuales para minería de texto *

Nº A EVALUACIÓN DE LA NUEVA NORMA ACI 350 EN ESTANQUES SEMIENTERRADOS DE HORMIGÓN ARMADO.

Teorema de Clausen von Staudt. Congruencias de Kummer. Primos irregulares

La gestión por la innovación tecnológica desde las patentes universitarias

Estudio de la difusión de calor en sistemas de dos capas de GaAs/GaSb unidos mediante la técnica de fusión

PLANTEAMIENTO DE PROBLEMAS DE EQUILIBRIO

Estudios de Economía Aplicada ISSN: Asociación Internacional de Economía Aplicada.

Un nuevo algoritmo de búsqueda de sistemas de trading bursatil a corto plazo basado en GAPs

Teoría de juegos y empresa: un modelo de alianza - depredación

Diagnóstico de Fortalezas y Debilidades Comunales

Predicción de la estructura secundaria de proteínas usando máquinas de soporte vectorial

REDISTRIBUCIÓN DE RIQUEZA USANDO DERECHOS DE CONSUMO: EL CASO IGUALITARIO 1

CAPÍTULO 4 MARCO TEÓRICO

Soluciones Hoja 2: Relatividad (II)

TEMA 1. MÉTODOS APROXIMADOS PARA EL CÁLCULO DE OPERACIONES DE SEPARACIÓN DE MEZCLAS MULTICOMPONENTES

Fundamentos económicos y matemáticos para un modelo de equilibrio general computable

El problema de los matrimonios estables con información incompleta.

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls. Examen Final

MATEMATICA APLICADA A LA ECONOMIA TEORIA DE LAS DECISIONES Y TEORIA DE JUEGOS

Control Estadístico de las Mediciones (Aplicación a la calibración de pesas)

Desarrollo de las curvas residuo de membrana para pervaporación

4.- Métodos gráficos rigurosos de diseño para operaciones de separación por etapas de equilibrio: Rectificación de sistemas binarios y extracción de

Universidad Nacional del Litoral Facultad de Ingeniería Química. Magister en Matemática

Teoría de Sistemas y Señales

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

edigraphic.com Otras secciones de este sitio: Others sections in this web site: Contents of this number More journals Search

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Propuesta metodológica en el contexto de modelos de función de transferencia con expectativas

Introducción a la Química Computacional

Medidas de Variabilidad

CAPITULO 3º SOLUCIÓN ECUACIÓN DE ESTADO- 01. Ing. Diego A. Patiño G. M.Sc, Ph.D.

Teoría rigurosa de la dispersión de haces gaussianos por una rejilla con sustrato metálico

TIPOS DE FLUJO. Tomaremos para analizar

Slide 1. Slide 2 Organización y Resumen de Datos. Slide 3. Universidad Diego Portales. Tablas de Frecuencia. Estadística I

ESTADÍSTICA. x es el cociente entre la frecuencia absoluta del valor

PROYECTO DE TEORIA DE MECANISMOS. Análisis cinemático y dinámico de un mecanismo plano articulado con un grado de libertad.

Sistemas Lineales de Masas-Resortes 2D

TRABAJO DE FIN DE CARRERA

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

SEGUNDA PARTE RENTAS FINANCIERAS

9 FUENTES CONTROLADAS

Comportamiento operacional de grupos electrógenos: particularidades del índice de consumo específico de combustible

Gráficos de flujo de señal

Detección de los patrones raros en un conjunto de datos semiestructurados

I. Ecuaciones Matemáticas

Operadores por Regiones

PROBLEMAS RESUELTOS ÁLGEBRA LINEAL Tema 2. Espacios Vectoriales TEMA: MATRIZ DE TRANSICIÓN Y VECTOR DE COORDENADAS

Adquisición y Tratamiento de Datos (Febrero 2005). 1ª parte: Cuestiones.

SEMANA 13. CLASE 14. MARTES 20/09/16

FISICOQUÍMICA FARMACÉUTICA (0108) UNIDAD 1. CONCEPTOS BÁSICOS DE CINÉTICA QUÍMICA

Capacidad de Medida y Calibración?

Autores: Juan Antonio Duro Moreno (a) Emilio Padilla Rosa (b) P. T. N. o 25/05

Universidad Politécnica de Madrid

Capítulo 11. Movimiento de Rodamiento y Momentum Angular

Entre las motivaciones que han tenido los sectores vinculados al campo y que han

IV Congresso Brasileiro de Energia Solar e V Conferencia Latino-Americana da ISES São Paulo, 18 a 21 de setembro de 2012

CAPÍTULO II Métodos experimentales

UNIVERSIDAD POLITÉCNICA DE MADRID

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

SISTEMA DIÉDRICO I Intersección de planos y de recta con plano TEMA 8 INTERSECCIONES. Objetivos y orientaciones metodológicas. 1.

Espacios de Búsqueda en un Árbol Binario para Resolver Problemas de Optimización Discreta

Equilibrio fásico. (b) El sistema heterogéneo se considera aislado.

Universidad Diego Portales Facultad de Economía y Empresa

Capítulo 11. Movimiento de Rodamiento y Momentum Angular

ESTADÍSTICA. Definiciones

ESTADISTÍCA. 1. Población, muestra e individuo. 2. Variables estadísticas. 3. El proceso que se sigue en estadística

2. EL TENSOR DE TENSIONES. Supongamos un cuerpo sometido a fuerzas externas en equilibrio y un punto P en su interior.

Tema 6. Estadística descriptiva bivariable con variables numéricas

Tema 9: Otros temas de aplicación

1. Lección 7 - Rentas - Valoración (Continuación)

Qué Son y Cómo se Estima La Mejor Capacidad de Medida

EXPERIMENTACIÓN COMERCIAL(I)

Tipología de nudos y extremos de barra

EL MÉTODO DE DIFERENCIAS FINITAS POR GUILLERMO HERNÁNDEZ GARCÍA

MODELAJE DEL BJT. Por tanto, el equivalente de ca para una red se obtiene por medio de:

Geometría y Cinemática. Control y Programación de Robots

Problemas de Optimización. Conceptos básicos de optimización. Indice. Un problema de optimización NLP. Equivalencias. Contornos / Curvas de nivel

Determinación de los tiempos en el Hidrograma Unitario Geomorfológico de Depósitos y Canal.

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCALAMIENTO DE 1,018 V A 10 V POR MEDIO DE UN DIVISOR RESISTIVO

Transcripción:

RESUMEN DE TESIS DOCTORAL Computaón y Sstemas Vol. 9 Núm., pp. 063-08 005, CIC-IPN, ISSN 405-5546, Impreso en Méxo Mnería de Texto empleando la Semeanza entre Estruturas Semántas Text Mnng usng Comparson of Semant Strutures raduated: Manuel Montes y ómez Centro de Investgaón en Computaón IPN Av. Juan de Dos Bátz s/n esq. Mguel Othón de Mendzábal C. P. 07738 Méxo D. F. raduado en febrero 6, 00 Insttuto Naonal de Astrofísa, Ópta y Eletróna (INAOE) Lus Enrque Erro #, Sta. María Tonantzntla, Puebla, Méxo. mmontesg@naoep.mx Advsor: Alexander elbuh Centro de Investgaón en Computaón - IPN Av. Juan de Dos Bátz s/n esq. Mguel Othón de Mendzábal C. P. 07738 Méxo D. F. gelbuh @.pn.mx; www.elbuh.om Co-Advsor Aurelo López López Insttuto Naonal de Astrofísa, Ópta y Eletróna (INAOE) Lus Enrque Erro #, Sta. María Tonantzntla, Puebla, Méxo. allopez@naoep.mx Resumen El tesoro más valoso de la raza humana es el onomento. ran parte de este onomento exste en forma de lenguae natural: lbros, peródos, artíulos, etétera. La posesón real de todo este onomento depende de nuestra habldad para realzar ertas operaones on la nformaón, por eemplo: busarla, ompararla, y resumrla. La mnería de texto, una nueva área de nvestgaón defnda omo desubrmento de onomento en oleones de textos, se enfoa en el análss de grandes onuntos de doumentos. En partular, onsdera el desubrmento de patrones nteresantes, tales omo grupos, asoaones y desvaones, en oleones de textos. Los métodos atuales de mnería de texto se araterzan por usar representaones senllas del ontendo de los doumentos, por eemplo, bolsas o vetores de palabras. Por una parte estas representaones son fáles de obtener y analzar, pero por otra parte restrngen los patrones desubertos a un nvel temáto. Con el propósto de obtener resultados más útles y sgnfatvos deben usarse representaones más ompletas de la nformaón. Basándonos en esta suposón se propuso un nuevo método para realzar mnería de texto a nvel detalle. Este método usa los grafos oneptuales omo representaón del ontendo de los textos, y obtene algunos patrones desrptvos de los doumentos aplando varos tpos de operaones sobre estos grafos. Palabras Clave: Mnería de Texto, rafos Coneptuales, Agrupamento Coneptual, Desubrmento de Conomento. Abstrat Knowledge s the most valuable treasure of humannd. Most of ths nowledge exsts n natural language format, for nstane, n boos, ournals, reports, et. The real possesson of all ths nowledge depends on our apabltes to perform dfferent tass wth texts, suh as: searhng for nterestng texts, omparng dfferent douments, and summarzng them.text mnng, an emergng researh area that an be roughly haraterzed as nowledge dsovery n large text olletons, s foused on automatally analyzng a set of texts. Manly, t s onerned wth the dsovery of nterestng patterns suh as lusters, assoatons, and devatons from large text olletons. Current methods of text mnng tend to use smplst and shallow representatons of texts, e.g., eyword sets or eyword frequeny vetors. On one hand, suh representatons are easy to obtan from texts and easy to analyze, but on the other hand, however, they restrt the nowledge dsovery results to the top level. To obtan more useful and meanngful results, rher text representatons are neessary. On the bass of ths assumpton, we propose a new method for dong text mnng at detal level. Ths method uses oneptual graphs for representng text ontent and reles on performng some tass on these graphs, allowng the dsovery of more desrptve patterns. Keywords: Text Mnng, Coneptual raphs, Coneptual Clusterng, Knowledge Dsovery 63

Manuel Montes y ómez Introduón El tesoro más valoso de la raza humana es el onomento. ran parte de este onomento exste en forma de lenguae natural: lbros, peródos, artíulos, etétera. La posesón real de todo este onomento depende de nuestra habldad para haer ertas operaones on la nformaón, por eemplo: busar nformaón nteresante, omparar fuentes de nformaón dferentes y resumr grandes onuntos de nformaón. La lngüísta omputaonal se enfoa prnpalmente en el dseño de los meansmos que permtan a las omputadoras entender el lenguae natural, aunque tambén onsdera varas tareas relaonadas on el proesamento de nformaón textual. Algunos eemplos de estas tareas son la búsqueda de nformaón, la extraón de nformaón y la mnería de texto. El desarrollo de los métodos para el proesamento de nformaón textual ha sdo paralelo al desarrollo de los métodos para la omprensón del lenguae (análss morfológo, sntáto y semánto). Por ello, típamente se busa y analza la nformaón textual onsderando únamente el tema de los textos y no su ontendo ompleto. Esta estratega falta el análss de grandes onuntos de textos, e nluso mantene una ndependena del domno, pero lmta grandemente la expresvdad y la dversdad de los resultados de los sstemas de análss de textos. En la reuperaón de nformaón, por eemplo, esta estratega de análss mpde haer búsquedas que onsderen detalles del ontendo de los textos que van más allá de sus temas (por eemplo: propóstos, planes, obetvos y enfoques). Por su parte, en la mnería de texto, esta estratega mpde desubrr patrones nteresantes relaonados on dhos detalles del ontendo de los textos. Atualmente, busando una soluón a este problema de expresvdad y dversdad de los resultados, se omenzan a usar más elementos provenentes de la lngüísta omputaonal omprensón del lenguae en las tareas de proesamento de textos. Así pues, se empezan a susttur las representaones senllas de los textos, omo las lstas de palabras lave, por representaones más ompletas que onsderan aspetos estruturales y ontextuales del ontendo de los textos. En la reuperaón de nformaón se han usado tanto representaones sntátas omo semántas del ontendo de los textos aunque su aplaón no ha sdo tan defntva y valosa omo se esperaba (Spar-Jones, 999). Las prnpales ausas de este resultado desfavorable son, entre otras, las sguentes:. Los métodos de omparaón de las nuevas representaones no son los adeuados.. Algunas araterístas de la búsqueda de nformaón, por eemplo, su naturaleza temáta, la rapdez de respuesta requerda, y en muhas oasones la neesdad de ndependena del domno, omplan la aplaón de estas nuevas representaones. En la mnería de texto no se han usado representaones que onsderen algunos elementos estruturales y ontextuales de los textos; ello a pesar de que tanto su obetvo, el desubrmento de onomento, omo algunas de sus araterístas haen suponer una notable meoría en los resultados. Algunas de estas araterístas son:. El desubrmento de onomento es una tarea típamente dependente del domno.. La rapdez no es un fator determnante en el proeso de desubrmento, por el ontraro, lo más mportante es la expresvdad y presón de los resultados. 3. El proeso de desubrmento generalmente no se realza en un ambente de pregunta y respuesta. Este trabao de tess onsderó el problema de la expresvdad de los resultados de la mnería de texto, y tambén la oportundad de omenzar a usar representaones más ompletas del ontendo de los textos en ella. Básamente en esta tess se planteó el uso de una representaón semánta del ontendo de los textos, y se propuseron algunos métodos para el desubrmento de patrones nteresantes en un onunto de dhas representaones. Así pues, el obetvo de este trabao fue defnr algunas estrategas de mnería de texto para meorar la expresvdad y la dversdad de los patrones desubertos on respeto a los obtendos usando las ténas tradonales. Mnería de Texto La mnería de texto es el área de nvestgaón más reente del proesamento automáto de textos. Ella se defne omo el proeso automáto de desubrmento de patrones nteresantes en una oleón de textos. Estos patrones no deben de exstr explítamente en nngún texto de la oleón, y deben de surgr de relaonar el ontendo de varos de ellos (Hearst, 999; Kodratoff, 999). El proeso de mnería de texto onsste de dos etapas prnpales: una etapa de preproesamento y una etapa de desubrmento (Tan, 999). En la prmera etapa, los textos se transforman a algún tpo de representaón estruturada o semestruturada que falte su posteror análss, mentras que en la segunda etapa las representaones ntermedas se analzan 64

Mnería de texto empleando la Semeanza entre Estruturas Semántas on el obetvo de desubrr en ellas algunos patrones nteresantes o nuevos onomentos. Entones, dependendo del tpo de métodos aplados en la etapa de preproesamento es el tpo de representaones ntermedas onstrudas, y en funón de dha representaón se determnan los métodos usados en la etapa de desubrmento, y en onseuena, el tpo de patrones desubertos. La fgura muestra las prnpales estrategas usadas en los atuales sstemas de mnería de texto. De auerdo on esta fgura, la mayoría de los atuales de mnería de texto lmtan sus resultados a un nvel temáto o de entdad, y por lo tanto mposbltan el desubrmento de osas más detalladas omo por eemplo: Consensos, que por eemplo respondan a preguntas omo: Cuál es la opnón mayortara de los mexanos sobre el goberno de Fox? Tendenas, que ndquen por eemplo s han exstdo varaones en la postura de Fox on respeto a la eduaón. Desvaones, que dentfquen por eemplo opnones raras on respeto al desempeño de la seleón mexana de fútbol. Etapa de pre-proesamento Categorzaón Full-text Extraón de nformaón Tpo de representaón Vetor de temas Seuena de palabras Tabla de datos Tpo de desubrmentos Nvel temáto Patrones de lenguae Relaones entre entdades Fg.. Estado del arte de la mnería de texto A ontnuaón se desrben brevemente los prnpales métodos empleados en ambas etapas de la mnería de texto. Una desrpón más ompleta del estado del arte del área, y una lsta de referenas pertnentes puede onsultarse en (Montes-y-ómez, 00; Hearst, 999; Kodratoff, 999; Tan, 999).. Etapa de Preproesamento En la etapa de preproesamento los textos se transforman a una representaón estruturada o semestruturada de su ontendo. Estas representaones ntermedas de los textos deben ser, por una parte, senllas para faltar el análss de los textos, pero por otra parte, ompletas para permtr el desubrmento de patrones nteresantes, e nluso de nuevos onomentos. Las representaones ntermedas más usadas en la mnería de texto son básamente de dos tpos: A nvel doumento, donde ada representaón se refere a un texto dferente de la oleón. A nvel onepto, donde ada representaón nda un obeto, tema o onepto nteresante para el domno espeí- fo de aplaón. La onstruón de estas representaones sgue dferentes estrategas. Por eemplo, las representaones a nvel doumento se onstruyen típamente usando métodos de ategorzaón, de texto ompleto e ndexamento. Por su parte, las representaones a nvel onepto se obtenen básamente aplando métodos dependentes del domno tales omo la ex- de térmnos mportantes y la extraón de traón nformaón.. Etapa de Desubrmento Típamente, los desubrmentos de mnería de texto y por onseuena sus métodos y sus tareas se lasfan en: desrptvos y predtvos. Sn embargo es posble lasfarlos de otras maneras. Por eemplo, una lasfaón alternatva de la mnería de texto onsdera que los textos son una desrpón de stuaones y obetos del mundo, y que las representaones ntermedas de dhos textos obtendas en la etapa de preproesamento son una desrpón estruturada del ontendo de estos últmos. Con base en esta onsderaón, los desubrmentos de la mnería de texto se pueden lasfar en tres enfoques: () desubrmentos a nvel representaón, () desubrmentos a nvel texto, y () desubrmentos a nvel mundo. 65

Manuel Montes y ómez Desubrmentos a Nvel Representaón Los métodos de este enfoque ntentan onstrur o desubrr una representaón estruturada o semestruturada de los textos. Los más omunes se enargan de la lasfaón, ategorzaón e ndexamento de los textos. Desubrmentos a Nvel Texto Los métodos de este enfoque son de dos tpos: métodos que desubren patrones de lenguae a partr de una oleón de textos, y métodos que desubren la organzaón oulta de una oleón de textos. Los métodos relaonados on la dentfaón de patrones de lenguae se dstnguen por onsderar todas las palabras de los textos y mantener su orden relatvo, es der, usar representaones de texto ompleto (full-text, en nglés). Estos métodos detetan seuenas freuentes de palabras, y en oasones tambén onstruyen, on base en estas seuenas, un onunto de reglas asoatvas que expresan ombnaones de palabras de uso omún. Por su parte los métodos relaonados on el agrupamento de textos se araterzan por utlzar dversos tpos de métodos, desde tradonales basados en una medda euldana de la dstana entre los textos, hasta sofstados basados en redes neuronales de tpo mapas auto-organzados. En partular estos métodos enfatzan la vsualzaón e nterpretaón de los resultados. Por eemplo, algunos emplean nterfaes gráfas para analzar los agrupamentos, otros determnan una etqueta desrptva del ontendo de ada grupo, y otros más determnan el doumento representatvo de ada lase. Adonalmente, el agrupamento de los textos se usa en el análss exploratoro de las oleones de textos, en la generaón de resúmenes multdoumento, y en otras tareas de desubrmento tales omo la deteón de asoaones y desvaones. Desubrmentos a Nvel Mundo Este enfoque onsdera dstntas tareas, entre ellas el desubrmento de asoaones, la deteón de desvaones y el análss de tendenas. Los métodos de este enfoque omparten las sguentes araterístas: () emplean tanto representaones de los textos a nvel onepto omo a nvel doumento; () usan onomentos de domno, generalmente expresados en erarquías de oneptos o onuntos de predados, y () permten que el usuaro guíe el proeso de desubrmento, espefando prnpalmente las regones y los oneptos de mayor nterés. Entre los trabaos de desubrmento de asoaones destaan aquellos que plantean la deteón de asoaones temátas no-exatas de la forma smlar ( A) B ( onfanza / soporte), y el uso de los elementos estruturados y no estruturados para la obtenón de dhas relaones. Por su parte, los métodos de deteón de desvaones onsderan la deteón de los textos raros on temáta dferente al promedo de una oleón, así omo la deteón de los nuevos temas en una oleón dnáma, por eemplo en un fluo de notas. El análss de tendenas se enarga de la desrpón de la evoluón de una oleón de textos. Entre sus métodos destaan los sguentes dos enfoques: () la deteón de temas de dsusón on un omportamento preestabledo, y la omparaón de la temáta de una oleón en dos tempos dferentes. 3 Mnería de Texto usando rafos Coneptuales En esta seón se presentan los métodos prnpales de nuestro enfoque de mnería de texto a nvel detalle basado en el uso de representaones semántas grafos oneptuales de los doumentos. Prmero se defnen los rteros para la omparaón de dos grafos oneptuales, y después de presentan algunos métodos para desubrr patrones nteresantes (grupos, asoaones y desvaones) en una oleón de grafos oneptuales. Los prnpos de la teoría de grafos oneptuales se ntroduen en el apénde A, mentras que la transformaón de los textos a grafos oneptuales es tratada en (Sowa and Way, 986; Sowa, 999). 3. Comparaón de rafos Coneptuales El proedmento general propuesto para la omparaón de dos grafos oneptuales onsste de dos etapas: () el apareamento de los grafos, y () la medón de la semeanza. En la prmera etapa se dentfan todos los elementos, oneptos y relaones, omunes de ambos grafos, y se onstruye, a partr de estos, la o las desrpones de dha semeanza. Estas desrpones las llamamos traslapes. En la segunda etapa se alula la medda de la semeanza de los dos grafos. Esta medda expresa la mportana relatva del traslape on respeto a los grafos oneptuales orgnales. Cuando se dentfa más de un traslape, se alula una medda de semeanza on respeto a ada uno. La mayor medda se onsdera la medda de semeanza fnal, y el traslape que la produe la meor desrpón de la semeanza. 66

Mnería de texto empleando la Semeanza entre Estruturas Semántas En ambas etapas, la de apareamento y la de medón, se utlza onomento del domno y se onsderan los ntereses del usuaro. El onomento del domno se expresa a través de un onunto de erarquías de oneptos. Básamente, estas erarquías permten determnar semeanzas entre los oneptos de los grafos a dferentes nveles de generalzaón. Por su parte, los ntereses del usuaro se expresan por dos medos. En prmer lugar, a través de algunos parámetros de la medda de semeanza, por eemplo, los que determnan la mportana relatva de las entdades, aones y atrbutos. En segundo lugar, a través del onomento del domno que el usuaro establee lbremente. Apareamento de rafos Coneptuales Típamente, el apareamento de dos grafos oneptuales permte dentfar todos sus elementos generalzaones omunes. Debdo a que el operador de proyeón π no es neesaramente uno-a-uno y tampoo úno (referrse al apénde), algunas de estas generalzaones omunes pueden expresar nformaón redundante o duplada. Entones, para lograr onstrur una desrpón presa de la semeanza entre dos grafos oneptuales es neesaro dentfar los onuntos de generalzaones omunes que formen una máxma generalzaón omún ompatble. Cada uno de estos onuntos es lo que llamamos un traslape. Un traslape lo defnmos de la sguente manera: = de los grafos oneptuales y es ompat- Defnón. El onunto de generalzaones omunes O { g, g, K, g n } ble s y solo s exste un mapeo { π, π,, π n} n I = I π g = π g n = = Ο/ K tal que sus orrespondentes proyeones en y no se nterepten: Defnón. El onunto de generalzaones omunes O { g, g,, } = K g n de los grafos oneptuales y es máxmo s y solo s no exste otra generalzaón omún g de y, tal que alguna de las sguentes ondones se satsfaga:. O = { g, g, K, g n, g} es ompatble.. g g, g g, y O = g,, g, g, g,, g es ompatble. { } : K + K Defnón 3. El onunto de generalzaones omunes O { g, g,, } = de los grafos oneptuales y es un traslape s y sólo s es ompatble y máxmo. n K De auerdo on esto, ada traslape expresa en forma ompleta y presa la semeanza entre dos grafos oneptuales. Esto mpla que traslapes dstntos pueden ndar dferentes maneras de vsualzar e nterpretar dha semeanza. Debdo a que el apareamento y la proyeón de los grafos oneptuales son problemas defndos omo NP-ompletos (Mugner, 995), nuestro algortmo es de ompledad exponenal on respeto al número de oneptos omunes de los dos grafos. Sn embargo, esto no mpla nnguna lmtaón mportante para su aplaón en la mnería de texto (tal y omo nosotros la pretendemos realzar), ya que los grafos que serán omparados son generalmente el resultado del análss sntáto superfal (shallow parsng, en nglés) de pequeñas partes desrptvas del ontendo de los textos, y en onseuena son pequeños 30 oneptos omo máxmo y tenen solamente unos uantos oneptos omunes. Medón de la Semeanza La medón de la semeanza es la segunda etapa de la omparaón de los grafos oneptuales. En esta etapa se rebe omo entrada los dos grafos que se omparan y el onunto de todos sus posbles traslapes. Para ada traslape se alula una medda de semeanza. Fnalmente se entrega omo resultado la mayor medda y el traslape que la produe (que es la desrpón fnal de la semeanza). Dados dos grafos oneptuales y, y uno de sus traslapes, la medda de semeanza expresa la mportana relatva de los elementos omunes (traslape) on respeto a toda la nformaón de los grafos orgnales. En general, nuestra medda tene las sguentes araterístas:. Se fundamenta en las sguentes ntuones básas (Ln, 998): () la semeanza entre dos grafos oneptuales se relaona on su traslape (elementos omunes), entre más espealzado y más extenso sea éste, más semeantes son los grafos; () la semeanza entre dos grafos oneptuales se relaona on sus dferenas, entre más dferenas tengan, menos semeantes son; () la mayor semeanza entre dos grafos oneptuales se obtene uando son déntos, sn mportar uantos elementos omunes tengan, y (v) la semeanza entre dos grafos oneptuales es nula uando los grafos no tenen nngún elemento omún, esto es, uando su traslape es nulo. g n 67

Manuel Montes y ómez. Se basa en una medda onoda para la omparaón de textos; a saber: el oefente de De. El valor de este oefente entre dos textos T y T se defne omo: s ( T, T ) = t t + t, donde t es el número de térmnos del texto T, y t es el número de térmnos omunes de los textos T y T. 3. Aproveha la estrutura bpartta de los grafos oneptuales. La medda de semeanza se obtene ombnando dos tpos de semeanzas parales: una semeanza oneptual y una semeanza relaonal. La semeanza oneptual expresa que tan smlares son las entdades, aones y atrbutos menonados en los dos grafos oneptuales, mentras que la semeanza relaonal señala que tan paredas son las nteronexones entre los oneptos omunes de ambos grafos. 4. Consdera onomento del domno. Este onomento se expresa en forma de un donaro de snónmos y algunas erarquías de oneptos, y permte evaluar adeuadamente la ontrbuón de las semeanzas no exatas. 5. Permte que el usuaro estableza algunos parámetros de la medda de semeanza. Por eemplo, la mportana relatva de las semeanzas oneptual y relaonal, y la mportana relatva de las entdades, aones y atrbutos. Esta araterísta otorga una gran flexbldad al proeso de omparaón de los grafos oneptuales. Medda de Semeanza Dados dos grafos oneptuales y, y uno de sus traslapes, denotado por O, su semeanza 0 s es una ombnaón de dos valores: una semeanza oneptual s y una semeanza relaonal s r. Semeanza Coneptual La semeanza oneptual 0 s depende de la antdad de oneptos omunes de y. A grandes rasgos, esta semeanza nda que tan paredas son las entdades, aones y atrbutos menonados en ambos grafos oneptuales. La semeanza oneptual s se alula usando una expresón análoga al oefente de De: s ( ), = O ( weght( ) β ( π, π ) weght () + weght() En esta expresón, la funón weght() nda la mportana del onepto dependendo de su tpo, y la funón β π,π expresa el nvel de generalzaón del onepto omún O on respeto a sus proyeones en los grafos ( ) orgnales π y π. La funón weght() manera: evalúa en forma dferente los dstntos tpos de oneptos. Esta funón se defne de la sguente w weght( ) = w w E V A s representa una entdad s representa una aón s representa un atrbuto Aquí, we, wv y wa son onstantes postvas que ndan la mportana relatva de las entdades, aones y atrbutos respetvamente. Sus valores son asgnados por el usuaro de auerdo on sus ntereses de análss. β π,π expresa la semeanza semánta entre los oneptos orgnales π y π on base Por su parte, la funón ( ) en una erarquía de oneptos preestableda. Esta funón se defne de la sguente manera * : β ( π, π ) depth = depth + d d + d π π s type s type s type En la prmera ondón, los oneptos π y * En esta defnón, la ondón type( ) type( ) π = tambén se satsfae uando los tpos oneptuales son snónmos. π ( π ) = type( π ) y referent ( π ) = referent ( π ) ( π ) = type( π ) y referent ( π ) referent ( π ) ( π ) type( π ) π son guales, y por lo tanto ( π ) π, = β. 68

Mnería de texto empleando la Semeanza entre Estruturas Semántas En la segunda ondón, los oneptos π y π se referen a dferentes ndvduos del msmo tpo, esto es, a dferentes nstanas de la msma lase. En este aso, β ( π, π ) = depth ( depth + ), donde depth nda el número de nveles de la erarquía de oneptos dada. De auerdo on esta asgnaón, la semeanza entre dos oneptos on el msmo tpo pero on dferentes referentes es sempre mayor que la semeanza entre dos oneptos on dferentes tpos. En la terera ondón, los oneptos π y π tenen dferentes tpos, es der, señalan elementos de dstntas lases. En este aso, β ( π,π ) expresa la semeanza semánta de los oneptos type( π ) y ( ) type π en la erarquía de oneptos preestableda. Esta semeanza se alula usando, una vez más, una expresón análoga al oefente de De: β ( π, π ) = d En este aso, d es la dstana, expresada omo el número de nodos, desde el onepto hasta la raíz de la erarquía. Semeanza Relaonal La semeanza relaonal 0 s r nda que tan smlares son las relaones entre los oneptos omunes en ambos grafos oneptuales y. En otras palabras, la semeanza relaonal nda que tan paredos son los vendaros de los oneptos del traslape en los grafos oneptuales orgnales. El vendaro del traslape O en el grafo oneptual, denotado omo N O ( ), es el onunto de todas las relaones oneptuales onetadas a los oneptos omunes en el grafo ; esto es: N N O ( ) = U N ( ), O d π donde : + d π () = { r r está onetada a π en } Con base en esta defnón, la semeanza relaonal se alula de la sguente manera; tambén análoga al oefente de De: weghto ( r) r O s r (, ) = weght () r + weght () r r N ( ) r N ( ) O En esta fórmula weght () r nda la mportana de la relaón oneptual r en el grafo oneptual. Este valor se alula de auerdo on el vendaro de r en ; así se garantza la homogenedad entre los pesos de los oneptos y las relaones oneptuales. Semeanza Total weght N () r = N weght ( r ) N r () ( ) () r = { está onetado a r en } O, donde : La semeanza total se obtene ombnando la semeanza oneptual s y la semeanza relaonal s r. En prmer lugar, esta ombnaón debe ser estrtamente multplatva, de tal forma que la semeanza total sea proporonal a ambos omponentes. Con base en esta onsderaón, la semeanza total se defne omo: s = s sr. Sn embargo, la semeanza relaonal debe tener una mportana seundara, porque su exstena depende dretamente de la exstena de algunos oneptos omunes, y además porque aún uando los dos grafos no tenen nnguna relaón omún, erto nvel de semeanza puede exstr entre ellos. Así, la semeanza total s debe ser proporonal a las semeanzas oneptual y relaonal, pero puede ser dferente de ero uando = 0. Este omportamento se modela suavzando el efeto de la semeanza relaonal sobre la semeanza total: s r ( a ) s = s + bs r Con esta defnón, uando no exste nnguna semeanza relaonal entre los dos grafos oneptuales (es der, uando s r = 0), la semeanza total depende exlusvamente de la semeanza oneptual, sendo s = as. 69

Manuel Montes y ómez Los oefentes a y b ndan la mportana relatva de la semeanza oneptual y relaonal respetvamente. Sus valores son establedos por el usuaro de auerdo on sus ntereses de análss, onsderando únamente las sguentes dos ondones: 0 < a, b < y a + b =. 3. Agrupamento de rafos Coneptuales Dada una oleón de textos representados por grafos oneptuales, una de las tareas más mportantes para su análss es su agrupamento. En prmer lugar, este agrupamento permte desubrr la estrutura oulta de la oleón. En segundo lugar, este agrupamento onsttuye un resumen organzado de la oleón que falta su vsualzaón, su posteror análss, y tambén el desubrmento de otros tpos de patrones nteresantes. El método propuesto es un agrupamento oneptual que, a dferena de las ténas tradonales de agrupamento, no sólo permte dvdr el onunto de grafos oneptuales en varos grupos, sno tambén asoar una desrpón a ada uno de estos grupos y organzarlos erárquamente de auerdo on dhas desrpones (Mhals, 980). Básamente, dado un onunto de grafos oneptuales, nuestro método dentfa todas sus regulardades elementos omunes de dos o más grafos del onunto y onstruye una erarquía oneptual de ellas. La erarquía resultante H no es neesaramente un árbol o latte, sno un onunto de árboles, es der, un bosque. Esta erarquía es una espee de red de herena, en donde los nodos nferores ndan regulardades espealzadas y los nodos superores sugeren regulardades generalzadas. Formalmente, ada nodo h de esta erarquía se representa por una trada (ov(h ), des(h ), oh(h )), donde: ov(h ), llamada obertura de h, es el onunto de grafos ubertos por o asoados on la regulardad h. des(h ), llamada desrpón de h, es el onunto de los elementos omunes de los grafos ubertos por h, es der, es el traslape de los grafos de ov(h ). Entones, des(h ) nda propamente la regulardad. oh(h ), llamada ohesón de h, es la semeanza mínma entre dos grafos ualesquera de ov(h ). Esto sgnfa que, ov h : sm, oh h. para todo nodo h se umple la sguente ondón: ( ) ( ) ( ) Dados dos nodos h y h de la erarquía, el nodo h es un desendente del nodo h, o lo que es lo msmo, el nodo h es un asendente del nodo h, desrto omo h < h, s y sólo s: ov. El nodo h agrupa o ubre más grafos que el nodo h : ov.. La desrpón del nodo h es una generalzaón de la desrpón del nodo h : des des < 3. La o hesón de los grafos del agrupamento h es menor o gual que la ohesón de los grafos del agrupamento h : oh h oh. ( ) ( ) h Con base en estas onsderaones, el onunto de nodos hos de h, denotado por S ( h ), y el onunto de nodos padre P( h ), se defnen de la sguente manera: de h, denotado por Construón de la Jerarquía Coneptual S P = { h H h < h, / h : h < h < h } = { h H h < h, / h : h < h < h } El método propuesto emplea una estratega de aprendzae no supervsado que permte onstrur nrementalmente el agrupamento oneptual del onunto de grafos. Así, la norporaón de un grafo n a la erarquía oneptual H se realza en dos pasos. En el prmer paso se añade a la erarquía un nodo que ubre exlusvamente al nuevo grafo (ver la fgura ). Este nuevo nodo se defne omo ({ n }, n, ). En el segundo paso se dentfan todas las regulardades asoadas on la nueva evdena. Estas regulardades (nuevos nodos) se añaden a la erarquía sguendo una estratega asendente, esto es, ada nodo de nvel superor se onstruye ombnando dos nodos de nveles más baos. Por eemplo, el nodo h n de la fgura (b) se onstruye a partr de los nodos h o y h l. En este aso, el nodo nuevo h n se defne de la sguente manera: ov ( hn ) = ov( ho ) U ov( hl ) ( hn ) = math( des( ho ) des( hl )) sm( des( ho ), des( hl )) s ov( ho ) = ov( ho ) ( hn ) = mn( oh, oh) otro aso des, oh = o l 70.

Mnería de texto empleando la Semeanza entre Estruturas Semántas h n h o h l n n Inorporaón de Nuevas regulardades (a) (b) Fg.. Inorporaón de un nuevo grafo a la erarquía En este aso, la funón math (, ) regresa el meor traslape de los grafos y ; la funón ( ) la medda de semeanza de los grafos y ; y la funón ( oh, oh( ) h sm, regresa mn regresa la menor ohesón entre los grupos h y h. Por otra parte, ada vez que una nueva regulardad h n se añade a la erarquía oneptual H, las regulardades dupladas redundantes se elmnan. Las reglas de elmnaón de redundanas son las sguentes: S des( h o ) = des( h n ), entones el nodo h o se elmna de la erarquía. S des( h l ) = des( h n ), entones h l se elmna. 3.3 Desubrmento de Asoaones Dado un onunto de grafos oneptuales C = { }, donde ada grafo oneptual representa un texto dferente, una regla asoatva es una expresón de la forma g g (/s), donde g es una generalzaón de g (g < g ), es la onfanza de la regla y s es su soporte. Básamente, una regla de este tpo nda que los grafos oneptuales del onunto que ontenen el grafo g, % de las vees tambén ontenen el grafo más espealzado g. Además que s% de los grafos de la oleón ontenen el grafo espealzado g. Entones, el desubrmento de asoaones en un onunto de grafos oneptuales se defne omo el problema de enontrar todas las reglas asoatvas g g (/s), tal que mnonf y s mnsup. El desubrmento de las reglas asoatvas en un onunto de grafos oneptuales C = { } se auxla de su erarquía agrupamento oneptual H. Cada nodo h de esta erarquía expresa una regulardad, uya desrpón des(h ) es una generalzaón omún de dos o más grafos de C. Además, todo grafo oneptual g mplíto en h, es der, todo grafo oneptual g tal que: des(h ) < g y / h H : des( h < des( h ) < g), es tambén una generalzaón omún mplíta del msmo subonunto de grafos de C. Con base en la erarquía oneptual H es posble determnar dos tpos de reglas asoatvas. Asoaones Explítas: Para ada par de nodos h y h de la erarquía oneptual H, tal que h < h, la sguente regla asoatva es valda: ( ) ( ) ( ) ( ) ov h ov h des h = s = des h, ov C Asoaones Implítas: Para todo grafo oneptual g mplíto en h, las sguentes reglas asoatvas son valdas: Además, h H: des(h ) < des(h ): g des ov =, s = C 7

Manuel Montes y ómez y h H: des(h ) < g < des(h ): g des des g ov = ov ov = ov De auerdo on estas defnones es posble desubrr todas las reglas asoatvas en un onunto de grafos oneptuales. Usualmente, el onunto de todas estas reglas es muy grande y ontene muha nformaón redundante que debe ser elmnada. ( h ), s =, s = Asoaón Implíta Redundante: La regla asoatva mplíta (,α ) g es redundante, s y sólo s, una de las sguentes dos ondones se satsfae: Exste otra regla asoatva mplíta g (,α ), tal que g h es una generalzaón de g (g g h ), y/o g l es una espealzaón de g (g l g ). h g l g ov C ov C Exste la regla asoatva mplíta g (, β ) en ombnaón on la regla asoatva explíta g ( γ,α ) donde, g < g < g. 3.4 Deteón de Desvaones g g Dado un onunto de grafos oneptuales C = { }, donde ada grafo oneptual representa un texto dferente, una desvaón ontextual es una expresón de la forma: g : g ( r, s). En esta expresón, g nda un ontexto y g expresa algunas desvaones para dho ontexto; r es el grado de rareza de la desvaón g en el ontexto g, y s es el soporte de dha desvaón ontextual, es der, es la representatvdad del ontexto g en el onunto C. Básamente, esta expresón nda que: dentro del subonunto de grafos oneptuales textos que ontenen el grafo g, y que representa el s% del onunto ompleto de grafos, los grafos textos que ontenen el grafo g son raros; sendo éstos solamente el r%. Entones, on base en lo anteror, la deteón de desvaones en un onunto de grafos oneptuales se defne omo el problema de enontrar todas las desvaones ontextuales g : g (r/s) para un umbral m preestabledo por el usuaro. La deteón de las desvaones ontextuales en un onunto de grafos oneptuales C = { } se auxla de su erarquía oneptual H. En esta erarquía, ada nodo h nda un ontexto espeífo de C desrto por la regulardad des(h ) y ompuesto por el onunto de grafos ov(h ). Además, el onunto de nodos ho de h, defndo omo: S h = h H h < h, / h : h < h < h, nda una partón del ontexto h, donde la desrpón de ada uno de estos ( ) { } nodos ho des(h ) expresa una araterísta posblemente representatva del ontexto h. De auerdo on esto se establee lo sguente: Caraterísta Representatva: La desrpón des(h ) del nodo S( ) h es una araterísta representatva del ontexto h s: ov m ov( ). h h Entones, el onunto de araterístas representatvas del ontexto h se defne omo: F { } des h S, ov m ov =., en rafo Coneptual Raro: El grafo neptual ov h es un grafo raro en el ontexto h, s y sólo s, no exste nnguna araterísta representatva des ( h ) en el ontexto h tal que: ov( h ). o ( ) Entones, el onunto de grafos raros del ontexto h se defne omo: R ov / g F: ov( g) Desvaón Contextual: El grafo oneptual ( h ) s y sólo s: ov R. { } =. des, relaonado on el nodo h < h, es una desvaón en el ontexto h, 7

Mnería de texto empleando la Semeanza entre Estruturas Semántas Cobertura: 8 Cohesón: 0.88 solve mnr numerally Cobertura: 6 Cohesón: 0.3 Cobertura: 4 Cohesón: 0.8 solve mnr numerally equaton numerally mnr solve ob problem Cobertura: 4 Cohesón: Cobertura: Cohesón: 0.89 Cobertura: Cohesón: 0.35 solve ob polynomal-equaton mnr numerally solve ob problem mnr solve ob boundary-value-problem atr lnear mnr atr numerally equaton atr ordnary numerally pont atr dfferental art art art 3 art 4 art 5 art 6 art 7 art 8 art a art 4...(numeral soluton of the polynomal equaton)... art 5...(the numeral soluton of boundary value problems for lnear ordnary dfferental equatons)... art 6...(the numeral soluton of an n-pont boundary value problem for lnear ordnary dfferental equatons)... art 7 -...(the numeral soluton of a thn plate heat transfer problem)... art 8 -...(the numeral soluton of nonlnear two-pont boundary problems by fnte dfferene methods)... Fg. 3. rupo nterno de la oleón B En este aso, la desvaón ontextual puede defnrse de la sguente manera: des : des ov r = ov ( h ) ov, s = C Esta defnón permte enontrar todas las desvaones ontextuales en un onunto de grafos oneptuales on respeto a un valor predefndo de m. Muhas de estas desvaones ontenen nformaón redundante o nformaón mplíta en otras desvaones. Por eemplo, s es raro que se hable de anmales en un onunto determnado de grafos oneptuales, entones obvamente es aún más raro que se hable de perros. Entones, para vsualzar meor las desvaones es neesaro elmnar las redundantes. Nosotros defnmos una desvaón redundante de la sguente manera: g es redundante s exste otra desvaón on- Desvaón Contextual Redundante: La desvaón ontextual : g ( α, β ) textual g : g ( γ, β ) ( g ), on α < γ, tal que g es una generalzaón de g. Esto mpla que: ( g ) ov ov. 4 Resultados Expermentales Nuestro método de mnería de texto fue probado medante el análss de dos onuntos de artíulos entífos. El prmero, denomnado a partr de ahora onunto A, se ompone de 5 artíulos sobre enas de la nformaón; el segundo, referdo omo onunto B, onsste de 495 artíulos de enas de la omputaón. 73

Manuel Montes y ómez analyze ob dsplne revew ob dsplne (63%, 7/5) revew revew mnr anually (63%, 7/5) dsplne sene (75%, /5) nformaton-sene ob nformaton-sene revew ob tehnology (66%, 6/5) mnr annually nformaton-system desgn ob nformaton-system (55%, 6/5) (a) Algunos eemplos de asoaones revew ob dsplne : revew ob lterature (4%, 7/5) nformaton-sene : evaluate ob nformaton-sene (%, 9/5) (b) Algunos eemplos de desvaones Fg. 4. Patrones desrptvos del onunto A Los resultados desrtos a ontnuaón son de dos tpos, ualtatvos y uanttatvos. Los resultados ualtatvos muestran la apadad de nuestro método para desubrr patrones nteresantes a un nvel más desrptvo y ompleto que el temáto. Por su parte, los resultados uanttatvos demuestran la vabldad de nuestro método de mnería de texto. 4. Evaluaón Cualtatva Nuestro método de mnería de texto permte desubrr patrones más desrptvos sobre el ontendo de los textos que los métodos tradonales. En esta seón se muestran algunos eemplos de estos patrones; en espeal se muestran algunos grupos (segmentos del agrupamento erárquo), asoaones y desvaones obtendas a partr de los onuntos de prueba. Agrupamento Coneptual El agrupamento del onunto A generó una erarquía oneptual de 50 nodos; donde 5 representan los artíulos orgnales. Por su parte, el agrupamento del onunto B reó una erarquía oneptual de 7 nodos, donde 495 representan los artíulos orgnales. En la fgura 3 se presenta un grupo nterno de una de las erarquías oneptuales obtendas. Asoaones y Desvaones Los métodos de desubrmento de asoaones y deteón de desvaones dsmnuyen el problema de nterpretaón ontextual de los patrones desubertos. Básamente generan reglas que preservan las relaones semántas (o de ualquer tpo de relaón representada en los grafos) entre los oneptos partpantes, y además permten determnar patrones a dferentes nveles de generalzaón. La fgura 4 muestra algunos eemplos de asoaones y desvaones orrespondentes al onunto de prueba A. Estos patrones ndan que una parte mportante de los artíulos del onunto A se enfoa en el análss de dstntas dsplnas; sendo las enas las más analzadas y la lteratura la menos. Además, señala que estos análss son en la mayoría de las vees revsones anuales. 74

Mnería de texto empleando la Semeanza entre Estruturas Semántas # de elementos 00 000 800 600 400 00 0 0 0 40 60 80 00 0 40 60 80 00 0 rafos nsertados (a) Conunto A rupos Conexones # de elementos 350 3000 750 500 50 000 750 500 50 000 750 500 50 0 0 30 60 90 0 50 80 0 40 70 300 330 360 390 40 450 480 rafos nsertados (b) Conunto B rupos Conexones Fg. 5. Cremento del agrupamento 4. Evaluaón Cuanttatva Cremento del Agrupamento Coneptual Los agrupamentos oneptuales tenen araterístas muy nteresantes para los propóstos de desubrmento de onomento y mnería de texto, por eemplo, son muy desrptvos y altamente estruturados. Sn embargo, su tamaño (que puede ser exponenal on respeto al número de grafos del onunto) lmta onsderablemente su aplaón. Nuestros expermentos demostraron que el agrupamento oneptual de un onunto de grafos oneptuales que representan el ontendo de textos es fatble. Por eemplo, en la fgura 5 se desrbe el remento de los agrupamentos oneptuales orrespondentes a los dos onuntos de prueba. Algunas onlusones mportantes son las sguentes:. El remento del agrupamento oneptual, meddo en funón del número de grupos y onexones, es as lneal. Además de que esta tendena se mantene uando se emplea el onomento del domno.. El mpato del onomento del domno es mayor en las onexones que en los grupos. Intutvamente esto sgnfa que se logran formar grupos más grandes y más homogéneos (más nteronetados), pero no muhos más grupos. 3. Los grupos y las onexones reen nalmente muy paredo, pero después, onforme se nsertan más grafos en el agrupamento, las onexones reen más rápdamente. Este omportamento suede porque en un prnpo, uando el agrupamento no exste, ada nuevo grafo genera nuevos grupos, pero después uando el agrupamento es mayor, ada nuevo grafo sólo se nserta en algunos grupos exstentes. Densdad de Conexones Otra araterísta nteresante de los agrupamentos oneptuales (prnpalmente del proeso de su onstruón) es la densdad de onexones, es der, el número de onexones por grupo. La fgura 6 muestra la varaón de la densdad de onexones durante el proeso de onstruón de los agrupamentos orrespondentes a los dos onuntos de prueba. Con base en esta fgura dedumos lo sguente: 75

Manuel Montes y ómez. La densdad de onexones se nrementa onforme se nsertan los grafos oneptuales en el agrupamento. La razón de aumento de la densdad de onexones es en prnpo muy elevada, pero se establza onforme se nsertan más grafos en el agrupamento. Este omportamento suede porque nalmente, uando el agrupamento no exste, ada nuevo grafo genera nuevos grupos, pero después uando el agrupamento es mayor, ada nuevo grafo solamente se nserta o se oneta on algunos grupos exstentes. onexones/grupo.5.5 0.5 0 (a) Análss del onunto A 0 0 40 60 80 00 0 40 60 80 00 0 rafos nsertados Sn onomentos Con onomentos onexones/grupos.5.5 0.5 0 0 30 60 90 0 50 80 0 40 70 300 330 360 390 40 450 480 (b) Análss del onunto B rafos nsertados Sn onomentos Con onomentos Fg. 6. Densdad de onexones. La densdad de onexones aumenta uando se usa onomento del domno. Este nremento es as onstante a través de todo el proeso de onstruón. Tempo de Construón Las gráfas de remento del agrupamento y de densdad de onexones exponen algunas ventaas del uso de onomento del domno en la onstruón del agrupamento de los grafos oneptuales. Básamente, estas gráfas muestran que este onomento permte enontrar grupos más grandes y más homogéneos (meor nteronetados). Estas ventaas tenen un osto prnpal: el tempo de onstruón del agrupamento. En la fgura 7 se muestran los tempos de onstruón de los agrupamentos de los onuntos de prueba. Allí se observa que el uso de onomento del domno afeta onsderablemente la rapdez del análss de los grafos. A pesar del aumento en el tempo de análss de los grafos oneptuales, la onstruón de su agrupamento oneptual sgue sendo fatble. Por eemplo, el tempo de nserón del grafo 495 del onunto B en la erarquía oneptual neesto solamente de un segundo. Analzando la fgura 7 se determna que el tempo de nserón de un grafo oneptual en el agrupamento, uando no se usa onomento del domno, es as estable. Esto últmo nos permte suponer que el nremento en el tempo de onstruón uando se usa onomento del domno se orgna de una mala mplementaón del sstema (prnpalmente de la erarquía de oneptos); y que por lo tanto, un esfuerzo en esta dreón permtrá meorar onsderablemente el funonamento del método de mnería de texto propuesto. 76

Mnería de texto empleando la Semeanza entre Estruturas Semántas segundos 0.4 0.35 0.3 0.5 0. 0.5 0. 0.05 (a) Análss del onunto A 0 0 0 40 60 80 00 0 40 60 80 00 0 rafos nsertados Sn onomento de domno Con onomento de domno segundos. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0. 0. 0 (b) Análss del onunto B 0 0 40 60 80 00 0 40 60 80 00 0 40 60 80 300 30 340 360 380 400 40 440 460 480 rafos nsertados Sn onomento de domno Con onomento de domno Fg. 7. Tempo de onstruón del agrupamento 5 Conlusones La mayoría de los métodos atuales de mnería de texto utlzan representaones senllas del ontendo de los textos, por eemplo lstas de palabras lave o tablas de datos. Estas representaones son relatvamente fáles de onstrur a partr de los textos, pero mpden representar varos detalles de su ontendo. Como onseuena, los resultados de estos sstemas, es der, los patrones que on ellos se desubren, son poo desrptvos y de nvel temáto. Una dea generalzada para meorar la expresvdad de los resultados de los métodos de mnería de texto onsste en emplear representaones de los textos más ompleas que las palabras lave, es der, representaones que onsderen más tpos de elementos textuales. Sguendo esta dea, propusmos un método para haer mnería de texto a nvel detalle. Este método tene la apadad de usar grafos oneptuales para representar el ontendo de los textos, y el potenal para trasladar los resultados, es der, los patrones desubertos, del atual nvel temáto a un nvel muho más desrptvo. Algunas ontrbuones mportantes de esta nvestgaón son las sguentes: Se planteó, por prmera vez, el uso una representaón semánta, en espefo grafos oneptuales, en las tareas de mnería de texto. Se demostró que el uso de los grafos oneptuales, y en general de las representaones semántas, en la mnería de texto es fatble, pero sobre todo, benefoso para meorar el nvel desrptvo de resultados. Se dseñó una nueva aproxmaón para realzar mnería de texto. Para ello se adaptaron algunos métodos de omparaón y agrupamento de grafos oneptuales para las tareas propas de mnería de texto; y se dseñaron nuevas estrategas para desubrr asoaones y detetar desvaones en un onunto de grafos oneptuales. Así pues, esta nvestgaón ontrbuyó al estado del arte de dversas áreas del onomento, entre las que destaan la mnería de texto y la teoría de grafos oneptuales. 77

Manuel Montes y ómez Lmtaones del Método El método de mnería de texto propuesto en este trabao tene dos problemas que lmtan onsderablemente su aplaón. Estos problemas y sus lmtaones relaonadas se desrben a ontnuaón. Prmer problema: El asamento de los grafos oneptuales es exponenal on respeto al número de oneptos omunes entre los dos grafos. Las prnpales lmtaones son: Análss de grafos oneptuales relatvamente pequeños, on unas uantas deenas de nodos onepto. Esta lmtaón nda que nuestro método de mnería de texto es más adeuado para analzar grafos oneptuales que representen algunas partes de los textos on un sgnfado espeal (por eemplo, desrpones de eventos u opnones sobre algún tema) o los detalles más mportantes de su ontendo, que para analzar grafos que ntenten representar ompletamente el ontendo de los textos. El uso de erarquías de oneptos relatvamente pequeñas. Esta lmtaón se orgna por el sguente efeto: entre más grande es la erarquía de oneptos, más orrespondenas elementos omunes entre los grafos pueden detetarse, y por lo tanto, mayor es la ompledad del análss. Una onseuena mportante de esta lmtaón es la pérdda de nformaón, es der, el uso de erarquías pequeñas puede oasonar que no se deteten semeanzas posblemente nteresantes entre los grafos. Segundo problema: La transformaón automáta de los textos a grafos oneptuales no es una tarea senlla. Sus prnpales efetos son: Análss de textos ortos o sólo de algunas de sus partes. Esta lmtaón es una onseuena dreta de los problemas de los métodos atuales de proesamento de textos (por eemplo, métodos de análss sntáto y semánto). Básamente, mpla que nuestro método de mnería de texto es más adeuado para el análss de textos ortos o de algunas partes de los textos on un sgnfado espeal. Análss de textos de un solo domno. La transformaón de un texto en grafo oneptual, omo todo proeso que nvolura el análss semánto de los textos, requere de erto onomento del domno. Esto últmo sgnfa que es neesaro un onsderable esfuerzo humano para trasladar el meansmo de transformaón de los textos en grafos oneptuales, y por ende nuestro método de mnería de texto, de un domno a otro. 6 Rumbos de Investgaón Posteror En este trabao propusmos un esquema general para haer mnería de texto usando grafos oneptuales, aunque nuestros esfuerzos se onentraron en la etapa de desubrmento. Por ello, gran parte del trabao futuro que se presenta a ontnuaón onsdera el desarrollo de las demás etapas del proeso de mnería de texto usando grafos oneptuales.. Desarrollar un método para transformar los textos en grafos oneptuales. Este método deberá ser flexble, de tal forma que permta transformar textos de dstntos domnos a grafos oneptuales sn la neesdad de un gran esfuerzo humano. Tambén deberá ser adaptvo, de tal forma que aprenda las dstntas maneras de omunar la nformaón que se desea extraer y onvertr a grafo oneptual.. Dseñar otros métodos para desubrr más patrones desrptvos en un onunto de grafos oneptuales. Estos métodos deberán onsderar varas tareas de desubrmento que omplementen las atuales, por eemplo: el análss de tendenas, la deteón de ontradones y la lasfaón de textos. 3. Desarrollar varos meansmos de postproesamento. En este sentdo deberán rearse algunos rteros para evaluar el nvel de utldad de los patrones desubertos, y tambén algunas nterfaes para vsualzar e nterpretar dhos resultados. Otras líneas de nvestgaón que se desprenden de este trabao onsderan el uso de los métodos propuestos en este trabao en otras tareas de proesamento de textos. Por eemplo: 4. Aplar el método de omparaón de grafos oneptuales en la búsqueda de nformaón para manear adeuadamente onsultas ompleas que onsderen detalles del ontendo de los textos. 5. Aplar los nuestros métodos de análss de grafos oneptuales en la mnería semánta de la web. 78

Mnería de texto empleando la Semeanza entre Estruturas Semántas Referenas. Hearst (999), Untanglng Text Data Mnng, Pro. of ACL 99: The 37th Annual Meetng of the Assoaton for Computatonal Lngusts, Unversty of Maryland, June 0-6, 999.. Kodratoff (999), Knowledge Dsovery n Texts: A Defnton and Applatons, Pro. of the th Internatonal Symposum on Foundatons of Intellgent Systems (ISMIS-99), 999. 3. Ln (998), An Informaton-Theoret Defnton of Smlarty, Pro. of the Internatonal Conferene on Mahne Learnng, Madson, Wsonsn, 998. 4. Mhals (980), Knowledge Aquston thorough Coneptual Clusterng: A Theoretal Framewor and Algorthm for Parttonng Data nto Conuntve Conepts, Internatonal Journal of Poly Analyss and Informaton Systems, Vol. 4, 980. 5. Montes y ómez (00), Mnería de texto empleando la Semeanza entre Estruturas Semántas. Tess de Dotorado, Centro de Investgaón en Computaón, Insttuto Polténo Naonal, Méxo, Febrero 00. 6. Mugner (995), On generalzaton/spealzaton for oneptual graphs, Journal of Expermental and Theoretal Artfal Intellgene, Vol. 7, 995. 7. Sowa (984), Coneptual Strutures: Informaton Proessng n Mnd and Mahne, Addson-Wesley, readng, M.A., 984. 8. Sowa (999), Knowledge Representaton: Logal, Phlosophal and Computatonal Foundatons, Thomson Learnng, 999. 9. Sowa and Way (986), Implementng a semant nterpreter usng oneptual graphs, IBM Journal of Researh and Development 30:, January, 986. 0. Spar-Jones (999), What s the Role of NLP n Text Retreval?, In Strzalows Ed., Natural Language Informaton Retreval, Kluwer Aadem Publshers, 999.. Tan (999), Text Mnng: The state of the art and hallenges, Pro. of the Worshop Knowledge Dsovery from advaned Databases PAKDDD-99, Abrl 999. Apénde A. rafos Coneptuales A. Termnología Bása rafo oneptual: Un grafo oneptual es un grafo bpartto. Esto sgnfa que tene dos tpos de nodos: oneptos y relaones oneptuales, y ada aro une solamente a un onepto on una relaón oneptual (Sowa, 984). Por eemplo, el grafo [gato:felx] (sobre) [sllón] (attr) [negro] representa la frase El gato Felx está sobre el sllón negro. En él se observan tres oneptos: gato Félx, sllón y negro, y dos relaones oneptuales: sobre y atrbuto. Conepto: Los oneptos representan entdades, aones y atrbutos, y tenen un tpo oneptual y un referente. El tpo oneptual nda la lase de elemento representado por el onepto, mentras que el referente nda el elemento espeífo (nstana de la lase) referdo por éste. Por eemplo, el onepto [gato:félx] tene el tpo gato y el referente Félx. Tpos oneptuales: Los tpos oneptuales se organzan en una erarquía de tpos. Esta erarquía es un ordenamento paralmente defndo sobre el onunto de tpos determnado por el símbolo. Entones, dada una erarquía de esta naturaleza, y onsderando que s, t y u representan tres tpos oneptuales, lo sguente puede estableerse: S s t, entones s es un subtpo de t; y t es un supertpo de s. S s t y s t, entones s es un subtpo propo de t, expresado omo s < t; y t es un supertpo propo de s, expresado omo t > s. S s es un subtpo de t y a la vez un subtpo de u (s t y s u), entones s es un subtpo omún de t y u. S s es un supertpo de t y a la vez un supertpo de u (t s y u s), entones s es un supertpo omún de t y u. Referentes: Los referentes son de dos lases: genéros e ndvduales. Los referentes genéros se referen a oneptos no espefados. Por eemplo, el onepto [sllón] sgnfa un sllón. Por su parte, los referentes ndvduales funonan omo susttutos de elementos espeífos del mundo real. Por eemplo, el onepto [gato:félx] es un susttuto del gato Félx que exste en algún lugar. Relaón oneptual: Las relaones oneptuales señalan la manera en que los oneptos se nterrelaonan. Ellas tenen un tpo relaonal y una valena. El tpo relaonal nda el rol semánto que realzan los oneptos adyaentes (onetados) a la relaón, y la valena nda el número de éstos. 79

Manuel Montes y ómez A. eneralzaón de rafos Coneptuales Todas las operaones de los grafos oneptuales se basan en alguna ombnaón de las ses reglas anónas de formaón (núleo de la teoría de grafos oneptuales). Cada una de estas reglas realza una operaón bása sobre los grafos oneptuales. Por eemplo, algunas de estas reglas los haen más espeífos, otras los generalzan, y otras únamente amban su forma pero los mantenen lógamente equvalentes. El método de mnería de texto propuesto se fundamenta en la deteón de los elementos omunes de un onunto de grafos oneptuales, es der, en la generalzaón de los grafos. Por ello, en este apénde sólo se analzan las reglas anónas de generalzaón. Las reglas de generalzaón son dos: desrestrngr y separar. La regla de desrestrngr generalza el tpo o el referente de un onepto, mentras que la regla de separar dvde el grafo orgnal en dos partes tomando omo base alguno de sus nodos onepto; sendo ada una de las partes resultantes una generalzaón del grafo orgnal. Desrestrngr: Sea un onepto del grafo u. Entones el grafo v puede ser dervado del grafo u generalzando el onepto tanto por tpo omo por referente. La generalzaón por tpo reemplaza el tpo de por alguno de sus supertpos, y la generalzaón por referente reemplaza el referente ndvdual de por un referente genéro. Separar: Sea un onepto del grafo u. Entones el grafo v puede ser dervado del grafo u haendo una opa d de (es der, duplando el onepto ), separando uno o varos de los aros de las relaones oneptuales onetadas a, y onetándolos a d. Ahora ben, s el grafo oneptual v es dervado del grafo oneptual u aplando una seuena de estas reglas, entones v es una generalzaón de u. Esto se denota omo u v. La operaón de generalzaón defne un ordenamento paral de los grafos oneptuales onodo omo erarquía de generalzaón. Entones s u, v y w son grafos oneptuales de esta erarquía, las sguentes propedades sempre son verdaderas: Reflexvdad: u u. Transtvdad: s u v y v w, entones u w. Antsmetría: s u v y v u, entones u = v. Subgrafo: S v es un subgrafo de u, entones u v. Además s v es una generalzaón de u (u v), entones debe de exstr un subgrafo u' nmerso en u que represente el grafo v. Este subgrafo u' es llamado proyeón de v en u. Formalmente, para dos grafos oneptuales ualesquera u y v, sendo u v, debe de exstr un mapeo h: v u, donde πv es un subgrafo de u llamado proyeón de v en u. Algunas propedades de la proyeón son: Para ada onepto de v, π es un onept o en πv, para el ual type( π ) type( ) entones tambén referent ( π ) = referent( ). ; y s es un onepto ndvdual, Para ada relaón oneptual r de v, πr es una relaón oneptual en πv, para la ual type(πr) = type(r). Esto mpla que s el -esmo aro de r está onetado al onepto, entones el -esmo aro de πr debe de estar onetado a π en πv. La proyeón π no es neesaramente uno-a-uno, esto sgnfa que dos oneptos o dos relaones oneptuales dferentes pueden tener las msmas proyeones (por eemplo, los oneptos x, x v: x x pueden tener proyeones πx y πx en u, tal que πx = πx ). Además, la proyeón π tampoo es neesaramente úna, es der, un grafo v puede tener dos proyeones dferentes en u, π'v y πv, donde π'v πv. Fnalmente, s u, u y v son grafos oneptuales, y u v y u v, entones v es una generalzaón omún de u y u. El grafo oneptual v es la máxma generalzaón omún de u y u, s y sólo s, no exste otra generalzaón omún v' de u y u (u v' y u v'), tal que v' v. 80

Mnería de texto empleando la Semeanza entre Estruturas Semántas Manuel Montes y ómez. Rebó, on menón honorífa, el grado de Dotor en Cenas de la Computaón (00) del Centro de Investgaón en Computaón del IPN, Méxo. Atualmente es Investgador Ttular de la Coordnaón de Cenas Computaonales del Insttuto Naonal de Astrofísa, Ópta y Eletróna. Tambén es membro del Sstema Naonal de Investgadores de Méxo. Su prnpal nterés de nvestgaón es el proesamento automáto de textos; área en la que ha publado más de nuenta artíulos entífos en revstas y ongresos nternaonales, y ha drgdo dos tess de postgrado. Alexander elbuh. Rebó, on menón honorífa, su grado de Maestro en Cenas Matemátas (990) de la Unversdad Estatal Lomonósov de Mosú, Rusa, y su grado de Dotor en Cenas de la Computaón (995) del VINI- TI, Rusa. Atualmente es Profesor-Investgador del Centro de Investgaón en Computaón del IPN, efe del Laboratoro de Lenguae Natural y Proesamento de Texto. Es membro de la Aadema Mexana de Cenas y del Sstema Naonal de Investgadores (SNI) de Méxo, autor de alrededor de 300 publaones en la lngüísta omputaonal y proesamento automáto de texto, reuperaón de nformaón y áreas afnes; véase www.elbuh.om. Aurelo López López. Es nvestgador de la Coordnaón de Cenas Computaonales del INAOE, en Tonantzntla, Puebla, Méxo. Obtuvo el grado de Dotor en Cenas de la Computaón y la Informaón (995) de la Unversdad de Syrause, Nueva Yor, EUA.. Sus ntereses de nvestgaón nluyen la representaón del onomento, la reuperaón y extraón de nformaón, el proesamento de lenguae natural y la mnería de texto. 8