Context Expansion for Domain-Specific Word Sense Disambiguation

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Context Expansion for Domain-Specific Word Sense Disambiguation"

Transcripción

1 Context Expansion for Domain-Specific Word Sense Disambiguation F. Rojas, I. Lopez, D. Pinto and V. J. Sosa Abstract 1 Two novel techniques based on term expansion for domain-specific Word Sense Disambiguation are presented in this paper. A list of terms correlated with the ambiguous word is obtained by means of correlation methods such as Pointwise Mutual Information and Chi-square. The list of correlated terms is used for expanding the context in which an ambiguous word occurs, thus leading to a better number of terms which may be further used for determining the correct sense of the target ambiguous word. The proposed method has been tested in domain-specific corpora (Finance and Sports) and in one balanced corpus, the British National Corpus (BNC). The obtained results for domain-specific corpora are competitive (Finance) and ever better (Sports and BNC) than those reported in previous works. Keywords Word sense disambiguation, specific domain, synset, WordNet, context expansion D I. INTRODUCCIÓN ESAMBIGUACIÓN del sentido de la palabra (DSP) es una tarea abordada desde hace varias décadas en el área de Lingüística Computacional (LC). DSP consiste en asignar el sentido correcto a una palabra ambigua considerando el contexto en el cual ocurre. De acuerdo con el Semeval [1], DSP se divide en dos tipos: muestra léxica (lexical sample) y todas las palabras (all-words), la primera consiste en seleccionar el sentido correcto para una palabra ambigua en una frase; la segunda trata de desambiguar todas las palabras de un texto. Se han propuesto diferentes enfoques para resolver la tarea genérica de DSP (supervisado, no supervisado, semi-supervisado, entre otros) [2, 3]. Por otro lado, DSP aplicado a dominios diferentes (cuando el dominio fuente y el objetivo son distintos), representa grandes desafíos, por ejemplo 1) resultados experimentales han mostrado una caída en el desempeño cuando el conjunto de texto de entrenamiento y de prueba pertenecen a dominios diferentes [4]; 2) la necesidad de reentrenar el sistema de DSP en cada nuevo dominio. En consecuencia se han propuesto métodos diferentes con el objetivo de resolver tales desafíos, como F. Rojas, Universidad Politécnica Metropolitana de Puebla, Puebla, México, I. Lopez, Cinvestav - Tamaulipas, Victoria, México, D. Pinto, Benemérita Universidad Autónoma de Puebla, Puebla, México, V. J. Sosa, Cinvestav - Tamaulipas, Victoria, México, adquisición del sentido predominante [5, 6, 7]; enfoques semisupervisados [8, 9] y basados en conocimiento [10, 11]. En este artículo presentamos un enfoque de DSP de muestra léxica basado en conocimiento para desambiguar instancias en conjuntos de textos en inglés de diferente dominio. El método recupera un conjunto de términos en una ventana de tamaño específico. Estos términos son usados para expandir el contexto donde se encuentra la palabra ambigua. Se proponen dos técnicas de expansión de términos para formar clases de instancias: 1) Expansión de Términos Supervisada (ETS) y 2) Expansión de Términos No Supervisada (ETNS). Una vez formadas las clases se aplican las técnicas Pointwise Mutual Information (PMI) [12] y Chi-cuadrada ( ) [13] para medir el grado de correlación entre pares de términos. Los términos recuperados son usados para expandir el contexto en cual ocurre una instancia ambigua. El objetivo de las técnicas propuestas es tener mayor evidencia contextual. De esta manera, no sólo consideramos las palabras en el contexto de una instancia ambigua, sino que también, palabras en todo el conjunto de texto de prueba donde se encuentra la palabra a desambiguar. La técnica de expansión de términos ha sido aplicada en el Procesamiento del Lenguaje Natural (PLN) para diversas tareas, por ejemplo, en Recuperación de Información (RI) para expandir la consulta dada por el usuario, en inducción del sentido de la palabra, en DSP, entre otras. Usualmente este proceso es llevado a cabo mediante el uso de un tesauro, una base de datos léxica u ontologías, etc. Por ejemplo, Tuominen et al. [14] usaron un método basado en ontologías para llevar a cabo el proceso de expansión de consultas y mejorar los resultados de un sistema de RI. En la literatura se han reportado varias propuestas de expansión de términos en DSP [15, 16, 17, 18]. El enfoque que se propone en este artículo está relacionado con el trabajo presentado por Pinto et al. [18], quienes propusieron un enfoque no supervisado de expansión de términos para la tarea Word Sense Induction and Discrimination System, presentado en el SemEval 2007 (International Workshop on Semantic Evaluation). En este sentido consideramos que el uso de términos recuperados desde el conjunto de texto de prueba puede ser de alto beneficio para la tarea de DSP en dominios específicos. De esta manera contribuimos con dos técnicas para expandir el contexto de instancias ambiguas. Los experimentos realizados sobre conjuntos de textos de diferente dominio muestran que

2 ETS obtiene mejores resultados en el dominio de Deportes y en el British National Corpus (BNC). En el dominio de Finanzas se obtuvieron resultados competitivos de acuerdo con lo reportado en la literatura. El resto del artículo está estructurado de la siguiente manera: en la Sección II se describe el trabajo relacionado con DSP en dominios específicos. La Sección III muestra los detalles de las técnicas de expansión de términos. La Sección IV describe los conjuntos de textos de prueba usados en los experimentos así como los resultados obtenidos. En la Sección V se discuten los experimentos llevados a cabo. Finalmente las conclusiones y trabajo futuro se describen en la Sección VI. II. TRABAJO RELACIONADO En la literatura se ha reportado un gran número de enfoques de DSP [2, 3], estos enfoques principalmente abordan el problema genérico de desambiguación. Sin embargo, el interés en dominios específicos se ha incrementado, dado que un sistema de desambiguación no garantiza su desempeño cuando se mueve de un dominio a otro. Es decir, cuando el conjunto de texto de evaluación es diferente al conjunto de texto de entrenamiento [4, 19]. En este contexto Chan y Ng [19] abordan el problema usando un algoritmo de aprendizaje supervisado Näive Bayes. Los autores agregaron ejemplos de entrenamiento desde el nuevo dominio como datos adicionales al sistema de DSP. De esta manera mostraron que el uso del sentido predominante del dominio objetivo mejoró el proceso de adaptación al nuevo dominio. Agirre y de Lacalle [20] propusieron un enfoque semi-supervisado de DSP, usaron descomposición de valores singulares y datos no etiquetados para obtener una mejor adaptación desde un conjunto de texto de propósito general (BNC) a un conjunto de texto de dominio específico (Deportes o Finanzas). De manera similar Guo et al. [8] presentaron un enfoque diferente en relación a trabajos previos de adaptación de dominio [19, 20], afirmaban que el mismo modelo era usado para desambiguar todas las palabras, a pesar de la diferencia existente entre ellas. Para mejorar el problema de adaptación de dominio construyeron un conjunto de modelos candidatos para cada palabra ambigua. El modelo a usar era seleccionado automáticamente desde el conjunto de modelos candidatos. Navigli et al. [10] propusieron un algoritmo para ponderar acepciones de la palabra a desambiguar, para ello recuperaron términos relevantes desde texto de dominio específico. Los términos relevantes fueron usados para inicializar un randow walk sobre el grafo de WordNet. De esta manera construyeron un modelo semántico para cada dominio. Los modelos semánticos fueron aplicados en categorización de textos y DSP en dominios específicos. Otro enfoque aplicado a DSP en diferentes dominios fue presentado por Koeling et al. [5]. En dicho enfoque se construye un tesauro desde un conjunto de texto de dominio específico usando el método de Lin [21]. El tesauro fue usado para recuperar los primeros top-k vecinos más cercanos para cada palabra ambigua; posteriormente fue usada una medida de similitud semántica implementada sobre WordNet para comparar cada acepción de la palabra vecina con cada acepción de la palabra a desambiguar. La acepción con el mejor puntaje era seleccionada para desambiguar cada palabra. Es importante indicar que el trabajo mencionado no lleva a cabo una desambiguación contextual. Por otro lado, varios trabajos han sido reportados en la literatura para enfrentar el problema de escasez de datos, es decir, cuando las características contextuales no son suficientes para DSP. Por ejemplo Tsao et al. [15] llevaron a cabo un proceso para expandir el contexto de instancias ambiguas. Las características expandidas fueron extraídas desde el conjunto de texto de prueba y WordNet para mejorar los resultados de un sistema de DSP, usando un algoritmo de aprendizaje supervisado Näive Bayes. Asimismo Tacoa et al. [16] evaluaron una técnica de expansión de términos en un sistema de DSP supervisado. Las características expandidas fueron recuperadas desde un tesauro de acuerdo a su relación de información mutua. Banerje y Pedersen [17] presentaron una modificación del algoritmo de Lesk [22], para ello extendieron las glosas de un sentido dado apoyándose en la jerarquía de WordNet, de esta manera tomaban en cuenta hiperónimos, hipónimos, holónimos, etc., y sus definiciones asociadas para construir un contexto más extenso para el significado de la palabra de interés. Pinto et al. [18] presentaron un enfoque para mejorar la usabilidad de un conjunto de texto de tamaño limitado a través de la expansión de términos. Esta técnica involucraba una lista de palabras de co-ocurrencia de términos basada en PMI. La lista de términos fue usada para expandir palabras en el vector de características. Posteriormente aplicaron un algoritmo de agrupación para inducir los sentidos de una palabra ambigua. La propuesta que se presenta en este artículo es una extensión del artículo presentado por Rojas-Lopez et al. [23], en el cual el enfoque de DSP, a diferencia de lo reportado en la literatura, recupera términos relacionados con la palabra a desambiguar usando el conjunto de texto de prueba. La extensión del trabajo consiste en la integración de las técnicas PMI y a la propuesta antes citada, lo cual inicialmente no se había contemplado. Con dicha integración se mejora la recuperación y ponderación de términos. III. EXPANSIÓN DE TÉRMINOS Es de gran beneficio expandir el contexto de la palabra ambigua con el objetivo de tener mayor evidencia contextual, de tal manera que se mejore la afectividad de la acepción seleccionada para una palabra ambigua. Es de gran beneficio expandir el contexto de la palabra ambigua con el objetivo de tener mayor evidencia contextual,

3 de tal manera que se mejore la afectividad de la acepción seleccionada para una palabra ambigua. En este artículo se implementan dos técnicas para expandir el contexto donde ocurre la palabra a desambiguar. Con las técnicas se agregan términos relacionados a cada instancia de una palabra ambigua mediante expansión de términos supervisada y no supervisada. Tal técnica consiste en medir el grado de correlación entre cada instancia de una palabra ambigua y cada término en el conjunto de texto de prueba. Para lograr este objetivo se implementaron dos técnicas (PMI y ), las cuales ya han sido usadas por su efectividad en diferentes tareas del PLN [18, 13]. A diferencia de PMI, la medida es usada para la prueba de hipótesis de independencia entre dos variables. Sin embargo, no es de nuestro interés discutir los aspectos estadísticos de la, una explicación más extensa puede verse en el libro de Manning y Schütze [13]. En este artículo sólo la usamos para medir el grado de correlación entre dos términos. Las técnicas de expansión de términos se explican a continuación. A. Expansión de términos supervisada Para la Expansión de Términos Supervisada (ETS) cada instancia en el conjunto de texto de prueba fue etiquetada por estudiantes lingüistas usando WordNet como repositorio de sentidos. El objetivo de esta técnica es agrupar las instancias a desambiguar de acuerdo a la acepción asignada por los etiquetadores, para así formar clases de acuerdo a su acepción. De esta manera los términos encontrados en cada clase estarán fuertemente asociados dado que pertenecen al mismo sentido. A continuación se explica el proceso de agrupar instancias. Sean,,, instancias de una palabra ambigua, cada instancia,(1 ) fue etiquetada con el sentido correcto. A continuación las instancias etiquetadas con el mismo sentido fueron agrupadas para formar el conjunto de clases denotado por =,,,. De esta manera cada clase está formada por las sentencias en las cuales ocurre, por lo tanto cada clase contiene un conjunto de términos,,,. A continuación para cada clase (1 ) fueron aplicadas PMI y para obtener el grado de asociación entre cada instancia ambigua y cada término. Como resultado se obtuvo una lista de términos, los cuales fueron ponderados de acuerdo al grado de asociación con. Esta lista de términos fue usada para expandir el contexto de cada instancia ambigua. B. Expansión de términos no supervisada Para la Expansión de Términos No Supervisada (ETNS) fueron agrupadas las instancias que pertenecen a una palabra ambigua para formar clases de palabras ambiguas independientemente de la acepción de cada instancia. Es decir, las instancias de una misma palabra ambigua pertenecen a distintos sentidos de acuerdo a WordNet. Por lo tanto, los términos asociados con cada clase son más heterogéneos respecto a la técnica ETS. En esta técnica todas las instancias forman una clase, es decir, obtenemos tantas clases como palabras ambiguas existen en el conjunto de texto de prueba. Nuevamente las técnicas PMI y fueron aplicadas para obtener una lista de términos ponderados cuyo valor indica el grado de asociación con la instancia. Al igual que en el enfoque supervisado, la lista de términos ponderados expande el contexto de cada instancia ambigua. IV. SELECCIÓN DE TÉRMINOS A continuación se describen brevemente las técnicas que se emplean para obtener el grado de correlación entre pares de términos. A. Pointwise Mutual Information Pointwise Mutual Information (PMI) [12] es un método usado para medir el grado de asociación entre dos términos. Esto se logra mediante el uso del traslape de información que ambos términos comparten (, ). Si se considera la ocurrencia de ambos términos como dos variables aleatorias entonces PMI mide dependencia mutua entre la aparición de los términos (, ). Para estimar el grado de correlación entre ambos términos se emplea la Ecuación 1, donde (, ) es la frecuencia de observar y juntos, dividido por frecuencia de observar y independientemente. (, )= (, ) ( ) ( ) B. Chi-square Otra alternativa para medir la independencia entre dos términos o grado de correlación entre un término y una categoría es la prueba de correlación denominada Chi-square ( ) [24]. En este caso es usada para examinar la independencia entre dos términos y. Se asume que los términos son independientes si (, ) = ( ) ( ) El valor entre dos términos se obtiene empleando la Ecuación 2. = ( ) donde O denota la frecuencia observada y E denota la frecuencia esperada entre los términos y. La frecuencia esperada (E) se obtienen aplicando la Ecuación 3. = (, ) (1) (2) (3)

4 donde (, ) denota las frecuencias observadas cuando los términos y co-ocurren. La probabilidad de ocurrencia de los términos y se obtiene dividiendo su valor de frecuencia por la suma de la frecuencia de todos los pares de términos denotado por, encontrados en un tamaño de ventana específico. La frecuencia observada entre y se obtiene multiplicando los factores = ( ), = ( ), ( ) ( ) donde ( ) y ( ) es la frecuencia de la palabra y en la ventana de contexto definida y ( ) y ( ) es la suma de las frecuencias en toda la clase. El valor de la frecuencia observada se obtiene multiplicando los factores,. V. EXPERIMENTOS A continuación se describe el trabajo experimental realizado con las técnicas de expansión de términos del enfoque propuesto. Los experimentos fueron llevados a cabo en conjuntos de textos que comprenden instancias ambiguas en diferentes dominios. Las siguientes secciones describen los conjuntos de textos usados en los experimentos así como los resultados obtenidos. A. Conjuntos de textos de prueba Los experimentos fueron llevados a cabo en los conjuntos de textos de prueba presentados por Koeling et al. [5], los cuales se encuentran públicamente disponibles. Los conjuntos de textos de prueba comprenden 41 ejemplos de palabras ambiguas relacionadas a los dominios de Deportes, Finanzas y uno de contenido general, el BNC (British National Corpus). El BNC está formado de 4 categorías básicas: educación, negocios, público/institucional y ocio. Los dominios de Deportes y Finanzas fueron extraídos desde el conjunto de texto Reuters. Las características de las palabras incorporadas en los conjuntos de textos de prueba representan un reto para evaluar la precisión en el proceso de desambiguación dado que el número promedio de sentidos para cada palabra ambigua es de 6.7 sentidos. Esto significa que cada palabra ambigua puede tener en promedio 6.7 posibles sentidos. B. Configuración experimental El contexto en que se encuentra una palabra ambigua contribuye a determinar la acepción de dicha palabra, dada la situación comunicativa de las palabras en el contexto. Para extraer el contexto donde ocurre la palabra ambigua se realizó una fase de pre-procesamiento sobre los conjuntos de textos de prueba. Esta fase consiste en asignar la categoría gramatical a cada término en la sentencia usando la herramienta Stanford POS tagger [25]; a continuación las palabras vacías fueron removidas, tales como artículos, preposiciones, conjunciones etc. Para seleccionar los términos contextuales se definió una ventana de contexto de tamaño 2 1, = 5, es decir, 5 términos a la derecha e izquierda de la palabra ambigua; en total la ventana tiene 11 términos considerando la palabra ambigua. A continuación se obtuvo el grado de correlación entre cada par de términos como se describe en la Sección IV. En ambas técnicas la frecuencia de co-ocurrencia entre los términos y debe ser mayor o igual a 2 con el objetivo de remover términos que son más probablemente ruidosos. C. Resultados obtenidos Para evaluar la efectividad del enfoque propuesto se aplicaron las medidas de RI, precision (P) y recall (R), como muestra la Tabla I. La tabla está dividida en dos secciones, la primera sección muestra los resultados obtenidos al usar PMI y como técnicas para ponderar la co-ocurrencia de términos en la ventana establecida, como fue indicado en la subsección anterior. La segunda sección muestra los resultados obtenidos por otros trabajos de la literatura que usan el mismo benchmark que nosotros. La tabla también muestra los resultados obtenidos por Koeling et al. [5] al combinar la información de todos los dominios. Cabe mencionar que el trabajo de Koeling et al. no lleva a cabo una desambiguación contextual, por lo tanto es más viable comparar nuestro enfoque con el trabajo presentado por Navigli et al. [10] y Rojas-Lopez et al. [23]. Los mejores resultados son obtenidos al evaluar PMI en ambas técnicas ETS y ETNS; por el contrario obtuvo resultados deficientes en ambas técnicas a excepción del dominio de Finanzas. TABLA I. RESULTADOS DE DSP EN DIFERENTES DOMINIOS DE PRUEBA. Algoritmo Deportes Finanzas BNC P R P R P R ETS PMI ETNS PMI Rojas-Lopez et al. [23] Navigli et al. [10] Koeling et al. [5] En la Tabla II se muestra el número de clases obtenidas por acepción (ETS) y por palabra ambigua (ETNS). También se muestra el número promedio de palabras obtenidas por clase; estos datos son obtenidos después de una fase de preprocesamiento aplicada a los conjuntos de textos de prueba. Creemos que el número de palabras en las clases afectó el desempeño de comparada con PMI. En consecuencia, en el enfoque propuesto PMI permite discriminar con mayor precisión términos ruidosos en comparación con. Se observa en la Tabla I que la técnica ETS obtuvo mejores resultados en términos de precision y recall. Consideramos que esto se debe a que las sentencias donde ocurre la palabra ambigua fueron agrupadas por acepción, es decir, los

5 contextos pertenecen a la acepción, lo cual garantiza que los términos con mayor frecuencia se encuentran fuertemente relacionados con la palabra a desambiguar, caso contrario a la técnica ETNS. Los espacios vacíos en la Tabla I indican que los autores no reportan los resultados en términos de precision o recall. TABLA II. NÚMERO DE CLASES Y PALABRAS OBTENIDAS POR CONJUNTO DE TEXTO DE PRUEBA. Supervisado No supervisado Clases Promedio de palabras por clase Clases Promedio de palabras por clase Deportes Finanzas BNC VI. DISCUSION El objetivo de las técnicas ETS y ETNS es expandir el contexto donde ocurre la palabra ambigua usando el conjunto de texto de prueba. ETS añade términos tomando ventaja de la acepción asignada a cada instancia ambigua. Por otro lado, ETNS agrupa contextos de instancias ambiguas que pertenecen a la misma palabra ambigua. Ambas técnicas obtienen valores de precisión y recall competitivos en relación con lo reportado en la literatura. Sin embargo, PMI mide mejor la correlación entre pares de términos que. La Tabla II muestra cómo se relaciona el número de acepciones (clases) encontradas por dominio en el enfoque ETS, con los resultados de precision y recall obtenidos en los experimentos (Tabla I). Por ejemplo, el dominio de Deportes tiene un menor número de acepciones, seguido por Finanzas y BNC. Los resultados obtenidos en términos de precision y recall siguen este mismo orden. Es decir, la probabilidad de que una palabra sea desambiguada en el dominio de Deportes es más alta comparada con Finanzas y BNC. Es importante mencionar que BNC no es un conjunto de textos de dominio específico. Sin embargo las técnicas de expansión de términos muestran que los términos recuperados desde el conjunto de texto de prueba mejoran la tarea DSP aún cuando el conjunto de texto de prueba no es de dominio específico. De la misma manera los resultados obtenidos por Rojas-lopez et al. [23] y los resultados presentados por Koeling et al. [5] muestran el mismo comportamiento a excepción de los resultados presentados por Navigli et al. [10]. VII. CONCLUSIONES En este estudio fueron explorados dos métodos para ponderar el grado de correlación entre pares de términos dentro de la tarea muestra léxica de DSP. Los métodos implementan las técnicas de Expansión de Términos Supervisada y No Supervisada. La técnica supervisada sugiere que los términos que pertenecen a sentencias cuyas palabras ambiguas pertenecen a la misma acepción contribuyen fuertemente en el proceso de desambiguación del sentido de la palabra. Por lo tanto es de nuestro interés implementar a futuro una técnica de agrupación de textos cortos como la propuesta por Pedersen [26] para agrupar de una manera no supervisada contextos relacionados con las sentencias donde ocurre la palabra ambigua. De acuerdo con los resultados obtenidos, no podemos afirmar que PMI tiene un mejor comportamiento que para medir la correlación entre términos porque el número de palabras presentes en cada clase es pequeño, por lo tanto existe una menor frecuencia. En consecuencia, como trabajo futuro implementaremos también una técnica de agrupación para recuperar contextos relacionados con las instancias ambiguas y evaluar el comportamiento de PMI y en un conjunto de contextos de mayor tamaño. REFERENCIAS [1] S. Pradhan, E. Loper, D. Dligach, and M. Palmer, "Semeval-2007 task-17: English lexical sample, SRL and all words", In Proceedings of the Fourth International Workshop on Semantic Evaluations, pp , [2] R. Navigli, "Word sense disambiguation: A survey", ACM Computing Surveys, [3] D. McCarthy, "Word Sense Disambiguation: An Overview", Language and Linguistics Compass, pp , [4] E. Gerard, M. Lluís, and R. German, "An Empirical Study of the Domain Dependence of Supervised Word Sense Disambiguation Systems", Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, vol. 13, pp , [5] R. Koeling, D. McCarthy, and J. Carroll, "Domain-specific sense distributions and predominant sense acquisition", Association for Computational Linguistics, no. 8, pp , [6] J. Tejeda-Carcamo, H. Calvo, A. Gelbukh, and K. Hara, "Unsupervised WSD by finding the predominant sense using context as a dynamic thesaurus", Journal of Computer Science and Technology, vol. 25, no. 5, p. 10, Sep [7] D. McCarthy, R. Koeling, J. Weeds, and J. Carroll, "Unsupervised Acquisition of Predominant Word Senses", Computational Linguistics, vol. 33, no. 4, [8] Y. Guo, W. Che, T. Liu, and S. Li, "Semi-supervised domain adaptation for WSD: Using a word-by-word model selection approach", Proceedings 9th IEEE International Conference on Cognitive Informatics, p , [9] S. Faralli and R. Navigli, "A New Minimally-Supervised Framework for Domain Word Sense Disambiguation", Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012, July 12-14, 2012, Jeju Island, Korea, pp , [10] R. Navigli, S. Faralli, A. Soroa, O. de Lacalle, and E. Agirre "Two birds with one stone: learning semantic models for text categorization and word sense disambiguation", Proceedings of the 20th ACM international conference on Information and knowledge management, pp , [11] E. Agirre, O. De lacalle, and A. Soroa, "Knowledge-based WSD on specific domains: performing better than generic supervised WSD", Proceedings of the 21st International Jont Conference on Artifical Intelligence, pp , [12] K. Church and Hanks, "Word association norms, mutual information, and lexicography", vol. 16, pp , [13] C. D. Manning and H. Schütze, Foundations of Statistical Natural Language Processing. MIT Press, 1999.

6 [14] J. Tuominen, K. Viljanen, E. Hyvönen, and T. Kauppinen, "Ontology- Based Query Expansion Widget for Information Retrieval", Proceedings of the 5th Workshop on Scripting and Development for the Semantic Web, 6th European Semantic Web Conference, [15] N.-L. Tesao, D. Wible, and C.-H. Kuo, "Feature expansion for word sense disambiguation", Natural Language Processing and Knowledge Engineering, Proceedings International Conference on, pp , [16] F. Tacoa, D. Bollegala, and M. Ishizuka, "A Context Expansion Method for Supervised Word Sense Disambiguation", Sixth IEEE International Conference on Semantic Computing, [17] S. Banerjee and T. Pedersen, "An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet", In CICLing 2002 conference, vol. 2276, pp , [18] D. Pinto, P. Rosso, and H. Jiménez-Salazar, "UPV-SI: word sense induction using self term expansion", Proceedings of the 4th International Workshop on Semantic Evaluations, pp , [19] Y. S. Chan and H. T. Ng, "Domain Adaptation with Active Learning for Word Sense Disambiguation", Association for Computational Linguistics, pp , Jun [20] E. Agirre and O. de La calle, "On robustness and domain adaptation using SVD for word sense disambiguation", Proceedings of the 22nd International Conference on Computational Linguistics, vol. 1, pp , [21] D. Lin, "Automatic retrieval and clustering of similar words", Proceedings of the 17th International Conference on Computational Linguistics, vol. 2, pp , [22] M. Lesk, "Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone", Proceedings of SIGDOC, pp , [23] F. Rojas-Lopez, I. Lopez-Arevalo, and V. J. Sosa-Sosa, "Improving selection of synsets for domain-specific Word Sense Disambiguation", Submitted to Language Resources and Evaluation, Springer, [24] Y. Yang and J. Pedersen, "A Comparative Study on Feature Selection in Text Categorization", Proceedings of the Fourteenth International Conference on Machine Learning, pp , [25] K. Toutanova, D. Klein, C. D. Manning, and Y. Singer, "Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network", HLT- NAACL, [26] T. Pedersen, "Computational Approaches to Measuring the Similarity of Short Contexts : A Review of Applications and Methods", Computing Research Repository, vol. abs/ , Victor J. Sosa-Sosa is a full-time research-professor at Center for Research and Advanced Studies of the National Polytechnic Institute of Mexico (Cinvestav), campus Tamaulipas. He has a PhD in Computer Science from Technical University of Catalonia (UPC-Barcelona), was a visiting researcher in the Database and Information System group at Max Planck Institute für Informatik in Germany (Sep/12-Jul/13), his research interest and specialization areas are Databases and Distributed Systems. His work is focused on large scale information search (surface and deep Web), information extraction, integration (Web databases) and cloud storage. Franco Rojas-Lopez received his Master degree in Computer Science from Benemérita Universidad Autónoma de Puebla and his Ph.D. in Computer Science from Cinvestav- Tamaulipas. He is associate professor at Universidad Politécnica Metropolitana de Puebla. His current research interests are Semantic Web, Information Retrieval and Knowledge Representation and Management. Ivan Lopez-Arevalo is a full-time research-professor at the Information Technology Lab at Center for Research and Advanced Studies of the National Polytechnic Institute of Mexico (Cinvestav-Tamaulipas). He received a Ph.D. degree in Computing from Technical University of Catalonia (UPC, Barcelona). His research interests include different topics from data analysis on databases, Web and social networks, such as data mining, text mining, and knowledge representation and management. His work also includes soft computing in engineering. David Pinto is a full-time research-professor in the Faculty of Computer Science at the Benemérita Universidad Autónoma de Puebla (BUAP). He received his Ph.D. degree in Pattern Recognition & Artificial Intelligence from the Universidad Politécnica de Valencia (UPV, Spain). His research interests include different topics from information retrieval, clustering and analysis of short texts, machine reading evaluation, question-answering. He is the founder and the actual chief of the Language & Knowledge Engineering Lab at BUAP.

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS

CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS XXV Jornadas de Automática Ciudad Real, del 8 al 10 de septiembre de 2004 CLASIFICACIÓN TEXTUAL BASADA EN TÉRMINOS JERÁRQUICOS Francisco Javier Panizo, José R. Villar, Ángel Alonso Área de Ingeniería de

Más detalles

Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas

Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas Prototipo para desambiguación del sentido de las palabras mediante etiquetado de palabras y relaciones semánticas Prototype for word sense disambiguation using POS tagger and semantic relatedness Edgar

Más detalles

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Rafael Rodríguez-Puente 1, Eliana B. Ril-Valentin 2 1 Departamento de Técnicas de

Más detalles

Método de desambiguación léxica basada en el recurso léxico Dominios Relevantes

Método de desambiguación léxica basada en el recurso léxico Dominios Relevantes Método de desambiguación léxica basada en el recurso léxico Dominios Relevantes Sonia Vázquez y Andrés Montoyo Grupo de Procesamiento del Lenguaje y Sistemas de Información Departamento de Lenguajes y

Más detalles

Antonio Juárez González

Antonio Juárez González e-mail: antjug@inaoep.mx Antonio Juárez González Información personal Estado civil: Soltero Fecha de nacimiento: 8 de marzo de 1982 Lugar de nacimiento: Tlaxcala, Tlaxcala Nacionalidad: Mexicano CURP:

Más detalles

Clasificación Automática de Textos de Desastres Naturales en México

Clasificación Automática de Textos de Desastres Naturales en México Clasificación Automática de Textos de Desastres Naturales en México Alberto Téllez-Valero, Manuel Montes-y-Gómez, Olac Fuentes-Chávez, Luis Villaseñor-Pineda Instituto Nacional de Astrofísica, Óptica y

Más detalles

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas

Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Método Supervisado orientado a la clasificación automática de documentos. Caso Historias Clínicas Roque E. López Condori 1 Dennis Barreda Morales 2 Javier Tejada Cárcamo 2 Luis Alfaro Casas 1 1 Universidad

Más detalles

Desambiguación de sentidos de palabras usando relaciones sintácticas como contexto local

Desambiguación de sentidos de palabras usando relaciones sintácticas como contexto local Desambiguación de sentidos de palabras usando relaciones sintácticas como contexto local Javier Tejada-Cárcamo, 1,2 Alexander Gelbukh, 1 1 Hiram Calvo 1 Natural Language Processing Laboratory, Center for

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 26 de Marzo, 9 y 23 de Abril y 7 de mayo de 2010 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/~pln/

Más detalles

Tareas de análisis del contenido textual para la recuperación de información con realimentación *

Tareas de análisis del contenido textual para la recuperación de información con realimentación * Tareas de análisis del contenido textual para la recuperación de información con realimentación * Manuel J. Maña López 1, L. Alfonso Ureña López 2 y Manuel de Buenaga Rodríguez 3 1 Dpto. de Lenguajes y

Más detalles

Contribución de la información semántica en un sistema de aprendizaje automático para resolver la implicación textual

Contribución de la información semántica en un sistema de aprendizaje automático para resolver la implicación textual Contribución de la información semántica en un sistema de aprendizaje automático para resolver la implicación textual Sonia Vázquez, Zornitsa Kozareva y Andrés Montoyo Departamento de Lenguajes y Sistemas

Más detalles

David Jordi Vallet Weadon.

David Jordi Vallet Weadon. <david.vallet@uam.es> David Jordi Vallet Weadon 1 Introducción Durante las últimas décadas, la personalización ha sido aplicada en diferentes campos de la informática, tanto en la rama científica como

Más detalles

Integrando Información de Fuentes Relevantes para un Sistema Recomendador

Integrando Información de Fuentes Relevantes para un Sistema Recomendador Integrando Información de Fuentes Relevantes para un Sistema Recomendador Silvana Aciar, Josefina López Herrera and Javier Guzmán Obando Agents Research Laboratory University of Girona {saciar, jguzmano}@eia.udg.es,

Más detalles

Validación de conceptos ontológicos usando métodos de agrupamiento

Validación de conceptos ontológicos usando métodos de agrupamiento Validación de conceptos ontológicos usando métodos de agrupamiento Mireya Tovar 1,2, David Pinto 2, Azucena Montes 1,3, Gabriel González 1, Darnes Vilariño 2, Beatriz Beltrán 2 1 Centro Nacional de Investigación

Más detalles

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar.

de Lanús. Buenos Aires, Argentina. rgarcia@unla.edu.ar. Behavioral Variability of Clustering and Induction Based on Domain Features Variabilidad del Comportamiento de Agrupamiento e Inducción Basado en las Características del Dominio Marcelo López N. 1, Ramón

Más detalles

Herramienta de gestión para la Ciudad Inteligente basada en el Sensor Ciudadano

Herramienta de gestión para la Ciudad Inteligente basada en el Sensor Ciudadano CIUDAD2020: HACIA UN NUEVO MODELO DE CIUDAD INTELIGENTE SOSTENIBLE PROYECTO INNPRONTA www.innprontaciudad2020.es Herramienta de gestión para la Ciudad Inteligente basada en el Sensor Ciudadano Julio Villena,

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Crawler focalizado para la extracción de documentos PDF desde revistas científicas Focused crawler

Más detalles

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información

Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Impacto de la Complejidad del Dominio en las Variaciones del Comportamiento de Procesos de Explotación de Información Marcelo López Nocera Programa de Maestría en Ingeniería de Sistemas de Información.

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción Una de las principales barreras que tienen que superar los sistemas de Procesamiento de Lenguaje Natural (PLN) es la que han impuesto las propias barreras geográficas entre los

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

JOSÉ OCTAVIO GUTIÉRREZ GARCÍA

JOSÉ OCTAVIO GUTIÉRREZ GARCÍA JOSÉ OCTAVIO GUTIÉRREZ GARCÍA Profesor de Tiempo Completo del Departamento Académico de Computación DOMICILIO Río Hondo No. 1 Progreso Tizapán México 01080, D.F. Tel: +52 (55) 5628-4000 Ext. 3645 Fax:

Más detalles

Análisis de Competencias en TIC para la Modernización Curricular del Programa de. Ingeniería de Sistemas de la Universidad de Pamplona Colombia.

Análisis de Competencias en TIC para la Modernización Curricular del Programa de. Ingeniería de Sistemas de la Universidad de Pamplona Colombia. Análisis de Competencias en TIC para la Modernización Curricular del Programa de Ingeniería de Sistemas de la Universidad de Pamplona Colombia. Laura Patricia Villamizar Carrillo Maritza del Pilar Sánchez

Más detalles

ITEM: Un Motor de Búsqueda Multilingüe Basado en Indexación Semántica

ITEM: Un Motor de Búsqueda Multilingüe Basado en Indexación Semántica ITEM: Un Motor de Búsqueda Multilingüe Basado en Indexación Semántica Felisa Verdejo, Julio Gonzalo, David Fernández Anselmo Peñas, Fernando López Depto. de Lenguajes y Sistemas Informáticos UNED, Spain

Más detalles

SET: SISTEMA DE EXTRACCIÓN DE TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. yusneym@unah.edu.cu, lilibeth@unah.edu.cu

SET: SISTEMA DE EXTRACCIÓN DE TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. yusneym@unah.edu.cu, lilibeth@unah.edu.cu SET: SISTEMA DE EXTRACCIÓN DE TÉRMINOS EN EL DOMINIO DE LA INFORMÁTICA. Yusney Marrero García 1, Lilibeth M. González Ruiz 1 1 Universidad Agraria de la Habana (CUBA) yusneym@unah.edu.cu, lilibeth@unah.edu.cu

Más detalles

isoco El futuro de los buscadores: nuevas tendencias en recuperación de información Dr. V. Richard Benjamins isoco Mayo 2007

isoco El futuro de los buscadores: nuevas tendencias en recuperación de información Dr. V. Richard Benjamins isoco Mayo 2007 isoco El futuro de los buscadores: nuevas tendencias en recuperación de información Dr. V. Richard Benjamins isoco Mayo 2007 Agenda Buscadores Hoy Buscadores Inteligentes - Verticales - En el mercado Y

Más detalles

EXPANSIÓN DE CONSULTAS BASADA EN ONTOLOGÍAS PARA UN SISTEMA DE RECUPERACIÓN DE INFORMACIÓN

EXPANSIÓN DE CONSULTAS BASADA EN ONTOLOGÍAS PARA UN SISTEMA DE RECUPERACIÓN DE INFORMACIÓN EXPANSIÓN DE CONSULTAS BASADA EN ONTOLOGÍAS PARA UN SISTEMA DE RECUPERACIÓN DE INFORMACIÓN H. Kuna 1, M. Rey 1, L. Podkowa 1, E. Martini 1, L. Solonezen 1 1. Programa de investigación en Computación. Depto.

Más detalles

Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos

Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos Detección de subjetividad en noticias en línea publicadas en español utilizando clasificadores probabilísticos Noé Alejandro Castro-Sánchez 1, Sadher Abelardo Vázquez-Cámara 1 y Grigori Sidorov 2 1 Centro

Más detalles

Estableciendo una medida de Trust para seleccionar fuentes de información relevantes para recomendar

Estableciendo una medida de Trust para seleccionar fuentes de información relevantes para recomendar Estableciendo una medida de Trust para seleccionar fuentes de información relevantes para recomendar Silvana Vanesa Aciar Javier Guzmán Obando Josep Lluis de la Rosa Josefina López Herrera Dept. d Electrònica,

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

Hacia un sistema de marketing dirigido más eficaz y personalizado en redes sociales

Hacia un sistema de marketing dirigido más eficaz y personalizado en redes sociales Hacia un sistema de marketing dirigido más eficaz y personalizado en redes sociales Patxi Galán-García, Dr. Carlos Laorden Gómez, and Dr. Pablo García Bringas DeustoTech Computing - S 3 Lab, University

Más detalles

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga,

Más detalles

Búsqueda por contenido en bases de datos 3D

Búsqueda por contenido en bases de datos 3D Búsqueda por contenido en bases de datos 3D Benjamin Bustos Centro de Investigación de la Web Departamento de Ciencias de la Computación Universidad de Chile Motivación Buscar documentos 3D en una base

Más detalles

La anotación automática de rasgos temáticos en

La anotación automática de rasgos temáticos en La anotación automática de rasgos temáticos en inglés y español Julia Lavid & Lara Moratón Universidad Complutense de Madrid España 1 Introducción A pesar de que la tarea de automatizar la anotación de

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

Revisión Sistemática Comparativa de Evolución de Métodos de Extracción de Conocimiento para la Web

Revisión Sistemática Comparativa de Evolución de Métodos de Extracción de Conocimiento para la Web Revisión Sistemática Comparativa de Evolución de Métodos de Extracción de Conocimiento para la Web Juan Manuel Rodríguez 1,2, Hernán D. Merlino 1,2, Ramón García-Martínez 2 1 Cátedra de Sistemas de Soporte

Más detalles

Minería de texto: Un nuevo reto computacional

Minería de texto: Un nuevo reto computacional Minería de texto: Un nuevo reto computacional Manuel Montes-y-Gómez Laboratorio de Lenguaje Natural, Centro de Investigación en Computación, Instituto Politécnico Nacional. Av. Juan de Dios Batís, Zacatenco,

Más detalles

iclef-2002 at Universities of Alicante and Jaen University of Alicante (Spain)

iclef-2002 at Universities of Alicante and Jaen University of Alicante (Spain) iclef-2002 at Universities of Alicante and Jaen University of Alicante (Spain) ! Introduction! Passage Retrieval Systems! IR-n system! IR-n system at iclef-2002! Conclusions and Future works ! Introduction!

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Impartido por: Juan Alfonso Lara Torralbo 1. Datos del docente NOMBRE Juan Alfonso Lara Torralbo FORMACIÓN

Más detalles

IIC 3633 - Sistemas Recomendadores

IIC 3633 - Sistemas Recomendadores Filtrado Basado en Contenido II IIC 3633 Sistemas Recomendadores Denis Parra Profesor Asistente, DCC, PUC CHile Page 1 of 14 Memo del Semestre Tarea 1: Deadline el Jueves 17 de Septiembre. Lecturas en

Más detalles

Integración de recursos semánticos basados en WordNet Integration of semantic resources based on WordNet

Integración de recursos semánticos basados en WordNet Integration of semantic resources based on WordNet Integración de recursos semánticos basados en WordNet Integration of semantic resources based on WordNet Yoan Gutiérrez Vázquez Universidad de Matanzas Ave. Varadero Km 3 ½. Matanzas. Cuba yoan.gutierrez@umcc.cu

Más detalles

EXTRACCIÓN DE INFORMACIÓN EN DOMINIOS COMPLEJOS

EXTRACCIÓN DE INFORMACIÓN EN DOMINIOS COMPLEJOS EXTRACCIÓN DE INFORMACIÓN EN DOMINIOS COMPLEJOS Ángel Alonso Álvarez Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [dieaaa@unileon.es] José Ramón Villar Flecha Escuela

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Bibliografía Anotada

Bibliografía Anotada Maestría en Ingeniería de Sistemas y Computación Universidad Nacional de Colombia Bogotá D.C. June 2, 2006 Contenido Tema Amplio 1 Tema Amplio 2 3 4 5 Tema Tema Amplio Extracción de información y obtención

Más detalles

Adaptación y Configuración de Procesos de Software Tailoring and Configuration of Software Processes

Adaptación y Configuración de Procesos de Software Tailoring and Configuration of Software Processes Adaptación y Configuración de Procesos de Software Tailoring and Configuration of Software Processes Rodolfo Villarroel Acevedo 1* 1 Pontificia Universidad Católica de Valparaíso. Avenida Brasil 2241,

Más detalles

Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org

Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org REICIS. Revista Española de Innovación, Calidad e Ingeniería del Software E-ISSN: 1885-4486 reicis@ati.es Asociación de Técnicos de Informática España Mesquida, Antoni Lluís; Mas, Antònia; Amengual, Esperança;

Más detalles

FOG: ARQUITECTURA FLEXIBLE PARA LA GENERACIÓN AUTOMÁTICA DE ONTOLOGÍAS

FOG: ARQUITECTURA FLEXIBLE PARA LA GENERACIÓN AUTOMÁTICA DE ONTOLOGÍAS FOG: ARQUITECTURA FLEXIBLE PARA LA GENERACIÓN AUTOMÁTICA DE ONTOLOGÍAS Emilio F. Viñas 1, Jesús Serrano-Guerrero 2, José A. Olivas 2, Javier de la Mata 2, Andrés Soto 3, Departamento de Tecnologías y Sistemas

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/ laura SADIO 12, 13 y 14 de Marzo de 2008 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/ pln/

Más detalles

Prueba de Concepto de Expansión de Consultas basada en Ontologías de Dominio Financiero

Prueba de Concepto de Expansión de Consultas basada en Ontologías de Dominio Financiero Procesamiento del Lenguaje Natural, Revista nº 51, septiembre de 2013, pp 109-116 recibido 19-04-2013 revisado 16-06-2013 aceptado 21-06-2013 Prueba de Concepto de Expansión de Consultas basada en Ontologías

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

http://portal.acm.org

http://portal.acm.org Association for Computing Machinery (ACM) Mark Mandelbaum, Director of Publications ACM Digital Library and its contributions to the technological development SYSTEMS link International Mauricio Caceres

Más detalles

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Reporte final Ricardo Omar Chávez García Instituto Nacional de Astrofísica Óptica y Electrónica, 72840

Más detalles

ALGUNOS RESULTADOS EXPERIMENTALES DE LA INTEGRACIÓN DE AGRUPAMIENTO E INDUCCIÓN COMO MÉTODO DE DESCUBRIMIENTO DE CONOCIMIENTO

ALGUNOS RESULTADOS EXPERIMENTALES DE LA INTEGRACIÓN DE AGRUPAMIENTO E INDUCCIÓN COMO MÉTODO DE DESCUBRIMIENTO DE CONOCIMIENTO ALGUNOS RESULTADOS EXPERIMENTALES DE LA INTEGRACIÓN DE AGRUPAMIENTO E INDUCCIÓN COMO MÉTODO DE DESCUBRIMIENTO DE CONOCIMIENTO Kogan, A. 1, Rancan, C. 2,3, Britos, P. 3,1, Pesado, P. 2,4, García-Martínez,

Más detalles

LKE: Language and Knowledge Engineering Lab

LKE: Language and Knowledge Engineering Lab LKE: Language and Knowledge Engineering Lab David Pinto, PhD Faculty of Computer Science, Benemérita Universidad Autónoma de Puebla (BUAP) Faculty of Computer Science, BUAP LKE (7 Members) Others FCC (115

Más detalles

Anotación de contenidos Web

Anotación de contenidos Web Anotación de contenidos Web Distintos tipos de anotación según el vocabulario utilizado Basada en Dublin Core The contributor and creator is the flight booking service www.flightbookings.com. The date

Más detalles

Aplicaciones para Gobierno Electrónico Semántico en México: una aproximación para el Desarrollo Municipal

Aplicaciones para Gobierno Electrónico Semántico en México: una aproximación para el Desarrollo Municipal Aplicaciones para Gobierno Electrónico Semántico en México: una aproximación para el Desarrollo Municipal Fernando Ortiz-Rodríguez, Raúl Palma, Boris Villazón-Terrazas Universidad Tamaulipeca M. Escobedo,

Más detalles

CETaqua, a model of collaborative R&D, an example of corporate innovation evolution

CETaqua, a model of collaborative R&D, an example of corporate innovation evolution CETaqua, a model of collaborative R&D, an example of corporate innovation evolution CETaqua: manage projects, create value Tomas Michel General Manager, CETaqua September 2011 1. AGBAR: R&D indicators

Más detalles

Mineración de Textos Científicos

Mineración de Textos Científicos Mineración de Textos Científicos Sheila Maricela Pinto Cáceres Universidade Estadual de Campinas IC - UNICAMP Índice Introducción Colección Preprocesamiento Pasos a seguir Clusterización Resultados Conclusiones

Más detalles

SOMI XVIII Congreso de Instrumentación TECNOLOGIAS DE LA INFORMACION RAM1847

SOMI XVIII Congreso de Instrumentación TECNOLOGIAS DE LA INFORMACION RAM1847 Reconocedor de Voz Adaptado para mejorar la pronunciación de Inglés en Hispanos M.A. García Galván, R. Aréchiga Martínez Universidad Autónoma Metropolitana, Departamento de Electrónica. Av San Pablo #

Más detalles

Modelado de la variabilidad en arquitecturas multicapa

Modelado de la variabilidad en arquitecturas multicapa Modelado de la variabilidad en arquitecturas multicapa José García-Alonso, Joaquín Guillén, Javier Berrocal, and Juan Manuel Murillo Escuela Politécnica, Universidad de Extremadura, Avd. de la Universidad

Más detalles

Hacia las Infraestructuras de Datos Abiertos Espaciales

Hacia las Infraestructuras de Datos Abiertos Espaciales Hacia las Infraestructuras de Datos Abiertos Espaciales F.J. Zarazaga-Soria 1, R. García 2, F.J. Lopez-Pellicer 1, J. Nogueras-Iso 1, R. Béjar 1, R.Gil 2, J.M. Brunetti 2, J.M.Gimeno 2, P.R. Muro-Medrano

Más detalles

ANÁLISIS DE EFICIENCIA EN ALGORITMOS DE RECONOCIMIENTO DE IMÁGENES DIGITALES APLICABLES A DISPOSITIVOS MÓVILES BAJO LA PLATAFORMA ANDROID

ANÁLISIS DE EFICIENCIA EN ALGORITMOS DE RECONOCIMIENTO DE IMÁGENES DIGITALES APLICABLES A DISPOSITIVOS MÓVILES BAJO LA PLATAFORMA ANDROID ANÁLISIS DE EFICIENCIA EN ALGORITMOS DE RECONOCIMIENTO DE IMÁGENES DIGITALES APLICABLES A DISPOSITIVOS MÓVILES BAJO LA PLATAFORMA ANDROID Miguel Ñauñay Ilbay 1, Luis Tipantuña Córdova 2, Geovanny Raura

Más detalles

Sistemas ERP (Enterprise Resources Planning)

Sistemas ERP (Enterprise Resources Planning) Sistemas ERP (Enterprise Resources Planning) Apellidos, nombre Departamento Centro Oltra Badenes, Raúl Francisco (rauloltra@doe.upv.es) Departamento de Organización de Empresas Universitat Politècnica

Más detalles

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial Grado en INFORMÁTICA 4º curso Modalidad: Presencial Sumario Datos básicos 3 Breve descripción de la asignatura 4 Requisitos previos 4 Objetivos 4 Competencias 5 Contenidos 6 Metodología 6 Criterios de

Más detalles

Álvaro López Ortega Escuela Superior de Informática C/Tajo s/n 28670 Villaviciosa de Odón, España, alvaro@godsmaze.org

Álvaro López Ortega Escuela Superior de Informática C/Tajo s/n 28670 Villaviciosa de Odón, España, alvaro@godsmaze.org 6LVWHPDGHD\XGDDODWUDGXFFLyQGHOLGLRPDLQJOpVHQHOGRPLQLR GHODVDSOLFDFLRQHVGH*120( Mario Domínguez Pino Escuela Superior de Informática C/Tajo s/n 28670 Villaviciosa de Odón, España, marete@terra.es Álvaro

Más detalles

Predicción del índice IBEX-35 aplicando Máquinas de Soporte Vectorial y Redes Neuronales.

Predicción del índice IBEX-35 aplicando Máquinas de Soporte Vectorial y Redes Neuronales. 6th International Conference on Industrial Engineering and Industrial Management. XVI Congreso de Ingeniería de Organización. Vigo, July 18-20, 2012 Predicción del índice IBEX-35 aplicando Máquinas de

Más detalles

Minería de la Web Tema 1

Minería de la Web Tema 1 Minería de la Web Tema 1 71454586A Minería de la Web Máster en Lenguajes y Sistemas Informáticos Tecnologías del Lenguaje en la Web UNED 07/12/2010 Tema 1 1. Problemas que surgen al interactuar con la

Más detalles

Creencias sobre las matemáticas y su enseñanzaaprendizaje. Beliefs about mathematics and its teaching and learning

Creencias sobre las matemáticas y su enseñanzaaprendizaje. Beliefs about mathematics and its teaching and learning Creencias sobre las matemáticas y su enseñanzaaprendizaje Propuesta de nueva metodología cualitativa para su estudio Beliefs about mathematics and its teaching and learning Proposal for a new qualitative

Más detalles

Tópicos avanzados en categorización de textos

Tópicos avanzados en categorización de textos Tópicos avanzados en categorización de textos Marcelo Errecalde, Diego Ingaramo, M. Verónica Rosas, Amparito Asensio Laboratorio de Investigación y Desarrollo en Inteligencia Computacional (LIDIC) 1 Departamento

Más detalles

Management and Environmental Policy

Management and Environmental Policy Higher Technical School of Agricultural Engineering UPCT Management and Environmental Policy CERTIFICATION: DEGREE IN AGRI-FOOD ENGINEERING AND BIOLOGICAL SYSTEMS Course 2015/2016 1. Subject information

Más detalles

Visualización de Recursos Textuales en la Web Semántica

Visualización de Recursos Textuales en la Web Semántica Visualización de Recursos Textuales en la Web Semántica M. Pérez-Coutiño, M. Montes-y-Gómez, A. López-López, L. Villaseñor-Pineda Laboratorio de Tecnologías del Lenguaje, Ciencias Computacionales, INAOE,

Más detalles

ENNEG683/01 ESTRATEGIA DE BUSINESS INTELLIGENCE

ENNEG683/01 ESTRATEGIA DE BUSINESS INTELLIGENCE ENNEG683/01 ESTRATEGIA DE BUSINESS INTELLIGENCE Profesor: José Antonio Robles Flores, Ph.D. E-mail profesor: jrobles@esan.edu.pe Horario: Lunes 7 a Jueves 10 de Julio, 2014 PRESENTACIÓN DEL CURSO Empresas

Más detalles

PosNeg opinion: Una herramienta para gestionar comentarios de la Web PosNeg opinion: A tool for managing comments from the web

PosNeg opinion: Una herramienta para gestionar comentarios de la Web PosNeg opinion: A tool for managing comments from the web Tipo de artículo: Artículo original Temática: Inteligencia Artificial Recibido: 03/12/2014 Aceptado: 19/01/2015 PosNeg opinion: Una herramienta para gestionar comentarios de la Web PosNeg opinion: A tool

Más detalles

INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER:

INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER: INSTITUTO UNIVERSITARIO DE SISTEMAS INTELIGENTES Y APLICACIONES NUMÉRICAS EN INGENIERÍA TRABAJO FINAL DE MÁSTER: Sistema Biométrico de Detección Facial sobre Alumno: Marcos del Pozo Baños Tutor: Dr. Modesto

Más detalles

Sistema de medición y control de proceso industrial de embotellado con algoritmo de redes neuronales

Sistema de medición y control de proceso industrial de embotellado con algoritmo de redes neuronales Sistema de medición y control de proceso industrial de embotellado con algoritmo de redes neuronales César E. Martínez Reinoso, Mario Alvarez Sifontes, Francisco J. Arteaga Bravo Unidad de Investigación

Más detalles

Higher Technical School of Agricultural Engineering UPCT. Economic Valuation of Agricultural Assets

Higher Technical School of Agricultural Engineering UPCT. Economic Valuation of Agricultural Assets Higher Technical School of Agricultural Engineering UPCT Economic Valuation of Agricultural Assets Qualification: Degree in Agri-food Engineering and Biological Systems Course 2015/2016 1. Subject information

Más detalles

Artículo. Interacción entre medidas de popularidad en el posicionamiento web. Por Valentín Moreno Pelayo. Introducción. Cantidad de visitantes.

Artículo. Interacción entre medidas de popularidad en el posicionamiento web. Por Valentín Moreno Pelayo. Introducción. Cantidad de visitantes. Artículo Interacción entre medidas de popularidad en el posicionamiento web Por Valentín Moreno Pelayo Resumen: El trabajo se centra en la relación entre algunas medidas de popularidad y posicionamiento

Más detalles

ESTUDIO DE SIMILITUD DEL PROCESO DE GESTIÓN DE RIESGOS EN PROYECTOS DE OUTSOURCING DE SOFTWARE: UTILIZACIÓN DE UN MÉTODO

ESTUDIO DE SIMILITUD DEL PROCESO DE GESTIÓN DE RIESGOS EN PROYECTOS DE OUTSOURCING DE SOFTWARE: UTILIZACIÓN DE UN MÉTODO Revista Ingenierías Universidad de Medellín ESTUDIO DE SIMILITUD DEL PROCESO DE GESTIÓN DE RIESGOS EN PROYECTOS DE OUTSOURCING DE SOFTWARE: UTILIZACIÓN DE UN MÉTODO Gloria Piedad Gasca Hurtado * Recibido:

Más detalles

1 Conceptos de PLN: Análisis Morfológico y Etiquetación. 2 Conceptos de PLN: Análisis Sintáctico Superficial. 4 Extracción de Información

1 Conceptos de PLN: Análisis Morfológico y Etiquetación. 2 Conceptos de PLN: Análisis Sintáctico Superficial. 4 Extracción de Información Índice Conceptos de PLN: Semántica Léxica 1 Conceptos de PLN: Análisis Morfológico y Etiquetación 2 Conceptos de PLN: Análisis Sintáctico Superficial 3 Conceptos de PLN: Semántica Léxica 4 Extracción de

Más detalles

Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2

Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2 UN MARCO DE TRABAJO PARA EL DESARROLLO DE APLICACIONES WEB CON COMPORTAMIENTO AUTONOMO INTELIGENTE Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2 Resumen Este trabajo presenta un mecanismo para construir

Más detalles

Ontologías borrosas para representar perfiles de usuario en una herramienta de gestión de objetos de aprendizaje

Ontologías borrosas para representar perfiles de usuario en una herramienta de gestión de objetos de aprendizaje Ontologías borrosas para representar perfiles de usuario en una herramienta de gestión de objetos de aprendizaje Mateus Ferreira-Satler 1, Victor H. Menéndez 2, Francisco P. Romero 3, Alfredo Zapata 2,

Más detalles

Desarrollo de recursos didácticos para fomentar la evaluación continua y el uso de las TIC en la enseñanza on-line

Desarrollo de recursos didácticos para fomentar la evaluación continua y el uso de las TIC en la enseñanza on-line Desarrollo de recursos didácticos para fomentar la evaluación continua y el uso de las TIC en la enseñanza on-line Mª Jesús Delgado Rodríguez Mariajesus.delgado@urjc.es Economía Aplicada II Universidad

Más detalles

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados AnetaJ. Florczyk, F.Javier López-Pellicer, Javier Nogueras-Iso, F.Javier Zarazaga-Soria Universidad de Zaragoza,

Más detalles

Sistema de recuperación de información semántico

Sistema de recuperación de información semántico Universidad Autónoma Metropolitana Unidad Azcapotzalco División de Ciencias Básicas e Ingeniería Licenciatura en Ingeniería en Computación Propuesta de proyecto terminal: Sistema de recuperación de información

Más detalles

Educación. Reconocimientos. Francisco Viveros-Jiménez. Currículo

Educación. Reconocimientos. Francisco Viveros-Jiménez. Currículo Francisco Viveros-Jiménez Currículo pacovj@hotmail.com Ailes #311, Lomas de Cuernavaca, Temixco, Morelos. Fecha de nacimiento: 06-01-1983. Estado civil: Casado Educación Doctor en ciencias de la computación,

Más detalles

Qué es CISE? Computing and Information Sciences and Engineering estudia la filosofía, naturaleza,

Qué es CISE? Computing and Information Sciences and Engineering estudia la filosofía, naturaleza, Qué es CISE? Computing and Information Sciences and Engineering estudia la filosofía, naturaleza, representación y transformación de información incluyendo aspectos teóricos como experimentales. Estructura

Más detalles

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados Aneta J. Florczyk, F.Javier López-Pellicer, Juan Valiño-García, Javier Nogueras-Iso, F.Javier Zarazaga-Soria

Más detalles

Resumen. Abstract. Palabras Claves: Hadoop, Map/Reduce, Information Retrieval, Blogs, ESPOL

Resumen. Abstract. Palabras Claves: Hadoop, Map/Reduce, Information Retrieval, Blogs, ESPOL Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de Datos Allan Avendaño, Cristina Abad. MsC. Facultad

Más detalles

Un Clasificador de Texto Por Aprendizaje

Un Clasificador de Texto Por Aprendizaje Un Clasificador de Texto Por Aprendizaje Peláez J.I. (a) La Red D. (b) Sánchez P. (a) (a) Dpto. Lenguajes y Ciencias de la Computación E.T.S.I. Informática. Campus de Teatinos. Universidad de Málaga Málaga

Más detalles

Generación semiautomática de recursos de Opinion Mining para el gallego a partir del portugués y el español

Generación semiautomática de recursos de Opinion Mining para el gallego a partir del portugués y el español Generación semiautomática de recursos de Opinion Mining para el gallego a partir del portugués y el español Paulo Malvar Fernández 1 y José Ramom Pichel Campos 1 1 Departamento de Ingeniería Lingüística,

Más detalles

Construcción de un árbol balanceado de subclasificadores para SVM multi-clase

Construcción de un árbol balanceado de subclasificadores para SVM multi-clase Construcción de un árbol balanceado de subclasificadores para SVM multi-clase Waldo Hasperué 1,2, Laura Lanzarini 1, 1 III-LIDI, Facultad de Informática, UNLP 2 Becario CONICET {whasperue, laural}@lidi.info.unlp.edu.ar

Más detalles

Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa)

Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa) Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa) R. García-Martínez, D. Rodríguez, E. Baldizzoni, S. Martins Grupo Investigación

Más detalles

Detección de Noticias del Ámbito Educativo Sobre Múltiples Canales Dinámicos de Información

Detección de Noticias del Ámbito Educativo Sobre Múltiples Canales Dinámicos de Información Detección de Noticias del Ámbito Educativo Sobre Múltiples Canales Dinámicos de Información Fernando R. A. Bordignon y Gabriel H. Tolosa Universidad Nacional de Luján Departamento de Ciencias Básicas Laboratorio

Más detalles

La Traducción Automática y sus implicaciones en la representación del conocimiento

La Traducción Automática y sus implicaciones en la representación del conocimiento La Traducción Automática y sus implicaciones en la representación del conocimiento Mª José Ayuso Sánchez Universidad Carlos III de Madrid Resumen: Reflexión teórica sobre las distintas tendencias que existen

Más detalles

ELABORACION DE MODELOS PARA LA IDENTIFICACION DE FACTORES CRITICOS DE EXITO, ANALISIS Y MITIGACION DE RIESGOS DE PROYECTOS EN DESARROLLO DE SOFTWARE

ELABORACION DE MODELOS PARA LA IDENTIFICACION DE FACTORES CRITICOS DE EXITO, ANALISIS Y MITIGACION DE RIESGOS DE PROYECTOS EN DESARROLLO DE SOFTWARE CONICYT: Repositorio Institucional: Ficha de Iniciativa de CIT (Ciencia, Tecnología e Innovación) 1 FONDECYT-REGULAR - 2003-1030785 ELABORACION DE MODELOS PARA LA IDENTIFICACION DE FACTORES CRITICOS DE

Más detalles

***El Curso/Workshop contará con la participación de integrantes de Quantitative and Computational Finance of Georgia Institute of Technology

***El Curso/Workshop contará con la participación de integrantes de Quantitative and Computational Finance of Georgia Institute of Technology Actualmente las tendencias que se están presentando en los mercados y la velocidad en la que están siendo implementadas son realmente sorprendentes. Desde el nacimiento de nuevos y complejos Productos

Más detalles

Diseño de Aplicaciones para SAP IS-H*med Usando Patrones de Diseño de Software. Caso de Estudio: Just Click! Sergio Andrés Pico Rojas, Ingeniero

Diseño de Aplicaciones para SAP IS-H*med Usando Patrones de Diseño de Software. Caso de Estudio: Just Click! Sergio Andrés Pico Rojas, Ingeniero Diseño de Aplicaciones para SAP IS-H*med Usando Patrones de Diseño de Software. Caso de Estudio: Just Click! Sergio Andrés Pico Rojas, Ingeniero Informático. Diana Teresa Gómez Forero, Ingeniera de Sistemas,

Más detalles

Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala

Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 35-42 recibido 29-01-08, aceptado 03-03-08 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala Multilingual

Más detalles

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante 30 de enero de 2016 Responsables Dr. Ricardo Marcelín Jiménez y M. en

Más detalles