Un nuevo algoritmo para el Filtrado Adaptativo de Documentos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Un nuevo algoritmo para el Filtrado Adaptativo de Documentos"

Transcripción

1 Universidad de Oriente Facultad de Matemática y Computación Un nuevo algoritmo para el Filtrado Adaptativo de Documentos Tesis en opción al título de Máster en Ciencia de la Computación Presentada por: Lic. Adrian Fonseca Bruzón Dirigida por: Dr.C. Reynaldo Gil García Santiago de Cuba, septiembre de 2008

2 A mis padres.

3 AGRADECIMIENTOS Esta tesis de maestría no es sólo un resultado personal, sino que constituye la materialización del esfuerzo de varias personas que han estado junto a mí durante mucho tiempo, y que ahora me toca agradecerles. Creo que es justo comenzar por mi familia, en especial a mi papá, por su dedicación, apoyo, ayuda y comprensión. En gran medida les debo todo lo que soy hoy día. Quisiera agradecer a todos mis compañeros de trabajo en CERPAMID y a los muchachos de DATYS, dos magníficos colectivos con los que he compartido tantos buenos ratos. A ellos les debo agradecer además el hecho de que me hayan permitido continuar mi formación profesional. Creo que sería difícil encontrar un lugar mejor para trabajar. Un punto aparte debo dedicar Lisette, Yunior, Tamara, Yami, Erick e Irina por permitirme el lujo de tenerlos como amigos. Debo agradecer además a mi tutor, el Dr. C. Reynaldo Gil, por su guía, sugerencias y comentarios que me permitieron llegar al final de esta obra. Por último, y no por ser la última es la menos importante, todo lo contrario, a la Profesora Dra. C. Aurora Pons. A ella debo agradecer su confianza, su dedicación, su entrega, su ayuda y su ejemplo. Debo reconocer que este tiempo que he compartido con ella ha sido una gran escuela, tanto en lo profesional como en lo personal. Realmente no creo que pueda encontrar una palabra del diccionario que me permita expresar todo mi agradecimiento así que tengo que conformarme con decir MUCHAS GRACIAS. Muchas gracias no sólo aquellos que he mencionado aquí, no puedo mencionarlos a todos porque esta lista sería interminable. Quiero agradecer a todas aquellas personas que de una forma u otra han colaborado con la realización de este trabajo.

4 RESUMEN En este trabajo se presenta un nuevo algoritmo para el Filtrado Adaptativo de Documentos. A diferencia de muchos sistemas reportados en la literatura que representan el perfil por medio de un vector, en nuestra propuesta el perfil es representado por un conjunto de documentos y durante el proceso de clasificación se utilizan sólo aquellos que se encuentran muy cercanos a la muestra a ser clasificada. Para ello se utiliza un clasificador binario basado en la vecindad αβ. Esto permite al sistema poder aprender la distribución de los documentos en el perfil. En el sistema los documentos son representados utilizando el tradicional modelo vectorial. En este trabajo se propone un nuevo esquema para el pesado de los términos en el cual se tiene en cuenta su frecuencia entre los documentos relevantes y no relevantes al perfil. Se propone además un algoritmo de condensado que reduce el conjunto de entrenamiento manteniendo una efectividad muy similar a la alcanzada con el conjunto de entrenamiento sin reducir. Este algoritmo se emplea en el sistema para controlar el tamaño del conjunto de muestras utilizado para representar el perfil. Los experimentos fueron realizados siguiendo la metodología propuesta en la conferencia TREC-11. En ellos se muestra la efectividad del algoritmo de Filtrado Adaptativo de Documentos propuesto. Además se realiza un análisis del impacto que tienen en el algoritmo la vecindad αβ, el nuevo esquema de pesado de términos y el algoritmo de condensado. i

5 ABSTRACT In this work, we present a new algorithm for Adaptive Document Filtering. Unlike most systems reported in the literature, which represent the user profile by means of a single vector, in our proposal, the profile is represented by a set of documents and, during the classification process, only those that lie very close to the document to be classified are used. A binary classifier based on the αβ neighborhood is used. This enables the system to learn the distribution of documents in the profile. In our system, documents are represented using the traditional vector space model. In this work, a new term weighting scheme, which takes into account their frequency in documents that are relevant and non-relevant to the profile, is proposed. We also propose a condensing algorithm, which reduces the training set while maintaining a performance very similar to that achieved using the unreduced training set. In the system, this algorithm is used to control the size of the set of samples used to represent the profile. Experiments were carried out following the methodology introduced in the TREC-11 conference. The validity of the proposed Adaptive Document Filtering algorithm is proved by these experiments. Additionally, we analyze the impact of the αβ neighborhood, the new weighting scheme and the condensing algorithm on the proposed method. ii

6 Índice general Introducción 1 1. Sistemas de Filtrado Adaptativo de Documentos Introducción Medidas de Evaluación Colecciones de Prueba Estructura de un Sistema de Filtrado Adaptativo Modelos de Representación de los Documentos Esquemas de Pesado de Términos Representación del Perfil Algoritmo de Clasificación Algoritmo de Rocchio Algoritmo Winnow Máquinas de Vectores Soporte Clasificador k-nn Procesamiento de los Documentos Actualización del Perfil Principales Aproximaciones al Filtrado Adaptativo de Documentos Sistemas del enfoque de Recuperación de Información más Actualización del Umbral Sistema CLARIT Sistema YFilter Sistema de la Universidad de Rutgers Sistema de la Academia de Ciencias de China Sistema de Yang et. al Sistema LR Rocchio Sistema de Yang y Kisiel Sistema de la Universidad IRIT Sistema de la Universidad de Nueva York en Buffalo Sistemas del enfoque de Categorización de Textos Sistema del Consorcio KerMIT Sistema de la Universidad de Nueva York Sistema de la Universidad Johns Hopkins Sistema de la Universidad de Fudan Sistema de Ault y Yang iii

7 1.4. Conclusiones Algoritmo para el Filtrado Adaptativo de Documentos Introducción Representación de los Documentos Representación del Perfil Clasificador Construcción de la Vecindad Cálculo del Voto Regla de Decisión Reducción del Conjunto de Entrenamiento Algoritmo de Filtrado Adaptativo Propuesto Filtrado de los Documentos Actualización del Perfil Conclusiones Experimentos Introducción Colecciones de Prueba Entorno experimental Impacto de las diferentes componentes del algoritmo Impacto del Esquema de Pesado de los Términos Impacto de la Vecindad Impacto del umbral en la regla de decisión Análisis de la estabilidad del algoritmo Comportamiento del algoritmo en el transcurso del tiempo Impacto del algoritmo de condensado Comparación con otros sistemas Conclusiones 59 Bibliografía 61 iv

8 Introducción Internet se ha convertido rápidamente en la forma principal de intercambio de información en el mundo. La mayor parte de esta información se encuentra almacenada en forma textual no estructurada, por ejemplo, correos electrónicos, foros de discusión, informes médicos, actas de reuniones, artículos científicos, páginas Web, noticias periodísticas, etc. El crecimiento acelerado que ha experimentado el volumen de información presente en la Internet imposibilita su análisis de forma manual o que se pueda realizar una exploración efectiva. Con el objetivo de ayudar a los usuarios finales a localizar la información que necesita en un tiempo razonable se hace imprescindible el desarrollo de técnicas que permitan el procesamiento automático y eficiente de toda esta información. A comienzos de los años ochenta surgieron los primeros esfuerzos en la Minería de Textos (Text Mining, en inglés). A partir de mediados de los años noventa, la Minería de Textos comienza a tomar auge producto del incremento de la información disponible en medios electrónicos y la necesidad de extraer el conocimiento no evidente en la lectura de estos inmensos volúmenes de documentos. Hoy día se considera que más de un 80 % de la información disponible en Internet se encuentra almacenada en forma textual. Esta situación ha despertado en la comunidad científica internacional un creciente interés por el desarrollo de algoritmos que faciliten a los usuarios poder obtener en un tiempo razonable una respuesta a su necesidad de información. La Minería de Textos es una disciplina dentro del Reconocimiento de Patrones que tiene por objetivo el descubrimiento del conocimiento que no existe de forma explícita en los documentos sino que surge de relacionar el contenido de varios de ellos. Con este objetivo se han desarrollado varios algoritmos que permiten procesar de forma eficiente los documentos y con ello facilitar el trabajo de los usuarios. Entre las tareas de Minería de Textos encontramos: Categorización de Textos: Dado un conjunto de categorías (tópicos, asuntos) y una colección de documentos, la tarea consiste en asignar una o más categorías a cada documento [1]. Agrupamiento: Esta tarea consiste en organizar los documentos en grupos. Este proceso se realiza de forma tal que documentos muy similares pertenezcan a un mismo grupo y documentos poco similares pertenezcan a grupos diferentes [2]. Recuperación de Información: Esta tarea consiste en encontrar documentos que satisfacen una necesidad de información en una colección de documentos [3]. Filtrado de Información: Es el proceso de descartar los documentos no relevantes de un flujo de documentos recuperados para el usuario [4]. 1

9 Introducción Los sistemas de Recuperación de Información comparten muchas características con los de Filtrado de Información. Aunque para muchos autores estas dos tareas son dos caras de una misma moneda existen varias diferencias entre ambas [5]. Entre ellas podemos mencionar: 1. La Recuperación de Información se concentra en un usuario en un momento dado con una consulta dada, mientras que el Filtrado de Información está interesado en repetidos usos de un sistema, por una o varias personas con intereses o necesidades de información relativamente duraderas en el tiempo. 2. Comúnmente, la Recuperación de Información recupera documentos de una base de datos relativamente estática, mientras que el Filtrado de Información realiza su extracción de un flujo dinámico de documentos. 3. Los sistemas de Recuperación de Información presentan el problema de cuánto se ajusta la consulta del usuario a su necesidad de información. Por su parte, los sistemas de Filtrado asumen que el conocimiento empleado por el sistema es una especificación correcta de la necesidad de información del usuario. Existe un conjunto de Sistemas de Filtrado de Documentos que poseen la propiedad de poder recibir información del usuario indicando cuándo un documento ha sido incorrectamente recuperado, los cuales son conocidos como Sistemas de Filtrado Adaptativo de Documentos. Estos sistemas son capaces de actualizar la representación de la necesidad de información del usuario con el objetivo de obtener una mayor efectividad en el desempeño. En el filtrado adaptativo de documentos las investigaciones han estado enfocadas, fundamentalmente, en determinar cuál debe ser el método de aprendizaje a utilizar. En estos sistemas al modelo utilizado para representar internamente la necesidad de información del usuario se le denomina perfil del usuario o simplemente perfil. En la actualidad se han desarrollados varios sistemas para el Filtrado Adaptativo de Documentos entre los que podemos destacar el sistema del Consorcio KerMIT [6], el sistema de la Academia de Ciencias de China [7], LR Rocchio [8], CLARIT [9], entre otros. Varios de estos sistemas existentes hoy día representan el perfil del usuario por medio de un vector, asumiendo por tanto que todos los documentos que pertenecen al perfil se encuentran homogéneamente distribuidos alrededor de este vector. Asumir una distribución homogénea de los documentos es, en sentido general, muy fuerte y es poco probable que se cumpla en la realidad. Los documentos en el perfil es probable que se encuentren irregularmente distribuidos y los sistemas deben ser capaces de manejar esta situación correctamente. Este trabajo tiene como objetivo desarrollar un algoritmo para el Filtrado Adaptativo de Documentos que no se vea afectado por una distribución irregular de los documentos en el perfil, y realizar un estudio comparativo de nuestra propuesta con los sistemas de mejores resultados reportados en la literatura. El resto de este trabajo se encuentra estructurado en tres capítulos y conclusiones. En el primer capítulo se abordan los aspectos fundamentales de la tarea de Filtrado Adaptativo 2

10 Introducción de Documentos, las principales aproximaciones reportadas en la literatura sobre el tema, así como otros aspectos necesarios para comprender el contenido de la tesis. En el segundo capítulo se describe el algoritmo de Filtrado Adaptativo propuesto. El tercer capítulo recoge todo el estudio experimental realizado para mostrar la efectividad del sistema de filtrado adaptativo propuesto. Finalmente en las Conclusiones se resumen los resultados del trabajo y se dan algunas recomendaciones para el trabajo futuro. 3

11 1 Sistemas de Filtrado Adaptativo de Documentos 1.1. Introducción A los científicos les gusta estar informados sobre los acontecimientos relacionados con su línea de investigación; un artista desea estar actualizado sobre el estado de opinión existente sobre su obra; por su parte un agente del ejército tiene la necesidad de mantenerse actualizado con respecto al armamento y los movimientos de ejércitos enemigos; y el representante comercial de una empresa tiene la obligación de conocer cuál es el estado de aceptación de los productos de su empresa en el mercado. Estos ejemplos muestran necesidades de información duraderas y estables. En ellos, la información surge de forma secuencial con el transcurso del tiempo y los usuarios deben ser alertados sobre documentos que satisfacen sus necesidades de información tan pronto como sea posible. Un Sistema de Filtrado de Documentos monitorea un flujo de información textual para encontrar aquellos documentos que satisfacen las necesidades de información de un usuario. Estos sistemas, por cada nuevo documento deben determinar si entregan el documento o no al usuario en función de cuánto empareja la información del documento con la necesidad de información expresada por el usuario. Los sistemas de Filtrado Adaptativo de Documentos son sistemas de filtrado capaces de actualizar su conocimiento sobre la necesidad de información del usuario basados en retroalimentaciones explícitas o implícitas del usuario. Esta retroalimentación provee al sistema de muestras que le permiten ajustar el perfil del usuario, facilitando así el aprendizaje en línea. La figura 1.1 muestra el esquema general de un Sistema de Filtrado Adaptativo de Documentos. Un sistema de Filtrado Adaptativo puede manipular las necesidades de varios usuarios simultáneamente. En la figura, se muestra un solo usuario con el objetivo de facilitar su comprensión. Cuando un usuario tiene una nueva necesidad de información debe brindar al sistema algunos documentos de ejemplos que aborden la temática de su interés. Con estos documentos el sistema crea un nuevo perfil para comenzar a dar atención a esta solicitud. A medida que van arribando nuevos documentos, el sistema analiza cada uno de ellos y brinda al usuario aquellos documentos para los cuales determinó que su contenido concuerda con la información almacenada en el perfil. Es importante destacar que el usuario tiene acceso sólo a los documentos que el sistema recupera como relevantes para el perfil. El usuario debe leer los documentos brindados y retroalimentar al sistema de forma explícita identificando cuáles de los documentos recuperados realmente se 4

12 1.1. Introducción Figura 1.1: Estructura general de un sistema de Filtrado Adaptativo de Documentos ajustan a su necesidad de información y cuáles no. En una aplicación real, el sistema puede aprovechar determinadas acciones del usuario, como puede ser borrar un documento sin leerlo o salvarlo a disco, para utilizarla como retroalimentación implícita. El sistema con esta retroalimentación se mantiene actualizando el perfil de forma constante. Esta retroalimentación provee al sistema de muestras de entrenamiento para el aprendizaje en línea. Un aspecto esencial de estos sistemas consiste en cómo aprender cuál es la necesidad actual de información del usuario. Los algoritmos de aprendizaje, comúnmente, requieren de un número significativo de muestras de entrenamiento. Sin embargo, un Sistema de Filtrado Adaptativo, para ser utilizado en un entorno real, debe ser capaz de comenzar su proceso de clasificación con muy pocos ejemplos debido a que, comúnmente, los usuarios disponen de muy pocos documentos que responden a su necesidad de información. Estos sistemas deben ser capaces de aprovechar al máximo la retroalimentación brindada por el usuario con vistas a obtener un perfil que realmente se ajuste a los intereses de información del usuario sin abrumarlo con información irrelevante y falsas alarmas. Varias investigaciones han sido realizadas en el área del filtrado adaptativo de documentos. La conferencia TREC (Text REtrieval Conference 1 ) es el mejor espacio de evaluación conocido para el estudio y la comparación de los sistemas de filtrado adaptativo. La TREC es patrocinada por NIST (National Institute of Standards and Technology) y el DARPA (Defense Advanced Research Projects Agency). La TREC consiste en una serie de áreas de interés, en las que se definen un conjunto de tareas de recuperación. La línea de Filtrado es una de ellas, en la cual la tarea de investigación más importante es el filtrado adaptativo. Esta tarea está diseñada para modelar el proceso de filtrado de información partiendo desde la construcción inicial del perfil. En esta tarea, las necesidades de información del usuario son estables. Los sistemas para la construcción del perfil inicial contaban con un número muy reducido de muestras relevantes (2 ó 3) y no se contaba con muestras de documentos no relevantes. Cuando un nuevo documento llega, el sistema debe tomar la decisión de entregar o no el documento al usuario. Si el documento es entregado, inmediatamente se 1 5

13 1.1. Introducción cuenta con la información de si el documento era realmente relevante o no para este perfil con el objetivo de simular el proceso en que el sistema es retroalimentado explícitamente por parte del usuario. Si el documento no fue entregado al usuario, el sistema nunca tiene disponible información sobre cuál era el estado real del documento para el perfil. Una vez que el sistema toma la decisión de entregar o no un documento al usuario la misma no puede ser modificada. Estas condiciones son un poco estrictas y no siempre se ajustan a un entorno real donde se pueda desempeñar un sistema, no obstante son simples, razonables y permiten la comparación del desempeño de los diferentes sistemas. La línea de Filtrado fue convocada por última vez en la conferencia TREC-11 (2002). No obstante, se han seguido realizando investigaciones relacionadas directamente con la tarea de Filtrado Adaptativo de Documentos Medidas de Evaluación En las conferencias TREC-9, TREC-10 y TREC-11 se utilizó para medir la calidad de los sistemas la función de utilidad [10, 11, 12]: T 9U = T 10U = T 11U = 2 R + N + donde R + representa el total de documentos relevantes recuperados y N + el total de documentos no relevantes recuperados. Ésta es una medida que permite evaluar la calidad del sistema en un perfil determinado, pero no es conveniente utilizarla cuando se quiere promediar los resultados sobre todos los perfiles, debido a que perfiles en los cuales el sistema recupera muchos documentos pueden ejercer un papel dominante sobre el resultado. Es por ello que en la conferencia TREC-11 se utilizó la versión normalizada T 11SU [12]: T 11SU = T 11U max(, MinNU) MinNU MaxU 1 MinNU donde MaxU = 2 (R + + R ) es la máxima utilidad posible, aquí R representa el total de documentos relevantes no recuperados. MinNU = 0.5 es una cota inferior y tiene el objetivo de simular el hecho de que un usuario deje de utilizar el sistema debido a los malos resultados del mismo. Los resultados finales de los sistemas fueron dados utilizando el promedio de los resultados con la medida T 11SU obtenidos en cada uno de los tópicos. Esta medida si un sistema no recupera ningún documento toma un valor de 0.33, este valor fue tomado como baseline en la TREC-11. En las conferencias TREC-10 y TREC-11, además, se reportaron los resultados de los sistemas utilizando la medida F β, tomando a β = 0.5, para hacer énfasis en la precisión del sistema. La medida puede ser expresada entonces en la forma: T 11F = 1.25 R + (R + + N + ) (R + + R ) 6

14 1.1. Introducción Colecciones de Prueba Para probar la calidad de los sistemas propuestos para la tarea de Filtrado Adaptativo de Documentos se utilizan fundamentalmente los conjuntos de evaluación definidos en las competencias TREC-9, TREC-10 y TREC-11. En esta sección se describen las características generales de estos conjuntos de datos. Conjunto de datos de la TREC-9 Este conjunto de datos utiliza una versión ligeramente modificada de la colección de prueba OHSUMED [13] recopilada por Bill Hersh. Esta colección está compuesta de registros MEDLINE recolectados entre los años 1987 y Estos registros están indexados con las categorías MeSH (Medical Subject Heading), las cuales fueron manualmente asignadas por especialistas de la Biblioteca Nacional de Medicina de los Estados Unidos. En esta colección los registros de 1987 forman el conjunto de entrenamiento (aproximadamente 9 meses). Los registros recolectados a partir de 1988 y hasta 1991 forman el conjunto de prueba. Un total de 63 de los tópicos originales de la OSHUMED fueron seleccionados para simular los perfiles de usuario. Además, las cabeceras MeSH fueron tratadas como si fueran tópicos. Los sistemas tan sólo disponen de la descripción del tópico y dos documentos relevantes para la construcción del perfil inicial. Conjunto de datos de la TREC-10 En las conferencias TREC-10 y TREC-11 se utilizó la colección estándar Reuters 2001 (también conocida como RCV1 2 ), la cual está compuesta por noticias de la agencia Reuters recolectadas desde agosto de 1996 hasta En esta colección las noticias correspondientes a los primeros 12 días, del 20 al 31 de agosto de 1996 se toman como conjunto de entrenamiento y el resto de las noticias forman el conjunto de prueba. Para la tarea de filtrado adaptativo se seleccionaron 84 categorías de la Reuters para simular los perfiles de usuario. Los sistemas tan sólo disponen de dos documentos relevantes para la construcción del perfil inicial. Además, podían utilizar todo el conjunto de entrenamiento para calcular estadísticas o estructuras auxiliares. En el conjunto de prueba existe un conjunto de documentos no evaluados. Los sistemas tenían la libertad de ignorar estos documentos o considerarlos no relevantes. Conjunto de datos de la TREC-11 En la conferencia TREC-11 nuevamente fue utilizada la colección RCV1. Un nuevo conjunto de 100 tópicos fueron preparados. Cincuenta de estos tópicos fueron creados por los asesores de la NIST específicamente para la tarea de Filtrado. Los otros cincuenta tópicos fueron construidos como la intersección de pares de tópicos de la RCV1. De cada tópico se contaba con su nombre, una breve descripción y un corto resumen. 2 Disponible en 7

15 1.2. Estructura de un Sistema de Filtrado Adaptativo Los sistemas tan sólo contaban con tres documentos relevantes para construir el perfil inicial. Además, podían utilizar todos los documentos del conjunto de entrenamiento para calcular estadísticas o crear estructuras auxiliares. En el conjunto de prueba existe un conjunto de documentos no evaluados, los cuales podían ser ignorados o considerados como no relevantes por los sistemas Estructura de un Sistema de Filtrado Adaptativo En este trabajo consideramos que los componentes fundamentales de un Sistema de Filtrado Adaptativo de Documentos son los siguientes: Un modelo de representación de los documentos. Un modelo de representación del perfil. Un algoritmo de clasificación. Un método de actualización del perfil. En los siguientes epígrafes abordamos algunas de las principales propuestas presentes en la literatura para cada uno de estos componentes Modelos de Representación de los Documentos Para la representación de los documentos es muy común que sea utilizado el modelo vectorial [14]. El mismo está basado en la idea de representar cada documento de la colección por un vector n-dimensional, donde n representa la cantidad de términos diferentes de la colección. En este modelo cada componente representa el peso en el documento del término asociado a esa dimensión. Este peso representa un estimado de cuán importante es el término para distinguir el documento del resto de documentos de la colección. Si un término no aparece en un documento su peso es 0. Normalmente los términos muy comunes y los poco frecuentes se eliminan y las palabras se reducen a su forma canónica. En resumen, si tenemos una colección ζ de N documentos, cada documento se representa por un vector d = (w 1, w 2,..., w n ), donde n representa el número total de términos diferentes presentes en ζ y w i es el peso del término t i en el documento d, usualmente representado por w(t i, d). La mayoría de los vectores de documentos son dispersos. Una representación alternativa que ha ido alcanzando un gran auge es la basada en los modelos de lenguaje. Un modelo de lenguaje M permite estimar la probabilidad de observar o generar una frase s con dicho modelo, denotado por P(s M ). Aplicado a un Sistema de Recuperación de Información, la semejanza entre una consulta Q y un documento d se asocia a la probabilidad de generar la consulta Q con el modelo de lenguaje representado por el documento d, denotado por P(Q d). 8

16 1.2. Estructura de un Sistema de Filtrado Adaptativo El cálculo del valor de la probabilidad P(Q d) difiere significativamente de un modelo a otro. Por ejemplo Ponte y Croft [15] calculan esta probabilidad mediante la expresión: P (Q, d) = t Q P (t d) t/ Q (1 P (t, d)) Por otra parte, Miller et al. [16] calculan la probabilidad según la fórmula: P (Q, d) = t P (t d) qt donde q t representa el número de veces que ocurre el término t en la consulta Q. El cálculo de las probabilidades P(t,d) suele estimarse a partir de la frecuencia media del término t en el documento aplicando una técnica de suavizado para evitar las probabilidades nulas. El método de suavizado más utilizado es la interpolación lineal, que se expresa como sigue: T F (t, d) P (t d) = λ + (1 λ) P (t) len (d) donde P(t) es la probabilidad del término, que se calcula a partir de una colección suficientemente extensa, T F (t, d) representa el número de ocurrencias del término t en el documento d y λ es el parámentro de suavizado que debe ajustarse experimentalmente. Otros enfoques construyen dos modelos, uno del documento y otro de la consulta y utilizan para compararlos la divergencia de Kullback-Leibler (o entropía relativa), denotada por D(Q d), la cual se expresa como: D(Q d) = t P (t Q) log P (t Q) P (t d) Esquemas de Pesado de Términos Existen diversos métodos de pesado de términos reportados en la literatura. Entre ellos podemos mencionar los siguientes: Booleano, donde los pesos w i {0, 1} indican la presencia o ausencia del término t i en el documento. Frecuencia de un término (TF - Term Frequency) [14]. En este método cada término tiene una importancia proporcional a la cantidad de veces que ocurre en el documento (T F (t i, d)). Luego w(t i, d) = T F (t i, d). Es importante señalar que para disminuir el efecto que pueden ocasionar las altas frecuencias y la longitud de los documentos (en documentos más largos debe aparacer más veces cada término) es necesario normalizar de alguna manera la frecuencia de un término en un documento. Una de las técnicas más empleadas es la 9

17 1.2. Estructura de un Sistema de Filtrado Adaptativo normalización por la longitud del documento. Otra variante es la normalización del coseno en la que el TF se divide por la norma euclidiana del vector del documento. T F IDF : Mientras que el TF tiene que ver con la frecuencia de un término en un documento, el IDF (Inverse Document Frequency) tiene que ver con la frecuencia de un término en la colección de documentos. Así, el peso de un término en el documento viene dado por la expresión: w(t i, d) = T F (t i, d) IDF (t i ) ( ) N IDF (t i ) = log df(t i ) donde df(t i ) representa el número de documentos de la colección que contienen al menos una vez al término t i. Este método de pesado da mayor importancia a aquellos términos que ocurren frecuentemente en el documento y son poco frecuentes en la colección. Cuando se trabaja con una colección dinámica de documentos no se dispone de ninguna información sobre los futuros documentos que formarán parte de la colección. Esto trae como consecuencia que sea preciso analizar cómo se comporta el vocabulario de la colección y cómo se actualizan de forma dinámica los pesos de los términos y la normalización de los vectores de documentos. Este problema puede ser abordado desde dos enfoques diferentes. El primero consiste en utilizar un corpus retrospectivo para procesar los nuevos documentos y a los nuevos términos que estén fuera del vocabulario fijado darles un peso constante o aplicar determinada técnica de suavisado a los pesos de los términos. El segundo enfoque consiste en actualizar incrementalmente el vocabulario y el peso de los términos cada vez que se procesa un nuevo documento. ltc: El pesado ltc [17] constituye una variante del esquema T F IDF y se define como: ( ) N w (t i, d) = (1 + log (T F (t i, d))) log df (t i ) Okapi tf : El pesado Okapi tf es otra variante del pesado TF-IDF que fue introducida por Robertson en el sistema Okapi [18], la cual se define como: w (t i, d) = T F comp (t i, d) IDF comp (t i ) donde T F comp (t i, d) = T F (t i, d) T F (t i, d) len(d) avg (len(d )) d ζ 10

18 1.2. Estructura de un Sistema de Filtrado Adaptativo IDF comp (t i ) = ( log N df(t i ) ) log (N + 1) El factor T F comp diferencia las diferentes ocurrencias de un término en un documento asignándole un mayor peso a la primera ocurrencia y cada vez un peso menor a las restantes ocurrencias del término en el documento. Además, el cociente de la longitud del documento y el promedio de las longitudes de los documentos de la colección garantiza que una ocurrencia de un término tenga más peso en los documentos pequeños que en los largos. Por otra parte, el IDF comp es el logaritmo de la frecuencia inversa del término en la colección, normalizado entre 0 y Representación del Perfil La mayoría de los Sistemas de Filtrado Adaptativo de Documentos representan el perfil por medio de un vector, el cual se construye a partir de las muestras de entrenamiento suministradas al sistema. La construcción de este vector, en muchos casos, se realiza utilizando centroides, asumiendo que los documentos se encuentran homogéneamente distribuidos a su alrededor. Otros sistemas representan el perfil por medio de un conjunto de documentos. Esta representación les permite poder aprender la distribución de los documentos que forman el perfil. Por último, los sistemas que utilizan modelos de lenguaje representan el perfil por medio de dos modelos, uno construido a partir de las muestras relevantes y otro construido a partir de las muestras no relevantes. En el epígrafe 1.3, aparecen relacionados los sistemas de filtrado adaptativo más representativos reportados en la literatura. Como parte de la descripción de cada sistema se explica de forma detallada cuál es la representación del perfil utilizada Algoritmo de Clasificación Varios algoritmos han sido utilizados en los sistemas de Filtrado Adaptativo de Documentos para determinar cuándo entregar o no un documento al usuario. A continuación se describen algunos de los utilizados Algoritmo de Rocchio Posiblemente el algoritmo más ampliamente utilizado en la tarea de Recuperación de Información es el algoritmo de Rocchio [19], o alguna variación de él, el cual puede ser generalizado en la forma: xi xi Q x = αq + β i R x γ i NR R NR donde Q representa el perfil inicial, Q = (w 1, w 2,..., w n ) es el nuevo perfil, R representa el conjunto de documentos relevantes y NR el conjunto de documentos no relevantes. Los 11

19 1.2. Estructura de un Sistema de Filtrado Adaptativo valores α, β, y γ son parámetros del algoritmo y controlan cuál es la influencia de cada una de las componentes en el nuevo perfil. Cuando un nuevo documento llega el sistema debe determinar si debe entregarlo o no al usuario. Para ello, asigna una puntuación al documento y lo entrega al usuario si la puntuación asignada supera determinado umbral µ. En resumen, un documento se recupera si (w 1, w 2,..., w n ) T d µ aquí representa el producto escalar entre la transpuesta del vector Q y el nuevo documento. Este algoritmo es muy eficiente, pues cada nuevo documento sólo se compara con un único vector Algoritmo Winnow El algoritmo Winnow [20] mantiene un vector de pesos w = (w 1, w 2,..., w n ) y tiene 3 parámetros: un umbral τ y dos parámetros de actualización, un parámetro de ascenso α y uno de descenso β. Inicialmente, el peso de los términos se fijan a τ /m, donde m representa la longitud promedio de los documentos de entrenamiento. De esta forma, la puntuación inicial de los documentos estará cercana al valor τ. Los parámetros deben ser el de ascenso α > 1 y el de descenso 0 < β < 1. Cada documento d = (d 1, d 2,..., d n ) es considerado como relevante si n w j d j > τ j=1 Si el algoritmo comete un error clasificando una muestra de entrenamiento el vector de pesos se actualiza. Si un documento relevante no es recuperado entonces el peso de los términos w j que ocurren en d se multiplican por α. En otro caso, si el algoritmo recupera un documento cuando no debía ser recuperado, los pesos de los términos que ocurren en d se multiplican por β. En ninguno de los dos casos los pesos w j de los términos que no ocurren en d se modifican Máquinas de Vectores Soporte Las máquinas de vectores soporte (SVM - Support Vector Machines) se basan en el principio de Minimización del Riesgo Estructural [21]. Los modelos más sencillos son clasificadores binarios que asumen que las clases son linealmente separables. El proceso de entrenamiento de SVM consiste en encontrar el hiperplano que separe las muestras de ambas clases con un mayor margen bajo la restricción de que todas las muestras del conjunto de entrenamiento deben ser correctamente clasificadas. Las muestras más cercanas al hiperplano se conocen como vectores soporte. En ciertas ocasiones no es posible lograr que los datos sean linealmente separables. Para estos casos se han diseñado esquemas que asumen que las muestras son separables 12

20 1.2. Estructura de un Sistema de Filtrado Adaptativo en un espacio no lineal. Estas SVM se basan en la idea de transformar el espacio de características en determinado espacio dotado de producto escalar (Espacio de Hilbert). En este nuevo espacio se pueden hacer los mismos análisis que se realizaban con las SVM tradicionales. Para poder calcular el producto escalar en el nuevo espacio de representación las SVM utilizan las conocidas funciones núcleo que permiten transformar los vectores de un espacio en el otro. Varias funciones núcleo han sido reportadas en la literatura, entre ellas la polinomial, la función de base radial y la sigmoidal. El principal problema del uso de las SVM consiste en determinar cuál es la función núcleo que mejor se ajusta al problema en particular donde se desea utilizar Clasificador k-nn El clasificador k-nn [22] es uno de los más utilizados en las tareas de Minería de Textos, y en el Reconocimiento de Patrones en general. Este algoritmo, para clasificar un nuevo documento d selecciona del conjunto de entrenamiento los k documentos más semejanes a d y asigna el documento a la clase que obtenga una mayor cantidad de muestras en la vecindad. Muchas investigaciones han sido realizadas alrededor del clasificador k-nn. Existen muchas versiones de este algoritmo reportadas en la literatura. Estas versiones incluyen cambios en la forma de determinar los documentos que forman la vecindad, en la puntuación que se le asigna a cada clase o en el mecanismo que se utiliza para determinar si el documento pertenece a una clase o no. Algoritmo de Condensado Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas del clasificador k-nn radica en la necesidad de disponer de un gran conjunto de muestras con el fin de obtener buenos resultados. Esto conlleva a que el cálculo de los vecinos sea computacionalmente costoso, lo que podría imposibilitar su aplicación en determinadas aplicaciones reales donde es necesaria una respuesta rápida por parte del clasificador. Una alternativa para acelerar el proceso de encontrar los vecinos más cercanos consiste en disminuir el número de muestras que conforman el conjunto de entrenamiento, pero sin que esto origine un decremento considerable en la efectividad del clasificador. Los algoritmos que tienen por objetivo descartar del conjunto de entrenamiento todas aquellas muestras que no afectan en la obtención de un resultado de clasificación igual o muy similar al obtenido utilizando la totalidad de las muestras se conocen bajo el nombre de algoritmos de condensado. Una propiedad deseable de los algoritmos de condensado es que el conjunto condensado que obtiene el algoritmo sea consistente con respecto al conjunto de entrenamiento original. Se dice que un conjunto S es consistente con respecto a otro conjunto X si al utilizar a S como conjunto de entrenamiento se pueden clasificar correctamente todas las muestras del conjunto X. El algoritmo de Hart [23] es considerado en la literatura como la primera propuesta 13

21 1.2. Estructura de un Sistema de Filtrado Adaptativo Algoritmo 1 Condensado de Hart. Entrada: CA: Conjunto de Aprendizaje Salida: CC: Conjunto Condensado Pasos: 1) R = CA 2) CC = 3) Para cada clase C a) Seleccionar una muestra aleatoria x, tal que x C b) CC = CC {x} 4) Repetir a) Para cada muestra m R I) Si m es clasificado incorrectamente utilizando la regla NN y CC como conjunto de aprendizaje A) R = R - {m} B) CC = CC {m} 5) Hasta que no haya cambios en R ó R = 6) Devolver CC formal de condensado para la regla NN (k = 1). El algoritmo comienza seleccionando de manera aleatoria una muestra correspondiente a cada una de las distintas clases presentes en el conjunto de aprendizaje (CA) y son añadidos al conjunto condensado (CC). Posteriormente, de forma secuencial se adicionan a CC todas aquellas muestras de CA que sean incorrectamente clasificadas al utilizar CC como conjunto de aprendizaje. Los pasos del método aparecen resumidos en el algoritmo 1. El algoritmo elimina del conjunto de aprendizaje aquellos prototipos que no resultan necesarios para la correcta clasificación del resto de las muestras mediante la regla NN. La justificación de este método se basa en la idea de que si una muestra es incorrectamente clasificada, esto se debe a que se encuentra próxima a la frontera de decisión y, por tanto, no debería ser descartada del conjunto de aprendizaje. 14

22 1.2. Estructura de un Sistema de Filtrado Adaptativo Procesamiento de los Documentos Los modelos de representación de los documentos requieren contar con un índice de los términos del documento. El proceso de extracción de los términos es un proceso en el cual pueden ser aplicadas varias técnicas de indexación. La primera de estas técnicas consiste en la extracción del texto plano del documento. En este proceso es necesario reconocer el formato del documento y eliminar toda la información presente en él propia del formato en el que se encuentra codificado. Además, son eliminados los signos de puntuación, las mayúsculas son convertidas en minúsculas, son eliminados los acentos (puede ser particularmente complicado en idiomas como el español o el francés), así como la determinación de las palabras que forman el texto. Luego son eliminadas las palabras presentes en la lista de palabras vacías (stopwords), también conocida como lista de parada. Esta lista es una relación de términos que poseen un muy escaso nivel de discriminación entre documentos diferentes. En esta lista podemos encontrar las preposiciones, conjunciones, artículos, pronombres, así como las palabras que no son discriminatorias por su elevada frecuencia de aparición en la colección de documentos. Estudios realizados afirman que con la eliminación de las palabras vacías se logra una reducción en el índice de términos entre un 30 y un 50 % [24]. Otra técnica consiste en la detección de estructuras multipalabras dentro del documento como pueden ser los diferentes tipos de nombres de entidades. Por últimos, se realiza extracción de raíces (stemming) o lemas (lematización) con el objetivo de agrupar en un mismo término todo un conjunto de palabras diferentes que constituyen variaciones morfológicas con un mismo significado. Este proceso incluye la eliminación de plurales, eliminación de sufijos y prefijos, reducción al infinitivo en el caso de los verbos, entre otras. Para el desarrollo de estas tareas se han desarrollados algoritmos y herramientas para varios idiomas. Entre ellas se pueden mencionar el algoritmo de Porter [25] para la extracción de raíces y los lematizadores maco+ [26], tree-tagger [27] y Freeling [28]. Durante el proceso de indexado no necesariamente son aplicadas todas estas técnicas Actualización del Perfil El algoritmo de actualización del perfil constituye un elemento fundamental en los sistemas de filtrado adaptativo de documentos. Este algoritmo permite al sistema ajustarse mejor a las necesidades de información del usuario y con ello poder aumentar su efectividad. De forma general, este proceso incluye un conjunto de tareas entre las que se encuentran la actualización de la representación de los documentos que pertenecen al perfil, la actualización de estructuras internas del sistema, el ajuste de los umbrales y parámetros que utiliza el algoritmo, entrenar nuevamente el clasificador utilizado, entre otras. No en todos los casos se realizan todas estas tareas. En dependencia del tipo de representación del perfil utilizada y del clasificador empleado en el sistema serán los pasos que debe seguir el algoritmo para realizar la actualización del perfil de usuario. En el epígrafe 1.3 se describen los principales sistemas de Filtrado Adaptativo de Documentos. 15

23 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos Como parte de la descripción de cada sistema se explica el mecanismo de actualización del perfil de usuario utilizado Principales Aproximaciones al Filtrado Adaptativo de Documentos Los sistemas de Filtrado Adaptativo de Documentos pueden ser agrupados en dos tipos de enfoques fundamentales [29]: Recuperación de Información más Actualización del Umbral. Categorización de Textos. A continuación abordaremos los principales sistemas reportados para cada uno de estos enfoques Sistemas del enfoque de Recuperación de Información más Actualización del Umbral Los sistemas que pertenecen a este grupo construyen su estrategia de filtrado adaptativo de documentos utilizando algoritmos diseñados originalmente para la tarea de Recuperación de Información. Estos documentos asignan una puntuación a cada documento y recuperan aquellos documentos que obtienen una puntuación superior a un cierto umbral Sistema CLARIT El Sistema CLARIT [9] de la compañía alemana CLARITECH está basado en el clasificador de Rocchio, utilizando el tradicional modelo vectorial para representar los documentos y el esquema TF-IDF para pesar la importancia de los términos. El vector representante del perfil está compuesto tan sólo por los k términos de mayor peso. El valor de k crece a medida que aumenta el número de documentos relevantes mediante la expresión k = log (R + 1), donde R representa el número de muestras relevantes disponibles. En el sistema utilizaron para fijar el valor del umbral inicial un corpus auxiliar compuesto por N documentos. Para calcular este umbral se asume que el usuario tan sólo desea una fracción (r) de los documentos recuperados. En los experimentos, el valor de esta fracción fue fijado a 0.1. Calculando las estadísticas del IDF sobre el corpus auxiliar se estableció el umbral inicial como la puntuación del k-ésimo documento de mejor ranking del corpus, donde k = r N. El proceso de actualización del umbral se realiza mediante el método de regularización α-β. Para ello se define el umbral óptimo, θ op, como el valor del umbral que obtuvo mejor utilidad hasta el momento, y el umbral cero, θ cero, el cual es el mayor umbral, inferior al 16

24 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos umbral óptimo, que obtiene una utilidad no negativa. El proceso de selección del umbral se realiza interpolando entre el umbral óptimo y el umbral cero mediante la expresión: El parámetro α se calcula como: θ = α θ cero + (1 α) θ op α = β + (1 β) e γ M donde M es el número de documentos analizados. Los valores β y γ fueron fijados a 0.1 y 0.05 respectivamente Sistema YFilter EL Sistema YFilter [30, 31, 32] fue presentado en la TREC-9, TREC-10 y TREC-11. Este sistema utiliza el algoritmo de Rocchio para actualizar el perfil y una variante del esquema de pesado de términos Okapi tf en la cual las palabras muy frecuentes y las raras son penalizadas. Para lograr una mayor eficiencia el perfil fue reducido a los 60 términos de mayor puntuación. El algoritmo utiliza para realizar la puntuación de cada nuevo documento d la fórmula BM25 tf.idf [33]: w (1) (k 1 + 1) T F (t, d) (k ( ) 3 + 1) T F (t, P ) avdl dl + k k 1 (1 b) + b dl 2 P avdl + T F (t, d) k 3 + T F (t, P ) avdl + dl t P donde dl es la longitud del documento d, avdl es la longitud promedio de los documentos, P es el vector utilizado para representar el perfil, k 1, k 2, k 3, y b son parámetros que deben estimarse a partir de la base de datos. w (1) es calculado mediante la expresión: log r+0,5 R r+0,5 n r+0,5 N n R+r+0,5 en la cual R es el número de documentos relevantes, N el número de documentos en la colección, r es la cantidad de documentos relevantes que contienen al término t y n es el total de documentos que contienen al término t. Cada vez que un documento se procesa el umbral se actualiza. Si se recibe retroalimentación negativa se incrementa el umbral, sino es constantemente reducido teniendo en cuenta el desempeño del sistema y la cantidad de documentos recuperados. En el 2001 Yi Zhang y Jamie Callan presentaron un sistema [34] basado en el YFilter en el cual desarrollaron un modelo de Estimación de Máxima Probabilidad para estimar cuál era el umbral adecuado cada vez que se recibía retroalimentación por parte del usuario. En la TREC-10 incorporaron al sistema modelos de lenguaje para actualizar el vector que representa el perfil. Para ello, en el sistema se asume que cada documento relevante es una combinación lineal de dos modelos, uno generado a partir del tópico y el otro generado a partir del conjunto de entrenamiento. El modelo del tópico se entrena utilizando un 17

25 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos algoritmo EM para maximizar la probabilidad de los documentos relevantes procesados. El sistema selecciona los términos donde P (t M T )/P (t M C ) es muy grande. En esta expresión M T es el modelo del tópico y M C es el modelo del conjunto de entrenamiento. En la TREC-11, el sistema mantuvo su algoritmo y esquema de actualización del perfil, pero variaron el mecanismo de actualización del umbral para medir la influencia de varios métodos de actualización del umbral. Los utilizados fueron los siguientes: un modelo basado en el supuesto de que los documentos relevantes se distribuyen de forma Normal y los no relevantes siguen una distribución Exponencial, estimación de máxima probabilidad, regresión logística, modelo del error bayesiano y un algoritmo ávido Sistema de la Universidad de Rutgers Este sistema [35] fue desarrollado en la Universidad de Rutgers y fue presentado en la TREC del El mismo está basado en el clasificador de Rocchio y la retroalimentación de muestras pseudo-relevantes. El sistema utilizó la descripción del tópico así como las muestras relevantes disponibles para la construcción del perfil inicial. Luego utilizando este modelo inicial asignó una puntuación a cada uno de los documentos que forman parte de todo el conjunto de entrenamiento. Los documentos con mayor puntuación fueron tomados como pseudo-relevantes y los que obtuvieron menor puntuación fueron tomados como no relevantes. Con ellos actualizaron el perfil y escogieron entonces el umbral que maximizara los resultados en el conjunto de entrenamiento. Con el objetivo de aumentar el rendimiento del sistema en el perfil se redujo el vector a los 30 términos con mayor peso Sistema de la Academia de Ciencias de China El Sistema del Instituto de Tecnologías de la Informática, de la Academia de Ciencias de China [7] obtuvo los mejores resultados entre los sistemas que se presentaron en la TREC-11. En el sistema los documentos son representados mediante el modelo vectorial utilizando como términos la raíz de la palabra una vez eliminadas las palabras vacías. El modelo TF-IDF es utilizado para calcular el peso del término en el documento. La estadística IDF fue calculada sobre todo el conjunto de entrenamiento. El sistema trata la descripción del tópico como un documento más. Para determinar la semejanza entre los nuevos documentos y el perfil se utiliza la tradicional medida del coseno. El perfil inicial se calcula mediante la expresión: P 0 = α F + β T la cual representa la suma pesada de la descripción del tópico (T ) y el vector de características (F ), el cual es la suma de los tres documentos relevantes iniciales. Los valores α y β fueron fijados a 1 y 3 respectivamente para dar mayor importancia a la descripción del tópico. El sistema para la actualización del umbral se apoya en tres tipos de documentos, los relevantes, los no relevantes y los pseudo-negativos. Como pseudo-negativos se toman aquellos documentos no evaluados para los cuales su semejanza con el perfil es inferior a 18

26 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos un umbral t = 0.6. El método utiliza una fórmula similar a la del algoritmo de Rocchio, excepto por el hecho de que no se calcula el centroide del conjunto de documentos con el objetivo de enfatizar en los documentos recuperados y dotarlos de la capacidad de ajustar el vector que representa el perfil rápidamente. La fórmula del método es la siguiente: P = P 0 + α d i β d j β d k d i R d j NR d k P s donde Ps representa a los documentos pseudo-negativos. Los valores α, β y β fueron ajustados a 1, 1.8 y 1.3 respectivamente Sistema de Yang et. al. Yiming Yang et. al. [36] presentaron un sistema basado en la regresión logística. La regresión logística estima la probabilidad a posteriori de un tópico dado un documento, d, utilizando la función 1 P (y = 1 d, w) = 1 + e w d donde w representa el vector de coeficientes de regresión, y y {+1, 1}, indicando si el documento es relevante o no para el tópico. Dado el conjunto de muestras D = {(x 1, y 1 ),, (x n, y n )}, en el trabajo modificaron la versión estándar de la regresión logística. En la variante propuesta los coeficientes de regresión se calculan según la expresión: { n } w = arg min w i=1 s (y i ) log ( 1 + e y i w x i ) + λ w µ 2 donde s (y i ) toma los valores α, β y γ en función de que x i sea el vector de la descripción del tópico, un documento Relevante o un documento No Relevante. El segundo término de la función es para regularización, la cual es equivalente a adicionar a los coeficientes de regresión una Gausiana con media µ y matriz de varianza - covarianza 1 /2λI, donde I representa la matriz identidad. Esta modificación en la forma de estimar los coeficientes de regresión en el trabajo se define como MAP (Maximum A Posteriori). El parámetro µ fue tomado como 0 en los experimentos. Una vez calculados los coeficientes de regresión comienza el proceso de filtrado. Por cada nuevo documento d, la decisión se toma aplicando la función signo en la forma: { + (Relevante) signo (P (y d, w) θ opt ) = (N o Relevante) donde θ opt representa un umbral óptimo constante dependiente de la medida de evaluación a optimizar. Para la medida T11SU este valor es fijado a En este trabajo los términos son pesados utilizando el modelo ltc. 19

27 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos Sistema LR Rocchio En el sistema LR Rocchio [8], Zhang presenta una combinación del clasificador de Rocchio y la regresión logística utilizando el estimador MAP (ver ). Sea w R el vector construido por el clasificador de Rocchio y w el vector de los coeficientes de regresión. En el trabajo, a diferencia del trabajo de Yang, se utiliza una distribución Gausiana N (w; m w, v w ) bajo la suposición de que si se hace coincidir la frontera de decisión m w a la frontera encontrada por el clasificador de Rocchio se pueden obtener mejores resultados que si se utiliza una distribución con media 0. El vector m w puede ser estimado mediante la expresión: donde el escalar α se determina como: α = arg max α m w = α w R n i= e y iw T R x i Éste es un problema de optimización lineal, el cual puede ser calculado utilizando el algoritmo de descenso del gradiente, según proponen los autores. En el sistema los autores utilizaron para el pesado de los términos una variante del pesado TF-IDF Sistema de Yang y Kisiel Tom Ault y Yiming Yang [37] en el 2001, así como, Yiming Yang y Bryan Kisiel [38] en el 2003, presentaron un sistema basado en el clasificador de Rocchio el cual utiliza el modelo vectorial con el método de asignación de pesos a los términos ltc. Los términos son las raíces de las palabras una vez eliminadas las palabras vacías. Para asignar la puntuación al documento utilizaron la medida del coseno. El proceso de actualización del umbral se realiza utilizando regresión local basado en el margen que existe entre la puntuación asignada a los documentos relevantes recuperados y la asignada a los documentos no recuperados más los recuperados incorrectamente. La idea del método consiste en representar la puntuación asignada a los documentos y buscar la curva que maximize el margen entre los puntos pertenecientes a los documentos relevantes recuperados del resto de los puntos y utilizar este valor para calcular el umbral Sistema de la Universidad IRIT El sistema IRIT presentado en la TREC-10 [39] y TREC-11 [40] está basado en un modelo conexionista nombrado Mercure. El sistema utiliza el modelo vectorial y una variante del pesado Okapi tf. Inicialmente el sistema calcula el peso inicial de los términos utilizando la expresión: T F (t i, P ) w i = max j (T F (t j, P )) 20

28 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos donde P representa el vector del perfil. Cada nuevo documento d es indexado luego de eliminar las palabras vacías y los signos de puntuación. Las palabras son representadas por medio de su raíz. El peso de cada término del documento se calcula utilizando la fórmula: ( ) T F (t i, d) N w(t i, d) = len(d) h 3 + h 4 + T F (t ave(len(d)) i, d) log DF (t i ) + 1 donde len(d) representa la longitud del documento, ave(len(d)) es la longitud promedio de los documentos procesados. Los parámetros h 3 y h 4 son parámetros constantes ajustados empíricamente a 0.2 y 0.7 respectivamente. Una vez representado el documento se le asigna una puntuación utilizando la expresión RSV (Retrieval Status Value): RSV (d, P ) = t i d,l j P,t i =l j w (t i, d) w (t i, P ) donde P representa el perfil. El documento se recupera si el valor calculado supera un determinado umbral. El proceso de actualización del perfil cada vez que se tiene retroalimentación por parte del usuario se realiza siguiendo un mecanismo de aprendizaje por refuerzo. El mismo consiste en ajustar los pesos de los términos para obtener una puntuación deseada para el documento. Para ello, el sistema resuelve el sistema de ecuaciones: w (t i, d) w (t i, P ) = β t i d,l j P t i =l j w i = w j f(t i ) f(t j ) (t i, t j ) d 2 donde DF R (t i ) representa el valor df(t i ) entre los documentos relevantes y DF NR (t i ) representa el valor df(t i ) entre los documentos no relevantes. La función f se expresa como: i, f (t i ) = w (t i, d) log DF R (t i )+0,5 R DF R (t i )+0,5 DF NR (t i )+0,5 NR DF NR (t i )+0,5 La solución del sistema de ecuaciones es un conjunto de pesos provisionales, pw, calculados según la expresión: i, pw (t i ) = β f (w (t i, d), DF R (t i ), DF NR (t i )) j f (w (t j, d), DF R (t j ), DF NR (t j )) w (t j, d) El peso del término se actualiza mediante la expresión: w (t i, P ) = w (t i, P ) + log (1 + pw (t i )) donde P representa el perfil que se obtiene una vez que ha concluido el proceso de actua- 21

29 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos lización. Para realizar la actualización del umbral el sistema determina cuál es la función de distribución discreta de la puntuación de los documentos de las clases Relevante y No Relevante recuperados hasta el momento. Esta función es linearizada utilizando el método de los mínimos cuadrados. Una vez linearizada se escoge el umbral que maximice una determinada función de utilidad. Los autores realizaron una revisión del sistema propuesto y el mismo fue presentado [41] en la conferencia ACM En esta propuesta se mantiene la idea de utilizar un mecanismo de aprendizaje con refuerzo para determinar un perfil provisional, P p, mediante el cual el documento juzgado por el usuario como relevante obtenga el valor de RSV deseado. Para realizar este proceso se modificó el sistema de ecuaciones que se debe resolver a la forma: { P n 2 k=1 w(t k,d) w(t k,p p) P n i=1 w(t i,d) 2 + P n = λ j=1 w(t j,p p) 2 (t i, t j ) d 2, w(t i,p p) f(t i = w(t j,p p) ) f(t j ) siendo λ el valor de RSV que se desea obtener para los documentos relevantes. Este sistema, luego de realizar algunas transformaciones, puede ser escrito en la forma: ( ) 2 ( ) w (ti, P p ) w (ti, P p ) a 2b + c = 0 f i donde a = λ n k=1 (f k) 2, b = n k=1 f k w (t k, d) y c = λ n k=1 (w (t k, d)) 2. Siendo = b 2 ac el discriminante de la ecuación. Luego por cada término del documento d, el peso del término en el perfil provisional se calcula mediante la expresión: { f(ti ) (b± ), si 0 w (t i, P p ) = a si < Sistema de la Universidad de Nueva York en Buffalo Srikanth et. al. presentaron en la conferencia TREC-11 un sistema [42] basado en modelos de lenguaje. En este sistema dada una consulta Q, dos modelos de lenguaje son estimados, un modelo positivo, ˆθ P, y un modelo negativo, ˆθ N. El modelo positivo inicial es estimado a partir de la descripción del tópico, mientras que el modelo del conjunto de entrenamiento se toma como modelo negativo inicial. Estos modelos son actualizados a partir de las muestras de entrenamiento suministradas al sistema para la construcción del perfil inicial. Los modelos son actualizados { a partir de la retroalimentación } suministrada al sistema. Las muestras positivas F P = d P1, d P2,..., d P FP son utilizadas para actualizar el modelo positivo ˆθ P utilizando el modelo construido a partir de la retroalimentación mediante la f i 22

30 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos minimización de la expresión: D n (θ FP ; F P, C) = 1 F P d F P D ) (θ FP ˆθ d λd (θ FP p ( C)) donde p(. C ) representa el modelo construido a partir del conjunto de entrenamiento y λ es un parámetro. El modelo de la retroalimientación negativa es generado minimizando: D n (θ Fn ; F n, C) = 1 F n d F n D (θ Fn ˆθ d ) ) λd (θ Fn ˆθ P } donde F n = {d n1, d n2,..., d n Fn es el conjunto de muestras negativas. En este sistema consideraron los documentos no evaluados como muestras negativas. Los modelos positivos y negativos del tópico son actualizados mediante: ˆθ P = (1 α 1 ) ˆθ P + α 1 θ FP ˆθ N = (1 α 2 ) ˆθ N + α 2 θ Fn Dado un documento d del flujo a ser procesado primero es calculado su modelo usando la fórmula ) p (w ˆθ d = γp (w d) + (1 γ) p (w C) donde el parámetro γ fue fijado a 0.6. La puntuación del documento es determinada mediante la proporción entre los modelos positivo y negativo, es decir: ) punt (ˆθd ; ˆθ P, ˆθ ) D (ˆθd ˆθ P N = ) D (ˆθd ˆθ N Una vez calculada la puntuación del documento, el mismo es entregado al usuario si la misma supera un determinado umbral. En el sistema los documentos son previamente preprocesados. Durante la etapa de preprocesamiento son eliminadas las palabras vacías y los términos son las raíces de las palabras Sistemas del enfoque de Categorización de Textos En este enfoque se trata el problema como una tarea de categorización de documentos. En ella se definen dos clases de documentos, Relevante y No Relevante. Cada nuevo documento es entregado al usuario si el clasificador asigna al nuevo documento la etiqueta de Relevante. 23

31 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos Sistema del Consorcio KerMIT Este sistema [6] consiste en una combinación de una máquina de vectores soporte (SVM) y el algoritmo Perceptron con márgenes irregulares (PAUM - Perceptron Algorithm with Uneven Margins). El preprocesamiento de los documentos incluye la eliminación de etiquetas y eliminación de palabras vacías. Este sistema utiliza el modelo vectorial, en el cual cada documento es representado como una combinación del título y el cuerpo del documento, asignándole el doble del peso a los términos que aparecen en el título. Los términos son pesados utilizando el esquema ltc. Todos los vectores son normalizados una vez calculados los pesos de los términos. Los IDF son calculados inicialmente a partir del conjunto de entrenamiento y actualizados cada vez que se procesa un nuevo documento. El proceso de entrenamiento incluye la utilización del algoritmo Gram-Schmidt [43] para seleccionar del conjunto de entrenamiento k documentos no evaluados como muestras de la clase No Relevante, los cuales son utilizados para entrenar la SVM y con ello construir el perfil P. Este proceso se realiza resolviendo el problema de optimización: min P,ξ P T P + C i=1,...,n ξ i sujeto a P T d i + ξ i γ p d i Relevante P T d i ξ i γ n d i No Relevante ξ i 0 i = 1,..., N donde γ p y γ n son parámetros del algoritmo. Cada nuevo documento d es entregado al usuario si P T d > t, donde t es un determinado umbral. El proceso de actualización del perfil, en el cual se utiliza el algoritmo PAUM, puede ser expresado de la siguiente forma: τ = τ p y i = 1 si d es Relevante τ = τ n y i = 1 si d es No Relevante τ = τ u y i = 1 si d es No Evaluado mientras y i ( P T d ) τ P P + y i d Aquí, τ p, τ n y τ u son parámetros del algoritmo. Los parámetros fueron ajustados a los valores: k = 80, γ p = 20, γ n = 5, τ p = 10, τ n = 2, t = 5 Estos valores fueron seleccionados a partir de experimentos realizados por los autores utilizando las categorías de la colección RCV1. El valor del parámetro τ u se determinó mediante 24

32 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos la expresión: R + N τ u = 0.5 R + N + E donde R, N y E representan el total de documentos relevantes, no relevantes y no evaluados procesados por el sistema. El valor del umbral t es actualizado cada vez que el sistema procesa n documentos. Para ello se sigue la heurística de que si en los anteriores n documentos el sistema recuperó muy pocos documentos se decrementa el valor de t, por el contrario si se recuperaron muchos documentos no evaluados se incrementa su valor. El valor de n en el sistema es fijado a Los autores no explican cuándo para ellos el sistema ha recuperado muy pocos documentos relevantes o cuándo ha recuperado muchos no evaluados Sistema de la Universidad de Nueva York Este sistema [42], al igual que el sistema del Consorcio KerMIT, está basado en las SVM. El mismo se apoya en la generación de pseudo-muestras a partir de la descripción y el resumen del tópico. El proceso de generación de pseudo-muestras consta de dos pasos. El primero consiste en determinar los 30 documentos del conjunto de entrenamiento más similares al vector formado por la descripción y el resumen del tópico. Para ello se utilizó el pesado TF-IDF. Estos documentos son tomados como pseudo-positivos. El segundo paso consiste en seleccionar de forma aleatoria 90 documentos de todo el conjunto de entrenamiento una vez eliminados los documentos relevantes sumistrados al sistema como muestras iniciales y los 1000 documentos más similares al vector de la descripción del perfil. Estos documentos son tomados como pseudo-negativos. Con estos documentos fue entrenada una máquina de vectores soporte con márgenes pesados (WMSVM - Weighted Margin SVM). Durante el proceso de entrenamiento a las pseudo-muestras les es asignado un peso inferior, y la máquina es capaz de utilizar esta información Sistema de la Universidad Johns Hopkins Este sistema [44] estudia el uso de las SVM en la tarea de filtrado adaptativo de documentos. En el sistema se definen tres grupos de documentos, el grupo de los relevantes, el de los no relevantes y el de los documentos no recuperados. Cada grupo tiene un tamaño diferente, definiendo como 750 el tamaño de los dos primeros, mientras que con el tamaño del grupo de los no recuperados experimentaron con los valores 2000 y 50. Para el proceso de selección de cuáles documentos forman parte de cada uno de los grupos se siguieron dos estrategias. La primera consistió en utilizar un mecanismo de colas de documentos, eliminando los más viejos. La segunda estrategia consistió en tratarlos como heap, ordenados según la puntuación asignada por la SVM y eliminando los documentos con mayor puntuación, basados en la idea de que los documentos cercanos a la frontera poseen un mayor poder discriminante. En el sistema, el proceso de actualización del perfil se realiza actualizando la SVM cada 25

33 1.3. Principales Aproximaciones al Filtrado Adaptativo de Documentos ciertos intervalos utilizando los documentos que se encuentran en ese momento en los grupos. Los intervalos son definidos basados en el tamaño de los grupos Sistema de la Universidad de Fudan Este sistema [45] para la representación de la descripción del perfil utiliza un clasificador Winnow [20]. La descripción de los documentos se realiza mediante el tradicional modelo vectorial, en el cual el peso de los términos se calcula como: ( w(t i, d) = 1 + log T F (t i, d) avdl ) dl donde dl representa el número promedio de términos diferentes en un documento y avdl es la longitud promedio de los documentos. Con el objetivo de reducir la alta dimencionalidad del espacio de representación el sistema selecciona sólo aquellos términos que considera importantes. Este proceso se realiza calculando para cada término el logaritmo de la Información Mutua mediante la expresión: ( ) P rob (ti P ) logim (t i, P ) = log P rob (t i ) Para cada perfil las probabilidades P rob (t i P ) y P rob (t i ) son estimadas mediante el método de máxima probabilidad. El sistema elimina aquellos términos para los cuales el valor logim (t i, P ) es inferior a 3.0. Este sistema está compuesto por dos componentes fundamentales, un vector de características que representa la información del perfil y un clasificador Winnow para la descripción del perfil. El entrenamiento del sistema consta entonces de dos etapas, el entrenamiento del clasificador y la construcción del vector de características para representar el perfil. El clasificador se construye a partir de la descripción y el resumen del tópico una vez eliminadas las palabras vacías presentes. Inicialmente a todos los términos se le asigna el mismo peso. El proceso de ajuste de los pesos se realiza de forma tal que si alguno de los documentos de muestras no es recuperado por el clasificador, el peso correspondiente a los términos presentes en el documento se incrementan en 1.5. Este clasificador requiere un umbral para decidir si un documento es relevante o no. El proceso de selección del umbral inicial se determina auxiliándose de todo el conjunto de entrenamiento. El vector de características que representa el perfil se calcula como la suma pesada del vector formado con los documentos de muestra relevantes y el vector formado a partir de los documentos pseudo-relevantes. Los documentos pseudo-relevantes son los documentos del conjunto de entrenamiento más semejantes al vector formado por los documentos relevantes. El valor del umbral inicial se determina de forma tal que maximice la medida de evaluación. Para el cálculo de la semejanza entre dos documentos se utiliza la medida del coseno. Durante el desempeño del sistema primero se utiliza el clasificador Winnow para to- 26

34 1.4. Conclusiones mar una decisión inicial. Si el documento es clasificado como relevante por el clasificador Winnow, entonces se calcula la semejanza entre el documento y el vector que representa el perfil, si este valor supera el umbral entonces se entrega el documento al usuario. El proceso de actualización incluye el ajuste de los pesos de los términos en el clasificador Winnow, la modificación del vector de características y la actualización de los umbrales Sistema de Ault y Yang En este sistema [46] los autores utilizan el tradicional modelo vectorial para representar los documentos. Los términos son tomados como las raíces de las palabras una vez eliminadas las palabras vacías. Los términos son pesados utilizando una variante del esquema de pesado Okapi, los cuales se calculan mediante la expresión: w (t, d) = T F (t, d) log (0.5 + N df (t)) len(d) + T F (t, d) n (t) avglen donde N representa el total de documentos en el conjunto de entrenamiento y avglen es la longitud promedio de los documentos. Los valores N, df (t) y avglen son calculados a partir de todo el conjunto de entrenamiento pero no son actualizados durante el proceso de filtrado. El sistema utiliza una variante del clasificador k-nn, la cual puede ser resumida en los siguientes pasos: 1) Sea V al conjunto de los k documentos del conjunto de entrenamiento más similares al documento a procesar. 2) Por cada perfil P, calcular el nivel de relevancia del documento con el perfil mediante la expresión: punt (d, P ) = sem (d, x) x V P El sistema utiliza la tradicional medida del coseno para determinar la semejanza entre dos documentos. El sistema por cada perfil establece un umbral y el documento es recuperado como relevante para el perfil si su puntuación supera este umbral. Para determinar el valor de los umbrales y del parámetro k se utilizó el método de validación cruzada sobre el conjunto de entrenamiento de la colección OHSUMED-87. Finalmente el valor de k fue fijado en 200. Este sistema se caracteriza por no hacer uso de la información disponible por medio de la retroalimentación, tan sólo el conjunto de entrenamiento inicial fue utilizado para la construcción del perfil Conclusiones El Filtrado Adaptivo de Documentos es una tarea particularmente difícil en el aprendizaje automático debido a la escasez de información inicial a la que deben enfrentarse los 27

35 1.4. Conclusiones sistemas. Varios han sido los algoritmos y aproximaciones utilizadas por los diferentes sistemas reportados que abordan esta temática. Está claro que del método de representación del perfil, del clasificador utilizado para determinar cuándo recuperar los documentos y del mecanismo empleado para actualizar el perfil dependerá la efectividad alcanzada por el sistema. La tabla 1.1 resume las principales características de cada uno de los sistemas estudiados en la tarea de Filtrado Adaptativo de Documentos. La tarea de Filtrado Adaptativo fue convocada por última vez en la conferencia TREC-11 (2002). En esa edición los sistemas que mejores resultados obtuvieron fueron el de la Academia de Ciencias de China y el del Consorcio KerMIT. En esta conferencia, los documentos fueron agrupados en 100 tópicos. Los primeros 50 tópicos fueron creados por los asesores de la NIST y los últimos 50 tópicos fueron creados como intersecciones de pares de tópicos de la colección RCV1. Estos últimos 50 tópicos resultaron ser mucho más difíciles que los tópicos creados por los asesores de la NIST y en ellos todos los sistemas obtuvieron resultados inferiores al baseline. Varios autores, en artículos publicados después de realizada la conferencia, reportan buenos resultados en los tópicos creados por los asesores, pero ignoran los últimos 50 tópicos. Sistema Sistema ClARIT Sistema YFilter Sistema de la Universidad de Rutgers Modelo del representación de perfil Un vector pesado con el modelo TF-IDF. Un vector pesado con el modelo Okapi tf. Utiliza un vector. Clasificador Rocchio Rocchio Rocchio Mecanismo de Actualización del perfil El vector es actualizado según el mecanismo de Rocchio y el umbral se actualiza utilizando regularización α-β. Utilizan el modelo de Rocchio y modelos de lenguaje para actualizar el vector y exploran varios métodos de actualización del umbral. Utiliza el modelo de actualización de Rocchio apoyado en el uso de muestras pseudo-relevantes. 28

36 1.4. Conclusiones Sistema Sistema de la Academia de Ciencias China Sistema de Yang et. al. Sistema LR Rocchio Sistema de Yang y Kisiel Sistema de la Universidad IRIT Sistema de la Universidad de Nueva York en Buffalo Sistema del Consorcio KerMIT Modelo del representación de perfil Utiliza un vector pesado según el modelo TF-IDF. Utiliza un vector pesando los términos con el modelo ltc. Utiliza un vector pesando los términos con TF-IDF. Utiliza un vector y el modelo ltc para el pesado de los términos. Utiliza un vector y el modelo Okapi tf para el pesado de los términos. Modelo de lenguaje. Utiliza vectores donde el peso de los términos se calcula utilizando el ltc. Clasificador Variante de Rocchio Regresión Logística Rocchio Rocchio Variante del algoritmo Mercure. Se utiliza la proporción entre los modelos positivo y negativo. SVM Mecanismo de Actualización del perfil Utiliza el modelo de actualización de Rocchio apoyado tanto en los documentos relevantes, no relevantes como los pseudo-negativos. Recalculan el pesos de los términos en el perfil utilizando regresión MAP. Para actualizar el umbral combina el mecanismo de Rocchio con el método de regresión logística utilizando el estimador MAP. Utiliza el mecanismo de actualización de Rocchio combinado con regresión local. Utiliza aprendizaje con refuerzo. Se actualiza creando un modelo a partir de los documentos suministrados por medio de la retroalimentación. Actualiza el perfil utilizando el algoritmo PAUM. 29

37 1.4. Conclusiones Sistema Sistema de la Universidad de Nueva York Sistema de la Universidad Johns Hopkins Sistema de la Universidad de Fudan Sistema de Ault y Yang Modelo del representación de perfil Vectores de términos utilizando el modelo TF-IDF para calcular el peso. Utiliza vectores donde el peso de los términos se calcula utilizando TF-IDF. Utiliza un vector y un clasificador Winnow. Vectores pesados mediante una variante del pesado Okapi tf. Clasificador WMSVM SVM Winnow k-nn Mecanismo de Actualización del perfil Actualiza el perfil reentrenando la WMSVM apoyado en los documentos relevantes, no relevantes y las pseudo-muestras. El perfil es actualizado reentrenando la SVM utilizando los documentos presentes en las colas de documentos. El proceso incluye actualizar el vector y los pesos en el clasificador Winnow No actualiza el perfil. Tabla 1.1: Características generales de los Sistemas de Filtrado Adaptativo de Documentos. Varias aproximaciones representan el perfil utilizando un solo vector asumiendo que las muestras relevantes y no relevantes se encuentran homogéneamente distribuidas alrededor de este vector. Esta suposición de manera general no se cumple necesariamente. En un perfil pueden existir diferencias entre los documentos de muestra. Estas diferencias pueden ser el resultado de una estructuración en forma de grupos inherente a los documentos que pertenecen al perfil. Esta situación es probable que ocurra cuando los documentos que satisfacen la necesidad de información del usuario provienen de diferentes fuentes, cuando la necesidad de información cambia con el tiempo o cuando el juicio del usuario sobre lo que quiere no es completamente confiable. Los perfiles de usuarios son completamente independientes unos de otros y existen sistemas, como es el caso del de Ault y Yang, en el cual los perfiles compiten entre sí. Los sistemas que utiliza SVM presentan el incoveniente de seleccionar una función núcleo que se ajuste a las condiciones del entorno donde se va a aplicar el sistema. Por otra parte, de forma general, estos sistemas no cuentan con un 30

38 1.4. Conclusiones mecanismo que permita reducir el número muestras que se utiliza para entrenar la SVM, lo que trae como consecuencia que el proceso de actualización del perfil pueda ser costoso. Los documentos que forman el conjunto de entrenamiento de un perfil pueden estar distribuidos irregularmente en el espacio de representación. Los sistemas presentados en este capítulo son incapaces de manejar de forma correcta esta situación. 31

39 2 Algoritmo para el Filtrado Adaptativo de Documentos 2.1. Introducción Los Sistemas de Filtrado Adaptativo de Documentos se espera que sean capaces de comenzar su tarea de clasificación con muy pocas muestras de entrenamiento. Esto hace que la tarea sea particularmente difícil debido a que los algoritmos tradicionales de aprendizaje requieren de un número considerable de muestras para la construcción del clasificador. Varios enfoques diferentes han sido reportados en la literatura relacionada con el Filtrado Adaptativo. Como se mencionó en el epígrafe 1.3, estos enfoques se dividen en dos grandes grupos, los que afrontan el problema como una tarea de Recuperación de Información más actualización de umbral y los que lo afrontan como una tarea de Categorización de Textos. Varios de estos enfoques representan el perfil por medio de un vector, asumiendo que los documentos relevantes al perfil se encuentran homogéneamente distribuidos alrededor del mismo. En un entorno real no existe ninguna garantía de que esta suposición sea cierta. Los documentos que satisfacen un perfil pueden estar distribuidos de forma irregular. Los sistemas actuales son incapaces de manejar de forma correcta esta situación aún cuando puede ser una situación común en un entorno real. Los sistemas que sean diseñados pensando en que puedan ser aplicados en entornos reales, deben ser capaces de obtener buenos resultados tanto en perfiles donde los documentos se encuentran homogéneamente distribuidos como en los que no. En este capítulo se describe el algoritmo para el Filtrado Adaptativo de Documentos propuesto en este trabajo. El mismo, pertenece al grupo de enfoques que afrontan el problema del filtrado adaptativo como una tarea de Categorización de Textos. Las dos características fundamentales de nuestra propuesta son: 1) Representar el perfil mediante un conjunto de documentos. 2) Utilizar un clasificador binario que utilice para realizar la clasificación sólo aquellos documentos que se encuentren cercanos al documento a clasificar Representación de los Documentos En el algoritmo se utiliza el tradicional modelo vectorial para representar a los documentos, donde los términos son los lemas de las palabras que aparecen en el documento 32

40 2.2. Representación de los Documentos una vez eliminadas las palabras vacías. En el epígrafe aparecen los esquemas de pesado de términos más importantes reportados en la literatura. Estos esquemas de pesado no tienen en cuenta cuán frecuente es el término entre los documentos de la clase Relevante y entre los documentos de la clase No Relevante. Este es un hecho que debe ser tenido en cuenta pues aporta una información adicional. Esto puede ser particularmente importante en la tarea de Filtrado Adaptativo de Documentos donde la información inicial para la construcción del perfil es muy escasa y todo tipo de información disponible debe ser aprovechada al máximo. En este trabajo, se propone un nuevo esquema para realizar el cálculo del peso de los términos en un documento. El esquema propuesto, para calcular el peso de un término en un documento, tiene en cuenta el número de ocurrencias del término en el documento y la frecuencia del mismo entre los documentos de las clases Relevante y No Relevante mediante la expresión: w (t i, d) = (1 + log (T F (t i, d))) df R (t i )+1 N R +1 df NR (t i )+1 N NR +1 (2.1) donde T F (t i, d) representa la frecuencia del término t i en el documento d (ver epígrafe 1.2.1), df R (t i ) y df NR (t i ) representan la cantidad de documentos relevantes y no relevantes respectivamente que contienen al menos una vez al término t i. N R y N NR representan el total de documentos relevantes y no relevantes respectivamente en el perfil. Este esquema de pesado está compuesto de dos componentes. La primera, igual a la utilizada en el pesado ltc, tiene que ver con la frecuencia del término en el documento. El objetivo de utilizar la función logarítmica es evitar que los términos que son muy frecuentes en documentos largos fueran a tomar un peso muy elevado dentro del documento. La segunda componente obtiene un mayor valor mientras más frecuente sea el término entre los documentos de la clase Relevante y sea poco frecuente entre los documentos de la clase No Relevante. Así, un término obtendrá un mayor peso si es muy frecuente entre los documentos de la clase Relevante y es muy poco frecuente entre los documentos de la clase No Relevante. Se realiza un suavizado sumando uno en todos los elementos de la fracción para evitar indefiniciones cuando un término no aparezca en ningún documento de la clase o alguna de las clases no tenga documentos. Este esquema de pesado tiene en cuenta tanto a los documentos de la clase Relevante como a los documentos de la clase No Relevante. El mismo debe ser actualizado cada vez que se adiciona un nuevo documento a una de las clases con el objetivo de obtener un pesado que se ajuste mejor al perfil. Esto reviste particular importancia si notamos que en las etapas iniciales se dispone de muy poca información para realizar el proceso de filtrado. En el algoritmo, todos los documentos, una vez calculado el peso de cada uno de los términos, son normalizados dividiendo cada componente por la norma euclidiana del vector. 33

41 2.3. Representación del Perfil 2.3. Representación del Perfil En este trabajo, se afronta el problema de la distribución irregular de los documentos representando el perfil por medio de un conjunto de documentos. De esta forma el algoritmo es capaz de aprender la distribución de los documentos en el perfil [47]. El propósito de representar el perfil mediante un conjunto de documentos es permitir al método tomar en cuenta la diversidad que existe entre los documentos del perfil. Representar el perfil por medio de un conjunto de muestras permite al clasificador disponer de un mayor volumen de información en el momento de procesar un nuevo documento. Este tipo de representación del perfil, unido al hecho de utilizar durante el proceso de clasificación sólo aquellas muestras que se encuentran cercanas al documento a ser procesado, permite al algoritmo poder manejar de forma adecuada la distribución irregular de los documentos en el perfil. Para garantizar que durante la clasificación sólo se tomen en cuenta las muestras cercanas al documento a ser analizado se utiliza un clasificador basado en vecindad Clasificador En el método propuesto se utiliza un clasificador basado en vecindad. Este tipo de algoritmos para clasificar un nuevo documento siguen tres pasos: 1) Construir la vecindad 2) Calcular el voto de cada clase 3) Aplicar la regla de decisión En el primer paso el algoritmo determina cuáles son las muestras del conjunto de entrenamiento que se considerarán para clasificar el nuevo documento. Luego, basado en las muestras seleccionadas en el paso anterior, cada clase emite un voto al documento que se desea clasificar. Por último, se aplica una regla de decisión para determinar a qué clase pertenece el nuevo documento (Relevante o No Relevante). En los siguientes subepígrafes se describen en detalles cada uno de estos pasos en el clasificador utilizado en el algoritmo de Filtrado Adaptativo propuesto Construcción de la Vecindad En nuestra propuesta se utiliza la vecindad αβ definida por Gil y Pons [48] en el Esta vecindad sólo tiene en cuenta los documentos que se encuentran en un área lo suficientemente cercana y pequeña al documento a ser clasificado d. A diferencia del conocido algoritmo k-nn, el número de vecinos que forman parte de la vecindad no es fijo y los documentos cuya semejanza con d es muy pequeña son descartados. La figura 2.1 muestra cómo se construye la vecindad. Esta vecindad tiene en cuenta a todos los documentos que se encuentran en una región esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β. 34

42 2.4. Clasificador Figura 2.1: Vecindad αβ. Durante el proceso de construcción de la vecindad todos aquellos documentos del conjunto de entrenamiento cuya semejanza con d sea inferior a β son descartados. Para garantizar que en la vecindad de d sólo estén aquellos documentos muy similares a él el radio de la región esférica se ajusta automáticamente a partir del vecino más similar a d (representado por el punto blanco en la figura 2.1). Este radio es igual a la suma entre el valor de la semejanza entre d y su vecino más cercano y el parámetro α. En la figura, sólo los documentos que se encuentren en la región sombreada formarán parte de la vecindad de d. En nuestra propuesta se utiliza la vecindad αβ, porque ésta se encuentra homogéneamente distribuida alrededor del nuevo documento, eliminando candidatos que no son lo suficientemente semejantes Cálculo del Voto El segundo paso de los clasificadores basados en vecindad consiste en asignar un voto al documento a clasificar por cada clase, el cual permite valorar de cierta forma cuán probable es que el documento pertenezca a la clase. El cálculo del voto se realiza teniendo en cuenta los documentos que forman la vecindad construida en el paso anterior. En el algoritmo, el voto de una clase se define como la suma de los valores de semejanza entre d y cada uno de los documentos de la clase que pertenecen a la vecindad. De esta forma, el voto puede ser expresado como: V (C) = d j N(C) sem (d, d j ) donde C representa a la clase (Relevante o No Relevante), N(C) es el conjunto de documentos de la clase C que pertenecen a la vecindad αβ del documento d y sem(d,d j ) es el valor de semejanza entre los documentos d y d j. De esta forma una clase obtendrá un mayor voto mientras mayor sea el valor de semejanza entre los documentos de la clase que pertenecen a la vecindad y d. 35

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES Raúl Palma G. y Guillermo Bustos R. Escuela de Ingeniería Industrial Universidad Católica de Valparaíso Casilla

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Índices de RI UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es un Índice? Es la segunda etapa para abordar el tema de la RI. Es un archivo que contiene

Más detalles

Procesos Críticos en el Desarrollo de Software

Procesos Críticos en el Desarrollo de Software Metodología Procesos Críticos en el Desarrollo de Software Pablo Straub AgileShift Imagine una organización de desarrollo de software que consistentemente cumple los compromisos con sus clientes. Imagine

Más detalles

LECCIÓN Nº 03 ANÁLISIS VERTICAL Y HORIZONTAL DE LOS ESTADOS FINANCIEROS

LECCIÓN Nº 03 ANÁLISIS VERTICAL Y HORIZONTAL DE LOS ESTADOS FINANCIEROS LECCIÓN Nº 03 ANÁLISIS VERTICAL Y HORIZONTAL DE LOS ESTADOS FINANCIEROS 3.1. El análisis vertical e información que proporciona El análisis vertical consiste en determinar la participación de cada una

Más detalles

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología La metodología para el desarrollo de software es un modo sistemático de realizar, gestionar y administrar un proyecto

Más detalles

MEDICION DEL TRABAJO

MEDICION DEL TRABAJO MEDICION DEL TRABAJO Habíamos dicho al comenzar el curso que habían 4 técnicas que permiten realizar una medición del trabajo 1 Técnicas Directas: - Estudio de tiempos con cronómetro - Muestreo del trabajo

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental El proceso documental El proceso o cadena documental es la razón fundamental de un centro

Más detalles

Metodología básica de gestión de proyectos. Octubre de 2003

Metodología básica de gestión de proyectos. Octubre de 2003 Metodología básica de gestión de proyectos Octubre de 2003 Dentro de la metodología utilizada en la gestión de proyectos el desarrollo de éstos se estructura en tres fases diferenciadas: Fase de Éjecución

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

SÍNTESIS Y PERSPECTIVAS

SÍNTESIS Y PERSPECTIVAS SÍNTESIS Y PERSPECTIVAS Los invitamos a observar, a identificar problemas, pero al mismo tiempo a buscar oportunidades de mejoras en sus empresas. REVISIÓN DE CONCEPTOS. Esta es la última clase del curso.

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI La segunda fase del NIPE corresponde con la adecuación de las intervenciones de enfermería del sistema de clasificación N.I.C. (Nursing Intervention

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Tesina. Considerada también un texto recepcional, la tesina es un informe científico breve y original con

Tesina. Considerada también un texto recepcional, la tesina es un informe científico breve y original con Tesina Definición Considerada también un texto recepcional, la tesina es un informe científico breve y original con menor grado de aportación de conocimientos específicos que la tesis, pero con exigencias

Más detalles

TEMA 2: Representación de la Información en las computadoras

TEMA 2: Representación de la Información en las computadoras TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario

Más detalles

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online Guías _SGO Gestione administradores, usuarios y grupos de su empresa Sistema de Gestión Online Índice General 1. Parámetros Generales... 4 1.1 Qué es?... 4 1.2 Consumo por Cuentas... 6 1.3 Días Feriados...

Más detalles

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10 ENCUESTA DE OPINIÓN DEL ALUMNADO SOBRE LA ACTUACIÓN DOCENTE DEL PROFESORADO UNIVERSIDAD DE SEVILLA Curso 2009-2010 ENCUESTA TELEFÓNICA Contenidos Introducción.... 4 El Cuestionario... 5 El muestreo...

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

4. Programación Paralela

4. Programación Paralela 4. Programación Paralela La necesidad que surge para resolver problemas que requieren tiempo elevado de cómputo origina lo que hoy se conoce como computación paralela. Mediante el uso concurrente de varios

Más detalles

CAPITULO III A. GENERALIDADES

CAPITULO III A. GENERALIDADES CAPITULO III INVESTIGACION DE CAMPO SOBRE EL DISEÑO DE UN SISTEMA AUTOMATIZADO DE CONTROL INVENTARIO Y EXPEDIENTES DE MENORES DE EDAD PARA EL CENTRO DE DESARROLLO INTEGRAL LA TIENDONA EN LA ZONA METROPOLITANA

Más detalles

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Metodología. del ajuste estacional. Tablero de Indicadores Económicos Metodología del ajuste estacional Tablero de Indicadores Económicos Metodología del ajuste estacional Componentes de una serie de tiempo Las series de tiempo están constituidas por varios componentes que,

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE MARZO 2007 Este documento contesta las preguntas más frecuentes que se plantean las organizaciones que quieren

Más detalles

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

Capítulo IV. Manejo de Problemas

Capítulo IV. Manejo de Problemas Manejo de Problemas Manejo de problemas Tabla de contenido 1.- En qué consiste el manejo de problemas?...57 1.1.- Ventajas...58 1.2.- Barreras...59 2.- Actividades...59 2.1.- Control de problemas...60

Más detalles

Redacción de Artículos Técnicos. UCR ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides

Redacción de Artículos Técnicos. UCR ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides UCR ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides Organización de un Artículo Técnico Título Resumen Palabras Claves Introducción Desarrollo Conclusiones Bibliografía

Más detalles

NOTAS TECNICAS Nº 5. Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional

NOTAS TECNICAS Nº 5. Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional MINISTERIO DE EDUCACION DIVISON DE PLANIFICACION Y PRESUPUESTO NOTAS TECNICAS Nº 5 Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional Departamento de Estudios y

Más detalles

Esther Sui-chu Ho Evelyn Yee-fun Man Facultad de Educación Instituto de Investigación Educativa de Hong Kong Universidad China de Hong Kong

Esther Sui-chu Ho Evelyn Yee-fun Man Facultad de Educación Instituto de Investigación Educativa de Hong Kong Universidad China de Hong Kong Resultados de los alumnos de escuelas cuya lengua de instrucción es el chino (CMI) y de escuelas en las que la lengua de instrucción es el inglés (EMI): Qué hemos aprendido del estudio PISA. Esther Sui-chu

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Gestión de la Configuración

Gestión de la Configuración Gestión de la ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ESTUDIO DE VIABILIDAD DEL SISTEMA... 2 ACTIVIDAD EVS-GC 1: DEFINICIÓN DE LOS REQUISITOS DE GESTIÓN DE CONFIGURACIÓN... 2 Tarea EVS-GC 1.1: Definición de

Más detalles

MANEJO DE QUEJAS Y RECLAMOS

MANEJO DE QUEJAS Y RECLAMOS MANEJO DE QUEJAS Y RECLAMOS Derechos reservados ICONTEC- 1 OBJETIVO GENERAL Proponer una metodología para la planeación, diseño, operación, mantenimiento y mejora de un proceso para el manejo de los reclamos

Más detalles

Versión final 8 de junio de 2009

Versión final 8 de junio de 2009 GRUPO DE EXPERTOS «PLATAFORMA PARA LA CONSERVACIÓN DE DATOS ELECTRÓNICOS PARA CON FINES DE INVESTIGACIÓN, DETECCIÓN Y ENJUICIAMIENTO DE DELITOS GRAVES» ESTABLECIDO POR LA DECISIÓN 2008/324/CE DE LA COMISIÓN

Más detalles

Mesa de Ayuda Interna

Mesa de Ayuda Interna Mesa de Ayuda Interna Documento de Construcción Mesa de Ayuda Interna 1 Tabla de Contenido Proceso De Mesa De Ayuda Interna... 2 Diagrama Del Proceso... 3 Modelo De Datos... 4 Entidades Del Sistema...

Más detalles

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión. TORMENTA DE IDEAS 1.- INTRODUCCIÓN Este documento sirve de guía para la realización de una Tormenta de Ideas, también llamado "Brainstorming o Lluvia de ideas, la herramienta por medio de la cual se puede

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA BizAgi Process Modeler TABLA DE CONTENIDO PROCESO DE MESA DE AYUDA INTERNA... 3 1. DIAGRAMA DEL PROCESO... 4 2. MODELO DE DATOS... 5 ENTIDADES DEL SISTEMA...

Más detalles

1. Construcción de Planes de Acción Sectoriales (PAS)

1. Construcción de Planes de Acción Sectoriales (PAS) 1. Construcción de Planes de Acción Sectoriales (PAS) La construcción de los PAS es la prioridad de trabajo de la ECDBC en el 2013. Los PAS estarán constituidos por diferentes medidas de mitigación (políticas,

Más detalles

METODOLOGÍA PARA VINCULAR LA EVALUACIÓN CON LOS OBJETIVOS EN UN CURSO DE PROGRAMACIÓN

METODOLOGÍA PARA VINCULAR LA EVALUACIÓN CON LOS OBJETIVOS EN UN CURSO DE PROGRAMACIÓN METODOLOGÍA PARA VINCULAR LA EVALUACIÓN CON LOS OBJETIVOS EN UN CURSO DE PROGRAMACIÓN Andrés Soto Villaverde Centro de Tecnologías de la Información, Universidad Autónoma del Carmen, México 1. INTRODUCCIÓN

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

TALLER BÁSICO DE EXPERIMENTOS CONTROLADOS ALEATORIOS

TALLER BÁSICO DE EXPERIMENTOS CONTROLADOS ALEATORIOS TALLER BÁSICO DE EXPERIMENTOS CONTROLADOS ALEATORIOS 1. INTRODUCCIÓN Y JUSTIFICACIÓN Este Taller Básico de Experimentos Controlados Aleatorios (ECA) está dirigido a profesionales de la salud interesados

Más detalles

Test de Idioma Francés. Manual del evaluador

Test de Idioma Francés. Manual del evaluador Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas

Más detalles

de la empresa Al finalizar la unidad, el alumno:

de la empresa Al finalizar la unidad, el alumno: de la empresa Al finalizar la unidad, el alumno: Identificará el concepto de rentabilidad. Identificará cómo afecta a una empresa la rentabilidad. Evaluará la rentabilidad de una empresa, mediante la aplicación

Más detalles

1 http://www.sencilloyrapido.com/

1 http://www.sencilloyrapido.com/ 1 Contenido Introducción 3 Que son las encuestas pagadas por internet?. 5 Como ganar dinero con las encuestas pagadas por internet. 7 Pueden las encuestas pagadas generarte un ingreso decente?.. 9 Conclusión.

Más detalles

Módulo 7: Los activos de Seguridad de la Información

Módulo 7: Los activos de Seguridad de la Información Módulo 7: Los activos de Seguridad de la Información Se explica en este tema cómo deben abordarse la elaboración de un inventario de activos que recoja los principales activos de información de la organización,

Más detalles

Activos Intangibles Costos de Sitios Web

Activos Intangibles Costos de Sitios Web SIC-32 Documentos publicados para acompañar a la Interpretación SIC-32 Activos Intangibles Costos de Sitios Web Esta versión incluye las modificaciones resultantes de las NIIF emitidas hasta el 31 de diciembre

Más detalles

- 0 - www.costaricanhotels.com

- 0 - www.costaricanhotels.com - 0 - - 1 - Contenido 1. Introducción... 2 2. Resumen Ejecutivo... 2 3. Objetivos del Estudio... 3 3.1. General... 3 3.2. Específicos... 3 4. Distribución de la Muestra... 3 5. Resultados Enero 2015...

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Informe final de evaluación del seguimiento de la implantación de títulos oficiales MÁSTER UNIVERSITARIO EN GESTIÓN SANITARIA

Informe final de evaluación del seguimiento de la implantación de títulos oficiales MÁSTER UNIVERSITARIO EN GESTIÓN SANITARIA Informe final de evaluación del seguimiento de la implantación de títulos oficiales 2014 MÁSTER UNIVERSITARIO EN GESTIÓN SANITARIA Facultad de Ciencias de la Salud y de la Educación UDIMA INFORMACIÓN PUBLICA

Más detalles

UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA

UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA COSTOS II Guía No. 1.- Conceptos Básicos OBJETIVO 1. Asimilar conceptos fundamentales de costos I. CONCEPTOS BASICOS DE COSTOS 1. CONTABILIDAD DE

Más detalles

Folleto Informativo. El Aprendizaje Combinado Lleva a una Capacitación Efectiva

Folleto Informativo. El Aprendizaje Combinado Lleva a una Capacitación Efectiva Folleto Informativo El Aprendizaje Combinado Lleva a una Capacitación Efectiva En el mundo actual de los negocios, las empresas exitosas buscan la manera de aumentar sus ventajas competitivas y a la vez

Más detalles

Observatorio Bancario

Observatorio Bancario México Observatorio Bancario 2 junio Fuentes de Financiamiento de las Empresas Encuesta Trimestral de Banco de México Fco. Javier Morales E. fj.morales@bbva.bancomer.com La Encuesta Trimestral de Fuentes

Más detalles

Movimiento a través de una. José San Martín

Movimiento a través de una. José San Martín Movimiento a través de una curva José San Martín 1. Introducción Una vez definida la curva sobre la cual queremos movernos, el siguiente paso es definir ese movimiento. Este movimiento se realiza mediante

Más detalles

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.

Más detalles

Encuesta económica del sector de servicios profesionales y empresariales. Cálculo de Errores de Muestreo.

Encuesta económica del sector de servicios profesionales y empresariales. Cálculo de Errores de Muestreo. Encuesta económica del sector de servicios profesionales y empresariales. Cálculo de Errores de Muestreo. 1 INDICE 1. Introducción...3 2. Breve descripción de la encuesta...3 2.1 Definición...3 2.2 Diseño

Más detalles

ANÁLISIS DE LOS RESULTADOS DE LAS EVALUACIONES REALIZADAS POR ACSUCYL EVALUACIÓN PREVIA DEL PROFESORADO CONTRATADO

ANÁLISIS DE LOS RESULTADOS DE LAS EVALUACIONES REALIZADAS POR ACSUCYL EVALUACIÓN PREVIA DEL PROFESORADO CONTRATADO ANÁLISIS DE LOS RESULTADOS DE LAS EVALUACIONES REALIZADAS POR ACSUCYL EVALUACIÓN PREVIA DEL PROFESORADO CONTRATADO Desde el año 23 ACSUCYL realiza evaluaciones previas a los procesos de selección de profesorado

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Capítulo 3 Marco Metodológico.

Capítulo 3 Marco Metodológico. Capítulo 3 Marco Metodológico. 3.0 METODOLOGÍA DE LA INVESTIGACIÓN 3.1 FORMULACIÓN DE HIPÓTESIS DE TRABAJO 3.1.1 Hipótesis General HG. La creación de un plan estratégico permite mejorar el uso de los servicios

Más detalles

Análisis de conversaciones

Análisis de conversaciones Análisis de conversaciones El entorno informativo de las noticias www.infoheaders.com versión 3.3 Por qué siempre que hablan de D, hablan de A? Noticias sobre D Noticias sobre B Queremos que sólo hablen

Más detalles

PLAN DE MEJORAS. Herramienta de trabajo. Agencia Nacional de Evaluación de la Calidad y Acreditación

PLAN DE MEJORAS. Herramienta de trabajo. Agencia Nacional de Evaluación de la Calidad y Acreditación PLAN DE MEJORAS Herramienta de trabajo Agencia Nacional de Evaluación de la Calidad y Acreditación Índice 1 Introducción...3 2 Pasos a seguir para la elaboración del plan de mejoras...5 2.1 Identificar

Más detalles

Curso Excel Básico - Intermedio

Curso Excel Básico - Intermedio Curso Excel Básico - Intermedio Clase 4 Relator: Miguel Rivera Adonis Introducción Base de Datos: Definición de Base de Datos Ordenar datos Formulario Filtros Trabajar con Sub-Totales Validación de Datos

Más detalles

1.2 Alcance. 1.3 Definición del problema

1.2 Alcance. 1.3 Definición del problema 1. INTRODUCCIÓN El avance de Internet y las comunicaciones de los últimos años ha provocado un interés creciente por el desarrollo de propuestas metodológicas que ofrezcan un marco de referencia adecuado

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

Herramientas para el Comprador de una Casa. 10 Pasos Para Elegir y Comprar su Casa

Herramientas para el Comprador de una Casa. 10 Pasos Para Elegir y Comprar su Casa Herramientas para el Comprador de una Casa 10 Pasos Para Elegir y Comprar su Casa Usted Quiere Comprar una Casa El comprar una casa es una decisión muy grande y hay mucho que aprender. Pero si ha decidido

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE) QUÉ SON CONCEPTOS PARAMÉTRICOS? Los conceptos paramétricos de Presto permiten definir de una sola vez una colección de conceptos similares a partir de los cuales se generan variantes o conceptos derivados

Más detalles

Ampliación de Estructuras de Datos

Ampliación de Estructuras de Datos Ampliación de Estructuras de Datos Amalia Duch Barcelona, marzo de 2007 Índice 1. Diccionarios implementados con árboles binarios de búsqueda 1 2. TAD Cola de Prioridad 4 3. Heapsort 8 1. Diccionarios

Más detalles

1.4.- D E S I G U A L D A D E S

1.4.- D E S I G U A L D A D E S 1.4.- D E S I G U A L D A D E S OBJETIVO: Que el alumno conozca y maneje las reglas empleadas en la resolución de desigualdades y las use para determinar el conjunto solución de una desigualdad dada y

Más detalles

El Futuro de la Computación en la Industria de Generación Eléctrica

El Futuro de la Computación en la Industria de Generación Eléctrica El Futuro de la Computación en la Industria de Generación Eléctrica Retos a los que se enfrenta la industria de generación La industria de generación eléctrica se enfrenta a dos retos muy significativos

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler Bizagi Process Modeler Copyright 2011 - Bizagi Tabla de Contenido CRM- Gestión de Oportunidades de Venta... 4 Descripción... 4 Principales Factores en la Construcción del Proceso... 5 Modelo de Datos...

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

Capitulo V Administración de memoria

Capitulo V Administración de memoria Capitulo V Administración de memoria Introducción. Una de las tareas más importantes y complejas de un sistema operativo es la gestión de memoria. La gestión de memoria implica tratar la memoria principal

Más detalles

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores Martha Alicia Alles Es contadora pública nacional, doctora por la Universidad de Buenos Aires en la especialidad

Más detalles

El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción.

El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción. IX. ANALISIS DE LOS RESULTADOS El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción. En relación a la edad de las enfermeras y enfermeros del hospital encontramos

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Apuntes Recuperación ante Fallas - Logging

Apuntes Recuperación ante Fallas - Logging Lic. Fernando Asteasuain -Bases de Datos 2008 - Dpto. Computación -FCEyN-UBA 1 Apuntes Recuperación ante Fallas - Logging Nota: El siguiente apunte constituye sólo un apoyo para las clases prácticas del

Más detalles

Capitulo 3: Metodología de Investigación.

Capitulo 3: Metodología de Investigación. Capitulo 3: Metodología de Investigación. 3.1 Introducción. Con el propósito de describir el sector económico en el cual se pretende incursionar y ayude para una correcta realización del plan de negocios

Más detalles

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS Administración Nacional de Universidad de la República Educación Pública Facultad de Ingenieria CF Res..0.07 Consejo Directivo Central Consejo Directivo Central Res..05.07 Res. 17.0.07 TECNÓLOGO EN INFORMÁTICA

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

SISTEMAS Y MANUALES DE LA CALIDAD

SISTEMAS Y MANUALES DE LA CALIDAD SISTEMAS Y MANUALES DE LA CALIDAD NORMATIVAS SOBRE SISTEMAS DE CALIDAD Introducción La experiencia de algunos sectores industriales que por las características particulares de sus productos tenían necesidad

Más detalles

Más Clientes Más Rápido: Marketing Online bien enfocado

Más Clientes Más Rápido: Marketing Online bien enfocado Más Clientes Más Rápido: Marketing Online bien enfocado A continuación describo una propuesta comercial que estimo le interesará ya que tiene el potencial de incrementar su negocio en un período relativamente

Más detalles

Informe final de evaluación del seguimiento de la implantación de títulos oficiales

Informe final de evaluación del seguimiento de la implantación de títulos oficiales Informe final de evaluación del seguimiento de la implantación de títulos oficiales 2013 MÁSTER UNIVERSITARIO EN TECNOLOGÍA PARA EL DESARROLLO HUMANO Y LA Escuela Técnica Superior de Ingenieros Agrónomos

Más detalles

CAPÍTULO I FORMULACIÓN DEL PROBLEMA

CAPÍTULO I FORMULACIÓN DEL PROBLEMA CAPÍTULO I FORMULACIÓN DEL PROBLEMA 13 Formulación del Problema 1.1. Titulo descriptivo del proyecto: Diseño de un centro de cómputo adecuado a personas con capacidades especiales de audición y lenguaje

Más detalles

ARTÍCULO: Validación de un método ágil para el análisis de riesgos de la información digital. AUTOR: Ing. Elvin Suarez Sekimoto

ARTÍCULO: Validación de un método ágil para el análisis de riesgos de la información digital. AUTOR: Ing. Elvin Suarez Sekimoto ARTÍCULO: Validación de un método ágil para el análisis de riesgos de la información digital AUTOR: Ing. Elvin Suarez Sekimoto Email: peluka_chino@hotmail.com U.A.P.-I.T.P.R. CARRERA CONTABILIDAD PUERTO

Más detalles

Encuesta de. Ocupación Hotelera

Encuesta de. Ocupación Hotelera Encuesta de Ocupación Hotelera - 1-1. Contenido 1. Contenido... 1 2. Introducción... 2 3. Resumen Ejecutivo... 2 4. Objetivos del Estudio... 3 4.1. General... 3 4.2. Específicos... 3 5. Distribución de

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles