Análisis Comparativo de las Medidas de Semejanza Aplicadas al Contenido de Documentos Web

Transcripción

1 Análisis Comparativo de las Medidas de Semejanza Aplicadas al Contenido de Documentos Web Pavel A. Álvarez Carrillo, Inés F. Vega López, Eduardo Fernández González Facultad de Informática, Facultad de Ingeniería Universidad Autónoma de Sinaloa {pavel, ifvega, RESUMEN El proceso de clustering de documentos es un problema que ha atraído mucho interés en áreas de investigación como la minería de datos y la recolección de información. En el caso de documentos Web, se han utilizado enfoques de análisis de la estructura y contenido para establecer su relevancia con respecto a un tema o tópico en particular. En este trabajo hemos evaluado y comparado las medidas Jaccard de palabras, Coseno y la distancia Euclidiana para establecer la semejanza entre documentos Web aplicando el enfoque de análisis por contenido. En nuestros experimentos utilizamos estas medidas para realizar clustering de documentos con el algoritmo k-means. Los resultados obtenidos fueron evaluados tomando en cuenta la entropía de los clusters. Con estos resultados hemos encontrado la medida que arroja resultados constantes y de mejor calidad en el clustering de documentos Web. Palabras clave: clustering, medidas de semejanza, documentos Web, entropía 1.: Introducción La World Wide Web, llamada también la Web, es una vasta colección de documentos que se encuentran referenciados entre sí. La Web es un recurso de información distribuida, dinámica y de rápido crecimiento [1]. La información en la Web se encuentra dispersa y es heterogénea. Esto representa dificultades para las tecnologías de recolección y análisis de información [2]. Estas tecnologías se enfrentan a la problemática de localizar información en la Web. Esta problemática se presenta por dos variantes. Por un lado tenemos el crecimiento exponencial de la Web, del otro lado la heterogeneidad de la informacón. El primero dificulta la selección de páginas importantes para el usuario, debido a que los resultados de una búsqueda pueden arrojar una gran cantidad de páginas al usuario. En el segundo, son tantos los temas que se pueden encontrar en los documentos de la Web que se dificulta la localización de información relevante para un usuario, aún con la ayuda de programas que automatizan el proceso de búsqueda. Para tratar el problema de recolección de información de la Web, se desarrollaron programas que automatizan el proceso de búsqueda. A estos programas se les llamó spiders, conocidos también como crawlers y robots. Wanderer fue el primer spider desarrollado para explorar y analizar el crecimiento de la Web [1]. El desarrollo de spiders inicia en 1993, cuando se hace evidente que el Este trabajo fue parcialmente financiado por la Universidad Autónoma de Sinaloa a través de su Programa de Fomento y Apoyo a Proyectos de Investigación. También fue financiado en parte por la Secretaría de Educación Pública a través del Programa de Mejoramiento del Profesorado

2 constante crecimiento de la Web haría difícil la tarea de organizar manualmente su contenido en una base de datos. De lo anteriormente descrito, podemos concluir que resulta indispensable desarrollar un mecanismo que permita de forma automatizada localizar la información y almacenarla en una base de datos. Para llevar esto a cabo, es necesario considerar la mejor forma de almacenar la información para realizar búsquedas eficientes. El problema al que nos enfrentamos para desarrollar esto, es el de cómo diseñar los métodos de búsqueda para localizar exactamente o aproximadamente la información almacenda. Para resolver esto es necesario preever de que forma se indexará la información y cómo mediremos la aproximación entre un elemento de búsqueda contra un elementos almacenado. En nuestro problema, pretendemos comparar los elementos de un conjunto de datos eficientemente, por esta razón la ejemplificación descrita se basa en la aproximación entre documentos del mismo conjunto de datos. Siguiendo la idea anterior, entonces es necesario establecer una representación de acuerdo al tipo de datos que estamos tratando, los documentos. Estos deben ser expresados mediante una representación que permita la comparación entre ellos. Para este tipo de problemas Faloutsos propuso Indexado Multimedia Genérico [3] por su traducción del Inglés GEneric Multimedia INdexIng (GE- MINI) como un nuevo paradigma en el indexado de objetos multimedia. La idea consiste en extraer las características de cada elemento para representarlo de tal forma que permita realizar busquedas eficientes al compararlo con otro elemento de búsqueda con la misma representación. El proceso de seleccionar las características del elemento se le conoce como extracción de las características. El beneficio de usar k características en cada elemento permite mapear cada elemento en un punto en el espacio k-dimensional. La representación del documento en el espacio k-dimensional resulta en un vector de k términos de interés equivalente a un diccionario de términos, que es construido por las palabras seleccionadas como características del documento. El objetivo de la representación de los documentos es el de poder realizar comparaciones entre ellos para medir su semejanza, de esta manera encontrar una medida que mejor se aplique a la representación de documentos y que encuentre la semejanza entre documentos eficientemente. 1.1.: Spiders Anteriormente, comentabamos los sistemas automatizados para la búsqueda de información. En lo siguiente haremos una descripción más detallada de estos programas. Sabemos que hay una variedad de nombres para describir a los spiders, nosotros usaremos el nombre de spider por ser el término más común. El spider es solo parte de un sistema completo de búsqueda y consulta de información conocido como máquina o motor de búsqueda. El spider, una base de datos y una interfaz de consulta constituyen el motor de búsqueda. El spider se encarga de recopilar e indexar la información de las páginas Web en una base de datos (BD). Un sistema de base de datos administra y organiza la información almacenada. Por último la interfaz de consulta interactúa con el usuario para que él o ella puedan realizar búsquedas de información en la BD. Normalmente un usuario utiliza palabras claves para indicar a la máquina de búsqueda cuales son los documentos que se desean consultar. En la Figura 1 se muestra un esquema de un motor de búsqueda, el spider continuamente explora la Web y a su vez recopila e indexa la ubicación y la información de las páginas Web que recopila. Por otro lado se tiene la interfaz de consulta, el usuario interactua con esta interfaz para obtener información que se encuentra en la BD. Los resultados arrojados por la interfaz de consulta corresponden a documentos Web registrados en la BD, estos a su vez contienen las palabras claves de búsqueda indicadas por el usuario. 2

3 WWW Usuario Explora Consulta Resultado Spider Almacena BD Solicitud de consulta Respuesta de solicitud Interfaz de Consulta Figura 1. Esquema de un motor de búsqueda El estudio de los spiders tiene principalmente dos variantes, spiders de propósito general y spiders enfocados. La primera variante de spiders recopila información de manera ciega, es decir sin considerar el contenido de los documentos Web. La segunda variante, por otro lado busca información cuyo contenido coincida con algún tema especificado previamente. Al mismo tiempo el desarrollo de los spiders se ha realizado aplicando dos enfoques, de análisis de la estructura Web y análisis del contenido Web [4]. La importancia de recolectar información relevante en la Web ha atraído el interés por el desarrollo de nuevas técnicas de búsqueda y clasificación de documentos Web. Algunas compañías como Google han incorporado heurísticas a partir de resultados de investigaciones científicas en esta área [5]. Desde que se ha utilizado la Web como un recurso de información, se han propuesto y aplicado diferentes algoritmos y heurísticas para mejorar el proceso de recolección de información. Gracias a esto, los usuarios de la Web podemos buscar información de cualquier área con un mínimo esfuerzo, pero no necesariamente con el menor tiempo debido a la heterogeneidad de la información. Por esa razón es necesario utilizar enfoques nuevos con algoritmos mejorados para obtener información que sea relevante para el usuario. La información de la que se tiene conocimiento hasta el momento, indica que muy poca atención se ha prestado a la combinación de los distintos enfoques de análisis de documentos Web. Este documento describe nuestros esfuerzos de investigación para modelar y analizar los documentos Web en busca de la mejor medida de semejanza. Los resultados del análisis de las medidas marcan una pauta a seguir en cuanto a la comparación de documentos se refiere. El resto de este artículo se organiza de la siguiente forma. En la sección 2, se revisa el trabajo previo de este tema. La sección 3 describe los experimentos y sus datos de prueba. En la sección 4 se describen los resultados obtenidos en el experimento. Por último la sección 5 concluye el documento y la dirección de discusión para trabajo futuro. 2.: Trabajo Previo Un documento contiene una cantidad finita de palabras. Por lo tanto, este documento puede ser representado como un punto en un vector de espacio t-dimensional. Este es un enfoque de modelado de documentos al ser representados como vectores en un espacio multidimensional, llamado Modelo de Espacio Vectorial (MEV) [6]. Cada dimensión en este espacio representa a un palabra en el documento, llamado también término. El peso de cada término es calculado de acuerdo a su frecuencia relativa en el documento. El peso indica que tan importante es la palabra en el documento. Con respecto a la dimensionalidad del vector, se extiende a t términos, dónde t es el número de términos que representa al documento. En este caso un documento D i se representa por un vector de dimensionalidad t, expresado de la siguiente forma. 3

4 D i = (d i1, d i2,..., d it ), donde d ij representa el peso del j ésimo término en el documento D i. Siguiendo esta idea, es posible usar métodos de acceso espaciales para la manipulación de documentos, para realizar búsquedas eficientes o la medición de semejanza entre documentos. En este caso se busca medir la semejanza de documentos por su contenido. Al modelar los documentos como vectores, podemos considerar que dos documentos que contienen frecuencias de términos similares son semejantes entre sí. Para medir la semejanza de documentos por su contenido se han utilizado las medidas de jaccard de palabras [7], coseno [8, 9, 10] y distancia Euclidiana [11, 12]. Esto puede servir de antecedente para futuros trabajos. 2.1.: Clustering de Documentos En el estudio de la información en la Web, se ha hecho uso de técnicas de minería de datos para agrupar documentos que comparten ciertas caracterísitcas entre sí. A este agrupación se le conoce como clustering de documentos. El clustering de documentos utiliza medidas de semejanza para establecer una similitud entre los documentos. Estas medidas se adaptan a la representación de los documentos en el espacio multidimensional. Un cluster es un grupo de elementos o registros de un conjunto de datos semejantes entre si. El proceso de clustering se refiere al agrupamiento de registros, observaciones o casos de clases de objetos semejantes. En este proceso se busca que los elementos de un cluster sean similares entre sí y diferentes a los elementos de otro cluster. 2.2.: Análisis de la Estructura y Contendido Web Para la búsqueda de información en la Web se han aplicado principalmente dos enfoques, el análisis de la estructura y el análisis de contenido [4, 13]. La estructura de los documentos Web puede ser usada como un criterio de evaluación de semejanza. Algunos estudios han usado la estructura de documentos Web para inferir información importante en los documentos [14, 15]. Un ejemplo de esto es el de utilizar el texto soporte para predecir el contenido de una página [14]. El texto soporte es la palabra o frase de un hipervínculo a una página. El texto soporte es un recurso, debido a que puede proveer información importante de una página porque representa la forma de como las personas describen esa página ligada. La estructura de los documentos también es utilizada para saber que tan citado es un documento, considerando que un documento que es muy citado es más importante que uno que no es tan citado. Tanto en el análisis de la estructura como en el análisis de contenido se estima la semejanza entre dos documentos o de un documento con una temática o tópico específico. En el caso de análisis por contenido, para evaluar la semejanza de documentos, normalente se modela a los documentos dentro del espacio vectorial y analizan el contenido de la página. De esta manera se pueden realizar comparaciones entre documentos o comparaciones de las palabras claves del documento con palabras claves de un tópico previamente definido. Tradicionalmente se había utilizado de forma independiente enfoques de análisis de la estructura y contenido de documentos Web para establecer relevancia de documentos. Fue hasta 1998, cuando Chen y sus colaboradores que propusieron un nuevo método para combinar ambos enfoques [7]. Esto puede idicar en recoleción de información una pauta a seguir, como una forma de obtener más criterios de evaluación para las páginas Web. 4

5 3.: Evaluación de las medidas de semejanza Para hacer una evaluación de las diversas medidas de semejanza, decidimos utilizar el algoritmo k-means para crear clusters de documentos. Así podemos evaluar la calidad de la medida de semejanza al medir que tan homogéneos son los grupos generados. En particular seleccionamos k-means por ser una técnica eficiente y muy utilizada como algoritmo de clustering 1. De esta manera obtenemos un cluster de documentos agrupados por la semejanza de contenido que hay entre ellos. Una vez obtenido el cluster determinamos su calidad aplicando la medida de entropía. Con el cálculo de la entropía evaluamos los resultados obtenidos de las medidas de semejanza en el proceso de clustering para determinar que medida obtiene resultados más confiables y constantes. En cada cluster, la distribución de clase de los datos se calcula de la siguiente forma. Para cada cluster calculamos p i, la probabilidad de que un miembro del cluster pertenece a la clase i. A continuación usamos la distribución de esta clase. La entropía de cada cluster es calculada aplicando la siguiente fórmula. m E j = p i log 2 (p i ) i=1 La entropía total para el conjunto de clusters se calcula como la suma de las entropías de cada cluster, como se expresa a continuación. E T = m j=1 n j E j N, donde n j es el tamaño del cluster j, m es el número de clusters y N es el total de elementos. En nuestro experimento evaluamos los resultados de k-means utilizando diferentes medidas de semejanza; Jaccard de Palabras, Coseno y Distancia Euclidiana, utilizadas para establecer semejanza por contenido en documentos Web. Una descripción más detallada de estas medidas de semejanza para documentos se presenta a continuación Medidas de Semejanza para Documentos Dados dos documentos A y B, el documento A es representado por el conjunto X = {x 1, x 2,, x t }, el documento B es representado por el conjunto Y = {y 1, y 2,, y t }, donde t es la cardinalidad de los conjuntos X y Y. Considerando esta representación, a continuación se describen las siguientes medidas para establecer la semejanza entre los documentos A y B. a) Jaccard de palabras.- Es una función estadística que compara los términos que hay en común entre dos documentos. Si dos documentos al ser representados en el espacio vectorial en un vector t-dimensional, presentan suficientes términos en común, la representación de estos documentos será semejante, por lo tanto los documentos también lo serán. Al comparar dos documentos con Jaccard de palabras se obtiene un número entre cero y uno. Un uno como valor resultante indica que los documentos comparados son completamente semejantes y un valor resultante cero indica que son completamente diferentes. La fórmula de jaccard es representada de la siguiente forma. 1 Si bien es cierto que existen otros algoritmos de clustering, creemos que la selección de tal algoritmo es ortogonal al problema de la evaluación de medida de semejanza. Sin embargo, proponemos que esta hipótesis sea evaluada en un trabajo futuro. 5

6 f(a, B) = tj=1 x j y j tj=1 x 2 j + t j=1 y 2 j t j=1 x j y j, b) Coseno.- Es una función trigonométrica utilizada para medir el ángulo entre dos vectores en el espacio vectorial. El ángulo entre dos vectores indica que tan cercano esta uno del otro en términos de dimensionalidad. El resultado del cálculo de coseno entre dos vectores varia entre cero y uno, donde cero indica la mayor diferencia entre los vectores y uno indica que no hay diferencia entre ellos en el espacio dimensional. A continuación se presenta la fórmula de coseno. f(a, B) = tj=1 x j y j tj=1 x 2 j t j=1 y 2 j, c) Distancia Euclidiana.- Es una función utilizada para medir la distancia entre dos puntos en el espacio multidimensional. La distancia Euclidiana mide la distancia en línea recta entre dos puntos. La distancia Euclidiana mínima entre dos puntos es cero, entre más se aleje de cero la distancia Euclidiana de dos puntos más diferente serán los vectores y por lo tanto los documentos que estos representan. La distancia Euclidiana para dos vectores de t-dimensionalidad se calcula de la siguiente forma. f(a, B) = t (x j y j ) Bases de Datos de Prueba Nuestros datos de prueba fueron obtenidos de diferentes recursos, recolectados para áreas como; recolección de información, búsqueda en la Web y minería de datos. Los conjuntos de datos pertenecen a fuentes de datos de documentos Web reales. a) Syskill and Webert Web Page Rating (SW): Es una base datos que contiene 341 documentos en código HTML organizadas en cuatro categorías; Bands, Biomedical, Goats y Sheep [16]. b) 7 Sectors: Es un conjunto de datos de 4,582 documentos Web clasificadas en siete categorías. Los grupos son basic materials, energy, financial, healthcare, technology, transportation y utilities [17]. c) WebKB Project (WebKB): Es un conjunto de páginas Web recopiladas en 1997 del departamento de ciencias computacionales de varias universidades por el proyecto World Wide Web Knowledge Base. Aquí se tienen 8,282 documentos clasificados manualmente en siete categorías: course, department, faculty, project, staff, student y others. Nosotros utilizamos las primeras seis categorías que contienen en total 4,518 documentos [17]. d) Co-training Experiment for COLT 98: es un conjunto de páginas Web recopiladas del departamento de ciencias computacionales de varias universidades por el proyecto WebKB. Co-training Experiment contiene 1,051 documentos clasificadas en dos categorías: Course y Non-Course [17]. e) Articulos Científicos (ArtC): Es un conjunto de documentos Web obtenidos en formato pdf convertido a texto para su tratamiento. Se recolectaron 271 documentos de Internet y se clasificaron manualmente en cuatro categorías: audio processing, image processing, times series y websearching. j=1 6

7 3.3. Preparación de los Datos Cada conjunto de datos fue modelado dentro del espacio vectorial. Con esta modelación se llevó a cabo la comparación de documentos en el proceso de clustering. Para cada conjunto de datos, primero construimos una bolsa de palabras de cada categoría perteneciente a cada conjunto. Esto se realizó recolectando las palabras diferentes existentes de cada categoría. Posteriormente se calculó la Frecuencia del Documento (por sus siglas en inglés, DF) con cada palabra diferente. Es decir; se contó el número de documentos en el grupo que contenían la palabra. Una vez obtenida la DF para cada grupo se llevó a cabo la selección de palabras para representar a los documentos del conjunto de datos. Se usó la unión de las palabras para cada experimento, la bolsa de palabras corresponde a la unión de las primeas k palabras más importantes de cada categoría en la BD. Se considera que una palabra es importante cuando representa a un tópico específico. En este caso en particular seleccionamos las 10 primeras palabras de cada categoría con mayor DF en la BD. Para la construcción de una segunda bolsa de palabras se seleccionaron las 20 primeras palabras de cada categoría con mayor DF en la BD. Así sucesivamente se fue incrementando la selección de palabras por cada categoría hasta completar 10 bolsas de palabras. Como tercer paso se obtuvo la frecuencia relativa de cada palabra en cada documento obteniendo así un vector de frecuencia de términos para representar cada documento. Posteriormente guardabamos el registro del vector de cada documento. 4.: Evaluación Empírica Para cada conjunto de datos aplicamos k-means, donde k corresponde con el número de categorías en los documentos. Continuando con el proceso de clustering, se aplicó el algoritmo k-means utilizando cada una de las medidas de semejanza antes mencionadas con cada bolsa de palabras creada. Así obtuvimos tres resultados de agrupación para cada bolsa de palabras creada. Después comparamos los resultados de cada medida de semejanza en cada bolsa de palabras. Para poder realizar una comparación de resultados de clustering aplicamos la medida entropía para determinar la calidad de cada cluster. Los resultados obtenidos se describen a continuación. Como una primera prueba se utilizó el conjunto de datos ArtC para este conjunto de datos se contruyeron 10 bolsas de palabras utilizando 10, 20, 30,..., 100 palabras por categoría. Las bolsas de palabras fueron aplicadas en 10 procesos de clustering para cada medida de semejanza. En total se realizaron 30 experimentos con este conjunto de datos. Los resultados que obtuvimos fue que la medida coseno mostró mejores resultados en términos de entropía en todos menos un caso. Encontramos que la entropía de cluster, en promedio, era mejor cuando se utilizaba la medida coseno, como se observa en la Tabla 1. Sabemos que el cálculo de entropía se refiere a la calidad de agrupamiento de un conjunto de datos. Un valor cercano a cero es un índice de calidad alto debido a que los elementos internos de cada cluster son más homogéneos entre sí y más heterogéneos que los elementos de los otros clusters. Por otro lado un valor más lejano a cero representa un índice de calidad bajo. En la Figura 2 se muestran los resultados de entropía de cada medida para cada bolsa de palabras en el conjunto de datos ArtC. Los resultados de los otros conjuntos de datos obtuvieron un comportamiento similar a los resultados de ArtC. También podemos observar que la distancia Euclidiana obtuvo entropías mayores a las otras medidas. Esto indica que la medida de distancia Euclidiana obtiene agrupamientos de menor calidad con respecto a las otras medidas. El resultado de las medidas puede variar dependiendo del tipo de datos que estemos manejando. En datos donde los elementos 7

8 Tabla 1. Resultados promedio de la calidad de los clusters en 60 pruebas por conjunto de datos, obtenidos con las métricas de semejanza y evaluados por su entropía Métrica BD Jaccard Coseno Euclidiana ArtC SW Sectors webkb Co-training entre un cluster y otro son semejantes, se presenta cierto ruido en los resultados. Esto se debe a que algunos elementos son asignados a categorías que no pertenecen. Por ejemplo, en el caso donde se utilizaron conjunto de datos donde los elementos de diferentes grupos son semejantes entre sí se obtuvieron resultados por arriba del 0.5, como ocurrió en las pruebas con el conjunto 7 Sectors. Esto indica que los clusters en el conjunto de 7 Sectors tienen semejanza entre sí. En la Tabla 1 se muestran los promedios de entropía obtenidos por cada medida de semejanza en cada conjunto de datos. Podemos observar que la medida coseno obtuvo mejores resultados que las otras medidas de semejanza. En un todos menos un caso coseno obtuvo valores de entropía menores que las otras medidas. Podemos observar que en un solo conjunto de datos jaccard de palabras fue mejor que coseno. Por otro lado la distancia Euclidiana ampliamente usada en técnicas clustering, no obtuvo mejores resultados que las otras medias de semejanza. Sabemos que el cálculo de entropía se refiere a la calidad de agrupamiento de un conjunto de datos. Un valor cercano a cero es un índice de calidad alto. Debido a que los elementos internos de cada cluster son más homogéneos entre sí y más heterogéneos que los elementos de los otros clusters. Por otro lado un valor más lejano a cero representa un índice de calidad bajo. En la Figura 2 se muestran los resultados de entropía de cada medida para cada bolsa de palabras en el conjunto de datos ArtC. Los resultados de los otros conjuntos de datos obtuvieron un comportamiento similar a los resultados de ArtC. También podemos observar que la distancia Euclidiana obtuvo entropías mayores a las otras medidas. Esto indica que la medida de distancia Euclidiana obtiene agrupamientos de menor calidad con respecto a las otras medidas. El resultado de las medidas puede variar dependiendo del tipo de datos que estemos manejando. En datos donde los elementos entre un cluster y otro son semejantes, se presenta cierto ruido en los resultados. Esto se debe a que algunos elementos son asignados a categorías que no pertenecen. Por ejemplo, en el caso donde se utilizaron conjunto de datos donde los elementos de diferentes grupos son semejantes entre sí se obtuvieron resultados por arriba del 0.5, como ocurrió en las pruebas con el conjunto 7 Sectors. Esto indica que los clusters en el conjunto de 7 Sectors tienen semejanza entre sí. En la Tabla 1 se muestran los promedios de entropía obtenidos por cada medida de semejanza en cada conjunto de datos. Podemos observar que la medida coseno obtuvo mejores resultados que las otras medidas de semejanza. En un todos menos un caso coseno obtuvo valores de entropía menores que las otras medidas. Podemos observar que en un solo conjunto de datos jaccard de palabras fue mejor que coseno. Por otro lado la distancia Euclidiana ampliamente usada en técnicas clustering, no obtuvo mejores resultados que las otras medias de semejanza. 8

9 1.2 1 Artículos Científicos Jaccard de Palabras Coseno Distancia Euclidiana 0.8 Entropía Cantidad de palabras seleccionadas por categoría para construir la bolsa de palabras Figura 2. Artículos Científicos. Resultados en términos de entropía obtenidos por las medidas de semejanza en 10 bolsas de palabras. 5.: Conclusiones y Trabajo Futuro La distancia Euclidiana es una medida ampliamente usada en técnicas de clustering. En este estudio, los resultados que distancia Euclidiana obtuvo con el algoritmo de clustering k-means, indican que es la medida menos conveniente para medir semejanza entre documentos, en comparación con jaccard de palabras y coseno. Tal vez sea necesario comparar estos resultados con otra técnica de clustering para confirmar esta afirmación. Observando los resultados de la técnica de clustering k-means, por un lado, coseno resultó ser la medida que obtuvo mejores resultados como medida de semejanza aplicada en el contenido de documentos Web. Por otro lado jaccard de palabras no resultó ser tan buena como coseno, pero se demostró que obtiene mejores resultados que la distancia Euclidiana. Los resultados de estos experimentos han marcado una pauta en la comparación por contenido de documentos Web en el proceso de clustering, debido a que en trabajos anteriores utilizaban indistintivamente una medida y otra como medidas de semejanza para clustering de documentos. Gracias a este experimento sabemos que coseno es la mejor medida para comparar semejanza por contenido entre documentos Web, cuando se usa K-means. El objetivo principal de este estudio era encontrar la medida que mejor se adapte y obtenga mejores resultados, para la comparación de contenido de documentos Web en el procesos de clustering. Los experimentos realizados en este estudio utilizaron k-means como algoritmo de clustering por su eficiencia y amplia aplicación. Creemos que los resultados obtenidos en este experimento probablemente sean similares si utilizamos otra técnica de clustering pero queda abierta su investigación para su futuro estudio. Referencias [1] Gray M. Internet Growth and Statistics: Credits and background, Disponible en: [citado 13 de marzo 1993] [2] Steve L. and Lee G. Searching the World Wide Web, Science, 280(5360), ,

10 [3] Faloutsos C. Searching Multimedia Databases By Content. Kluwee Academic Publishers, Boston, MA, 1996 [4] Chau M. and Chen H. Comparison of Three Vertical Search Spiders, IEEE Computer, 36(5) [5] Brin S. and Page L. The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems, 30(1 7): , [6] Salton G., Wong A., and Yang C. S. A vector space model for automatic indexing. Communications of the ACM 18, [7] Chen H., Chung Y., and Ramsey M. and Yang C. C. A smart itsy bitsy spider for the web, Journal of the American Society for Information Science, Special Issue on AI Techiniques for Emerging Information Systems Aplications, 49(7) [8] Steinbach M. and Karypis G. and Kumar V. A comparison of document clustering techniques. In Knowledge Discovery and Data Mining Workshop on Text Mining, [9] Joachims T. Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization Proceedings of the International Conference on Machine Learning Morgan Kaufmann Publishers Inc. San Francisco, CA, USA [10] Menczer F. Combining link and content analysis to estimate semantic similarity. Proceedings of the International World Wide Web conference on Alt. Track Papers & Posters ACM Press. New York, NY, USA [11] Chi Z. and Yan H. Feature evaluation and selection based on an entropy measurement with data clustering, Optical Engineering, Vol. 34, No. 12, , 1995 [12] Dhillon I. S. and Modha D. S. A Data Clustering Algorithm on Distributed Memory Multiprocessors, In Large-Scale Parallel Data Mining, Lecture Notes in Artificial Intelligence, vol. 1759, Springer-Verlag, , March [13] Chau M. and Chen H. Personalized and Focused Web Spider, Department of Management Information System. The University of Arizona [14] Amitay E. Using Common Hipertext Links to Identify the Best Phrasal Descriprion of Target Web Documents. In Proceedings of the ACM-SIGIR Post-Conference Workshop on Hypertext Information Retrieval for the Web. Melbourne, Australia, [15] Grangier D. and Bengio S. Inferring document similarity from hyperlinks, Proceedings of the ACM international conference on Information and knowledge management, Bremen, Germany, , [16] Hettich S. and Bay S. D. The UCI KDD Archive [ Irvine, CA: University of California, Department of Information and Computer Science, [17] CMU World Wide Knowledge Base (WebKB), webkb/. 10