DIRECTORIO DE RECUPERACIÓN Y CLASIFICACIÓN DE PÁGINAS WEB

Documentos relacionados

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Introducción. Metadatos

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

GENERALIDADES DE BASES DE DATOS

Apunte. Estrategias de Búsqueda de Recursos en Internet 3

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

CONSIDERACIONES GENERALES DEL WEB MINING

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Elementos requeridos para crearlos (ejemplo: el compilador)

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

MANUAL ECOMMERCE 2.0

Por qué deberías adaptar tu página web a la navegación móvil?

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

Activos Intangibles Costos de Sitios Web

Anteproyecto Fin de Carrera

Inteligencia de Negocio

activuspaper Text Mining and BI Abstract

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

Unidad 1. Fundamentos en Gestión de Riesgos

GuÍa rápida de uso. westlaw chile

PRESENTACIÓN DEL PRODUCTO

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

forma de entrenar a la nuerona en su aprendizaje.

Tema 9: Portales, Índices,

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Sistemas de Recuperación de Información

Base de datos en Excel

Capítulo IV. Manejo de Problemas

Redes de área local: Aplicaciones y servicios WINDOWS

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

<Generador de exámenes> Visión preliminar

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

5.2. PROYECTO RODA. (6/07/04).

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Sistemas de Información Geográficos (SIG o GIS)

UNIVERSIDAD DE SALAMANCA

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

GedicoPDA: software de preventa

SISTEMA DE GESTIÓN DE INCIDENCIAS Y REQUERIMIENTOS MESA DE AYUDA SINAT MANUAL DE USUARIO

Reseñas. Ángeles Maldonado y Elena Fernández, Cindoc. El profesional de la información, vol. 9, nº 3, marzo de 2000

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Sistema de Consulta de Expedientes

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

revista transparencia transparencia y UNIVERSIDADES

Sistema Tecnológico de Apoyo a la Regulación

Posicionamiento WEB POSICIONAMIENTO WEB GARANTIZADO

Introducción a las redes de computadores

El Proceso Unificado de Desarrollo de Software

Objetivos del proyecto:

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Sistema de Consulta de Expedientes

Capítulo 12: Indexación y asociación

Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández.

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: Fax.:

Unidad III. Software para la administración de proyectos.

MUESTREO TIPOS DE MUESTREO

Capítulo 5. Cliente-Servidor.

Mesa de Ayuda Interna

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Guía de instalación de la carpeta Datos de IslaWin

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

Mi propuesta consiste en crear un portal Web que contemple las siguientes funcionalidades:

Instituto Politécnico Nacional. Escuela Superior de Turismo

CÓMO CREAR UNA PÁGINA WEB

La Web Semántica como herramienta para e-learning

Descripción del sistema

Guía para Desarrollo de Sitios Web - Gobierno de Chile

Metodologías de diseño de hardware

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

Alexa. Sistema de Reservas de Aulas y VideoBeam. Docentes y Jefe de Audiovisuales. Manual de Usuario:

PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha

FUENTES SECUNDARIAS INTERNAS

Comunicación interna: Intranets

Sistema de SaaS (Software as a Service) para centros educativos

Fundamentos del diseño 3ª edición (2002)

DIPLOMADO EN FORTALECIMIENTO INSTITUCIONAL Módulo 02-Cultura del Servicio- Orientaciones de estudio.

La tutoría para la dirección de proyectos de investigación. Darder Mesquida, Antònia Universitat de les Illes Balears.

CRECE EN INTERNET. Llegar a buen puerto: buscando información

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

SIC 32 Activos Intangibles Costos de Sitios Web

MOODLE PARA ASESORES, GUIA DE APOYO.

Sistemas de Gestión de Calidad. Control documental

RETO: Buscar información en Internet rápidamente utilizando adecuadamente los motores de búsqueda. Cómo busco información en Internet?

Infraestructura Tecnológica. Sesión 12: Niveles de confiabilidad

SEDO: SOFTWARE EDUCATIVO DE MATEMÁTICA NUMÉRICA. Lic. Maikel León Espinosa.

Transcripción:

DIRECTORIO DE RECUPERACIÓN Y CLASIFICACIÓN DE PÁGINAS WEB DIRECTORY OF RETRIEVAL AND CLASSIFICATION OF WEB PAGES Adrian Gainza Huepp 1, Leanni Rodríguez Noblet 2 1 Universidad de las Ciencias Informáticas, Carretera San Antonio de los Baños Km 2 1/2, Ciudad Habana,Cuba, adriang@uci.cu, 835-8274. 2 Universidad de las Ciencias Informáticas, Carretera San Antonio de los Baños Km 2 1/2, Ciudad Habana,Cuba, lnoblet@uci.cu, 835-8274. La Informática como soporte a la gestión en la empresa cubana La Habana, Octubre 2013

RESUMEN La invención de Internet es la tecnología computacional más influyente en la vida de las personas. Ha provocado grandes cambios en la sociedad, entre ellas nuevas formas de trabajo, de comunicación y de entretenimiento. Su desarrollo ha propiciado un enorme crecimiento del volumen de información digital a escala mundial, lo que trae como consecuencia la necesidad de desarrollar métodos y el empleo de herramientas computacionales capaces de procesarla, organizarla y facilitar su acceso. Con el fin de organizar la información contenida en las páginas web y facilitar su búsqueda se encamina la presente investigación a desarrollar un directorio web que permita clasificar el contenido de las páginas web. Durante la investigación se emplean los métodos científicos: analítico-sintético y análisis histórico-lógico entre los teóricos; y la observación y experimentación dentro de los métodos empíricos. El resultado principal de este proyecto está encaminado a facilitar a los usuarios el acceso a la información contenida en las páginas web. Palabras Clave: recuperación de información, clasificación de documentos, páginas web motores de búsqueda, directorio web, ABSTRACT The invention of the Internet is the most influential computer technology in the lives of people. It has caused great changes in society, including new ways of working, communication and entertainment. Its development has led to an enormous growth in the volume of global digital information, which results in the need to develop methods and the use of computational tools able to process, organize and facilitate access. In order to organize the information in web pages and easy search this research is aimed at developing a web directory for classifying the content of the web pages. While researching scientific methods are used: analytic-synthetic and historical and logical analysis among theorists, and the observation and interview in empirical methods. The main outcome of this project aims to provide users access to the information contained in the web pages. KeyWords: information retrieval, search engine, web directory, classification of documents, web pages.

1. INTRODUCCIÓN La invención de Internet es la tecnología computacional más influyente en la vida de las personas. Ha provocado grandes cambios en la sociedad, entre ellas nuevas formas de trabajo, de comunicación, de entretenimiento, de hacer compras e incluso hasta de enamorarse. Es la verdadera digitalización de la vida social. El desarrollo de Internet ha traído aparejado un enorme crecimiento del volumen de información digital a escala mundial, lo que trae como consecuencia la necesidad de herramientas computacionales capaces de procesarla, organizarla, acceder a ella eficientemente. La mayor parte de esta información se encuentra almacenada en forma textual no estructurada, por ejemplo, noticias periodísticas, correos electrónicos, foros de discusión, mensajes, artículos científicos, libros, páginas web, etc. En las últimas décadas los directorios webs han alcanzado un auge entre la población mundial como opción para la búsqueda de información. Estos sitios estructuran la información de forma tal que no solo guían al usuario hacia sus preferencias, sino que mediante la jerarquía de información, muestran tópicos relacionados sobre temas específicos que permiten una exploración exhaustiva y más detallada. Como parte del proyecto Sistema Informático para la búsqueda e indexación de sitios web desarrollado por el Grupo de Desarrollo Web de la Dirección de Informatización de la Universidad de Oriente localizado en Corpus, sede Julio A. Mella de la Universidad de Oriente, surge este proyecto para dar solución a los procesos de búsqueda y categorización de información en la Web, cuyo objetivo es brindar alternativas a los servicios de navegación por la web, se propone el desarrollo de un Directorio Web que permita organizar las páginas web en categorías. Hacia ello dirigiremos los siguientes objetivos específicos: 1. Implementar motor de búsqueda para recuperar las páginas accesibles desde un dominio específico. 2. Clasificar el contenido de las páginas recuperadas. 3. Desarrollar una aplicación web que permita mostrar las páginas recuperadas en forma de un Directorio Web. 1

La hipótesis de esta investigación es la siguiente: la implementación de un directorio web facilitaría el acceso a las diferentes páginas web según los temas que abordan. Las tareas de la Investigación se presentan a continuación: 1. Desarrollar un módulo de recuperación de páginas web. 2. Desarrollar un módulo de extracción del contenido de las páginas web. 3. Determinar los rasgos que permitan clasificar las páginas web. 4. Implementar el algoritmo de clasificación supervisada αβ-nn. 5. Diseñar una aplicación web que permita mostrar las páginas web clasificadas en el directorio. 2. CONTENIDO La Recuperación de la Información (Information Retrieval, en inglés) puede definirse como la representación, almacenamiento, organización y el acceso a elementos de información. Un Sistema de Recuperación de Información es aquel que, con distintas técnicas, proporciona acceso automático a colecciones de datos que contienen información. Estos datos pueden tomar muchas formas, ya sean textos (artículos científicos, mensajes de correo electrónico, etc.), o imágenes, archivos de sonido, archivos de audio, etc. En general se emplea el término documento para referirse a dichos objetos, y el término descripción del documento para referirse a su significado. Las herramientas para localizar información en la World Wide Web son: los buscadores. los directorios temáticos. La importancia de estas herramientas es tal, que actualmente suelen ser puntos de partida para navegar por Internet. Los motores de búsqueda son programas que van recogiendo la información de la web y la organizan en una base de datos. Ante cada consulta de información unos programas buscan en esta base de datos los documentos que contengan la información más relevante para el 2

usuario asociada con el criterio de búsqueda y crean los documentos con los resultados obtenidos. La información que contienen los directorios, por su parte, normalmente está recogida y organizada manualmente por expertos en una estructura jerárquica donde los usuarios recorren esta estructura para buscar la información que necesitan. Los directorios temáticos se exploran mediante navegación (browsing). Proporcionan además un acceso rápido a la información estructurada generalmente en forma de árbol, atendiendo a algún criterio de clasificación en categorías. El usuario puede descender por los niveles de especificidad hasta encontrar la información adecuada a sus intereses sin necesidad de formular con términos su consulta. 2.1 Motor de búsqueda La naturaleza expansiva y dinámica de la web destaca la necesidad de construcción de sistemas de recuperación de información para ayudar al usuario a encontrar lo que busca. Estos sistemas están compuestos por un motor de búsqueda que es capaz de visitar y recuperar páginas web que se encuentran en la red, las cuales quedan indexadas en una base de datos. El proceso de rastreo explota la estructura de grafo dirigido que presenta la web, siguiendo los hiperenlaces que comunican unas páginas web con otras. El objetivo de un motor de búsqueda es descargar páginas automáticamente de la web. El motor de búsqueda o robot comienza su proceso con una o varias URL que constituye un conjunto inicial. Se escoge una URL del conjunto inicial y se descarga la página web correspondiente con esta dirección. La página descargada es entonces analizada para extraer tanto el texto como sus enlaces, cada uno de los cuales apunta a otras páginas. El texto extraído es entonces indexado en una base de datos. Los enlaces extraídos (URLs) son añadidos al conjunto URL frontal, que consiste en varias URL cuyas páginas correspondientes no han sido descargadas todavía. Inicialmente el conjunto URL frontal contiene las URLs del conjunto inicial. En un rastreo continuo, el URL de una página es 3

insertado al final del conjunto URL frontal para descargar otra vez en el futuro. 2.2 Métodos de indexación de la información En el caso de la indexación de los documentos a tratar, no todas las palabras o términos que los componen se incluyen en la base de datos. Además, hay que considerar que dichas palabras pueden sufrir una serie de transformaciones antes de incluirse en la base de datos, entre las que podemos mencionar la eliminación de las palabras de parada (stopwords) o las palabras que pertenezcan a ciertas categorías como: adverbios, adjetivos, conjunciones, etc. 2.3 Clasificación de documentos El acelerado crecimiento de la información presente en Internet impide su análisis de forma manual o la realización de una exploración efectiva. Para facilitar a los usuarios la obtención de la información que necesitan, en un tiempo razonable, es imprescindible el desarrollo de técnicas que permitan el procesamiento automático y eficiente de esta información. 2.4 Representación de los documentos Los objetos tratados durante el desarrollo de tareas de Minería de textos son documentos textuales. Para el funcionamiento de los algoritmos en esta área de la Minería de datos es necesario el uso de una representación consistente para el análisis de su contenido. Entre las formas más usadas se destaca el modelo vectorial. En este formalismo, cada documento de la colección está representado por un vector m-dimensional, donde m es el cardinal del conjunto de términos distintos presentes en la colección, y cada componente de este vector representa el peso del término asociado a esa dimensión; esto es,,. El peso representa una estimación (usualmente estadística, aunque no necesariamente) de la importancia del término en la descripción de un documento d, e indica la capacidad del término para diferenciar al documento d en la colección. El peso de un término en un documento d se representa como,. En el caso que el término no aparezca en el documento d, se toma, 0. Normalmente se realiza un procesamiento previo de los documentos, en el cual los términos muy comunes o poco frecuentes son eliminados, y las formas diferentes de una palabra son reducidas a su forma canónica. Algunos enfoques intentan manejar el documento a nivel conceptual, usando recursos ontológicos para los lenguajes naturales. El número de términos 4

presentes en un documento es notablemente menor que el número de términos presentes en una colección de documentos. En consecuencia, la mayoría de los vectores que representan a los documentos son dispersos. 2.5 Esquemas de pesado de los documentos Existen diferentes técnicas para determinar el peso de un término en un documento. Entre las más usadas se encuentran las siguientes: Booleano: los pesos 0,1 indican la presencia o ausencia del término en documento. Frecuencia del término o TF (Term Frecuency) [Salton, 1989]: el peso del término en el documento d se corresponde con la cantidad de veces que aparece en d y se denota por,. Es importante señalar que debe normalizarse de alguna manera la frecuencia de un término en un documento para moderar el efecto de las altas frecuencias y compensar la longitud del documento (es probable que mientras mayor sea el tamaño del documento más veces aparezca cada término). Frecuentemente se usa la normalización por longitud, la cual no es más que dividir cada frecuencia por la longitud del documento. Otra posibilidad muy empleada es la normalización del coseno, donde cada valor de frecuencia se divide por la norma euclidiana del vector que representa al documento. TF-IDF: el esquema de pesado TF-IDF (Inverse Document Frequency) además de tener en cuenta la frecuencia de aparición de un término en el documento (TF), califica el término por su aparición en la colección. En este esquema de pesado, la importancia de un término es inversamente proporcional al número de documentos que lo contiene y está determinada por la siguiente expresión:,, log donde es el número de documentos de la colección que contienen al menos una vez al término, y N representa el total de documentos de la colección. Las fórmulas 5

anteriores permiten concluir que mientras menos documentos contengan el término, mayor será su. Como resultado de la combinación del factor TF y el factor IDF, este método proporciona mayor relevancia a los términos que ocurren frecuentemente en un documento y son poco frecuentes en la colección. Cuando se procesan colecciones dinámicas de documentos no se dispone de la información de los documentos que aún no han sido procesados. En el caso de este esquema de pesado, existen dos enfoques para solucionar la falta de valores para el cálculo del factor IDF de un término. El primero, parte de la existencia de un corpus inicial donde se calcula el peso de los términos, y ante la aparición de un nuevo término se le asigna un valor constante. El segundo enfoque actualiza el vocabulario y el peso de los términos cada vez que se procesa un documento. ltc: El pesado ltc es una variante del esquema TF-IDF y se define como:, 1 log, log 2.6 Medida de semejanza Para comparar dos documentos, es necesario definir una medida de semejanza que exprese el grado de similitud entre ellos. En la Minería de textos es ampliamente utilizada la medida del coseno, la cual se define de la siguiente forma:,, donde es la k-ésima componente del vector que representa al documento o lo que es equivalente,. El valor de esta medida se encuentra en el rango [0,1] y mientras más cercano a 1 sea, más parecidos serán los documentos. 6

2.7 Medida de semejanza Para comparar dos documentos, es necesario definir una medida de semejanza que exprese el grado de similitud entre ellos. En la Minería de textos es ampliamente utilizada la medida del coseno, la cual se define de la siguiente forma:,, (1.1) donde es la k-ésima componente del vector que representa al documento o lo que es equivalente,. El valor de esta medida se encuentra en el rango [0,1] y mientras más cercano a 1 sea, más parecidos serán los documentos. 2.8 Clasificadores basados en criterios de vecindad En la Minería de textos, los clasificadores basados en criterios de vecindad son muy usados por su facilidad de comprensión e implementación. Estos clasificadores generalmente contemplan los siguientes pasos: 1. Encontrar la vecindad V(d) del documento d a clasificar, en el conjunto de entrenamiento CE. 2. Calcular el voto. Cada clase, emite un voto Ψ( ) por el documento a clasificar. 3. Aplicar una regla de decisión Γ(d), en función a los votos emitidos por cada una de las clases. El primer paso asume la definición de una vecindad que permita determinar las muestras del conjunto de entrenamiento que se considerarán para clasificar un nuevo documento d. Luego, basado en las muestras seleccionadas en el paso anterior, cada clase emite un voto por el documento d. Por último, se aplica una regla de decisión para determinar en base a los votos de cada clase a cuál o cuáles pertenece el nuevo documento. La combinación de diferentes formas de cada uno de estos pasos da origen a distintas reglas de clasificación o clasificadores. La efectividad de estos clasificadores estará condicionada por la disponibilidad de un número suficientemente grande de prototipos en el conjunto de entrenamiento y la seguridad de que estos han sido clasificados correctamente. Estas características en entornos reales pueden 7

convertirse en un serio inconveniente, debido al costo computacional de la búsqueda de los prototipos que conformarán la vecindad del documento a ser clasificado d. 2.9 Construcción de la vecindad El clasificador del vecino más cercano (Nearest Neighbour, NN) es uno de los métodos estadísticos no paramétricos más conocidos y usados. De este clasificador se han desprendido variantes con el objetivo de lograr mejoras en su rendimiento. El clasificador de los k vecinos más cercanos (k-nearest Neighbour, k-nn) [Fix, 1951] es una de esas variantes, y considera para clasificar un documento d no sólo el documento más semejante, sino los k documentos más semejantes a él. Con el objetivo de eliminar la restricción de este clasificador de considerar un número k fijo de vecinos emerge el clasificador αβ-nn, el cual sólo tiene en cuenta aquellos documentos que sean suficientemente semejantes del documento a clasificar. 2.9.1 Vecindad de los k vecinos más cercanos Uno de los clasificadores más difundidos en la literatura es el k-nn que surge como extensión del clasificador del vecino más cercano (Nearest Neighbour, NN). La idea fundamental sobre la que se apoya este clasificador es que muestras de una misma clase probablemente se encontrarán próximas en el espacio de representación. Para calcular la vecindad de un documento d considera un cierto número de prototipos (k) que se encuentren en un entorno suficientemente próximo a d. A partir de un cierto conjunto de entrenamiento,,,,, se puede definir la vecindad de un documento como el conjunto de prototipos que cumple que: donde,,,. La expresión sem(, ) hace referencia a la semejanza entre dos documentos, y es el conjunto de prototipos por cada clase. El significado de esta expresión se puede resumir en que la vecindad de un documento d que pertenece a la colección son los k prototipos del conjunto 8

de entrenamiento más semejantes al documento d. En la figura 1.1 se muestra un cálculo de vecindad con k = 5, en las clases, y. Los documentos dentro de la esfera con centro en d son los que pertenecen a la vecindad. Figura 1.1 Representación de la vecindad k-nn para k=5. 2.9.2 Vecindad El hecho de prefijar en k el número de documentos a tener en cuenta para la construcción de la vecindad podría traer consigo los siguientes inconvenientes: i. Los k vecinos más cercanos pueden estar demasiado lejos del documento a clasificar (figura 1.2.a). ii. Es posible que los k vecinos más cercanos no estén homogéneamente distribuidos en el espacio de representación, lo cual ocasionaría que pocos vecinos sean realmente similares a d, y el resto no se encuentren lo suficientemente cerca, influyendo estos en el resultado de la clasificación (figura 1.2.b). d (a) (b) Figura 1.2 Inconvenientes de escoger exactamente k vecinos. 9

En aras de evitar la ocurrencia de estos inconvenientes y con el objetivo de eliminar la restricción que impone el k-nn al fijar un número de vecinos aparece el clasificador αβ-nn, el cual solo considera aquellos documentos que estén en un área lo suficientemente cercana y pequeña a la muestra a ser clasificada. A diferencia del k-nn, el número de vecinos que forman parte de la vecindad no es fijo, y los prototipos que tienen una semejanza muy pequeña con d son descartados. En el conjunto de entrenamiento,,,,, se puede definir la vecindad de un documento como el conjunto de prototipos que cumple:,,, donde y,..,. Esta vecindad tiene en cuenta a todos los prototipos que se encuentran en una región esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β. En la figura 1.3 los documentos en el área sombreada formarán la vecindad del documento d. α d β Figura 1.3 Construcción de la vecindad αβ-nn. La estrategia seguida para desarrollar el algoritmo de rastreo consiste en partir de un conjunto de URLs bases y explorar el conjunto de URLs del dominio de acceso de las URLs bases, y así sucesivamente, hasta explorar los dominios y subdominios del conjunto de URLs dado. 10

Algoritmo de rastreo de páginas web Entrada: Conjunto de URLs base (CUB). Salida: Conjunto de páginas web recuperadas (CWR). 1 CUB={ Inicializar la cola de urls con el conjunto de urls iniciales } 2 Para cada dirección de CUB. i. CWR = { Descargar página web } ii. URLs = { Extraer urls de CWR } a. Para cada url de URLs. a.1 Añadir url a CUB. 2.9.3 Clasificador En la representación de los documentos se utilizó el modelo vectorial, y el peso de cada término se calculó por el esquema ltc. La semejanza entre dos documentos se calculó por la medida del coseno y el algoritmo de clasificación empleado fue el αβ-nn. Algoritmo de Clasificación de documentos 1. Construcción del Vector de Términos. i. Construir las muestras del conjunto de entrenamiento (CE) de cada clase. ii. Calcular el peso de cada término de los documentos de cada clase. 2. Proceso de Clasificación. Por cada documento d que arriba: 11

i. Para cada término t de d calcular su peso con ltc. ii. Construir la vecindad αβ. iii. Calcular el voto de cada clase. iv. Si al aplicar la regla de decisión se asignaa d a la semejanza. clase de mayor 2.9.4 Indexación El proceso de indexación de los documentos se realizó empleando una base de datos de índices secuenciales. El módulo de recuperación y clasificación de la información tiene la tarea de recuperar todas las páginas webs que se encuentren bajo uno o más dominios especificados. De cada página recuperada se indexa su contenido, luego se clasifica en una de las clases existentes y por último se guarda en la base de datos. Por otro lado, está presente la tarea de diseñar e implementar un sitio web en forma de directorio. Este sitio tiene el objetivo exclusivo de presentar las páginas recuperadas y clasificadas en el módulo anterior a través haciendo uso de la base de datos. Ver figura 1.3. Inter t Clasificador Directorio Base de Datos Motor de búsqueda de páginas web Indexado Usuario Recuperación de Información Aplicación Figura 1.3 Arquitectura del sistema 12

La estrategia seguida para desarrollar el algoritmo de rastreo consiste en partir de un conjunto de URLs bases y explorar el conjunto de URLs del dominio de acceso de las URLs bases, y así sucesivamente, hasta explorar los dominios y subdominios del conjunto de URLs dado. En la representación de los documentos(páginas web) se empleó el modelo vectorial: donde cada documento de la colección está representado por un vector m-dimensional, donde m es el cardinal del conjunto de términos distintos presentes en la colección de documentos d=(wl,,wm) y el peso wi representa una estimación (usualmente estadística, aunque no necesariamente) de la importancia del término en la descripción de un documento d e indica la capacidad del término ti para diferenciar al documento d en la colección. El peso de un término ti en un documento d se representa como w(ti,d). En el caso que el término ti no aparezca en el documento d, se toma w(ti,d)=0. El primer paso asume la definición de una vecindad: tiene en cuenta aquellos documentos que sean suficientemente semejantes del documento a clasificar. Para comparar dos documentos, es necesario definir una medida de semejanza que exprese el grado de similitud entre ellos, la medida de semejanza empleada es la semejanza del coseno: el valor de esta medida se encuentra en el rango [0,1], de forma tal que mientras más cerca se encuentre del máximo, sem(di,dj) 1, más semejantes son los documentos di y dj. Luego, basado en las muestras seleccionadas en el paso anterior, cada clase emite un voto por el documento d. Por último, se aplica una regla de decisión para determinar en base a los votos de cada clase a cuál o cuáles pertenece el nuevo documento a clasificar. 13

CONCLUSIONES En este trabajo se trató el tema concerniente al desarrollo de un directorios web, donde se detallan los aspectos fundamentales para su implementación como son: los motores de búsqueda, la clasificación supervisada y el desarrollo web. Se realizó un estudio sobre el trabajo precedente y se detectaron las principales características que debe presentar la aplicación propuesta. Los resultados obtenidos fueron los siguientes: 1. Se implementó un motor de búsqueda para recuperar las páginas web accesibles bajo un dominio específico. 2. Se implementó el algoritmo de clasificación αβ-nn, para clasificar el tipo de contenido de las páginas webs recuperadas. 3. Se diseñó e implementó las funcionalidades de un directorio web que per- mite el acceso a los sitios web de su preferencia o interés según las categorías mostradas. RECOMENDACIONES Los directorios web se proponen guiar a los usuarios hacia la información deseada de una manera amigable y concisa. Para lograr un mayor acercamiento, nuestro trabajo futuro está en caminado en: 1. Realizar una clasificación jerárquica que permita estructurar la información de forma más precisa y compacta. 2. Implementar los algoritmos en arquitecturas paralelas para que pueda ex- plotar al máximo las características de los servidores con varios procesado- res. 3. No sólo permitir la recuperación de páginas webs, sino también de otros formatos de archivos como los Portable Document Format (PDF), los Rich Text Format (RTF), los archivos de Microsoft Word (DOC), entre otros. 4. Realizar pruebas con algoritmos de clasificación no supervisada y comparar los resultados con los implementados, en aras de buscar mayor eficiencia en la clasificación de contenido. 14

BIBLIOGRAFIA Beck, K. Extreme Programming Explained. Embrace Chan- ge. Pearson Education, 1999. Canós, J., Letelier, P., y Penadés, M. Métodologías Ágiles en el Desarrollo de Software, 2006. Converse Tim, Park Joyce y Morgan Clark. PHP5 and MySQL " Bible [Libro]. - Indianapolis : Wiley Publishing, Inc., 2004. Devroye, L., L. Györfi, y G. Lugosi. A Probabilistic Theory of Pattern Recognition. New York: Springer-Verlag, 1996. Fix, E., y J. L. Hodges. Discriminatory analysis: Nonpara- metric discrimination: Consistency properties, Technical Report Project 21-49-004, Texas: USAF School of Avia- tion Medicine, Randolf Field, 1951. Fuyama, S. Syntactic Pattern Recognition and Application. New Jersey: Prentice-Hall, 1982 Jacobson, Ivar. Booch, Grady.Rumbaugh, James. El proceso unificado de desarrollo de software. Editorial Addison Wesley, España. 2000. Gil-García, R., y A. Pons-Porrata. A New Nearest Neighbor Rule For Text Categorization, Lecture Notes on Computer Sciences, Springer-Verlag, 2006, 814 823. Greengrass, E. Information Retrieval: A Survey. Technical Report TRR52-008-001, UMBC CADIP, 2001. Rijsbergen, C. J. Information retrieval. Buttersworth, London, second edition, 1979. Salton, G. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer, Addi- son-wesley, 1989. Ruiz-Shulcloper, J., E. Alba, y M. Lazo. Introducción al Re- conocimiento de Patrones (Enfoque Lógico-Combinatorio). Grupo de Reconocimiento de Patrones Cuba-México, Cen- tro de Investigación y de Estudios Avanzados del IPN, Dpto. de Ingeniería Eléctrica, Serie Verde No. 51, 1995. 15

Tramullas, Jesús; Olvera, María Dolores. Recuperación de la Información en Internet. Editorial RA-MA, 2001. Koster, Martijn. A Standard for Robot Exclusion. 1994. 16