Motores de Búsqueda en Internet



Documentos relacionados
Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales».

UN EJEMPLO DE BÚSQUEDA Tutorial sobre el uso de Google.

CRECE EN INTERNET. Llegar a buen puerto: buscando información


RETO: Buscar información en Internet rápidamente utilizando adecuadamente los motores de búsqueda. Cómo busco información en Internet?

MÓDULO IV INTERNET: ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN ACADÉMICA PROGRAMA DE EDUCACIÓN EN INFORMACIÓN

Apunte. Estrategias de Búsqueda de Recursos en Internet 3

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Trabajo de Investigación MOTORES DE BÚSQUEDA EN INTERNET. Natalia S. Stark. Teleinformática y Redes

Base de datos en Excel

Reseñas. Ángeles Maldonado y Elena Fernández, Cindoc. El profesional de la información, vol. 9, nº 3, marzo de 2000

ESTRATEGIAS RECOMENDADAS PARA BUSCAR INFORMACION EN INTERNET

Buscadores y sus características.

COMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

GuÍa rápida de uso. westlaw chile

Partes de una Dirección o URL

La Web Semántica como herramienta para e-learning

CÓMO CREAR UNA PÁGINA WEB

CRM para ipad Manual para Usuario

App para realizar consultas al Sistema de Información Estadística de Castilla y León

GUÍA RÁPIDA DE e-libro. Comenzando

Buscar Información en Internet

Jornadas de INCLUSION DIGITAL. a través de las TIC ORGANIZAN: CAPACITA: CLAEH

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Manual básico de administración de Joomla

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

Contenido. cursos.cl / Teléfono:

CRM para ipad Manual para Usuario

MANUAL DE USUARIO CMS- PLONE

Tema 9: Portales, Índices,

Servicio WWW World Wide Web Office Express

GUÍA RÁPIDA DE e-libro Comenzando. Mi Estantería. Crear una cuenta

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Herramientas Informáticas para la Documentación Práctica 5. Búsqueda por palabra clave (Altavista)

BÚSQUEDA AVANZADA EN INTERNET

MERGULLADOR: El buscador de información de Bibliosaúde. Guía de uso

Este instructivo ha sido ordenado de manera tal de ir explicando las distintas secciones, que son las siguientes:

Introducción a los sitios de SharePoint en Office 365

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Introducción a la plataforma Moodle Aníbal de la Torre Plataforma Moodle. Accediendo a los contenidos

Bases de datos en Excel

Guía para la Automatización de Documentos en. Microsoft Word

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Tutorial para la creación de un blog institucional

Cómo preguntarle a Internet? (tutorial)

7. Motores de Búsqueda en Internet

Configuración SEO en el Panel

Sistema de Información de Compras y Contrataciones del Estado (SICE) Manual del Buscador de Artículos, Servicios y Obras

Búsqueda avanzada en Google

Posicionamiento WEB POSICIONAMIENTO WEB GARANTIZADO

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Como buscar información en Internet sin naufragar en el intento

Documentación de Usuario GOOGLE SHOPPING

Acceder al Correo Electronico - Webmail

Manual del Alumno de la plataforma de e-learning.

Introducción Delicious Algunas características: Sitio para acceder a esta herramienta Qué es Delicious?...

Minicaso: Visibilidad página Web

Instituto Politécnico Nacional. Escuela Superior de Turismo

Maqueta Sitio Web para el 2º Nivel

EL CORREO ELECTRÓNICO 2.0

Manual de Ayuda. Sistema de Comercializacion RUBROS SRL - Desarrollado por Pragmatia

Netvibes: crea tu propio escritorio virtual. Práctica para Seminario RECIDA 2014

UNIVERSIDAD DE SALAMANCA

GUÍA DE USUARIO: GOOGLE DRIVE

Manual de rol gestor de GAV para moodle 2.5

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Alberto Marcano Díaz

Sistema Inteligente de Exploración

GENERALIDADES DE BASES DE DATOS

UNIVERSIDAD DON BOSCO FACULTAD DE ESTUDIOS TECNOLÓGICOS ESCUELA DE COMPUTACIÓN

Instalación y mantenimiento de servicios de Internet. U.T.3.- Servicio DNS

Indice. .01 Introducci n. .02 Perfiles de usuario. .03 Ingreso al portal Mi Entel PCS Empresas. .04 Activación de los teléfonos móviles de la empresa

Manual de Usuario Sitio Dinámico e-ducativa Versión

Reflexión. Inicio. Contenido

Accede a su DISCO Virtual del mismo modo como lo Hace a su disco duro, a través de:

Nombre del Maestro: Cruz Jorge Fernández. Nombre del Alumno: Alejandra Ontiveros. Santa María del Oro, el Oro Durango

Tarjeta de referencia rápida

[8 ] Contenidos: tipologías y organización.

Manual de guía para Clientes Sistema MoTrack

Internet Information Server

Manual de usuario de Windows Live Writer

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Tareas básicas en OneNote 2010 Corresponde a: Microsoft Office OneNote 2010

MOTORES VERSUS DIRECTORIOS: EL DILEMA DE LA BÚSQUEDA

Presentaciones compartidas con Google Docs (tutorial)

Colecciones de Portal Timbó

5. Composer: Publicar sus páginas en la web

G R U P O S INDICE Cómo crear una cuenta en ARQA? Cómo tener un grupo en ARQA? Secciones y funcionalidades de los grupos Configuración del grupo

Integración de Magento & Dynamics NAV

Índice INTERNET MARKETING 1

Versión 1.0. BOLETÍN (JUNIO 2009) a2móvil PC. a2 softway C. A.

Guía de uso del sistema CV-Online

Servicios y aplicaciones clave de la web 2.0

Transcripción:

Motores de Búsqueda en Internet Gustavo Hernán Lafuente gustavo@ing.unlpam.edu.ar Resumen Este trabajo trata de dar una visión general acerca de cual es la arquitectura básica de un motor de Búsqueda Web Convencional. También, aquí se dará una visión general de 5 buscadores de relevancia en la Web, en donde se explicarán las componentes que los componen en forma estética y la forma de acceder a una búsqueda. Además, se dará detalles sobre Las estrategias de Búsquedas de información en la red de Internet. Keywords: Motores de Búsqueda, recopilación, indexación, metabuscadores, rankeo. Introducción La búsqueda de información en Internet se ha convertido en uno de los aspectos más críticos de la red. Los buscadores e índices temáticos tratan de hacer mas corto el camino entre el usuario y las páginas o contenidos Web que son de su interés [Vigo]. Desde la aparición es sistema GOPHER hasta la actualidad, nos hemos encontrado con la problemática de cómo realizar búsquedas en la Web debido al continuo crecimiento de la WWW. Recordamos que el sistema GOPHER funcionaba de forma de bookmars, el cual era imposible mantener actualizado el sistema y este creció tanto que se debió implementar una herramienta (VERONICA) que corriera sobre el GOPHER para poder encontrar la información lo más rápido posible pero nunca se logra mantener actualizada la información en le Bookmars. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (1 of 16) [10/11/2001 2:37:14 PM]

En la Actualidad, la gran cantidad de información que esta en la Web hace que se implementen medios para poder agrupar y localizar dicha información, a los cuales se denominan Motores de Búsqueda. De hecho, en febrero de 1999 el número de páginas Web indexadas rondaban una cifra superior a los 800 millones de páginas [Melgratti et al]. La primer parte del artículo ofrece una descripción de los tipos de motores de búsqueda y cual es la arquitectura convencional de un motor de búsqueda. En la segunda parte ofreceremos una pequeña revisión de las características de 5 buscadores que se encuentran en la Web y por ultimo se realizara una exposición sobre las estrategias de búsquedas. Tipos de Motores de Búsqueda y Arquitectura de motor de Búsqueda Convencional Los Buscadores se dividen en tres categorías principales [AlephWeb, GI, Wishard, GUIA]: 1. Motores de Búsqueda por Directorios o Catálogos: Este depende básicamente de las personas desean publicar la información, dado a que ellas mismas son las que clasifican la información en las áreas específicas, formando de esta manera una jerarquía de URL s. Además cada persona debe dar una pequeña descripción sobre el contenido del sitio para poder dar mas información sobre que información contienen los documentos a indexar por el Buscador. El objetivo de esta clasificación es poder encontrar los documentos que pertenezcan al área temática seleccionada [GUIA]. Además, toda la información de las bases de datos es anexada por las personas. Entre los buscadores que podemos nombrar que poseen esta metodología de indexación son Yahoo, buscadorclarin, entre otros, los cuales presentan una página con la estructura jerárquica la cual nos permite ir navegando hacia la información específica. Una de las desventajas que posee este mecanismo de indexación es que la información que se encuentra no siempre esta actualizada debido a que la actualización se realiza en forma manual. Otra desventaja es que el tiempo necesario para encontrar la información puesto a que se debe browsear por el árbol Jerárquico hasta llegar a la información especifica. 2. Motores de Búsqueda por Palabras Claves o Crawlers (o automáticos): Estos están implementados por Robots, crawlers, Webbots o Spider (generalmente están diseñados con agentes). Estos Robots van armando un índice a través de una recopilación de campos de datos, links y texto de páginas Web en busca de información nueva y actualizada. Para poder acceder a la información los usuarios deberán utilizar palabras claves o comentarios. Una de las deficiencias que poseen estos mecanismos es que cada vez que se realiza una búsqueda, el resultado será file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (2 of 16) [10/11/2001 2:37:14 PM]

mostrado por la cantidad de ocurrencias que aparecen en la indexación y muchas veces la información relevante para el usuario es no tenida en cuenta en la recuperación de la información. 3. Motores de Búsqueda Híbridos: estos combinan ambos Motores de búsqueda anteriormente descriptos en los puntos 1 y 2. Son muy parecidos a los buscadores temáticos pero con la diferencia que además de poder browsear dentro de la pagina de búsqueda podemos realizar alguna consulta dentro del área temática con alguna palabra clave o comentario. Una característica que poseen todos los mecanismos de búsqueda es que no poseen una arquitectura centralizada sino que son mas bien descentralizados [AlephWeb]. La arquitectura básica de un Motor de búsqueda deberá ser la siguiente: Tener un robot corriendo en la Web capturando la mayor información posible, almacenar la información obtenida por la el robot in índices y/o catálogos y por ultimo tener un software que permita recorrer el catálogo en busca de la información solicitada [GI]. Fig. 1 Arquitectura Básica de los Mecanismos de Búsquedas file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (3 of 16) [10/11/2001 2:37:14 PM]

Ahora si comenzamos a ver operacionalmente lo que se espera de un motor de Búsqueda podemos arribar a la siguiente arquitectura la cual muestra con mas detalles el funcionamiento básico: Fig. 2: Arquitectura de un sistema Q-Pilot. Los gráficos en gris indican que están On-Line, mientras que los demás indican Off-Line [Atsushi] El mecanismo del motor de búsqueda debe funcionar de la siguiente manera: Se debe comenzar de una Query por parte del Usuario, la cual llega al motor de búsqueda y donde es tomada la Query por un Query Expansion. Este componente debe transformar la Query del usuario en un conjunto de incógnitas posibles dadas las palabras claves del Usuario. Esto lo hace de acuerdo con el conjunto de términos que posee indexado el motor de búsqueda (Topic Terms). Una vez que trasforma las posibles incógnitas deberá pasar las mismas a un Clustering. El Clustering deberá ser el encargado de realizar el comienzo del proceso de rearmado de la información que se le mostrará al usuario, para lo cual, envía las keywords (palabras claves posibles) al generador de frases (Phrase Generation) y al mecanismo de rankeo de búsqueda (Search Engine Ranking). file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (4 of 16) [10/11/2001 2:37:14 PM]

El Generador de frases recibe las posibles palabras claves enviadas por el Clustering, y deberá armar en un lenguaje amigable para el usuario la serie de títulos posibles para cada palabra buscada. El Search Engine Ranking posee el rankeo de todas las búsquedas realizadas y entonces va completando los lugares de las palabras claves después del encabezado que creo para cada una el Phrase Generations. Hasta aquí hemos visto el uso del motor de Búsqueda por parte de un usuario para la recuperación de la información, pero falta el funcionamiento del motor de indexación de la información. Para esto, el Motor de Búsqueda deberá Activar los robots en busca de términos y tópicos posibles de interés para los usuarios (Además se debe contemplar la posibilidad de que un usuario pueda enviar una URL para su indexación y que la misma pueda ser catalogada). Para esto el Neighborhood-based Topic Identification se activa para comenzar a recopilar posibles nuevos términos y tópicos de URLs que pueden o no ya estar catalogada. Una vez que se poseen las URLs envía las mismas al Search Engine Selection Index quien se encargara de buscar términos y tópicos de interés dentro de las mismas. En el caso de que las URLs provengan del alta de un usuario, además de tratar de indexar nuevos términos, se deben contemplar los keywords que el usuario envío como información adicional. En forma general el funcionamiento de los Spider involucra las siguientes tareas [Vigo]: Buscar palabras en los tags META Guardar la fecha de la última modificación del recurso Guardar el primer párrafo Guardar los títulos de los documentos Guardar imágenes, documentos, applets y demás objetos Guardar el documento para que otro agente lo recorra Buscar información en patrones de códigos HTML que se repitan. Cuando el Search Engine Selection Index da por finalizada su tarea, debe enviar los resultados obtenidos al mecanismo de rankeo de búsqueda (Search Engine Ranking). De esta manera, hemos visto el funcionamiento de un Mecanismo de Búsqueda Convencional, sin entrar en detalle de una arquitectura especifica. Es decir, cada Motor de Búsqueda (por ej. Google) posee su propia Arquitectura. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (5 of 16) [10/11/2001 2:37:14 PM]

Características Generales de Algunos Buscadores Web En esta parte, trataremos de ver cuales son las características generales de un buscador específico sin entrar en su arquitectura. Trataremos de reflejar cuales son los servicios que ofrece al usuario. Altavista: Inicio sus servicios en el año 1995 y fue construido por la empresa Digital [Maldonado Martínez et al, Filiberti, GI ]de los buscadores conjuntamente con Google que poseen más páginas indexadas. A continuación enumeraremos algunas sus las características: 1. Contenido: el contendido de la página principal posee la información a nivel internacional permitiendo cambiar su preferencia a diversos idiomas y ubicaciones geográficas tales como Australia, Austria, Bélgica, Brasil, Canadá, Dinamarca, Finlandia, Francia, Alemania, India, Irlanda, Italia, orea del Sur, Países Bajos, Nueva Zelanda, Noruega, Portugal, España, Suecia, Suiza, Reino Unido, Estados Unidos. A modo de ejemplo si seleccionamos el idioma español, permite al usuario elegir entre las opciones Euskera, Catalá, Castellano o Galego. 2. Recolección de Información: la recolección de la información es a través de robots (utiliza algún mecanismo de agentes para tal fin), quienes se encargan de indexar la información que se encuentran en el nodo y todos aquellos links que están referenciados dentro de cada nodo. Los agentes son capaces de recopilar la información de los META de los títulos, las Keywords y la información que esta dentro de cada página. Por otra parte, este motor de Búsqueda es capaz de recibir las URL s por parte de los usuarios las cuales le permite anexarlas por categoría. 3. Formatos de Búsqueda: Se puede buscar por medio de la estructura temática que ofrece en la página principal o bien por medio de los buscadores por palabras claves. Cuando se busca por tema, la información es ordenada por temas y subtemas por lo cual se debe ir navegando por los nodos propuestos hasta llegar a la información específica. Cuando la Búsqueda se realiza por medio de palabras claves, se pueden utilizar dos clases de Búsqueda: Búsqueda general o búsqueda Avanzada (El funcionamiento de las estrategias de búsquedas se detallara mas tarde). En cuanto los operadores de la búsqueda que ofrece Altavista encontramos los siguientes: AND (+), NOT (-) y OR, además permite ingresar una frase exacta colocando la misma entre comillas ( ), usar comodines (*) y además permite seleccionar el idioma de salida. La búsqueda avanzada permite ingresar una Query, limitar los resultados por fechas o por URLs o Host y seleccionar la cantidad de resultados por página file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (6 of 16) [10/11/2001 2:37:14 PM]

4. Personalización del Buscador y Formatos de Salida: Altavista permite que los usuarios configuren el buscador de la forma más amigable para su beneficio. Entre las opciones que puede setear encontramos: A) Buscar resultados en un determinada región o a nivel mundial: para esto el usuario debe estar en uno de los idiomas de navegadores como por ejemplo Español. B) Formato de resultados: permite configurar la información de la pagina de resultados (Description, URL, Last modified, Page size, Page language). Además en permite configurar las paginas solo texto o texto con imágenes. C) Información de página completa: Puede elegir entre obtener un resultado compacto, que mostrará sólo los datos más básicos para cada página Web que encontremos y un resultado más detallado mediante Información de página completa. D) Resultados por página: Permite elegir la cantidad de resultados por página E) Búsqueda por idioma: permite configurar un idioma de salida de la información F) Activar/desactivar la traducción: esta opción permite que las páginas que se encuentren en un idioma determinado (ingles) se traduzcan cuando se accede a las mismas en el idioma indicado en este punto. 5. Otros: posee otras opciones tales como ayuda y permite realizar búsquedas especificas de hopping Images Video MP3/Audio News Autos Tech Real Estate [ww.altavista.com] Yahoo: pertenece a la empresa Yahoo! Inc. Es uno de los buscadores más antiguos que opera en la Web [Maldonado Martínez et al, Filiberti, GI ]. Características: 1. Contenidos: es de carácter internacional y posee nodos locales en los siguientes países: Alemania, Asia, Australia, Canadá, Corea, China, Dinamarca, España, Estados Unidos, Francia, Italia, Japón, Noruega, Reino Unido, Suecia y Argentina [Maldonado Martínez et al]. Es un Buscador temático. 2. Recolección de datos: Al ser un buscador temático, cada URL que esta indexada en el motor de búsqueda es sugerida por los usuarios de la Web por medio de un formulario que pide información para dar de alta a una determinada URL. Entre la información que se exige ser completada se encuentra la URL y las categoría(s) temática(s) a la cual se desea anexar. 3. Formatos de Búsqueda: los formatos empleados para recuperar la información son similar al de file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (7 of 16) [10/11/2001 2:37:14 PM]

Altavista, es decir que se puede buscar por tema o por keywords. Los operadores lógicos permitidos son: AND (+) NOT (-) y OR, además admite las comillas para indicar frases exactas. La búsqueda avanzada permite setear: A) Método de Búsqueda: permite seleccionar Búsqueda de opciones por defecto, Correspondencia exacta con una frase, Correspondencia con todas las palabras (Y), Correspondencia con cualquier palabra (O) o Nombre de una persona. B) Sección de Búsqueda: Por categorías o por Web C) Mostrar solamente las paginas actualizadas a partir de una fecha determinada D) Configurar la cantidad de resultados a mostrar por pagina. 4. Recuperación de la Información (Formatos de Salida): Este buscador no permite dar formato de salida a la información como la hace Altavista. La forma de mostrar los resultados cuando se busca por palabras claves es a través de un Titulo con el enlace de la URL del destino y una pequeña introducción del contenido, la cual, esta formada por el comienzo del contenido del destino. Cuando se accede por medio del índice temático, muestra el camino de navegación a través del índice y con texto sencillo coloca el link a la URL de resultados. 5. Personalización: permite configurar los colores y los temas, elegir el contenido, cambiar el diseño del buscador y añadir o borrar paginas. Para poder acceder a esta opción es necesario ser usuario de Yahoo. 6. Otros: contiene ayuda sobre las búsquedas, además posee los vínculos a otros servicios de la empresa Yahoo! Inc tales como e- mail gratuitos y e-gropus. EXITE: Este comenzó a tener auge a partir de 1995 [Maldonado Martínez et al, Filiberti, GI ]. Características: 1. Contenidos: es de carácter internacional con versiones en Alemania, Francia, Holanda, Suecia, Reino Unido, Japón, China y Australia. 2. Recolección de datos: Es un buscador al igual que Altavista de los denominados híbridos. Posee un Spider que recorre las URLs en busca de palabras claves que están en los META. Además permite la alta de las URLs por medio de formularios. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (8 of 16) [10/11/2001 2:37:14 PM]

3. Formatos de Búsquedas: Permite Buscar por medio de palabras claves o navegando la el directorio. La particularidad que posee cuando se busca por palabras claves es que permite buscar en la Web, fotos, nuevos y por los canales. Los operadores lógicos son el AND, OR y NOT, se pueden usar los paréntesis y trucar. La búsqueda avanzada permite ingresar palabras o frases e indicarle si se desea buscar en forma exacta, si se desea excluir o darle mayor o menor índice de importancia a los términos buscados. Además permite elegir el área (país o zona) o el dominio donde buscar, la cantidad de resultados por página, el idioma de las páginas buscadas y el formato de salida de los resultados. 4. Formatos de salida: La recuperación de la información se presenta según el orden de Relevancia con un indicador de porcentaje (%). Se puede elegir ver solo los títulos del os enlaces o una pequeña información adicional. Además se `puede elegir la cantidad de resultados por página. 5. Personalización: permite personalizar el seteo de las páginas, elegir contenido de las mismas, cambiar los colores pero para esto el usuario debe registrarse. 6. Otros: posee ayudas sobre el uso del buscador LYCOS: Lycos se inició como un Proyecto de Investigación en la Universidad de Carnegie mellon y a partir de 1995 se formo como empresa. Es un motor de búsqueda híbrido [Maldonado Martínez et al, Filiberti, GI ]. Características: 1. Contenidos: es de cobertura internacional y posee nodos locales en Austria, Belgium, Denmark, France, Germany, Italy, Netherlands, Norway, Russia, Spain, Sweden, Switzerland, UK, China, Hong Kong, India, Indonesia, Japan, Korea, Malaysia, Philippines, Singapore, Southeast Asia, Taiwan, Thailand, Argentina, Brazil, Canada, Caribbean, Chile, Colombia, Estados Unidos, Mexico, Peru, Venezuela. 2. Recolección de Datos: Utiliza Spider para la recolección de las Páginas Web, además admite que los usuarios anexen sus páginas Web. Este motor no tiene en cuenta los META de las páginas. Otra característica es que el usuario puede elegir el orden de relevancia del contenido de las páginas que va a anexar. 3. Formatos de Búsqueda: al ser un híbrido puede buscarse por temática o por bien por palabras claves. Se puede acotar los resultados por el idioma. Admite los operadores lógicos AND, NOT y OR y los operadores de proximidad (*) y los paréntesis. LA búsqueda avanzada permite además de buscar la frase exacta configurarle el tema en donde debe buscar, que tenga un titulo determinado, que pertenezcan a un a URL especifica, se puede especificar el lenguaje de salida. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (9 of 16) [10/11/2001 2:37:14 PM]

4. Recuperación de la Información: se puede elegir que los resultados sean mostrados agrupados por dominios o no, además se puede clasificar el grado de relevancia de los sitios. 5. Otros: al igual que Yahoo dentro de su comunidad de servicios posee cuentas de mail entre otros. GOOGLE: Es uno de los buscadores mas recientes de la Web. Surgió como un proyecto en la Universidad de Standford [Maldonado Martínez et al, Filiberti, GI, Stanford I, Sergey et al]. Características: 1. Contenidos: es de contenido internacional y posee nodos en diversos idiomas tales como español, francés entre otros. 2. Recolección de Datos: utiliza un robot que recopila la información de las paginas Web. Además tiene la particularidad de indexar los contenidos de los PDF y otros documentos. También permite que los usuarios anexen sus URLs al sitio. Actualmente se esta implementando el índice temático. 3. Formatos de Búsquedas: permite buscar por medio del índice temático o por palabras claves. Los operadores lógicos permitidos son AND, OR y NOT además de permitir los comodines(*.?) y no es necesario distinguir entre mayúsculas y minúsculas. La búsqueda avanzada ofrece al usuario las siguientes características: A) Buscar resultados con la frase exacta, con todas las palabras o con algunas o bien sin algún termino. B) Permite seleccionar la cantidad de ítems de resultados por página. C) Permite seleccionar un idioma de salida, elegir mostrar páginas Web actualizadas durante un periodo, seleccionar el lugar donde uno quiera que las palabras estén presentes, que sean dominios o no y si debe pertenecer a un dominio específico. D) Buscar imágenes en la Web (esto aun esta en desarrollo). E) Buscar específicamente una página (sean paginas similares o las páginas que tienen un enlace a la buscada). 4. Recuperación de la Información: se puede ajustar el número de resultados que verá en cada página. Sus opciones son 10, 30 o 100 y el valor predeterminado es 10. La primer linea que devuelve es el título de la página la cual muchas veces solo posee la URL dado a que aun no se ha recopilado toda la file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (10 of 16) [10/11/2001 2:37:14 PM]

información de la misma o bien el propietario olbido agregar el TITTLE a la misma. Luego muestra una pequeña descripción sobre la página en cuestion. Google a diferencias de los otros buscadores emplea una nueva concepcion en la busqueda a la cual denomina tener suerte, la cual en lugar de mostrar los resultados en una página, muestra la primer página lo que se puede interpretar menos tiempo para buscar y mas tiempo para mirar los resultados. Google solo devuelve las páginas Web que contengan todas las palabras de la consulta. 5. Presonalización: El grado de personalización de google es muy elemental, solo permite seleccionar el dioma y la cantidad de items de salida de resultados. Dada la anterior caracterización de los motores de búsqueda es hora de hacer algunas apreciaciones de similitudes y diferencias. La mayoría de los buscadores están implementando la búsqueda a través de área temática pero nos encontraremos con la problemática de que los robots no diferencian los contenidos de las páginas y esto nos lleva a concluir que cuando buscamos por tema, habrá información que quede excluida por no estar catalogada por temas. Con esta razón vemos que Yahoo al ser un buscador temático no lograra recaudar toda la información de la red a menos que todos los propietarios de las URLs se den de alta en dicho motor de Búsqueda. Por otro lado, podemos ver que la mayoría de los buscadores tratan de ofrecer la información de forma uniforme con respecto a los demás motores de búsqueda y que además, Google a diferencias del resto, emplea la terminología voy a tener suerte. Además, podemos decir que Lycos no utiliza los meta tag para anexar la información. Estrategias de Búsquedas En la actualidad existe una gran cantidad de motores de búsqueda y además existe otra modalidad de motores de búsqueda a la cual se denominan metabuscadores, quienes realizan búsquedas dentro de los índices de los otros buscadores. Como hemos visto, cada motor de búsqueda posee su propia arquitectura, como así también sus métodos de recolección de información, indexación, interfaces de búsquedas y técnicas de rankeo. Si bien, todos estos aspectos difieren para cada buscador en particular, el mecanismo implementado es similar para cada caso. Hoy en día la mayoría de los buscados tratan de brindar las mismas estrategias de búsqueda de información pudiendo explorar un catálogo (el cual esta organizado de alguna forma como por ejemplo categoría, áreas, etc.), o realizando querys en forma general o en forma restringida [Nielsen 99]. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (11 of 16) [10/11/2001 2:37:14 PM]

La forma de buscar dentro de un catalogo es simple pero muy lenta dado a que se debe ir browseando dentro del mismo hasta llegar a la información especifica. Una de las desventajas de la utilización de catálogos en los motores de búsqueda es que estos solo poseen indexado en catálogos las URLs que los usuarios anexen dado a que la forma de indexación que realiza un robots aun no está perfeccionada a que este pudiese interpretar el contenido de la información y la anexe al área especifica a la cual pertenece. Una de las estrategias de búsquedas que los usuarios pueden emplear es aplicando un plan de búsqueda en donde primero se debe tener en claro cuales son palabras claves y a que área o temática pertenece para poder utilizar luego un buscador temático como por ejemplo Yahoo para poder obtener información genérica. Seguidamente se puede utilizar un buscador automático (Ej. Altavista) para poder recuperar la información mas en forma más especifica. Cuando un usuario utiliza los motores de búsqueda que poseen robots como medio de recopilación de información, estos pueden recuperar mucha información, poca información o bien es lenta la recuperación. Debemos tener en cuenta en estos casos como métodos de aplicación: El uso de los operadores lógicos AND, OR, NOT. Considerar las mayúsculas y minúsculas (a excepción de Google que no hace diferencias entre mayúsculas y minúsculas), los acentos. Controlar la ortografía. Tener en cuenta al cantidad de keywords a utilizar (agregar palabras claves cuando se recupera mucha información o quitar cuando son pocos resultados) La utilización de keywords demasiados cortos o redundantes tales como artículos y pronombres Considerar variantes (por ej. buscar en plural y en singular) y anónimos Utilice las ayudas que los buscadores ofrecen y como es el uso de los Tips permitidos por el buscador. Comúnmente, los usuarios tienen la oportunidad de utilizar Tips o comúnmente llamados filtros o operadores de información. Existen 4 clases de operadores: 1. Operadores Lógicos: También conocidos como booleanos. En esta categoría encontramos los siguientes operadores: A) AND (y lógico): La utilización de este operador nos da como resultados la intersección de los términos. Ej.: autos AND rojos, que nos devolverán todas las páginas que contengan ambas palabras y no las que posean un solo termino. También se puede utilizar el signo + o & en lugar del AND. B) NOT (no lógico): este operador excluye los nodos que contengan uno de los términos. EJ: autos file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (12 of 16) [10/11/2001 2:37:14 PM]

NOT rojo, lo que nos dará como resultados aquellos nodos que poseen el termino auto pero que no contengan la palabra rojo. Se puede utilizar el sigo - o! en lugar de NOT. C) OR (o lógico): Se obtiene como resultado la unión de los dos términos. Ej.: autos OR rojo, devolviéndonos como resultado las paginas que contengan la palabra autos y las páginas que contengan la palabra rojo. Generalmente cuando no se coloca ningún operador lógico ente los dos términos, el buscador interpreta ese espacio como un OR. 2. Operadores de Aproximación: estos opreradores nos permiten especificar la relación existente entre los terminos que el usuario esta buscando permitiendo de esta forma obtener resultados más presisos. A) NEAR (cerca): es similar al operador lógico AND dado a que muestra los resultados de la intercección de la búsqueda pero con la diferencia que los terminos buscados deben estar relativamente juntos. Ej.: autos NEAR rojo. Generalmente los terminos deben estar a una distancia de 10 palabras entre si (el número de palabras puede variar segun el motror de b squeda que se utilice). Algunos buscadores lo emplean en la búsqueda abandaza (altavista) y otros utilizan los corchetes ( [ ]. ej infoseek ). B) ADJ (Juntos): similar al AND lógico pero con la diferencia que los términos deben aparecer en forma conjunta. Ej.: autos ADJ rojos. También se pueden usar las comillas ( autos rojos ) o bien colocar un guión entre los términos sin dejar espacios entre medio para que no sean interpretados como un NOT (Ej. Autos-rojos). El uso de este operador hace que no de como resultados aquellas páginas que contengan alguna palabra entre los términos buscados y que no fueron explicativos en la búsqueda. C) Frases: es similar al ADJ el cual hace que la frase se coloque entre comillas o con guiones. Ej.: motores de búsqueda en Internet ó motores-de-búsqueda-en-internet. 3. Operadores de Existencia: A) Existencia: Especifica palabras que deban aparecer en el resultado. Es similar al AND. Se especifica con el signo +. Ej: buscadores navegadores +Internet, que nos dará como resultado que contengan buscadores e Internet y por navegadores e Internet. B) Ausencia: sirve para exigir la ausencia de un termino, es de uso idéntico al NOT, y su símbolo es el -. Ej.: navegador Internet. 4. Operadores de Exactitud: A) Familia: Permite que la búsqueda se expanda dado un termino con este operador. Algunos buscadores emplean para tal fin el uso del símbolo $ mientras que otros *, para lo cual es necesario ver las ayudas de los Tips para conocer cual es su simbología. Ej. Moto*, lo que nos dará como resultado las páginas que contengan moto, motor, motores, motocicleta, etc. B) Trucar Palabras: permite colocar el símbolo punto (.) al final de la palabra para indicar que solo file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (13 of 16) [10/11/2001 2:37:15 PM]

busque esa palabra especifica. Ej.: Moto. y nos dará como resultado las paginas que contenga moto y no así motores o motor. Además de poder contar con los operadores que anteriormente mencionamos, cada motor de búsqueda ofrece una variedad de Tips de búsqueda y además una búsqueda avanzada la que permite a los usuarios poder especificar que y como buscar la información (se pueden limitar fechas, especificar los lugares en donde debe aparecer los términos a buscar, etc.) Conclusión En la actualidad, los usuarios disponen Motores de Búsqueda y Metabuscadores para recuperar la información que esta disponible en la red Internet. Los motores de búsqueda los podemos clasificar como motores temáticos, automáticos e híbridos. La mayoria de los motores de búsqueda de la actualidad se mueven dentro de una arquitectura convencional y solo están trabajando en los agentes de indexación y búsqueda de nuevos campos de indexación. Ya no solo se indexan documentos de hypertextos sino que ahora se trata de indexar cualquier tipo de información y se la tara de agrupar por genero (imágenes, mp3, News). Podemos decir que la búsqueda temática no siempre brinda al usuario los resultados esperados a menos que cada propietario de las URLs anexe las páginas en las áreas y temas de interés. Está problemática se ve reducida en los buscadores temáticos como Yahoo puesto a que las URLs son anexadas por los propietarios pero no es muy propicia para los buscadores que utilizan robots para la recopilación de la información. Hasta el momento los Agentes (software del robot), si bien siguen patrones de búsquedas, no son capaces de poder analizar la totalidad de los URLs y poder determinar a que área o tema están dirigidos. En la actualidad los buscadores que mas renombre tienen son YAHOO, Altavista y sus derivados como Altavista Magallanes y GOOGLE. Este ultimo si bien es muy nuevo se va perfilando en ser uno de los mejores buscadores de la actualidad, dado a que dentro de sus búsquedas incluyen lis índices de otros buscadores tales como Yahoo, lo que permite de esta forma no solo poseer el mayor número de índices sino que en estos últimos tiempos esta trabajando en perfeccionar la búsqueda temática, la que no solo tiene en cuenta las URLs que anexan los propietarios sino que tratan de anexar las ya agregadas en otros buscadores. Una de las políticas actuales que persigue GOOGLE es armado del mayor índice de URLs en forma temática del mundo. file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (14 of 16) [10/11/2001 2:37:15 PM]

Referencias [AlephWeb] Gerard Rodríguez, Estudio técnico de los buscadores Web, disponible en http://cat.isoc.org/prensa/alephweb.html [Atsushi] Query Routing for Web Search Engines: Architecture and Experiments, Atsushi Sugiura (Human Media Research Laboratories, NEC Corporation) and Oren Etzioni (Department of Computer Science and Engineering, University of Washington), WWW9, disponible en http://www9.org/w9cdrom/139/139.html [Filiberti] Franco Luis Filiberti, Motores de Búsqueda, http://www.monografias.com/trabajos/buscadores/buscadores.shtml [GI] Guía de la Internet, Universidad Pontificia Bolivariana, disponible en, http://members.tripod.com/a_pizano/html/cap11.html [GUIA] Guía para los Motores de Búsquedas en Internet disponible en, http://www.netport.com.ni/netport/tips/busqueda/guia2.htm [Maldonado Martínez et al] Maldonado Martínez A., Fernando Sánchez Evaluación De Los Principales "Buscadores" Desde Un Punto De Vista Documental: Recogida, Análisis Y Recuperación De Recursos De Información, FESABID 98, disponible en http://fesabid98.florida-uni.es/comunicaciones/a_maldonado/a_maldonado.htm [Melgratti et al] Hernán Melgratti, Daniel Yankelevich, Search Engine Coverage and Overlap, ASSE2000, Tandil pag. 107-116, departamento de Computación DCEyN, UBA, Argentina [Nielsen 99] Nielsen J., 1999, Designing Web Usability: The Practice of Simplicity, New Riders Pub. [Segey et al] Sergey Brin, Lawrence Page, The Anatomy of a Large-Scale Hypertectual Web Search Engine, WWW7, Computer Netword 30(1-7): 107-117 (1998). http://dbpubs.stanford.edu:8090/pub/1998-8 file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (15 of 16) [10/11/2001 2:37:15 PM]

[Stanford I] Proyecto GOOGLE, Universidad de Stanford, disponible en http://google.stanford.edu [Vigo] Juan Miguel Vigo, Robots HTTP I, Revista Solo Programadores 75 pag 8 a 13. [Wishard] Precisión entre los motores de búsqueda de Internet: Un caso de estudio sobre geología, Lisa Wishard, Earth and Mineral Sciences Library, 105 Deike Bldg. The Pennsylvania State University, University Park, PA 16802. Disponible en http://www.bibnal.edu.ar/engines.htm file:///c /WINDOWS/Escritorio/zzz/motores_de_ busqueda_lafuente.html (16 of 16) [10/11/2001 2:37:15 PM]