Representación de páginas web a través de sus enlaces y su aplicación a la recuperación de información.



Documentos relacionados
DEFINICIÓN DE INDICADORES

Capitalización y descuento simple

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

12-16 de Noviembre de Francisco Javier Burgos Fernández

Representación de páginas web a través de sus enlaces y su aplicación a la recuperación de información

CANTIDADES VECTORIALES: VECTORES

Unidad I Definición de reacción de combustión Clasificación de combustibles

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Trabajo y Energía Cinética

CÁLCULO VECTORIAL 1.- MAGNITUDES ESCALARES Y VECTORIALES. 2.- VECTORES. pág. 1

ACTIVIDADES INICIALES

RESISTENCIAS EN SERIE Y LEY DE LAS MALLAS V 1 V 2 V 3 A B C

Título: El contenido semántico de los enlaces de las páginas web desde el punto de vista de la recuperación de la información

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

EXPERIMENTACIÓN COMERCIAL(I)

Gráficos de flujo de señal

Clase 25. Macroeconomía, Sexta Parte

Cifrado de imágenes usando autómatas celulares con memoria

Trabajo Especial 2: Cadenas de Markov y modelo PageRank

TEMA 10. OPERACIONES PASIVAS Y OPERACIONES ACTIVAS.

v i CIRCUITOS ELÉCTRICOS (apuntes para el curso de Electrónica)

Unidad Central del Valle del Cauca Facultad de Ciencias Administrativas, Económicas y Contables Programa de Contaduría Pública

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

Pruebas Estadísticas de Números Pseudoaleatorios

Determinación de Puntos de Rocío y de Burbuja Parte 1

1.- Una empresa se plantea una inversión cuyas características financieras son:

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

**NOTA** las partes tachadas todavía no están escritas, se ira actualizando poco a poco el documento

Transparencia Salamanca: Portal de Transparencia en pequeños municipios.

Disipación de energía mecánica

Tema 3: Adaptadores de Señal

ADENDA 008 LICITACIÓN L-CEEC

2.5 Especialidades en la facturación eléctrica

Relaciones entre variables

CONTROVERSIAS A LAS BASES TÉCNICO ECONOMICAS PRELIMINARES PROCESO TARIFARIO CONCESIONARIA COMPAÑÍA DE TELÉFONOS DE COYHAIQUE S.A.

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Física I. TRABAJO y ENERGÍA MECÁNICA. Apuntes complementarios al libro de texto. Autor : Dr. Jorge O. Ratto

Diseño de una estrategia tecnológica de Customer Relationship Management (CRM) para la empresa BPM de México. CAPITULO 6

ESTRATEGIAS DIDÁCTICAS PARA ABORDAR LA EDUCACIÓN

RESOLUCIÓN DE ERRORES EN MOODLE CAMPUS VIRTUAL-BIRTUALA UPV-EHU

Matemática Financiera Sistemas de Amortización de Deudas

GUIA DE ALCANCE FINANCIERO CAE OPERACIONES DE CRÉDITO HIPOTECARIO

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Algoritmo para la ubicación de un nodo por su representación binaria

NUEVAS SOLUCIONES y CAMBIOS EN LA GESTION DEL NEGOCIO. JOSE LUIS LENCE Socio Director de Gesfarm Consultoria Farmacias

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

CUADRIENIO

Colegio Alexander von Humboldt - Lima. Tema: La enseñanza de la matemática está en un proceso de cambio

DI Macarena Ponce- DI Belén Martin 1

Gonio espectrofotómetro para medir la función de distribución bidireccional de dispersión (BSDF)

Antoni Miró. Experiencia previa y formación

Música. Tocar y cantar Autor: Carlos Guido

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Combinar comentarios y cambios de varios documentos en un documento

Enlace ContPaq i Nóminas Nomipaq

Resumen de investigación

Diseño y desarrollo de una aplicación informática para la gestión de laboratorios

Negro x Zafiro: Todos Negros. Negro x Zafiro: 1/2 Negros y ½ Zafiro. Negro x Zafiro: ½ Negros y ½ Platino. Zafiro x Zafiro: Todos Zafiro

Lección IV-1 Unidad IV: La Iglesia Página 221 La Iglesia: Prometida y Establecida

Breve Estudio sobre la Aplicación de los Algoritmos Genéticos a la Recuperación de Información

1.1 Ejercicios Resueltos Tema 1

El Mapa conceptual. Como estrategia didáctica para el aprendizaje. Introducción

PROGRAMAS OFICIALES DE POSGRADO

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

Índice de Precios de las Materias Primas

Consideraciones empíricas del consumo de los hogares: el caso del gasto en electricidad y alimentos

RESUMEN DE RESULTADOS

APENDICE A. El Robot autónomo móvil RAM-1.

Revisión del Universo de empresas para la Estimación de los Datos Del Mercado Español de Investigación de Mercados y Opinión.

Equilibrio termodinámico entre fases fluidas

Ingeniería de Software I

Uso de las tecnologias de la informacion en las PyMES de los municipios de Comalcalco y Cunduacán

Estructurar la información dentro del ordenador:

Leyes de tensión y de corriente

Una experiencia piloto de aplicación del inglés en los estudios de Turismo y Empresariales de la Universidad de Córdoba

MANUAL DEL PROGRAMA DE ASESORAMIENTO (Asesores) Navegador y limpiar caché/cookies...2 Acceso al programa de Asesoramiento... 7

ALGORITMO DE RANKING DINÁMICO BASADO EN REALIMENTACIÓN IMPLÍCITA

Redes Sociales. Que hay de nuevo con ellas?

Es una persona que ayudará a que los derechos de las personas con discapacidad se hagan realidad

BÚSQUEDA AVANZADA EN INTERNET

Tutorial para la creación de un blog institucional

UNIDAD 6. POLINOMIOS CON COEFICIENTES ENTEROS

La ventana de Microsoft Excel

Propuesta de Trabajo. nuestro proyecto emprendedor I

Práctica Motores de búsqueda: fiabilidad

Análisis de esquemas XML [1]

TEMA 4 Amplificadores realimentados

Respuesta A.C. del FET 1/14

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Carteleras. Elaborar una agenda de conciertos y actividades musicales

Guía de ejercicios #1

FeriaOnline.com C/Llamaquique Nº 4 Tfno: Oviedo mail: info@feriaonline.com Url:

Apuntes de Matemática Discreta 1. Conjuntos y Subconjuntos

Lección 24: Lenguaje algebraico y sustituciones

POR QUÉ EL VALOR PRESENTE NETO CONDUCE A MEJORES DECISIONES DE INVERSIÓN QUE OTROS CRITERIOS? ( Brealey & Myers )

Estructuras de Datos y Algoritmos. Árboles de Expresión

Transcripción:

Representacón de págnas web a través de sus enlaces y su aplcacón a la recuperacón de nformacón. José Lus Alonso Berrocal (berrocal@gugu.usal.es) Carlos G. Fguerola (fgue@gugu.usal.es) Ángel Francsco Zazo Rodríguez (afzazo@gugu.usal.es) Unversdad de Salamanca. Facultad de Documentacón. C/ Francsco Vtora, 6-16, 37008 - Salamanca 0.1 Resumen Los sstemas más habtuales de Recuperacón de la Informacón se basan en consegur una representacón homogénea y procesable de documentos y consultas, y en el cálculo subsguente de alguna funcón que exprese el grado de smlardad entre una consulta dada y cada uno de los documentos de una coleccón. Por regla general, tales representacones toman como base las palabras o térmnos que aparecen en los documentos. Las págnas web, sn embargo, contenen hperenlaces, lo que sugere la posbldad de representar dchas págnas en funcón de tales hperenlaces, en lugar de térmnos. Se descrbe un expermento exploratoro efectuado para estmar la vabldad de esta hpótess. Los resultados de dcho expermento sugeren que los hperenlaces pueden ser aplcados ventajosamente en la representacón de las págnas web, pero tambén que es precso defnr y aplcar mecansmos correctores. Palabras clave: Recuperacón de la nformacón. World Wde Web. Internet. Modelo Vectoral. 0.2 Abstract The most habtual systems n Informaton Retreval are based both on gettng a homogeneous and easly processed representaton of documents and searches, and on the subsequent calculaton of some functon that expresses the degree of smlarty between a gven search and each one of the documents n a collecton. Generally, such representatons take the words or terms that appear n the documents as base. Web pages, however, contan hyperlnks, whch suggests the possblty of representng such pages as a functon of hyperlnks, nstead of terms. We descrbe an exploratory experment carry out to estmate the vablty of ths hypothess. The results of ths experment suggest that hyperlnks can be appled advantageously n the representaton of web pages, but t s also necessary to defne and apply correctve mechansms. Keywords: Informaton Retreval. WWW. Internet. Vectoral Model. 1. Introduccón La base de los dversos sstemas de Recuperacón de Informacón, ndependentemente del modelo teórco subyacente, consste en la mplementacón de algún formalsmo que permta representar cada uno de los documentos y las posbles consultas que los usuaros puedan formular al sstema. La resolucón de esas consultas consste en la computacón de alguna funcón de smlardad que compare la representacón de una consulta dada con las representacones de los documentos, y establezca el grado de adecuacón entre ambos (Salton, 1987). De hecho, esto es lo que se hace ncluso en sstemas manuales o semmanuales, como puede ser el típco programa de gestón del catálogo de una bbloteca. La operacón de catalogar un lbro no es más que la elaboracón de una representacón del msmo, aplcando (manualmente) un formalsmo determnado.

Naturalmente, la bondad de unos sstemas frente a otros en lo referente a efectvdad en la recuperacón depende de la mayor o menor capacdad del formalsmo utlzado para representar adecuadamente cada documento, así como de las característcas de la funcón de smlardad utlzada, aunque ésta últma venen determnada por las característcas del formalsmo de representacón. En cualquer caso, en los sstemas de recuperacón automátcos (Luc, 1998) dcha representacón suele basarse en las palabras o térmnos que aparecen en los documentos y/o en las consultas, formuladas en lenguaje natural. Dchos térmnos pueden selecconarse en funcón de dversos planteamentos, y valorarse o pesarse basándose en dferentes mecansmos o crteros; pero son dchos térmnos los elementos báscos utlzados para representar los documentos (Salton, 1983; Rjsbergen, 1979). En este sentdo, parece evdente que cualquer págna web puede ser consderada un documento, y que puede ser representada aplcando cualquera de los modelos de recuperacón exstentes, tomando como base el texto que forma parte de dcha págna. Ahora ben, en las págnas web no sólo hay texto; además de mágenes, sondo, elementos de captacón de datos (por ejemplo, formularos) y otras dversones, exsten hpervínculos o enlaces con otras págnas o, en general, con otros recursos dsponbles en la red. La exstenca de tales enlaces es precsamente lo que confere su partcular carácter a cada págna web, en el sentdo de que la hace dferente de un documento convenconal. A partr de estos enlaces el espaco web puede ser consderado como un grafo drgdo, en el cual los nodos serían las dferentes págnas exstentes, y los arcos los hpervínculos que enlazan un nodo con otro (Ells, 1994). Al ser un grafo drgdo (un hpervínculo se actva en un nodo determnado y nos drge haca otro nodo concreto), podemos dstngur entre enlaces o arcos entrantes y salentes. Así, s hacemos abstraccón del contendo nterno de cada nodo o págna, podríamos defnr cada uno de ellos en funcón de su stuacón en el grafo, es decr, sobre la base de los enlaces que mantene haca otros nodos y a los que otros nodos mantenen con él. En consecuenca, podría plantearse representar una págna web desde el punto de vsta de su posble recuperacón basándose en los enlaces de dcha págna, en lugar de hacerlo a partr del texto de la msma, como habtualmente hacen la mayor parte de los buscadores tpo Lycos, Altavsta y otros (Almnd, 1997; Larson, 1996;Woodruff, 1996). Naturalmente, esto elmna nformacón mportante (la que aparece en forma de texto) que no sería utlzada en la recuperacón. Sn embargo, dado que los enlaces no suelen apuntar de forma caprchosa, podríamos pensar que dos págnas que apuntan haca los msmos nodos deben tratar de temas smlares (Joachms y otros, 1995). Las ventajas de tales planteamentos, en caso de ser vables, parecen claras: de un lado, tendríamos una reduccón mportante de los recursos de máquna necesaros para la recuperacón, dado que en general las págnas suelen tener bastante menos enlaces que térmnos. Por otro, permtría recuperar la nformacón de manera ndependente del doma, tanto de las págnas o documentos como del propo usuaro que formula la consulta. Asmsmo, dado que se representan enlaces y no el texto, se evtaría la pcaresca de muchas págnas web que repten ntenconadamente una o varas palabras, y que muchos buscadores nterpretan como más relevantes. 2. Descrpcón del expermento A partr de estos presupuestos hemos llevado a cabo un expermento tendente a sondear la vabldad y las posbldades de tal planteamento, así como los posbles problemas que puderan sobrevenr. Para dcho expermento hemos utlzado una coleccón documental (nuestro espaco de búsqueda) consttudo por 99.546 págnas web, recogdas de forma automátca por un pequeño

robot a partr de domnos de nsttucones académcas y de nvestgacón españolas (Alonso Berrocal, 1997). De esta coleccón se selecconaron 200 págnas cuya msón fue la de servr como consultas, es decr, como modelos de los cuales era necesaro recuperar las págnas más smlares. A la coleccón así formada se le aplcó el modelo vectoral clásco (Salton, 1983), consttuyendo vectores de cada una de las 99.546 págnas con los enlaces salentes de las msmas. Los elementos de cada vector o enlaces se pesaron utlzando el esquema estándar (Salton y Buckley, 1988) de Consderando IDF como donde, Fe IDP N log 2 + 1 ne Fe es la frecuenca del enlace en la págna, N es el número total de págnas en la coleccón y ne es número de págnas en que aparece el enlace A su vez, la funcón de smlardad aplcada es la típca del coseno, utlzada amplamente en operacones de recuperacón de nformacón (Harman, 1992): donde, SIM ( X, Y ) = n = 1 n = 1 X X Y 2 n = 1 Y 2 X es el vector de la consulta, Y es el vector del documento, X es el elmento de X, Y es el elemento de Y, N es el número de elementos o térmnos en los vectores. Las 200 consultas fueron realzadas medante la utlzacón de una versón adaptada del software expermental Karpanta (Fguerola, 1999). 3. Evaluacón de los resultados Por lo que se refere a la evaluacón de los resultados, hay que ndcar que se trabajó exclusvamente sobre la precsón, toda vez que resulta mposble conocer el número total de págnas relevantes para cada una de las 200 consultas en todo el espaco de búsqueda consderado. Además, se tuveron en cuenta los prmeros 50 documentos recuperados para cada consulta.

Para determnar las relevancas de esos prmero 50 documento recuperados se aplcaron las estmacones de 5 personas, las cuales examnaron de forma ndependente los resultados de todas las consultas. Fnalmente, se consderaron como relevantes aquellos documentos recuperados que obtuveron al menos 3 votos. Los resultados globales quedan reflejados en el gráfco 1. Aunque es dfícl hacer una estmacón rgurosa de dcho gráfco al carecer de puntos de referenca homologables, parece, sn embargo, que tales resultados podrían consderarse como muy aceptables: valores ncales superores a 0.8, que se mantenen por encma del 0.5 durante toda la curva, es decr, valores altos y relatvamente constantes. Fgura 1. Precsón de los resultados de las búsquedas. Un examen un poco más a fondo de las págnas recuperadas, muestra no obstante, factores que deben tenerse en cuenta y que matzan consderablemente la bondad de los resultados obtendos en precsón. En efecto, el 83.2% de las 50 prmeras págnas relevantes recuperadas pertenecen al msmo domno que la utlzada como consulta (fgura 2). Esto no quere decr que no se recuperen págnas relevantes de otros domnos, pero se hace en menor cuantía y en puestos más avanzados, es decr, con un índce de smlardad menor.

Stuacón de págnas relevantes 16,8 Msmo domno Otro Domno 83,2 Fgura 2. Así pues, parece que el sstema da mayor mportanca a las págnas cercanas a la utlzada como consulta. Parece razonable pensar que de todas formas es más probable que haya un mayor número de págnas smlares o fuertemente relaconadas en el msmo entorno. Sn embargo, y sn perjuco de efectuar análss más detallados, el hecho es que una aplcacón de este modo de representacón tal como la hemos efectuado devuelve, en efecto, págnas relevantes, pero predomnantemente aquéllas que se encuentran en las cercanías de la págna de partda. El problema puede verse de forma más clara s decmos que el 77% de las págnas relevantes recuperadas se encuentran a una dstanca gual o nferor a 2 de la págna utlzada como consulta. Esto sgnfca que buena parte de las págnas recuperadas, aún sendo relevantes, son accesbles drecta o cas drectamente actvando los hperenlaces de la págna de partda. 4. Conclusones El uso de enlaces salentes para representar contendos de págnas web con vstas a su posteror recuperacón puede ser una vía efcaz que puede aportar ventajas mportantes sobre la utlzacón de térmnos. Entre éstas están la que supone reducr en varos ordenes de magntud los cálculos de máquna necesaros para la recuperacón, y la de obvar el problema de las dferencas domátcas entre documentos y personas que efectúen las búsquedas. Sn embargo, es precso nclur en los métodos de cálculo de pesos de los menconados enlaces algunos mecansmos correctores, que lmten la nfluenca en los resultados de aquéllas págnas que son cercanas a la págna utlzada como consulta. 5. Referencas: Alonso Berrocal, José Lus (1997) Herramenta software para el análss de la documentacón WEB : rastreo de domnos, estudo de etquetas, tpología de fcheros, evolucón de los enlaces. Salamanca : Unversdad de Salamanca, Facultad de Traduccón y Documentacón, 1997. Almnd, Tomas C. y Ingwersen, Peter (1997). Informetrc analyses on the World Wde Web: methodologcal approaches to webometrcs.// Journal of Documentaton, 53:4, 404-426

Ells, D.; Furner-Hnes, J. y Wllet, P. (1994). On the creaton of hypertext lnks n full-text documents: measurement of nter-lnker consstency.// Journal of Documentaton, 50:2, 67-98. Fguerola, C.G. (1999). Karpanta, URL: <http://mlano.usal.es/karpanta>. Consulta: 1999. Harman, D. (1992). Rankng Algorthms. // Informaton Retreval: Data Structures and Algorthms: Prentce Hall, 1992. P. 363-392. Joachms, T.; Mtchell, T.; Fretag, D. y Armstrong, R. (1995): WebWatcher: Machne Learnng and Hypertext. URL <http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-6/webagent/www/mltagung-e.ps.z>. Larson, Ray R. (1996). Bblometrcs of the World Wde Web: an exploratory analyss of the ntellectual structure of cyberspace. URL: <http://sherlock.berkeley.edu/ass96/ass96.html> Goffnet, Luc y Norhomme-Frature, Monque (1998). Automatc hypertext lnk generaton. URL: <http://www.nfo.fundp.ac.be/~lgo/hypertext/semantc_lnks.html> Rjsbergen, C.J. van (1979): Informaton Retreval, Butterwoths, London, 1979. Salton, G. y McGll, M. (1983): Introducton to Modern Informaton Retreval, McGraw-Hll, New York, 1983. Salton, G. (1987): On the relatonshps between theoretcal retreval models. Informetrcs 87/88, Depenbeeck (Bélgca), 1987, pp. 263-270. Salton, G. y Buckley, C. (1988): Term-Weghtng Approaches n Automatc Text Retreval, Informaton Processng & Management, 24(5), 513-523. Woodruff, Allson y otros (1996). An nvestgaton of documents from the World Wde Web.// Ffth Internatonal World Wde Web Conference, May 6-10, Pars, France.