Representación de páginas web a través de sus enlaces y su aplicación a la recuperación de información.

Representacón de págnas web a través de sus enlaces y su aplcacón a la recuperacón de nformacón. José Lus Alonso Berrocal (berrocal@gugu.usal.es) Carlos G. Fguerola (fgue@gugu.usal.es) Ángel Francsco Zazo Rodríguez (afzazo@gugu.usal.es) Unversdad de Salamanca. Facultad de Documentacón. C/ Francsco Vtora, 6-16, 37008 - Salamanca 0.1 Resumen Los sstemas más habtuales de Recuperacón de la Informacón se basan en consegur una representacón homogénea y procesable de documentos y consultas, y en el cálculo subsguente de alguna funcón que exprese el grado de smlardad entre una consulta dada y cada uno de los documentos de una coleccón. Por regla general, tales representacones toman como base las palabras o térmnos que aparecen en los documentos. Las págnas web, sn embargo, contenen hperenlaces, lo que sugere la posbldad de representar dchas págnas en funcón de tales hperenlaces, en lugar de térmnos. Se descrbe un expermento exploratoro efectuado para estmar la vabldad de esta hpótess. Los resultados de dcho expermento sugeren que los hperenlaces pueden ser aplcados ventajosamente en la representacón de las págnas web, pero tambén que es precso defnr y aplcar mecansmos correctores. Palabras clave: Recuperacón de la nformacón. World Wde Web. Internet. Modelo Vectoral. 0.2 Abstract The most habtual systems n Informaton Retreval are based both on gettng a homogeneous and easly processed representaton of documents and searches, and on the subsequent calculaton of some functon that expresses the degree of smlarty between a gven search and each one of the documents n a collecton. Generally, such representatons take the words or terms that appear n the documents as base. Web pages, however, contan hyperlnks, whch suggests the possblty of representng such pages as a functon of hyperlnks, nstead of terms. We descrbe an exploratory experment carry out to estmate the vablty of ths hypothess. The results of ths experment suggest that hyperlnks can be appled advantageously n the representaton of web pages, but t s also necessary to defne and apply correctve mechansms. Keywords: Informaton Retreval. WWW. Internet. Vectoral Model. 1. Introduccón La base de los dversos sstemas de Recuperacón de Informacón, ndependentemente del modelo teórco subyacente, consste en la mplementacón de algún formalsmo que permta representar cada uno de los documentos y las posbles consultas que los usuaros puedan formular al sstema. La resolucón de esas consultas consste en la computacón de alguna funcón de smlardad que compare la representacón de una consulta dada con las representacones de los documentos, y establezca el grado de adecuacón entre ambos (Salton, 1987). De hecho, esto es lo que se hace ncluso en sstemas manuales o semmanuales, como puede ser el típco programa de gestón del catálogo de una bbloteca. La operacón de catalogar un lbro no es más que la elaboracón de una representacón del msmo, aplcando (manualmente) un formalsmo determnado.

Naturalmente, la bondad de unos sstemas frente a otros en lo referente a efectvdad en la recuperacón depende de la mayor o menor capacdad del formalsmo utlzado para representar adecuadamente cada documento, así como de las característcas de la funcón de smlardad utlzada, aunque ésta últma venen determnada por las característcas del formalsmo de representacón. En cualquer caso, en los sstemas de recuperacón automátcos (Luc, 1998) dcha representacón suele basarse en las palabras o térmnos que aparecen en los documentos y/o en las consultas, formuladas en lenguaje natural. Dchos térmnos pueden selecconarse en funcón de dversos planteamentos, y valorarse o pesarse basándose en dferentes mecansmos o crteros; pero son dchos térmnos los elementos báscos utlzados para representar los documentos (Salton, 1983; Rjsbergen, 1979). En este sentdo, parece evdente que cualquer págna web puede ser consderada un documento, y que puede ser representada aplcando cualquera de los modelos de recuperacón exstentes, tomando como base el texto que forma parte de dcha págna. Ahora ben, en las págnas web no sólo hay texto; además de mágenes, sondo, elementos de captacón de datos (por ejemplo, formularos) y otras dversones, exsten hpervínculos o enlaces con otras págnas o, en general, con otros recursos dsponbles en la red. La exstenca de tales enlaces es precsamente lo que confere su partcular carácter a cada págna web, en el sentdo de que la hace dferente de un documento convenconal. A partr de estos enlaces el espaco web puede ser consderado como un grafo drgdo, en el cual los nodos serían las dferentes págnas exstentes, y los arcos los hpervínculos que enlazan un nodo con otro (Ells, 1994). Al ser un grafo drgdo (un hpervínculo se actva en un nodo determnado y nos drge haca otro nodo concreto), podemos dstngur entre enlaces o arcos entrantes y salentes. Así, s hacemos abstraccón del contendo nterno de cada nodo o págna, podríamos defnr cada uno de ellos en funcón de su stuacón en el grafo, es decr, sobre la base de los enlaces que mantene haca otros nodos y a los que otros nodos mantenen con él. En consecuenca, podría plantearse representar una págna web desde el punto de vsta de su posble recuperacón basándose en los enlaces de dcha págna, en lugar de hacerlo a partr del texto de la msma, como habtualmente hacen la mayor parte de los buscadores tpo Lycos, Altavsta y otros (Almnd, 1997; Larson, 1996;Woodruff, 1996). Naturalmente, esto elmna nformacón mportante (la que aparece en forma de texto) que no sería utlzada en la recuperacón. Sn embargo, dado que los enlaces no suelen apuntar de forma caprchosa, podríamos pensar que dos págnas que apuntan haca los msmos nodos deben tratar de temas smlares (Joachms y otros, 1995). Las ventajas de tales planteamentos, en caso de ser vables, parecen claras: de un lado, tendríamos una reduccón mportante de los recursos de máquna necesaros para la recuperacón, dado que en general las págnas suelen tener bastante menos enlaces que térmnos. Por otro, permtría recuperar la nformacón de manera ndependente del doma, tanto de las págnas o documentos como del propo usuaro que formula la consulta. Asmsmo, dado que se representan enlaces y no el texto, se evtaría la pcaresca de muchas págnas web que repten ntenconadamente una o varas palabras, y que muchos buscadores nterpretan como más relevantes. 2. Descrpcón del expermento A partr de estos presupuestos hemos llevado a cabo un expermento tendente a sondear la vabldad y las posbldades de tal planteamento, así como los posbles problemas que puderan sobrevenr. Para dcho expermento hemos utlzado una coleccón documental (nuestro espaco de búsqueda) consttudo por 99.546 págnas web, recogdas de forma automátca por un pequeño

robot a partr de domnos de nsttucones académcas y de nvestgacón españolas (Alonso Berrocal, 1997). De esta coleccón se selecconaron 200 págnas cuya msón fue la de servr como consultas, es decr, como modelos de los cuales era necesaro recuperar las págnas más smlares. A la coleccón así formada se le aplcó el modelo vectoral clásco (Salton, 1983), consttuyendo vectores de cada una de las 99.546 págnas con los enlaces salentes de las msmas. Los elementos de cada vector o enlaces se pesaron utlzando el esquema estándar (Salton y Buckley, 1988) de Consderando IDF como donde, Fe IDP N log 2 + 1 ne Fe es la frecuenca del enlace en la págna, N es el número total de págnas en la coleccón y ne es número de págnas en que aparece el enlace A su vez, la funcón de smlardad aplcada es la típca del coseno, utlzada amplamente en operacones de recuperacón de nformacón (Harman, 1992): donde, SIM ( X, Y ) = n = 1 n = 1 X X Y 2 n = 1 Y 2 X es el vector de la consulta, Y es el vector del documento, X es el elmento de X, Y es el elemento de Y, N es el número de elementos o térmnos en los vectores. Las 200 consultas fueron realzadas medante la utlzacón de una versón adaptada del software expermental Karpanta (Fguerola, 1999). 3. Evaluacón de los resultados Por lo que se refere a la evaluacón de los resultados, hay que ndcar que se trabajó exclusvamente sobre la precsón, toda vez que resulta mposble conocer el número total de págnas relevantes para cada una de las 200 consultas en todo el espaco de búsqueda consderado. Además, se tuveron en cuenta los prmeros 50 documentos recuperados para cada consulta.

Para determnar las relevancas de esos prmero 50 documento recuperados se aplcaron las estmacones de 5 personas, las cuales examnaron de forma ndependente los resultados de todas las consultas. Fnalmente, se consderaron como relevantes aquellos documentos recuperados que obtuveron al menos 3 votos. Los resultados globales quedan reflejados en el gráfco 1. Aunque es dfícl hacer una estmacón rgurosa de dcho gráfco al carecer de puntos de referenca homologables, parece, sn embargo, que tales resultados podrían consderarse como muy aceptables: valores ncales superores a 0.8, que se mantenen por encma del 0.5 durante toda la curva, es decr, valores altos y relatvamente constantes. Fgura 1. Precsón de los resultados de las búsquedas. Un examen un poco más a fondo de las págnas recuperadas, muestra no obstante, factores que deben tenerse en cuenta y que matzan consderablemente la bondad de los resultados obtendos en precsón. En efecto, el 83.2% de las 50 prmeras págnas relevantes recuperadas pertenecen al msmo domno que la utlzada como consulta (fgura 2). Esto no quere decr que no se recuperen págnas relevantes de otros domnos, pero se hace en menor cuantía y en puestos más avanzados, es decr, con un índce de smlardad menor.

Stuacón de págnas relevantes 16,8 Msmo domno Otro Domno 83,2 Fgura 2. Así pues, parece que el sstema da mayor mportanca a las págnas cercanas a la utlzada como consulta. Parece razonable pensar que de todas formas es más probable que haya un mayor número de págnas smlares o fuertemente relaconadas en el msmo entorno. Sn embargo, y sn perjuco de efectuar análss más detallados, el hecho es que una aplcacón de este modo de representacón tal como la hemos efectuado devuelve, en efecto, págnas relevantes, pero predomnantemente aquéllas que se encuentran en las cercanías de la págna de partda. El problema puede verse de forma más clara s decmos que el 77% de las págnas relevantes recuperadas se encuentran a una dstanca gual o nferor a 2 de la págna utlzada como consulta. Esto sgnfca que buena parte de las págnas recuperadas, aún sendo relevantes, son accesbles drecta o cas drectamente actvando los hperenlaces de la págna de partda. 4. Conclusones El uso de enlaces salentes para representar contendos de págnas web con vstas a su posteror recuperacón puede ser una vía efcaz que puede aportar ventajas mportantes sobre la utlzacón de térmnos. Entre éstas están la que supone reducr en varos ordenes de magntud los cálculos de máquna necesaros para la recuperacón, y la de obvar el problema de las dferencas domátcas entre documentos y personas que efectúen las búsquedas. Sn embargo, es precso nclur en los métodos de cálculo de pesos de los menconados enlaces algunos mecansmos correctores, que lmten la nfluenca en los resultados de aquéllas págnas que son cercanas a la págna utlzada como consulta. 5. Referencas: Alonso Berrocal, José Lus (1997) Herramenta software para el análss de la documentacón WEB : rastreo de domnos, estudo de etquetas, tpología de fcheros, evolucón de los enlaces. Salamanca : Unversdad de Salamanca, Facultad de Traduccón y Documentacón, 1997. Almnd, Tomas C. y Ingwersen, Peter (1997). Informetrc analyses on the World Wde Web: methodologcal approaches to webometrcs.// Journal of Documentaton, 53:4, 404-426

Ells, D.; Furner-Hnes, J. y Wllet, P. (1994). On the creaton of hypertext lnks n full-text documents: measurement of nter-lnker consstency.// Journal of Documentaton, 50:2, 67-98. Fguerola, C.G. (1999). Karpanta, URL: <http://mlano.usal.es/karpanta>. Consulta: 1999. Harman, D. (1992). Rankng Algorthms. // Informaton Retreval: Data Structures and Algorthms: Prentce Hall, 1992. P. 363-392. Joachms, T.; Mtchell, T.; Fretag, D. y Armstrong, R. (1995): WebWatcher: Machne Learnng and Hypertext. URL <http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-6/webagent/www/mltagung-e.ps.z>. Larson, Ray R. (1996). Bblometrcs of the World Wde Web: an exploratory analyss of the ntellectual structure of cyberspace. URL: <http://sherlock.berkeley.edu/ass96/ass96.html> Goffnet, Luc y Norhomme-Frature, Monque (1998). Automatc hypertext lnk generaton. URL: <http://www.nfo.fundp.ac.be/~lgo/hypertext/semantc_lnks.html> Rjsbergen, C.J. van (1979): Informaton Retreval, Butterwoths, London, 1979. Salton, G. y McGll, M. (1983): Introducton to Modern Informaton Retreval, McGraw-Hll, New York, 1983. Salton, G. (1987): On the relatonshps between theoretcal retreval models. Informetrcs 87/88, Depenbeeck (Bélgca), 1987, pp. 263-270. Salton, G. y Buckley, C. (1988): Term-Weghtng Approaches n Automatc Text Retreval, Informaton Processng & Management, 24(5), 513-523. Woodruff, Allson y otros (1996). An nvestgaton of documents from the World Wde Web.// Ffth Internatonal World Wde Web Conference, May 6-10, Pars, France.