Cibermetría el Web: Las leyes e exponenciación. Autores: José Luis Alonso Berrocal Carlos G. Figuerola Ángel F. Zazo Roríguez Universia e Salamanca. Faculta e Documentación. E-mail: [berrocal figue afzazo]@gugu.usal.es Dirección Postal: Faculta e Documentación C/ Francisco Vitoria, 6-16, 37008 Salamanca Tfno: +34 923 294580 Fax: +34 923 294582 Resumen: Se realiza una introucción a las leyes e exponenciación, enunciaas por Michalis Faloutsos y que nos permiten realizar una caracterización el Web a través el análisis e su topología. Se escriben sus características más importantes y cómo se calculan algunos e los valores e las funciones más interesantes. Palabras clave: Leyes e exponenciación, web, internet, grafos, topologías e re, cibermetría. Abstract: An introuction to the power laws, enunciate by Michalis Faloutsos, is mae an that allows us to make a characterization of the Web through the analysis of their topology. Their most important characteristics are escribe an how calculate some of the values of the most interesting functions. Keywors: Power laws, web, internet, graphs, networks topologies, cybermetrics.
1. Introucción El estuio el Worl Wie Web se está convirtieno en uno e los campos e investigaci ón más interesantes y como ice (Kleinberg, 1999) pocos eventos e la historia e la computación han tenio tanta influencia en la sociea como la llegaa y crecimiento el Worl Wie Web. Precisamente este crecimiento (2000 millones e páginas Web en el verano el 2000 según (Aguillo, 2000)) y esta influencia (basaa en los contenios) han creao un sistema e comunicación e información muy potente, pero que al mismo tiempo tiene enormes carencias ese el punto e vista ocumental y por ello es necesario aborar su estuio. Para algunos autores (Turnbull, 1996) este estuio ebe realizarse con las técnicas bibliométricas clásicas y e análisis e citas, sin embargo es necesario realizar otros estuios y abrir nuevas vías e investigación que nos permitan caracterizar aecuaamente el Web, porque no hay que olviar que el tipo e información con el que estamos trabajano, por ejemplo, tiene unos niveles e permanencia (Koehler, 1999) concretos que nos obliga a ajustar nuestras técnicas e estuio. 1.1. Trabajos relacionaos. Los trabajos que tratan e analizar en alguno e sus aspectos el Web son amplios y variaos en cuanto a pretensiones y estuio, por ello inicaremos algunos e los que consieramos más interesantes. En primer lugar estarían los trabajos que estuian o tratan e analizar aspectos cuantitativos el Web, como son toos los aspectos relacionaos con tamaño el Web, tamaño e las páginas, tipos e etiquetas, y el cálculo e eterminaos ínices como el factor e impacto Web (WIF), visibilia, luminosia, ensia e enlaces, enogamia, etc. iseminaos en varios trabajos como los e (Aguillo, 2000), (Arellano, 1999), (Bray, 1996), (Ingwersen, 1998), (Larson, 1996), (Wooruff, 1996). También nos encontramos con otras investigaciones que tratan e analizar la topología web, la estructura hipertexto, su iseño y sus características, creano una serie e ínices que caractericen ichas estructuras. Nos encontramos con ínices como
los e Ranic, Compactación, Stratum, etc., que se analizan en trabajos como los e (Almin, 1997), (Botafogo, 1991), (Botafogo, 1992), (Ellis, 1998), (Smeaton, 1995). Finalmente, estarían toos aquellos trabajos que analizan el web ese el punto e vista e la recuperación e información, algoritmos e tratamiento e la información web, naturaleza y riqueza e los enlaces, etc., entre los que estacan trabajos como (Bernstein, 1992), (Bharat, 1998), (Chakrabarti, 1998), (Chakrabarti, 1999), (Figuerola, 1998), (Alonso, 1999). Otra vía e trabajo noveosa es la e analizar la topología Web ese el punto e vista e unas nuevas leyes escubiertas por (Faloutsos, 1999), que puee ser otra vía alternativa e estuio. Precisamente sobre estas leyes vamos a realizar una introucción y comentaremos algunos e los resultaos preliminares obtenios en algunas e las investigaciones que tiene abiertas nuestro grupo e trabajo. 2. El Web visto como un grafo. Para poer analizar la topología el Web es necesario realizar una aecuaa recogia e información. Las teorías más inte resantes trabajan sobre la base e consierar el Web como un grafo irigio (Kleinberg, 1999), (Broer, 2000), (Ellis, 1994), y le aplican toas las teorías e grafos en su recogia y tratamiento posterior. Debemos consierar caa página web como un noo e icho grafo y los enlaces e las páginas las aristas irigias e icho grafo. Una representación e lo inicao anteriormente sería:
Para almacenar y tratar posteriormente esta información se generan matrices e ayacencia en las que se inica con un valor cero la no existencia e enlace y con un 1 la existencia el mismo, como se representa a continuación: Una vez que tenemos icha matriz, poemos realizar cualquier tipo e procesamiento e la misma, con infinia e trabajos relacionaos con ello como los e (Botafogo, 1992) (Ellis, 1994) que operan sobre ichas matrices y en la mayor parte e los casos obtienen ínices que nos permiten caracterizar el grafo y por asociación el Web. Las técnicas para realizar esta recogia e información son muy variaas, pero una metoología interesante y con esarrollos plenamente operativos se ofrecen en (Alonso, 1997). En el caso que nos ocupa e las leyes e exponenciación, una vez realizaa la recogia e atos y que tenemos las matrices e ayacencia corresponientes poemos operar sobre las mismas para obtener los atos e interés. Básicamente obtener el grao n j 1 e apertura e caa noo eterminao por la siguiente fórmula a ij i, obtenieno la suma e los valores e la fila i. También ebe mos obtener los valores propios e la matriz y con muy poco más poemos aborar el estuio e las leyes e exponenciación. 3. Las leyes e exponenciación. Aparentemente el Web crece e forma aleatoria y sin mecanismos que e alguna forma regulen icho crecimiento. Sin embargo, se han escubierto unas leyes muy sencillas que inican que la topología Web sigue algunas pautas e funcionamiento que son interesantes para analizar el Web y que pueen ser utilizaas para su análisis.
Los estuios e (Faloutsos, 1999) han eterminao que las topologías Web siguen leyes el tipo y x, (similares a la e la ley e Zipf) ano lugar a cuatro leyes, que caracterizan icha topología y que pasamos a comentar e forma breve. Caa una e las leyes se caracteriza por tener un valor único para toos los atos analizaos, y este valor es un exponente que nos va a permitir ientificar iferentes grafos y por lo tanto realizar comparaciones. Vamos a inicar en primer lugar algunos símbolos básicos, empleaos en este tipo e trabajos, que van a ser utilizaos: Símbolo G N Grafo Definición Número e noos en el grafo E Número e aristas en el grafo Diámetro el grafo Grao e apertura el noo v f r v P(h) n j 1 v, efinio como a ij i, es ecir la suma e toos lo valores e una fila Meia aritmética el grao e apertura e los noos el grao, efinia como 2 E / N Frecuencia e un grao e apertura, que es el número e noos con el grao e apertura Oren el noo v, que es un ínice en oren ecreciente el grao e apertura Número e pares e noos con menor o igual número e saltos Valores propios e la matriz. i El oren e i
3.1. Ley 1. Exponente e Oren R. El grao e apertura, v, e un noo v, es proporcional al oren el noo, rv, elevao a un exponente, R, R v r v El exponente e oren R, es la peniente que se obtiene con la representación el grao e apertura e los noos frente al oren e los noos en una escala logarítmica. Una e las utiliaes e este exponente, es que nos permite comparar iferentes topologías, iferenciano iferentes representaciones el grafo Web. De esta primera ley se pueen sacar algunos lemas que completan icha ley y nos ofrecen nuevos valores útiles en la caracterización e icha topología. En primer lugar, si consieramos que el mínimo grao e apertura e un noo es 1 (N = 1), poemos ecir que el grao e apertura, v, e un noo v, es una función el oren el noo, rv, y el exponente R e la siguiente forma v 1 R r R v. N Aplicano este lema poemos relacionar el número e aristas con el número e noos, N, y el exponente R 1 1 E 1 N R 1 2 R 1 N Se ha estimao que el número e aristas obtenias meiante la aplicación e este lema, ifiere entre 9-20% e los atos reales. 3.2. Ley 2. Exponente e Grao e Apertura O. La frecuencia, f, con un grao e apertura,, es proporcional al grao e apertura elevao a un exponente, O. f O
El exponente el grao e apertura O, es la peniente que se obtiene con la representación e la frecuencia el grao e apertura frente a los graos e apertura en una escala logarítmica. La presencia e esta ley inica que la istribución e los graos e apertura e los noos Web no es arbitraria, y los noos con un grao e apertura bajo son más frecuentes. 3.3. Ley 3. Exponente e representación e saltos H. El número e pares e noos, P(h), con h saltos, es proporcional al número e saltos elevao a un exponente H. P( h) h H, si h El exponente e salto H, es la pe niente que se obtiene con la representación e los pares e noos P(h) con h saltos frente al número e saltos en una escala logarítmica. Este exponente representa la conectivia e los grafos iferenciano eficientemente familias e grafos. De la aplicación e esta ley, poemos sacar algunos atos muy útiles como la e calcular el iámetro efectivo el Web, iferenciánolo e los atos aportaos por (Albert, 1999) para calcular icho iámetro. Dao un grafo e N noos, E aristas y un exponente e salto H, poemos efinir el iámetro efectivo, ef como: ef 2 N N 2 E 1 H 3.4. Ley 4. Exponente e valores propios. Los valores propios, i e un grafo son proporcionales al oren i, elevao a un exponente,. i i
El exponente e valores propios es la peniente que se obtiene al representar los valores propios frente a su oren en una escala logarítmica. Este exponente también nos permite caracterizar iferentes topologías Web, que aemás es inepeniente el crecimiento e icho Web. Los valores propios e una matriz están relacionaos con algunas propieaes como pueen ser el iámetro, el número e aristas, el número e componentes conectaos, el número e rutas existentes que poseen una eterminaa longitu, que son aspectos funamentales entro el análisis e cualquier topología. 3.5. Nuevos esarrollos e las leyes e exponenciación. Estas leyes empiezan a ser ampliamente estuiaas y uno e los mejores trabajos es el e (Meina, 2000) que meiante generación e topologías e re en laboratorio ha extraío algunas conclusiones interesantes e las mismas. Una e las primeras conclusiones es que las leyes 1 y 2 necesitan para aparecer e un crecimiento exponencial en la topología e re, permitieno rees abiertas que aceptan nuevos noos continuamente y e una conectivia preferencial, inicano una tenencia e los nuevos noos a conectarse a noos existentes con un alto grao e apertura. En las leyes 3 y 4 no se precisan e estos os parámetros y en las investigaciones los valores e su exponente no refleja ninguna variación en topologías que poseían estas características y en las que no se encontraban presentes. 4. Conclusiones. Las leyes e exponenciación son un instrumento potente para analizar el Web y meir algunas e sus características más estacaas, en especial las relacionaas con la topología. En comparación con otras técnicas e análisis e la topología, las leyes e exponenciación tienen la ventaja e un rápio y fácil procesamiento, que permiten en muy poco tiempo isponer e atos reales que posibiliten su estuio.
5. Bibliografía. (Aguillo, 2000) AGUILLO, I. F. Inicaores hacia una evaluación no objetiva (cuantitativa) e sees web. Jornaas Espanolas e Documentación, 2000, Vol. 7, p. 233-248. (Albert, 1999) ALBERT, R., JEONG, H. y BARABÁSI, A.-L. The Diameter of the Worl- Wie Web. Nature, 1999, Vol. 401, p. 130-131. (Almin, 1997) ALMIND, T. C. y INGWERSEN, P. Informetric analyses on the worl wie web: methoological approaches to 'webometrics'. Journal of Documentation, September 1997, Vol. 53, No. 4, p. 404-426. (Alonso, 1997) ALONSO BERROCAL, J. L. Herramienta software para el análisis e la ocumentación WEB: rastreo e ominios, estuio e etiquetas, tipología e ficheros, evolución e los enlaces. Salamanca: Universia e Salamanca, Faculta e Traucción y Documentación, 1997. (Alonso, 1999) ALONSO BERROCAL, J. L., FIGUEROLA, C. G. y ZAZO RODRÍGUEZ. ÁNGEL FRANCISCO. Representación e páginas web a través e sus enlaces y su aplicación a la Recuperación e Información. Scire. Representación y Organización el Conocimiento, 1999, Vol. 5, No. 2, p. 91-98. (Arellano, 1999) ARELLANO PARDO, C., RODRÍGUEZ MATEOS, D., NOGALES FLORES, J. T. y HERNÁNDEZ PÉREZ, T. Análisis e estructura e sitios web: el caso e las bibliotecas universitarias analuzas. 2as. Jornaas Analuzas e Documentación, JADOC'99, (Granaa, 1999), p. 39-50. (Bernstein, 1992) BERNSTEIN, M. Contours of Constructive Hypertexts. Procceings of ACM ECHT CONFERENCE, (Milano, 30 Noviembre-4 Diciembre e 1992), p. 161-170. (Bharat, 1998) BHARAT, K. y HENZINGER, M. R. Improve algorithms for topic istillation in a hyperlinke environment. Proceeings of the 21st International ACM SIGIR Conference on Research an Development in Information retrieval, (1998), p. 104-111. (Botafogo, 1992) BOTAFOGO, R. A., RIVLIN, E. y SHNEIDERMAN, B. Structural Analysis of Hypertexts: Ientifying Hierarchies an Useful Metrics. ACM Transactions on Information Systems, April 1992, Vol. 10, No. 2, p. 142-180. (Botafogo, 1991) BOTAFOGO, R. A. y SHNEIDERMAN, B. Ientifying aggregates in Hypertext structures. Proceeings of Hypertext'91, (Diciembre e 1991), p. 63-74. (Bray, 1996) BRAY, T. Measuring the Web. Fifth International Worl Wie Web Conference, (Paris, France, 6-10 May 1996). (Broer, 2000) BRODER, A., KUMAR, R., MAGHOUL, F., RAGHAVAN, P., RAJAGOPALAN, S., STATA, R., TOMKINS, A. y WIENER, J. Graph structure in the web. 9th. International Worl Wie Web Conference, (Amsteram, May 15-19, 2000). (Chakrabarti, 1999) CHAKRABARTI, S., DOM, B., GIBSON, D. y KLEINBERG, J. Mining the link structure of the Worl Wie Web. IEEE Computer, August 1999. (Chakrabarti, 1998) CHAKRABARTI, S. y DOM, B. I. P. Enhance hypertext categorization using hyperlinks. Proceeings ACM SIGMOD, (1998).
(Ellis, 1998) ELLIS, D., FORD, N. y FURNER, J. In search of the unknown user: inexing, hypertext an the worl wie web. Journal of Documentation, January 1998, Vol. 54, No. 1, p. 28-47. (Ellis, 1994) ELLIS, D., FURNER-HINES, J. y WILLETT, P. On the creation of hypertext links in full-text ocuments: measurement of inter-linker consistency. Journal of Documentation, June 1994, Vol. 50, No. 2, p. 67-98. (Faloutsos, 1999) FALOUTSOS, M., FALOUTSOS, P. y FALOUTSOS, C. On power-law relationships of the internet topology. ACM SIGCOMM, (Cambrige, MA, September 1999), p. 251-262. (Figuerola, 1998) FIGUEROLA, C. G., ALONSO BERROCAL, J. L. y ZAZO RODRÍGUEZ, Á. F. Nuevos puntos e vista en la Recuperación e Información en el Web. Jornaas Espanolas e Documentación, 1998, Vol. 6, p. 273-280. (Ingwersen, 1998) INGWERSEN, P. The calculation of web impact factors. Journal of Documentation, March 1998, Vol. 54, No. 2, p. 236-243. (Kleinberg, 1999) KLEINBERG, J. M., KUMAR, R. y RAGHAVAN, P. The web as a graph: measurements, moels, an methos. Proceeings of the Fifth Annual International Computing an Combinatorics Conference, ( 1999). (Koehler, 1999) KOEHLER, W. C. An analysis of web page an web site constancy an permanence. Journal of the American Society for Information Science, 1999, Vol. 50, No. 2, p. 162-180. (Larson, 1996) LARSON, R. R. Bibliometrics of the Worl Wie Web: an exploratory analysis of the intellectual structure of cyberspace. Annual meeting of the American Society for Information Science, (Baltimore, October 19-24, 1996), p. 71-78. (Meina, 2000) MEDINA, A., MATTA, I. y BYERS, J. On the origin of power laws in internet topologies. Computer Communication review, 2000, Vol. 30, No. 2. (Smeaton, 1995) SMEATON, A. F. Builing hypertext uner the influence of topology metrics. International Workshop on Hypermeia Design, (Montpellier, June 1995). (Turnbull, 1996) TURNBULL, D. (1996). Bibliometrics an the Worl-Wie Web. Url: http://onturn.fis.utoronto.ca/research/bibweb.pf [Consulta: Diciembre 1998]. (Wooruff, 1996) WOODRUFF, A. An Investigation of Documents from the Worl Wie Web. Fifth International Worl Wie Web Conference, (París, May 6-10 1996).