Evolución de la Web Española y sus Implicaciones en Crawlers y Buscadores

Transcripción

1 Evolución de la Web Española y sus Implicaciones en Crawlers y Buscadores Víctor M. Prieto, Manuel Álvarez y Fidel Cacheda Departamento de Tecnologías de la Información y las Comunicaciones, Universidade da Coruña Campus de Elviña s/n, A Coruña, España {victor.prieto, manuel.alvarez, fidel.cacheda}@udc.es Abstract. Durante los últimos años han aparecido diversos estudios que tratan de caracterizar la Web a distintos niveles, y en un período de tiempo concreto. En este artículo se presenta un estudio acerca de la evolución de la Web española a lo largo de 3 años. Analiza las principales características de la Web, agrupadas en diferentes niveles y en tres períodos de tiempo distintos. El objetivo es obtener las tendencias de cambio de la Web a lo largo de los años, prestando especial atención a aspectos como el grado de similitud de la Web; la evolución de la edad de las páginas web o las tecnologías web mas usadas. En base a las tendencias descubiertas, se proponen políticas de actuación para su aplicación en la optimización de sistemas de crawling y buscadores web. Keywords: Caracterización Web, Web española, Crawlers, Motor de búsqueda 1 Introducción La WWW podría considerarse como el mayor repositorio de documentos jamás construido. Según el estudio presentado por Gulli y Signorini [11] en 2005, la Web estaba formada por miles de millones de páginas. Debido a su gran tamaño, es imprescindible el uso de buscadores para acceder a la información relevante para un usuario. Los motores de búsqueda son complejos sistemas, que permiten, entre otras cosas: recopilar la información, almacenarla, gestionarla y permitir su acceso y localización. Los sistemas que realizan la tarea de recolección son los crawlers, programas capaces de recorrer y analizar la Web en un cierto orden, siguiendo para ello los enlaces existentes entre las diferentes páginas. La tarea de un sistema de crawling presenta numerosos desafíos debido tanto a la cantidad como a la variabilidad y calidad de la información que tiene que recopilar. Entre otros, se pueden destacar aspectos como las tecnologías que es necesario considerar para acceder a los documentos, del lado servidor [15] o del lado cliente [5]; o problemáticas asociadas al contenido de la Web como Web Spam [12], repetición de contenidos [13], etc. Para permitir una enumeración completa es necesario realizar un análisis de la Web y su evolución en el tiempo.

2 Este estudio presenta un análisis de las características más importantes de la Web española y de sus componentes a lo largo del tiempo, dando especial importancia a aspectos como la similitud y edad de las páginas o el uso de las tecnologías del lado cliente y servidor. El estudio se centra en la instantánea de la Web española en tres años distintos: 2009, 2010 y Los resultados obtenidos para cada uno de los años se analizan de forma independiente y conjunta para obtener tanto las características de la Web en un momento determinado como los cambios existentes entre esos instantes analizados. El objetivo del análisis es doble: por una parte caracterizar la Web y por otra analizar cómo afectan sus cambios a los crawlers y buscadores web para definir políticas y estrategias de optimización. La estructura del artículo es la siguiente. En la sección 2 se comentan los trabajos relacionados con el estudio de la Web. La sección 3 muestra la metodología usada para la realización del estudio. La sección 4 explica los conjuntos de datos utilizados en el estudio, y muestra un análisis de la evolución de la Web. Los resultados se muestran agrupados en diferentes niveles (palabra, contenido, página web, sitio web, Web nacional). Por último en la sección 5 se comentan las conclusiones obtenidas y los posibles trabajos futuros. 2 Trabajos relacionados Son muchos los estudios que muestran la complejidad de la Web [17]. Algunos analizan sus características a distintos niveles (página, sitio y dominio), como el realizado en 2007 por Baeza-Yates et al. [2]. Los mismos autores presentaron en el 2004 y 2005 dos artículos [16] [1] donde se centran mas concretamente en las características de la Web española y chilena, respectivamente. Existen otros estudios que se centran en analizar exclusivamente la estructura de la Web como el realizado por Broder et al. [8] en el que se hace un análisis de los enlaces entre páginas del mismo dominio, entre dominios del mismo país y entre dominios globales. Otro estudio relevante fue el presentado por Baeza-Yates et al. [4] donde analizan la estructura de la Web, su dinamismo y su relación con la calidad del contenido. Por último nombrar el estudio de Baeza-Yates y Poblete [3] donde caracterizan la estructura de la Web chilena. Otros aspectos que merecen especial atención son los relacionados con la similitud de la Web y su decadencia. Fetterly et al. [10] incluyeron un estudio de la similitud de la Web en su trabajo de caracterización de la Web. Con respecto a la decadencia y la edad de las páginas de la Web existen diversos estudios, entre los que cabe destacar el presentado por Lewandowski [14], donde se discute la evolución de la edad de las páginas a lo largo de varios años. Existen otros estudios similares como el presentado por Brewington y Cybenko [7] o el realizado por Cho y Garcia-Molina [9], donde no solo analizan el dinamismo de los contenidos web, sino que también tratan de mostrar métodos que ayuden a los crawlers a mantener sus datos lo mas actualizados posibles. Son numerosos los trabajos existentes que estudian la Web desde diferentes puntos de vista. Sin embargo, ninguno de ellos realiza un seguimiento de todas

3 las características estudiadas en el tiempo, para intentar definir la evolución de la Web. Este artículo pretende cubrir este vacío como medio para proponer una serie de políticas de actuación para mejorar el rendimiento de los sistemas de crawling y buscadores web. 3 Metodología La Web puede ser analizada atendiendo a diversos niveles de granularidad [6]. En la Figura 1 mostramos los niveles en los que se puede dividir el análisis de la Web. A continuación describimos los niveles de análisis de la Web incluidos en este trabajo, junto con las características analizadas en cada uno de ellos. Byte Palabra Bloque Contenido Página web Sub-Sitio web Sitio web Dominio Web nacional Web global Fig. 1: Niveles de granularidad para analizar la Web Palabra: hemos estudiado los dos posibles usos de las palabras en la Web: Como parte del contenido y como etiqueta HTML. El estudio de este nivel permitirá obtener datos sobre el vocabulario utilizado en la Web, identificar los stopwords y las etiquetas HTML. Contenido: en este nivel se discutirán características que afectan al contenido de una página Web. El análisis de este nivel permitirá obtener datos sobre la evolución del tamaño de los contenidos y su relación con el contenido útil real. También nos servirá para conocer la evolución de los idiomas usados en dichos contenidos. Por último aportará datos sobre como han evolucionado los formatos de los ficheros multimedia en la Web. Página web: en este nivel analizamos las características de una página web completa, como la longitud de las URLs y su nivel de compresión. Además haremos especial énfasis en la edad y la similitud de las páginas. Estos datos nos permitirán conocer como un crawler debe manejar los URLs en memoria y en disco, cuál es la política de almacenamiento de un buscador en base al nivel de compresión, cual es la fecha aproximada en que una página debe ser re-crawleada y qué nivel de similitud tiene la Web española. Sitio web: en este nivel se discutirán las características relevantes de los sitios web (colecciones de páginas web relacionadas y comunes a un dominio o subdominio). Comenzaremos analizando el número de enlaces (entrantes/salientes y estáticos/dinámicos) de la Web española. Esto ayudará a

4 conocer cómo está creciendo la Web y su estructura, y cómo esto afecta a los algoritmos de búsqueda. También estudiaremos la Web Oculta [15] española. Recibe este nombre debido a que para acceder a los contenidos el usuario, o el crawler, deberá ejecutar algún tipo de consulta sobre formularios (Web Oculta del lado servidor), o bien realizar algún tipo de navegación dinámica (Web Oculta del lado cliente). Esta parte de la Web contiene gran cantidad de información, pero su tratamiento es más complejo, por ello es importante para los crawlers y buscadores conocer cómo está evolucionando. Web nacional: el análisis de este nivel permitirá conocer la evolución del uso de los servidores web y algo más relevante para los crawlers y buscadores, la evolución del los dominios nuevos y eliminados en la web española. Este dato determinará el crecimiento de la Web.es y ayudará a diseñar arquitecturas más adecuadas a su tamaño y evolución. Los demás niveles de la Figura 1 quedan fuera del alcance de este artículo, ya que, desde nuestro punto de vista, las conclusiones de estos niveles pueden ser obtenidas con el estudio de los niveles superiores e inferiores. 4 Resultados de la evolución de la Web y sus implicaciones Para el estudio de la Web a nivel nacional se desarrolló un sistema formado por un módulo encargado de realizar el crawling, y otro módulo, encargado del análisis estadístico de los datos obtenidos por el primero. Se realizaron tres ejecuciones del sistema desde 2009, sobre partes de la Web española. Consideramos páginas web españolas aquellas que pertenecen al dominio.es, aunque la dirección IP de su servidor no se encontrase en España. Para ello partimos de un conjunto de dominios obtenidos en 2009 en una colaboración con la entidad pública empresarial Red.es. En los años sucesivos las altas se obtuvieron directamente de la página web de Red.es. El proceso de crawling se repitió desde 2009 una vez al año, obteniendo 3 datasets: a) 2009 con documentos, b) 2010 con documentos y c) 2011 con documentos. Tras esto conseguimos un dataset total de aproximadamente páginas web. En los siguientes apartados se discutirán los resultados obtenidos tras el análisis de las diferentes características contempladas en el estudio. 4.1 Características a nivel de palabra Vocabulario: para el estudio del vocabulario usado en la web española, hemos considerado una palabra como cualquier secuencia alfanumérica de longitud mayor o igual a 1 carácter. En los resultados obtenidos hemos observado que la cantidad de páginas con tf-idf bajos ha ido aumentando. Esto indica que ha ido aumentando el número de palabras comunes en las páginas web. Desde el punto de vista de los buscadores, esto hace que haya aumentado el número de términos que no sirven para representar el contenido de una página web

5 sobre las demás. Esto dificultará la selección de documentos relevantes ante un conjunto de términos. Etiquetas HTML: Otro tipo de palabras importantes en la Web son las etiquetas HTML con los que se crean y dan forma las páginas web. Hemos observado que las 50 etiquetas más usados se repiten a lo largo de los 3 años (a excepción de pequeños cambios). 4.2 Características a nivel de contenido Tamaño del contenido total/útil: en el proceso de descarga de las páginas hemos considerado el contenido completo de la página (a diferencia de otros estudios existentes que truncan las páginas a un cierto tamaño [1]). En la Figura 2 podemos ver los resultados obtenidos. En el 2009 se observó que el tamaño medio de las páginas era de 9.98 KB, en 2010 creció hasta los 11.8 KB y en 2011 hasta los 13.4 KB. En los 3 años se observa que la mayor parte de las páginas tienen un tamaño de 10 a 500 KB, y que existen algunos casos de páginas muy extensas que pueden llegar hasta los 5 MB. También hemos estudiado el contenido útil de las páginas y su relación con el contenido total. En el 2009 hemos observado que el tamaño medio del contenido útil de las páginas es de 5.52 KB, en 2010 creció hasta los 6.27 KB y en 2011 hasta los 6.31 KB. En resumen, se observa que el tamaño de las páginas ha aumentado a lo largo del estudio, y que el contenido útil de las páginas es aproximadamente la mitad de su contenido total. Este dato es importante a la hora de optimizar un sistema de almacenamiento a gran escala como es el usado por los sistemas de crawling y buscadores. 5e 01 5e+00 5e+01 5e+02 5e+03 1e 05 1e 04 1e 03 1e 02 1e 01 Number of Kilobytes Relative Frequency (a) e 01 5e+00 5e+01 5e+02 5e+03 1e 05 1e 04 1e 03 1e 02 1e 01 Number of Kilobytes Relative Frequency (b) e 01 5e+00 5e+01 5e+02 5e+03 1e 06 1e 04 1e 02 Number of Kilobytes Relative Frequency (c) 2011 Fig. 2: Tamaño del contenido de una página web Lenguaje: para conseguir identificar el lenguaje usado en cada página hemos usado la librería language detector [18] que está basada en filtros Bayesianos. El entrenamiento del sistema se hace con contenido de Wikipedia y según sus datos obtiene una precisión del 0.99 en los 53 lenguajes que detecta. En base a los resultados se observa que los lenguajes más utilizados son el

6 español, ingles, francés, portugués, italiano y alemán. El español en 2011 representaba un 63.08% del total, y el inglés un 28.35%. No obstante se puede observar que desde 2009 a 2011 ha disminuido aproximadamente un 3% el uso del español frente al inglés. Esto puede ser debido a la apertura a nuevos mercados de la economía española, que ha hecho que muchos contenidos y sectores comiencen a trabajar y escribir en inglés. Palabras clave: el número medio de palabras contenidas en el atributo keywords de la etiqueta META, que describen el contenido tratado en la página, no ha variado en los años analizados. Actualmente una página tiene de media 15 keywords. Tipos de formatos de ficheros: una parte interesante a la hora de caracterizar el contenido de una página, es analizar los tipos de ficheros de imágenes/ música/vídeo que suelen utilizarse. En lo que respecta a los formatos de imágenes hemos observado que GIF es el más usado con un 45.42%, aunque tanto JPG como PNG han ido ganando terreno. En 2009 el 29.06% de las páginas usaba JPG frente al 34.5% actual. Lo mismo ha pasado con PNG, pero de una forma más acusada, ya que ha pasado de un 7.65% en 2009 a un 20.02% en Esta evolución es debida a la mejora en la calidad de los contenidos y de su diseño, y a su vez al aumento de ancho de banda en las conexiones de acceso a Internet que permite el uso de formatos más pesados y de una calidad mayor. En el caso de los formatos de música comprobamos que el más usado es el MP3 con un 86.06% del total, seguido por WAV y por WMA con un 6.4% y un 5.71% respectivamente. En lo que respecta a los ficheros de vídeo más utilizados, hemos observado que el formato predominante es WMV con un 76.56% en 2009 y un 70.27% en Esa disminución es debida al aumento de uso del formato MOV, que en 2011 se usaba en un 17.31% de los casos. La utilización del formato AVI, que fue uno de los primeros formatos de vídeo usados, vemos que a pesar de variar a lo largo de los 3 años, se mantiene por encima del 1. Por último, hemos estudiado la presencia de otros tipos de documentos en la Web. Se observó que apenas ha habido cambios de los diferentes tipos de documentos durante los 3 años estudiados. Centrándonos en los resultados de 2011, los documentos PDF son los que más aparecen con un 86.86%, seguido de los documentos DOC y XML con un 3.23% y un 8.64%, respectivamente. 4.3 Características a nivel de páginas web Longitud de URLs: como vemos en los resultados de la Figura 3 (a, b, c), en 2009 gran parte de las páginas web contenían URLs de tamaño entre 45 y 75 bytes, y una pequeña parte tenía URLs de más de 100 bytes. En 2010 la mayor parte de las páginas tenían URLs con un tamaño de entre 65 y 100 bytes. Finalmente en 2011 podemos ver como la mayor parte de las páginas tienen URLs entre 80 y 110 bytes y ha aumentado el grupo de páginas con URLs de entre 100 y 170 bytes. El uso de páginas dinámicas, nuevas tecnologías y la necesidad de enviar en muchas ocasiones parámetros dentro

7 de la URL han hecho que el tamaño de las mismas crezca. Este cambio en las URLs implica e implicará cambios en el diseño de los sistemas de caché y almacenamiento de URLs de los crawlers, tanto para las colas de URLs visitadas como para las colas de URL a visitar. 8% 8% 8% 6% 6% 6% Web Pages 4% Web Pages 4% Web Pages 4% 2% 2% 2% (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (a) 2009 (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (b) 2010 (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (c) % 16% 12% 12% 12% Web pages 8% Web pages 8% Web pages 8% 4% 4% 4% (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (d) 2009 (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (e) 2010 (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (f) 2011 Fig. 3: Tamaño de las URLs (a, b, c) y el nivel de compresión (d, e, f) Compresión del contenido: es el ratio entre tamaño en bytes contenido comprimido y el contenido total. Es un aspecto importante para los buscadores, ya que esto les permitirá definir políticas de almacenamiento adecuadas. La Figura 3 (d, e, f) muestra los resultados desde En 2009 el nivel de compresión medio era de En los dos años sucesivos, 2010 y 2011, dichos niveles se redujeron a valores entre 0.38 y Esto puede ser debido a que el tamaño de las páginas ha ido aumentando y sus contenido han cambiado, mejorado su calidad, pero dificultado su compresión. Edad: representa el tiempo de validez de una página web. En la Figura 4 (a, b, c) se muestran los resultados. En 2009 aproximadamente el 2 de las páginas tenían menos de 3 meses, y un 13% tenían entre 12 y 15 meses. En 2010 y 2011 el número de páginas menores de 3 meses aumentó al 35% y al 45%, respectivamente. Por otro lado han disminuido las páginas con edad superior a 6 meses tanto en 2010 como en En 2011 más del 75% de las páginas presentaban una edad inferior a un año.

8 Esta evolución en la edad de las páginas demuestra que las páginas web cada vez se actualizan más rápido. Esto provoca cambios en las políticas de refresco de los crawlers y las de actualización de los índices de los buscadores, para mantener lo más actualizados posibles los contenidos y los índices sobre los que el usuario realiza las búsquedas. 2 45% % 25% 35% 3 2 Web pages 1 Web pages 15% Web pages 25% % 5% 1 5% 5% (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (a) 2009 (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (b) 2010 (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (c) % 35% 35% % 25% 25% Web page pairs 2 Web page pairs 2 Web page pairs 2 15% 15% 15% % 5% 5% (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (d) 2009 (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (e) 2010 (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (f) 2011 Fig. 4: Evolución de la edad (a, b, c) y la similitud (d, e, f) de las páginas web Similitud: Indica el nivel de parecido, o de diferencia, que tiene el contenido de dos páginas web. Para la obtención de estos resultados se ha usado una herramienta implementada por Viliam Holub 1. A grandes rasgos esta herramienta divide cada documento en n tokens, asignándoles un peso y haciendo un hash de cada uno de ellos. Finalmente con el peso y el hash de cada token crea un hash del documento, que resumirá su contenido. Una vez se tuvo el conjunto de páginas de cada año firmadas, procedimos a crear 10 subconjuntos aleatorios de páginas en cada año. Tras esto se seleccionaron todos los pares de páginas de cada subconjunto y se caculó la distancia de Hamming entre sus firmas. El resultado final, mostrado en la Figura 4 (d, e, f), se obtuvo como la media de los resultados de cada uno de los 10 subconjuntos para cada año. La similitud entre páginas se ha mantenido en los 3 años. En 2009 aproximadamente el 37% de la Web tenía entre un 5 y un 6 de similitud. 1 holub/sw/shash/

9 En 2010 y 2011 este valor subió hasta el 4 de la Web. En los 3 años un 22% de la Web tenía una similitud de entre el 6 y el 7. Con valores superiores al 7 de similitud está el 1 de la Web. Este valor es debido principalmente a los sitios web espejo, en los cuales se duplican contenidos, o al uso de técnicas de Web Spam. Los resultados indican que no es necesario recorrer toda la Web porque una parte de ella se repite. Esto demuestra que es más útil tener una parte de la Web de calidad y no repetida, que muchos contenidos de mala calidad y repetidos. De esta forma los buscadores deben penalizar aquellos sitios que traten de potenciar su valoración añadiendo contenidos repetidos o de otras páginas web. 4.4 Características a nivel de sitio web Enlaces: en base a los resultados obtenidos observamos que en el año 2009 un sitio web tenía de media 1831 enlaces. En 2010 aumentó en un 24.13%, hasta los En el último año también creció un 4.31% con respecto a 2010, hasta los En resumen, desde 2009 el número de enlaces en los sitios Web ha crecido un 29.49%. Por otro lado hemos observado que en 2009 un 54.74% de los enlaces eran entrantes y un 43.26% eran salientes. En 2011 este dato cambió significativamente, aumentando los enlaces entrantes hasta un 62.94% y disminuyendo los salientes hasta un 37.06%. Cuando un sitio web está enlazado desde multitud de sitios web indica que ese sitio web tiene cierta información relevante para todos los que lo enlazan. Por ello podemos decir que el número de enlaces entrantes de un sitio web es una forma de medir la calidad de dicho sitio web. Esta idea forma parte de muchos de los algoritmos de valoración utilizados por los buscadores. Según el análisis que se ha hecho de los resultados, hemos observado que aproximadamente un 5% de los sitios web con gran número de enlaces entrantes eran páginas de Spam. Este dato, junto con que el número de enlaces entrantes está aumentando, ha provocado y provocará cambios en los algoritmos de búsqueda web. Analizando los datos sobre enlaces estáticos y dinámicos, se ha observado que no ha variado el nivel de cada uno de los tipos en los 3 años. En 2009 el 71.97% de los enlaces eran estáticos y el 28.03% dinámicos. Esos datos cambiaron en 2011 aumentando un 5% los estáticos y disminuyendo la misma cantidad los dinámicos. Formularios web: como ya se explicó en la sección 3, la Web Oculta del lado servidor es una parte importante de la Web. Estudiando el uso de los formularios web, hemos observado que de media hay 0.4 formularios por sitio web. Esto quiere decir que uno de cada dos sitios web los usa. No hemos observado cambios destacables en el número de formularios usados a lo largo del tiempo. Con estos datos podemos decir que los crawlers deben estar preparados para el acceso a este tipo de información, ya sea mediante la generación automática de consultas en base a aprendizaje máquina, o bien estableciendo acuerdos con los creadores de la información para que les permita tener un acceso más sencillo a los datos.

10 Tecnologías del lado servidor: otro punto importante para un crawler es el uso de las tecnologías del lado servidor. El resultado de estos datos se muestra en la Figura 5a. En 2009, 2010 y 2011 la tecnología más usada era PHP apareciendo aproximadamente en un 7 de los sitios web, seguida de ASP con más de un 2, y muy por debajo, en aproximadamente un 2% de los sitios web, JSP. En estos 3 años PHP se ha mantenido, ASP ha aumentado un 2% y JSP ha disminuido un 1%. Otras tecnologías como CGI o SHTML han disminuido su presencia desde (a) (b) Fig. 5: Uso de las tecnologías del lado servidor (a) y del lado cliente (b) Tecnologías del lado cliente: son aquellas tecnologías que permiten añadir dinamismo a los sitios web y así mejorar la experiencia al usuario, aunque con ello dificultan el proceso de crawling. En la Figura 5b mostramos los resultados. El lenguaje predominante es JavaScript, apareciendo en un 70.67% de los sitios en 2009 y llegando a un 77.01% en Otras tecnologías han disminuído su presencia (Flash bajó un 6.14% desde 2009) o incluso están desapareciendo (como VbScript o Tcl). Estos resultados se deben en gran parte al uso extendido de tecnologías como AJAX basadas en JavaScript, y a la multitud de problemas de compatibilidad y seguridad que está teniendo Flash. Por estos motivos, creemos que un crawler debería de centrar sus esfuerzos en el tratamiento de JavaScript. 4.5 Características de la Web nacional Servidores Web: En base a los resultados obtenidos, el servidor web más usado es Apache, que en 2009 estaba presente en el 65.23% de las instalaciones y que en 2011 aumentó hasta el 70.13%. Tras el servidor Apache se encuentra el servidor Microsoft IIS, que actualmente tiene una cuota de mercado del 26.94%. Otros servidores que están presentes en la Web, pero de forma simbólica, son Zeus, Nginx o Lotus. Durante el análisis de resultados nos hemos encontrado que muchas de las versiones utilizadas no son actuales. El uso de versiones desactualizadas es un problema potencial de seguridad, ya que puede contener errores que permitan comprometer las páginas alojadas y por lo tanto a los usuarios que las visitan. Por ello, creemos que sería adecuado por parte de los buscadores penalizar aquellos dominios que

11 usen servidores desactualizados y que puedan presentar un peligro al usuario final. Dominios nuevos y borrados: Un dato importante para los buscadores y crawlers es cuánto y cómo crece la Web de un país. Para analizar el cuánto, partimos del número total de dominios con el que empezó el estudio: En el siguiente año se produjeron un total de altas y bajas, lo cual implica nuevos dominios, es decir un aumento de un 3.3%. En el 2011 este crecimiento fue mayor, creándose nuevos dominios, lo cual implica un crecimiento de un 16.6% sobre el año anterior. Teniendo en cuenta que el 16.6% de nuevos dominios tengan un tamaño similar al de los ya existentes, se puede decir que la Web española ha crecido en el último año un 16.6%. Si la tendencia continúa y la Web española sigue creciendo un 16.6% anual, los crawlers y buscadores deberán buscar soluciones que les permitan indexar esos nuevos contenidos. Esto implicará que los buscadores deberán aumentar sus recursos para poder hacer frente al crecimiento de la Web. 5 Conclusiones y trabajos futuros En el artículo se presenta un estudio sobre la evolución de la Web española a diferentes niveles, durante los años 2009, 2010 y El mayor detalle, la evolución en el tiempo y la observación desde el punto de vista de los buscadores y sistemas de crawling es lo que diferencia este artículo de otros artículos presentes en la literatura. Hemos observado que las páginas web tienen un tamaño medio de entre 10 y 500 KB, y su contenido útil es la mitad del total. Se comprobo que el nivel de compresión de su contenido se ha ido reduciendo, que han aumentado el número de enlaces entrantes y que la mayor parte de las páginas tienen una vida de menos de 3 meses. Hemos observado que la Web Oculta ha aumentado. Basándonos en estos datos, y en nuestro conocimiento, hemos propuesto algunas de las políticas que deberán desarrollar los crawlers y buscadores. Por un lado modificar sus algoritmos de valoración tratando de reducir la importancia de los enlaces entrantes, así como mejorar la detección de contenido similar. También aumentar la frecuencia de refresco de las páginas y el tratamiento de la Web Oculta del lado cliente. Por último proponemos penalizar aquellos sitios web que usen tecnologías y servidores inseguros. Los trabajos futuros se centrarán en seguir crawleando la Web y creando nuevos datasets, tanto de diferentes países como a nivel global. Estos sucesivos estudios permitirán determinar cómo continúa evolucionando la Web, su calidad o decadencia (calidad de contenidos, enlaces rotos, contenidos repetidos o similares, etc.). También nos centraremos en analizar la seguridad de la Web (protocolos de seguridad; tecnologías seguras; sistemas correctamente actualizados, etc) y en los peligros que presenta para el usuario. Los resultados del análisis y las pautas de actuación extraídas ayudarán a crean y modificar las políticas de actuación de los sistemas crawling, mejorando su rendimiento. Finalmente, de-

12 seamos probar las políticas discutidas en el artículo, en sistemas de crawling de altas prestaciones, con la idea de demostrar su validez y mejorar su rendimiento. Agradecimientos Este trabajo de investigación ha sido financiado por el Ministerio de Educación y Ciencia de España, bajo el proyecto TIN References 1. R. Baeza-Yates and C. Castillo. La web chilena, R. Baeza-Yates, C. Castillo, and E. N. Efthimiadis. Characterization of national web domains. ACM Trans. Internet Technol., 7, May R. Baeza-Yates and B. Poblete. Dynamics of the chilean web structure. Comput. Netw., 50: , July R. Baeza-Yates, F. Saint-Jean, and C. Castillo. Web structure, dynamics and page quality. In A. Laender and A. Oliveira, editors, String Processing and Information Retrieval, volume 2476 of Lecture Notes in Computer Science, pages Springer Berlin / Heidelberg, M. K. Bergman. The deep web: Surfacing hidden value, L. Björneborn and P. Ingwersen. Toward a basic framework for webometrics. Journal of the American Society for Information Science and Technology, 55: , B. Brewington and G. Cybenko. How dynamic is the web? pages , A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the web. Computer Networks, 33(1-6): , J. Cho and H. Garcia-Molina. Estimating frequency of change. ACM Trans. Internet Technol., 3: , August D. Fetterly, M. Manasse, M. Najork, and J. Wiener. A large-scale study of the evolution of web pages. In Proceedings of the 12th international conference on World Wide Web, WWW 03, pages , New York, NY, USA, ACM. 11. A. Gulli and A. Signorini. The indexable web is more than 11.5 billion pages. In Special interest tracks and posters of the 14th international conference on World Wide Web, WWW 05, pages , New York, NY, USA, ACM. 12. Z. Gyongyi and H. Garcia-Molina. Web spam taxonomy. Technical Report , Stanford InfoLab, March J. P. Kumar and P. Govindarajulu. Duplicate and near duplicate documents detection: A review. European Journal of Scientific Research, 32: , D. Lewandowski. A three-year study on the freshness of web search engine databases. J. Inf. Sci., 34: , December S. Raghavan and H. Garcia-Molina. Crawling the hidden web. In Proceedings of the 27th International Conference on Very Large Data Bases, VLDB 01, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. 16. C. C. Ricardo Baeza-Yates and V. Lopez. Characteristics of the web of spain. Cybermetrics, 9, n o 1, W. C. Schmidt. World-wide web survey research: Benefits, potential problems, and solutions. Behavior Research Methods, Instruments, and Computers, 29: , N. Shuyo. Language detection library for java, 2010.