Evolución de la Web Española y sus Implicaciones en Crawlers y Buscadores

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Evolución de la Web Española y sus Implicaciones en Crawlers y Buscadores"

Transcripción

1 Evolución de la Web Española y sus Implicaciones en Crawlers y Buscadores Víctor M. Prieto, Manuel Álvarez y Fidel Cacheda Departamento de Tecnologías de la Información y las Comunicaciones, Universidade da Coruña Campus de Elviña s/n, A Coruña, España {victor.prieto, manuel.alvarez, Abstract. Durante los últimos años han aparecido diversos estudios que tratan de caracterizar la Web a distintos niveles, y en un período de tiempo concreto. En este artículo se presenta un estudio acerca de la evolución de la Web española a lo largo de 3 años. Analiza las principales características de la Web, agrupadas en diferentes niveles y en tres períodos de tiempo distintos. El objetivo es obtener las tendencias de cambio de la Web a lo largo de los años, prestando especial atención a aspectos como el grado de similitud de la Web; la evolución de la edad de las páginas web o las tecnologías web mas usadas. En base a las tendencias descubiertas, se proponen políticas de actuación para su aplicación en la optimización de sistemas de crawling y buscadores web. Keywords: Caracterización Web, Web española, Crawlers, Motor de búsqueda 1 Introducción La WWW podría considerarse como el mayor repositorio de documentos jamás construido. Según el estudio presentado por Gulli y Signorini [11] en 2005, la Web estaba formada por miles de millones de páginas. Debido a su gran tamaño, es imprescindible el uso de buscadores para acceder a la información relevante para un usuario. Los motores de búsqueda son complejos sistemas, que permiten, entre otras cosas: recopilar la información, almacenarla, gestionarla y permitir su acceso y localización. Los sistemas que realizan la tarea de recolección son los crawlers, programas capaces de recorrer y analizar la Web en un cierto orden, siguiendo para ello los enlaces existentes entre las diferentes páginas. La tarea de un sistema de crawling presenta numerosos desafíos debido tanto a la cantidad como a la variabilidad y calidad de la información que tiene que recopilar. Entre otros, se pueden destacar aspectos como las tecnologías que es necesario considerar para acceder a los documentos, del lado servidor [15] o del lado cliente [5]; o problemáticas asociadas al contenido de la Web como Web Spam [12], repetición de contenidos [13], etc. Para permitir una enumeración completa es necesario realizar un análisis de la Web y su evolución en el tiempo.

2 Este estudio presenta un análisis de las características más importantes de la Web española y de sus componentes a lo largo del tiempo, dando especial importancia a aspectos como la similitud y edad de las páginas o el uso de las tecnologías del lado cliente y servidor. El estudio se centra en la instantánea de la Web española en tres años distintos: 2009, 2010 y Los resultados obtenidos para cada uno de los años se analizan de forma independiente y conjunta para obtener tanto las características de la Web en un momento determinado como los cambios existentes entre esos instantes analizados. El objetivo del análisis es doble: por una parte caracterizar la Web y por otra analizar cómo afectan sus cambios a los crawlers y buscadores web para definir políticas y estrategias de optimización. La estructura del artículo es la siguiente. En la sección 2 se comentan los trabajos relacionados con el estudio de la Web. La sección 3 muestra la metodología usada para la realización del estudio. La sección 4 explica los conjuntos de datos utilizados en el estudio, y muestra un análisis de la evolución de la Web. Los resultados se muestran agrupados en diferentes niveles (palabra, contenido, página web, sitio web, Web nacional). Por último en la sección 5 se comentan las conclusiones obtenidas y los posibles trabajos futuros. 2 Trabajos relacionados Son muchos los estudios que muestran la complejidad de la Web [17]. Algunos analizan sus características a distintos niveles (página, sitio y dominio), como el realizado en 2007 por Baeza-Yates et al. [2]. Los mismos autores presentaron en el 2004 y 2005 dos artículos [16] [1] donde se centran mas concretamente en las características de la Web española y chilena, respectivamente. Existen otros estudios que se centran en analizar exclusivamente la estructura de la Web como el realizado por Broder et al. [8] en el que se hace un análisis de los enlaces entre páginas del mismo dominio, entre dominios del mismo país y entre dominios globales. Otro estudio relevante fue el presentado por Baeza-Yates et al. [4] donde analizan la estructura de la Web, su dinamismo y su relación con la calidad del contenido. Por último nombrar el estudio de Baeza-Yates y Poblete [3] donde caracterizan la estructura de la Web chilena. Otros aspectos que merecen especial atención son los relacionados con la similitud de la Web y su decadencia. Fetterly et al. [10] incluyeron un estudio de la similitud de la Web en su trabajo de caracterización de la Web. Con respecto a la decadencia y la edad de las páginas de la Web existen diversos estudios, entre los que cabe destacar el presentado por Lewandowski [14], donde se discute la evolución de la edad de las páginas a lo largo de varios años. Existen otros estudios similares como el presentado por Brewington y Cybenko [7] o el realizado por Cho y Garcia-Molina [9], donde no solo analizan el dinamismo de los contenidos web, sino que también tratan de mostrar métodos que ayuden a los crawlers a mantener sus datos lo mas actualizados posibles. Son numerosos los trabajos existentes que estudian la Web desde diferentes puntos de vista. Sin embargo, ninguno de ellos realiza un seguimiento de todas

3 las características estudiadas en el tiempo, para intentar definir la evolución de la Web. Este artículo pretende cubrir este vacío como medio para proponer una serie de políticas de actuación para mejorar el rendimiento de los sistemas de crawling y buscadores web. 3 Metodología La Web puede ser analizada atendiendo a diversos niveles de granularidad [6]. En la Figura 1 mostramos los niveles en los que se puede dividir el análisis de la Web. A continuación describimos los niveles de análisis de la Web incluidos en este trabajo, junto con las características analizadas en cada uno de ellos. Byte Palabra Bloque Contenido Página web Sub-Sitio web Sitio web Dominio Web nacional Web global Fig. 1: Niveles de granularidad para analizar la Web Palabra: hemos estudiado los dos posibles usos de las palabras en la Web: Como parte del contenido y como etiqueta HTML. El estudio de este nivel permitirá obtener datos sobre el vocabulario utilizado en la Web, identificar los stopwords y las etiquetas HTML. Contenido: en este nivel se discutirán características que afectan al contenido de una página Web. El análisis de este nivel permitirá obtener datos sobre la evolución del tamaño de los contenidos y su relación con el contenido útil real. También nos servirá para conocer la evolución de los idiomas usados en dichos contenidos. Por último aportará datos sobre como han evolucionado los formatos de los ficheros multimedia en la Web. Página web: en este nivel analizamos las características de una página web completa, como la longitud de las URLs y su nivel de compresión. Además haremos especial énfasis en la edad y la similitud de las páginas. Estos datos nos permitirán conocer como un crawler debe manejar los URLs en memoria y en disco, cuál es la política de almacenamiento de un buscador en base al nivel de compresión, cual es la fecha aproximada en que una página debe ser re-crawleada y qué nivel de similitud tiene la Web española. Sitio web: en este nivel se discutirán las características relevantes de los sitios web (colecciones de páginas web relacionadas y comunes a un dominio o subdominio). Comenzaremos analizando el número de enlaces (entrantes/salientes y estáticos/dinámicos) de la Web española. Esto ayudará a

4 conocer cómo está creciendo la Web y su estructura, y cómo esto afecta a los algoritmos de búsqueda. También estudiaremos la Web Oculta [15] española. Recibe este nombre debido a que para acceder a los contenidos el usuario, o el crawler, deberá ejecutar algún tipo de consulta sobre formularios (Web Oculta del lado servidor), o bien realizar algún tipo de navegación dinámica (Web Oculta del lado cliente). Esta parte de la Web contiene gran cantidad de información, pero su tratamiento es más complejo, por ello es importante para los crawlers y buscadores conocer cómo está evolucionando. Web nacional: el análisis de este nivel permitirá conocer la evolución del uso de los servidores web y algo más relevante para los crawlers y buscadores, la evolución del los dominios nuevos y eliminados en la web española. Este dato determinará el crecimiento de la Web.es y ayudará a diseñar arquitecturas más adecuadas a su tamaño y evolución. Los demás niveles de la Figura 1 quedan fuera del alcance de este artículo, ya que, desde nuestro punto de vista, las conclusiones de estos niveles pueden ser obtenidas con el estudio de los niveles superiores e inferiores. 4 Resultados de la evolución de la Web y sus implicaciones Para el estudio de la Web a nivel nacional se desarrolló un sistema formado por un módulo encargado de realizar el crawling, y otro módulo, encargado del análisis estadístico de los datos obtenidos por el primero. Se realizaron tres ejecuciones del sistema desde 2009, sobre partes de la Web española. Consideramos páginas web españolas aquellas que pertenecen al dominio.es, aunque la dirección IP de su servidor no se encontrase en España. Para ello partimos de un conjunto de dominios obtenidos en 2009 en una colaboración con la entidad pública empresarial Red.es. En los años sucesivos las altas se obtuvieron directamente de la página web de Red.es. El proceso de crawling se repitió desde 2009 una vez al año, obteniendo 3 datasets: a) 2009 con documentos, b) 2010 con documentos y c) 2011 con documentos. Tras esto conseguimos un dataset total de aproximadamente páginas web. En los siguientes apartados se discutirán los resultados obtenidos tras el análisis de las diferentes características contempladas en el estudio. 4.1 Características a nivel de palabra Vocabulario: para el estudio del vocabulario usado en la web española, hemos considerado una palabra como cualquier secuencia alfanumérica de longitud mayor o igual a 1 carácter. En los resultados obtenidos hemos observado que la cantidad de páginas con tf-idf bajos ha ido aumentando. Esto indica que ha ido aumentando el número de palabras comunes en las páginas web. Desde el punto de vista de los buscadores, esto hace que haya aumentado el número de términos que no sirven para representar el contenido de una página web

5 sobre las demás. Esto dificultará la selección de documentos relevantes ante un conjunto de términos. Etiquetas HTML: Otro tipo de palabras importantes en la Web son las etiquetas HTML con los que se crean y dan forma las páginas web. Hemos observado que las 50 etiquetas más usados se repiten a lo largo de los 3 años (a excepción de pequeños cambios). 4.2 Características a nivel de contenido Tamaño del contenido total/útil: en el proceso de descarga de las páginas hemos considerado el contenido completo de la página (a diferencia de otros estudios existentes que truncan las páginas a un cierto tamaño [1]). En la Figura 2 podemos ver los resultados obtenidos. En el 2009 se observó que el tamaño medio de las páginas era de 9.98 KB, en 2010 creció hasta los 11.8 KB y en 2011 hasta los 13.4 KB. En los 3 años se observa que la mayor parte de las páginas tienen un tamaño de 10 a 500 KB, y que existen algunos casos de páginas muy extensas que pueden llegar hasta los 5 MB. También hemos estudiado el contenido útil de las páginas y su relación con el contenido total. En el 2009 hemos observado que el tamaño medio del contenido útil de las páginas es de 5.52 KB, en 2010 creció hasta los 6.27 KB y en 2011 hasta los 6.31 KB. En resumen, se observa que el tamaño de las páginas ha aumentado a lo largo del estudio, y que el contenido útil de las páginas es aproximadamente la mitad de su contenido total. Este dato es importante a la hora de optimizar un sistema de almacenamiento a gran escala como es el usado por los sistemas de crawling y buscadores. 5e 01 5e+00 5e+01 5e+02 5e+03 1e 05 1e 04 1e 03 1e 02 1e 01 Number of Kilobytes Relative Frequency (a) e 01 5e+00 5e+01 5e+02 5e+03 1e 05 1e 04 1e 03 1e 02 1e 01 Number of Kilobytes Relative Frequency (b) e 01 5e+00 5e+01 5e+02 5e+03 1e 06 1e 04 1e 02 Number of Kilobytes Relative Frequency (c) 2011 Fig. 2: Tamaño del contenido de una página web Lenguaje: para conseguir identificar el lenguaje usado en cada página hemos usado la librería language detector [18] que está basada en filtros Bayesianos. El entrenamiento del sistema se hace con contenido de Wikipedia y según sus datos obtiene una precisión del 0.99 en los 53 lenguajes que detecta. En base a los resultados se observa que los lenguajes más utilizados son el

6 español, ingles, francés, portugués, italiano y alemán. El español en 2011 representaba un 63.08% del total, y el inglés un 28.35%. No obstante se puede observar que desde 2009 a 2011 ha disminuido aproximadamente un 3% el uso del español frente al inglés. Esto puede ser debido a la apertura a nuevos mercados de la economía española, que ha hecho que muchos contenidos y sectores comiencen a trabajar y escribir en inglés. Palabras clave: el número medio de palabras contenidas en el atributo keywords de la etiqueta META, que describen el contenido tratado en la página, no ha variado en los años analizados. Actualmente una página tiene de media 15 keywords. Tipos de formatos de ficheros: una parte interesante a la hora de caracterizar el contenido de una página, es analizar los tipos de ficheros de imágenes/ música/vídeo que suelen utilizarse. En lo que respecta a los formatos de imágenes hemos observado que GIF es el más usado con un 45.42%, aunque tanto JPG como PNG han ido ganando terreno. En 2009 el 29.06% de las páginas usaba JPG frente al 34.5% actual. Lo mismo ha pasado con PNG, pero de una forma más acusada, ya que ha pasado de un 7.65% en 2009 a un 20.02% en Esta evolución es debida a la mejora en la calidad de los contenidos y de su diseño, y a su vez al aumento de ancho de banda en las conexiones de acceso a Internet que permite el uso de formatos más pesados y de una calidad mayor. En el caso de los formatos de música comprobamos que el más usado es el MP3 con un 86.06% del total, seguido por WAV y por WMA con un 6.4% y un 5.71% respectivamente. En lo que respecta a los ficheros de vídeo más utilizados, hemos observado que el formato predominante es WMV con un 76.56% en 2009 y un 70.27% en Esa disminución es debida al aumento de uso del formato MOV, que en 2011 se usaba en un 17.31% de los casos. La utilización del formato AVI, que fue uno de los primeros formatos de vídeo usados, vemos que a pesar de variar a lo largo de los 3 años, se mantiene por encima del 1. Por último, hemos estudiado la presencia de otros tipos de documentos en la Web. Se observó que apenas ha habido cambios de los diferentes tipos de documentos durante los 3 años estudiados. Centrándonos en los resultados de 2011, los documentos PDF son los que más aparecen con un 86.86%, seguido de los documentos DOC y XML con un 3.23% y un 8.64%, respectivamente. 4.3 Características a nivel de páginas web Longitud de URLs: como vemos en los resultados de la Figura 3 (a, b, c), en 2009 gran parte de las páginas web contenían URLs de tamaño entre 45 y 75 bytes, y una pequeña parte tenía URLs de más de 100 bytes. En 2010 la mayor parte de las páginas tenían URLs con un tamaño de entre 65 y 100 bytes. Finalmente en 2011 podemos ver como la mayor parte de las páginas tienen URLs entre 80 y 110 bytes y ha aumentado el grupo de páginas con URLs de entre 100 y 170 bytes. El uso de páginas dinámicas, nuevas tecnologías y la necesidad de enviar en muchas ocasiones parámetros dentro

7 de la URL han hecho que el tamaño de las mismas crezca. Este cambio en las URLs implica e implicará cambios en el diseño de los sistemas de caché y almacenamiento de URLs de los crawlers, tanto para las colas de URLs visitadas como para las colas de URL a visitar. 8% 8% 8% 6% 6% 6% Web Pages 4% Web Pages 4% Web Pages 4% 2% 2% 2% (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (a) 2009 (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (b) 2010 (20,25] (40,45] (60,65] (80,85] (100,105] (125,130] (150,155] URL length (c) % 16% 12% 12% 12% Web pages 8% Web pages 8% Web pages 8% 4% 4% 4% (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (d) 2009 (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (e) 2010 (0,0.05] (0.15,0.2] (0.35,0.4] (0.55,0.6] (0.75,0.8] (0.95,1] Ratio of comprenssibility (f) 2011 Fig. 3: Tamaño de las URLs (a, b, c) y el nivel de compresión (d, e, f) Compresión del contenido: es el ratio entre tamaño en bytes contenido comprimido y el contenido total. Es un aspecto importante para los buscadores, ya que esto les permitirá definir políticas de almacenamiento adecuadas. La Figura 3 (d, e, f) muestra los resultados desde En 2009 el nivel de compresión medio era de En los dos años sucesivos, 2010 y 2011, dichos niveles se redujeron a valores entre 0.38 y Esto puede ser debido a que el tamaño de las páginas ha ido aumentando y sus contenido han cambiado, mejorado su calidad, pero dificultado su compresión. Edad: representa el tiempo de validez de una página web. En la Figura 4 (a, b, c) se muestran los resultados. En 2009 aproximadamente el 2 de las páginas tenían menos de 3 meses, y un 13% tenían entre 12 y 15 meses. En 2010 y 2011 el número de páginas menores de 3 meses aumentó al 35% y al 45%, respectivamente. Por otro lado han disminuido las páginas con edad superior a 6 meses tanto en 2010 como en En 2011 más del 75% de las páginas presentaban una edad inferior a un año.

8 Esta evolución en la edad de las páginas demuestra que las páginas web cada vez se actualizan más rápido. Esto provoca cambios en las políticas de refresco de los crawlers y las de actualización de los índices de los buscadores, para mantener lo más actualizados posibles los contenidos y los índices sobre los que el usuario realiza las búsquedas. 2 45% % 25% 35% 3 2 Web pages 1 Web pages 15% Web pages 25% % 5% 1 5% 5% (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (a) 2009 (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (b) 2010 (0,3] (6,9] (12,15] (18,21] (24,27] (30,33] (36,39] (42,45] Age of pages (c) % 35% 35% % 25% 25% Web page pairs 2 Web page pairs 2 Web page pairs 2 15% 15% 15% % 5% 5% (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (d) 2009 (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (e) 2010 (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] (60,70] (70,80] (80,90] (90,100] Percentage of similarity (f) 2011 Fig. 4: Evolución de la edad (a, b, c) y la similitud (d, e, f) de las páginas web Similitud: Indica el nivel de parecido, o de diferencia, que tiene el contenido de dos páginas web. Para la obtención de estos resultados se ha usado una herramienta implementada por Viliam Holub 1. A grandes rasgos esta herramienta divide cada documento en n tokens, asignándoles un peso y haciendo un hash de cada uno de ellos. Finalmente con el peso y el hash de cada token crea un hash del documento, que resumirá su contenido. Una vez se tuvo el conjunto de páginas de cada año firmadas, procedimos a crear 10 subconjuntos aleatorios de páginas en cada año. Tras esto se seleccionaron todos los pares de páginas de cada subconjunto y se caculó la distancia de Hamming entre sus firmas. El resultado final, mostrado en la Figura 4 (d, e, f), se obtuvo como la media de los resultados de cada uno de los 10 subconjuntos para cada año. La similitud entre páginas se ha mantenido en los 3 años. En 2009 aproximadamente el 37% de la Web tenía entre un 5 y un 6 de similitud. 1 holub/sw/shash/

9 En 2010 y 2011 este valor subió hasta el 4 de la Web. En los 3 años un 22% de la Web tenía una similitud de entre el 6 y el 7. Con valores superiores al 7 de similitud está el 1 de la Web. Este valor es debido principalmente a los sitios web espejo, en los cuales se duplican contenidos, o al uso de técnicas de Web Spam. Los resultados indican que no es necesario recorrer toda la Web porque una parte de ella se repite. Esto demuestra que es más útil tener una parte de la Web de calidad y no repetida, que muchos contenidos de mala calidad y repetidos. De esta forma los buscadores deben penalizar aquellos sitios que traten de potenciar su valoración añadiendo contenidos repetidos o de otras páginas web. 4.4 Características a nivel de sitio web Enlaces: en base a los resultados obtenidos observamos que en el año 2009 un sitio web tenía de media 1831 enlaces. En 2010 aumentó en un 24.13%, hasta los En el último año también creció un 4.31% con respecto a 2010, hasta los En resumen, desde 2009 el número de enlaces en los sitios Web ha crecido un 29.49%. Por otro lado hemos observado que en 2009 un 54.74% de los enlaces eran entrantes y un 43.26% eran salientes. En 2011 este dato cambió significativamente, aumentando los enlaces entrantes hasta un 62.94% y disminuyendo los salientes hasta un 37.06%. Cuando un sitio web está enlazado desde multitud de sitios web indica que ese sitio web tiene cierta información relevante para todos los que lo enlazan. Por ello podemos decir que el número de enlaces entrantes de un sitio web es una forma de medir la calidad de dicho sitio web. Esta idea forma parte de muchos de los algoritmos de valoración utilizados por los buscadores. Según el análisis que se ha hecho de los resultados, hemos observado que aproximadamente un 5% de los sitios web con gran número de enlaces entrantes eran páginas de Spam. Este dato, junto con que el número de enlaces entrantes está aumentando, ha provocado y provocará cambios en los algoritmos de búsqueda web. Analizando los datos sobre enlaces estáticos y dinámicos, se ha observado que no ha variado el nivel de cada uno de los tipos en los 3 años. En 2009 el 71.97% de los enlaces eran estáticos y el 28.03% dinámicos. Esos datos cambiaron en 2011 aumentando un 5% los estáticos y disminuyendo la misma cantidad los dinámicos. Formularios web: como ya se explicó en la sección 3, la Web Oculta del lado servidor es una parte importante de la Web. Estudiando el uso de los formularios web, hemos observado que de media hay 0.4 formularios por sitio web. Esto quiere decir que uno de cada dos sitios web los usa. No hemos observado cambios destacables en el número de formularios usados a lo largo del tiempo. Con estos datos podemos decir que los crawlers deben estar preparados para el acceso a este tipo de información, ya sea mediante la generación automática de consultas en base a aprendizaje máquina, o bien estableciendo acuerdos con los creadores de la información para que les permita tener un acceso más sencillo a los datos.

10 Tecnologías del lado servidor: otro punto importante para un crawler es el uso de las tecnologías del lado servidor. El resultado de estos datos se muestra en la Figura 5a. En 2009, 2010 y 2011 la tecnología más usada era PHP apareciendo aproximadamente en un 7 de los sitios web, seguida de ASP con más de un 2, y muy por debajo, en aproximadamente un 2% de los sitios web, JSP. En estos 3 años PHP se ha mantenido, ASP ha aumentado un 2% y JSP ha disminuido un 1%. Otras tecnologías como CGI o SHTML han disminuido su presencia desde (a) (b) Fig. 5: Uso de las tecnologías del lado servidor (a) y del lado cliente (b) Tecnologías del lado cliente: son aquellas tecnologías que permiten añadir dinamismo a los sitios web y así mejorar la experiencia al usuario, aunque con ello dificultan el proceso de crawling. En la Figura 5b mostramos los resultados. El lenguaje predominante es JavaScript, apareciendo en un 70.67% de los sitios en 2009 y llegando a un 77.01% en Otras tecnologías han disminuído su presencia (Flash bajó un 6.14% desde 2009) o incluso están desapareciendo (como VbScript o Tcl). Estos resultados se deben en gran parte al uso extendido de tecnologías como AJAX basadas en JavaScript, y a la multitud de problemas de compatibilidad y seguridad que está teniendo Flash. Por estos motivos, creemos que un crawler debería de centrar sus esfuerzos en el tratamiento de JavaScript. 4.5 Características de la Web nacional Servidores Web: En base a los resultados obtenidos, el servidor web más usado es Apache, que en 2009 estaba presente en el 65.23% de las instalaciones y que en 2011 aumentó hasta el 70.13%. Tras el servidor Apache se encuentra el servidor Microsoft IIS, que actualmente tiene una cuota de mercado del 26.94%. Otros servidores que están presentes en la Web, pero de forma simbólica, son Zeus, Nginx o Lotus. Durante el análisis de resultados nos hemos encontrado que muchas de las versiones utilizadas no son actuales. El uso de versiones desactualizadas es un problema potencial de seguridad, ya que puede contener errores que permitan comprometer las páginas alojadas y por lo tanto a los usuarios que las visitan. Por ello, creemos que sería adecuado por parte de los buscadores penalizar aquellos dominios que

11 usen servidores desactualizados y que puedan presentar un peligro al usuario final. Dominios nuevos y borrados: Un dato importante para los buscadores y crawlers es cuánto y cómo crece la Web de un país. Para analizar el cuánto, partimos del número total de dominios con el que empezó el estudio: En el siguiente año se produjeron un total de altas y bajas, lo cual implica nuevos dominios, es decir un aumento de un 3.3%. En el 2011 este crecimiento fue mayor, creándose nuevos dominios, lo cual implica un crecimiento de un 16.6% sobre el año anterior. Teniendo en cuenta que el 16.6% de nuevos dominios tengan un tamaño similar al de los ya existentes, se puede decir que la Web española ha crecido en el último año un 16.6%. Si la tendencia continúa y la Web española sigue creciendo un 16.6% anual, los crawlers y buscadores deberán buscar soluciones que les permitan indexar esos nuevos contenidos. Esto implicará que los buscadores deberán aumentar sus recursos para poder hacer frente al crecimiento de la Web. 5 Conclusiones y trabajos futuros En el artículo se presenta un estudio sobre la evolución de la Web española a diferentes niveles, durante los años 2009, 2010 y El mayor detalle, la evolución en el tiempo y la observación desde el punto de vista de los buscadores y sistemas de crawling es lo que diferencia este artículo de otros artículos presentes en la literatura. Hemos observado que las páginas web tienen un tamaño medio de entre 10 y 500 KB, y su contenido útil es la mitad del total. Se comprobo que el nivel de compresión de su contenido se ha ido reduciendo, que han aumentado el número de enlaces entrantes y que la mayor parte de las páginas tienen una vida de menos de 3 meses. Hemos observado que la Web Oculta ha aumentado. Basándonos en estos datos, y en nuestro conocimiento, hemos propuesto algunas de las políticas que deberán desarrollar los crawlers y buscadores. Por un lado modificar sus algoritmos de valoración tratando de reducir la importancia de los enlaces entrantes, así como mejorar la detección de contenido similar. También aumentar la frecuencia de refresco de las páginas y el tratamiento de la Web Oculta del lado cliente. Por último proponemos penalizar aquellos sitios web que usen tecnologías y servidores inseguros. Los trabajos futuros se centrarán en seguir crawleando la Web y creando nuevos datasets, tanto de diferentes países como a nivel global. Estos sucesivos estudios permitirán determinar cómo continúa evolucionando la Web, su calidad o decadencia (calidad de contenidos, enlaces rotos, contenidos repetidos o similares, etc.). También nos centraremos en analizar la seguridad de la Web (protocolos de seguridad; tecnologías seguras; sistemas correctamente actualizados, etc) y en los peligros que presenta para el usuario. Los resultados del análisis y las pautas de actuación extraídas ayudarán a crean y modificar las políticas de actuación de los sistemas crawling, mejorando su rendimiento. Finalmente, de-

12 seamos probar las políticas discutidas en el artículo, en sistemas de crawling de altas prestaciones, con la idea de demostrar su validez y mejorar su rendimiento. Agradecimientos Este trabajo de investigación ha sido financiado por el Ministerio de Educación y Ciencia de España, bajo el proyecto TIN References 1. R. Baeza-Yates and C. Castillo. La web chilena, R. Baeza-Yates, C. Castillo, and E. N. Efthimiadis. Characterization of national web domains. ACM Trans. Internet Technol., 7, May R. Baeza-Yates and B. Poblete. Dynamics of the chilean web structure. Comput. Netw., 50: , July R. Baeza-Yates, F. Saint-Jean, and C. Castillo. Web structure, dynamics and page quality. In A. Laender and A. Oliveira, editors, String Processing and Information Retrieval, volume 2476 of Lecture Notes in Computer Science, pages Springer Berlin / Heidelberg, M. K. Bergman. The deep web: Surfacing hidden value, L. Björneborn and P. Ingwersen. Toward a basic framework for webometrics. Journal of the American Society for Information Science and Technology, 55: , B. Brewington and G. Cybenko. How dynamic is the web? pages , A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the web. Computer Networks, 33(1-6): , J. Cho and H. Garcia-Molina. Estimating frequency of change. ACM Trans. Internet Technol., 3: , August D. Fetterly, M. Manasse, M. Najork, and J. Wiener. A large-scale study of the evolution of web pages. In Proceedings of the 12th international conference on World Wide Web, WWW 03, pages , New York, NY, USA, ACM. 11. A. Gulli and A. Signorini. The indexable web is more than 11.5 billion pages. In Special interest tracks and posters of the 14th international conference on World Wide Web, WWW 05, pages , New York, NY, USA, ACM. 12. Z. Gyongyi and H. Garcia-Molina. Web spam taxonomy. Technical Report , Stanford InfoLab, March J. P. Kumar and P. Govindarajulu. Duplicate and near duplicate documents detection: A review. European Journal of Scientific Research, 32: , D. Lewandowski. A three-year study on the freshness of web search engine databases. J. Inf. Sci., 34: , December S. Raghavan and H. Garcia-Molina. Crawling the hidden web. In Proceedings of the 27th International Conference on Very Large Data Bases, VLDB 01, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. 16. C. C. Ricardo Baeza-Yates and V. Lopez. Characteristics of the web of spain. Cybermetrics, 9, n o 1, W. C. Schmidt. World-wide web survey research: Benefits, potential problems, and solutions. Behavior Research Methods, Instruments, and Computers, 29: , N. Shuyo. Language detection library for java, 2010.

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ESTUDIO SOBRE EL POSICIONAMIENTO EN BUSCADORES DE PÁGINAS WEB Y LA RELEVANCIA DE LA ACTUALIZACIÓN DE CONTENIDOS

Más detalles

electrónicas en la difusión de contenidos microbiológicos Joseba Bikandi

electrónicas en la difusión de contenidos microbiológicos Joseba Bikandi La utilidad de los blogs y páginas electrónicas en la difusión de contenidos microbiológicos Joseba Bikandi Definición Una pagina Web es una fuente de información adaptada para la World Wide Web (WWW)

Más detalles

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá Gestor de Contenidos CMS Que es un CMS? CMS son las siglas de Content Management System, que se traduce directamente al español como Sistema Gestor de Contenidos. Como su propio nombre indica, es un sistema

Más detalles

IV. Implantación del sistema.

IV. Implantación del sistema. IV. Implantación del sistema. Para hablar sobre el proceso de desarrollo del sistema de Recuperación de Información Visual propuesto, empezaremos hablando del hardware utilizado, las herramientas de software

Más detalles

Recuperación de información desde diferentes perspectivas

Recuperación de información desde diferentes perspectivas Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

Recuperación de Información en la Web y Motores de Búsqueda

Recuperación de Información en la Web y Motores de Búsqueda Recuperación de Información en la Web y Motores de Búsqueda Gabriel H. Tolosa tolosoft@unlu.edu.ar - 2015 - Estructura y Características de la Web WWW Algunas preguntas: Qué es? Cuál es su estructura?

Más detalles

Cookies: qué son y para qué sirven

Cookies: qué son y para qué sirven Cookies: qué son y para qué sirven Desde hace un tiempo las webs nos indican con mensajes que utilizan cookies propias de terceros. Muchos usuarios aceptan el mensaje sin más por el simple hecho de que

Más detalles

ASÍ CONSIGUES QUE TU WEB FUNCIONE EN BUSCADORES:

ASÍ CONSIGUES QUE TU WEB FUNCIONE EN BUSCADORES: Tener una web no es sinónimo de aparecer en las primeras posiciones de los buscadores, ya que esto es una tarea complicada que lleva mucho tiempo. Para lograr una buena posición es necesario utilizar técnicas

Más detalles

APOLO GESTION INTEGRAL.

APOLO GESTION INTEGRAL. APOLO GESTION INTEGRAL. APOLO Gestión es una aplicación realizada en Visual Studio, y apoyada en una potente base de datos SQL, que le proporciona grandes ventajas a la hora de trabajar tanto sobre redes

Más detalles

Redes de área local: Aplicaciones y servicios WINDOWS

Redes de área local: Aplicaciones y servicios WINDOWS Redes de área local: Aplicaciones y servicios WINDOWS 5. Servidor DHCP 1 Índice Definición de Servidor DHCP... 3 Instalación del Servidor DHCP... 5 Configuración del Servidor DHCP... 8 2 Definición de

Más detalles

Capitulo VI. Conclusiones.

Capitulo VI. Conclusiones. Capitulo VI. Conclusiones. VI.I. Conclusiones. Finalmente como conclusiones tenemos que resaltar el uso de varias tecnologías aparte de Java, como lo son el uso de la librería O reilly para pasar archivos

Más detalles

Anexo A Diagramas de Navegación

Anexo A Diagramas de Navegación Anexo A Diagramas de Navegación Figura D.1: Diagrama de navegación de la pantalla principal. 43 Figura D.2: Diagrama de navegación del apartado Crear Encuesta. 44 Figura D.3: Diagrama de navegación del

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

TEMA: DESARROLLO DE APLICACIONES WEB INTERACTIVAS UTILIZANDO LA TÉCNICA AJAX AUTOR: MERY SUSANA ZAMBONINO BAUTISTA

TEMA: DESARROLLO DE APLICACIONES WEB INTERACTIVAS UTILIZANDO LA TÉCNICA AJAX AUTOR: MERY SUSANA ZAMBONINO BAUTISTA TEMA: DESARROLLO DE APLICACIONES WEB INTERACTIVAS UTILIZANDO LA TÉCNICA AJAX AUTOR: MERY SUSANA ZAMBONINO BAUTISTA AREA DEL TEMA: INGENIERÍA DE SOFTWARE OBJETIVO GENERAL Desarrollar aplicaciones web utilizando

Más detalles

Caracterizando la Web Chilena

Caracterizando la Web Chilena Revista / Bits de Ciencia ciencia de la web en chile Caracterizando la Web Chilena Eduardo Graells Estudiante de Magíster en Ciencias mención Computación, DCC, Universidad de Chile. Ingeniero Civil en

Más detalles

La utilización de las diferentes aplicaciones o servicios de Internet se lleva a cabo respondiendo al llamado modelo cliente-servidor.

La utilización de las diferentes aplicaciones o servicios de Internet se lleva a cabo respondiendo al llamado modelo cliente-servidor. Procesamiento del lado del servidor La Programación del lado del servidor es una tecnología que consiste en el procesamiento de una petición de un usuario mediante la interpretación de un script en el

Más detalles

Hostaliawhitepapers. Redirección 301. Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199. www.hostalia.com

Hostaliawhitepapers. Redirección 301. Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199. www.hostalia.com Redirección 301 Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 www.hostalia.com Redirección 301 Alguna vez te has planteado cambiar tu aplicación web que tienes en marcha a otra dirección

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

Qué necesito saber para tener mi sitio web en Internet?

Qué necesito saber para tener mi sitio web en Internet? Qué necesito saber para tener mi sitio web en Internet? Introducción Antes es importante tener en cuenta que Es importante considerar lo siguiente: Definir claramente tu actividad en Internet Establecer

Más detalles

SERVICIOS TELEMÁTICOS PARA GESTIÓN DEL TURISMO RURAL EN UNA COMARCA.

SERVICIOS TELEMÁTICOS PARA GESTIÓN DEL TURISMO RURAL EN UNA COMARCA. UNIVERSIDAD DE VALLADOLID ESCUELA UNIVERSITARIA POLITÉCNICA INGENIERO TÉCNICO INDUSTRIAL, ESPECIALIDAD EN ELECTRÓNICA INDUSTRIAL MEMORIA RESUMEN PROYECTO FIN DE CARRERA SERVICIOS TELEMÁTICOS PARA GESTIÓN

Más detalles

Estrategias para un buen Posicionamiento Web

Estrategias para un buen Posicionamiento Web Estrategias para un buen Posicionamiento Web Para posicionar la web de tu empresa en los principales buscadores son necesarios una serie de requisitos. Entre ellos, está la no realización de determinadas

Más detalles

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia Internet y World Wide Web Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia Objetivos de este capítulo Conocer cuándo y cómo fue creada Internet Aprender

Más detalles

Instalar y configurar W3 Total Cache

Instalar y configurar W3 Total Cache Instalar y configurar W3 Total Cache en WordPress Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 www.hostalia.com La velocidad de carga de una web influye mucho a la hora de mejorar el

Más detalles

Anexos de Bases de Presentación de Propuestas. Consultoría para la implementación de sistemas de gestión de contenidos para comunidades de RedCLARA

Anexos de Bases de Presentación de Propuestas. Consultoría para la implementación de sistemas de gestión de contenidos para comunidades de RedCLARA Anexos de Bases de Presentación de Propuestas Consultoría para la implementación de sistemas de gestión de contenidos para comunidades de RedCLARA Julio 2011 Anexo A. Requisitos funcionales A1. Para el

Más detalles

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados

Más detalles

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores.

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores. COMO FUNCIONA INTERNET Internet es una gran red de ordenadores a nivel mundial, que pueden intercambiar información entre ellos. Se pueden comunicar porque están unidos a través de conexiones telefónicas,

Más detalles

Tema 1: Introducción a las Aplicaciones Web. Contenidos:

Tema 1: Introducción a las Aplicaciones Web. Contenidos: Tema 1: Introducción a las Aplicaciones Web. Contenidos: 1. Esquema de funcionamiento. 1.1. Modelo Cliente/Servidor. 1.1.1. Componentes de un Servidor (WAMP, LAMP). 1.1.2. Navegadores. 1.2. Conceptos.

Más detalles

PLAN DIRECTOR DE SISTEMAS DE INFORMACIÓN DEL MINISTERIO DE TRABAJO Y ASUNTOS SOCIALES: ALGUNAS CONSIDERACIONES

PLAN DIRECTOR DE SISTEMAS DE INFORMACIÓN DEL MINISTERIO DE TRABAJO Y ASUNTOS SOCIALES: ALGUNAS CONSIDERACIONES PLAN DIRECTOR DE SISTEMAS DE INFORMACIÓN DEL MINISTERIO DE TRABAJO Y ASUNTOS SOCIALES: ALGUNAS CONSIDERACIONES Pilar Beriso GómezEscalonilla Consejera Técnica adjunta al Subdirector Subdirección General

Más detalles

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido

Más detalles

MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn

MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn Tegucigalpa M. D. C., Junio de 2009 Que es un CMS Un sistema de administración de contenido (CMS por sus siglas en ingles) es un programa para organizar

Más detalles

Alfredo Hidalgo Limbrick. Inteligencia de Redes de Datos

Alfredo Hidalgo Limbrick. Inteligencia de Redes de Datos Alfredo Hidalgo Limbrick Inteligencia de Redes de Datos Web Crawlers Google, Internet Archive, Mercator Funcionamiento de Mercator Problemas conocidos Estadísticas e Imágenes Son programas que inspeccionan

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

Internet aula abierta

Internet aula abierta MINISTERIO DE EDUCACIÓN Y CIENCIA SECRETARÍA GENERAL DE EDUCACIÓN Y FORMACIÓN PROFESIONAL DIRECCIÓN GENERAL DE EDUCACIÓN, FORMACIÓN PROFESIONAL E INNOVACIÓN EDUCATIVA CENTRO NACIONAL DE INFORMACIÓN Y COMUNICACIÓN

Más detalles

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios INTRODUCCION Tema: Protocolo de la Capa de aplicación. FTP HTTP Autor: Julio Cesar Morejon Rios Qué es FTP? FTP (File Transfer Protocol) es un protocolo de transferencia de archivos entre sistemas conectados

Más detalles

DOSSIER DE SERVICIOS [Diseño Web] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil]

DOSSIER DE SERVICIOS [Diseño Web] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil] DOSSIER DE SERVICIOS [Diseño Web] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil] Página 1 de 8 Introducción En Utopía nos dedicamos al desarrollo de aplicaciones

Más detalles

Sistemas de Caché. Para mejorar la velocidad de carga de una web. papers. acens

Sistemas de Caché. Para mejorar la velocidad de carga de una web. papers. acens Sistemas de Caché Para mejorar la velocidad de carga de una web Calle San Rafael, 14 28108 Alcobendas (Madrid) 902 90 10 20 www..com Introducción Llega el momento en la vida de un sitio web que debido

Más detalles

Motores de Búsqueda Web Tarea 1

Motores de Búsqueda Web Tarea 1 Motores de Búsqueda Web Tarea 1 71454586A Motores de Búsqueda Web Master en Lenguajes y Sistemas Informáticos Tecnologías del Lenguaje en la Web UNED 07/12/2010 Tarea 1 Enunciado del ejercicio Como introducción

Más detalles

CAPITULO I El Problema

CAPITULO I El Problema CAPITULO I El Problema 1. CAPITULO I EL PROBLEMA. 1.1. PLANTEAMIENTO DEL PROBLEMA. Desde su nacimiento la Facultad de Administración, Finanzas e Informática dispone del departamento de la biblioteca, con

Más detalles

PRESENTACIÓN DEL PRODUCTO

PRESENTACIÓN DEL PRODUCTO PRESENTACIÓN DEL PRODUCTO esernet, s.l. Sebastián Elcano, 32 Planta 1 Oficina 22 28012 Madrid Teléfono: 91 433 84 38 -- Fax. 91 141 21 89 www.esernet.com -- esernet@esernet.com 1. Introducción 2. Descripción

Más detalles

Nombre. El nombre corto del recurso. Éste será mostrado en la página principal de curso.

Nombre. El nombre corto del recurso. Éste será mostrado en la página principal de curso. 4.4. ENLAZAR UN ARCHIVO O UNA PÁGINA WEB 4.4.1. Características El contenido de un curso no sólo se limita a los creados mediante los editores de Moodle, puesto que este tipo de recursos permite enlazar

Más detalles

Manual CMS Mobincube

Manual CMS Mobincube Manual CMS Mobincube CMS Mobincube Qué es? El CMS (Sistema de Gestión de Contenidos) es un completo website que permite la creación y actualización de contenido remoto. De esta forma, una vez creada una

Más detalles

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red.

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red. Funciones de servidor La familia Windows Server 2003 ofrece varias funciones de servidor. Para configurar una función de servidor, instale dicha función mediante el Asistente para configurar su servidor;

Más detalles

Manual de Usuario. 2005 MexWebs Soluciones Web Globales S. de R.L. MEXWEBS Content Management System v2.0

Manual de Usuario. 2005 MexWebs Soluciones Web Globales S. de R.L. MEXWEBS Content Management System v2.0 Manual de Usuario 2005 MexWebs Soluciones Web Globales S. de R.L. MEXWEBS Content Management System v2.0 MEXWEBS CMS v2.0 2 Índice ÍNDICE...2 MANUAL PARA EL MEXWEBS CMS V2.0...3 Qué es MexWebs CMS v2.0?...

Más detalles

COMO FUNCIONA INTERNET

COMO FUNCIONA INTERNET COMO FUNCIONA INTERNET Fuente: http://www.areatecnologia.com/informatica/como-funciona-internet.html Vamos a explicar los conceptos básicos de Internet que todo el mundo debería conocer. Internet es una

Más detalles

Adobe Dreamweaver CS3 - Curso online Creación profesional de sitios web

Adobe Dreamweaver CS3 - Curso online Creación profesional de sitios web Adobe Dreamweaver CS3 - Curso online Creación profesional de sitios web Índice Conceptos básicos En este capítulo se enseñan los conceptos básicos de trabajo en Adobe Dreamveaver CS3. También se describen

Más detalles

Análisis de Optimización Web: ahorro de ancho de banda en la prensa digital española

Análisis de Optimización Web: ahorro de ancho de banda en la prensa digital española Análisis de Optimización Web: ahorro de ancho de banda en la prensa digital española Powered by Funomy EXTRACTO El sector de la prensa digital en España podría ahorrarse al año más de 235. Euros en ancho

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

SEM Y SEO. capítulo 06

SEM Y SEO. capítulo 06 SEM Y SEO capítulo 06 SEM Y SEO SEM y SEO La finalidad de cualquier webmaster (persona responsable de la creación y mantenimiento de un sitio web) es que su página reciba el mayor número de visitas. Para

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

El Libro del posicionamiento en buscadores Por David de Ugarte

El Libro del posicionamiento en buscadores Por David de Ugarte El Libro del posicionamiento en buscadores Por David de Ugarte Índice Introducción: Verdad y mentira del posicionamiento en buscadores Parte I: Cómo funcionan los grandes motores de búsqueda? 1. Buscadores,

Más detalles

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y Capítulo VI Conclusiones En este capítulo abordaremos la comparación de las características principales y de las ventajas cada tecnología Web nos ofrece para el desarrollo de ciertas aplicaciones. También

Más detalles

#bcntbtools. Jorge Medina Moya medinamoya.com

#bcntbtools. Jorge Medina Moya medinamoya.com #bcntbtools Jorge Medina Moya medinamoya.com Quién soy? Objetivo de hoy: -Entender que son las Herramientas para webmaster -Saber configurar los parámetros básicas -Como ganar el máximo posible con las

Más detalles

Software generador de documentos a través de la Web

Software generador de documentos a través de la Web Julia Patricia Melo Morín 1 Software generador de documentos a través de la Web 1 Contacto: patricia.melo@itspanuco.edu.mx Resumen Uno de los mayores problemas a los que se enfrentan las grandes corporaciones

Más detalles

Herramientas Informáticas para la Documentación Práctica 1. Introducción al navegador Netscape

Herramientas Informáticas para la Documentación Práctica 1. Introducción al navegador Netscape Herramientas Informáticas para la Documentación Práctica 1. Introducción al navegador Netscape Introducción y objetivos De modo muy resumido Internet es una red que interconecta redes de ordenadores. Conectándose

Más detalles

CÓMO CONFIGURAR INTERNET INFORMATION SERVER

CÓMO CONFIGURAR INTERNET INFORMATION SERVER CÓMO CONFIGURAR INTERNET INFORMATION SERVER Cintado Mejías, Silvia 75770772-D Ingeniera Técnica en Informática de Gestión 0. INTRODUCCIÓN En este artículo se van a desarrollar el concepto de Internet Information

Más detalles

Búsqueda Personalizada de Google Google Custom Search. Ing. Alfredo Alonso Peña

Búsqueda Personalizada de Google Google Custom Search. Ing. Alfredo Alonso Peña Búsqueda Personalizada de Google Google Custom Search Ing. Alfredo Alonso Peña PARA QUE ME SIRVE UN BUSCADOR? El objetivo de un sitio Web es publicar información útil al usuario y facilitar que este usuario

Más detalles

Para usar este servicio es necesario contar con acceso a la red y con una dirección de correo electrónico en un servidor que provea este servicio.

Para usar este servicio es necesario contar con acceso a la red y con una dirección de correo electrónico en un servidor que provea este servicio. PREGUNTAS Y RESPUESTAS FRECUENTES 1. Qué es el correo electrónico? Es un servicio de red que permite el intercambio de mensajes e información a través medios electrónicos y redes de datos. Estos mensajes

Más detalles

Proyecto: Análisis de Protocolo de Red de FPS QuakeIII.

Proyecto: Análisis de Protocolo de Red de FPS QuakeIII. Proyecto: Análisis de Protocolo de Red de FPS QuakeIII. Vicente Inostroza Patricio Navarrete Eduardo Latorre Universidad Técnica Federico Santa María Redes de Computadores Agustín J. González V. July 28,

Más detalles

Cómo tener tu Tumblr con un domino propio

Cómo tener tu Tumblr con un domino propio Cómo tener tu Tumblr con un domino propio Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 www.hostalia.com Desde hace algunos años, las redes sociales han adquirido una gran importancia

Más detalles

Ministerio de Educación, Cultura y Deporte. Aulas en Red. Windows. Módulo 2: Servicios Básicos. DHCP

Ministerio de Educación, Cultura y Deporte. Aulas en Red. Windows. Módulo 2: Servicios Básicos. DHCP Ministerio de Educación, Cultura y Deporte. Aulas en Red. Windows Módulo 2: Servicios Básicos. DHCP Aulas en red. Aplicaciones y servicios. Windows DHCP El servicio DHCP (Dynamic Host Configuration Protocol)

Más detalles

Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web

Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web Kexy Rodríguez kexy.rodriguez@utp.ac.pa Centro de Investigación, Postgrado y Extensión UTPVirtual Universidad Tecnológica de Panamá

Más detalles

Tema 3. 3.3 Tecnologías de Desarrollo

Tema 3. 3.3 Tecnologías de Desarrollo Tema 3 3.3 Tecnologías de Desarrollo HTML pronto pasa a ser insuficiente para todas las posibilidades de la Red No se puede interactuar con el servidor Aparecen los primeros scripts para propocionar dichar

Más detalles

1.1.- Introducción a la Web Vemos una introducción al medio donde se encajan los lenguajes que vamos a tratar: la web.

1.1.- Introducción a la Web Vemos una introducción al medio donde se encajan los lenguajes que vamos a tratar: la web. Sesión 01: Introducción a los lenguajes web COMPUTACION E INFORMATICA WEB DEVELOPPER III Competencias a Conseguir: - Introducción general a la programación web. - Conocer y diferenciar el concepto de páginas

Más detalles

Objetivo: Introducción conceptual y aplicación básica de los lenguajes del lado del servidor.

Objetivo: Introducción conceptual y aplicación básica de los lenguajes del lado del servidor. Sesión 03: Lenguajes web del servidor Competencias a Conseguir: - Conocer el entorno de trabajo a nivel de servidores web. - Instalación del localhost (Servidor Local). - Repaso general de PHP y ejercicios

Más detalles

MANUAL DE USUARIO. Se deben seguir los siguientes pasos para la correcta instalación del módulo descargable:

MANUAL DE USUARIO. Se deben seguir los siguientes pasos para la correcta instalación del módulo descargable: MANUAL DE USUARIO La aplicación para la convocatoria Parques Científicos y Tecnológicos consta de un programa descargable más un módulo web. Mediante el módulo descargable, es posible cumplimentar todos

Más detalles

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo. GLOSARIO Actor: Un actor es un usuario del sistema. Esto incluye usuarios humanos y otros sistemas computacionales. Un actor usa un Caso de Uso para ejecutar una porción de trabajo de valor para el negocio.

Más detalles

Crear un servidor Web en IIS

Crear un servidor Web en IIS Crear un servidor Web en IIS Qué es un servidor web? Un servidor web es un programa que se ejecuta continuamente en un computador, manteniéndose a la espera de peticiones de ejecución que le hará un cliente

Más detalles

SINAC - Sistema de Información Nacional de Agua de Consumo MENU PRINCIPAL. Copyright Ministerio de Sanidad y Consumo

SINAC - Sistema de Información Nacional de Agua de Consumo MENU PRINCIPAL. Copyright Ministerio de Sanidad y Consumo SINAC - Sistema de Información Nacional de Agua de Consumo MENU PRINCIPAL Copyright Ministerio de Sanidad y Consumo 1. MENU PRINCIPAL DE SINAC... 3 1.1. MÓDULO ABRIR... 5 1.2. MÓDULO DE ENTRADAS... 6 1.2.1.

Más detalles

Sistema de Captura de Información mensual de las Administradoras de Fondos. Manual de Usuario. Superintendencia de Compañías

Sistema de Captura de Información mensual de las Administradoras de Fondos. Manual de Usuario. Superintendencia de Compañías Sistema de Captura de Información mensual de las Administradoras de Fondos Manual de Usuario Superintendencia de Compañías Dirección de Tecnología de Información y Comunicaciones 2010 Superintendencia

Más detalles

SLIDEFINDER: Una herramienta universal y gratuita para clasificar, buscar y compartir imágenes e información en la Web

SLIDEFINDER: Una herramienta universal y gratuita para clasificar, buscar y compartir imágenes e información en la Web SLIDEFINDER: Una herramienta universal y gratuita para clasificar, buscar y compartir imágenes e información en la Web José-María Zamanillo, Daniel Franco, Isabel Zamanillo, Constantino Pérez-Vega Estructura

Más detalles

Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable

Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable 1. Introducción. El Sistema de Administración de Información de un Negocio Franquiciable (SAINF)

Más detalles

Formatos para prácticas de laboratorio

Formatos para prácticas de laboratorio Fecha de efectividad: CARRERA PLAN DE ESTUDIO CLAVE ASIGNATURA NOMBRE DE LA ASIGNATURA LSC 2003-1 4599 Base de Datos II PRÁCTICA No. 6 LABORATORIO DE NOMBRE DE LA PRÁCTICA Licenciado en Sistemas Computacionales

Más detalles

Unidad 5. Conceptos y Estructuras de Archivos

Unidad 5. Conceptos y Estructuras de Archivos Unidad 5 Conceptos y Estructuras de Archivos En todos los tiempos y más aún en la era en que vivimos, el hombre tiene cada vez mas necesidad de consultar una mayor cantidad de información para poder desarrollar

Más detalles

Guía de uso del Cloud Datacenter de acens

Guía de uso del Cloud Datacenter de acens guíasdeuso Guía de uso del Cloud Datacenter de Calle San Rafael, 14 28108 Alcobendas (Madrid) 902 90 10 20 www..com Introducción Un Data Center o centro de datos físico es un espacio utilizado para alojar

Más detalles

PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha 2006-08

PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha 2006-08 PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet Revisión 1.1 Fecha 2006-08 Índice 1. Acceder 2. Menú 3. Gestión Básica 3.1 Añadir 3.2 Editar 3.3 Eliminar 3.4 Eliminación de registros

Más detalles

Arquitectura. 1.- Aplicaciones Web. Definición. Arquitectura clásica. Contenidos. 1.- Aplicaciones Web

Arquitectura. 1.- Aplicaciones Web. Definición. Arquitectura clásica. Contenidos. 1.- Aplicaciones Web Arquitectura 1.- Aplicaciones Web Definición Contenidos 1.- Aplicaciones Web 2.- Arquitectura de aplicaciones Web Lo que distingue una aplicación Web de una mero sitio Web reside en la posibilidad que

Más detalles

Motores de Búsqueda Web Tarea Tema 2

Motores de Búsqueda Web Tarea Tema 2 Motores de Búsqueda Web Tarea Tema 2 71454586A Motores de Búsqueda Web Máster en Lenguajes y Sistemas Informáticos - Tecnologías del Lenguaje en la Web UNED 30/01/2011 Tarea Tema 2 Enunciado del ejercicio

Más detalles

HOSTING TIPOS DE ALOJAMIENTO WEB EN INTERNET

HOSTING TIPOS DE ALOJAMIENTO WEB EN INTERNET HOSTING El Hosting o Alojamiento web es el servicio que permite a los usuarios de internet poder almacenar información en un CPU conectado a internet las 24 horas del día los 365 días del año, ya sea para

Más detalles

Desarrollo y servicios web

Desarrollo y servicios web Desarrollo y servicios web Luisa Fernanda Rincón Pérez 2014-2 2 Sesión 3. Arquitectura web básica parte 2 Qué haremos hoy? 3 1. La era post pc 2. Nombres de dominio 3. URL 4.HTTP( GET / POST) La era post-pc

Más detalles

revista transparencia transparencia y... 3.3. UNIVERSIDADES

revista transparencia transparencia y... 3.3. UNIVERSIDADES revista transparencia transparencia y... 3.3. UNIVERSIDADES 35 revista transparencia Mónica López del Consuelo Documentalista Open Data Universidad de Granada 3.3.1. El filtro básico de la transparencia.

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Search Marketing. Cómo plantear una buena estrategia de Search Marketing. > TUTORIALES mediaclick

Search Marketing. Cómo plantear una buena estrategia de Search Marketing. > TUTORIALES mediaclick Search Marketing Cómo plantear una buena estrategia de Search Marketing > TUTORIALES mediaclick Search Marketing / Cómo plantear una buena estrategia B ÍNDICE: POR DÓNDE EMPEZAR Definición de objetivos.

Más detalles

MANUAL INICIAL PARA LA GESTIÓN DE GALERÍAS DE IMÁGENES

MANUAL INICIAL PARA LA GESTIÓN DE GALERÍAS DE IMÁGENES MANUAL INICIAL PARA LA GESTIÓN DE GALERÍAS DE IMÁGENES MEDIANTE LA PLATAFORMA WEB COPPERMINE INSTALADA EN LOS CENTROS EDUCATIVOS DE LA XUNTA DE GALICIA Coppermine Photo Gallery es una galería de fotos

Más detalles

MANUAL DEL INSTALADOR

MANUAL DEL INSTALADOR MANUAL DEL INSTALADOR Índice Índice... 2 Instalación... 3 Extracción de archivos... 3 Actualización de los archivos de sistema... 3 Pantalla inicial... 4 Selección de la ruta de instalación... 4 Selección

Más detalles

PERIÓDICO ESCOLAR ON-LINE

PERIÓDICO ESCOLAR ON-LINE PERIÓDICO ESCOLAR ON-LINE Resumen El periódico escolar on-line potencia el uso de las TIC permitiendo a los docentes reforzar las competencias de los alumnos. Se desarrolla con el uso del periódico no

Más detalles

El ABC de Big Data: Analytics, Bandwidth and Content

El ABC de Big Data: Analytics, Bandwidth and Content Documento técnico El ABC de Big Data: Analytics, Bandwidth and Content Richard Treadway e Ingo Fuchs, NetApp, Noviembre de 2011 WP-7147 RESUMEN EJECUTIVO Las empresas entran en una nueva era en la que

Más detalles

CMS JOOMLA. Características

CMS JOOMLA. Características CMS JOOMLA Joomla es un sistema gestor de contenidos dinámicos (CMS o Content Management System) que permite crear sitios web de alta interactividad, profesionalidad y eficiencia. La administración de

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Capítulo 11. Conclusiones y trabajo futuro

Capítulo 11. Conclusiones y trabajo futuro Capítulo 11. Conclusiones y trabajo futuro En esta tesis ha realizado un entorno de desarrollo Web que proporciona herramientas para la mejora de la calidad del código de los desarrolladores. Para conseguir

Más detalles

XII Congreso Nacional de Informática de la Salud

XII Congreso Nacional de Informática de la Salud LOS MOTORES DE BÚSQUEDA PERSONALIZADA UTILIZADOS COMO HERRAMIENTAS DE FILTRADO DE WEBS CON INFORMACIÓN DE SALUD M. A. MAYER 1,2, A. LEIS 1 1 Departamento de Web Médica Acreditada del Colegio Oficial de

Más detalles

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro Capitulo 6 Conclusiones y Aplicaciones a Futuro. En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro para nuestro sistema. Se darán las conclusiones para cada aspecto del sistema,

Más detalles

DOSSIER DE SERVICIOS [Hello customer!] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil]

DOSSIER DE SERVICIOS [Hello customer!] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil] DOSSIER DE SERVICIOS [Hello customer!] [Diseño web Programación a medida Posicionamiento SEO Bases de datos 3D LOPD Marketing Móvil] Página 1 de 10 Introducción En Utopía nos dedicamos al desarrollo de

Más detalles

FORMULA TOP BLOGS MARKETING

FORMULA TOP BLOGS MARKETING FORMULA TOP BLOGS MARKETING Versión: 1.2 Fecha de revisión:septiembre de 2013 Índice... 2 Introducción... 3 TOP BLOGS MARKETING... 4 Descripción del Ranking...4 Cálculo del Ranking...5 Popularidad... 6

Más detalles

Objetivos del proyecto:

Objetivos del proyecto: Crear una página web corporativa atractiva, fácil de usar, que permita dar a conocer nuestra empresa, nuestros servicios y nuestros productos, a través de un medio con tanta importancia como es Internet.

Más detalles

Pasamos ahora a definir brevemente cual es el método de conexión más habitual usando un entorno gráfico.

Pasamos ahora a definir brevemente cual es el método de conexión más habitual usando un entorno gráfico. Clientes de FTP en modo gráfico Introducción Ya vimos en la primera parte de nuestro curso de FTP, que la conexión a servidores inicialmente se realizaba (y aún se sigue haciendo) en modo texto. Aunque

Más detalles

Capítulo 4. Implementación del lenguaje multitáctil

Capítulo 4. Implementación del lenguaje multitáctil Capítulo 4. Implementación del lenguaje multitáctil En este capítulo se presenta como fue diseñado y desarrollado el servicio de ademanes multitáctiles. Se presentan la arquitectura general del sistema,

Más detalles

1 El trabajo expuesto está subvencionado por el proyecto de la URJC PGRAL-2001/14

1 El trabajo expuesto está subvencionado por el proyecto de la URJC PGRAL-2001/14 EVALUACIÓN A TRAVÉS DE LA WEB: EL SISTEMA TUTORMAP 1 R.Criado, D.Martín y S. Sánchez (GIEMATI, Dpto. de CC. Experimentales e Ingeniería de la URJC) Resumen En este trabajo se describen las características

Más detalles