Características de la Web Chilena 2007
|
|
- Inmaculada Cáceres Domínguez
- hace 8 años
- Vistas:
Transcripción
1 Características de la Web Chilena 2007 Ricardo Baeza-Yates Yahoo! Research Centro de Investigación de la Web Eduardo Graells Centro de Investigación de la Web Mayo de 2008
2 Resumen En Octubre de 2007 se llevó a cabo una recolección masiva de páginas de la Web de Chile utilizando el sistema WIRE, desarrollado en el CIW. Del análisis de estos datos destacan las siguientes observaciones: La Web chilena está compuesta por al menos 200,000 sitios, y estos sitios contienen más de 9 millones de páginas. Muchas de sus características son muy similares a las de la Web global en general. Un 5, 63 % de los sitios están conectados entre sí a través de enlaces y tienen el 38, 99 % de las páginas. Por otro lado, un 65, 26 % de los sitios está completamente desconectado en términos de enlaces, pero representan un 24, 48 % de las páginas. Un sitio promedio tiene 48, 19 páginas, contenidas en 0, 69 MiB, con 1, 07 referencias desde otros sitios. En total se conocen 190,577 dominios. Un dominio promedio tiene 1, 05 sitios y 50, 57 páginas, contenidas en 0, 73 MiB. Cerca de 1/5 de las páginas chilenas fue creada o actualizada en el último año, lo que implica un alto grado de crecimiento y dinamismo. Alrededor del 81 % de las páginas de Chile está en español y cerca de un 17 % en inglés. Otros idiomas tienen una presencia muy leve. Los sustantivos que más aparecen en la Web chilena son: Chile, web, comentarios, sitio, Santiago, noticias y servicios. Los países más referenciados desde Chile son China, Argentina, Alemania, México y España, y en general el número de referencias a países extranjeros está relacionado con el volumen de intercambio comercial. Los sitios que reciben más enlaces son sii.cl, uchile.cl, mineduc.cl, meteochile.cl y corfo.cl. Los proveedores de hosting con mayor número de sitios son IFX Networks, T-Chile, VirtuaByte, PuntoWeb, DattaWeb y ChileAdmin. Respecto a la calidad de las páginas y sitios: De todos los sitios, el 14 % más grande de ellos contiene el 99 % de la información en la Web chilena, medida en el número de bytes contenidos en sus páginas. Cerca de un 24 % de los sitios de Chile no son fáciles de encontrar ya que están hechos con tecnologías no visibles para los motores de búsqueda, como Flash y Javascript.
3 2 Un 26 % de las páginas tienen algún valor de contenido en términos de estar referenciadas desde otros sitios. Sin embargo, estas páginas están repartidas en el 7 % de los sitios Web. Cerca de un 7 % de los enlaces ya no existen. Respecto a las tecnologías Web: De los servidores que entregan información, el servidor Web más utilizado es Apache con 53 %, seguido con un 47 % por Microsoft Internet Information Server. De los servidores que entregan información, el sistema operativo más utilizado es Unix/Linux con 68 %, seguido por Microsoft Windows con 32 %. El generador de páginas dinámicas más usado es PHP con un 79, 36 % de participación en el mercado. El formato de documentos más usado es PDF con un 56, 74 % de participación, seguido por XML con un 26, 69 %. Aproximadamente hay una disponibilidad del cuádruple de archivos con paquetes de software para Linux que para Windows en la Web chilena.
4 Índice general 1. Introducción Cómo es la Web? Estudiando la Web de un país Recolección de páginas Dificultades en la caracterización de la Web Organización de este informe Documentos Páginas descargadas versus enlaces inválidos URLs Longitud de las URLs Profundidad de las URLs Edad de las páginas Títulos de las páginas Texto en las páginas Idioma Vocabulario Páginas Dinámicas Documentos que no están en formato HTML Imagen, Audio y Vídeo Archivos Comprimidos, Software y Código Fuente Enlaces entre páginas Web Ordenamiento usando análisis de enlaces Sitios 28 3
5 Número de Páginas Sitios con solamente una página Sitios con muchas páginas Títulos de las páginas de un sitio Tamaño de los sitios Edad Proveedores Enlaces internos Enlaces entre sitios Sitios más referenciados Sitios con más enlaces Suma de los puntajes por enlaces Componentes fuertemente conectados Estructura de enlaces entre sitios Dominios Direcciones IP y Software utilizado como servidor Número de sitios por dominio Número de páginas por dominio Tamaño de los dominios Enlaces entre dominios Dominios de primer nivel Dominios externos de primer nivel Conclusiones 64
6 Capítulo 1 Introducción En este Capítulo se presentan las características de la Web y de la muestra estudiada, así como la metodología para recolectar documentos y efectuar diferentes análisis. También se presenta la estructura de este informe Cómo es la Web? La Web es más que un simple conjunto de documentos en distintos servidores, ya que existen relaciones de información entre los documentos mediante los enlaces que establecen entre ellos. Esto presenta muchas ventajas, tanto para los usuarios, a la hora de buscar información, como para los programas que recorren la Web, a la hora de buscar contenido para recolectar (probablemente para un motor de búsqueda). Debido a esto se plantea que la Web sigue un modelo de grafo dirigido, en el que cada página es un nodo y cada arco representa un enlace entre dos páginas. En general, una página enlaza a otras páginas similares [18], de modo que es posible reconocer páginas mejores que las demás, siendo estas últimas las que reciben un número mayor de enlaces que lo normal (o promedio). La web tiene una estructura que se puede clasificar como red libre de escala, que al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces, en la que los nodos altamente enlazados actúan como centros que conectan muchos de los otros nodos a la red, como se ilustra en la Figura 1.1. Analíticamente, la distribución dispareja de enlaces sigue una ley de potencias (power-law) 1 : P r (Γ (p) = k) k θ Esto quiere decir que la distribución de los enlaces es muy sesgada: unas pocas páginas reciben muchos enlaces mientras que la mayoría recibe muy pocos o incluso ninguno. En este estudio se muestra que dicha distribución se puede aplicar a muchos aspectos de la Web, de los cuales se dice que siguen una ley de Zipf. El nombre de esta distribución se debe a Kingsley Zipf, que en 1932 enunció la distribución que modela la frecuencia de aparición de las palabras en los textos [37]. Cuando estas distribuciones se representan en un gráfico con escala logarítmica se obtiene una línea recta, tal como se observa en muchos de los gráficos de este estudio. 1 Respecto a su estudio se recomienda el trabajo de Barabási [10] debido a su claridad. 5
7 6 (a) Red Aleatoria. (b) Red Libre de Escala Figura 1.1: Ejemplos ilustrativos de una red aleatoria y una red libre de escala. Cada grafo tiene 32 nodos y 32 enlaces Estudiando la Web de un país Las redes libres de escala son auto-similares: una pequeña muestra mantiene características de la red completa (es decir, las características trascienden la escala con que se mire la red). Se muestra en este estudio que éste es el caso de la Web Chilena, que presenta características muy similares a la red mundial y a las redes de otros países, a pesar de contener menos de 1/1250 de las páginas recolectables 2 en la Web global, estimadas el 2005 en páginas [22]. Ahora bien, cómo se puede definir una web nacional? Se dice que es el conjunto de páginas relacionadas con un país, pero técnicamente es difícil distinguir si una página está asociada al país que se está estudiando. En este estudio se utiliza la heurística de asociar a Chile todos los sitios web con dominios.cl 3, así como los dominios genéricos y extranjeros conocidos que, a la hora de realizar el estudio, se encuentren hospedados en direcciones IP asignadas a Chile. La Web Chilena ha sido objetivo constante de estudio: se han estudiado sus características en los años 2000 [1], [9], 2004 [3] y 2006 [6]. Asimismo, también existen estudios sobre otras webs nacionales: África (9 países) [13]. Argentina [34]. Austria [30]. Brasil [27, 36]. China [25]. España [7]. Grecia [20]. 2 La Web pública o recolectable es sólo una parte de la Web total. La Web oculta, de acceso restringido o privado, probablemente es mucho más grande. 3 Gracias al apoyo de NIC Chile se contaba con la lista completa de dominios.cl al momento de realizar el estudio.
8 7 Hungría [11]. Corea del Sur [8]. Perú [35]. Polonia [15]. Portugal [21]. Reino Unido, Nueva Zelanda y Australia (sólo universidades) [33]. Tailandia [31]. A través de los años se ha comprobado que, si bien la web cambia (y crece) a una velocidad enorme, su estructura y sus propiedades se mantienen dentro de un rango de similitud Recolección de páginas La recolección fue realizada en el mes de Septiembre de 2007, utilizando el crawler WIRE [5] 4. Se utilizó un computador con una CPU Intel Pentium IV de 3 GHz, 1 GiB 5 de RAM bajo sistema operativo Ubuntu Linux El funcionamiento del recolector es el siguiente: se comienza la descarga de un conjunto de direcciones iniciales, llamadas semillas o seeds, que en este caso son los dominios conocidos mencionados en la Sección anterior. De las páginas descargadas de esos dominios se extraen enlaces a nuevos sitios, que son agregados a una nueva lista de sitios por descargar, y el proceso se repite hasta que se han descargado todos los documentos posibles. El criterio para definir si se han descargado todos estos documentos depende de la configuración del crawler: pueden ser límites de espacio en el disco duro, de tiempo de recolección, de configuración de cantidad máxima de documentos a descargar, o a que simplemente no se encontraron más páginas públicas para descargar. En total, en esta colecta se descargaron más de 9 millones de páginas web. La colección, con documentos comprimidos, utiliza 78 GiB de disco duro. De este espacio, 40 GiB corresponde al texto de los documentos, mientras que el espacio restante corresponde a meta-datos de los documentos, incluyendo 27 GiB conteniendo las direcciones de los documentos en formatos diferentes al HTML. Es necesario indicar que la cantidad de sitios descargados es de 200,000, pero el recolector reportó la existencia de sitios que no pudieron descargarse debido a que esa cifra era el límite máximo especificado en la configuración. Un mes después de la colecta se realizó una colecta secundaria, considerando solamente los sitios que tenían al menos un enlace entrante o saliente, con el fin de obtener una mejor caracterización en las tablas del Capítulo 3. El Cuadro 1.1 resume las características principales de la colección. 4 En particular su versión 0.14, modificada para comprimir los documentos recolectados. 5 Usamos GiB, MiB, etc. para referirnos a potencias en base 2, mientras que GB y MB se refieren a potencias en base 10.
9 8 Páginas Web Texto en Total 135,76 [GiB] Texto promedio por página ,68 [B] Sitios Web Estudiados Páginas promedio por sitio 48,19 Texto promedio por sitio ,12 [B] Dominios Sitios promedio por dominio 1,05 Páginas promedio por dominio 50,57 Texto promedio por dominio ,47 [B] Cuadro 1.1: Resumen de estadísticas de la colecta Dificultades en la caracterización de la Web La Web es una colección descentralizada, en la cual distintos autores pueden contribuir contenido por su cuenta sin una instancia de control que decida qué se publica y qué no. Esta es la principal ventaja de la Web desde el punto de vista de los usuarios, pero también es la principal causa de dificultades tanto para buscar información como para caracterizar colecciones de páginas. Las siguientes anomalías constituyen violaciones de estándares o situaciones especiales que dificultan la caracterización de las páginas: Parámetros en la URL y URL Rewriting : existen páginas que tienen direcciones más largas de lo que realmente deberían ser. Esto se debe a que entregan sus parámetros en la dirección de la página como si fuera la ruta de acceso a ella, lo que contradice el estándar de URLs [12], puesto que los parámetros de invocación de programas deberían aparecer en la URL después de un signo?, por ejemplo: Incorrecto: Correcto: Esta técnica es conocida como URL Rewriting y su uso se ha extendido con la aparición de sistemas de administración de contenido (CMS, Content Management System). Entre sus consecuencias se encuentran: 1) no se puede distinguir si la página es estática o dinámica, 2) direcciones inválidas y mal formadas son procesadas como correctas, y 3) se recorren varias páginas que tienen el mismo contenido, ya que por lo general estas direcciones admiten varios parámetros diferentes para entregar una misma página (el identificador, el título, la sección dentro del sitio, la fecha, etc.). Como consecuencia, se recolectan sitios que tienen un tamaño mucho más grande del real, con más páginas que el promedio. Réplicas de contenido : Constituye una práctica habitual en la Web el tener varias copias distribuidas geográficamente de los mismos documentos. Normalmente lo que se replica son colecciones completas de gran volumen, y se hace por motivos de eficiencia. Las colecciones más frecuentemente replicadas en la Web son [16]: el sitio de software Tucows, el proyecto de
10 9 documentación de Linux (LDP), la documentación del servidor web Apache y la documentación del lenguaje de programación Java. La información replicada se estima entre un 20 % y un 40 % del total en la Web. Ahora bien, las cifras en la colección de la Web Chilena, indican que no hay tanto contenido duplicado. Los documentos que son réplicas de otros son 503,145, un 5, 22 % del total de las páginas. Una inspección manual de la colección, en particular de los sitios con más páginas, entrega una gran cantidad de páginas que, si bien no son réplicas exactas, presentan el mismo contenido. Esto sucede principalmente en sitios de venta de productos, como pueden ser catálogos en línea o sitios de remates. Spam en general : El Spam en la Web se refiere a acciones orientadas a engañar a los sistemas de búsqueda en la Web y a dar algunas páginas una posición más alta de la que merecen en el resultado de una búsqueda en un motor de búsqueda [23]. Estas acciones incluyen cambios en el texto, en los meta-datos o en los enlaces de las páginas si es que el visitante es un robot recolector. También se encuentra el spam que afecta a los sitios sociales, como blogs y foros, en los cuales el principal atractivo es la interacción de los usuarios. Usualmente existen robots que, intentando pasar por usuarios, publican comentarios con enlaces hacia sitios de dudoso origen Organización de este informe Los distintos niveles de análisis posibles para la Web son los siguientes: el más pequeño es el de palabras o bloques de texto o imágenes, luego vienen las páginas y documentos, sub-sitios (unidades coherentes de múltiples páginas), sitios, dominios nacionales, y luego la web global. En este informe se sigue esta estructura, llegando hasta el estudio de la web nacional de Chile, a través de los siguientes Capítulos: Capítulo 2, Documentos: se presenta la Web Chilena a nivel de páginas y documentos. Se estudian tanto las páginas web como los documentos en formatos diferentes a HTML. También se estudia el vocabulario presente en los documentos. Capítulo 3, Sitios: se presenta la Web Chilena a nivel de sitios. Se estudia la estructura de grafo de la web, y se enumeran los sitios con más documentos, con mayor tamaño y con mayor cantidad de enlaces entrantes y salientes. Se muestran los proveedores que tienen la mayor cantidad de sitios. Capítulo 4, Dominios: se presenta la Web Chilena a nivel de dominios. Se estudia la relación por enlaces entre dominios, los dominios con más sitios y con mayor tamaño. Se estudian las direcciones IP y servidores que hospedan los dominios. También se estudia la relación entre el dominio nacional y los dominios extranjeros en términos de enlaces. Capítulo 5, Conclusiones: se presentan las conclusiones de este informe.
11 Capítulo 2 Documentos En este Capítulo se presenta el análisis individual de los documentos, sin considerar su agrupación en sitios o dominios. Por documento se entiende una página web, aunque también existen documentos con información en formatos distintos a HTML. Las Secciones de estudio son las siguientes: Sección 2.1, Páginas descargadas versus enlaces inválidos: se muestra el grado de éxito al tratar de descargar los enlaces a páginas encontrados durante la recolección. Sección 2.2, URLs: se estudian las direcciones, URLs, de las páginas recolectadas. Este estudio incluye la distribución de largos de los títulos y la profundidad a la que pertenece cada dirección. Sección 2.3, Edad de las páginas: se estudia la edad en meses de los documentos de la colecta. Sección 2.4, Títulos de las páginas: se estudian los títulos de la Web Chilena, tanto en su largo como en su tipo, pudiendo este último, en caso de existir, ser único, compartido o genérico. Sección 2.5, Texto en las páginas: se estudia la cantidad de texto presente en las páginas de la colecta. Sección 2.6, Idioma: se realiza una estimación del idioma al que pertenecen los documentos de la colecta, utilizando una heurística simple pero efectiva de identificación. Sección 2.7, Vocabulario: se estudia el vocabulario presente en la Web Chilena, incluyendo la frecuencia de las palabras y los sustantivos con mayor presencia. Sección 2.8, Páginas Dinámicas: se estudia la cantidad de páginas dinámicas encontradas, así como los tipos de generadores de este tipo de páginas. Sección 2.9, Documentos que no están en formato HTML: se estudian los enlaces encontrados a documentos en formato no HTML, tanto de información escrita como a archivos comprimidos y archivos multimedia. Sección 2.10, Enlaces entre páginas Web: se estudian las relaciones entre páginas web mediante enlaces entrantes (grado interno) y enlaces salientes (grado externo). 10
12 11 Sección 2.11, Ordenamiento usando análisis de enlaces: se estudian los algoritmos de evaluación de importancia de las páginas de acuerdo a la cantidad de enlaces que éstas reciben Páginas descargadas versus enlaces inválidos El recolector de páginas funciona extrayendo direcciones de las páginas que han sido descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o que simplemente fueron mal escritas. Cada vez que el recolector se contacta con un servidor Web, éste retorna un código de estado que indica si la página existe o no, o si existe un motivo por el cual no se puede entregar el documento pedido. La Figura 2.1 muestra la distribución de páginas de acuerdo a estos códigos de estado. Existe una gran cantidad de códigos de estado que se han agrupado de la siguiente manera: OK: incluye todos los requerimientos exitosos: OK (200) y PARTIAL CONTENT (206). NOT FOUND: el servidor no encuentra el documento pedido: NOT FOUND (404). MOVED: incluye todos los requerimientos en los cuales el servidor redirige al recolector a una otra página: MOVED (301), FOUND (302) y TEMPORARY REDIRECT (307). SERVER ERROR: incluye todas las fallas en el lado del servidor: INTERNAL SERVER ERROR (500), BAD GATEWAY (502), UNAVAILABLE (503), y NO CONTENT (204). FORBIDDEN: incluye todos los requerimientos que no son permitidos, principalmente por tratarse de páginas protegidas con contraseña: UNAUTHORIZED (401), FORBIDDEN (403) y NOT ACCEPTABLE (406). Figura 2.1: Estado HTTP de los Documentos La tasa de éxito, superior al 85 %, ha aumentado cerca de tres puntos en relación a la muestra del año 2006 [6]. Lo mismo sucedió con la tasa de enlaces rotos, que subió desde 4 % a 7 %. Puede parecer extraño que hayan aumentado en la misma cantidad los enlaces a páginas existentes como los enlaces rotos, ante lo cual se pueden plantear diferentes hipótesis. Una de ellas es la migración
13 12 de contenido en los sitios: en la red cada vez es más común que un sitio completo se administre mediante un administrador de contenidos. Este tipo de software permite que los administradores de un sitio manejen su contenido sin tener que involucrarse en el desarrollo (programación) del mismo. De este modo, los enlaces a las diferentes secciones y páginas los maneja el software, asegurando una tasa mayor de enlaces correctos. Sin embargo, qué sucede cuando un sitio migra todo su contenido desde una estructura antigua a una estructura nueva? La consecuencia de esa migración, que desde el punto de vista administrativo del sitio es positiva, puede ser negativa en términos de todos los enlaces que recibía el sitio URLs La dirección de una página Web es comúnmente expresada mediante una URL (sigla de Uniform Resource Locator) [12]. Una URL tiene un doble propósito, por una parte identifica un recurso en la Web de manera única y por otra indica cómo es posible acceder a dicho recurso en el servidor. Las URLs más usadas en la Web son las que corresponden al protocolo de transferencia de hipertextos (HTTP). Estas URLs tienen normalmente la siguiente forma: Por ejemplo, indica que el sitio a contactar es que el documento que se necesita se encuentra en el directorio /projects/wire/ y que se llama index.html. Cuando una dirección no incluye el nombre del documento, se asume que se está buscando un archivo index.html 1 dentro del directorio indicado en la dirección Longitud de las URLs La longitud promedio de una URL, incluyendo la especificación del protocolo nombre de servidor, ruta y parámetros, es de 75 caracteres. Este promedio es similar al de otros países: 74 para España [7], 69 para Portugal [21], 75 para Argentina [34] y 57 caracteres para la Web global [32]. Esta diferencia con el promedio de la Web global puede tener relación con las nuevas aplicaciones Web, tanto comerciales como sociales, que incluyen una gran cantidad de parámetros en sus direcciones. Esto se corrobora al ver que las direcciones más largas corresponden a páginas dinámicas. El 54 % de las URLs tienen entre 40 y 80 caracteres. Los largos se distribuyen de acuerdo con la Figura 2.2, que tiene una distribución log-normal con parámetros estimados µ = 4, 12 y σ = 0, Profundidad de las URLs La profundidad de una página dentro de un sitio se puede definir de dos formas: 1 Este nombre depende de la configuración del servidor que se esté utilizando y de la tecnología usada para generar páginas dinámicas. En los servidores primero se suele buscar una página dinámica para que actúe de índice (por ejemplo, index.php. Si no es encontrada se busca el archivo ya indicado.
14 13 Figura 2.2: Distribución de los largos de las URLs pertenecientes a los documentos HTML de la colecta. Profundidad Lógica La página inicial de un sitio está a profundidad 1; todas las páginas alcanzables directamente desde ella, a profundidad 2; y así sucesivamente. La profundidad lógica mide el número de clics necesarios desde la portada de un sitio hasta la página requerida. Profundidad Física La página inicial de un sitio está a profundidad 1, las páginas de la forma o están a profundidad 2, y así sucesivamente. La profundidad física mide la organización en archivos y directorios de un sitio Web. En este estudio se analiza la profundidad física de las páginas, que es directamente extraíble a partir de las URLs. La distribución de esta variable se muestra en la Figura 2.3. Se observa que el máximo de la distribución se encuentra en los niveles 2 y 3, siendo este último el único donde las páginas dinámicas detectadas superan a las estáticas Edad de las páginas La edad de una página se determina al observar la fecha de última modificación especificada por el servidor que la contiene. Al ser una variable dependiente de la configuración del servidor, muchas páginas tienen fechas erróneas, que bien pueden ser fechas del futuro o fechas demasiado antiguas, previas a la invención de la Web.
15 14 Figura 2.3: Distribución de la profundidad de los documentos recolectados. La distribución de las edades de las páginas en términos de meses se muestra en la Figura 2.4. Esta distribución sigue una ley de potencias con parámetro 1, 27. En los 12 meses anteriores a Octubre de 2007, cerca de un 19 % de las páginas se creó o se actualizó, lo que indica que la Web chilena está creciendo rápidamente, pero no de una manera explosiva: en los dos estudios anteriores, las tasas de crecimiento eran cercanas al 25 % Títulos de las páginas Cerca de un 26 % de las páginas no tiene un título de documento, que junto al 1 % de los títulos por omisión 2, indican que un 27 % de las páginas no tiene un título significativo. En la Figura 2.5 se observa la distribución de los tipos de título: si bien un 73 % de las páginas tiene un título significativo, solamente un 33 % tiene un título único dentro del sitio al que pertenece. Usualmente el título compartido entre las páginas de un sitio es el nombre del sitio. La distribución de los largos de los títulos se observa en la Figura 2.6. Los títulos en la Web Chilena, de acuerdo a esta distribución, se pueden considerar de un largo adecuado, sobretodo si se comparan con los largos de otros países (en España la mayoría de los largos tiene entre 5 y 10 caracteres). Esta medición es importante porque el título de una página es uno de sus atributos más importantes, tanto en usabilidad (es el identificador dentro de los bookmarks de un usuario) 2 Títulos como Untitled Document, Documento sin título o Página nueva 1.
16 15 Figura 2.4: Distribución de la edad de los documentos en meses, aproximado con una ley de Zipf de parámetro 1, 12. como en difusión (es lo que más se destaca de una página en un listado de resultados de búsqueda) Texto en las páginas De cada página descargada se almacenaron sólo los primeros 100 KiB, lo que es suficiente para la mayoría de ellas. La distribución de la cantidad de páginas por cantidad de texto, incluyendo el código de la página y el contenido, se observa en la Figura 2.7. Esta distribución se ajusta a una ley de potencias con parámetro 3, 56 para páginas de más de 40 KiB, y de 0, 82 para páginas entre 11 y 40 KiB Idioma WIRE incluye un sistema de detección de idioma basado en stopwords, es decir, palabras que carecen de significado por sí mismas, también llamadas palabras funcionales. La heurística cuenta el número de stopwords dentro del documento para cada idioma del que se tienen stopwords y en base a ellas determina el lenguaje correspondiente. De este modo, se obtuvo la distribución de idiomas de la Figura 2.8.
17 16 Figura 2.5: Tipos de Título de Documento La proporción de los idiomas se ha mantenido prácticamente constante, el año 2006 el Castellano tenía una presencia de 80, 21 %, comparado con el 81, 34 % actual. El resto de las páginas en idioma extranjero se encuentra prácticamente en su totalidad en inglés. En otros países el idioma oficial no tiene tanta presencia: 62 % en España [7] y 63 % en Argentina [34] Vocabulario Al hablar de vocabulario se requiere definir qué es una palabra. La definición utilizada en este informe es cualquier secuencia alfanumérica de uno o más caracteres de largo. Se incluyen los caracteres especiales del castellano, como la letra ñ y los tildes. También se realiza la conversión de las entidades HTML para representar esos carácteres 3. Las diez palabras más frecuentes: de, la, y, en, a, el, que, los y por; naturalmente todas ellas son stopwords. En la Figura 2.9 se muestra la distribución de la frecuencia de las palabras presentes en la colección, obteniendo una ley de potencias con parámetro 0, 84, al igual que el año En el Cuadro 2.1 se incluye una Nube de Etiquetas (TagCloud), con los sustantivos más frecuentes en la Web chilena. Dentro de esta nube el tamaño de las palabras es proporcional a su frecuencia con respecto a las otras palabras de la nube (es decir, las palabras más pequeñas tienen menor frecuencia que las palabras más grandes, pero aún así son parte del grupo de palabras más frecuentes). Se observa que, dejando de lado los nombres de ciudades y fechas, en general los términos corresponden a servicios, comercio y tecnologías recientes: palabras frecuentes en foros, blogs, otros tipos de sitios sociales y administradores de contenido Páginas Dinámicas Más de 3, 2 millones (34 %) de las páginas descargadas eran páginas dinámicas, es decir, páginas generadas en el momento de ser solicitadas sin que existieran previamente. Esto es lo normal cuando hay una consulta a una base de datos involucrada en el proceso de desplegar las páginas. 3 Por ejemplo: el documento contiene la secuencia á, que es interpretada como á.
18 17 Figura 2.6: Distribución de los largos de los títulos pertenecientes a los documentos HTML de la colecta. A pesar de que la recolección aumentó su tamaño, la cantidad de páginas identificadas como dinámicas se ha mantenido. Esto se debe a que una gran cantidad de las páginas dinámicas no se puede identificar directamente: WIRE realiza tal detección a partir de la URL de la página, sea a través de la extensión del archivo (lo que indica la tecnología con la que se generó la página) o a través de un signo?, que indica los parámetros que recibe la página. Sin embargo, técnicas como URL rewriting impiden la determinación directa del tipo de página. Esta técnica, por un lado, es beneficiosa para los usuarios, ya que genera URLs más amigables, mientras que por otro, usualmente esta técnica genera demasiadas páginas duplicadas que tienen el mismo contenido pero distintas URLs de acceso, por lo que cifras como la cantidad de páginas que tiene un sitio, así como su tamaño, se ven distorsionadas. En la Figura 2.10 se muestra la distribución de páginas dinámicas de acuerdo a la aplicación que las genera. La aplicación más usada es PHP 4, una tecnología de código abierto que domina la Web Chilena con un 79, 36 % de participación, aumentando 4 puntos porcentuales respecto al año anterior. Le sigue la tecnología ASP [26], propietaria y de plataforma restringida, con un 18, 07 %. 4
19 18 Figura 2.7: Distribución del tamaño para los documentos de la colecta Documentos que no están en formato HTML Se encontraron aproximadamente 1, 5 millones de enlaces a documentos de texto en formatos distintos a HTML, siendo los más populares PDF (56, 74 %) y XML (26, 69 %). Esto indica que la proporción de enlaces a documentos en formatos estándares ha aumentado en relación a los formatos cerrados. En la Figura 2.11 se aprecia la distribución de los enlaces a los formatos más presentes. Respecto al formato PDF, también es el más usado en otros países, como en Austria [30], Brasil [27], Corea del Sur [8], Grecia [20], Portugal [21] y Argentina [34] Imagen, Audio y Vídeo Se encontraron muchos enlaces a archivos multimedia: más de 100 millones de enlaces a imágenes, 166 mil enlaces a audio, y 35 mil enlaces a vídeo. La distribución de enlaces a los formatos de estos medios se muestra en la Figura Las imágenes GIF son las más populares en la Web Chilena con un 77, 26 % de los enlaces. Esto se debe a que son utilizadas como elementos gráficos en el diseño de las páginas, al ser un formato con compresión sin pérdida, y a que también se utilizan en el contenido, sea a través de botones u otros elementos gráficos. Le sigue JPG, con un 18, 26 %, un formato de compresión con pérdida que es mayormente usado para almacenar fotografías. El formato PNG, a pesar de haber nacido como un reemplazo para GIF, no ha logrado aumentar su participación debido a la falta de
20 19 Figura 2.8: Lenguaje de los Documentos soporte de los navegadores, en particular del más usado. El resto de los formatos presentes tiene una presencia marginal. En audio, el formato MP3, que se había mantenido líder hasta el año 2006, ha cedido parte de su participación al formato WMA. El primero tiene una participación de 39, 23 %; el segundo, 40, 29 %. El tercer formato, PLS, no es un formato de audio por sí mismo, más bien es un formato de listas de reproducción. Los archivos en este formato probablemente son los mismos que han estado presentes desde los estudios en años anteriores. En vídeo, el formato con mayor presencia es WMV (49, 59 %), seguido por QT (18, 20 %) y MPEG(10, 65 %). El formato RM, al igual que en los años anteriores, sigue bajando su presencia (10, 54 %), mientras que AVI parece mantenerse constante (6, 83 %) y FLV ha aumentado algunos puntos porcentuales (4, 20 %). En la Web Global, probablemente el formato con mayor presencia es FLV, ya que es el formato utilizado por las redes sociales de publicación de vídeo Archivos Comprimidos, Software y Código Fuente Se encontraron más de 159 mil enlaces a archivos comprimidos, más de 102 mil enlaces a archivos de programas y más de 27 mil enlaces a archivos de código fuente en diversos lenguajes. La distribución de los enlaces se muestra en la Figura La distribución de archivos comprimidos muestra un dominio de los formatos ZIP (53, 64 %) y GZ(24, 47 %). El formato ZIP es usado con frecuencia para distribuir software para Windows, mientras que el formato GZ suele ser usado con frecuencia para distribuir software para Linux. Los archivos RAR (20, 88 %) suelen ser usados para distribuir contenido arbitrario. El formato TAR (1 %)se utiliza primariamente en Linux, aunque es difícil encontrar archivos de formato TAR, ya que más que un formato comprimido es un contenedor que es luego comprimido a GZ. Otros formatos tienen una presencia despreciable. Respecto al software, sin considerar que una gran cantidad se distribuye en formatos comprimidos, los formatos con mayor presencia son RPM (59, 06 %) y EXE (23, 12 %). Sin embargo, DEB (17, 82 %) es el tercer formato con presencia (el resto es despreciable), y con ello el software en formato para Linux tiene el triple de presencia que el formato para Windows. Esto no concuerda
21 20 Figura 2.9: Distribución de la frecuencia de las palabras para los documentos de la colecta. con el mayor uso de Windows por parte de los usuarios, y se puede deber a que una aplicación de Windows se distribuye como un único ejecutable mientras que una aplicación de Linux se distribuye mediante una gran cantidad de paquetes. La distribución de código fuente muestra el gran auge que ha tenido Javascript (28, 35 %) como lenguaje para construir páginas web que reaccionen dinámicamente ante las acciones del usuario, por lo general en sitios que utilizan AJAX para crear aplicaciones basadas en Web. Sin embargo, el código para aplicaciones C y C++ tiene una mayor presencia (59, 05 %). Probablemente esta proporcióń se debe a que un sitio completo utiliza pocos archivos JS con toda su funcionalidad, mientras que una aplicación en C o C++ contiene una gran cantidad de archivos. Sin embargo, no se puede dudar que la cantidad de enlaces a código fuente C y C++ ha aumentado notoriamente: el año 2006 era cercana al 27 % Enlaces entre páginas Web El número de enlaces que recibe una página Web se llama grado interno, y el número de enlaces que sale de una página se llama grado externo. Las distribuciones de ambos grados se muestra en las Figuras 2.14 y Al ajustar una ley de potencias a los datos se obtiene un parámetro 1, 87 para el grado interno, comparable con África (1, 9, [13]), Argentina (1, 71, [34]) y España (2, 11, [7]). Para la Web Global
22 21 acceso accesorios actividad actividades acuerdo aire alumnos amigo amigos anuncios argentina arica arte artículo artículos audio autor avisos ayuda bitácora blog búsqueda calidad casa categorías central centro chile chilena ciencias ciudad clases clasificados clave click colegio comentario comentarios comercio compra comprar comuna comunidad condiciones contacto contraseña copyright correo cosas crear cuenta cultura curso cursos datos deportes derechos desarrollo digital dirección director diseño domingo dvd día educación empresa empresas encuentro equipo equipos era escuela estado estados estudiantes estudio estudios eventos experiencia familia fax fiestas fin final flores fono forma foro foto fotos gente gobierno gracias grupo hecho historia hora hotel hoy imagen información inicio internacional internet juegos jueves lectores ley libre libres libro licencia links lugar lunes luz mapa martes medio mensaje mensajes mercado mesa metropolitana millones mundo música nacional nada nivel nombre nosotros noticias oferta ofertas online palabras parapente parte país personas plaza poder poĺıtica precio primera primero problemas producto productos profesionales programa proyecto proyectos publicar publicidad puerto página radio recursos red región respuesta resultados rss salud santiago seguridad servicio servicios sexo sistema sitio sitios social sociales sociedad software sur tags tecnología tema temas tiempo tipo todas todo todos trabajo trance turismo universidad usuario usuarios venta vida video videos viernes visitas web zona Cuadro 2.1: Sustantivos y temas más frecuentes en la web Chilena. el valor de este parámetro es 2, 1 [29]. Para el grado externo se obtiene un parámetro 3, 14 en la parte central (entre 12 y 100 enlaces), comparable con el valor 3, 34 obtenido en Argentina [34]. En la Figura 2.16 se muestra la relación entre tamaño y el grado interno/externo de las páginas. Existe una correlación entre el grado externo y el tamaño de las páginas, puesto que una página no puede contener demasiados enlaces en caso de ser es muy pequeña. Respecto al grado interno y el tamaño de las páginas la correlación no es evidente, pero sí se aprecia que páginas de menor tamaño reciben una fracción menor de enlaces Ordenamiento usando análisis de enlaces Existen varios algoritmos de enlaces que intentan inferir cuan importante es cada página en la Web, utilizando la información de los enlaces que recibe cada página. En este estudio se comparó a distribución de Pagerank [28] con una variación del algoritmo HITS [24], en el cual se utilizó la Web completa como el conjunto de análisis. Esto último puede verse como una versión estática de HITS. El algoritmo Pagerank calcula para cada página un puntaje que refleja la cantidad de enlaces que recibe desde otras páginas con un alto número de enlaces. De cierto modo es una medida de la cantidad y calidad de los enlaces recibidos. El algoritmo de HITS calcula dos puntajes para cada página: Hub y Authority. El puntaje Hub indica qué tan buena es la página como fuente de
23 22 Figura 2.10: Páginas Dinámicas Figura 2.11: Documentos No HTML enlaces, en términos de qué tan buenos son los enlaces que tiene la página hacia otras páginas. El puntaje Authority indica qué tan buena es la página como recurso de información o contenido, en términos de la calidad de los enlaces que recibe. La distribución de los puntajes se muestra en la Figura Se destaca que los tres puntajes pueden ser aproximados con una ley de potencias: Pagerank, con parámetro 1, 31 en su parte inicial y 2, 19 en su parte central; el puntaje Authority, con parámetro 1, 70 en su parte central; y el puntaje Hub, con parámetro 3, 87 en su parte central. Por la fórmula del cálculo de PageRank, incluso páginas sin grado interno tienen un puntaje no nulo. A pesar de ello, un 62 % de los documentos posee el 99 % del puntaje Pagerank total. En cambio los puntajes Hub y Authority sí permiten que un documento tenga puntaje nulo. De esta manera, un 38 % de las páginas tiene puntaje Hub no nulo, y un 26 % tiene puntaje Authority no nulo. De una muestra aleatoria de 10,000 documentos, descartando los que tienen algún tipo de puntaje nulo, se estudió una posible correlación entre los puntajes por enlaces. De acuerdo a la Figura 2.18 no se puede establecer una relación directa, aunque una cantidad no despreciable de documentos con alto puntaje Pagerank también tienen alto puntaje Hub.
24 23 (a) Imágenes (b) Audio (c) Vídeo Figura 2.12: Distribuciones de los enlaces a documentos de imagen, audio y vídeo. (a) Archivos Comprimidos (b) Software (c) Código Fuente Figura 2.13: Distribuciones de los enlaces a archivos comprimidos, software y código fuente.
25 24 Figura 2.14: Distribución del Grado Interno para los documentos de la colecta.
26 25 Figura 2.15: Distribución del Grado Externo para los documentos de la colecta. (a) Relación entre el grado interno de un documento y su tamaño. (b) Relación entre el grado externo de un documento y su tamaño. Figura 2.16: Gráficos de dispersión entre el tamaño de un documento y sus grados internos y externo.
27 26 (a) Distribución del puntaje Authority para los documentos de la colecta. (b) Distribución del puntaje Hub para los documentos de la colecta. (c) Distribución de PageRank para los documentos de la colecta. Figura 2.17: Distribuciones de los puntajes por enlaces para los documentos.
28 27 (a) Authority vs Hubrank. (b) PageRank vs Authority. (c) PageRank vs HubRank. Figura 2.18: Gráficos de dispersión en busca de relaciones entre los puntajes PageRank, Authority y Hub.
29 Capítulo 3 Sitios Un sitio web es definido como un conjunto de páginas que comparte la parte del nombre del servidor de la URL. De este modo, un sitio es denominado y contiene todas las páginas cuya raíz es 1. Este Capítulo estudia diferentes características de los sitios de la Web Chilena. Un cuadro resumen con los datos de los sitios se puede observar en el Cuadro 3.1, donde se observa que el número de sitios estudiados es 200,000. Llama la atención la cantidad de sitios vacíos que se encontraron, 88,626, es decir, sitios cuya dirección existe en algún lugar 2 pero que en realidad no tienen páginas, o incluso ni siquiera están asignados a algún servidor. Sitios Estudiados Vacíos (Sin Documentos) Sitios con 1 Página Sin Grado Interno Sin Grado Externo Promedio Páginas 48,19 Promedio Contenido ,12 [B] Cuadro 3.1: Resumen de estadísticas sobre los sitios. Las Secciones de este Capítulo son las siguientes: Sección 3.1, Número de Páginas: se estudia la cantidad de páginas que poseen los sitios de la colecta. Sección 3.2, Sitios con solamente una página: se estudia el fenómeno de los sitios de una página, que no necesariamente tienen una página, sino más bien, una sola es visible por el recolector. Sección 3.3, Sitios con muchas páginas: se enumeran los sitios con más páginas de la colección. 1 En general, un sitio no discrimina si incluye el prefijo www, es decir, se puede utilizar una heurística en la cual sitio.cl equivale a 2 Por ejemplo, sólo con registrar un dominio.cl ya se conoce su dirección. 28
30 29 Sección 3.4, Títulos de las páginas de un sitio: se estudian los títulos de documentos en el contexto de los sitios de la colecta. Sección 3.5, Tamaño de los sitios: se estudia el tamaño total de los sitios, considerando la suma del tamaño de las páginas que lo componen. Sección 3.6, Edad: se estudia la edad en meses de los sitios, considerando la edad promedio de los documentos, en conjunto con la edad del documento más antiguo y del más nuevo. Sección 3.7, Proveedores: se estudian los proveedores de servicio de internet, ISP, que hospedan más sitios de la Web Chilena. Sección 3.8, Enlaces internos: se estudian los enlaces internos dentro de un sitio, es decir, aquellos enlaces entre documentos dentro de un mismo sitio. Sección 3.9, Enlaces entre sitios: se estudia el grado interno y externo de los sitios. Sección 3.10, Sitios más referenciados: se enumeran los sitios con mayor grado interno, es decir, aquellos enlazados desde la mayor cantidad de sitios distintos. Sección 3.11, Sitios con más enlaces: se enumeran los sitios que tienen más enlaces hacia otros sitios distintos. Sección 3.12, Suma de los puntajes por enlaces: se estudian los puntajes por enlaces para los sitios de la colección, considerando la suma de los puntajes para los documentos de los sitios. Sección 3.13, Componentes fuertemente conectados: una componente fuertemente conectada, en términos de enlaces, permite llegar desde un sitio de la componente hasta otro solamente siguiendo enlaces. En esta sección se estudia la distribución de este tipo de componentes en la Web Chilena. Sección 3.14, Estructura de enlaces entre sitios: a partir de las componentes estudiadas en la sección anterior, es posible establecer una estructura que define la composición de la Web Chilena, considerando como base de la estructura los enlaces entre sitios Número de Páginas Se observó un promedio de 48, 19 páginas por sitio (considerando sólo los sitios estudiados). La distribución de páginas a través de los sitios es muy sesgada, pues un 7 % de los sitios tiene el 90 % de los documentos. Dicha distribución se puede ajustar a una ley de potencias de parámetro 1, 84, visible en la Figura 3.1, y comparable a 1, 14 en España [7], 1, 6 en Brazil [27], 1, 45 en Argentina [34].
31 30 Figura 3.1: Distribución del número de documentos en los sitios Sitios con solamente una página Hay 48,103 sitios en los cuales el recolector encontró sólo una página. Esto representa un 24, 05 % de los sitios estudiados. Ahora bien, si una persona visita estos sitios para inspeccionarlos manualmente, en muchos de ellos encontrará un sitio completo con más de una página. Dentro de los motivos por los cuales se encuentra solamente una página en un sitio se encuentran los siguientes: La navegación de la página está basada en Javascript, por lo que es necesario interpretar el código Javascript para poder navegar. Un robot recolector no suele implementar un intérprete de este lenguaje de programación. El sitio es sólo una redirección a otro sitio. La tecnología para realizar la redirección puede variar entre una etiqueta refresh en los meta-datos de la página, un enlace de redirección manual al que debe acceder el visitante, o una redirección mediante Javascript. La página requiere un plug-in de Adoble Flash para poder ser visualizada. Las dos prácticas más comunes vistas en este tipo de sitios son: 1) la utilización de introducciones de bienvenida al sitio, 2) la navegación del sitio a través de un menú interactivo. En ambos casos la solución al problema es proveer enlaces HTML tradicionales que sirvan de alternativa para navegar a través del sitio. Similar a lo anterior, el sitio utiliza applets Java para la navegación.
32 31 El sitio efectivamente se compone de una sola página. Esta página puede tener contenido normal o bien presentar un gran conjunto de enlaces. El sitio no es público, por lo se requiere una clave de acceso para ingresar. En este caso se considera normal encontrar solamente una página. En la Figura 3.2 se muestra la distribución de los sitios de una página anómalos, es decir, aquellos en los cuales sí se espera tener acceso a una mayor cantidad de páginas. Figura 3.2: Clasificación de los sitios que solamente tienen una página visible para el recolector Sitios con muchas páginas Respecto a los sitios que tienen muchas páginas, o más bien los que tienen el mayor número de páginas, también existen anomalías. En el Cuadro 3.2 se observa la lista de los 30 sitios con más páginas, de los cuales se indica el total de páginas encontradas, la dirección del sitio y un comentario indicando la anomalía que afecta a ese sitio si es que se puede identificar alguna. En general, existen dos anomalías que usualmente se dan juntas. La primera es una consecuencia de utilizar un administrador de contenido (CMS) para gestionar las páginas. Estos administradores proveen una gran cantidad de formas para acceder al mismo contenido, es decir, generan una gran cantidad de páginas duplicadas, todas válidas, pero con direcciones distintas. La segunda anomalía es el uso de parámetros en la URL, mediante URL Rewriting, que acentúa la primera anomalía ya que sitúa un documento en una estructura física que realmente no existe. Los recolectores cuando encuentran una página que se encuentra a una profundidad física mayor a 2, sacan la última parte de la URL y verifican si sigue siendo una dirección válida. Cuando un CMS utiliza parámetros en la URL, a partir de una dirección se puede llegar a recolectar una cantidad de páginas equivalentes a la profundidad de la dirección. Estas páginas no suelen gatillar errores en el servidor (es decir, del tipo Error 404), sino que usualmente presentan algún tipo de contenido válido y duplicado proporcionado por el CMS. Dejando de lado las anomalías, resulta natural pensar que los otros sitios que pueden tener una gran cantidad de páginas son los catálogos de productos, en especial en los sitios de remates, y los sitios comunitarios, donde cada usuario tiene una gran cantidad de páginas asignadas (en las
33 32 Páginas Sitio Comentario CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL, Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL Comunidad de Fotografía,Parámetros en URL CMS con parámetros en URL CMS CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS CMS con parámetros en URL CMS con parámetros en URL Comunidad de Fotografía, Parámetros en URL CMS con parámetros en URL CMS con parámetros en URL CMS con parámetros en URL Comunidad de blogs, CMS con parámetros en URL Directorio de sitios CMS con parámetros en URL Catálogo de Productos CMS con parámetros en URL CMS con parámetros en URL Catálogo de Productos Cuadro 3.2: Los sitios con mayor cantidad de documentos HTML. El comentario indica posibles anomalías que incidieron en el número de documentos encontrado en el sitio.
34 33 cuales puede tener fotos, mensajes, publicaciones, etc., dependiendo del tipo de sitio). Un problema detectado en la mayoría de los catálogos de productos es que muchos de esos sitios duplican el contenido de otros sitios, lo que quiere decir que cuando un sitio agrega un producto, otros sitios también lo agregan, por lo que el número de páginas crece en todos ellos Títulos de las páginas de un sitio En la Figura 3.3 se observa la correlación entre el número de páginas de un sitio y la cantidad de títulos por página que tiene el sitio. El caso ideal es que un sitio tenga un título de documento distinto para cada página. En general no se observa una correlación significativa. Sin embargo, una gran cantidad de sitios tienen una relación cercana a 1, lo cual indica que existe una mayor preocupación por asignar un título a los documentos. Figura 3.3: Dispersión entre la cantidad de páginas en un dominio y la proporción entre títulos distintos y páginas dentro del dominio Tamaño de los sitios Al hablar de tamaño de un sitio se considera la suma de los tamaños de las páginas que lo componen. Sólo se considera el contenido HTML, es decir, el texto de las páginas (incluyendo código fuente), no el de sus imágenes u otros documentos o archivos. En la Figura 3.4 se muestra
35 34 la distribución del tamaño de los sitios, ajustada a una ley de potencias de parámetro 1, 64. La distribución es muy sesgada: un 14 % de los sitios contiene el 99 % del total del contenido. Figura 3.4: Distribución del contenido, en términos de tamaño, para los sitios de la colecta. En el Cuadro 3.3 se listan los 30 sitios con mayor cantidad de texto. De los 30 sitios, 29 son de índole comercial, y se repiten varios sitios del Cuadro 3.2, lo que es natural si se considera que las anomalías que provocan una mayor cantidad de páginas también provocan una mayor cantidad de contenido Edad Para estudiar la edad de un sitio web, se definen tres mediciones: la edad promedio de los documentos; la edad del documento más antiguo, es decir, aquel cuya fecha de actualización es una cota inferior respecto a la de los otros documentos; y la edad del documento más nuevo, es decir, la de aquel cuya actualización se realizó más recientemente. La distribución de la edad en meses de los sitios se observa en la Figura 3.5. Las tres edades consideradas se pueden ajustar a una ley de potencias: para la edad promedio, el parámetro es 1, 32; para la edad del documento más antiguo,1, 21; para la edad del documento más reciente, 1, 37. Cerca del 32 % de los sitios fueron creados o actualizados en el último año, lo que indica no solamente que la web Chilena crece a un ritmo acelerado, sino que también constante, ya que el
36 35 Texto [MiB] Sitio Tipo C C C C C C C C C C C C C C C C C C C C C C C C C C C C G C Cuadro 3.3: Tamaño de los sitios en MiB. Se considera solamente el tamaño de los documentos en formato HTML.
37 36 (a) Edad del documento más antiguo. (b) Edad del documento más reciente. (c) Edad promedio de los documentos. Figura 3.5: Distribuciones de las edades de los documentos de los sitios.
38 37 año 2006 creció un 40 % respecto al año 2004 [6] Proveedores Aunque cada sitio tiene una dirección única, muchos de ellos están hospedados en los mismos servidores. Determinar esto es posible a través de las direcciones IP de los sitios, y una vez que se tiene la dirección IP, se puede hacer una búsqueda de dns reverso para conocer el proveedor al que pertenece esa dirección. En el Cuadro 3.4 se muestran los 30 proveedores que hospedan más sitios en la Web Chilena Enlaces internos Un enlace interno dentro de una página en un sitio es aquel que apunta hacia otra página dentro del mismo sitio. En promedio, un sitio tiene 337 enlaces internos. Del mismo, el promedio de enlaces internos por página es 2, 25 (sin considerar sitios vacíos o con una página, en los cuales no existen los enlaces internos). La distribución del número de enlaces internos por sitio se muestra en la Figura 3.6, y se ajusta a una ley de potencias con parámetro 1, 54. La distribución del número de enlaces internos por página en los sitios, visible en la Figura 3.7 se ajusta a una ley de potencias de parámetro 2, 98. Un sitio con pocas páginas no puede tener demasiados enlaces internos. En la Figura 3.7 se muestra un gráfico de dispersión entre el número de páginas y la relación de enlaces internos por página en los sitios. En este gráfico no se aprecia una correlación importante Enlaces entre sitios El grado interno de un sitio es el número de sitios que tienen al menos un enlace hacia él, mientras que el grado externo de un sitio es el número de sitios distintos que son enlazados desde sus páginas. 3 En esta Sección se estudia el grado interno y externo de los sitios de la colección 4. El grado interno de un sitio es una medida de su popularidad, mientras que el grado externo refleja el tipo de sitio que se está visitando. Un sitio comercial difícilmente tendrá enlaces hacia otros sitios porque eso aleja a los usuarios. Por otro lado, aumentar el grado interno es difícil, mientras que aumentar el grado externo es fácil, ya que basta con editar el contenido de las páginas. En la Figura 3.8 se muestra la distribución del grado interno en los sitios. Esta distribución se ajusta a una ley de potencias de parámetro 1, 83, comparable con Brasil (1, 9 [27]), Grecia (2, 0, [20]) y la Web global (2, 34, [19]). 3 Esto se llama también hostrank o grafo de servidores [19]. 4 Un sitio sin grado interno o externo en esta colección no está necesariamente aislado de los demás en la Web global.
39 38 Proveedor Sitios ifxnw tchile 5712 virtuabyte 4048 puntoweb 3471 dattaweb 2590 chileadmin 2172 tie 2120 tecnoera 2086 chilecom 1835 dch 1564 entelchile 1525 dreamhost 1286 cyberiainternet 1277 ibizdns 1251 puntohost 1242 websitewelcome 1160 iia 1143 abyb 1088 theplanet 1067 hostmar 982 intelired 914 idat 884 netline 823 webhostingchile 714 smart 688 portalciudadano 688 dns-principal conepuppy 612 uchile 595 dnsforhost 554 intersitio 536 hostingpro 472 secureserver 461 d11intersitio 456 cyberblues 452 altavoz 449 telmexchile 438 bluehost 429 digitalproserver 425 scd 424 zcohosting 406 Cuadro 3.4: Proveedores de Servicio de Internet (ISPs) con mayor cantidad de sitios, obtenidos mediante búsqueda de DNS reverso.
40 39 Figura 3.6: Distribución del número de enlaces internos en los sitios. Asimismo, en la Figura 3.9 se muestra la distribución del grado externo de los sitios. Esta distribución también se ajusta a una ley de potencias de parámetro 1, 83. Es necesario recordar que los grados interno y externo son relativos a la colección de sitios. Un sitio sin grado interno en la Web Chilena bien puede tener un grado interno alto en la Web Global Sitios más referenciados Los 30 sitios más referenciados por otros sitios se muestran en el Cuadro 3.5. Para cada sitio se muestra el total de enlaces que recibe desde los otros sitios. La magnitud de los enlaces es similar a la encontrada el año 2006 [6], y los sitios son, en general, los mismos. También muchas posiciones se han mantenido, lo cual indica que el grado interno de los sitios no presenta grandes variaciones entre un año y otro, posiblemente debido a la dificultad que tienen los sitios, en particular los sitios recientes, para ser enlazados por otros Sitios con más enlaces Los 30 sitios que tienen más enlaces a otros sitios se muestran en el Cuadro 3.6. En los primeros lugares destacan buscadores y directorios, aunque se pueden encontrar sitios de instituciones
41 40 Sitios que enlazan Total Enlaces Sitio * * ** Cuadro 3.5: Sitios que reciben más enlaces. Primero, la cantidad de sitios que lo enlazan, después el número total de enlaces que reciben. Los sitios marcados con * reciben todos sus enlaces desde otros sitios pertenecientes al mismo dominio. El sitio marcado con ** recibe solamente un enlace desde cada sitio que lo enlaza, todos ellos dominios resguardados por los dueños del sitio.
42 41 (a) Enlaces Internos por Página (b) Número de Enlaces Internos por Página Figura 3.7: Distribuciones de enlaces internos por página para los documentos del sitio y del número de enlaces internos por página. educacionales y sitios comunitarios. La magnitud es muy distinta a la de los estudios anteriores: respecto al estudio del año Suma de los puntajes por enlaces En la Figura 3.10 se muestran las distribuciones de los puntajes por enlaces para los sitios. Si bien las distribuciones tienen formas similares a leyes de potencias, el error es demasiado grande como para considerar que son ajustables. Ello no quiere decir que la distribución no sea sesgada: un 20 % de los sitios tiene el 99 % del Puntaje Authority total; un 7 % de los sitios tiene el 99 % del puntaje Hub; y un 20 % de los sitios tiene el 99 % del Pagerank total Componentes fuertemente conectados En un grafo, se dice que una parte de él es una componente conexa o conectada si es posible ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que una componente del grafo es una componente fuertemente conectada si esto es posible respetando la dirección de los enlaces. En la Web se está dentro de una componente fuertemente conectada si es posible ir desde cualquier sitio a cualquier otro sitio siguiendo enlaces. No toda la Web de Chile es fuertemente conectada. En el Cuadro 3.7 se muestra el número de componentes fuertemente conectadas encontradas en la colección (considerando solamente sitios que tienen al menos grado interno o externo no nulo). Se aprecia la aparición de una componente gigante [14], lo que es una señal típica de una red libre de escala. En la Figura 3.11 se muestra la distribución de estas componentes, distribución que se ajusta en su parte inicial a una ley de potencias de parámetro 3, 33, comparable con España (3, 84 [7]), Korea del Sur (2, 6 [8]), Argentina (2, 74 [34]) y la Web Global (2, 81 [19]).
43 42 Sitios Enlazados Total Enlaces Sitio * * * * * * * * * * * * * Cuadro 3.6: Sitios que tienen más enlaces hacia otros sitios. Primero, la cantidad de sitios que enlazan, después el número total de enlaces que contienen. Los sitios marcados con * corresponden a réplicas del mismo sitio.
44 43 Tamaño de la Componente Número de Componentes (Componente Gigante) 1 Cuadro 3.7: Tamaño de las componentes fuertemente conexas.
45 44 Figura 3.8: Distribución del Grado Interno para los sitios de la colecta Estructura de enlaces entre sitios La componente fuertemente conectada gigante puede ser usada como el punto de partida para distinguir ciertas componentes de la Web [14]: MAIN, los sitios en la componente fuertemente conexa, que a su vez se extiende en las siguientes componentes [2]: MAIN-MAIN, que son los sitios que pueden ser alcanzados directamente desde la componente IN o que pueden alcanzar directamente la componente OUT. MAIN-IN, que son los sitios que pueden ser alcanzados directamente desde IN pero no están en MAIN-MAIN. MAIN-OUT, que son los sitios que pueden alcanzar directamente a OUT pero no pertenecen a MAIN-MAIN. MAIN-NORM, que son los sitios que no pertenecen a las subcomponentes definidas anteriormente. OUT, los sitios que son alcanzables desde MAIN, pero que no tienen enlaces hacia MAIN. IN, los sitios que pueden alcanzar a MAIN, pero que no tienen enlaces desde MAIN. ISLAS, sitios que no son accesibles ni hacia ni desde MAIN.
46 45 Figura 3.9: Distribución del Grado Externo para los sitios de la colecta. TENTÁCULOS, sitios que sólo se conectan con IN o OUT, pero en el sentido inverso de los enlaces. TÚNEL, una componente que une las componentes IN y OUT sin pasar por MAIN. La Figura 3.12 muestra una representación gráfica de estas componentes. La distribución de sitios por componentes se muestra en el Cuadro 3.8. Se muestra el porcentaje sobre el total de los sitios y sobre aquellos con grado interno o externo no nulo. También se muestra la distribución del número de páginas por componente. La estructura de la web presenta una correlación importante con otras características de los sitios. En la Figura 3.13 se muestra la distribucióń de sitios de una sola página por componente. En la componente MAIN hay muy pocos sitios de una sola página, mientras que en la componente ISLAS se encuentra aproximadamente el 66 % de dichos sitios. Se observa, además, que el tipo de sitio también tiene un grado de correlación con la componente: en IN se encuentran más redirecciones y páginas con links, mientras que el caso general es tener una mayor cantidad de sitios con páginas que utilizan Java/Javascript o Flash. Otra variable que puede ser importante es la cantidad de información por componentes. En el Cuadro 3.8 se observa que la componente MAIN es la que tiene el mayor porcentaje de páginas, y en la Figura 3.14 se observa que es esta misma componente (en particular MAIN-MAIN) la que tiene la mayor cantidad de enlaces a documentos no HTML que presentan información escrita.
47 46 (a) Distribución del puntaje Authority para los sitios de la colecta. (b) Distribución del puntaje Hub para los sitios de la colecta. (c) Distribución del PageRank para los sitios de la colecta. Figura 3.10: Distribuciones de las sumas de puntajes por enlaces para los sitios. Componente Total Sitios Sólo con enlaces Total Páginas De sitios con enlaces MAIN IN 0,90 % 2,29 % 4,46 % 5,63 % MAIN OUT 1,64 % 4,17 % 8,58 % 10,82 % MAIN MAIN 2,21 % 5,63 % 23,17 % 29,20 % MAIN NORM 0,90 % 2,29 % 2,78 % 3,50 % MAIN 5,63 % 14,37 % 38,99 % 49,15 % ISLAND 65,26 % 10,59 % 24,48 % 4,82 % IN 9,32 % 23,77 % 19,67 % 24,79 % OUT 10,18 % 25,96 % 10,37 % 13,06 % TOUT 6,02 % 15,36 % 3,46 % 4,36 % TIN 3,16 % 8,07 % 2,55 % 3,21 % TUNNEL 0,43 % 1,09 % 0,48 % 0,61 % Cuadro 3.8: Macrocomponentes de la web chilena y la cantidad de sitios y páginas de cada una de ellas.
48 47 Figura 3.11: Distribución de los tamaños de las componentes fuertemente conexas. Figura 3.12: Estructura macroscópica de la Web.
49 48 Figura 3.13: Distribución de los sitios de una página por Macrocomponente. Se indica el motivo por el cual estos sitios tienen una página según la recolección.
50 49 Figura 3.14: Distribución de los documentos de texto no HTML separados por Macrocomponente.
51 Capítulo 4 Dominios Del mismo modo en que las páginas se agrupan en sitios, estos últimos se agrupan en dominios. Un dominio es definido como el sufijo del nombre de un sitio web. Si la dirección de un sitio es se considera como nombre del dominio la cadena sitio.cl, siendo cl el dominio de primer nivel y sitio el dominio de segundo nivel. En el Cuadro 4.1 se muestran algunos datos básicos sobre los dominios conocidos. En la colecta hay 190,577 dominios distintos, y llama la atención la cantidad de dominios vacíos, 2,934, que son aquellos de los cuales se tiene un registro pero que en realidad no tienen un servidor asignado. Dominios Promedio Contenido ,47 [B] Dominios con 1 Página Dominios con 1 Sitio Dominios vacíos Promedio de Páginas 50,57 Promedio de Sitios 1,05 Cuadro 4.1: Resumen de estadísticas sobre los dominios. Las Secciones de este Capítulo son las siguientes: Sección 4.1, Direcciones IP y Software utilizado como servidor: se estudia la distribución de dominios a través de las distintas direcciones IP encontradas en la colecta. Además, a cada dirección IP se le pidió información sobre el software que utiliza, en particular su sistema operativo y el software servidor. Sección 4.2, Número de sitios por dominio: se estudia la distribución de sitios en los dominios. Se incluye un listado de los dominios con más sitios en la colección. Sección 4.3, Número de páginas por dominio: se estudia la distribución de páginas en los dominios. Sección 4.4, Tamaño de los dominios: se estudia la distribución del contenido en los dominios, y se listan los dominios con más texto en la colección. 50
52 51 Sección 4.5, Enlaces entre dominios: se estudian los enlaces entre dominios. Para ello, se enumeran los dominios que reciben más enlaces desde otros dominios, y se muestra una representación gráfica de la parte central de la componente MAIN-MAIN. Sección 4.6, Dominios de primer nivel: se estudia la distribución de sitios a través de los dominios de primer nivel de la Web Chilena. Sección 4.7, Dominios externos de primer nivel: se estudian los enlaces hacia dominios no nacionales. Esto incluye el listado de los dominios externos más enlazados y la relación entre los enlaces externos y el intercambio comercial de Chile Direcciones IP y Software utilizado como servidor De los sitios estudiados, un 19, 5 % no pudo ser contactado al momento del estudio. A cada uno de los que sí se pudo contactar, se les extrajo la dirección IP, obteniendo en total 14,477 direcciones. Al agrupar las direcciones IP por dominio, se obtiene la distribución que muestra la Figura 4.1. La distribución, que se ajusta a una ley de potencias de parámetro 0, 35 en su parte inicial y a una ley de potencias de parámetro 1, 37 en su parte central, es muy sesgada, pues existen dos direcciones IP con más de dominios distintos, mientras que más de direcciones tienen menos de 10 dominios. Figura 4.1: Distribución de las direcciones IP para los dominios de la web chilena. Para cada dirección IP se examinó el software utilizado por el servidor, incluyendo el sistema
53 52 operativo, aunque no todas ellas entregan información. En la Figura 4.2 se observan las distribuciones de sistema operativo y de software servidor utilizado en las direcciones encontradas. (a) Software Servidor (b) Sistemas Operativos Figura 4.2: Distribuciones de generadores de páginas dinámicas, software servidor utilizado en los servidores y los sistemas operativos utilizados en ellos. De todas las direcciones válidas, un 38, 21 % de las direcciones no entrega información sobre el software servidor que utiliza. El servidor Apache, considerando la cifra anterior, parece tener la mayor presencia, con un 43 % de participación. No se puede afirmar directamente que Apache tiene la mayor participación debido a que no se conoce la distribución de los servidores que no entregaron información. Respecto al sistema operativo, un 43, 21 % de las direcciones válidas no entrega información. Las distintas versiones de Unix y Linux suman un total de 38, 67 %, dejando a Microsoft Windows con un 18, 12 % de participación Número de sitios por dominio Un dominio tiene en promedio 1, 05 sitios, lo que quiere decir que la mayoría de los dominios (187,544 en total) se utiliza para un único sitio. En la Figura 4.3 se observa la distribución de sitios por dominios. Esta distribución se aproxima en su parte central por una ley de potencias de parámetro 0, 75. En la imagen se aprecia claramente la cantidad de dominios con un único sitio. Además, en el Cuadro 4.2 se muestran los dominios con más sitios. Para cada uno de ellos se indica el número de páginas y el número de enlaces a documentos de texto no HTML, como una medida de la cantidad de información que presentan esos dominios Número de páginas por dominio En promedio, un dominio tiene 50, 57 páginas. Además, existen 45,607 dominios con una sola página, una cifra muy similar a la cantidad de sitios con una página. La distribución del número de páginas por dominio se observa en la Figura 4.4, y se ajusta a una ley de potencias de parámetro 0, 13 en su parte inicial y a una ley de potencias de parámetro 1, 54 en su parte central.
Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores.
COMO FUNCIONA INTERNET Internet es una gran red de ordenadores a nivel mundial, que pueden intercambiar información entre ellos. Se pueden comunicar porque están unidos a través de conexiones telefónicas,
Más detallesQué necesito saber para tener mi sitio web en Internet?
Qué necesito saber para tener mi sitio web en Internet? Introducción Antes es importante tener en cuenta que Es importante considerar lo siguiente: Definir claramente tu actividad en Internet Establecer
Más detallesG R U P O S INDICE Cómo crear una cuenta en ARQA? Cómo tener un grupo en ARQA? Secciones y funcionalidades de los grupos Configuración del grupo
INDICE Cómo crear una cuenta en ARQA? 4 Cómo tener un grupo en ARQA? 5 Secciones y funcionalidades de los grupos 6 Muro del Grupo 6 Compartir Textos 8 Compartir Imágenes 9 Compartir videos 10 Compartir
Más detallesCaracterísticas de la Web Chilena 2006
Características de la Web Chilena 2006 Ricardo Baeza-Yates Yahoo! Research Centro de Investigación de la Web Carlos Castillo Yahoo! Research Marzo de 2007 Eduardo Graells Centro de Investigación de la
Más detallesIntroducción a la Firma Electrónica en MIDAS
Introducción a la Firma Electrónica en MIDAS Firma Digital Introducción. El Módulo para la Integración de Documentos y Acceso a los Sistemas(MIDAS) emplea la firma digital como método de aseguramiento
Más detallesPlataforma e-ducativa Aragonesa. Manual de Administración. Bitácora
Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar
Más detallesGUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS
GUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS Objetivo: El propósito de esta guía es indicarle como configurar un entorno moodle de prácticas en
Más detallesTutorial para la creación de un blog institucional
Tutorial para la creación de un blog institucional El siguiente tutorial nos permitirá acercarnos a los conocimientos básicos, necesarios para crear nuestro blog y alojarlo en el servidor de la Facultad
Más detallesMineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Más detallesUNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES
UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES MODULO DE CONTENIDOS DE MATERIALES En prácticamente cualquier tipo de asignatura existirá
Más detallespymegnu v2.0 PRESENTACIÓN DE PRODUCTOS
PRESENTACIÓN DE PRODUCTOS pymegnu v2.0 1 INTRODUCCIÓN Nuestros sistemas 100% web le permitirán poder obtener todas las ventajas competitivas que ofrece Internet, como la disponibilidad de tener sus sistemas
Más detallesElementos requeridos para crearlos (ejemplo: el compilador)
Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción
Más detallesGestor de Contenidos CMS. Prof: Ing. Henrry Servitá
Gestor de Contenidos CMS Que es un CMS? CMS son las siglas de Content Management System, que se traduce directamente al español como Sistema Gestor de Contenidos. Como su propio nombre indica, es un sistema
Más detallesQUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A)
APRENDERAPROGRAMAR.COM QUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A) Sección: Divulgación Categoría: Herramientas Informáticas Fecha
Más detallesCOMO FUNCIONA INTERNET
COMO FUNCIONA INTERNET Fuente: http://www.areatecnologia.com/informatica/como-funciona-internet.html Vamos a explicar los conceptos básicos de Internet que todo el mundo debería conocer. Internet es una
Más detallesDOCUMENTOS COMPARTIDOS CON GOOGLE DOCS
DOCUMENTOS COMPARTIDOS CON GOOGLE DOCS 1. Introducción Los ambientes de aprendizaje acompañados de trabajos colaborativos como estrategia se revierten en actividades de diferente índole (análisis de videos,
Más detallesPANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha 2006-08
PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet Revisión 1.1 Fecha 2006-08 Índice 1. Acceder 2. Menú 3. Gestión Básica 3.1 Añadir 3.2 Editar 3.3 Eliminar 3.4 Eliminación de registros
Más detallesModulo I. Introducción a la Programación Web. 1.1 Servidor Web.
Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados
Más detallesMi Negocio en Línea. DESCRIPCIÓN y CONCEPTO DEL PRODUCTO
DESCRIPCIÓN y CONCEPTO DEL PRODUCTO INTRODUCCIÓN A LA HERRAMIENTA MI NEGOCIO EN LINEA es una revolucionaria herramienta online para crear y administrar sitios Web. Está orientado a Pequeñas y Medianas
Más detallesProyecto Tecnológico Prof. Carolina Quinodóz 6º2º - TM
Fuente: Revista Dr.Max Protocolo FTP El FTP es uno de los sistemas de almacenamiento y distribución de archivos más populares de Internet. La sencillez con la que se realizan el montaje y el acceso, permiten
Más detallesMANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn
MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn Tegucigalpa M. D. C., Junio de 2009 Que es un CMS Un sistema de administración de contenido (CMS por sus siglas en ingles) es un programa para organizar
Más detallesManual del Estudiante
Manual del Estudiante Indice Introducción 4 Qué es una Plataforma Educativa? 4 Vocabulario Básico 5 Curso 5 Categoría 5 Actividad 5 Recursos 7 Bloque 9 Plugin 9 Pestaña 9 Rol 9 Funciones Principales 10
Más detallesGuías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online
Guías _SGO Gestione administradores, usuarios y grupos de su empresa Sistema de Gestión Online Índice General 1. Parámetros Generales... 4 1.1 Qué es?... 4 1.2 Consumo por Cuentas... 6 1.3 Días Feriados...
Más detallesQué es una página web?, qué conoces al respecto?, sabes crear una página
Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual
Más detalleshay alguien ahi? por Marcelino Alvarez maralvilla@gmail.com
hay alguien ahi? por Marcelino Alvarez maralvilla@gmail.com Un repaso a las estadísticas de lectura tanto de la página web como de la revista digital, para ver si alguien se acuerda de nosotros. Ya podemos
Más detallesLMS: Manual de la familia
Sistema UNOi LMS: Manual de la familia En este Learning Coffee aprenderá a: Acceder a la plataforma y editar su cuenta. Acceder a sus notificaciones. Consultar el calendario. Consultar clases, proyectos
Más detallesGUÍAS FÁCILES DE LAS TIC
GUÍAS FÁCILES DE LAS TIC del COLEGIO OFICIAL DE INGENIEROS DE TELECOMUNICACIÓN Trabajo Premiado 2006 Autor: La Red Internet D. Gerson Aires Casas 17 de Mayo 2006 DIA DE INTERNET GUÍAS FÁCILES DE LAS TIC
Más detallesCAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP
CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP Características del Explorador de Windows El Explorador de Windows es una de las aplicaciones más importantes con las que cuenta Windows. Es una herramienta indispensable
Más detallesInstituto Politécnico Nacional. Escuela Superior de Turismo
Instituto Politécnico Nacional Escuela Superior de Turismo Santiago Peña Joyce Mariana 1M7 Lorena Correa Investigación sobre Buscador y Navegador Tic s Qué es un navegador? Un navegador (también llamado
Más detallesOficina Online. Manual del administrador
Oficina Online Manual del administrador 2/31 ÍNDICE El administrador 3 Consola de Administración 3 Administración 6 Usuarios 6 Ordenar listado de usuarios 6 Cambio de clave del Administrador Principal
Más detallesCAPITULO 4. ANALISIS COMPARATIVO Y SELECCION DE LA PLATAFORMA EDUCATIVA.
CAPITULO 4. ANALISIS COMPARATIVO Y SELECCION DE LA PLATAFORMA EDUCATIVA. El análisis se ha centrado en cuatro temas solamente, sin profundizar en otros elementos que pueden ser más diferenciales, pero
Más detallesInternet Information Server
Internet Information Server Internet Information Server (IIS) es el servidor de páginas web avanzado de la plataforma Windows. Se distribuye gratuitamente junto con las versiones de Windows basadas en
Más detallesGUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII
GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples
Más detallescrmitv.com Que es crmitv.com?
crmitv.com Que es crmitv.com? crmitv.com es un sistema informático online de apoyo a la gestión de las relaciones con los clientes, a la venta y al marketing que permite gestionar y analizar los descuentos,
Más detallesPropuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA
Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)
Más detallesCAPÍTULO I INTRODUCCIÓN
CAPÍTULO I INTRODUCCIÓN Una página Web es un documento situado en una red informática al que se accede mediante enlaces de hipertexto, y éste es aquel texto que contiene elementos a partir de los cuales
Más detallesREDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS
REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS Servicio DNS - 1 - Servicio DNS...- 3 - Definición... - 3 - Instalación... - 5 - Configuración del Servidor DNS...- 10 - - 2 - Servicio DNS Definición
Más detallesDOCENTES FORMADORES UGEL 03 PRIMARIA
DOCENTES FORMADORES UGEL 03 PRIMARIA 1. Recursos y Aplicaciones del Servidor La página de inicio del servidor (http://escuela) contiene los enlaces a las aplicaciones instaladas en el servidor, un enlace
Más detallesLiLa Portal Guía para profesores
Library of Labs Lecturer s Guide LiLa Portal Guía para profesores Se espera que los profesores se encarguen de gestionar el aprendizaje de los alumnos, por lo que su objetivo es seleccionar de la lista
Más detallesLos servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.
Página 1 BUSCADORES EN INTERNET Internet es una red de redes informáticas distribuidas por todo el mundo que intercambian información entre sí mediante protocolos 1 TCP/IP. Puede imaginarse Internet como
Más detallesSERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE
Código: F004-P006- GFPI Nº 1. IDENTIFICACIÓN DE LA GUIA DE APRENDIZAJE Programa de Formación: Técnico en programación de software. Nombre del Proyecto: Sistema de información para la gestión empresarial
Más detallesCMS JOOMLA. Características
CMS JOOMLA Joomla es un sistema gestor de contenidos dinámicos (CMS o Content Management System) que permite crear sitios web de alta interactividad, profesionalidad y eficiencia. La administración de
Más detallesApéndice 5 Manual de usuario de ColeXión. ColeXión 1.0. Manual de usuario
Apéndice 5 Manual de usuario de ColeXión ColeXión 1.0 Manual de usuario Índice 1. Qué es ColeXión?... 2 2. Requerimientos del sistema... 3 3. Instalación de ColeXión... 3 4. Creación de un nuevo esquema...
Más detallesWINDOWS 2008 7: COPIAS DE SEGURIDAD
1.- INTRODUCCION: WINDOWS 2008 7: COPIAS DE SEGURIDAD Las copias de seguridad son un elemento fundamental para que el trabajo que realizamos se pueda proteger de aquellos problemas o desastres que pueden
Más detallesAnálisis de aplicación: Virtual Machine Manager
Análisis de aplicación: Virtual Machine Manager Este documento ha sido elaborado por el Centro de Apoyo Tecnológico a Emprendedores bilib, www.bilib.es Copyright 2011, Junta de Comunidades de Castilla
Más detallesSistema de SaaS (Software as a Service) para centros educativos
Sistema de SaaS (Software as a Service) para centros educativos Definiciones preliminares: Qué es SaaS? SaaS (1) es un modelo de distribución del software que permite a los usuarios el acceso al mismo
Más detallesManual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib
Manual de uso de la plataforma para monitores CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib [Manual de uso de la plataforma para monitores] 1. Licencia Autor del documento: Centro de Apoyo Tecnológico
Más detallesToda base de datos relacional se basa en dos objetos
1. INTRODUCCIÓN Toda base de datos relacional se basa en dos objetos fundamentales: las tablas y las relaciones. Sin embargo, en SQL Server, una base de datos puede contener otros objetos también importantes.
Más detallesProducto. Información técnica y funcional. Versión 2.8
Producto Información técnica y funcional Versión 2.8 1 Índice: Tema Pág. Introducción a WOLOM 3 Diagrama de la solución WOLOM 3 Principales funciones de WOLOM 4 Módulos que componen WOLOM 4 WM: Wolom Maquetador
Más detallesPROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO...
Tabla de Contenido PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO... 2 1. LA PRESENCIA DE INFORMACIÓN Y AYUDA ÚTIL PARA COMPLETAR LOS TRÁMITES EN LÍNEA.... 2 2. LA DISPONIBILIDAD DE DIVERSOS
Más detallesAcronis License Server. Guía del usuario
Acronis License Server Guía del usuario TABLA DE CONTENIDO 1. INTRODUCCIÓN... 3 1.1 Generalidades... 3 1.2 Política de licencias... 3 2. SISTEMAS OPERATIVOS COMPATIBLES... 4 3. INSTALACIÓN DE ACRONIS LICENSE
Más detallesSistema de Gestión Portuaria Sistema de Gestión Portuaria Uso General del Sistema
Sistema de Gestión Portuaria Uso General del Sistema Uso General del Sistema Página 1 de 21 Contenido Contenido... 2 1.Ingreso al Sistema... 3 2.Uso del Menú... 6 3.Visualizar Novedades del Sistema...
Más detallesGobierno Electrónico ANEXOS ANEXO A: INSTALACIÓN, CONFIGURACIÓN Y ACTUALIZACIÓN DE JOOMLA, MÓDULOS Y COMPONENTES. Alexandra Paola Guerrero Chuquín
Gobierno Electrónico NEXOS NEXO : INSTLCIÓN, CONFIGURCIÓN Y CTULIZCIÓN DE JOOML, MÓDULOS Y COMPONENTES 1 NEXO : Instalación, Configuración y ctualización de Joomla, Módulos y Componentes. Qué es Joomla?
Más detallesArquitectura de sistema de alta disponibilidad
Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los
Más detallesManual Básico de Helm 4.2 para Usuarios:
Manual Básico de Helm 4.2 para Usuarios: Ante todo queremos agradecerle por elegir a para trabajar junto a usted. Esperamos que este manual lo ayude a trabajar con comodidad y facilidad. Este manual es
Más detallesVersión final 8 de junio de 2009
GRUPO DE EXPERTOS «PLATAFORMA PARA LA CONSERVACIÓN DE DATOS ELECTRÓNICOS PARA CON FINES DE INVESTIGACIÓN, DETECCIÓN Y ENJUICIAMIENTO DE DELITOS GRAVES» ESTABLECIDO POR LA DECISIÓN 2008/324/CE DE LA COMISIÓN
Más detallesPRESENTACIÓN DEL PRODUCTO
PRESENTACIÓN DEL PRODUCTO esernet, s.l. Sebastián Elcano, 32 Planta 1 Oficina 22 28012 Madrid Teléfono: 91 433 84 38 -- Fax. 91 141 21 89 www.esernet.com -- esernet@esernet.com 1. Introducción 2. Descripción
Más detallesGuía de Instalación para clientes de WebAdmin
Panda Managed Office Protection Guía de Instalación para clientes de WebAdmin Tabla de contenidos 1. Introducción... 4 2. Instalación de Panda Managed Office Protection a partir de una instalación de Panda
Más detalles1 ÍNDICE... 3 Instalación... 4 Proceso de instalación en red... 6 Solicitud de Código de Activación... 11 Activación de Licencia... 14 2 3 REQUERIMIENTOS TÉCNICOS E INSTALACIÓN Requerimientos Técnicos
Más detallesALGUNAS AYUDAS PARA EL ACCESO AL AULA DIGITAL Contenido
ALGUNAS AYUDAS PARA EL ACCESO AL AULA DIGITAL Contenido Tabla de contenido 1 INFORMACIÓN PERSONAL... 2 1.1 Cómo ingresar al Aula Digital?... 2 1.2 Qué hacer si olvida su contraseña?... 2 1.3 Qué veo cuando
Más detallesEvalSys - Manual Completo en formato PDF Características Generales
EvalSys - Manual Completo en formato PDF Características Generales EvalSys es un sistema diseñado para el ingreso en línea, de resúmenes y/o trabajos completos, en reuniones o congresos virtuales o presenciales.
Más detallesCÓMO MANEJAR SU NUEVO SITIO WEB SOBRE DRUPAL Manual técnico y de usuario. Pontificia Universidad Javeriana Grupo PSU 2009-1 CDI
CÓMO MANEJAR SU NUEVO SITIO WEB SOBRE DRUPAL Manual técnico y de usuario Pontificia Universidad Javeriana Grupo PSU 2009-1 CDI Sobre Drupal Instalación y configuración Drupal es un sistema de gestión de
Más detallesANALIZANDO GRAFICADORES
ANALIZANDO GRAFICADORES María del Carmen Pérez E.N.S.P.A, Avellaneda. Prov. de Buenos Aires Instituto Superior del Profesorado "Dr. Joaquín V. González" Buenos Aires (Argentina) INTRODUCCIÓN En muchos
Más detallesInfraestructura Tecnológica. Sesión 2: Mejoras adicionales al servidor de archivos
Infraestructura Tecnológica Sesión 2: Mejoras adicionales al servidor de archivos Contextualización Los servidores como cualquier equipo de cómputo pueden contar con varias mejoras con las que se pueden
Más detallesIntroducción a Moodle
Instituto la Américas de Nayarit Ing. Elías Portugal Luna Qué es Moodle? Moodle es una aplicación web de tipo Ambiente Educativo Virtual, un sistema de gestión de cursos, de distribución libre, que ayuda
Más detallesComponentes de Integración entre Plataformas Información Detallada
Componentes de Integración entre Plataformas Información Detallada Active Directory Integration Integración con el Directorio Activo Active Directory es el servicio de directorio para Windows 2000 Server.
Más detallesDESARROLLA TU BLOG O PÁGINA
1 DESARROLLA TU BLOG O PÁGINA WEB CON WORDPRESS Introducción a los sistema de gestión de contenidos. Instalación de Wordpress PROGRAMA DEL TALLER Introducción a los sistemas de gestión de contenidos. Instalación
Más detallesComisión Nacional de Bancos y Seguros
Comisión Nacional de Bancos y Seguros Manual de Usuario Capturador de Pólizas División de Servicios a Instituciones Financieras Mayo de 2011 2 Contenido 1. Presentación... 3 1.1 Objetivo... 3 2. Descarga
Más detallesUtilización del sistema operativo GNU/ Linux en las netbooks
Utilización del sistema operativo GNU/ Linux en las netbooks El sistema operativo es la pieza de software básica de un sistema, que permite manejar los recursos de la computadora, abrir programas, manejar
Más detallesGuía de instalación de la carpeta Datos de IslaWin
Guía de instalación de la carpeta Datos de IslaWin Para IslaWin Gestión CS, Classic o Pyme a partir de la revisión 7.00 (Revisión: 10/11/2011) Contenido Introducción... 3 Acerca de este documento... 3
Más detallesCESDE ESCUELA DE PROCESOS TECNOLOGICOS E INDUSTRIALES AMBIENTES COLABORATIVOS WORDPRESS
WORDPRESS Es un sistema de gestión de contenido CMS (siglas en del inglés de Content Management System) enfocado a la creación de blogs o bitácoras digitales para web. Es como un cuaderno donde se puede
Más detallesGUÍA BÁSICA USUARIO MOODLE 2.6
GUÍA BÁSICA USUARIO MOODLE 2.6 Esta guía representa los pasos a seguir por el alumno desde la aceptación en un curso Moodle hasta su posterior utilización, pero antes de explicar la forma de acceder y
Más detallesLas nuevas tecnologías contribuyen de forma esencial para que esta comunicación sea efectiva, fluida y útil.
Páginas Web Personales. wep Introducción En el mundo moderno las nuevas tecnologías se van incorporando a nuestra vida cotidiana en forma de elementos indispensables que contribuyen tanto a nuestro bienestar.
Más detallesInfraestructura Tecnológica. Sesión 8: Configurar y administrar almacenamiento virtual
Infraestructura Tecnológica Sesión 8: Configurar y administrar almacenamiento virtual Contextualización Como sabemos, actualmente los servicios y medios de almacenamiento de información son muy variados,
Más detalles[4 ]Instalación y configuración básica de drupal.
[4 ]Instalación y configuración básica de drupal. La instalación de Drupal es realmente sencilla. En las dos últimas versiones cada vez se le ha ido concediendo más importancia a los elementos de calidad
Más detallesPrivacidad y Seguridad en las Redes Sociales
Privacidad y Seguridad en las Redes Sociales Introducción Gran crecimiento de las redes sociales. Ventajas de las redes sociales Comunicación con amigos lejanos. Recuperar amistades del colegio o instituto.
Más detallesWindows Server 2003. Windows Server 2003
Windows Server 2003 Windows Server 2003 Es un sistema operativo de la familia Windows de la marca Microsoft para servidores que salió al mercado en el año 2003. Está basada en tecnología NT y su versión
Más detallesPáginas web ::: El sitio web: estructura y navegación Diseño de materiales multimedia. Web 2.0. 1.13 Sitio web: estructura y navegación
104 1.13 Sitio web: estructura y navegación 105 1.13 Sitio web: estructura y navegación 1.13.1 Qué es un sitio web? Un sitio web (en inglés:website) es un conjunto de páginas html relacionadas entre sí
Más detallesApp para realizar consultas al Sistema de Información Estadística de Castilla y León
App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda
Más detallesInformàtica i Comunicacions Plaça Prnt. Tarradellas, 11 17600 FIGUERES (Girona) Tel. 902 88 92 67 Fax 972 671 962 www.cesigrup.es
DNS (Domain Name System)...2 La estructura... 2 Servidores DNS e Internet... 3 Dominios... 3 Servidores de nombres... 3 Servidores de nombres Principal y Secundario... 4 Los archivos del DNS... 4 Registro
Más detallesGUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS
ARCHIVOS ANEXOS Son los documentos, hojas de cálculo o cualquier archivo que se anexa a las carpetas, subcarpetas, hallazgos u otros formularios de papeles de trabajo. Estos archivos constituyen la evidencia
Más detallesMANUAL DE USUARIO APLICACIÓN SYSACTIVOS
MANUAL DE USUARIO APLICACIÓN SYSACTIVOS Autor Edwar Orlando Amaya Diaz Analista de Desarrollo y Soporte Produce Sistemas y Soluciones Integradas S.A.S Versión 1.0 Fecha de Publicación 19 Diciembre 2014
Más detallesAporta. Manual de uso para administradores de contenido Este manual le enseñará rápidamente a usar las distintas herramientas de su sitio web
Aporta Manual de uso para administradores de contenido Este manual le enseñará rápidamente a usar las distintas herramientas de su sitio web CMS Desarrollado por CIBOS Limitada. INDICE 1. QUÉ ES APORTA
Más detallesMaqueta Sitio Web para el 2º Nivel
Maqueta Sitio Web para el 2º Nivel Aplicable a Departamentos y Carreras La implementación de un portal web con la extensión usach.cl está supeditada a tres niveles. Cada uno contempla distintas características
Más detallesGuía de Reparación de Equipamiento
Dirigida al Sostenedor y al Establecimiento Educacional Estimado Sostenedor y Director, El Ministerio de Educación se encuentra implementando el plan Tecnologías para una Educación de Calidad (TEC), que
Más detallesCURSO COORDINADOR INNOVADOR
CURSO COORDINADOR INNOVADOR PRESENTACIÓN La tarea que el Ministerio de Educación se propone a través de Enlaces, en relación al aseguramiento del adecuado uso de los recursos, con el fin de lograr un impacto
Más detallesLa plataforma educativa Helvia.
La plataforma educativa HELVIA Autores: Begoña Laínez Sanz, DNI: 31336591B José Javier Álvarez García, DNI: 31666085F Mª de los Ángeles Vilches Amado, DNI: 75744033L Juana María Álvarez Jiménez, DNI: 32042323B
Más detallesManual hosting acens
Manual hosting acens Contenido Acceso al panel de control de cliente... 3 Asociar un dominio a mi Hosting... 5 Acceso al panel de administración del hosting... 7 INICIO - Visión general del estado de nuestro
Más detallesWeb. Web Diapositiva 1
Web Servicio WorldWideWeb Historia de la Web URL Dominios Dominio de alto nivel Cómo funciona? Hipertexto e Hipervínculos Sitios Web y Páginas de Inicio Cómo identificar los hipervínculos? Navegador Web
Más detallesCAPITULO I FORMULACION DEL PROBLEMA
CAPITULO I FORMULACION DEL PROBLEMA TITULO DESCRIPTIVO DEL PROYECTO. Implementación de un servidor proxy para el control de tráfico de la red y gestión de los servicios de Internet en los centros de cómputo
Más detallesManual del Usuario. Portal Web Para uso exclusivo de Ministros de Estado.
Manual del Usuario Portal Web Para uso exclusivo de Ministros de Estado. Índice de contenido Pimi 2011... 3 Ingreso al Portal... 3 Manual de Usuario... 4 Vista Perfil Privado... 5 Navegación por Perfil
Más detallesServicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005
Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005 1. Acerca de este documento Este documento describe el servicio de estadísticas del que actualmente disfrutan algunas de las páginas
Más detalles#SoftwareLibre14. Páginas Web con Software Libre. WordPress
Páginas Web con Software Libre WordPress Qué es WordPress? WordPress es un popular sistema de gestión de contenidos (CMS), más orientado a lo que son los blogs, o bitácoras en línea, pero también usado
Más detallesBanco de la República Bogotá D. C., Colombia
Banco de la República Bogotá D. C., Colombia Subgerencia de Informática Departamento de Seguridad Informática MANUAL DE USUARIO PARA EL SERVICIO - SISTEMA DE GESTIÓN PKI DE USUARIOS ROAMING - USI-GI-56
Más detallesCOPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA
COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA Autor: Carlos Javier Martín González. Licenciado en Física Teórica por la Universidad Autónoma de Madrid. Analista programador y funcional. Desarrollador
Más detallesINFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):
INFORMÁTICA IE MÓDULO INTERNET Términos a conocer y conceptos básicos World Wide Web (WWW): Digamos, simplemente, que es un sistema de información, el sistema de información propio de Internet. Sus características
Más detallesHostaliawhitepapers. Las ventajas de los Servidores dedicados. www.hostalia.com. Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199
Las ventajas de los Servidores dedicados Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 www.hostalia.com A la hora de poner en marcha una aplicación web debemos contratar un servicio
Más detallesAdelacu Ltda. www.adelacu.com Fono +562-218-4749. Graballo+ Agosto de 2007. Graballo+ - Descripción funcional - 1 -
Graballo+ Agosto de 2007-1 - Índice Índice...2 Introducción...3 Características...4 DESCRIPCIÓN GENERAL...4 COMPONENTES Y CARACTERÍSTICAS DE LA SOLUCIÓN...5 Recepción de requerimientos...5 Atención de
Más detallesEstándares para el Uso de Herramientas de Desarrollo y Plataformas de Aplicaciones Web
Secretaría de Planificación Estratégica Oficina de Informática Estándares para el Uso de Herramientas de Desarrollo y Plataformas de Aplicaciones Web VERSIÓN 4 Julio 2009 Índice 1. Generalidades... 3 1.1
Más detallesIngeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007
Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el
Más detalles