Estudio de las estadísticas Web de accesos y visitas del Portal Cuba.cu Web Statistics study of access and visits of Portal Cuba.cu Coutin, Adrian; Valdés, Mirta. CITMATEL Avenida 47 s/n entre 18a y 20, Miramar, Playa, La Habana Código Postal 11300 Teléfono: (537) 2043600 F A X: (537) 204 8202. e-mail: citmatel@ceniai.inf.cu acoutin@citmatel.inf.cu mirta@citmatel.inf.cu Introducción. El presente estudio se basa en la existencia de un problema, identificado y estudiado por los desarrolladores de Sitios Web: tratar de conocer cómo los usuarios utilizan los contenidos y servicios disponibles en ellos para, una vez conocido estos, realizar un plan de medidas a corto, mediano y largo plazo para perfeccionarlo, que no sólo abarque el diseño de interfaz e información sino también orientar los servicios que se brindan en el sitio. Objetivos. De acuerdo a lo anterior se establece como objetivo general del presente estudio la identificación, mediante el análisis de las estadísticas obtenidas por el Webalizer, la forma en que los usuarios utilizan el Portal www.cuba.cu e identificando, a través de las áreas que visitan, los temas que buscan y prefieren en el mismo y los que no son relevantes para los usuarios. Resumen y palabras clave. El trabajo presenta los resultados obtenidos por el procesamiento de las estadísticas de accesos y visitas al Portal Cuba.cu, generadas por el software Webalizer durante 11 meses, de Septiembre del 2002 a Agosto del 2003. En este estudio fue posible identificar la forma en que los usuarios utilizan dicho Portal así como los temas que buscan y prefieren, y aquellos que no son relevantes para los mismos. En una primera parte se abordan las descripciones generales de cómo se realizó el proceso de recogida de datos y su procesamiento, así como los conceptos aplicados por los investigadores y desarrolladores de Web para interpretar los datos obtenidos. Posteriormente se pasan a discutir los resultados obtenidos en cuanto a: Datos generales del funcionamiento del Portal. 1
Accesos a Recursos de Información. Análisis de Páginas de Entradas. Temáticas preferidas por los usuarios Análisis de Páginas de Salidas. Finalmente se abordan las conclusiones y recomendaciones resultado de este estudio. En ellas quedan establecidas las líneas generales para comenzar a trabajar en la nueva versión del Portal Cuba, y otras estadísticas que deben ser incluidas en este tipo de estudios. Estadísticas Web, accesos, visitas, Estudios métricos sobre sitios Web. Materiales y métodos. Webalizer, el software para el análisis de los ficheros logs de los servidores Web que se emplea para el Portal Cuba.cu desde hace 3 años, ofrece mensualmente un conjunto de datos claves para conocer su funcionamiento, por ejemplo: el número de accesos y visitas, los 50 URLs más accedidos del Portal, las principales páginas de entrada y salida, el número de países que accedieron, entre otros. Estos datos se procesan mensualmente a través de programas desarrollados en Perl, para posteriormente ser almacenados en una base de datos Access Microsoft para facilitar su posterior análisis, tanto en las salidas propias de este sistema de gestión de bases de datos, como en las tablas exportadas a Excel. El período de tiempo que fue analizado en este estudio es de Septiembre del 2002 a Agosto del 2003. Igualmente se trabajó con los motores de búsquedas Google, AlltheWeb, Altavista, MSN, HotBot, y Lycos para conocer la cantidad de enlaces externos que apuntan al Portal así como para realizar búsquedas y visualizar las posiciones que ocupa el Portal dentro de estos. Para una mejor comprensión de las estadísticas que provee Webalizer es necesario realizar algunas aclaraciones previas a la consulta de los resultados, sobre los términos empleados en las estadísticas de los sitios Web y según consideración del propio Webalizer. Accesos: Un acceso es cualquier solicitud hecha al servidor al cual se está conectado. La solicitud puede incluir cualquier elemento: páginas HTML, imágenes, ficheros de audio, Scripts, CGIs, etcétera. Cada línea válida en el log del servidor es considerada un acceso. Esta cifra representa el total de solicitudes realizadas al servidor durante el período de tiempo especificado en el informe. Visitas: Cuando se realiza una solicitud desde una dirección IP determinada (cliente), se calcula el total del tiempo transcurrido con respecto a una solicitud 2
previa, si existe para esa dirección. Si la diferencia de tiempo es mayor que un valor pre - configurado de visita timeout, se considera como una nueva visita, y se suma a este total. El valor por defecto del timeout es 30 minutos, pero puede cambiarse. Debido a las limitaciones del protocolo HTTP, los logs de rotaciones y otros factores, el número de visitas no debe tomarse como absolutamente preciso, sino como una aproximación a este número. Páginas: Se considera una página cualquier documento HTML o cualquier salida que se genere como documento HTML. No incluye cualquier otro componente ubicado dentro del documento, como imágenes gráficas, clips de audios u otro. Este número representa las páginas solicitadas solamente, y no incluye los otros elementos que pueden estar en una página. Lo que actualmente constituye una página puede variar de un servidor a otro. Si embargo, está más o menos establecido tratar como página cualquier extensión.htm,.html o.cgi. Es posible que algunos sitios definan otras extensiones como páginas:.phtml,.php3 y.pl. Algunos especialistas consideran esta cifra como el número puro de accesos, otros se refieren a ellos como Pageviews. Páginas de entrada y de salida: Ofrece un estimado de los URL que se utilizan para entrar al sitio, así como las últimas páginas visitadas. Ofrece la posibilidad de conocer por dónde los usuarios entran y salen del sitio. Por las limitaciones en el protocolo HTTP, las rotaciones de logs y otras, este número debe tomarse como una buena aproximación al número real. Existen imprecisiones en la estimación de visitantes utilizando el protocolo HTTP. La cifra de visitas se calcula considerando la variable tiempo ( timeout ), y asumiendo que cualquier acción en la navegación posterior a 30 minutos constituye una nueva visita al sitio. A estas imprecisiones, debe sumársele el acceso mediante un PROXY al sitio por parte de muchos usuarios que navegan en Internet. Sin entrar a describir el funcionamiento de un servidor PROXY sólo se mencionará que, entre otras funciones, este servidor almacena las páginas previamente solicitadas al sitio por otros navegantes y que no se han modificado, de forma que están disponibles allí para otros navegantes, así se mejora el acceso al servidor donde está disponible el sitio. Como bien se plantea anteriormente establecer los accesos como forma de conocer los visitantes de un sitio Web es erróneo. No obstante conocer los URL del Portal que se accedieron es un dato muy importante para conocer todos aquellos ficheros que son necesarios acceder para trabajar con el Portal y estimar el volumen de tráfico existente con el mismo. El acumulado mensual de los 50 URL del Portal con más accesos en el período de tiempo que aquí se estudia nos permite identificar aquellos URL cuyos contenidos son páginas HTML, HTM, PHP, PL, etc., los cuales llamamos Recursos, que muestran contenidos o servicios a la comunidad de usuarios que usan el Portal. De esta forma es posible identificar aquellos que han sido 3
utilizados y los que no y obtener una aproximación de cómo los usuarios navegan en el Portal. Igualmente conocer la cantidad de ficheros necesarios acceder para consultar un URL del tipo recurso de información es posible al dividir el Total de Accesos al Portal entre el Total de Accesos a Recursos. Se consideran páginas de entrada aquellas por donde los usuarios del sitio inician la navegación. Digamos que estas, de alguna forma, pueden considerárseles como las más relevantes del sitio para los usuarios. Es importante conocer de estas no sólo la cantidad de accesos que poseen, sino también tres variables importantes, la Frecuencia (F) con la que se puede conocer la cantidad de meses en que dicho URL salió entre los 50 con mayores entradas, su valor de acuerdo con el período que se analiza es de uno, como mínimo, y doce como máximo. Nivel (N) permite conocer el Nivel Jerárquico al que pertenece el URL que está siendo objeto de uso de la audiencia. Enlaces Externos (EE) muestra el número de enlaces externos que apuntan al URL que se accede como página de entrada, en la medida en que URL se enlace por sitios y motores de búsqueda se incrementa la posibilidad de que se conviertan páginas de entradas al Portal. Las páginas de salida son aquellas donde los usuarios interrumpen la navegación. Estas últimas pueden considerarse de dos formas: primero; el navegante encontró la información deseada y abandona el sitio y segundo; la página no satisface al usuario y abandona la visita al sitio. Se parte del criterio de que en la medida en que las páginas de salidas se encuentren en niveles más profundos de la estructura jerárquica del sitio los usuarios han navegado dentro del mismo de forma aceptable. Resultados. Análisis de los datos generales de funcionamiento del Portal. La Tabla No.1 muestra los datos generales del funcionamiento del Portal Cuba.cu en el período de tiempo que aquí se analiza. Tabla No. 1 Datos Generales Estadísticos del funcionamiento del Portal Cuba.cu. Septiembre 2002 a Agosto 2003. Totales de Accesos: 33381340 Total de Archivos: 24129194 Total de Páginas: 4723076 Total de Visitas: 1347647 Total Clientes: 804600 Total de URLs 274161 Total Pag. Entradas 42770 4
Total Pag. Salidas 44440 Para conocer una cifra aproximada de visitantes al Portal se utilizan el Número de Accesos, Total de Páginas Vistas, y Total de Visitas. En el Gráfico No.1 puede observarse el comportamiento de estas variables. Los accesos sufren una caída en el mes de Diciembre debido a la disminución de la actividad en Internet por las fiestas y vacaciones en muchas partes del mundo y además de esto debido a la entrada en servicio, en ese mismo mes, de la actual versión del Portal. Si dividimos el Total de Páginas de Salida, 44440, entre el Total de Páginas de Entradas, 42770, podemos conocer una aproximación a la cantidad de enlaces que seleccionan los usuarios al entrar al Portal. De acuerdo a la literatura internacional el máximo número de enlaces que visita un usuario en un sitio Web es de 3, por lo que el rango posible de esta cifra se encuentra desde casos en decimales, como cuando es mayor Páginas de Entradas que las de Salidas, a valores enteros y hasta 3 cuando Páginas de Salidas son mayores que las de Entradas como en este caso. Total Páginas de Salidas 44440 Total Páginas de Entradas 42770 = 1.039 En este caso la cifra del resultado es aceptable al sobrepasar 1 y ser 3 el máximo. Accesos a Recursos de Información. En la Tabla No. 2 aparecen los 15 primeros URL con mayor número de accesos identificados como Recursos, organizados de acuerdo al número de accesos que acumulan en el período de tiempo que se estudia en este trabajo. También aparecen el Nivel Jerárquico al que pertenecen, aspecto que nos revela el grado de visualización de estos dentro del esquema general de navegación del Portal. Se parte del criterio que se utiliza mayormente lo que se encuentra en los primeros niveles de un Sitio. Siguiendo esta idea resaltan los URL del nivel 2 que se encuentran en las primeras 15 posiciones, en su mayoría de la Página de Inicio y del nivel 1. Estos URL están vinculados en primer lugar con los discursos del Comandante en Jefe, y los otros dos con las reservaciones de restaurantes Palmares y Ver Recetas respectivamente. Tabla NO. 2 LOS 15 PRIMEROS URLs DE ACUERDO AL NUMERO DE ACCESOS CONSIDERADOS RECURSOS DE INFORMACION. Pág. Entrada URL Accesos Niveles http://www.cuba.cu/ 960853 home 960853 http://www.cuba.cu/sitios.php 89135 1 88499 http://www.cuba.cu/buscador.php 83509 1 83340 5
http://www.cuba.cu/gobierno/discursos/ 83340 2 83340 http://www.cuba.cu/noticias.php 72703 1 72703 http://www.cuba.cu/subcategorias.php 61291 1 60494 http://www.cuba.cu/consulta.php 36329 1 36329 http://www.cuba.cu/historia.php 35844 1 35844 http://www.cuba.cu/tiempo.php 34443 1 34443 http://www.cuba.cu/palmares/res1.php 24625 2 19364 http://www.cuba.cu/verrecetas.php 24199 2 17693 http://www.cuba.cu/recetas.php 21392 1 21392 http://www.cuba.cu/eventos.php 18944 1 1285 http://www.cuba.cu/imprimir.php 14462 1 3826 La cantidad de ficheros que se acceden para visualizar o trabajar con URL del tipo de Recursos de Información es de14.9. Aquí se incluyen también las sucesivas llamadas a URL que por problemas de velocidad o peso no pudieron ser descargadas completamente. No se conocen parámetros de comparación para la misma pero consideramos que se debe trabajar para reducir la misma, teniendo en cuenta los problemas de velocidad de la Red y el tiempo que consume cargar una página con exceso de imágenes o componentes independientes. Análisis de las Páginas de Entrada. Resaltan como páginas de entradas con Frecuencia = 12 (o sea han sido páginas de entradas durante los 12 meses que se han analizado en el estudio) las siguientes: 1. Página de Inicio, Portal Cuba.cu 2. Discursos del Comandante en Jefe. 3. Servicio de noticias del Portal. 4. Sitio Web del PCC. 5. Sitio Web CITMA 6. Sitio de la Academia de Ciencias 7. Agencias de Viajes Evento Informática. 8. Sitio Grupo Panatrans 9. Memorial José Martí 10. Museo Natural de Historia Natural. 11. Invertebrados Cubanos. El análisis de las páginas de entradas realizado de acuerdo a la cantidad de Enlaces Externos (EE) que apuntan a dichos URL permite identificar las vías a través de las cuales se acceden a estas. Mientras mayor sea la cantidad de enlaces que apuntan a estas, mayor es el reconocimiento o popularidad de las mismas. Al momento de hacerse el estudio estaban procesados en los motores de búsquedas que se incluyeron en este estudio, más de 80 direcciones URL pertenecientes al Portal Cuba lo cual es una buena cifra. 6
Con importantes números de enlaces resaltan los discursos del Comandante en Jefe Fidel Castro, que tienen enlaces disponibles desde sitios como el de la Universidad de Texas, donde poseen una base de datos con los discursos del Comandante desde 1959; por lo que podemos deducir que una buena parte del tráfico.edu de EE.UU provienen de dicho enlace, aunque queda abierta la posibilidad de otros sitios del propio Portal o sus enlaces. Otros temas que sobresalen en el número de enlaces son los relacionados con CITMA, Medio Ambiente, y la Academia de Ciencias. Tabla No 3 Títulos de las páginas con más de 100 Enlaces Externos E.E TITULOS 35356 Portal Cuba 1405 Discursos Cmte en Jefe 1206 Sitio Web CITMA 764 Cinco Cubanos Inocentes 406 Agencia del Medio Ambiente 376 Sitio del Ajedrez en Cuba 352 Sitio Academia de Ciencias 299 Sitios Cubanos 262 Sitio Web del PCC 194 Sitio del Ajedrez en Cuba 179 Memorial "José Martí" 179 CIGEA 178 Parque Zoo Nacional Cuba 159 Decreto Zonas Francas 141 Sitio Grupo Panatrans 140 Documentos del Gobierno 138 Capitolio de La Habana 135 Error Código 404 130 Búsqueda Avanzada 127 Portal Cuba / Mapa 125 Hora Internet 114 Instituto de Cibernética, Matemática y Física 113 Aseguradora del Turismo La Isla SA 107 Sitio Web ACC *Datos obtenidos durante Octubre-Noviembre del 2003. Temas de Preferencia de la audiencia del Portal De acuerdo a los títulos de los URL analizados de las Tablas No.2 y No. 3 se decidió identificar los temas de preferencia de los navegantes al Portal. Para conocer esto se estudiaron los títulos de estos URL y se agruparon en temáticas. Posteriormente se chequearon los mismos con el motor de búsqueda 7
Alexa.com el cual muestra los resultados de acuerdo con el tráfico que poseen los sitios. El resultado fue el siguiente: _ Discursos del Comandante en Jefe Fidel Castro Ruz. _ Ciencia, Tecnología, Medio Ambiente en Cuba. _ José Martí _ Constitución de Cuba. _ Museos en Cuba. _ Agencias de Viajes a Congresos en Cuba. _ Partido Comunista de Cuba _ Ajedrez en Cuba. _ Cocina Cubana Análisis de las páginas de salidas. La Tabla No. 4 muestra los totales de páginas de salidas de acuerdo a los niveles jerárquicos al que pertenecen. Las salidas se concentran mayoritariamente en el segundo y tercer nivel lo que fortalece la hipótesis de la buena navegación del Portal. En sentido general la audiencia abandona la navegación por páginas que muestran contenidos lo cual indica satisfacción. Tabla No. 4 Totales de Páginas de Salidas por los niveles jerárquicos del Portal Cuba.cu Niveles Totales de salidas Primer Nivel 32 Segundo Nivel 21 Tercer Nivel 55 Cuarto Nivel 14 Quinto Nivel 13 Conclusiones. Los estudios métricos de los sitios Web poseen implicaciones para el estudio del uso de todos los tipos de sitios Web pero en especial para aquellos que poseen contenidos dirigidos a la actividad científico informativa y al comercio electrónico. Su aplicación sistemática permite el estudio análisis del complejo tema del mantenimiento de los sitios a través de los indicadores e-métricos actualmente vigentes, tanto para las ciencias de la información y la bibliotecología como para el comercio electrónico. A través de los mismos es posible identificar las temáticas preferidas por los usuarios del sitio y cuáles son desconocidas o no tienen relevancia, lo cual permite re-orientar servicios, trabajar en el posicionamiento en motores de búsquedas de temas que se quieran resaltar, divulgar los contenidos que se consideran relevantes pero no son conocidos por los usuarios, entre otros. 8
Su aplicación en el sector de la ciencia y la técnica facilita el establecimiento de servicios a través de Web que estén orientados a intereses específicos de los investigadores así como re-orientarlos en la medida en que se estudie el uso de los sitios Web. Para la ciencia y la técnica en Cuba específicamente estos estudios pueden ayudar a la organización y desarrollo de sitios Web con contenidos y servicios de mayor impacto en la comunidad del sector. Referencias bibliográficas. Coutin A, Peña Escobio R, Núñez Gudás M. Comportamiento de la navegación en el sitio web de Infomed durante el período 2000-2001. ACIMED 2002; 10(1):18-44. Disponible en: http://bvs.sld.cu/revistas/aci/vol10_1_02/aci04102.htm Consultado: 10 de noviembre del 2003. Drott MC. Using web server logs to improve site design. In ACM 16TH International Conference on Systems Documentation. New York: ACM Press, 1998. pp 43-50. Para la realización del presente estudio se consultaron los siguientes sitios: Portal Cuba http://www.cuba.cu Webalizer: http://www.webalizer.com Alexa: http://www.alexa.com Google http://www.google.com Alltheweb http://www.alltheweb.com Altavista http://www.altavista.com Dogpile http://www.dogpile.com Ixquick http://www.ixquick.com Teoma http://www.teoma.com Wisenut http://www.wisenut.com Link Popularity Check: http://www.widexl.com/remote/link-popularity/index.html 9