Seminario-Taller nº 5 Cibermetría Isidro F. Aguillo isidro.aguillo@cchs.csic.es versión 2,6 (Octubre 2012)
Presentación: Isidro F. Aguillo Puesto actual Laboratorio de Cibermetría Centro de CC. Humanas y Sociales. Consejo Superior de Investigaciones Científicas (CSIC) Formación Licenciado CC. Biológicas (UCM). Master en Información y Documentación (UC3M). DEA Documentación (UGR). Doctor Honoris Causa (UI) Líneas de trabajo y otros datos Portal de rankings: webometrics.info Proyectos nacionales: QEAVIS (e-humanidades), MAVIR (acceso multilingüe Web), CARTO (cartografía de I+D), ICYTnet (Bibliotecas Virtuales), Ciencia e Internet (Análisis, descripción y evaluación) Proyectos europeos: ACUMEN (indicadores para individuos), OpenAIRE (repositorios), WISER (cibermetría), EICSTES (indicadores I+D), PEKING (gestión del conocimiento), IMPACT-INFO2000 (sociedad de la información) Revistas: Editor Cybermetrics ; Comité asesor El Profesional de la Información Premio IWE 1996 Personalidad del año 2
Agenda I. Cibermetría descriptiva Métodos y herramientas Indicadores Web II. Cibermetría Aplicada Posicionamiento en motores de búsqueda Edición optimizada de contenidos web III. Webmetría: Análisis de consumo Análisis de ficheros log Popularidad 3
Infraestructuras y usuarios Mensajería electrónica Web visible Internet invisible Cibermetría aplicada Minería Web e-cienciometría CIBERMETRIA Servidores, redes, tráfico Ciberdemografía, cibergeografía Correo electrónico Listas y foros Mensajería interactiva: chat, videoconferencia Topología de la Web Webometría Motores de búsqueda Métricas de la arquitectura de la información Blogometría / Wikimetría Comunidades online e-bibliometría Indicadores Web Volumen y composición Algoritmos Estudios de usuarios Usabilidad Calidad Accesibilidad Webmetría Análisis de ficheros log Análisis de texto Comparación/combinación datos Web/no Web Análisis de objetos/ficheros Análisis de enlaces Evolución y dinámica Revistas electrónicas Repositorios Bases de datos bibliográficas Análisis de citas Posicionamiento en motores de búsqueda 4
MODULO 1 Cibermetría Descriptiva Análisis Web Otros temas: Usabilidad Accesibilidad
Definición Cibermetría es la disciplina dedicada a la descripción cuantitativa de los contenidos y procesos de comunicación que se producen en el ciberespacio Ciberespacio es el conjunto de contenidos accesibles en formato electrónico. La condición de accesibilidad universal de Internet aconseja utilizar el termino como sinónimo de la Internet de los contenidos, fundamentalmente pero no exclusivamente, el webespacio Puesto que la Cibercienciometría es el sub-campo más desarrollado, por razones prácticas se nombra con el término más general de Cibermetría o el más específico de Webometría 6
Disciplinas cuantitativas 7
Cibermetría y afines 8
Otras relaciones Bibliotecas Documentación científica Economía Política científica Gestión de la investigación Servicios para Investigación en Sociología de la ciencia Biblioeconomía y Documentación Informetría Webometría aplicada Cienciometría básica Matematicas/Física Historia de la ciencia Ciencias de la vida Otras ciencias/humanidades www.ulb.ac.be/unica/docs/sch-com-2004-pres-glanzel.ppt 9
Contenidos 10
Unidades 11
Internet Invisible 12
Ventajas métricas La presencia en el Web refleja mas y mejor las actividades de la institución o individuo que las publicaciones tradicionales en papel En el entorno académico, profesores, investigadores y estudiantes colocan en la Red material inédito, borradores de trabajos, versiones preliminares de artículos, material para cursos, transparencias para presentaciones o bases de datos El Web alcanza una mayor audiencia que otros medios tradicionales de comunicación científica. Las revistas científicas tienen una distribución restringida La naturaleza hipertextual del Web ofrece la posibilidad de descubrir patrones ocultos entre las diferentes sedes Las sedes académicas enlazan con otras sedes de carácter económico, industrial, cultural, político o social 13
Cibergeografía, ciberdemografía Datos y fuentes Internet Geography Project www.zooknic.com Cybergeography www.cybergeography.org Clickz Surveys www.clickz.com/stats Blog www.internetworldstats.com/blog.htm Demography and Geography of the Internet www.sociosite.org/demography.php www.sociosite.net/topics/webgeography.php Internet Demographics Directory internet-demographics.netfirms.com 14
Ciberdemografía www.internetworldstats.com/stats.htm 15
Ciberdemografía (II) 16
Ciberdemografía www.internetworldstats.com/stats7.htm 17
Tamaño de Internet: Infraestructuras Hosts Lottor (Mundo) www.isc.org/solutions/survey/ RIPE (Europa) www.ripe.net/info/stats/hostcount/ Asia Web Watch (2002) www.ciolek.com/asia-web-watch/main-page.html Servidores Netcraft www.netcraft.com Dominios Mundo www.norid.no/domenenavnbaser/domreg.html Domain worldwide www.domainworldwide.com www.verisign.com/resources/naming_services_resources/domain_name_industry _Brief/ Web Hosting Info www.webhosting.info Alemania (y otros) www.denic.de/en/domains/statistiken España www.nic.es Estudios www.zooknic.com Experimentos Capturando Tablas con Excel Servidores en universidades iberoamericanas 18
Evolución de Internet (Lottor) 19
Lottor y Excel 20
Servidores Web http://news.netcraft.com/archives/web_server_survey.html 21
Situación en España https://www.nic.es/estadisticas/article/1717 22
Contenidos en el Web Webespacio Spireproject 10.000 millones (10/02) spireproject.com/art13.htm Actualidad +800.000 millones Depósitos Archive www.archive.org Google Cache www.google.com Tráfico El 80% de las sesiones de navegación en el Web implican el uso de un motor de búsqueda o un directorio. Bing-Yahoo y, muy especialmente, Google son los intermediarios más importantes 23
Wayback Machine 24
El problema de los gtld gtld Tradicionales:.com,.org,.net,.int Nuevos:.biz,.info,.name,.aero,.coop,.museum,.eu,.cat De facto:.cx,.tv,.cc,.fm,.nu,.ws Casos especiales:.edu Experimentos Google/Bing/Exalead Delimitador site: Problemática con TLD Dominios y países Dominios internacionales Traductores de IP IP Locator 1.41 AW IP Locator 3.05 www.atelierweb.com/iploc IP Address Locator www.geobytes.com/iplocator.htm?getlocation Ip2location www.ip2location.com/free.asp 25
Tamaño Google, Enero 2008 26
gtld de facto Google, Enero 2006 27
Google: Idiomas y países 28
Mención (Invocación) 29
Mención URL +"csic.es -site:csic.es -site:uv-csic.es -site:upm-csic.es -site:inta-csic.es -site:uib-csic.es -site:uam-csic.es -site:unizar-csic.es -site:upf-csic.es -site:csic.gob.es -site:jccm-csic.es -site:bcn-csic.es -site:gvb-csic.es -site:usal-csic.es 30
gtld y ctld especiales Intranet Google, Enero 2006 31
Contribución UE a los gtld Intranet Google, Enero 2006 32
IP Locator 33
IP Address Locator Tool 34
El Webespacio académico Sedes Dominios institucionales OCLC Web Characterization (1998-2002) http://www.oclc.org/research/projects/archive/wcp/ Sitios y Sedes Netcraft agosto 2012: 900 millones de sitios web Activos (50%) * (5-10 sedes/sitio) ~ 5.000 mill. sedes Webespacio académico Subdominios académicos No todos los países 35
Subdominios académicos ac.ae ac.in ac.rw edu.am edu.cn edu.hk edu.mm edu.pk edu.ua ac.at ac.ir ac.se edu.ar edu.co edu.hn edu.mn edu.pl edu.uy ac.bd ac.je ac.sg edu.au edu.cu edu.hu edu.mo edu.pr edu.ve ac.be ac.jp ac.sz edu.az edu.dm edu.jm edu.mp edu.pt edu.vg ac.bw ac.ke ac.th edu.ba edu.do edu.jo edu.mt edu.py edu.vn ac.by ac.kr ac.tz edu.bb edu.dz edu.kg edu.mx edu.qa edu.ws ac.ci ac.lk ac.ug edu.bh edu.ec edu.kh edu.my edu.ru edu.ye ac.cn ac.lv ac.uk edu.bm edu.ee edu.kn edu.na edu.sa edu.yu ac.cr ac.ma ac.uz edu.bn edu.eg edu.kw edu.nf edu.sg edu.za ac.cy ac.mu ac.vn edu.bo edu.gd edu.ky edu.ng edu.sh edu.zm ac.fj ac.mz ac.yu edu.br edu.ge edu.kz edu.ni edu.st ac.gg ac.nz ac.za edu.bs edu.gh edu.lb edu.np edu.sv ac.gs ac.pa ac.zm edu.bt edu.gr edu.lc edu.om edu.to ac.id ac.pg ac.zw edu.by edu.gs edu.li edu.pa edu.tr ac.il ac.pl acad.bg edu.bz edu.gt edu.lv edu.pe edu.tt ac.im ac.ru edu.al edu.ck edu.gu edu.mk edu.ph edu.tw 36
Caracterizando la academia Google, Enero 2006 37
Contexto Web Pública Web Privada Internet Invisible Web Visible Bases de datos Repositorios Revistas electrónicas 38
Bases de datos académicas Web pública Google Scholar Publish or Perish Citations Gadget MS Academic Search Dialnet Scirus CiteSeerX Citebase Paracite DBLP ScienceDirect (US) Science Gov In-extenso scholar.google.com www.harzing.com/pop.htm code.google.com/p/citations-gadget/ academic.research.microsoft.com dialnet.unirioja.es www.scirus.com citeseerx.ist.psu.edu www.citebase.org paracite.eprints.org dblp.uni-trier.de www.sciencedirect.com www.science.gov www.in-extenso.org 39
Google Scholar 40
Falta de normalización
Tamaño 263 TLD 14 gtld 86 millones de registros PAÍS/DOMINIO ARTÍCULOS % gtld (com, org, net, ) 54,862,451 63.79% EEUU (edu, gov, us,mil) 7,873,000 9.15% China cn 7,520,000 8.74% Francia fr 2,820,000 3.28% Japón jp 1,720,000 2.00% Brasil br 1,440,000 1.67% Rusia ru 995,000 1.16% España es 907,000 1.05% Taiwan tw 752,000 0.87% Alemania de 684,000 0.80% Canada ca 552,000 0.64% Corea del Sur kr 481,000 0.56% Reino Unido uk 430,000 0.50% Australia au 399,000 0.46% Italia it 308,000 0.36% Suiza ch 227,000 0.26% Polonia pl 220,000 0.26% Holanda nl 219,000 0.25% Ucrania ua 210,000 0.24% México mx 203,000 0.24% Costa Rica cr 177,000 0.21% TOTAL 225 86,010,880 (Datos propios, Agosto, 2010) 42
Scholar Publicaciones en dominios universitarios (Datos propios, Julio 2006) 43
Scholar (II) Trabajos en dominios universitarios (Enero 07) 44
Scholar: Publish or Perish 45
Google Scholar Citations 46
Google Scholar Metrics 47
Microsoft Academic Search 48
Estructura de MAS 49
MAS Perfil de autor 50
MAS Perfil de institución 51
MAS Comparativa 52
MAS Rankings 53
Webcindario 54
Dialnet 55
CiteSeerX 56
Ficheros ricos y ficheros media Ficheros ricos Definición y tipos Adobe Acrobat (pdf) y Postscript (ps) MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt) Tamaño Delimitador: filetype (Google, Bing, Ask,Yahoo) Ficheros media Definición y tipos FilExt www.filext.com Localización en motores Términos Delimitadores Bases de datos autónomas 57
Google (filetype) 58
Bing (filetype) 59
Filext 60
Imágenes en motores 61
Idiomas en la red Fuentes y estudios Usuarios según idioma Composición del webespacio Experimentos con buscadores Google Bing (Yahoo, Live, MSN Search) Ask (Teoma) Copernic 62
Idiomas (Google) Idioma Código Idioma Código Arabic lang_ar Icelandic lang_is Chinese (S) lang_zh-cn Italian lang_it Language Chinese (T) lang_zh-tw Japanese lang_ja Czech lang_cs Korean lang_ko Language Danish lang_da Latvian lang_lv Dutch lang_nl Lithuanian lang_lt English lang_en Norwegian lang_no Estonian lang_et Portuguese lang_pt Finnish lang_fi Polish lang_pl French lang_fr Romanian lang_ro German lang_de Russian lang_ru Greek lang_el Spanish lang_es Hebrew lang_iw Swedish lang_sv Hungarian lang_hu Turkish lang_tr 63
Idiomas Google, Enero 2006 64
Países (Google) Andorra AD Bhutan BT Estonia EE Guinea-Bissau GW Kazakhstan KZ United Arab Emirates AE Bouvet Island BV Egypt EG Guyana GY Lao PDR LA Afghanistan AF Botswana BW Western Sahara EH Hong Kong HK Lebanon LB Antigua and Barbuda AG Belarus BY Eritrea ER Heard and Mc Donald Islands HM Saint Lucia LC Anguilla AI Belize BZ Spain ES Honduras HN Liechtenstein LI Albania AL Canada CA Ethiopia ET Croatia (Hrvatska) HR Sri Lanka LK Armenia AM Cocos (Keeling) Islands CC European Union EU Haiti HT Liberia LR Language Netherlands Antilles AN Congo, DR CD Finland FI Hungary HU Lesotho LS Angola AO Central African Republic CF Fiji FJ Indonesia ID Lithuania LT Antarctica AQ Congo CG Falkland Islands (Malvinas) FK Ireland IE Luxembourg LU Argentina AR Switzerland CH Micronesia, FS FM Israel IL Latvia LV American Samoa AS Cote D'ivoire CI Faroe Islands Language FO India IN Libya LY Austria AT Cook Islands CK France FR British Indian Ocean Terr. IO Morocco MA Australia AU Chile CL France, Metropolitan FX Iraq IQ Monaco MC Aruba AW Cameroon CM Gabon GA Iran IR Moldova MD Azerbaijan AZ China CN United Kingdom UK Iceland IS Madagascar MG Bosnia and Herzegowina BA Colombia CO Grenada GD Italy IT Marshall Islands MH Barbados BB Costa Rica CR Georgia GE Jamaica JM Macedonia, FYR MK Bangladesh BD Cuba CU French Quiana GF Jordan JO Mali ML Belgium BE Cape Verde CV Ghana GH Japan JP Myanmar MM Burkina Faso BF Christmas Island CX Gibraltar GI Kenya KE Mongolia MN Bulgaria BG Cyprus CY Greenland GL Kyrgyzstan KG Macau MO Bahrain BH Czech Republic CZ Gambia GM Cambodia KH Northern Mariana Islands MP Burundi BI Germany DE Guinea GN Kiribati KI Martinique MQ Benin BJ Djibouti DJ Guadeloupe GP Comoros KM Mauritania MR Bermuda BM Denmark DK Equatorial Guinea GQ Saint Kitts and Nevis KN Montserrat MS Brunei Darussalam BN Dominica DM Greece GR Korea, DPR KP Malta MT Bolivia BO Dominican Republic DO South Georgia/South Sandwich I. GS Korea, Republic of KR Mauritius MU Brazil BR Algeria DZ Guatemala GT Kuwait KW Maldives MV Bahamas BS Ecuador EC Guam GU Cayman Islands KY Malawi MW 65
Países II (Google) Mexico MX Qatar QA Tokelau TK Malaysia MY Reunion RE Turkmenistan TM Mozambique MZ Romania RO Tunisia TN Namibia NA Russian Federation RU Tonga TO New Caledonia NC Rwanda RW East Timor TP Niger NE Saudi Arabia SA Turkey TR Norfolk Island NF Solomon Islands SB Trinidad and Tobago TT Nigeria NG Seychelles SC Tuvalu TV Nicaragua NI Sudan Language SD Taiwan TW Netherlands NL Sweden SE Tanzania TZ Norway NO Singapore SG Ukraine UA Nepal NP St. Helena SH Uganda UG Language Nauru NR Slovenia SI United States Minor Outlying I. UM Niue NU Svalbard and Jan Mayen Is. SJ United States US New Zealand NZ Slovakia (Slovak Republic) SK Uruguay UY Oman OM Sierra Leone SL Uzbekistan UZ Panama PA San Marino SM Holy See (Vatican City State) VA Peru PE Senegal SN Saint Vincent and the Grenadines VC French Polynesia PF Somalia SO Venezuela VE Papua New Guinea PG Suriname SR Virgin Islands (British) VG Philippines PH Sao Tome and Principe ST Virgin Islands (U.S.) VI Pakistan PK El Salvador SV Vietnam VN Poland PL Syria SY Vanuatu VU St. Pierre and Miquelon PM Swaziland SZ Wallis and Futuna Islands WF Pitcairn PN Turks and Caicos Islands TC Samoa WS Puerto Rico PR Chad TD Yemen YE Palestine PS French Southern Territories TF Mayotte YT Portugal PT Togo TG Yugoslavia YU Palau PW Thailand TH South Africa ZA Paraguay PY Tajikistan TJ Zambia ZM 66
Listados de universidades Webometrics Catalogue & Ranking www.webometrics.info Braintrack www.braintrack.com Universities Worldwide univ.cc HEIR siu.no/heir General Education Online www.findaschool.org International Colleges and Universities www.4icu.org Universia www.universia.es Canadian Universities www.uwaterloo.ca/canu U.S. Universities by State www.utexas.edu/world/univ/state Top American Research Universities thecenter.ufl.edu UK Higher Education Map www.scit.wlv.ac.uk/ukinfo/uk.map.html QS World Universities Rankings www.topuniversities.com German University Ranking www.university-ranking.org Scimago Institutions Ranking www.scimagoir.com Ranking de Leiden (CWTS) www.cwts.nl/ranking/leidenrankingwebsite.html Academic Ranking of World Universities www.arwu.org Performance Ranking ranking.heeact.edu.tw/en-us/2011/page/methodology All Universities around the World www.bulter.nl/universities Ranking of China Universities rank2005.netbig.com Alphabetical Index of Japanese Universities camp.ff.tku.ac.jp/tool-box/japanuniv 67
Internet invisible Características Tamaño y Calidad Fuentes Complete Planet www.completeplanet.com Descripción Identificación Institución País/Idioma Temática Cuantitativa Tamaño Visibilidad Cualitativa Estructura Cobertura Actualización Recuperación 68
Agentes personales (I) Volcadores Teleport Pro 1.67 AaronWebVacuum 2.9 JOC WebSpider 5.7 Leech 4.3 WebCopier 5.4 MemoWeb 4.0 Offline Commander 2.1 WebReaper 10 Offline Explorer Pro 6.3 Website Extractor 10.0 WebWhacker 5.0 WebZip 7.1 Website2PDF 1.0 Medusa 1.2 www.tenmax.com www.surfwarelabs.com www.jocsoft.com www.aeria.com www.maximumsoft.com www.goto.fr www.zylox.com www.webreaper.net www.metaproducts.com www.asona.org www.bluesquirrel.com www.spidersoft.com www.spidersoft.com www.candego.com 69
Agentes personales (II) Inspectores de enlaces Alert LinkRunner 6.01 www.alertbookmarks.com/lr HTML Link Validator 4.47 www.lithopssoft.com HTML Validator Professional 11 www.htmlvalidator.com Link Checker Pro 3.3 www.link-checker-pro.com LinkScan Workstation 12.1 www.elsop.com Web Link Validator 5.5 www.relsoftware.com/wlv Xenu's Link Sleuth 1.3 home.snafu.de/tilman/xenulink.html 70
Agentes personales (III) Extractores HTML WebData Extractor 8.3 www.webextractor.com Experimentos Volcado de sede con el volcador Teleport Pro Mapeado de la sede volcada con Xenu Inspección de links Mapeado directo de la sede con Xenu Inspección de links Tamaño de la sede según los motores de búsqueda Google, Yahoo-Bing, Ask, Gigablast 71
WebDataExtractor 72
Volcado, inspección y mapeado 73
Cibermetria de motores de búsqueda Motores de búsqueda: Características y problemática 6? grandes motores distintos Google Bing (ex-live, ex MSN Search) + Yahoo Search Ask (ex-teoma) Gigablast Yandex, Baidu, Exalead, Wisenut, Alexa Estudios sobre motores Search Engine Showdown Search Engine Watch searchengineshowdown.com searchenginewatch.com 74
Evolución e inter-relaciones 2003 2004-2005 2006-2007 Sede Base de datos Sede Base de datos Sede Base de datos GOOGLE GOOGLE GOOGLE NETSCAPE GOOGLE NETSCAPE GOOGLE NETSCAPE GOOGLE YAHOO YAHOO YAHOO ALTAVISTA ALTAVISTA ALTAVISTA YAHOO ALTAVISTA YAHOO ALLTHEWEB ALLTHEWEB ALLTHEWEB FAST LYCOS LYCOS TEOMA LYCOS IWON GOOGLE IWON GOOGLE IWON ASK HOTBOT HOTBOT INKTOMI MSN SEARCH MSN SEARCHMSN SEARCH LIVE LIVE TEOMA TEOMA TEOMA TEOMA ASK JEEVES ASK JEEVES ASK ASK ALEXA GOOGLE ALEXA ALEXA ALEXA GOOGLE/MSN SEARCH A9 A9 LIVE EXALEAD EXALEAD EXALEAD EXALEAD WISENUT WISENUT WISENUT WISENUT WISENUT WISENUT GIGABLAST GIGABLAST GIGABLAST GIGABLAST GIGABLAST HEREUARE GIGABLAST 75
Cibermetria de motores de búsqueda GOOGLE BING (LIVE/YAHOO) ASK GIGABLAST TLD site:xx site:xx site:xx site:xx dominio site:aa.xx site:aa.xx site:aa.xx site:aa.xx directorio site:aa.xx/bb site:aa.xx/bb site:aa.xx/bb NO palabra url inurl:xx NO inurl:xx inurl:xx enlace link:aa.xx/b.htm NO (NO) (NO) enlace dominio NO NO NO NO tipo fichero filetype:yy filetype:yy filetype:yy filetype:yy idioma Avanzada Avanzada Avanzada NO país Avanzada (Avanzada) Avanzada NO 76
Google Data Centers www.vaughns-1-pagers.com/internet/google-data-centers.htm 77
www.webrankinfo.com/english/tools/google-data-centers.php 78
Yandex 79
Siguiendo a Notess Instalación de Copernico 5.2 Capacidad de exportación a Excel Experimentos Cobertura Tamaño (Copernic) Búsqueda de términos (varios motores) Búsquedas delimitadas (cada motores) Teoría del máximo Solapamiento (Copernic) 300 primeros resultados Calidad de los enlaces (Copernic) Porcentaje de enlaces muertos (un único motor seleccionado) 80
Copernic 81
Visualización Relaciones ocultas TouchGraph http://www.touchgraph.com/seo Instalación previa del Java JRE 1.5 Prácticas con un nodo Prácticas con más de un nodo 82
TouchGraph 83
Metabuscadores Primera generación Yippy (Clusty, Vivisimo) Mooter iboogie Infonetware MetaEureka Surfwax Info search.yippy.com www.mooter.com www.iboogie.tv www.infonetware.com www.metaeureka.com www.surfwax.com www.info.com Segunda generación Copernico (5.2/6.2) www.copernic.com 84
Metabuscadores 85
Recuperación automática inteligente Copernic 6.2 www.copernic.com Indización Asignación automática de idiomas Filtrado por región y dominio WebQL 5.2 www.ql2.com Screen Scraper 6.0 www.screen-scraper.com Web Content Extractor 5.1 www.newprosoft.com Brown Recluse 1.62 softbytelabs.com WebAnalyst/PolyAnalyst 6.0 www.megaputer.com Web Scraper Plus+ www.velocityscape.com 86
Copernic 87
WebQL 88
Calidad, visibilidad e impacto Evaluación cuantitativa de sedes Web El modelo Google Instalación de la ToolBar (toolbar.google.com) Page Rank Escala logarítmica www.prchecker.info/check_page_rank.php www.searchengineengine.com Componentes: visibilidad + peso Visibilidad Tipos de enlaces: inlinks, outlinks, self-links, back-links Cálculo mediante el uso de motores de búsqueda Impacto Web (pero no WebIF!) Calidad de los enlaces: Inspectores de enlaces 89
Google Toolbar 90
Popularidad Número de visitas Dificil de conseguir en estudios amplios comparativos Posición relativa Popularidad según Alexa Sólo dominios Amplia cobertura mundial Algunos valores absolutos Evolución temporal Sesgos geográficos (+ Asia) Informes Snapshot Solo USA!!! Ranking.com Traffic Estimate Popularidad según Netcraft www.alexa.com www.serversiders.com snapshot.compete.com www.ranking.com www.trafficestimate.com toolbar.netcraft.com/site_report 91
Alexa 92
Limitaciones de Alexa 93
Desigualdades en Alexa Posición % VISITAS Top 3 23 Top 500 45 Número 10 5 Número 100 0,1 Número 1.000 0,06% Número 10.000 0,02% 94
Wikipopia 95
Snapshot 96
97
98
Netcraft 99
Análisis de enlaces Visibilidad Inlinks (enlaces recibidos) Outlinks (enlaces emitidos)=luminosidad Self-links (enlaces propios, de navegación) Interlinks, co-links Impacto Web Definición del WebIF Cálculo=Visibilidad/tamaño Indicador desprestigiado PageRank Cálculo=Número de enlaces y peso de las páginas de origen Calidad Inspectores de enlaces Enlaces rotos 100
Terminología básica B has an outlink to C : ~ reference A B has an inlink from A : ~ citation B has a selflink : ~ self-citation B E G E and F are reciprocally linked C D F A is transitively linked with H via B-D A has a transversal link to G : short cut H co-links C and D are co-linked from B, i.e. shared inlinks: co-citation B and E are co-linking to D, i.e. shared outlinks: bibliog.coupling 101
Cibercienciometria Indicadores Web Actividad o presencia Unidades: páginas, documentos, sedes, dominios Modelos: Madurez web (subdominios) Bibliometría de la Web: e-revistas, repositorios Cibermetría de motores Visibilidad o impacto Mención o invocación Análisis de enlaces Redes: inter-enlaces, co-enlaces PageRank Small World vip.db.dk/lb/phd/phd-presentation.ppt Consumo Popularidad: Traffic Rank Análisis de visitas 102
Indicadores Web 103
Indicadores (I) 104
Indicadores (II) 105
Indicadores (III) 106
Indicadores (IV) 107
Indicadores (V) 108
Ejemplo 109
www.webometrics.info 110
Visibilidad hipertextual Número de enlaces externos recibidos Recogida directa mediante robots SocSciBot socscibot.wlv.ac.uk Motores de búsqueda Disponibles hasta 2011: Bing, Yahoo & Yahoo Site Explorer Servicios especializados MajesticSEO www.majesticseo.com Ahrefs www.ahrefs.com SEOMoz www.opensiteexplorer.org SEMRush www.senmrush.com Alexa www.alexa.com 111
MajesticSEO 112
MajesticSEO Topbacklinks 113
Ahrefs 114
Ahrefs Estudio de términos 115
SEOMoz 116
Mapas de co-enlaces http://english-webometrics.yu.ac.kr/wwi/data/tools/e-sciencekoreaaoir2009%2819march2009%29aoir2009_submission.pdf 117
Mapas de enlaces 118
Otros rankings http://vcmike.blogspot.com/2006/01/ranking-colleges-using-google-and-oss.html 119
Related (I) 120
Related (II) 121
Repositorios Una (green road) de las iniciativas Open Access Depósitos de artículos científicos de acceso gratuito, inmediato, permanente, a texto completo a través de la web Pero también: Pre-prints, libros, actas de congresos, ficheros multimedia, material docente, divulgación, software, datos en bruto,.. Tipología Personales Institucionales Temáticos (verticales) Ventajas Rapidez en la difusión, mayor visibilidad, amplia utilización y mejores posibilidades de cita Métrica de los repositorios Cita Uso 122
Recursos Directory of Open Access Repositories www.opendoar.org Registry of Open Access Repositories archives.eprints.org Ranking Web of Repositories repositories.webometrics.info Arxiv arxiv.org eprintweb Digital Bibliography and Library Project RWTH Aachen DBL Browser Research Papers in Economics IDEAS CiteSeer eprintweb.org/s/ dblp.uni-trier.de sunsite.informatik.rwth-aachen.de/dblp/db dbis.uni-trier.de/dbl-browser repec.org ideas.repec.org citeseer.ist.psu.edu MIT citeseer.csail.mit.edu ETH Zurich sherry.ifi.unizh.ch UN Singapore citeseer.comp.nus.edu.sg/cs Cognitive Sciences Eprint Archive cogprints.org Eprints for LIS eprints.rclis.org Citebase www.citebase.org 123
RePEc 124
OpenDOAR 125
BASE 126
E-LIS 127
Arxiv/eprintweb 128
DBLBrowser 129
Proyecto MESUR mesur.lanl.gov/jcdl07poster_bollen.pdf 130
MODULO 2a Cibermetría Práctica Creando contenidos para la Web
Objetivos Dos públicos muy diferentes Motores de búsqueda 90% de las sesiones los usan como intermediarios Todas las páginas son entradas candidatas, hay que tratarlas como páginas principales La sede debe ser visible a los robots Los contenidos deben formar una unidad hipertextual interconectando todas las páginas con enlaces Humanos Lectura en pantalla más penosa que en papel, facilitar la aprehensión de los contenidos Información permanente al usuario Títulos y URLs Barra de navegación, índices o buscadores, «miga de pan» Identificación de autoría, información de contacto Fecha de última actualización Accesibilidad 132
Dos grandes retos Página principal Un pantallazo En su defecto, máximo una página (~dos pantallazos) Estrategia «Movimiento del ojo» Evitar contenidos importantes en las áreas «oscuras» Arriba a la derecha Abajo a la izquierda Libro de estilo Consistencia en el diseño gráfico, colores, logos para toda la sede Posiciones fijas consolidadas para los elementos comunes Logo, arriba o arriba derecha, enlace a página principal Barras de navegación, bajo logo o banner y/o a la derecha Aplicable también a ficheros destinados a uso offline Documentos maquetados (pdfs, docs, ppts) 133
Estilo visual Ajustar líneas Pocas columnas Ajuste por la izquierda Párrafos cortos Listas, con identificación (bolos, viñetas, números) Contenidos Densidad, pero no abrumadora Modelo periódicos: encabezamientos y resumen arriba Imágenes informativas, no muy grandes Imágenes pequeñas enlazadas a otras de más calidad (y tamaño) Destacar términos y frases con negritas o colores Pero sin abusar Alternativamente, creando alrededor espacios en blanco Usar pocos colores, mejor gradientes de un mismo color Utilizar agrupaciones y jerarquías Con tipos de letra, sangrados, posición (orientación) No usar Flash (salvo excepciones) 134
Ejemplos 135
Longitud de la página Recomendación Página principal: 1 pantallazo Página de 2º nivel: 2 pantallazos Página de 3º nivel : 3 pantallazos Excepción Páginas de niveles inferiores diseñadas o usadas como página de entrada directa 136
Enlaces Enlaces internos Estructurales (barras de navegación) Super listas o super-menús Directos a contenidos (Agenda, Noticias) Ayuda Enlaces externos Anclas Operativos, relevantes Segundo y siguientes niveles Descriptivas Enlaces gráficos Obvios Texto alternativo <ALT> 137
Modelo esperado 138
Ejemplos Logo Navegador Navegador Navegador Noticias Agenda 139
Ejemplos Buscador Navegador Navegador Navegador Contacto Logo 140
Ejemplos Logo Navegador Buscador Navegador Navegador Contacto 141
Ejemplos Navegador Logo Buscador Navegador Navegador 142
MODULO 2b Cibermetría Práctica Páginas personales y reputación web
Personal branding en la web Reputación académica directa Página personal institucional Prestigio del dominio web académico Centrada alrededor de un CV descargable (pdf o similar) Los contenidos son la clave Rica en enlaces externos Página personal no institucional Si existen limitaciones de contenidos en la institucional Blog personal (y/o wiki) Visibilidad en la Web Repositorio institucional Repositorios temáticos Directorios, índices y bases de datos Visibilidad en redes sociales El volumen de información La estructura hipertextual 144
Página personal institucional bd.ub.edu/pub/abadal/ 145
Página de grupo institucional www.upf.edu/digidoc/ 146
Página personal no institucional lluiscodina.com 147
Portal de producción científica argos.upf.edu?id=8612a417268bbe1e&idioma=ca&tipo=activ 148
Presencia web institucional 149
Repositorio institucional diposit.ub.edu/dspace/browse?type=author&order=asc&rpp=20&value=abadal%2c+ernest 150
Repositorio temático: e-lis eprints.rclis.org/browse?type=author&order=asc&rpp=20&value=abadal%2c+ernest 151
Repositorio colectivo www.recercat.net/browse?value=abadal%2c+ernest&type=author 152
Portal internacional de revistas redalyc.uaemex.mx/principal/listaarticulospornombreautor.jsp?aut=81514,222086 153
Presencia en directorios www.directorioexit.info/ficha41 154
ResearcherID www.researcherid.com/rid/g-2115-2011 155
Scopus www.scopus.com/authid/detail.url?authorid=23033001800 156
Google Scholar Citations scholar.google.com/citations?user=p0xn-uaaaaaj&hl=en 157
Microsoft Academic Search academic.research.microsoft.com/author/18444608/ 158
Dialnet dialnet.unirioja.es/servlet/autor?codigo=50207 159
Mendeley www.mendeley.com/profiles/ernest-abadal/ 160
ReaderMeter readermeter.org/abadal.ernest 161
Citeulike www.citeulike.org/author/abadal:e 162
BibSonomy www.bibsonomy.org/author/lluis+codina 163
BASE www.base-search.net/search/results?lookfor=aut:%22ernest+abadal%22&refid=dcreces 164
ScientificCommons en.scientificcommons.org/ernest_abadal 165
Delicious www.delicious.com/search?p=ernest+abadal 166
ArnetMiner arnetminer.org/person-statistics/1052592 167
Slideshare www.slideshare.net/ernestabadal 168
Facebook www.facebook.com/ernest.abadal 169
Google+ plus.google.com/105903433969920344023/about 170
Linkedin www.linkedin.com/pub/ernest-abadal/7/a5/113 171
ResearchGate www.researchgate.net/profile/ernest_abadal2/ 172
Academia.edu barcelona.academia.edu/ernestabadal 173
Xing www.xing.com/profile/lluis_codinabonilla;key=0.0 174
Social Mention www.socialmention.com/search?t=all&q=%22isidro+aguillo%22&btng=search 175
Twitter https://twitter.com/#!/abadal 176
YouTube www.youtube.com/watch?v=61ltnyg63y4 177
Flickr www.flickr.com/search/?q=ernest+abadal&f=hp 178
Amazon www.amazon.es/s?_encoding=utf8&search-alias=stripbooks&field-author=ernest%20abadal%20falgueras 179
Wikipedia 180
Otras fuentes de perfiles Biomed Experts Faculty of 1000 DBLP CiteSeerX IDEAS RepEc OAIster Ingenta Connect SciVee Vimeo Peer Evaluation Digg Diigo NetVibes ScienceCard Academic Room Academia-Net (mujeres) www.biomedexperts.com f1000.com www.informatik.uni-trier.de/~ley/db/ citeseerx.ist.psu.edu ideas.repec.org/top/#authorsall oaister.worldcat.org www.ingentaconnect.com www.scivee.tv vimeo.com www.peerevaluation.org digg.com www.diigo.com www.netvibes.com sciencecard.org www.academicroom.com www.academia-net.org 181
Páginas personales: Modelo Autoría institucional Logo y Banner institucional Instituto, Departamento, Grupo Web 2.0 Contenidos Navegador Artículos Congresos Libros Docencia Proyectos Divulgación Premios Aficiones Fotos Prensa Blog Estadísticas CV (pdf) Foto Datos de contacto Presentación general Noticias, novedades Próximas intervenciones Enlaces Actualidad Actualizado 5-Junio de 2011 Contenidos de calidad Hipertextualidad 182
Modelo de métricas MODELO SEGÚN www.plosone.org SU PÁGINA PERSONAL GOOGLE ANALYTICS CITAS E INDICES BIBLIOMÉTRICOS WoS/ISI, Scopus, GScholar Citas totales, citas/artículo, índice h CIBERMETRÍA/ALTMETRÍA Presencia en buscadores y redes sociales Visibilidad hipertextual 183
Herramientas openscholar.harvard.edu/home 184
Ejemplo gking.harvard.edu 185
Herramientas sites.google.com 186
Ejemplo sites.google.com/site/montielllorente 187
Herramientas 188
Ejemplos www.benchfly.com/blog/benchflys-scientist-homepage-challenge 189
Cibérmetras (I) www.hanpark.net 190
Cibérmetras (II) kimholmberg.fi 191
Información adicional Información personal Académica!: Maestros, colegas, referentes, colaboradores, proveedores, principales revistas, sociedades científicas Acceso a datos en bruto de investigaciones En formatos reutilizables Herramientas y resultados modelo Visualización: Gráficos, representaciones, mapas de resultados Software desarrollado in-house Valor añadido Normalizar (nombre del autor y de la afiliación (!)) y añadir códigos/direcciones a los resultados (DOIs, ISI, purls en las publicaciones) Aprovechar los APIs de terceras partes (ej: Google Maps) Uso interno: Enlaces directos a la nube, cuentas de correos 192
Blogs www.condenaststore.com 193
Pero Science Blogs Nature Network Scientopia Discover Mag Blogs PLoS Blogs Microsites Google Blogs Technorati BlogDigger Blog Search Engine Primer Cuartil Ec3noticias Bibliometría Marketing for Scientists scienceblogs.com network.nature.com/blogs scientopia.org/blogs blogs.discovermagazine.com blogs.plos.org microsites.oii.ox.ac.uk www.google.com/blogsearch technorati.com www.blogdigger.com www.blogsearchengine.com alvarocabezas.com ec3noticias.blogspot.com.es www.bibliometria.com marketingforscientists.com 194
MODULO 2b Cibermetría Aplicada Posicionamiento en motores
Cibermetría aplicada No sólo hay que publicar en la Web, sino lograr visibilidad Lograr un gran número de visitas (audiencia real cercana a la potencial) Recibir enlaces externos Estar presente en directorios y portales En el 80% de las sesiones Web se utilizan motores de búsqueda El posicionamiento es clave para incrementar la visibilidad La calidad influye en la obtención de una buena posición, pero también... El volumen de información La estructura hipertextual La anotación de los contenidos 196
Posicionamiento Medidas de presencia Indización en directorios Páginas realmente indizadas por el motor/páginas totales Medidas de visibilidad Page Rank Prominencia por términos Medidas de uso y consumo Popularidad Absoluta: Número de visitas Relativa: Ranking Alexa Consumo Número de ficheros volcados Tiempo medio de visita Términos de referencia más frecuentes 197
PageRank Google Barra (Toolbar) de Google: Valores enteros entre 0 y 10 198
PageRank (Posiciones) 199
Problemas El diseño es irrelevante e incluso puede ser contraproducente Pocos contenidos indizables en la página principal Animaciones Flash o programas Java que impiden la navegación de los robots Internet invisible Las bases de datos y muchas páginas dinámicas no son indizadas por los motores de búsqueda Link quality Es necesario un exigente mantenimiento y actualización de los enlaces externos o internos Ficheros ricos Los ficheros documentales son prácticos para la distribución de información de valor añadido Formatos pdf, ppt, doc, ps 200
Herramientas Webmasters World SEO Encyclopedia Webmasters Tools SEO Online PageStrength Data Centers Tool SEO Tools SEO Web Directory SEO Company SEO ToolSet tools.webmastersworld.org www.seopedia.info tools.devshed.com www.seoonline.info www.seomoz.org/tools/page-strength.php www.seocritique.com/datacentertool www.seochat.com/seo-tools www.seowebdirectory.com/seo_tools www.seocompany.ca/tool/seo-tools.html www.webconfs.com 201
202
203
Estimación de criterios en Google Filtro Idioma del Interfaz LOCALIZACIÓN IP del ordenador Criterios fuertes Otros criterios Frecuencia Posición SEMANTICOS Términos en la página + Texto de anclas externas Título <TITLE> + URL Encabezamientos <Hn> PageRank Texto principio de página Enlaces internos Densidad Etiquetas <META>+<ALT> Calidad Enlaces no rotos Visitas desde el buscador Frecuencia de actualización Velocidad de carga HIPERTEXTUALES Enlaces externos Peso (PR) de las páginas origen 204
Comentarios Estructura hipertextual Madurez: Profundidad de las sedes Visibilidad: PageRank Vecindario: Enlaces internos y externos Frecuencia de aparición de los términos de búsqueda Posición relativa de los mismos Título y URL Metadatos Encabezamientos Etiquetas ALT y anclajes externos Periodicidad en la actualización Edad del documento (contenidos nuevos) Popularidad: Visitas a la página Aspectos locales (geográficos, lingüísticos) 205
Presencia de términos en la URL Muy relevante Preferiblemente en el dominio o subdominio Recomendable hasta 30 caracteres El orden es importante http://mejor.bueno.xx/aceptable Palabras completas, no truncadas Términos independientes/frases (guión/guión bajo) Universidad-Complutense= +Universidad +Complutense Universidad_Complutense= Universidad Complutense 206
Agapea 207
Presencia de términos en el Título Muy relevante Contenidos de la etiqueta <TITLE>!!! Palabras clave, no título La posición es importante: cuidar las primeras palabras Frase larga, sin palabras vacías (~60 caracteres) No repetir términos, opción bilingüe Identificación institucional, localización geográfica También considerados los contenidos en las etiquetas <Hn> El encabezamiento marca el título percibido <H1> Derivar palabras genéricas: Hola, Bienvenidos, Página de a niveles inferiores <H2> ó <H3> 208
Términos en Título 209
Metaetiquetas Las <META> han perdido peso Description Keywords Hasta 155 caracteres Etiqueta repetible para versiones en otros idiomas La posición es importante: cuidar las primeras palabras No repetir palabras Hasta 20 términos Los términos DEBEN aparecer también el texto Etiqueta repetible para versiones en otros idiomas La posición es importante: cuidar las primeras palabras No repetir términos Descripción pre-catalográfica Utilizar otras etiquetas: Modelo Dublin Core (15 repetibles) 210
Generando etiquetas META Meta Builder 2 vancouver-webpages.com/meta/mk-metas.html Meta Tags Generator www.meta-tags.us MetaTags Generator tools.webmastersworld.org/metatagsgenerator.php Meta Tag Generator www.invision-graphics.com/meta-tag-generator.html Meta Tag Generator www.submitcorner.com/tools/meta DC-Dot www.ukoln.ac.uk/metadata/dcdot/ 211
Palabras clave en el texto Seleccionar correctamente Densidad Estudiar sinonimia, variantes, términos similares en otros idiomas Analizar consumo en motores Total: Hasta 25% Individual: Hasta 5% Posición Etiquetas de encabezamiento <Hn> Primeros párrafos Etiquetas modificadoras de fuente Negrita <B><strong>; Itálica <I>; Font size Promover la adyacencia de términos (en su caso) 212
Biology, no Biological Sciences 213
Adwords Keyword Tool https://adwords.google.com/select/keywordtoolexternal 214
http://www.google.com/insights/search/# 215
Más sobre palabras clave Texto alternativo ALT Muy importante Utilizado para semantizar imágenes, gráficos y banners Tratamiento específico similar al título Hasta 250 caracteres Texto en anclaje de enlaces Utilizar palabras clave Muy importante en páginas que nos enlazan Relevante también en los enlaces de navegación internos 216
Google-boombing 217
Google Trends 218
Google Labs 219
Enlaces a páginas externas Densidad de enlaces Media de enlaces/página (incl. Internos) ~ 20 Estructurar listados de recursos en directorios jerarquizados Cada categoría, una o más páginas Páginas objetivo Enlazar a buenas páginas Página principal (si es el caso) Páginas con alto PR Páginas actualizadas Nacional>.edu>.org>.info>.com Comprobar con frecuencia que los enlaces estén activos Evitar enlaces a granjas de enlaces Cuidar el texto de enlace (evitar aquí, página ) 220
Características de las sedes Dominio Propio Evitar acrónimos, proporcionar contenido Nacional,.org,.info,.name frente a.com Subdominio: Heredar PR de sede madre No cambiar el dominio!!! Sedes medianas o grandes Preferiblemente grandes Actualización Frecuente Incrementar número de páginas (mantener tasa nuevas/viejas) Promover enlaces Promover visitas Mantener estadísticas 221
Características de las páginas Tamaño Pequeñas o medianas <100 k Pero 40-50 k puede ser mucho volumen de texto Estructurar correctamente los grupos de páginas mediante enlaces consecutivos (anterior-siguiente) Sedes medianas o grandes Actualización Versiones Frecuente, pero no tanto Cambiar contenidos, no dirección Reducir al máximo las restructuraciones En páginas diferentes En otros idiomas En otros formatos (pdf, doc, ps, ppt,...) 222
Barreras a los robots Enlaces ocultos, incompletos o no semantizados Gráficos y Banners de entrada sin enlace en modo texto Especialmente ficheros Flash Importante también la presencia de texto ALT Javascripts en menús de navegación Con enlaces ocultos Con enlaces relativos, incompletos (sin declaración de URL Base) Frames (pero NO siempre!!) Páginas huérfanas Evitar re-direccionamientos y alias Etiquetas de refresco Granjas de sedes (sede.es; sede.com; sede.org) Páginas dinámicas Reducir longitud y complejidad de las URLS: Semantizarlas 223
Robot-friendly Fichero robots.txt No abusar del no index Mapa del sitio (html y xml) Enlaces de navegación internos Los justos y necesarios Alta en referentes En los propios motores (no muy importante, solo acelera la indización) En directorios (En Yahoo incrementa la visibilidad) En supersitios (truco: Wikipedia) Combatir la invisibilidad Páginas estáticas Submenús de apoyo 224
Internet visible 225
Tácticas piratas (a evitar) Textos invisibles Enlaces en píxeles Granjas de enlaces Compra de enlaces Compra de visitas Textos duplicados Cloaking Páginas diferentes para el motor que para el usuario Mirrors piratas 226
Herramientas: Densidad de palabras Site Content Analyzer 3 www.sitecontentanalyzer.com Good Keywords 3.0 www.goodkeywords.com Keyword Density www.keyworddensity.com Keyw. Dens. & Prominence 2.5 www.ranks.nl/tools/spider.html Keyword Density Analyzer tool.motoricerca.info/keyword-density.phtml KDAnalyzer Version 2.0 www.webjectives.com/keyword.htm Google Adwords adwords.google.com/select/keywordsandbox Keyword Investigator www.keywordster.com/keyword-investigator.htm GRKda 2.2 www.grsoftware.net/search_engines/software/grkda.html 227
Keyword Density & Prominence 228
Herramientas: Posición Accurate Monitor 2.8 Advanced Web Ranking 7.4 AgentWebRanking Pro 2.6 IBP 11.7 Link Popularity Analysis 2.0 Link Survey 1.6 Trellian SEO Toolkit 3.0 Web CEO 8.1 www.cleverstat.com www.advancedwebranking.com www.agentwebranking.com www.axandra.com www.link-popularity-analysis.com www.antssoft.com www.trellian.com/seotoolkit www.webceo.com 229
WebPosition 230
Advanced Web Ranking 231
Calidad: Duplicados, enlaces rotos 232
Evolución y persistencia Volatilidad Persistencia Los cambios en las páginas web suelen ser menores o cosméticos La frecuencia de cambio varía según los dominios La magnitud del cambio depende más del tamaño Las páginas grandes cambian más y más frecuentemente research.microsoft.com/research/sv/sv-pubs/p97-fetterly/p97-fetterly.pdf 233
Más información: Blogs OjoBuscador Abel Gonzalez Marketing.es Posicionamiento en buscadores Google Web Posizionamendua Search Engine News MSN s Search Weblog Yahoo Search Blog Search Engine Marketing Weblog Batelle s Searchblog SE Showdown Blog Google Blog Matt Cutts Blog www.ojobuscador.com www.abelgonzalez.com/blog www.marketing.es bibo.bitacoras.com euskal-seo.blogspot.com www.prweaver.com/blog blogs.msdn.com/livesearch www.ysearchblog.com sem.weblogsinc.com battellemedia.com www.searchengineshowdown.com/blog googleblog.blogspot.com www.mattcutts.com/blog 234
ojobuscador 235
Más información: Empresas LFChannel www.lfchannel.com ITNet www.grupoitnet.com Altas Buscadores www.altas-buscadores.com Ferca Network www.ferca.com T20 Media www.t2o.es NTBuscadores www.ntbuscadores.es Azalpen www.azalpen.com Serprimeros www.serprimeros.com SEOsolución www.seolucion.com prs-marketing www.prs-marketing.com Atraczion www.atraczion.com Lucernario www.lucernario.com 24/7 Search www.247search.com Tanta Tecnología y Comunicación www.tantacom.com ConsulData www.consuldata.net ZentoMedia www.zentomedia.com Websdirect www.websdirect.net De los primeros www.delosprimeros.com Davilac www.davilac.net 236
MODULO 3 Minería de datos Web Análisis de ficheros de visitas
Webmetria (Web Usage Mining) Definiciones Data mining: Extracción de conocimiento de las bases de datos Web Mining: Recolección y análisis de los patrones de visita de una sede Web No es buscar o recuperar información de dicha sede Objetivos: Aspectos a explorar Asociación Clasificación y agrupación (clustering) Patrones transversales Patrones sequenciales Similaridades Análisis de las visitas a sedes Web Ficheros log: Definición y estructura Programas para análisis de logs Prácticas con WebTrends Analysis Suite (www.netiq.com) 238
Taxonomía de la Minería Web Minería Web Minería basada en agentes Minería de contenidos Web Motores de búsqueda Metabuscadores Agentes personales Minería de Bases de datos Internet invisible Minería del uso del Web Identificación Descripción Herramientas de análisis 239
Ficheros log (bitácora) Fichero que recopila automáticamente todos los datos sobre las visitas que reciben las páginas de una sede Web Dirección IP del visitante URL visitadas Hora de la visita Tiempo dedicado a la visita URL desde la que se accedió Tipo de petición Tipo de respuesta Tamaño de la respuesta (bytes) Navegador usado etc Apache web log 205.188.209.10 - - [29/Mar/2002:03:58:06-0800] "GET /~sophal/whole5.gif HTTP/1.0" 200 9609 "http://www.csua.berkeley.edu/~sophal/whole.html" "Mozilla/4.0 (compatible; MSIE 5.0; AOL 6.0; Windows 98; DigExt)" 216.35.116.26 - - [29/Mar/2002:03:59:40-0800] "GET /~alexlam/resume.html HTTP/1.0" 200 2674 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com; http://www.inktomi.com/slurp.html) 202.155.20.142 - - [29/Mar/2002:03:00:14-0800] "GET /~tahir/indextop.html HTTP/1.1" 200 3510 "http://www.csua.berkeley.edu/~tahir/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 240
Utilidades Preguntas a responder Como se ha utilizado la información? Con que frecuencia? Que es lo más y lo menos popular (visitado)? Por donde entran los visitantes?. Por donde salen? Donde se entretienen más? Cuanto tiempo dedican? Que rutas de visita son las más utilizadas? Quienes son los visitantes? De donde vienen? Como han llegado? 241
Interceptores de visitas (counters & trackers) Google Analytics www.google.com/analytics Yahoo Web Analytics web.analytics.yahoo.com StatCounter www.statcounter.com ActiveMeter www.activemeter.com 123Statmore www.123stat.com Counter Central www.countercentral.com Digits Web Counter www.digits.com Free Hit Counter www.ritecounter.com GoStats www.gostats.com MyWebStats www.mywebstats.org OneStat Free www.onestatfree.com OneStat www.onestat.com Opentracker www.opentracker.net ShinyStat www.shinystat.com TDstats www.tdstats.com TheCounter www.thecounter.com WebSTAT www.webstat.com What Counter www.whatcounter.com 242
Instalando y configurando GA Crear una cuenta en GA Privacidad: Leer el contrato! Editar la cuenta Añadir y configurar el código Cuantas páginas?: TODAS! Configurar directorios y archivos para seguimiento puntual Chequear (log in) los resultados Especialmente los keywords Y otras variables Publicar en abierto un informe 243
Limitaciones de Google Analytics NO es un analizador de ficheros log Sus opciones son más limitadas Es menos configurable Esta basado en JavaScript El usuario debe tener activados JS y cookies No se puede añadir a todos los ficheros Adobe PDFs, MS Office DOCs, PPTs, XLSs Actualización diferida Favoritismo (Google-friendly) 244
Google Analytics 245
Google Analytics (II) 246
Google Analytics (III) 247
StatCounter 248
Programas de estadísticas de visitas 10-Strike Log-Analyzer 1.53 123LogAnalyzer 3.3 Log2Stats 1.5 AdvancedLogAnalyzer 2.1 Alterwind Log Analyzer 4.0 Analog 6.0 Analyse Spider 3.01 Deep Log Analyzer 4.0 ewebloganalyzer 2.3 FastStats Analyzer 4.1 Nihuo Web Log Analyzer 4.07 SawMill 8.5 SmarterStats 6.5 Surfstats 2011 WebLogStorming 2.6 WebLogExpert 7.4 WebTrends Analytics 10 www.10-strike.com www.123loganalyzer.com www.bitstrike.com www.abacre.com/ala/index.htm www.alterwind.com www.analog.cx www.analysespider.com www.deep-software.com www.esoftys.com www.mach5.com/products/analyzer www.nihuo.com www.sawmill.net www.smartertools.com www.surfstats.com www.datalandsoftware.com/weblog www.weblogexpert.com www.webtrends.com 249
Prácticas Experimentos con freeware Funnel Web Analyzer 5.0 www.quest.com/funnel-web-analyzer Webalizer 2.21 www.mrunix.net/webalizer Prácticas con fichero log Visitas totales y desagregadas Páginas y directorios más populares Ficheros volcados Puntos de entrada y salida Demografía de los visitantes Referentes de entrada (origen, navegador y palabras de acceso) 250
Configurando Funnel Web 251
Resultados 252
Referrals 253
Informetría Estudio de las distribuciones Aplicación de las leyes bibliométricas: Lotka, Zipf www.cindoc.csic.es/cybermetrics/articles/v4i1p4.html www.cindoc.csic.es/cybermetrics/articles/v4i1c1.html Generalización a Power law Estructura Media de enlaces externos por página (outlinks): 7-8 Distribución de enlaces por página (n) : 1/n k Recibidos (k=2,1) Emitidos (k=2,7) Páginas web por sitio (k= 2,2) PageRank (k=2,1) Consumo Visitantes a un sitio por día (k=2,07) Enlaces visitados por página (k=1,5) 254
Lotka en Excel 255
Investigación en Cibermetría 256
Bibliografia/Webliografía 257