Recuperación de información desde diferentes perspectivas

Documentos relacionados
Sistemas de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

IIC Sistemas Recomendadores

REIN-I7P23 - Recuperación de la Información

Clasificación Bayesiana de textos y páginas web

Un Sistema de Gestión Documental y Workflow con Indexación Temática y Geográfica de los Documentos

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Recuperación de Información en el Contexto de la Ciencia de la Computación

Web mining y obtención de información para la generación de

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

IIC Sistemas Recomendadores

LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Miguel R. Luaces, José R. Paramá, Oscar Pedreira, Diego Seco

Análisis de situación y Estrategia SEO

EXPERIMENTOS SOBRE LA CARGA DE RED EN SISTEMAS DISTRIBUIDOS DE RECUPERACIÓN DE INFORMACIÓN

Cómo posicionar su sitio web a través de buscadores de Internet


Técnicas eficientes para la recomendación de productos basadas en filtrado colaborativo

PROYECTO ESPECIAL CHAVIMOCHIC INFORME TECNICO PREVIO DE EVALUACION DE SOFTWARE N GR-LL/PECH-05-INF

Anatomia de Google. Una presentación realizada por Jose Dueñas para la asignatura Estructura de Datos II

La inteligencia de marketing que desarrolla el conocimiento

Integrando Información de Fuentes Relevantes para un Sistema Recomendador

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

TÍTULO DEL PROYECTO : ELECTRA (REUTILIZACIÓN DE LA INFORMACIÓN DE INSTALACIONES DE PRODUCCIÓN DE ENERGÍA ELÉCTRICA)

Buscadores Web. Referencias: Curso: Recuperación de Información 2002/1.

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Un primer acercamiento a la CMDB.

David Jordi Vallet Weadon.

Universidad Católica San Pablo Facultad de Ingeniería y Computación Programa Profesional de Ciencia de la Computación SILABO

de Marketing Digital y Posicionamiento Web

La interoperabilidad se consigue mediante la adopción de estándares abiertos. Las organizaciones OASIS y W3C son los comités responsables de la

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BRIEF DMKT CHILE Tenemos la fórmula para una estrategia de marketing exitosa

Mobiprobe. Introducción

Paralelismo en Recuperación de Información en la Web

Objetivos. Contenido MÓDULO 1. MARKETING DIGITAL 1. INTRODUCCIÓN AL MARKETING DIGITAL

Objetivos

O jeto de apre r ndizaje

La heurística en los virus

MANUAL PARA INCLUIR EL MOTOR DE RESERVAS EN LA WEB DEL ESTABLECIMIENTO

Introducción. Tráfico de la web. Análisis de la presencia de Grupo Argos en Internet

Community Management y SEO

MEDICION DEL IMPACTO DE LAS REDES SOCIALES EN LOS ESTUDIANTES DE LICENCIATURA DE LA FACULTAD DE INGENIERIA DE LA UACH Y SU EFICIENCIA ACADEMICA

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Introducción. Tráfico de la web. Análisis de la presencia de Movistar Colombia en Internet

Posicionamiento en Buscadores (SEO)

Grupo de investigación en Minería de Datos

INFORME CAPACITY PLANNING BANCO ESTADO DE CHILE PERIODO: JULIO - SEPTIEMBRE 2010

PROPUESTA SPONSORS

PUBLICIDAD INTERACTIVA

Conceptos y Herramientas POSICIONAMIENTO WEB. 1

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

El almacén de indicadores de proceso de negocio en ejecución

SEO POSICIONAMIENTO WEB

UNIVERSIDAD CARLOS III DE MADRID

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados

Guía para Desarrollo de Sitios Web - Gobierno de Chile

Índice INTERNET MARKETING 1

TUTORMATES Discovery: potenciando GeoGebra

IDeP. Service Oriented Network Architecture SONA. IDeP SA La Punta, San Luis, Agosto 2008

Arquitectura de un Sistema Recomendador

Reflexión. Inicio. Contenido

Marketing One to One e Internet

Contenido Motivación Esquema general

FORMACIÓN PRÁCTICA: Al propio ritmo de aprendizaje, sin condicionantes de grupo y atendido personalmente por un profesorado especializado.

Publicación de contenidos y actualizaciones al Portal UNAM

Capítulo 4. Sistemas de recomendación

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Posicionamiento WEB y optimización en buscadores

3 Importancia del dominio y elección de palabras claves

POSICIONAR LA WEB INTERNACIONAL, TÉCNICAS DE POSICIONAMIENTO SEO SEM

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

KYMATIC Soluciones Informáticas S.L.

Guía Rápida de Puesta en Marcha de MailStore

LA OFICINA SIN PAPELES Ahorro de costes con la optimización de procesos

Fundamentos del diseño 3ª edición (2002)

Capítulo 1. 10I 1.0 Introducción 1.1 Diseño de LAN 1.2 El entorno conmutado. Presentation_ID 2

SAQQARA. Correlación avanzada y seguridad colaborativa_

SÍNTESIS Y PERSPECTIVAS

Introducción. Tráfico de la web. Análisis de la presencia de EPM en Internet

11. Herramientas para figurar en los buscadores Web. Conferencista : Luis Carlos Chaquea B. País: Colombia

INFORME EJECUTIVO DE IDC

SILABO ASIGNATURA: NEGOCIOS ELECTRONICOS CODIGO: INF 229 PRE REQUISITO: INF 219 CICLO: IX TURNO: NOCHE

Curso Online Posicionamiento Web y Optimización en Buscadores

[15/2/2013] PROMOCIÓN Y DIFUSIÓN

Sistema de gestión de procesos institucionales y documental.

Infraestructura Tecnológica. Sesión 12: Niveles de confiabilidad

FORMACIÓN HI-WEB! INTRODUCCIÓN AL SEO

Social Media de comunicación y colaboración. Principales plataformas. Objetivos conceptuales. a. Comprender qué es el social media y la web 2.0.

Seguridad en tiempos de Big Data

ADMINISTRACIÓN VEHICULAR DE FLOTAS.

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Análisis de la visibilidad global de los publicadores de los recursos geográficos estandarizados

Arquitectura para gestionar Big Data en Sistemas de Recomendaciones

Presentación del Curso Virtual COMPRAS PÚBLICAS

Guía de MANEJO SERVICIO WEBSEGURA. Pymes

Usabilidad y comercio electrónico

Transcripción:

Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía & Fidel Cacheda

Contenidos Recuperación de Información en entornos distribuidos (motores de búsqueda): Obtención de información (crawling process) Indexación de la información (indexing process) Recuperación de Información y Ranking (RR process) Enfoques: Eficacia Eficiencia Escalabilidad Dispersión de datos 2

Obtención de información (I) Crawling Arquitectura eficiente de obtención de información mediante sistemas de crawling Escalabilidad Diversidad Dinamismo Web oculta Cambios tecnológicos Aportación: Problema del web spam Páginas soft-404 Arquitectura escalable y eficiente 3

Obtención de información (II) Páginas soft-404 Muchos web server envían códigos 200 HTTP como respuesta a documentos no encontrados. Aportación: construcción de un sistema denominado soft404detector, basado en análisis de contenido para filtrado de estas páginas. Uso de heurísticas como ratio bytes contenido vs total, tamaño, imágenes, words, keywords, con lo que consigue una precisión de 0.992. Víctor M. Prieto, Manuel Álvarez, Fidel Cacheda. Soft-404 Pages, a Crawling Problem. Journal of Digital Information Management (JDIM). Vol. 12, issue 2. pp. 73-92, April 2014 4

Obtención de información (III) Páginas Web Spam Páginas sin contenido válido con keywords y enlaces a otras páginas para aumentar el pagerank y por tanto los beneficios. Aportación: Combinación de heurísticas utilizando árboles de decisión. Selección de propiedades del conjunto global en función de relevancia, recursos, eficiencia, 5

Arquitectura escalable y eficiente (I) Crawling :: Dinamismo web (i) Buscadores web usan Crawlers para descargar páginas e indexarlas, pero estas cambian constantemente y de manera impredecible. Aportación: Construcción de un sistema distribuido y colaborativo de detección de cambios en páginas web que reduce significativamente este tiempo y su tratamiento e indexación por parte del buscador. Víctor M. Prieto, Manuel Álvarez, Víctor Carneiro, Fidel Cacheda. Distributed and Collaborative Web Change Detection System. Computer Science and Information Systems Journal (ComSIS). ComSIS Consortium. Volume 12, issue 1. pp. 91-114, 2015. 6

Arquitectura escalable y eficiente (II) Crawling :: Dinamismo web (ii) Características del WCD: Uso de un agente distribuido Parte del procesamiento se realiza en la parte cliente Actúa en modo push; no es necesario visitas a los web servers. Los cambios en páginas web son notificados inmediatamente, lo que mejora la experiencia de búsqueda. Se consigue una media de 12 minutos para low PageRank y 1 minuto para high PageRank frente a las 24 horas de media en buscadores tradicionales. 7

Arquitectura escalable y eficiente (III) Crawling :: Dinamismo web (iii) 8

Contenidos Recuperación de Información en entornos distribuidos (motores de búsqueda): Obtención de información (crawling process) Indexación de la información (indexing process) Recuperación de Información y Ranking (RR process) Enfoques: Eficacia Eficiencia Escalabilidad Dispersión de datos 9

Indexación de información (I) Problemas a analizar Problemas de eficiencia y escalabilidad Optimización de técnicas de indexación: ficheros invertidos, ficheros de firmas, modelo vectorial, Comportamiento de búsqueda del usuario e importancia del contexto, comunidades, Dispersión y dinamismo de la información Medidas de eficiencia, cobertura, diversidad, 10

Sistemas recomendadores (I) Técnicas de IR en sistemas de recomendación con filtrado colaborativo (FC) basados en memoria. Aportación: Nuevas métricas para la medida de la precisión MAE vs GIM. Algoritmos basados en tendencias o diferencias entre usuarios e items para mejorar la eficiencia. Mejora de la eficiencia en algoritmos tipo knn (vectorial model, preselección de vecinos). Mitigación de la dispersión: similitud, profile expansion, Fidel Cacheda, Víctor Carneiro, Diego Fernández, Vreixo Formoso. Comparison of collaborative filtering algorithms: Limitations of current techniques and proposals for scalable, high-performance recommender systems. ACM Transactions on the Web (TWEB), Volume 5, Issue 1, February 2011. 11

Sistemas recomendadores (II) Algoritmos knn Estudio de factores que afectan a los algoritmos de vecinos más cercanos (knn) usados en FC Aportación: Arquitectura distribuida que mejora el rendimiento y tiempo de respuesta de algoritmos knn en la selección de vecinos, mediante técnicas de Big Data. Técnicas para sistemas recomendadores distribuidos: User partition Item partition Vreixo Formoso, Diego Fernández, Fidel Cacheda, Víctor Carneiro. Distributed architecture for k- Nearest Neighbors recommender systems. World Wide Web. Internet and Web Information Systems. Volume 18, Issue 4, pp 997-1017, 2014. Springer. 12

Sistemas recomendadores (III) Problema del Cold Start Técnicas de expansión de perfil permiten mejorar la precisión con nuevos items y obtener buenas recomendaciones a nuevos usuarios. Uso de técnicas de query expansion de IR Aportación: Técnicas de item-global vs item-local Técnicas de user-local Vreixo Formoso, Diego Fernández, Fidel Cacheda, Víctor Carneiro. Using profile expansion techniques to alleviate the new user problem. Information Processing & Management, Volume 49, Issue 3, May 2013. 13

Sistemas recomendadores (IV) Compresión de matriz Además de eficientes los algoritmos tienen que ser eficaces. La matriz de ratings puede ser indexada para facilitar la rapidez de las recomendaciones Aportación: Técnicas de reducción de la matriz de indexación Basado en técnicas de IR sobre CF. Reducción de hasta el 75% del tamaño de la matriz. Vreixo Formoso, Diego Fernández, Fidel Cacheda, Víctor Carneiro. Using rating matrix compression tecniques to speed up collaborative recommendations. Information Retrieval, Volume 16, Issue 6, December 2013. 14

Sistemas recomendadores (V) Aplicación a la seguridad Uso de técnicas de filtrado colaborativo para predicción de tráfico: Categorización de tráfico mediante PCAP DATASETs Construcción de matriz users-items Aplicación de algoritmos de CF Evaluación de resultados Aplicación: Predicción de tráfico de red Predicción de ataques 15

Contenidos Recuperación de Información en entornos distribuidos (motores de búsqueda): Obtención de información (crawling process) Indexación de la información (indexing process) Recuperación de Información y Ranking (RR process) Enfoques: Eficacia Eficiencia Escalabilidad Dispersión de datos 16

Recuperación de información Green IR A partir del estudio del comportamiento de usuario en queries, optimización de la gestión de consultas y eficiencia energética. Aportación: Modelo matemático de predicción del comportamiento. Aumento/reducción del número de nodos en función de la contención y dificultad de las queries. Mejora de la eficiencia energética mediante reducción automática de recursos sin comprometer la eficiencia. Ana Freire, Craig Macdonald, Nicola Tonellotto, Iadh Ounis and Fidel Cacheda. A self-adapting latency-power Trade-off Model for Replicated Search Engines. 7th ACM Web Search and Data Mining, New York, February 2014. 17

Gracias por su atención Grupo de Ingeniería Telemática Facultad de Informática de A Coruña