Arquitectura para gestionar Big Data en Sistemas de Recomendaciones



Documentos relacionados
Minería de datos en la nube. Patricia Rayón Villela

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Seguridad en tiempos de Big Data

ArcGIS: La Plataforma Geográfica para su Organización. Carlos Cardona Arquitecto de Soluciones para América Latina

Medellín, martes 27 de octubre del 2015

Descripción de los Servicios Oracle contemplados en el Instrumento de Agregación de Demanda

E-learning: E-learning:

MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN

5.2. PROYECTO RODA. (6/07/04).

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

INFORME EJECUTIVO DE IDC

Curso de Analítica web con Google Analytics para emprendedores en la enseñanza del español y gestión cultural Centro Internacional de Tecnologías

Escuela Técnica Superior de Ingeniería Informática

POSTGRADO. Ingeniería EXPERTO EN BIG DATA

Análisis de sentimientos de tweets.

Sistemas de Información Geográficos (SIG o GIS)

Propuesta para la Creación de un Programa de e-cienciae

Panel: Minería de datos para la administración tributaria

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Sobre el Sistema de Información Estadística Portuaria de Centroamérica

Centro de Competencias de Integración. Portal del paciente

UNIVERSIDAD CARLOS III DE MADRID

67% tendrán un smartphone en el 2016 NOSOTROS NECESITA SOLUCIONES A PROBLEMAS COMPLEJOS?

Informe final de evaluación del seguimiento de la implantación de títulos oficiales GRADO EN INGENIERIA EN DISEÑO INDUSTRIAL Y DESARROLLO DEL PRODUCTO

Monitoreo de Plataformas TI. de Servicios

Business Process Management(BPM)

BIG DATA. Jorge Mercado. Software Quality Engineer

TEMA 1: INTRODUCCIÓN A SERVICIOS TI

Capitulo 2. Trabajos Relacionados

HADOOP, como una plataforma de procesamiento masivo de datos

Circular de Paquetes

Desarrollo de una Plataforma de Gestión de Conocimiento para la Innovación en Tecnología Educativa

Diplomado en Gestión de Grandes Volúmenes de Datos y Analítica Empresarial Coordinador: Dr. José A. Incera Diéguez


Cursos On-Line SEGUIMIENTO Y VIGILANCIA AMBIENTAL EN LA EIA. Colegio Oficial de Biólogos de la Comunidad de Madrid

Medición y Visualización Meteorológica con Azure-IoT

04/04/2005 InnovaPortal e InnovaNet 26 de marzo 961 of Montevideo - Uruguay

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

CAPÍTULO 1 Instrumentación Virtual

Impacto Real para un mejor Perú

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Proyecto de innovación de la gestión documental aplicada a expedientes de contratación de servicios y obras de infraestructuras de transporte

Informe final de evaluación del seguimiento de la implantación de títulos oficiales GRADO EN PAISAJISMO. Escuela Superior de Arquitectura y Tecnología

Plataforma inteligente de gestión dinámica de flujos de tráfico. Universidad de Málaga Lynka

Visión y perspectivas Infraestructura Nacional de Datos Geospaciales. Alvaro Monett Hernández Secretaría Ejecutiva IDE Chile

Yoizen, the software solutions.

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

Mejorando la Competitividad del Sector Turístico en el Caribe a través de Innovaciones TICs

Cloud Computing Tendencias. Modelos. Posibilidades. Germán Cortés Lasso

LBD LOCAL: Un Sistema para la Recuperación de Documentos con Referencias Geográficas Miguel R. Luaces, José R. Paramá, Oscar Pedreira, Diego Seco

Programa Internacional en Gestión Estratégica de Compras y Abastecimientos

ATLANTE! i n f r a e s t r u c t u r a d e s u p e r C o m p u t a c i ó n G o b i e r n o d e C a n a r i a s!

Toma de decisiones sobre el mundo real Base de datos SIT/SIG. Productos - información

Videos didácticos para el aprendizaje de PSPICE

Diplomado en Big Data

Máster. en en Business Intelligence

TEMA: Las Redes. NOMBRE Torres Castillo Ana Cristina. PROFESOR: Genaro Israel Casas Pruneda. MATERIA: Las TICS en la educación.

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Escuela Técnica Superior de Ingeniería Informática

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval

INTERNET LA RED WAN MAS GRANDE

Deloitte Training. Riesgos de tecnología de información implicaciones y retos para la auditoria


Licenciatura en Ingeniería en Sistemas y Tecnologías de Información Industrial

Tema 11: Instrumentación virtual

TEMA 1: INTRODUCCIÓN A LA EXPLOTACIÓN DE SERVICIOS TI

R8: Possible Methods of Tailoring eucad Framework For Logistics Stakeholders. Posibles métodos de Adaptación del Marco eucad al sector Logístico

Visite en el siguiente enlace una de nuestras soluciones adaptadas para nuestro cliente:

soluciones en Fotogrametría Digital El software de análisis más potente basado en objetos de datos geoespaciales. Fotogrametría Digital

Presentación de la Empresa

STRAVALProject...for the promotion of local societies in latin america.

Almacenamiento Orientado a Bloques, Flexible, Escalable y Seguro Sobre Redes IP

REQUISITOS PARA LA SOLICITUD DE EVALUACIÓN DE RECURSOS DIGITALES CON FINES DE APRENDIZAJE Y PROMOCIÓN DE LA ORIGINALIDAD DEL MATERIAL EDUCATIVO

ADMINISTRE CON EFICIENCIA SUS RECURSOS José Flavio Guerra Colorado MBA,PMP,ITIL.

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Big Data. Rodolfo Campos

ALTERYX. Claudia María Tabares Betancur

Si no lo mides, no ahorras Sistema de Monitoreo

ING. YURI RODRIGUEZ ALVA

Sistema de Monitoreo con Sensores Móviles usando Tecnología de Arquitectura Modular. Centro de Modelamiento Matemático Universidad de Chile

Capítulo VI. Estudio de Caso de Aplicación del Integrador de Información Desarrollado

Máster. en Inteligencia de Negocios

1. Gestión Documental FIRMA-E... 6

Juan Carlos Olarte B Innovation and Business Development Management. BIG DATA & ANALYTICS: El Futuro es Ahora

código Java Solicitudes Reportes AJI resultados API

BIG DATA Y SU APLICACIÓN REAL EN LA EMPRESA

Titulo: Apertura del Sistema SAP R/3 para el diseño de aplicaciones externas, y desarrollo de un caso practico para ambiente WEB.

1. OBJETO 2.-ÁMBITO DE ACTUACIÓN. Castilla La Mancha.

Servicios avanzados de supercomputación para la ciència y la ingeniería

El proyecto DARA información al usuario y colaboración archivística Juan José Generelo Archivo Histórico Provincial de Zaragoza

Personalización, extensión y desarrollo de módulos para Moodle.

Servicios TIC. Propuesta educación Universidad

Estudio de Virtualización, Cloud Computing y Data Centers en Medianas Empresas

Trabajo final de Ingeniería

Conceptos básicos de Big Data

LOS ARCHIVOS EN EL SIGLO XXI

Transcripción:

Arquitectura para gestionar Big Data en Sistemas de Recomendaciones sensibles al contexto Dra. Tatiana Delgado Fernández tdelgado@ind.cujae.edu.cu Instituto Superior Politécnico José Antonio Echeverría, CUAJE, Cuba Dr. Guillermo González Suárez guille@geomix.geocuba.cu Dr. José Luis Capote Fernández capote@geomix.geocuba.cu Dr. Rafael Cruz Iglesias rcruz@geomix.geocuba.cu Agencia GeoMix, Empresa GeoSI, Cuba

Contenido PARTE I Sistema de Recomendaciones sensible al contexto basado en ontologías 1. Problemacon el uso de los servicios de datos geográficos de la IDERC 2. Pregunta de Investigación: Cómo desarrollar servicios de Información Geográfica Ubicua para ciudadanos a partir de la IDERC? 3. Conceptos base: Sistemas de Recomendaciones y la Información Geográfica Ubicua 4. Arquitectura e implementación de CARS sobre la IDERC PARTE II Big Data Management para Sistema de Recomendaciones sensible al contexto y basado en ontologías 1. Problema de escalabilidad 2. Conceptos base: Big Data 3. Pregunta de Investigación : Cómo escalar los CARS sobre la IDERC en contextos de Big Data? 4. Arquitectura para gestionar Big Data en un CARS soportada en IDEs FINAL - Trabajo Futuro y Conclusiones

PARTE I Sistema de Recomendaciones sensible al contexto y basado en ontologías

Uso de la IDE en Cuba (IDERC) (abril 2013) 75% accesos de Cuba Provenientes de aplicaciones empresariales y el GeoPortal 0% aplicaciones orientadas al usuario 4

Pregunta de Investigación No. 1 Cómo desarrollar servicios de Información Geográfica Ubicua para ciudadanos a partir de la IDERC?

Información Geográfica Ubicua La información geográfica ubicua, es proporcionada en cualquier momento y lugar a usuarios o sistemas utilizando dispositivos de comunicación. Un aspecto crítico de la UBGI es que la información proporcionada se base en el contexto del usuario. Hong, Sang-Ki.Ubiquitous Geographic Information (UBGI) and address standards. ISO Workshop on address standards: Considering the issues related to an international address standard. Copenhagen, Denmark: s.n., 2008.

Sistemas de recomendaciones en la Web Cualquier sistema que produce recomendaciones individuales como salida, o que tiene el efecto de guiar al usuario de un modo personalizado a objetos útiles y/o interesantes dentro de un gran espacio de posibles opciones.

Arquitectura de un Sistema de recomendaciones sensible al contexto basado en ontologías 8

Fase 1. Marco de datos y semántico 9

Fase 2. Pre-filtrado espacio-semántico y filtrado colaborativo 10

Fase3. Visualización 11

Evaluación Datos: Ontología de destinos turísticos. Perfiles de usuario. Base datos espaciales. Universo de Lugares:2 946 destinos de todo el país. Universo de Usuarios:60 usuarios diferentes; 36 hombres y 24 mujeres. Universo de Recomendaciones: 176760 lugares con su escala de preferencia. 12

Métricas de evaluación Medida de precisión de la predicción: donde: MAE: Error medio absoluto p i : es el valor de la recomendación calculada por el método. r i : es el valor que el usuario ha expresado de su preferencia por el elemento i. N: es la cantidad de elementos del conjunto. Medida de precisión de la clasificación: donde: N s es el número total de elementos seleccionados por el sistema. N rs es el número de elementos relevantes seleccionados por el sistema. N r es el número de elementos que el usuario ha clasificado como relevantes. 13

Preparación del escenario 14

Visualización ejemplo evaluación

PARTE II Usando Big Data en Sistemas de Recomendaciones sensibles al contexto y basados en ontologías

Problemas de escalabilidad para conjuntos de datos mayores de 10 millones Tamaño de conjunto de datos (usuarios) Biblioteca Mahout (Apache Software) < 100 000 Más bien lentpo Desempeño de Mahout From 100000 to 1 milllion From 1 to 10 million Comienza a ser una buena opción Excelente desempeño de Mahout Owen, S. Anil, R. Dunning, T. and Friedman, E. Mahout in Action. New York: Manning Publications Co., ISBN: 9781935182689, 2012.

Big Data Conjuntos de datos difíciles de manejar que requieren técnicas para agregar, manipular, analizar y visualizarlos. Mark Troester, 2012, SAS, White paper Big Data Meets Big Data Analytics

Big Data

Volumen y Velocidad Procesamiento paralelo distribuido de grandes conjuntos de datos a través de clustersde computadoras

Variedad -NoSQL

Escalar con fuentes de Datos Genéricos de Lugares ej. GeoNames(Open LinkedData)

Velocidad: Hadoop en la Nube Privada de la IDERC Hadoop puede ser lanzado y correr sobre una nube privada Nube Privada para Nube Privada para seguridad de datos y control de acceso u mejor visibilidad y control de la infraestructura, así como visibilidad y control de la infraestructura de Haddop

Hadoopen la Nube 1. Hadoop corre mejor sobre servidores físicos. Hadoopcomprende un nodo maestro llamado nodo Nombre y múltiples nodos hijos, llamados nodos de datos Estos nodos de datos están en servidores físicos. 2. Hadoopes Rack Aware Nodos de datos de Hadoop(servers) son instalados en RACK. Cada RACK contiene muchos servidores. 3. Rack awareness significa que el nodo nombre conoce dónde cada servidor de nodo de datos está en el RACK

Arquitectura para gestionar Big Data en un CARS soportado en IDEs Data Source Layer Streaming Web feeding Linked Data Perfilesde usuario

Trabajo Futuro Implementar la arquitectura propuesta Montar un proyecto piloto en la Universidad para probar las tecnologías de Big Data para cada building block Integrar en una solución el CARS basado en Big Data Continuar experimentando con Big Data, en particular para la carga y análisis de información de sensores

Conclusions Los CARS basados en IDEspueden impactar positivamente en la habilitación espacial del ciudadano Big Data es una opción recurrente para escalar un CARS La arquitectura extendida del Sistema de Recomendaciones usando Big Data Management El despliegue en la nube de Hadoopmejora la efectividad de la misma.