CÓMPUTO DE ALTO RENDIMIENTO (HPC) & BIG DATA

Documentos relacionados

La importancia del HPC y el Big Data en la Investigación e Innovación

Qué significa Hadoop en el mundo del Big Data?

Soluciones Integrales en Inteligencia de Negocios

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

PISA Programa Internacional de Evaluación de Estudiantes. Gobierno de Chile Agencia de Calidad de la Educación

Minería de datos en la nube. Patricia Rayón Villela

Hadoop. Cómo vender un cluster Hadoop?

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

Roadmap para la adopción de nuevas arquitecturas de información

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Big Data y BAM con WSO2

El gasto total elegible de la BBPP, Centro de Supercomputación es de ,11. La ayuda FEDER, es el 80%, ,48

BIG DATA. Jorge Mercado. Software Quality Engineer

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Juan Carlos Olarte B Innovation and Business Development Management. BIG DATA & ANALYTICS: El Futuro es Ahora

Tendencias tecnológicas en la industria: Automatización Industrial. Christian Radillo Director Técnico México y centro América

1. Instala sistemas operativos en red describiendo sus características e interpretando la documentación técnica.

Máster in-company en Innovación y Estrategia en las Organizaciones

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Portafolio de Servicios y Productos

Contact Center Comunicación multicanal integrada

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Arquitecturas de computadoras

Panel: Minería de datos para la administración tributaria

Diplomado en Big Data

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015

MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN

HERRAMIENTAS TECNOLOGICAS DE GESTION EMPRESARIAL. Profesor: Dr.Alberto Un Han Alumnos: Enrique Huaco, Lino Mejia y Jaime Ballon

1. Aplica medidas de seguridad pasiva en sistemas informáticos describiendo características de entornos y relacionándolas con sus necesidades

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Introducción a las redes de computadores

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

OBJETIVOS DE APRENDIZAJE

Parte I: Introducción

SAS Data Scientist. Plan de Formación

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

Data Mining Técnicas y herramientas

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Soluciones de gestión avanzada de Compra y Contratación

IMPACTO DEL DESARROLLO TECNOLOGICO EN LA AUDITORIA

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

MARKETING Y COMERCIO ELECTRÓNICO

GESTIÓN DE DATOS Y ALMACENAMIENTO DISTRIBUIIDO una posible ruta hacia la biblioteca total. Ricardo Marcelín Jiménez Noviembre, 2015

ENMKT616 Inteligencia de clientes y estrategia de relacionamiento

BUSINESS INTELLIGENCE Y REDSHIFT

Proporciona motivación a los alumnos para aprender de manera atractiva e interactiva.

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

VIII Seminario Iberoamericano de Seguridad en Tecnologías de Información y Comunicaciones

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INFOTEC Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación

Estrategia Planeta Inteligente para PYMEs

Social Big Data. Ignacio Bustillo Fecha presentación: 13 de Noviembre de 2014

INGENIERIA INDUSTRIAL Y DE SISTEMAS LISTADO DE MATERIAS CONTENIDO PLAN:

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

Tema: Gestión del Conocimiento y Comercio Electrónico. Profesor: Lic. Rosa Oralia Saenz Hernández.

El ABC de Big Data: Analytics, Bandwidth and Content

Descripción general del curso Introducción a Internet de todo. Mayo de 2014

Tecnología de Gestión y Comunicación - TGC

SEWERIN. Pre Localización De Fugas de Agua

Nuevas tendencias: Virtualización de computadores / servidores

CAPÍTULO 2 DEFINICIÓN DEL PROBLEMA

Maestría en Dirección Estratégica en Ingeniería de Software

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

Seminario Electrónico de Soluciones Tecnológicas sobre VPNs de Extranets

Tecnología GPS Tecnología electrónica Desarrollo de software

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Nuevo horizonte tecnológico surgido del BigData

El outsourcing o tercerización u operador logístico

PARA 2013 TOP. será un GRAN año para el crecimiento de la inteligencia de negocios INTELIGENCIA DE NEGOCIOS LAS 10 TENDENCIAS

Formulación de Planificación Estratégica

CUSTOMER RELATIONSHIP MANAGEMENT

Tema: CREACIÓN DE CONSULTAS E INFORMES EN UNA BASE DE DATOS CON MICROSOFT ACCESS 2013.

BIG DATA. Alex Gimenez, CTO EMC 7 Mayo Copyright 2011 EMC Corporation. Todos los derechos reservados.

USO DE EXCEL Y ACCESS PARA EL DESARROLLO DE APLICACIONES ADMINISTRATIVAS EMPRESARIALES

Incorpora la localización en tu compañía. Mejora la rentabilidad con la solución Location Analytics de Esri

TRES ESTRATEGIAS CLAVES PARA SER UNA MICROFINANCIERA MÓVIL

Capítulo 2. Planteamiento del problema. Capítulo 2 Planteamiento del problema

Business Analytics. Jordi Gironés Roig PID_

Optimización de rutas logísticas para ganar competitividad

BIG DATA Desde que se cronometran las carreras, se corre más rápido

I. E. S. Cristóbal de Monroy. DEPARTAMENTO: Informática. MATERIA: Sistemas Operativos en Red. NIVEL: 2º Sistemas Microinformáticos y Redes

Innovación para su Contact Center

Titulo del Elemento. Soluciones Innovadoras para el Éxito de su Negocio

1. Instala gestores de contenidos, identificando sus aplicaciones y configurándolos según requerimientos.

Libere el conocimiento que vive en cualquier dato. Mario Ochoa 10/09/2014

Grado en Ingeniería Informática. Facultad de Informática Donostia

SOFISTICACION ANALITICA PARA EL CONOCIMIENTO DEL CLIENTE Y PERSONALIZACIÓN DE LA PROPUESTA DE VALOR

Cursos. Big data. al servicio de la investigación. // CC by 2.0

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Área Académica: ICBI, Sistemas Computacionales. Profesor: M.C.C Víctor Tomás Tomás Mariano

Conectores Pentaho Big Data Community VS Enterprise

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: C R M

PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE VICERRECTORÍA ACADÉMICA

Como incrementar su productividad con controles contínuos. Cr. Emilio Nicola, PMP

PREPARATORIA DIURNA DE CUAUTLA

Transcripción:

CÓMPUTO DE ALTO RENDIMIENTO (HPC) & BIG DATA DR. FABIAN GARCIA NOCETTI IIMAS-UNAM / INFOTEC Junio 2014

CONTENIDO COMPUTACION DE ALTO RENDIMIENTO BIG DATA Y ANALYTICS S/W PARA BIG DATA ESTUDIO DE CASO CONCLUSIONES 2

COMPUTACION DE ALTO RENDIMIENTO La computación de alto rendimiento (HPC) es el uso de procesamiento paralelo para ejecutar aplicaciones avanzadas de manera eficiente, confiable y rápida. El término se aplica en especial sistemas que operan arriba de un teraflops (10 12 ). El término se usa, a veces, como sinónimo de super cómputo. Algunas supercomputadoras trabajan a más de un petaflops (10 15 ). 3

COMPUTACION DE ALTO RENDIMIENTO Usuarios frecuentes HPC: investigadores científicos, ingenieros e instituciones académicas. Agencias gubernamentales (seguridad y defensa) utilizan HPC para aplicaciones complejas. A mayor demanda mayor poder de procesamiento y velocidad, la HPC interesa también a empresas, particularmente para procesar transacciones y almacenamiento de datos (data warehouses) 4

COMPUTACION DE ALTO RENDIMIENTO 5 Aplicaciones de la HPC La simulación de terremotos para identificar áreas especialmente sensibles y predecir sus condiciones. Modelado del clima. Modelos computaciones pueden ser usados con datos viejos para evaluar su utilidad. Modelaje de prototipos físicos es caro y lleva mucho tiempo. Manufactura digital. El uso de la HPC (modelado, simulación y analítica) para definir productos y procesos manufactureros (The National Center for Manufacturing Sciences, NCMS). Big data: manejo de grandes cantidades de datos y de decisiones o rutinas complejas.

COMPUTACION DE ALTO RENDIMIENTO Beneficios en la innovación usando HPC El tiempo de ajuste en un laboratorio es de unos 9 meses, HPC puede reducir a menos de una semana. El análisis de un componente cuesta en promedio 50,000 USD en un laboratorio, mientras que mediante HPC se puede hacer por 3,000 USD. Prototipos virtuales y modelados en gran escala con base en HPC aceleran y racionalizan los procesos. Se mejoran la I&D, el diseño y la ingeniería, así como también los procesos de negocios (minería de datos, logística, CRM, etc.) 6

COMPUTACION DE ALTO RENDIMIENTO Economía de la HPC El valor total del mercado mundial de HPC era de unos $26 mil millones (2010). Se estima que alcanzará los $30 mil millones (2015) Nuevos modelos de negocios mediante internet y la computación en la nube Los recursos de HPC en la nube son cada vez más accesibles, lo que permite que los consumidores los consideren un servicio 7

COMPUTACION DE ALTO RENDIMIENTO Evolución de la HPC a nivel mundial Cambios tecnológicos acelerados determinados por la competencia internacional Servidores son los principales componentes de costo, pero están declinando como porcentaje de las inversiones Mayores tasas de crecimiento se registran en los servicios y el almacenamiento de datos 8

COMPUTACION DE ALTO RENDIMIENTO Barreras al uso del HPC Barreras educacionales y de capacidades (falta de científicos computacionales) Obstáculos técnicos los códigos heredados deben ser actualizados hay rezago en la formulación de nuevos códigos brecha entre los procesadores más veloces y otros sistemas tecnológicos Las empresas ven al HPC como un costo, no como una inversión Dificultad para medir el retorno de inversión (ROI) 9 CEPAL 04-2013

BIG DATA Y ANALYTICS Big data Qué es? Conjuntos de datos cuyo tamaño está más allá de la capacidad de las herramientas de software de bases de datos típicas para capturar, almacenar, gestionar y analizar información. Cómo se origina? Por la explosión en la cantidad (velocidad y frecuencia) y diversidad de datos digitales generados en tiempo real como resultado del rol cada vez mayor de la tecnología en las actividades diarias. Para qué sirve? Permite generar información y conocimiento con base en información completa en tiempo real. 10

BIG DATA Y ANALYTICS Tipos de datos Compras y transacciones Datos de gestión empresarial Búsqueda (consulta, trayectoria recorrida, historia) Sociales (datos de identidad, información general) Intereses personales (que me gusta, tweets, etc.) Ubicación, sensores físicos (GPS, patrones de tráfico, Internet of Things, etc.) Contenido (SMS, llamadas, e-mails) 11

BIG DATA Y ANALYTICS 12 Implicaciones Era caracterizada por la abundancia de datos. Ha alcanzado todos los sectores en la economía Los datos son un nuevo factor de producción y de ventaja competitiva Oportunidad: Aprender sobre el comportamiento humano para diversos fines. Creación de valor vía innovación, eficiencia y competitividad Nuevas formas de competencia y nuevos negocios Almacenamiento y gestión de datos. Análisis de datos empresariales. En 2010 se estimaba el valor de esta industria en más de $ 100 mil millones, creciendo a casi un 10% al año

BIG DATA Y ANALYTICS 13 Big data para la creación de valor Segmentación de mercado y población para personalizar acciones Innovación en nuevos modelos de negocios, productos y servicios Mejora de productos existentes Desarrollo de nuevos productos (masa y personalización) Nuevos modelos de servicio a nivel empresarial y gubernamental Apoyo a la toma de decisiones con software inteligente Transparencia y eficiencia por compartir datos Mejor y más oportuno análisis de desempeño de las organizaciones y ajustes en acción.

BIG DATA Y ANALYTICS Analytics: capacidades La analítica de grandes datos se refiere a las herramientas y metodologías para transformar cantidades masivas de datos brutos en datos sobre datos con propósitos analíticos Se originó en las áreas de biología intensiva en cómputo, ingeniería biomédica, medicina y electrónica Algoritmos para detectar patrones, tendencias y correlaciones, en varios horizontes temporales, en los datos Uso de técnicas avanzadas de visualización: datos que hacen sentido 14

BIG DATA Y ANALYTICS Problemas Disponibilidad de datos: asimetrías Las redes sociales generan datos abiertos Los gobiernos los están abriendo, pero lentamente Los datos de empresas siguen cerrados ( filantropía de datos?) Diferentes capacidades de buscar y analizar datos Falta de incentivos para compartir datos Privacidad y los límites al anonimato de conjuntos de datos Una buena parte de las nuevas fuentes de datos reflejan sólo percepciones, intenciones y deseos Apophenia: ver patrones donde no hay; cantidades masivas de datos abren conexiones en todos los sentidos (error de Tipo I) 15 CEPAL 04-2013

BIG DATA Y ANALYTICS Qué sucede cuando las técnicas de análisis tradicionales se encuentran con sus límites? Cuándo llega el momento en que la minería de datos no aporta las soluciones esperadas? Cómo se enfrentan al desafío de los grandes datos y su expresión más desestructurada? 16

BIG DATA Y ANALYTICS Aquí es donde entra data science (técnicas necesarias para manipular y tratar la información desde un punto de vista estadístico/matemático). Data Science está basado en algoritmos, aplicados al problema de big data, entre otros. Implica hallar correlaciones, aplicar algoritmos más complejos y proporcionar niveles de visibilidad que transforman el contacto de una entidad con su entorno, También la capacidad de descubrir y estudiar oportunidades. Incorporar la figura del data scientist en la organización. 17

BIG DATA Y ANALYTICS Un proyecto de desarrollo de software orientado hacia la computación distribuida. Hadoop busca resolver parte de los problemas asociados a big data y a la aparición del data science. Ofrece capacidad de almacenamiento y procesamiento local. Permite escalar desde unos pocos servidores hasta miles de máquinas, todas ellas ofreciendo calidad de servicio. Permite el procesamiento distribuido de grandes conjuntos de datos en clusters de computadoras utilizando modelos sencillos de programación. 18

BIG DATA Y ANALYTICS Los dos conceptos en los que se apoya Hadoop son, por un lado, la técnica de MapReduce y, por otro, el sistema distribuido de archivos HDFS. HDFS (Hadoop Distributed File System) sistema de archivos distribuido, escalable y portátil. MapReduce: es el modelo de programación utilizado por Google para dar soporte a la computación paralela. Trabaja sobre grandes colecciones de datos en grupos decomputadoras o clusters. 19

BIG DATA Y ANALYTICS Principales características de MapReduce Distribución y paralelización (automáticas). Tolerancia a fallas y a redundancias. Transparecia. Escalabilidad Localización de los datos (se desplaza el algoritmo a los datos y no al contrario. Dispone de herramientas de monitorización. 20

BIG DATA Y ANALYTICS Fases de Big Data y sus soluciones con Hadoop 1. Descubrimiento de grandes datos Definir cuáles son los datos de interés. Encontrar sus fuentes (históricos o Social Media, entre otros). Grabar los datos en el sistema. Determinar cómo serán procesados. 2. Extracción y limpieza de los grandes volúmenes de datos Extraer los datos de la fuente de origen datos. Perfilar y limpiar los datos. Adecuarlos a las necesidades. Aplicar los estándares de calidad de datos. 21

BIG DATA Y ANALYTICS Fases de Big Data y sus soluciones con Hadoop 3. Estructuración y análisis de big data Dotar de estructura lógica a los conjuntos de datos tratados. Almacenar los datos en el repositorio elegido (puede ser una base de datos o un sistema) Analizar los datos disponibles para hallar relaciones. 4. Modelado de datos Aplicar algoritmos a los datos. Aplicar procesos estadísticos. Resolver las peticiones lanzadas mediante el modelado de datos en base a técnicas de minería. 5. Interpretación de grandes datos Interpretar las distintas soluciones. Aportar un resultado final. 22

ESTUDIO DE CASO Analysis of Seismic Records Based on Self- Organized Maps (SOM Neural Networks) and Wavelet Transform Rubio-Acosta E. Brandi-Purata J., Molino-Minero E., García-Nocceti F., Benítez-Pérez H. Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas Universidad Nacional Autónoma de México 23

Introduction A methodology for graphical analysis of seismic records based on self-organizing maps (SOM neural networks) and wavelet transform is proposed. This may help petroleum engineers to recognize areas where there may be oil. The methodology considers a seismic cube that includes at least one well and a geological horizon of interest.

Time (Depth) Seismic Trace Surface 0 S n : Source Offset R n : Receiver n : Angle of incidence Seismic raypath Medium 0 Z 0 Seismic Trace Medium 1 Z 1

Time (Depth) Seismic Gather Surface 0 0 Offset Point on surface Seismic Gather

Time (Depth) Seismic Cube 0 0 In-line Surface 0

Time (Depth) Oil Well and Horizon Surface 0 0 0 In-line Oil Well Horizon

Selection of Wavelet Scale 29

Wavelet Transform of a Trace 30

Self-Organized Maps A self-organizing map (SOM) is a type of artificial neural network that is trained using unsupervised learning to produce a lowdimensional discretized representation of the input space of the training samples, called a map. Self-organizing maps are different from other artificial neural networks in the sense that they use a neighborhood function to preserve the topological properties of the input space.

Results Cluster 32 nodos (dos CPU Xeon 82, 8 núcleos por nodo) 3.6 Ghz, 1 Tera Byte (TB) y 32 TB HD disco duro por nodo

Results

Results

Results (Class 1)

Results (Class 2)

Results (Class 3)

Results (Class 4)

Results (Class 5)

Results (Class 6)

Results (Class 7)

Results (Class 8)

Results (Class 9)

Conclusions Research in progress. Preliminary results. Geometric analysis. Not physical or causal analysis. Making comparison with AVO analysis.