Big Analytics: de la información al conocimiento

Documentos relacionados
Programa Big Analytics: de la información al conocimiento

Índice general. Prefacio...5

MÁster en Data Science y Arquitectura Big Data_ DURACIÓN: 248 HORAS

MÁSTER EN BIG DATA MANAGEMENT & DATA ENGINEERING. Master

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM.

CURSO DE APACHE SPARK_

Developer Training for Spark and Hadoop

Aplicación de Apache Spark y su librería MLlib para el desarrollo de sistemas recomendadores

BIG DATA SCIENCE & ANALYTICS

PARA INGENIEROS. Ser ingeniero en la época del Big Data, Data Science e Internet of Things. Con la colaboración de:

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje

MÁSTER EN ARQUITECTURA Y TECNOLOGÍA BIG DATA ASIGNATURAS OBLIGATORIAS

Machine Learning. Programa de Estudio.

II TALLER DE ESPECIALIZACIÓN EN: BIG DATA APLICADO (Aprobado con Acuerdo de Consejo Universitario No )

YO, CIENCIA DE DATOS. BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016

MD - Minería de Datos

Clasificación de estados cerebralesusando neuroimágenes funcionales

Programa Internacional. Programa Certificado en. Big Data

Big Data. Plan de Estudio

CURSOS CONENTO. Una puerta abierta para que puedas desarrollar tus propios análisis

CURSO FORMATIVO. Big Data Processing. 199 horas. Contenido desarrollado por Sinergyc Partners

II TALLER DE ESPECIALIZACIÓN EN:

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data


Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

CICLO INTEGRAL BIG DATA PARA EL DESARROLLO DE APLICACIONES PRODUCTIVAS

PBDE - Programación y Bases de Datos Estadísticas

PROPUESTA DE MINOR CIENCIA DE LOS DATOS. DATA SCIENCE Resultados de Aprendizaje del Minor

BKS: Business Knowledge Series.

Inteligencia de Negocio

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Seminario-Taller Ciencia de Datos con Python

Acelerando la innovación con Apache Spark. Ricardo Barranco Fragoso IBM Big Data & Analytics Specialist

240AR022 - Reconocimiento de Formas y Aprendizaje Automático

Pontificia Universidad Católica del Ecuador

Análisis de Datos para la Industria y los Servicios

DATA SCIENCE NIVEL I

PARA INGENIEROS. Nivel 3. Python para Data Science. Organizan:

Jugando a policías y ladrones para detectar anomalías en red con ML. Carmen Torrano Giménez #CyberCamp17

PROCESAMIENTO DIGITAL DE IMÁGENES

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

BIG DATA: Una mirada tecnológica

Ciencia de Datos con Python

MD - Minería de Datos

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Tema 2: Introducción a scikit-learn

Mcal. Antonio José de Sucre

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación

Data Science. Herramientas, lenguajes y Python

Línea de Especialización Control de Sistemas

Métodos de Regresión en Minería de Datos

Introducción a la Estadística para Data Science (con Python)

ÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1

MÁSTER: MÁSTER BIG DATA ANALYTICS

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

11. FUENTES DE INFORMACIÓN

IX PROGRAMA DE ESPECIALIZACIÓN EN BIG DATA & ANALYTICS. Edición Fines de Semana

Inteligencia de Negocio Curso

Itinerario: Inteligencia Computacional

2. Modelado, tipos de modelos, etapas del modelado

Machine Learning y su Utilización en Riesgo de. Seemant Teotia Sr. Director International Analytics Equifax Inc. USA. Crédito

DATA SCIENCE NIVEL II

Intensificación en "Lenguajes e Inteligencia Artificial"

CURSO: APACHE SPARK CAPÍTULO 1: INTRODUCCIÓN.

Asignaturas antecedentes y subsecuentes

CURSO: ANÁLISIS DE DATOS CON APACHE SPARK

Avalado por la Caribbean International University y la Universidad Central de Venezuela

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Inteligencia de Negocio Curso

MINERÍA DE DATOS: PREPROCESAMIENTO Y CLASIFICACIÓN

Aprendizaje Automatizado

Data Science y Energía Cómo (casi) gané un concurso de Big Data

Inteligencia Artificial: Su uso para la investigación

en Big Data y Business Analytics

Machine Learning Bases

Programa: Analista de Datos

Aplicaciones. Inteligencia Computacional Carrera de Ingeniería Informática

Jupyter - Python. Contenido. 1 Sistemas Expertos e Inteligencia Artificial / Guía VII / Ciclo / Ing. Herson Serrano. Objetivos Específicos

BUSINESS ANALYTICS & BIG DATA UNIVERSIDAD NACIONAL DE INGENIERIA. II y III PROGRAMA DE ESPECIALIZACION EN

Técnicas de aprendizaje sobre series temporales

PROGRAMA DE CURSO. Código Nombre INTRODUCCIÓN A LA MINERÍA DE DATOS Nombre en Inglés Introduction to Data Mining Unidades

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I Y II CONTENIDOS BACHILLERATO

Diplomado Machine learning and data science. Sistemas, programación, data

Licenciatura en Química PROGRAMA DE ESTUDIO. Obligatoria Nancy Romero Ceronio, Armando Escobar Programa elaborado por:

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Modelos de Scoring para Riesgo de Crédito

Máster Universitario en Química QUIMIOMETRÍA. Curso

Afinación y Rendimiento de Bases de Datos

ANÁLISIS ESTADÍSTICO CON R

Análisis de Datos. #PyDay

INDICE. 81 Operadores lógicos Funciones exponenciales y logarítmicas Funciones trigonométricas

ANX-PR/CL/ GUÍA DE APRENDIZAJE

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Transcripción:

Programa Introducción Arquitectura/Bases de datos relacionados /Infraestructuras (AMAZON) R Introducción al análisis masivo de datos: descriptivos y visualización de Big Data Hackathon + Series Temporales Aprendizaje supervisado de datos Máquinas de vectores soportes (SVM) y algoritmos genéticos Técnicas de regresión Introducción a Python Spark Core +(parte 1) Spark Core + SparkSQL (parte2) + Introducción a Spark MLlib SparkStreaming Deep learning Modelos probabilísticos y gráficos Hackathon + Presentación Final

Programa Big Analytics: de la información al conocimiento Introducción Introducción general al Big data y la necesidad del Analytics Arquitectura/Bases de datos relacionados /Infraestructuras (AMAZON) On premise vs Cloud. Soluciones Big Data en el Cloud. Diseño de sistemas inteligentes. Tipos de problemas que nos encontramos en data science y como abordarlos. Intro al aprendizaje automático. Caso práctico 1 Bases de datos. Introducción. Tratamiento, transformación y limpieza de datos. Caso práctico 2 y 3. Bases de datos II. Obtención de datos, inferencia de datos y modelado de datos. Diseño de las necesidades del sistema. Casos prácticos 4 y 5. R 1. Introducción a R. 2. Introducción a los paquetes de R que se utilizarán en otras sesiones. 3. Ejemplos prácticos. Introducción al análisis masivo de datos: descriptivos y visualización de Big Data En la primera clase, el objetivo es entender los datos que nos de Deloitte y enseñar que muchas veces la parte más tediosa y la que, en ocasiones, lleva más tiempo es preparar y entender los datos. Para ello, empezaré presentando las técnicas más básicas: histogramas, scatter plots, y mostraré varios ejemplos que he trabajado en el pasado con los que estas técnicas tan rudimentarias fueron capaces de mejorar el detector facial de Viola-Jones o segmentar imágenes dermatológicas. En la segunda clase, se avanzará al exploratory pursuit y al independent component analysis. Y se verá el análisis discriminante de Fisher. Se enseñara rápidamente que es el análisis factorial para explicar el concepto de dimensiones/rasgos latentes. Tras ello, concluiremos la segunda clase 2

entendiendo la visualización no para explorar sino para mostrar nuestros resultados. Hackathon + Series Temporales Presentación del hackathon en el que van a poder aplicar las distintas técnicas que se vayan presentando a lo largo del curso Introducción a las series temporales con ejercicios teóricos/prácticos: definición de series temporales, descomposición de series temporales, series estacionarias y técnicas de modelización Primera prueba del Hackathon y subida de resultados a la plataforma. Formación de equipos En series temporales seguimos con una colección de ejercicios teóricos/prácticos: modelización de series temporales y visualización. Ejercicio final. Aprendizaje supervisado de datos Introducción al machine learning y tipos de problemas: supervisado vs no supervisado vs semi-supervisado, regresión vs clasificación Algoritmos supervisados sencillos: métodos lineales (discriminante lineal), cuadráticos y no paramétricos (vecinos próximos). Aspectos importantes en el proceso de clasificación: Selección de características y reducción de la dimensión.elección del clasificador, problema de sobreajuste, validación. Máquinas de vectores soportes (SVM) y algoritmos genéticos Breve introducción a la optimización. Introducción a las máquinas de vectores soporte (SVM): motivación, optimización, kernel trick, ajuste de parámetros. Introducción a los algoritmos genéticos: cómo buscar en el espacio de soluciones, heurísticas, motivación de los algoritmos genéticos, metodología, tipos. En todas las sesiones se motivarán los contenidos con ejemplos ilustrativos y reales en la medida de lo posible. Se harán prácticas de los distintos temas con R y se usará como hilo conductor el problema general de todo el curso. 3

Técnicas de regresión Introducción de las principales técnicas de regresión: Lineal, Splines, Quantiles, Lasso y regressión logística. Técnicas avanzadas de regresión, diseño de experimentos para mitigar problemas de causalidad: Diferencias en diferencias, Variables instrumentales y regresion por discontinuidad. Cluster Analysis: k-means (color quantization, pattern recognition examples ), k-medoids ( face recognition examples ). Association Rules: The apriori algorithm (examples on Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc) market basket analysis), Association rules sequences. The cspade algorithm (examples on tag recommendation, market basket, etc) Cluster Analysis/ Hierarchical clustering : Agnes - Diana, Types of linkages. Examples on movie suggestion engines, cell phone towers placement, etc. Introducción a Python Conceptos básicos e introducción a la programación en Python, cubriendo las librerías más empleadas en el tratamiento de datos y en el desarrollo de modelos de machine learning (numpy, pandas, scikit-learn, etc.). En las prácticas se utilizarán Jupyter Notebooks para documentar el código y facilitar la ejecución interactiva durante la sesión Spark Core +(parte 1) Introducción a las funcionalidades básicas de Spark. Partiendo de la definición y manejo de RDDs hasta la manipulación de DataFrames y DataSets, pasando por las transformaciones y acciones más comunes en el procesamiento de datos distribuidos sobre Spark. Para ello se pueden utilizar distintas APIs y durante el curso se utilizará PySpark (de ahí la introducción de la sesión anterior), empleando además distintos formatos y fuentes de datos en el origen. Siguiendo un enfoque práctico, se aplicarán estos conceptos a ejemplos con datos reales de manera interactiva. 4

Spark Core + SparkSQL (parte2) + Introducción a Spark MLlib Continuación de la sesión anterior, incorporando la librería de modelado MLlib de Spark. Se explicará cómo construir los algoritmos descritos en la primera sesión, esta vez en formato distribuido. A su vez se hará un repaso de todo aquello necesario en la construcción de features y de un pipeline completo de machine learning con PySpark. SparkStreaming En esta sesión se incorporará una componente de real time al sistema desarrollado durante las sesiones anteriores, haciendo uso de los modelos generados en batch para completar una arquitectura lambda. Para ello se hará una introducción al manejo de streams de datos y sus bloques de procesamiento mediante colas de Kafka. Utilizando como unidad básica los DStreams y modelos entrenados en batch veremos cómo utilizar SparkStreaming para hacer predicciones en real time. Deep learning Introducción a las redes neuronales básicas y a las redes profundas (deep learning) utilizando "Tensor Flow". Modelos probabilísticos y gráficos Introducción a los modelos gráficos probabilísticos. Caracterización. Redes Bayesianas. Tablas de probabilidad condicionada. Inferencia Ejemplos Aprendiendo modelos gráficos probabilísticos e inferencia con ellos Hackathon + Presentación Final Trabajo por equipos & presentación de resultados 5