MÁSTER EN DATA SCIENCE 18 Marzo 2016 1 Octubre 2015-220h - 6500 Data Scientist. El nuevo perfil que todas las empresas buscan WWW.KSCHOOL.COM
DESCRIPCIÓN El fenómeno del Big Data no solo ha revolucionado las empresas, sino las listas de los perfiles más buscados por las mismas. Y es que estos grandes volúmenes de información requieren de profesionales que los sepan manejar, analizar e interpretar para servir a los objetivos de negocio. LinkedIn, en su lista sobre los 25 profesionales más demandados en 2014, ya incluye al Data Scientist en cabeza, y McKinsey calcula que, para 2018, EEUU puede llegar a enfrentarse a un grave problema de escasez de este tipo de profesionales con habilidades para el análisis y la gestión, con el know-how para utilizar el análisis de grandes datos y tomar decisiones estratégicas de negocio. Aunque la tendencia actual sea la búsqueda de perfiles bien con estudios en estadística o bien puramente técnicos, las empresas necesitarán estos perfiles especializados que combinen la analítica y la estrategia, por lo que la formación en esta disciplina puede convertirse en un valor diferencial para acceder a estos puestos en un futuro muy cercano. OBJETIVOS El objetivo del máster es que aprendas el ciclo de Data Science completo: desde los datos en bruto, hasta la elaboración de dashboards, pasando por machine learning y la aplicación de métodos estadísticos en la resolución de problemas habituales del Data Science. Al finalizar el máster serás capaz de convertir datos en productos y servicios mediante el uso de las herramientas estadísticas más habituales en el mundo del Data Science. Sabrás escribir tu propio código para analizar ingentes cantidades de datos en Hadoop y Spark, así como aplicar las técnicas del machine learning a estos datos usando Spark. Una de las claves del Data Scientist es la comunicación, por ello, tras cursar el máster, sabrás cómo desarrollar dashboards interactivos para presentar la información que han extraído de los datos usando R, Spark y otras herramientas. Tras este máster, estarás preparado para optar a puestos de Data Scientist, Business Intelligence, Business Analyst, y en general cualquier puesto que requiera ser capaces de analizar datos, especialmente los relacionados con Big Data.
DIFERENCIA ENTRE BIG DATA Y DATA SCIENCE Big Data hace referencia a las estrategias de Ingeniería del Software para el diseño e implementación de sistemas escalables intensivos en datos. Por tanto Big Data se centra en el desarrollo de software capaz de gestionar grandes cantidades de datos (Volumen), datos que se generan en tiempo real y/o que necesitan ser procesados para dar una respuesta en tiempo real (Velocidad), y datos con una estructura diversa (Variedad). El objetivo de Big Data es construir la infraestructura que soporte la escalabilidad horizontal y los tiempos de respuesta adecuados según el proyecto concreto. Sobre esas arquitecturas, se desarrollarán posteriormente los procesos analíticos de datos para extraer valor de los datos por parte de los Data Scientist. Big Data y Data Science, por lo tanto, son dos campos diferentes y complementarios. Existirán proyectos Big Data donde el objetivo será hacer escalable un sistema que actualmente no lo es y que por tanto no requiera estrategias de Data Science. También existirán proyectos donde será necesario analizar de forma inteligente ciertos datasets pero que no se requiera el potencial de las tecnologías Big Data. Y por último, existirán proyectos donde se necesite la construcción de sistemas Big Data escalables y aplicar sobre esas infraestructuras, algoritmos inteligentes de Data Science para extraer el auténtico valor de los datos. PERFIL DEL ALUMNO El máster va dirigido a cualquier persona que quiera convertirse en un Data Scientist. El perfil del alumno es muy variado, e incluye desde perfiles provenientes de carreras técnicas que quieran conocer las herramientas y entrar en el sector, hasta personas que tengan conocimientos de Business Intelligence y quieran refrescar sus conocimientos para actualizarlos a las últimas tecnologías del Data Science y el Big Data. Lo más importante es que se trate de personas con curiosidad por contar historias con los datos, y de emplear todas las herramientas técnicas a su alcance para ello. El máster tiene un alto contenido técnico, por lo que aunque no son necesarios conocimientos específicos de programación previos. Se recomienda haber realizado alguna introducción a la programación, en cualquier lenguaje, aunque todos los contenidos necesarios de programación se impartirán en el máster. Lo que sí que será necesario, sin embargo, mantener una actitud abierta para aprovechar el máster completamente.
Para un correcto desarrollo y aprovechamiento del máster, los alumnos deberán haber usado Linux o algún otro sistema Unix, y conocer la línea de comandos (no es necesario un conocimiento profundo de la línea de comandos, pero sí haberla usado al menos alguna vez y saber qué es). Si quieres saber si tienes el perfil adecuado, puedes hacerte las siguientes preguntas: Quieres ser un Data Scientist? :-) Has usado Linux o algún otro sistema Unix (p.ej. Mac OS X)? Has abierto alguna vez un terminal usando Linux/Unix? Has escrito alguna vez un comando en la línea de comandos? Para qué? (por ejemplo, para instalar paquetes en tu distribución) Has oído alguna vez hablar de Emacs o vi? (en el máster usaremos cualquier entorno de programación, pero si has oído hablar de Emacs o vi, tienes seguramente la experiencia previa necesaria para afrontar el máster). Has visto alguna vez el código de algún programa? BONUS: Has escrito alguna vez algún programa? Cómo verás no son preguntas demasiado complicadas y lo único que exigen son conocimiento básicos de entorno Unix/Linux. Si no tienes estos conocimientos básicos y has decidido entrar en el mundo de los Data Science, evalúa si tienes tiempo antes del máster para adquirir estos conocimientos previos. Más abajo encontrarás algunas referencias bibliográficas que pueden ayudarte. REQUISITOS TÉCNICOS Los estudiantes necesitaréis un portátil funcionando con Linux. Si tienes un Ordenador con Linux nativo instalado: sin problemas! será suficiente para seguir el curso. Ordenador con Windows Instalado (No instalado Linux nativo): necesitarás un portátil con mínimo con 8 GB de RAM y suficiente espacio libre en disco (mínimo 50-100 GB). Y procesador Intel I5 mínimo. Esto es porque si no tienes Linux nativo en tu portátil vamos a usar máquinas virtuales, y una máquina virtual solo funcionará bien si hay suficientes recursos.
BIBLIOGRAFÍA RECOMENDADA Tanto si cumples con el perfil del alumno, como si necesitas ponerte al día para llegar a él, te recomendamos los siguientes títulos. Su lectura no es necesaria ni obligatoria, pero si te ayudarán a adelantar conocimientos y aprovechar mejor las clases. Linux para Principiantes: Una Introducción al Sistema Operativo Linux y la Línea de Comandos Jason Cannon (Edición Kindle). Guía de bolsillo de Linux Daniel J. Barret (Anaya Multimedia/O Reilly). Data Science for Business Foster Provost, Tom Fawcett (O'Reilly). Python for Data Analysis Wes McKinney (O'Reilly). Machine Learning for Hackers Drew Conway, John Myles White (O'Reilly). Mining of Massive Datasets Rajaraman, Anand, Ullman, Jeffrey David (Cambridge University Press).
INFORMACIÓN GENERAL Duración: 220h presenciales Precio: 6500 Lugar: Aula KSchool. Centro Ibercenter. Pza. Carlos Trías Bertrán nº 4, 1ª planta Fecha de inicio: 18 de marzo de 2016 Fecha de fin: 1 de octubre de 2016 Horario: Viernes de 17 a 22h. Sábados de 9 a 14h. RESERVA DE PLAZA Si quieres matricularte en este programa, debes rellenar el formulario de inscripción que encontrarás en nuestra web. Una vez lo hayas enviado, te responderemos con las instrucciones necesarias para hacer el pago de la reserva y bloquear tu plaza*. Las plazas son limitadas! PAGO ÚNICO Con 5% descuento! Precio base: 6500 Precio final con descuento: 6175 Reserva de plaza: 500 Plazo 1: 5675 PAGO FRACCIONADO** Precio final: 6500 Reserva de plaza: 500 Plazo 1: 2000 Plazo 2: 2000 Plazo 3: 2000 *El importe de la reserva de plaza será íntegramente reembolsado hasta 7 días antes del comienzo del curso si finalmente decides no cursar el máster. **Los plazos son mensuales, a partir del mes de comienzo del curso. Los pagos fraccionados se abonaran mediante recibo domiciliado el día 5 de cada mes.
CALENDARIO MARZO 2016 ABRIL 2016 L M X J V S D L M X J V S D 1 2 3 4 5 6 1 2 4 7 8 9 10 11 12 13 4 5 6 7 8 9 10 14 15 16 17 18 19 20 11 12 13 14 15 16 17 21 22 23 24 25 26 27 18 19 20 21 22 23 24 28 29 30 25 26 27 28 29 30 MAYO 2016 JUNIO 2016 L M X J V S D L M X J V S D 1 1 2 3 4 5 2 3 4 5 6 7 8 6 7 8 9 10 11 12 9 10 11 12 13 14 15 13 14 15 16 17 18 19 16 17 18 19 20 21 22 20 21 22 23 24 25 26 23 24 25 26 27 28 29 27 28 29 30 30 31 JULIO 2016 AGOSTO 2016 L M X J V S D L M X J V S D 1 2 3 1 2 3 4 5 6 7 4 5 6 7 8 9 10 8 9 10 11 12 13 14 11 12 13 14 15 16 17 15 16 17 18 19 20 21 18 19 20 21 22 23 24 22 23 24 25 26 27 28 25 26 27 28 29 30 31 29 30 31 SEPTIEMBRE 2016 OCTUBRE 2016 L M X J V S D L M X J V S D 1 2 3 4 1 2 5 6 7 8 9 10 11 3 4 5 6 7 8 9 12 13 14 15 16 17 18 10 11 12 13 14 15 16 19 20 21 22 23 24 25 17 18 19 20 21 22 23 26 27 28 29 30 24 25 26 27 28 29 30
TEMARIO MÓDULO 1. INTRODUCCIÓN AL DATA SCIENCE Qué es el Data Science? Por qué es importante? Quiénes son los profesionales que se dedican a ello Pensar como un científico de datos. Problemas de negocio y sus soluciones de Data Science. Impacto de Big Data y el Data Science en la estrategia de negocio. Intro Git. Intro Command line MÓDULO 2. LENGUAJES PARA DATA HACKING Bases de Datos SQL Intro a Python Intro a Pandas Large scale analysis with Python Seaborn Pandas and how it is relared to MapReduce DBs in Python, review SQL The Data Science challange Una primera toma de contacto con R Estructura de datos y programación Manipulación avanzada de datos, datos Tydy y reshape2 Visualización de datos con ggplor2 Acceso a fuentes de datos R para mapas, texto, grafos y series temporales Knitr y creación de informes automatizados Datos pequeños y medianos; gestión de memoria;data.table Flujos de trabajo y tuberias deo dplyr
MÓDULO 3. MACHINE LEARNING Y ESTADÍSTICA R: probabilidad, distribuciones, simulación y eestadística descriptiva Introducción a la estadística. Tests de hipótesis, p-valores y A/B testing Introducción a la estadística bayesiana Introducción al aprendizaje estadístico: estimación de funciones, ajuste de modelos Regresión lineal Clasificación Métodos de remuestreo y el paquete caret Modelos no lineales Selección de modelos y regularización Árboles y bosques Máquinas de vector soporte Aprendizaje no supervisado Modelos mixtos / jerárquicos Procesamiento del lenguaje natural MODULO 4. BIG DATA Hadoop. Working with remove machines Spark Spark avanzado Resumen de datos con estadísticas básicas Ajustar modelos a los datos: clasificación y regresión Clustering La maldición de la dimensionalidad y cómo lidiar con ella Los sistemas de recomendación. Filtrado colaborativo Creación de cuadros de mando con Shiny MÓDULO 5: CASOS DE ÉXITO EN NEGOCIO DE DATA SCIENCE Customer Analytics: Segmentación de Clientes mediante el modelo RFM. Marketing Digital: Aplicación de diseño de Experimentos. Supply Chain Value: Forecasting de demanda para planificar la producción. Business Intelligence: Introducción a las Métricas Robustas.
PROYECTO FIN DE MÁSTER Extraer, transformar y cargar una fuente de datos pública y elaborar un dashboard interactivo. o Conseguir una fuente pública de datos (no necesariamente Big Data) o Obtener algunos análisis aplicando métodos y técnicas aprendidos durante el máster. o Procesar los datos y almacenar los resultados en una base de datos (o cualquier otro formato adecuado) o Presentar los resultados en un dashboard interactivo
PROFESORES ISRAEL HERRAIZ - DATA SCIENTIST AT AMADEUS IT GROUP Israel Herraiz trabaja como data scientist en Amadeus. Israel es doctor en Ingeniería Informática por la Universidad Rey Juan Carlos (2008), y ha sido investigador visitante en universidades de Europa, Canadá y Estados Unidos. Antes de trabajar en Amadeus, era profesor ayudante doctor en la Universidad Politécnica de Madrid, donde realizaba investigación aplicando data science al estudio del desarrollo de software y al fenómeno del software libre. Más recientemente, ha trabajado en el área de ingeniería del transporte, estudiando los patrones en el tráfico por carretera. En Amadeus, aplica los mismos métodos al análisis de los datos de la industria de viajes (agencias, aerolíneas, etc.). CARLOS GIL BELLOSTA OWNER AT DATANALYTICS.COM Ex-eBay, ex-bbva, ex-everis, ex-barclays, exmatemático, ex casi todo. No obstante, estadístico diletante, entusiasta de R y bloguero en losratos libres de los días de hacer. Carlos J. Gil Bellosta es un científico de datos y entusiasta de R radicado en Madrid. Estudió matemáticas y estadística en la Universidad de Zaragoza y Washington University en San Luis, EE.UU. Fundó datanalytics en 2005 y ha trabajado con datos grandes y pequeños desde entonces. Es un miembro activo de la comunidad de usuarios de R, ha desarrollado varios paquetes, como los cada vez más populares rpython y pxr y ha sido presidente de la asociación de usuarios de R (Comunidad R Hispano) desde su fundación en 2011.
DANIEL MATEOS DATA SCIENTIST AT AMADEUS IT GROUP Daniel Mateos es Doctor en Bioquímica por la Universidad Autónoma de Madrid y ha trabajado en laboratorios de EEUU y Suiza. Llegó aldata Science desde la secuenciación masiva de ADN. En parte por necesidad y en parte por vicio aprendió Python para aplicarlo al análisis de datos de NGS, y desde entonces ha ido sumando herramientas al saco. Actualmente trabaja en Amadeus como Data Scientist. SEBASTIÉN PÉREZ TRAVEL INTELLIGENCE DATA SCIENTIST AT AMADEUS IT GROUP Sebastien Pérez es Ingeniero de Telecomunicación en la UPM con un máster en gestión informática en la escuela ParisTech de Paris. Ha trabajado en varias empresas tecnológicas y en proyectos muy variados: proyectos de domótica en Telefónica, Google Maps y Earth en Google, Procesadores de bajo consumo en Texas Instrumentos, Venta y distribución de billetes de tren en Amadeus. Fue en Texas Instruments donde empezó a gestionar y comprender grandes volúmenes de datos al deber implementar y analizar un CRM con más de 2000 clientes. Desde 2014, desempeña el puesto de Data Scientist en Amadeus donde se especializa en Visualización y Web Services. JUAN ARÉVALO DATA SCIENTIST. WORK EXPERIENCE AT AMADEUS IT GROUP Juan Arévalo es doctor en Física Experimental por la Universidad Carlos III de Madrid, y ha trabajado como investigador en el CIEMAT, en el área de física de plasmas y ciencia nuclear. En la actualidad trabaja como data scientist en Amadeus.
IGOR ARAMBASIC R&D MANAGER/ DATA SCIENTIST/ TRAVEL INTELLIGENCE Igor Arambasic es doctor en Ingeniería de Telecomunicaciones por la UPM en 2008. En su época de investigador pos-doctoral fue el manager del grupo de UPM en dos proyectos europeos del séptimo programa Marco de ICT (WHERE, WHERE2). En estos proyectos inició su trayectoria de análisis y uso de Big Data en los algoritmos para el mapeo y posicionamiento en los interiores basados en las medidas reales. Desde 2014 sigue su carrera de científico en Amadeus en la posición de Data Scientist dedicándose en exclusiva a Big Data. ANTONIO PITA LEADER BUSINESS ANALYTICS/DATA SCIENCE EN EVERIS Es Licenciado en Matemáticas con DEA en Algebra. Acumula Master en Administración de Empresas y Marketing, Master en Asesoramiento Financiero y Master en VIsual Analytics and Big Data. Durante su trayectoria profesional ha trabajado en el mundo académico como profesor en diversas instituciones públicas y privadas como Universidad de Murcia, Universidad de Almería, EOI, CIFF, EFF..., en el mundo científico como investigador donde ha publicado en prestigiosas revistas internacionaes, en el mundo financiero desempeñando múltiples funciones dentro de las areas comerciales, de riesgos y Marketing y en el mundo de la consultoria gestionando proyectos Analytics en grandes empresas como Altadis, Mapfre, Bankia, Repsol... Ahora ha encontrado el equilibrio como Experto en Data Science, gestionando equipos multidisciplinares transformando los datos en conocimiento que permitan mejorar el negocio. Apasionado de las nuevas tecnologías Big Data y los nuevos paradigmas asociados, es un gran defensor del software open source como R, del que ha desarrollado un R-package y de Spark. Formador desde 1998 en múltiples unviersidades y escuelas de negocio donde práctica su vocación natural, la formación y el desarrollo de las personas.
BONIFICACIÓN DE LOS CURSOS Todos nuestros cursos son bonificables a través de la Fundación Tripartita. Si estás interesado coméntanoslo al hacer tu inscripción y nosotros te lo gestionamos sin ningún tipo de coste adicional. BOLSA DE EMPLEO PRIVADA En KSchool disponemos de una bolsa de empleo privada para los alumnos de todos nuestros másters. Esta bolsa de empleo es una plataforma en donde empresas del sector buscan candidatos para cubrir sus vacantes. Gracias a la gran preparación con la que salen nuestros alumnos, cada vez son más las empresas que recurren a nosotros para buscar profesionales altamente cualificados en cualquiera de las áreas de influencia de nuestra formación: marketing online, analítica web, SEO, UX y Big Data. CONTACTO Elsa Durán elsa.duran@kschool.com 91 577 83 41-91 355 42 97
EN KSCHOOL PENSAMOS ASÍ Si el sistema no está preparado para darnos el conocimiento que necesitamos lo vamos a conseguir por nuestra cuenta. Hoy, en ciertos sectores el valor no lo aporta un título. Lo aporta lo que cada profesional sabe hacer. Si dependemos de nosotros mismos, vamos a pensar por nosotros mismos. No queremos, ni podemos sentarnos a esperar a que alguien se fije en nosotros. No hay ningún mapa. Debemos hacer nuestro camino, y es un camino que muchas veces no ha sido explorado, pavimentado, ni señalizado. Nuestro conocimiento es la clave de nuestro desarrollo personal y profesional. Todo el mundo tiene algo que enseñar. Queremos aprender todos de todos. En el mundo del conocimiento, cuanto más se comparte más se tiene. Lo que aprendemos es lo que practicamos. Especializarse es ponerle un apellido a nuestra profesión. Es echarle especias a nuestro ingrediente principal. Queremos construirnos un futuro fuera del rebaño. Para eso vamos a pensar y hacer las cosas de forma diferente. No vamos a seguir instrucciones a ciegas, no vamos a ser pelotas, no vamos a mantener la cabeza agachada. Esas formas no van con nosotros. Vamos a estar siempre en movimiento. No vamos a parar de movernos. Somos inquietos, y nos gusta ser así. Como queremos resultados diferentes, vamos a hacer las cosas de forma diferente. Las pirámides son monumentos funerarios. Nos divierte verlas en los libros de historia, no sufrirlas en nuestro trabajo. Nuestro mercado no es el de los empleos. Es el de las oportunidades. Queremos colaborar con nuestras empresas a generar ingresos, no queremos tener un simple empleo. Queremos avanzar elaborando mejores recetas, no cocinando más. Queremos poner vida a los años, no solo años a la vida. Somos mucho más que un perfil y unas competencias. Somos algo más que las hojas de nuestro CV. Queremos levantarnos con ilusión los próximos 40 años. Queremos hacer las cosas con pasión, cariño y humanidad.