Introducción al Curso



Documentos relacionados
240AR064 - Scientific Python para Ingenieros

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.1 UML: Introducción

MS_20463 Implementing a Data Warehouse with Microsoft SQL Server

Uso de herramientas de software libre y freeware en investigaciones de Delitos Financieros

MODULO DE PROGRAMACION JAVA Nivel Básico-Intermedio

INTRODUCCIÓN A Maxima

CAPÍTULO II VISUAL BASIC 6. Visual Basic es uno de tantos lenguajes de programación; orientado a objetos, que

Conceptos iniciales. Sistema informático. La informática. Componentes del ordenador

Capítulo 1. Introducción

Figura 4.1 Clasificación de los lenguajes de bases de datos

OPT. Núcleo Básico. Núcleo de Formación. Optativa. Nombre de la universidad. Universidad Politécnica de Pachuca. Nombre del programa educativo

SOFTWARE DE SIMULACIÓN

METODOLOGÍA E IMPLEMENTACIÓN DEL SIGGA (SISTEMA DE INFORMACION GEOGRAFICA: GOBERNANZA DEL AGUA)

Un Programa Interactivo para la Enseñanza de Algoritmos de Procesamiento Digital de Imágenes

Algoritmos y programas

GLOSARIO DE TÉRMINOS

Introducción: Visualización, Discretización,

Ejercicios de práctica para el examen TASC de Matemáticas

Modelado del comportamiento del tipo de cambio peso-dólar mediante redes neuronales diferenciales

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

CAPITULO 3 MOVILIDAD EN LA NAVEGACIÓN Y ALMACENAMIENTO EN BASES DE DATOS

INGENIERÍA EN SISTEMAS COMPUTACIONALES (ISIC )

Programación II. Juan Ignacio Rodríguez Hernández. Escuela Superior de Física y Matemáticas Instituto Politécnico Nacional

Soluciones de virtualización de datos

Uso de herramientas de software libre y freeware para análisis relacional (análisis link) en investigaciones de fraude y antilavado

ESCUELA POLITÉCNICA SUPERIOR

El Producto: Software

Escuela Universitaria Politécnica Grado en Ingeniería Informática Fundamentos de Programación II ENUNCIADO DE PRÁCTICAS CONVOCATORIA DE SEPTIEMBRE

Nombre de la asignatura: Robótica Industrial. Carrera: Ingeniería Electrónica

Facultad de Ciencias. Matemática (UCM)

DATOS ESPECÍFICOS DEL CURSO

A continuación resolveremos parte de estas dudas, las no resueltas las trataremos adelante

Área de Conocimiento:

Unidad 9. Entornos de Desarrollo

CAPITULO I INTRODUCCION. Conforme la informática avanza, las imágenes se han convertido en un área muy

Aplicaciones Lineales

3.3.3 Tecnologías Mercados Datos

Módulo 2. Inicio con Java

Modelos y Bases de Datos

Descripción y tabla de especificaciones para prueba formativa Área Matemática Año 2014

Hadoop. Cómo vender un cluster Hadoop?

Pág. 7 de 11. SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones:

Simulador Interactivo para Sistemas de Generación Distribuida Basados en Energías Renovables

Objetos Distribuidos - Componentes. Middleware

CONTROL DE ASISTENCIA DE PERSONAL

Qué es CISE? Computing and Information Sciences and Engineering estudia la filosofía, naturaleza,

Capítulo 1 INTRODUCCIÓN. Introducción

Guía de estudio para examen de recuperación tecnología I

CURSOS PREPARACIÓN PARA CERTIFICACIÓN MICROSOFT SQL SERVER

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

1.1.- Introducción a la Web Vemos una introducción al medio donde se encajan los lenguajes que vamos a tratar: la web.

Capacidad de procesamiento del compilador Python para el Sistema Operativo Windows y Linux Palabras Clave:

Lección: Lenguaje de Programación JULIA

Trabajo final de Ingeniería

2. INTRODUCCIÓN A MATHCAD. El principal programa utilizado para la realización de este trabajo se llama Mathcad 2000

Materia: Inteligencia de negocios

Fundamentos de SQL para Minería de Datos

Desarrollo de Aplicaciones Web Por César Bustamante Gutiérrez. Módulo I: Conceptos Básicos Tema 1: Concepto iniciales.

Sistemas de Control U.T.N. Facultad Regional San Nicolás

Introducción Programar es enseñar Iniciación a la programación Finalidad de este libro

El conjunto de conocimientos científicos y técnicos que hacen posible la resolución de forma automática de problemas por medio de las computadoras.

SAS Data Scientist. Plan de Formación

Competencia Matemática tica y PISA (OCDE,2003) 6. Matemátizar se identifica con la resolución de problemas

INFLUENCIA DE LA TOPOLOGÍA EN EL CONDICIONAMIENTO DE MATRICES DE REDES ELÉCTRICAS

INGENIERÍA INFORMÁTICA

GUIAS DE INSTALACIÓN Y AYUDAS PARA ENGLISH DISCOVERIES

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

1 La Resolución de Problemas utilizando la Computadora

erramientas Gratuitas Acceso a Mercado ratis Pequeños negocios Vínculos Verticales ortalecimiento de la Cadena de Valor

Otros tipos de Consultas

ESCUELA DE CIENCIAS BASICAS TECNOLOGIA E INGENIERIA Programación de sitios web Act 11: Reconocimiento de la unidad 3

Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server

CAPÍTULO 5. DESARROLLO Y PRUEBAS

ASIGNATURA DE MÁSTER: MÉTODOS NUMÉRICOS

12 Minería de Datos Reglas de asociación.

SAGE es un programa de software matemático libre de usar, modificar y distribuir.

Breve introducción a Sage. Miguel Angel Marco Buzunariz PyConEs Zaragoza 8 de Noviembre de 2014

Características y Beneficios

Vicerrectorado de Investigación Oficina de Patentes y Valorización

DISEÑO ORGANIZACIONAL. Diseño web avanzado con HTML5 y CSS5

Criterios para seleccionar tecnología de Modelos de Toma de Decisiones

TALLER DE CONOCIMIENTOS APRENDICES JORGE LEONARDO MAZA CARLOS DAVID ZAMBRANO JOSE G. RODRIGUEZ PROFESOR RONALD MARTELO

Nuevas Tecnologías Aplicadas a la Educación

INTRODUCCION. entidades. Modelo lógico de la base de datos. Matricula. carne. codigo_curso. año semestre nota. propiedades

Transcripción:

Introducción al Curso Gráficas estadística y minería de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es 22-26 de Abril de 2013 M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 1 / 17

Tabla de Contenidos 1 Objectivos 2 Introducción M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 2 / 17

Objectivos Conocer algunos paquetes científicos básicos en python. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 3 / 17

Introducción M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 4 / 17

Lo que los científicos necesitan Obtener datos de simulaciones y experimentos. Manipular y procesar los datos. Visualizar resultados... para tratar de entenderlos. Comunicar los resultados: producir publicaciones y presentaciones con figuras informativas, análisis estadístico preciso, minería de datos. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 5 / 17

Ladrillos Existentes Python: lenguaje genérico, y moderno, que incluye: tipos de datos, colecciones, un gran número de librerías y de módulos especializados. IPython: una shell avanzada, http://ipython.scipy.org/moin/ Numpy: proporciona arrays numéricos y rutinas para manipularlos, http://www.numpy.org/ Scipy: rutinas de alto nivel para manejo de datos, optimización, regresión, interpolación, estadística http://www.scipy.org/ M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 6 / 17

Por qué Python para el análisis de datos Es fácil enamorarse de Python. Python puede ser usado para la creación (muy rápida) de códigos (scripts). Entre los lenguajes interpretados, Python se ha distinguido por una larga actividad en computación científica. Python puede ser considerado como el competidor de código abierto de otros lenguajes de programación (comerciales y públicos) como: R, MATLAB, SAS, Stata, etc. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 7 / 17

Python como pegamento Parte del éxito de Python como plataforma científica es que es fácil integrarlo con otros lenguajes: C, C++, y FORTRAN. No solo permite la ejecución de códigos escritos en otros lenguajes, sino que además permite, de manera eficiente, la manipulación de cadenas de texto, formar código fuente con estas cadenas de texto, compilar y ejecutar el código fuente, y capturar información de salida de la ejecución. Python como pegamento! M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 8 / 17

Librerías esenciales de Python NumPy pandas matplotlib IPython SciPy scikit.learn M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 9 / 17

SciPy SciPy es una colección de paquetes que cubren problemas típicos en computación científica. Incluye: scipy.integrate: integración numérica y resolver ecuaciones diferenciales scipy.linalg: subrutinas de álgebra lineal y descomposición de matrices. scipy.optimize: optimizadores y algoritmos para la búsqueda de raíces. scipy.signal: herramientas de procesamiento de señales. scipy.sparse: manejo de matrices dispersas. scipy.special: funciones especiales como: gamma, polinomios de Legendre, etc. scipy.stats: estadística scipy.weave: herramienta para el uso de código C++ inline. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 10 / 17

IPython IPython es un entorno robusto para computación interactiva. Está diseñado para acelerar la escritura y la depuración de código Python. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 11 / 17

matplotlib matplotlib es la librería de Python más popular para producir gráficas (especialmente en 2D) Es especialmente útil para la creación de gráficas para publicaciones y presentaciones. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 12 / 17

NumPy NumPy, Numerical Python, es el paquete esencial para computación científica en Python. Proporciona: Manejo eficiente de arrays multidimensionales. Funciones para ejecutar cálculos con y entre arrays. Herramientas para leer y escribir datos basados en arrays. Operaciones de álgebra lineal, transformada de Fourier, generación de números aleatorios. Herramientas para integrar y conectar con códigos: C, C++, y Fortran. Más allá de su capacidad para el procemiento de arrays, su objetivo fundamental es el de servir de contenedor de datos. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 13 / 17

pandas Pandas proporciona estructura de datos y funciones diseñadas para ayudar en el trabajo con datos estructurados. Hace más productivo el trabajo con python. El objetivo primordial es el manejo de datos tabulados y en columnas con o sin etiquetas. Panda combina las capacidades de NumPy con la capacidad de manipulación de hojas de cálculo y bases de datos relacionales. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 14 / 17

Herramientas Científicas para python Parallel and distributed programming Partial differential equation (PDE) solvers Artificial intelligence and machine learning scikit learn General purpose efficient machine learning and data mining library in Python, for scipy pyem is a tool for Gaussian Mixture Models Neural Network An introduction to neural networks with a simple implementation PyPR A collection of machine learning methods written in Python: Artificial Neural Networks, Gaussian Processes, Gaussian mixture models, and K-means Más información en http://www.scipy.org/topical Software Bayesian Statistics PyMC is a Python module that provides a Markov chain Monte Carlo PyBayes is an object-oriented Python library for recursive Bayesian estimation Biology Brian a simulator for spiking neural networks PySAT Python Seqeuence Analysis Tools PySCeS the Python Simulator for Cellular Systems Epigrass Epidemiological Geo-Referenced Analysis and Simulation System. Simulation and analysis of epidemics over networks Econometrics pytrix a small set of utilities for economics and econometrics Astronomy AstroPython: Knowledge base for research in astronomy PyFITS: interface to FITS formatted files Pysolar Collection of Python libraries for simulating the irradiation of any point on earth by the sun pywcsgrid2 display astronomical fits images with matplotlib Electromagnetics PyFemax computation of electro-magnetic waves in accelerator cavities Dynamical systems Geosciences Molecular modeling Signal processing M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 15 / 17

Python for big data DARPA (U.S. Defense Advanced Research Projects Agency) has awarded 3 million (dollar) to software provider Continuum Analytics to help fund the development of Python s data processing and visualization capabilities for big data jobs. The money will go toward developing new techniques for data analysis and for visually portraying large, multi-dimensional data sets. The work aims to extend beyond the capabilities offered by the NumPy and SciPy Python libraries, which are widely used by programmers for mathematical and scientific calculations, respectively. The work is part of DARPA s XData research program, a four-year, 100 million effort to give the Defense Department and other U.S. government agencies tools to work with large amounts of sensor data and other forms of big data. M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 16 / 17

Gracias Gracias Preguntas? Más preguntas? M. Cárdenas (CIEMAT) Introducción 22-26 de Abril de 2013 17 / 17