Data Analysis in Python (Pandas)-Parte I

1 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano Data Analysis in Python (Pandas)-Parte I Facultad: Ingeniería Escuela: Computación Asignatura: Sistemas Expertos e Inteligencia Artificial Contenido Unos de los aspectos muy importantes en el contexto de la inteligencia artificial y los sistemas expertos es el análisis de los datos. En análisis de los datos muestra ciertos resultados de búsqueda y reconocimiento de patrones entre una cantidad grande de información. En esta práctica de laboratorio se pretende conocer el entorno de la ciencia de datos en Python y utilizar las herramientas y/o librerías para la manipulación de la información. Objetivos Específicos Utilizar la librería Pandas en Python para el análisis de datos. Identificar la importancia del análisis de datos. Crear aplicaciones utilizando el IDE de Python JetBrains PyCharm Community Edition. Material y Equipo Guía de laboratorio N 4. Computadora con Python 3.6 y PyCharm. Dispositivo de almacenamiento. Introducción Teórica Pandas es una librería open source que aporta a Python unas estructuras de datos fáciles de usar y de alto performance, junto con un gran número de funciones esenciales para el análisis de datos. Con la ayuda de Pandas podemos trabajar datos estructurados de una forma rápida y expresiva. Entre los aspectos sobresalientes que aporta Pandas, tenemos: Un rápido y eficiente objeto DataFrame para manipular datos con indexación integrada; Herramientas para lectura y escritura de datos entre estructuras de datos rápidas y eficientes manejadas en memoria, como el DataFrame, con la mayoría de los formatos conocidos para el manejo de datos, por ejemplo, CSV y archivos de texto, archivos de Microsoft Excel, bases de datos SQL y el formato científico HDF5. Proporciona una alineación inteligente de datos y un manejo integrado de los datos faltantes; con esas funciones se puede obtener una ganancia de performance en los cálculos entre DataFrame y una fácil manipulación y ordenamiento de los datos en nuestro data set. Flexibilidad para manipular y redimensionar nuestro data set, facilidad para construir tablas pivote. La posibilidad de filtrar los datos, agregar o eliminar columnas de una forma sumamente expresiva. Operaciones de merge y join altamente eficientes sobre nuestros conjuntos de datos.

2 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano Indexación jerárquica, que proporciona una forma intuitiva de trabajar con datos de alta dimensión en una estructura de datos de menor dimensión. Posibilidad de realizar cálculos agregados o transformaciones de datos en el poderoso motor group by que nos permite dividir-aplicar-combinar nuestros conjuntos de datos. Combina las características de las matrices de alto rendimiento de Numpy con las flexibles capacidades de manipulación de datos de las hojas de cálculo y bases de datos relacionales (por ejemplo, bases de datos SQL). Gran número de funcionalidades para el manejo de series de tiempo ideales para el análisis financiero. Todas sus funciones y estructuras de datos están optimizadas para el alto rendimiento con altas partes críticas de código escritas en Cython o C. Procedimiento Instalando el módulo Pandas 1. Abrimos la línea de comandos del sistema y tecleamos el comando pip install pandas 2. En breves instantes iniciará la descarga de los paquetes. Para verificar la instalación de nuestro paquete o paquetes 3. vía comando pip, se puede hacer de la siguiente forma: 4. Si se está trabajando directamente con un IDE (en estas prácticas de laboratorio se usa PyCharm) se pueden descargar los paquetes directamente desde el mismo IDE. Presionamos la combinación Ctrl+Alt+s.

3 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano 5. Ahora, se digita el nombre del paquete que deseamos instalar o agregar al IDE. Cuando se haya concluido la instalación y si todo salió bien, deberá aparecer el siguiente mensaje:

4 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano Comenzando a trabajar con el paquete pandas. Series: son matrices de una sola dimensión similares a los vectores, pero con su propio índice. Ejemplo 1. Creando una serie con índice por defecto: Ejemplo 2. Creando una serie con su propio índice: Ejemplo 3. Accediendo a los datos a través de los índices:

5 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano DataFrame: es una estructura de datos tabular similar a las hojas de cálculo de Excel. Posee tanto índices de columnas como de filas. Ejemplo 4. Creando un DataFrame. Ejemplo 5. DataFrame con datos no válidas y uso de la librería nunpy

6 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano Ejemplo 6. Estadísticas básicas Ejercicios propuestos: 1. Haciendo uso del ejemplo mostrado anteriormente: a) Obtener la nota mayor y menor de los registros anteriores. 2. Con el archivo csv que se le proporciona en esta práctica, realizar lo siguiente: a) Cargar el archivo csv y mostrar su contenido en el IDE. b) Mostrar solamente los índices del 0 al 7. c) Aplicar un filtro y ordenar por calificación. d) Realizar un ordenamiento ascendente y descendente, por nombre y carrera. e) Mostrar la calificación máxima, mínima y el promedio de las mismas. Recordar: Un archivo csv ( Comma Separated Values) es un método muy extendido y simple para compartir datos. Son archivos de texto que contienen una tabla de datos, en la que cada línea es una fila. En Python se puede realizar la manipulación de este tipo de archivos mediante el paquete pandas de la siguiente forma:

7 Sistemas Expertos e Inteligencia Artificial / Guía IV / Ciclo 01 2018 / Ing. Herson Serrano pandas.read_csv( ) para volcar el contenido de un DataFrameen un archivo csv. Investigación Complementaria Investigar sobre el uso y manipulación de fechas en Python. n el Bibliografía Python, Guido Van Rossum