Inteligencia de Negocio

Documentos relacionados
Inteligencia de Negocio

Inteligencia de Negocio

Ejercicios de aplicación con Knime. Luis P. Guerra Velasco

Inteligencia de Negocio

Primeros pasos con Knime. Luis P. Guerra Velasco

Metaheurísticas

Sistemas Inteligentes de Gestión. Guión de Prácticas de Minería de Datos. Práctica 2. Reglas de Asociación

ÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1

Lingüística computacional

Parte 1 - Diseño Conceptual y Lógico

VISUALBITOOL: Una Herramienta para la Visualización de Datos en Inteligencia de Negocios MANUAL DEL USUARIO

CURSOS DE VERANO 2014

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

5. Crear gráficos y objetos.

Técnicas de Minería de Datos

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Procesadores de lenguajes Ingeniería Informática Especialidad de Computación Tercer curso, segundo cuatrimestre

Técnicas de Preprocesado

MODELO 347. Si elegimos el modelo 347, la pantalla que se nos muestra es:

CLUSTERING. Bases de Datos Masivas

Cada repuesta correcta suma 0,4 puntos. Cada repuesta incorrecta resta 0,1 puntos. La doble marca no puntúa

Tareas y métodos de evaluación

TÉCNICAS DE ESTUDIO. Son los métodos implicados en el aprendizaje tales como:

Apellidos:... Nombre:...

10 EXÁMENES

Manual de Usuario MINISTERIO DE MEDIO AMBIENTE Y MEDIO RURAL Y MARINO. Factura Electrónica VERSIÓN: FECHA: Agosto de 2009

Corrección de un examen con Excel 2007

Apellidos:... Nombre:... Ejercicio 1 (Cuestiones) [2 puntos] Responder a las siguientes cuestiones de manera clara y concisa:

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador

Manual Nóminas Escritorio

Manual de Usuario. Visualizador Geográfico - SNIESE

INVESTIGACIÓN OPERATIVA Redes Neuronales Artificiales y Aplicaciones INTEGRANTES: Armijos Mauricio Jara Iza Rony

ACCESO AL AULA VIRTUAL TECNOSUR. (Docentes)

PROGRAMACIÓN DE INICIATIVA EMPRESARIAL

PRACTICA Nº 4 AUTOCORRELACIÓN ESPACIAL

SEGUNDA PRÁCTICA. Programación Curso Ingeniería en Informática Universidad Carlos III de Madrid

CURRÍCULO DE MÍNIMOS DE MS

INTELIGENCIA ARTIFICIAL 1

CURSO CONFIGURACIÓN Y USO DIDÁCTICO DEL AULA VIRTUAL

Tipología de Contenidos

ÍNDICE GENERAL. A quién va dirigido este libro?... 3 Convenciones generales... 3 Índice general... 5

Herramientas del sistema operativo

Tema: MANEJO DE UN ARCHIVO DE BASE DE DATOS EN MICROSOFT EXCEL 2013.

Criterios de evaluación de Matemáticas

MODELO 190. Seleccionamos Declaración de I.R.P.F.: información para modelos 111 y 190 y nos aparece la siguiente pantalla:

Inteligencia Artificial en Investigación Operativa. Curso académico 2012/2013. Práctica 1. Técnicas de búsqueda heurística

Aprendizaje no supervisado

PLANIFICACIÓN ANALÍTICA DATOS GENERALES DEL CURSO ESTRUCTURA DEL CURSO

MODELO 190. Seleccionamos Declaración de I.R.P.F.: información para modelos 111 y 190 y nos aparece la siguiente pantalla:

VISUALIZACIÓN DE CENTROS DE COSTE (Tratamiento colectivo)

CRITERIOS DE EVALUACIÓN EN ENSEÑANZA SECUNDARIA

JUSTIFICACIÓN: PRE-REQUISITOS: OBJETIVOS GENERALES: * Programa de asignatura propuesto por los Prof. Malinda Coa y Angel Zambrano.

Práctica 2: Utilización de WEKA desde la línea de comandos.

Transcripción:

UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 3: Segmentación y Asociación para Análisis Empresarial Curso 2016-2017 Cuarto Curso del Grado en Ingeniería Informática

Práctica 3 Segmentación y Asociación para Análisis Empresarial 1. Objetivos y Evaluación En esta tercera práctica de la asignatura Inteligencia de Negocio veremos el uso de técnicas de aprendizaje no supervisado para análisis empresarial. Se trabajará con dos conjuntos de datos sobre el que se aplicarán distintos algoritmos de agrupamiento (clustering) y asociación. A la luz de los resultados obtenidos se deberán crear informes y análisis lo suficientemente profundos. La práctica se calificará hasta un máximo de 1,75 puntos. Se valorará el acierto en los recursos de análisis gráficos empleados, la complejidad de los experimentos realizados, la interpretación de los resultados, la organización y redacción del informe, etc. 2. Descripción del problema: accidentes mortales de tráfico en España Una compañía aseguradora quiere comprender mejor las dinámicas en accidentes de tráfico con víctimas mortales. Para ello, a partir de diversas variables que caracterizan el accidente, se pretende encontrar grupos de accidentes similares y relaciones de causalidad que expliquen tipos y gravedad de los accidentes. Para ello se cuenta con los datos publicados por la Dirección General de Tráfico (DGT) en https://sedeapl.dgt.gob.es/web_iest_consulta/subcategoria. faces que incluye información desagregada (microdatos) de más de 30 variables entre los años 2008 y 2013. Concretamente, el estudio se centrará en analizar solo aquellos accidentes con víctimas mortales (11.009 accidentes entre el total de 522.576 accidentes sucedidos en esos seis años). En la web de la asignatura se incluye el conjunto de datos procesado a partir de la fuente original sobre el que se trabajará en esta práctica. 1

3 Tareas a Realizar 2 3. Tareas a Realizar La práctica consiste en aplicar y analizar técnicas de aprendizaje no supervisado (agrupamiento y reglas de asociación) para descubrir grupos y asociaciones en el conjunto de datos bajo estudio. El trabajo se realizará mediante el software KNIME (http://www.knime.org) (incluyendo cualquier extensión adicional que se considere necesaria), aunque podrá emplearse software adicional de apoyo como hojas de cálculo o software de ilustración. Se deberán resolver adecuadamente las siguientes tareas para obtener la máxima calificación (cada sección se puntúa por igual): 1. Agrupamiento: En este primer apartado nos interesaremos en segmentar los accidentes. Consideraremos dos algoritmos de agrupamiento o clustering, uno de particionamiento (k-means) y otro jerárquico aglomerativo. En KNIME, podremos usar, por ejemplo, los nodos SimpleKMeans (de WEKA) y Hierarchical Clustering, respectivamente. El alumno podrá seleccionar, transformar o agregar las variables como considere oportuno. Será necesario al menos aplicar una normalización para que las métricas de distancia y la visualización funcionen correctamente. Deberán justificarse las decisiones tomadas respecto al tratamiento de las variables. Una vez preparados los datos, deberán realizarse las siguientes tareas: k-means: En este caso necesitamos fijar el número de clusters, se probarán con valores k {2,..., 5}. Tras el análisis posterior en cada caso deberá decidirse qué valor de k es más recomendable. Para visualizar los resultados, se emplearán nubes de puntos (scatter plot) asignando colores a cada instancia según el grupo al que pertenece. También se recomienda el uso de gráficos de burbujas para poder representar una tercera dimensión. Jerárquico aglomerativo: En este caso no es necesario determinar el número de clusters, pero sí se recomienda probar con varios valores de corte en la etapa de análisis. Dado que se trata de un algoritmo poco eficiente, su ejecución podrá llevar algún tiempo. El análisis de los resultados deberá apoyarse en una visualización tanto del dendrograma derivado del agrupamiento como mapas de temperatura (heat map). En el dendrograma, pueden colorearse los datos atendiendo a distintas variables. En el mapa de temperatura, se presentarán los datos ordenados según el grupo al que pertenecen (es recomendable incluir el grupo como una variable más del mapa). Se pueden componer también ambas gráficas con la ayuda de un software de ilustración. A partir de los resultados obtenidos se deberán extraer conclusiones sobre los tipos de accidentes con víctimas mortales. Se valorará el acierto en la selección de variables y dimensiones que mejor reflejen los grupos encontrados en los datos.

4 Entrega 3 2. Reglas de asociación: El alumno puede realizar su propio procesamiento de los datos originales; en particular, la discretización de las variables continuas. Se obtendrán reglas de asociación mediante el algoritmo Apriori. Se recomienda usar el nodo Association Rule Learner en KNIME pues permite mayor interactividad y visualización con el conjunto de reglas obtenido. En este caso se necesita como entrada una lista de transacciones para lo cual puede emplearse el nodo Create Collection Column (con la casilla ignore missing values activada) sobre el dataset tratado. Antes de esto, es recomendable añadir el nombre de la variable a cada celda de su columna para reconocerlas en la lista de transacciones. No obstante, también puede considerarse (alternativa o complementariamente) el uso de la versión de Apriori disponible en Weka, que tiene la ventaja de ser más eficiente y poder fijar la variable del consecuente o umbrales basados en otras métricas como lift para un estudio más pormenorizado. Se deberán analizar las reglas para estudiar tipos de accidentes y relaciones de causalidad. En este sentido, debe tenerse en cuenta que no todas las reglas generadas por Apriori son útiles, pues hay variables (por ejemplo, la fecha) que no tienen sentido que aparezcan como consecuente pues no pueden ser causa de otras variables. Igualmente, hay variables que no tienen sentido que estén en el antecedente pues no son condiciones del accidente sino consecuencias de él (por ejemplo, tipo de accidente). Es recomendable filtrar las reglas para atender solo a aquellas que tengan variables de antecedente y consecuente válidas. Deberán interpretarse las reglas obtenidas para explicar causas y efectos de los accidentes de tráfico. Respecto a la visualización sobre el comportamiento del algoritmo, deberán representarse al menos dos gráficas: una gráfica (diagrama de líneas) que muestre el número de reglas obtenidas (ordenada) en función del valor de soporte (abscisa), dibujando distintas líneas con distintos umbrales de confianza (por ejemplo, 0.7, 0.75, 0.8, 0.85, 0.9 y 0.95, aunque estos umbrales dependerán de los resultados obtenidos en el problema); otra gráfica (nube de puntos) que muestre el valor de soporte y confianza de cada regla (se recomienda emplear colores para distinguir las reglas, por ejemplo, según la variable del consecuente). Se valorará el uso de recursos gráficos adicionales que ayuden a comprender mejor las distintas reglas de asociación encontradas. 4. Entrega La fecha límite de entrega será el viernes 23 de diciembre de 2016 hasta las 23:59. La entrega se realizará a través de la web de la asignatura en https://decsai.ugr.es. En un único fichero zip se incluirá el árbol de directorios completo que contiene el proyecto de KNIME, la documentación de la práctica realizada en pdf y cualquier otro archivo que el alumno considere relevante. El nombre del archivo zip será el siguiente (sin espacios): P1-apellido1-apellido2-nombre.zip. La documentación tendrá el mismo nombre pero con extensión pdf. Es decir, la alumna María Teresa del Castillo Gómez subirá el archivo

4 Entrega 4 P4-delCastillo-Gómez-MaríaTeresa.zip. La documentación, contenida en ese mismo archivo zip, tendrá el mismo nombre pero con extensión pdf. En el proyecto KNIME, todas las referencias a archivos de entrada o salida deberán referirse a direcciones dentro de esa carpeta, de forma que el proyecto sea autocontenido y resulte más cómodo de importar.