Inteligencia de Negocio

UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 3: Segmentación y Asociación para Análisis Empresarial Curso 2016-2017 Cuarto Curso del Grado en Ingeniería Informática

Práctica 3 Segmentación y Asociación para Análisis Empresarial 1. Objetivos y Evaluación En esta tercera práctica de la asignatura Inteligencia de Negocio veremos el uso de técnicas de aprendizaje no supervisado para análisis empresarial. Se trabajará con dos conjuntos de datos sobre el que se aplicarán distintos algoritmos de agrupamiento (clustering) y asociación. A la luz de los resultados obtenidos se deberán crear informes y análisis lo suficientemente profundos. La práctica se calificará hasta un máximo de 1,75 puntos. Se valorará el acierto en los recursos de análisis gráficos empleados, la complejidad de los experimentos realizados, la interpretación de los resultados, la organización y redacción del informe, etc. 2. Descripción del problema: accidentes mortales de tráfico en España Una compañía aseguradora quiere comprender mejor las dinámicas en accidentes de tráfico con víctimas mortales. Para ello, a partir de diversas variables que caracterizan el accidente, se pretende encontrar grupos de accidentes similares y relaciones de causalidad que expliquen tipos y gravedad de los accidentes. Para ello se cuenta con los datos publicados por la Dirección General de Tráfico (DGT) en https://sedeapl.dgt.gob.es/web_iest_consulta/subcategoria. faces que incluye información desagregada (microdatos) de más de 30 variables entre los años 2008 y 2013. Concretamente, el estudio se centrará en analizar solo aquellos accidentes con víctimas mortales (11.009 accidentes entre el total de 522.576 accidentes sucedidos en esos seis años). En la web de la asignatura se incluye el conjunto de datos procesado a partir de la fuente original sobre el que se trabajará en esta práctica. 1

3 Tareas a Realizar 2 3. Tareas a Realizar La práctica consiste en aplicar y analizar técnicas de aprendizaje no supervisado (agrupamiento y reglas de asociación) para descubrir grupos y asociaciones en el conjunto de datos bajo estudio. El trabajo se realizará mediante el software KNIME (http://www.knime.org) (incluyendo cualquier extensión adicional que se considere necesaria), aunque podrá emplearse software adicional de apoyo como hojas de cálculo o software de ilustración. Se deberán resolver adecuadamente las siguientes tareas para obtener la máxima calificación (cada sección se puntúa por igual): 1. Agrupamiento: En este primer apartado nos interesaremos en segmentar los accidentes. Consideraremos dos algoritmos de agrupamiento o clustering, uno de particionamiento (k-means) y otro jerárquico aglomerativo. En KNIME, podremos usar, por ejemplo, los nodos SimpleKMeans (de WEKA) y Hierarchical Clustering, respectivamente. El alumno podrá seleccionar, transformar o agregar las variables como considere oportuno. Será necesario al menos aplicar una normalización para que las métricas de distancia y la visualización funcionen correctamente. Deberán justificarse las decisiones tomadas respecto al tratamiento de las variables. Una vez preparados los datos, deberán realizarse las siguientes tareas: k-means: En este caso necesitamos fijar el número de clusters, se probarán con valores k {2,..., 5}. Tras el análisis posterior en cada caso deberá decidirse qué valor de k es más recomendable. Para visualizar los resultados, se emplearán nubes de puntos (scatter plot) asignando colores a cada instancia según el grupo al que pertenece. También se recomienda el uso de gráficos de burbujas para poder representar una tercera dimensión. Jerárquico aglomerativo: En este caso no es necesario determinar el número de clusters, pero sí se recomienda probar con varios valores de corte en la etapa de análisis. Dado que se trata de un algoritmo poco eficiente, su ejecución podrá llevar algún tiempo. El análisis de los resultados deberá apoyarse en una visualización tanto del dendrograma derivado del agrupamiento como mapas de temperatura (heat map). En el dendrograma, pueden colorearse los datos atendiendo a distintas variables. En el mapa de temperatura, se presentarán los datos ordenados según el grupo al que pertenecen (es recomendable incluir el grupo como una variable más del mapa). Se pueden componer también ambas gráficas con la ayuda de un software de ilustración. A partir de los resultados obtenidos se deberán extraer conclusiones sobre los tipos de accidentes con víctimas mortales. Se valorará el acierto en la selección de variables y dimensiones que mejor reflejen los grupos encontrados en los datos.

4 Entrega 3 2. Reglas de asociación: El alumno puede realizar su propio procesamiento de los datos originales; en particular, la discretización de las variables continuas. Se obtendrán reglas de asociación mediante el algoritmo Apriori. Se recomienda usar el nodo Association Rule Learner en KNIME pues permite mayor interactividad y visualización con el conjunto de reglas obtenido. En este caso se necesita como entrada una lista de transacciones para lo cual puede emplearse el nodo Create Collection Column (con la casilla ignore missing values activada) sobre el dataset tratado. Antes de esto, es recomendable añadir el nombre de la variable a cada celda de su columna para reconocerlas en la lista de transacciones. No obstante, también puede considerarse (alternativa o complementariamente) el uso de la versión de Apriori disponible en Weka, que tiene la ventaja de ser más eficiente y poder fijar la variable del consecuente o umbrales basados en otras métricas como lift para un estudio más pormenorizado. Se deberán analizar las reglas para estudiar tipos de accidentes y relaciones de causalidad. En este sentido, debe tenerse en cuenta que no todas las reglas generadas por Apriori son útiles, pues hay variables (por ejemplo, la fecha) que no tienen sentido que aparezcan como consecuente pues no pueden ser causa de otras variables. Igualmente, hay variables que no tienen sentido que estén en el antecedente pues no son condiciones del accidente sino consecuencias de él (por ejemplo, tipo de accidente). Es recomendable filtrar las reglas para atender solo a aquellas que tengan variables de antecedente y consecuente válidas. Deberán interpretarse las reglas obtenidas para explicar causas y efectos de los accidentes de tráfico. Respecto a la visualización sobre el comportamiento del algoritmo, deberán representarse al menos dos gráficas: una gráfica (diagrama de líneas) que muestre el número de reglas obtenidas (ordenada) en función del valor de soporte (abscisa), dibujando distintas líneas con distintos umbrales de confianza (por ejemplo, 0.7, 0.75, 0.8, 0.85, 0.9 y 0.95, aunque estos umbrales dependerán de los resultados obtenidos en el problema); otra gráfica (nube de puntos) que muestre el valor de soporte y confianza de cada regla (se recomienda emplear colores para distinguir las reglas, por ejemplo, según la variable del consecuente). Se valorará el uso de recursos gráficos adicionales que ayuden a comprender mejor las distintas reglas de asociación encontradas. 4. Entrega La fecha límite de entrega será el viernes 23 de diciembre de 2016 hasta las 23:59. La entrega se realizará a través de la web de la asignatura en https://decsai.ugr.es. En un único fichero zip se incluirá el árbol de directorios completo que contiene el proyecto de KNIME, la documentación de la práctica realizada en pdf y cualquier otro archivo que el alumno considere relevante. El nombre del archivo zip será el siguiente (sin espacios): P1-apellido1-apellido2-nombre.zip. La documentación tendrá el mismo nombre pero con extensión pdf. Es decir, la alumna María Teresa del Castillo Gómez subirá el archivo

4 Entrega 4 P4-delCastillo-Gómez-MaríaTeresa.zip. La documentación, contenida en ese mismo archivo zip, tendrá el mismo nombre pero con extensión pdf. En el proyecto KNIME, todas las referencias a archivos de entrada o salida deberán referirse a direcciones dentro de esa carpeta, de forma que el proyecto sea autocontenido y resulte más cómodo de importar.