M1. FUNDAMENTOS DE MINERÍA DE DATOS



Documentos relacionados
Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Análisis de Datos. Práctica de métodos predicción de en WEKA

Trabajo final de Ingeniería

Tutorial Weka Ricardo Aler 2009

CONTROL DE ROBOTS Y SISTEMAS SENSORIALES 4º Ingeniería Industrial

Visión global del KDD

Base de datos II Facultad de Ingeniería. Escuela de computación.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Selección de atributos

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PROPUESTA DE ALTERNATIVAS PARA EL MODELADO DE USUARIO ESTADÍSTICO UNIVERSIDAD CARLOS III D E MADRID

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Sistema Inteligente de Exploración

Aprendizaje Computacional. Eduardo Morales y Jesús González

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

OPTATIVA I: MINERIA DE DATOS

Weka como herramienta de data mining

Capítulo 9. Archivos de sintaxis

Anexo 11. Manual de Administración

Cómo se usa Data Mining hoy?

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Inteligencia de Negocio

CURSO MINERÍA DE DATOS AVANZADO

Práctica 1: Entorno WEKA de aprendizaje automático y data mining.

Aprendizaje Automatizado

PLAN DE TRABAJO DOCENTE 2013

GedicoPDA: software de preventa

Enfoque propuesto para la detección del humo de señales de video.

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Parte I: Introducción

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos

Instrucciones de instalación de IBM SPSS Modeler Server 16 para Windows

código Java Solicitudes Reportes AJI resultados API

Definiciones. Tema 21_Módulos Menú 1

MOC Mastering Microsoft Project 2010

Arquitectura de sistema de alta disponibilidad

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Operación Microsoft Access 97

Medidas de la tendencia central y las gráficas de caja

Interfaz BIOCLIM e Interfaz DOMAIN

Contacto. Primeros pasos en MiAulario. Curso de Formación. Primeros pasos en MiAulario

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Ejemplos básicos de webmathematica para profesores

MANUAL DE LA APLICACIÓN DE ENVÍO DE SMS

MANUAL DE USUARIO ADMINISTRADORES

Guía de Uso de la Base de Datos SABI (Sistema de Análisis de Balances Ibéricos)

SCRAE Web: Sistema de Corrección y Revisión Automática de Exámenes a través de la WEB

1. Descripción y objetivos

Aplicación de Redes bayesianas usando Weka.

Introducción al PSPICE

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Data Mining Técnicas y herramientas

01 Índice. GESTOR DE CONTENIDOS Manual de uso 01 ÍNDICE OBJETO DEL DOCUMENTO ESTRUCTURA GRÁFICA DEL SISTEMA... 3

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

Manual de Usuario Avanzado Respaldo Cloud

Motores de Búsqueda Web Tarea Tema 2

Person IP CRM Manual MOBILE

TÓPICOS AVANZADOS DE BASES DE DATOS

Finanzas e Investigación de Mercados"

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.

Es el listado de los productos que están ofertados en la página.

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

Encuesta sobre la asignatura, los profesores, la interacción en grupo, los contenidos, las prácticas, la comunicación, etc.

Formularios. Formularios Diapositiva 1

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina)

INSTALACIÓ N A3ERP. Informática para empresas INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Tutorial de Moodle. Actividad Cuestionario

Indicaciones específicas para los análisis estadísticos.

STATISTICA Scorecard. STATISTICA Scorecard es una solución de software para desarrollar, evaluar, y supervisar modelos de clasificación.

Guía docente de la asignatura

A-PDF Merger NO requiere Adobe Acrobat, y produce documentos compatibles con Adobe Acrobat Reader Versión 5 y superior.

INSTALACIÓN A3ERP INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

Tema 7. Introducción al reconocimiento de objetos

Haciendo estadística con SPAC-FL y Minitab

Eurowin 8.0 SQL. Manual de la FIRMA DIGITALIZADA

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Manual de software. MP GAS Tools. Software para marcadores de gasolineras. 07/2014 MS-MPGasTools_v1.4

MANUAL ECOMMERCE 2.0

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS

expertbsc Solución de Cuadro de Mando Integral (CMI)

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

F O R M U L A R I O S FORMULARIOS

La Administración de Proyectos

CONCEPTOS BASICOS. Febrero 2003 Página - 1/10

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Inteligencia Artificial II Propuesta de trabajo Detección de correo basura (anti-spam) mediante técnicas de Inteligencia Artificial

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Programa de Educación a Distancia MOODLE EDUC. (Modular Object Oriented Distance Learning Enviroment)

Metodología de las Ciencias del Comportamiento y de la Salud. Antonio Pardo Merino Miguel Ángel Ruiz Díaz

Ministerio de Educación. Diseño de Presentaciones en la Enseñanza. Módulo 9: Imprimir

Práctica GESTIÓN Y UTILIZACIÓN DE REDES LOCALES. Curso 2001/2002. Monitorización de una LAN

Transcripción:

MÁSTER OFICIAL DE LA UNIVERSIDAD DE GRANADA "SOFT COMPUTING Y SISTEMAS INTELIGENTES" M1. FUNDAMENTOS DE MINERÍA DE DATOS J.L. CUBERO, F. BERZAL, F. HERRERA Dpto. Ciencias de la Computación e I.A. Universidad de Granada 18071 ESPAÑA

Contenido del Curso Estudio práctico de las técnicas de preparación de datos: Limpieza Transformación Reducción de datos http://www.cs.waikato.ac.nz/ml/weka/ 2

Bibliografía Bibliografía Minería de Datos con WEKA Ian H. Witten & Eibe Frank DATA MINING Practical Machine Learning Tools and Techniques Second Edition Morgan Kaufmann 2005 3

Preprocesamiento con WEKA Introducción a WEKA Técnicas básicas de preprocesamiento en WEKA Reducción de datos en WEKA Discretización Selección de Características Selección de Instancias Ejemplos Prácticos y Ejercicios 4

Introducción a WEKA WEKA es una recopilación de algoritmos para aprendizaje automático y herramientas de preprocesamiento de datos. Además proporciona soporte para todo el proceso experimental: evaluación, preparación y visualización de datos y resultados. WEKA contiene métodos de clasificación, regresión, clustering y reglas de asociación 5

Introducción a WEKA Maneras de Interacción: Explorer: Se utiliza para ejecutar y comparar resultados sobre un único conjunto de datos. Experimenter: Para construir una experimentación completa y almacenar resultados. Knowledge Flow: IDEM a experimenter pero representa el experimento con un grafo dirigido. 6

Introducción a WEKA Explorer Cargar Datos Soporta ficheros en formato ARFF, CSV, Excel y conexión jdbc con BDs. 7

Introducción a WEKA Formato ARFF @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 5.2,2.7,3.9,1.4,Iris-versicolor 5.0,2.0,3.5,1.0,Iris-versicolor 7.2,3.6,6.1,2.5,Iris-virginica 6.5,3.2,5.1,2.0,Iris-virginica 8

Introducción a WEKA Explorer Construir un árbol de decisión Visualizar resultados de la ejecución 9

Introducción a WEKA Explorer Formas de comprobar resultados (test): Solo entrenar Usar un conjunto de test específico k-cfv Particion determinada 10

Introducción a WEKA Explorer Visualización de Datos Atributos vs. Atributos Detalle Botón derecho 11

Introducción a WEKA Explorer Visualización de Resultados y modelos Botón derecho 12

Introducción a WEKA Explorando Explorer (algoritmos más conocidos) Clasificación BayesNet: Aprende redes Bayesianas NaiveBayes: Clasificador discriminador bayes standard Id3: Divide y Vencerás básico para árboles de decisión J48: C4.5 RandomForest: Construye un Bosque Aleatorio JRip: Algoritmo RIPPER M5Rules: Construye reglas M5 desde árboles LinearRegression: Regresión linear standard MultilayerPerceptron: Red neuronal de retropropagación RBFNetwork: Red de función radio base SMO: Clasificación basada en vectores de soporte Ibk: k vecinos más cercano LWL: Aprendizaje basado en pesos locales 13

Introducción a WEKA Explorando Explorer (algoritmos más conocidos) Clustering CobWeb: Algoritmo CobWeb SimpleKMeans: Algoritmo k-medias Asociación Apriori: Algoritmo Apriori PredictiveApriori: A priori con orden según acierto predictivo. 14

Introducción a WEKA Knowledge Flow Proporciona una alternativa a Explorer para aquellos que piensan en términos de como los datos fluyen a través del sistema. Permite crear configuraciones imposibles por Explorer. 15

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (1) Objetivo: Cargar un fichero ARFF y llevar a cabo una validación cruzada con C4.5 Pulsar Arff Loader dentro de la pestaña Data Sources. Pinchar en el panel de Dibujo. 16

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (2) Con el botón derecho en el nodo Arff Loader, ir a Configure. Por ejemplo, trabajaremos con iris.arff. Para indicar el atributo que será la clase, introducir un nodo Class Asigner (Etiqueta Evaluation). 17

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (3) Para conectar ambos nodos, pulsar con el botón derecho sobre Arff Loader y seleccionar la opción Conections->dataset. Configurar el Class Asigner para tomar el atributo Nom como clase. 18

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (4) Hacer la misma operación para un CrossValidation Foldmaker. Configurarlo con 10 folds y poner una semilla cualquiera. 19

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (5) Introducir un nodo J48 (en pestaña classifiers). Conectarlo con CrossValidation Foldmaker mediante la conexión trainingset y testset. 20

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (6) Introducir un nodo Classifier PerformanceEvaluator (en pestaña evaluation). Conectarlo con J48 mediante la conexión batchclassifier. 21

Introducción a WEKA Knowledge Flow: Ejemplo paso a paso (7) Para finalizar, incluimos un GraphViewer y un TextViewer conectados a J48 y Classifier PerformanceEvaluator mediante conexiones graph y text, respectivamente. Para ejecutar todo el experiento, seleccionar Start Loading en Arff Loader. Los resultados pueden verse en cualquiera de los dos visores finales 22

Introducción a WEKA Knowledge Flow: Grafo final del ejemplo 23

Introducción a WEKA Knowledge Flow (componentes más útiles) Visualización Evaluación DataVisualizer: Visualiza datos en 2D AtributteSummarizer: Histogramas, uno por atributo ModelPerformanceChart: Curvas ROC TextViewer: Visualiza datos o modelos en texto GraphViewer: Visualiza modelos de árboles CrossValidationFoldMaker: Divide datasets en folds TrainTestSplitMaker: Divide un dataset en train/test ClassAsigner: Asigna un atributo como clase ClassValuePicker: Elige un valor como clase positiva ClassifierPerformanceEvaluator: Recolecta estadísticas para evaluación batch. IncrementalClassifierEvaluator: Recolecta estadísticas para evaluación incremental. ClustererPerformanceEvaluator: Recolecta estadísticas para clustering PreddictionAppender: añade predicciones de un clasificador a un dataset 24

Preprocesamiento en WEKA WEKA contiene métodos de preprocesamiento para tratar valores perdidos, transformar datos, discretizar y seleccionar características e instancias Todos estos métodos están en el apartado Filters. La selección de características la trata aparte. WEKA no contiene métodos de selección de instancias, pero pueden simularse. 25

Preprocesamiento en WEKA Filters (algoritmos más conocidos) Utilidades Add: Añade un nuevo atributo AddCluster: añade un atributo nominal para representar clusters AddNoise: Cambia un porcentaje de valores de un atributo Remove: Borra atributos RemoveType: Borra atributos de un tipo (nominal, real, ) SwapValues: Intercambia dos valores en un atributo ClassOrder: Desordena el orden de los valores de clase Randomize: Desordena el orden de las instancias StratifiedRemoveFolds: Devuelve 1 fold de un dataset RemovePercentage: Borra un porcentaje del dataset RemoveRange: Borra un rango de instancias RemoveWithValues: Borra instancias con ciertos valores Normalize: Escalado de atributos numéricos a un intervalo 26

Preprocesamiento en WEKA Filters (algoritmos más conocidos) Normalize: Escalado de atributos numéricos a un intervalo Transformaciones NominalToBinary: Transforma valores nominales a binarios RandomProjection: Proyecta los datos en dimensión n a datos en dimensión m, siendo m < n Standarize: Estandariza valores número a media 0 y desviación típica 1 Tratamiento de valores perdidos ReplaceMissingValues: Sustituye todos los valores perdidos para atributos nominales y numéricos con las modas y medias de los datos de entrenamiento 27

Preprocesamiento en WEKA Ejemplo de Transformación Normalizado Filters Unsupervised Atribute Normalize 28

Reducción de Datos en WEKA Discretización Discretize: Convierte atributos numéricos a nominales. Especificar qué atributos, número de intervaloes, optimización de los mismos. Intervalos de igual anchura o frecuencia. PKIDiscretize: Discretiza con intervalos de igual frecuencia, y el número de intervalos es igual a la raiz cuadrada del número de valores. 29

Reducción de Datos en WEKA Selección de Características La Selección de Características se realiza haciendo una búsqueda en el espacio de subconjuntos de características y evaluando cada uno de ellos. Se consigue combinando uno de los 4 evaluadores de subconjuntos con alguno de los 7 métodos de búsqueda implementados. 30

Reducción de Datos en WEKA Selección de Características Evaluador de subconjuntos Métodos de búsqueda CfsSubsetEval: Considera el valor predictivo individual de cada atributo ClassifierSubsetEval: Usar un clasificador para evaluar ConsistencySubsetEval: Mide la consistencia en términos de las clases WrapperSubsetEval: Usa un clasificador + validación cruzada BestFirst: Greedy Incremental con backtracking ExhaustiveSearch: Fuerza bruta GeneticSearch: Algoritmo genético de búsqueda GreedyStepWise: Greedy incremental sin backtracking RaceSearch: Metodología RaceSearch RandomSearch: Búsqueda Aleatoria RankSearch: Ordena los atributos y crea un ranking de subconjuntos prometedores. 31

Reducción de Datos en WEKA Selección de Características Un método más rápido pero menos preciso consiste en evaluar los atributos individualmente y ordenarlos, descartando atributos que caen debajo de un determinado umbral. Se consigue seleccionando uno de los ocho evaluadores de atributos simple, usando después el método Ranker en la búsqueda. 32

Reducción de Datos en WEKA Selección de Características Evaluadores de atributos simples ChiSquaredAttributeEval: Calcula la estadística chicuadrado de cada atributo con respecto a la clase GainRatioAttributeEval: Evaluación por tasa de ganancias InfoGainAttributeEval: Evaluación por ganancia de información OneRAttributeEval: Metodología OneR PrincipalComponents: Análisis de principales componentes y transformación ReliefFAttributeEval: Evaluados basado en instancias SVMAttributeEval: Usar máquinas de soporte vectorial para calcular los atributos SymmetricalUncertAttributeEval: Evalúa atributos basándose en incertidumbre simétrica 33

Reducción de Datos en WEKA Selección de Instancias Los métodos clásicos de selección de instancias no están incluidos en WEKA. Solamente tiene incluido el Muestreo Aleatorio. Se establece un porcentaje final de ejemplos Filter -> Unsupervised -> Instance -> Resample No mantiene la proporción de clases Filter -> Supervised -> Instance -> Resample Mantiene la proporción de clases 34

Reducción de Datos en WEKA Selección de Instancias Se pueden simular dos métodos clásicos de selección de instancias aplicando un clasificador y quitando o dejando los ejemplos clasificados incorrectamente. Filters -> Unsupervised -> Instance -> RemoveMisclassified CNN (Condensed Nearest Neighbour): Ib1 con invert = false ENN (Edited Nearest Neighbour): Ib3 con invert = true 35

Ejemplo 1 Selección de características haciendo una búsqueda con un algoritmo genético del subconjunto de características y evaluando con Ib1 con el dataset sonar. Comparamos con Ib1 sin selección anterior. 36

Ejemplo 1 37

Ejemplo 2 Selección de instancias con CNN y ENN sobre Iris. 38

Ejemplo 2 CNN ENN 39

Ejercicios 1.- Hay métodos que solo funcionan con datos de tipo nominal. Éste es el caso de ID3. Para trabajar con este algoritmo, hay que discretizar todos los atributos reales. En Explorer y utilizando el dataset glass, consigue ejecutar ID3 con una discretización previa. Los datasets extra los puedes conseguir desde http://sci2s.ugr.es/keel/uci.zip 40

Ejercicios 2.- Combinar diferentes estrategias de Selección de Características e Instancias con Knowledge Flow utilizando como clasificador J48 y cualquier dataset no estándar en WEKA. 41

http://sci2s.ugr.es Gracias!!! 42