Minería de datos Unidad 2. El proceso KDD

Documentos relacionados
Minería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

1.-DATOS DE LA ASIGNATURA

Secretaría de Docencia Dirección de Estudios Profesionales

Minería de Datos STC Carrera:

TÓPICOS SELECTOS DE OTROS CURSOS

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES MINERÍA DE DATOS

José Hernández Orallo Mª. José Ramírez Quintana

Métodos Descriptivos en Minería de Datos

Benemérita Universidad Autónoma de Puebla Vicerrectoría de Docencia Dirección General de Educación Superior Facultad de Ciencias de la Computación

Programa Educativo (PE): Ingeniería en Ciencias de la Computación. Área: Tecnología. Programa de Asignatura: Minería de Datos.

Programa Educativo (PE): Licenciatura en Ciencias de la Computación. Área: Tecnología. Programa de Asignatura: Minería de Datos.

Datos Generales. 1. Nombre de la Asignatura Estructura de Datos Avanzados y Minería de Datos. 2. Nivel de formación Doctoral

Métodos de Regresión en Minería de Datos

Aux 1. Introducción a la Minería de Datos

Métodos Predictivos en Minería de Datos

Área Académica: Sistemas Computacionales. Tema: Explotación de un Almacén de Datos: Herramientas OLAP. Profesor: Mtro Felipe de Jesus Nuñez Cardenas

Modelos de Mercadotecnia. SESIÓN # 2. Bases de datos.

Aprendizaje Computacional. Eduardo Morales y Jesús González

Minería de datos (Fases de la minería de datos)

Técnicas del aprendizaje automático para la asistencia en la toma de decisiones

Métodos Predictivos en Minería de Datos

Programa(s) Educativo(s): Clave de la materia: Semestre:

Modelos de Mercadotecnia Tema 1: Dimensión del Marketing

ANX-PR/CL/ GUÍA DE APRENDIZAJE

1. IDENTIFICACIÓN DEL CURSO Nombre de la materia

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Data warehousing y data mining. CURSO ACADÉMICO - SEMESTRE Segundo semestre

OPTATIVA I: MINERIA DE DATOS

TEF-1403 SATCA 1 : Carrera:

1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Inteligencia de Negocios

MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

ESCUELA POLITÉCNICA SUPERIOR DE CÓRDOBA GRADO DE INGENIERÍA INFORMÁTICA CURSO 2013/14 ASIGNATURA: INTRODUCCIÓN A LOS MODELOS COMPUTACIONALES

Arquitectura de un data warehouse Funcionamiento detallado de un data warehouse

Exploraciones sobre el soporte Multi-Agente en Minería de Datos

Minería de Datos aplicada a la Detección de factores para la prevención de incidentes informáticos.

Selección de atributos

Minería de Datos. Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria

PROGRAMA DE CURSO. Código Nombre INTRODUCCIÓN A LA MINERÍA DE DATOS Nombre en Inglés Introduction to Data Mining Unidades

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES

MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES

MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES

Bases de Datos y Bases de Conocimientos

Rendimiento Académico: un estudio de la situación actual en las carreras de ingeniería en UTN Rafaela. Contexto

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas

Análisis de Datos para la Industria y los Servicios

GUÍA DOCENTE Minería de Datos

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Sistemas de Soporte a las Decisiones

Cuestiones administrativas Sistemas Inteligentes de Gestión Segundo cuatrimestre, curso 2011/2012 Horario de clases Teoría Miércoles, de 17:00 a 19:00

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

Aprendizaje Automático

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA)

MD - Minería de Datos

Carrera : Academia de Sistemas y Computación. a) RELACIÓN CON OTRAS ASIGNATURAS DEL PLAN DE ESTUDIOS ASIGNATURAS TEMAS ASIGNATURAS TEMAS

How can I analyze this data? Knowledge. Data rich, Information poor. Conocimiento (patrones interesantes)

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

ESCUELA POLITÉCNICA SUPERIOR DE CÓRDOBA

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO

Diseño estructural y propuesta de actividades. 1. DATOS GENERALES DEL CURSO Análisis de información y minería de datos para la toma de decisiones

Análisis de deserción escolar con minería de datos

30/08/2017. Pasos KDD. 1. Entendimiento del dominio de establecimiento de objetivos

IFF SATCA 1 : Carrera:

Técnicas de Minería de Datos

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

A3. Ciencia de datos y aprendizaje automático

Segmentación de una cartera de clientes usando aprendizaje de máquina

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA

Posibles trabajos HIA

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

Aplicaciones de minería de datos. Por: M.C. Leopoldo González Rosas campodeencinos.wordpress.com

INTELIGENCIA DE NEGOCIO

ETL es el proceso responsable por las operaciones que tiene lugar en el back stage de una arquitectura de Data Warehouse.

APLICACIÓN DE REGLAS DE ASOCIACIÓN PARA LA DETECCIÓN DE PATRONES DE COMPORTAMIENTO EN SISTEMA ACADÉMICO UNIVERSITARIO

TÓPICOS AVANZADOS DE BASES DE DATOS

Métodos Exploratorios en Minería de Datos

Introducción Aprendizaje de Máquina. Gerardo Gutiérrez Gutiérrez Alexis Rodríguez Gutiérrez

Guía docente de la asignatura

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining

GUÍA DOCENTE CURSO FICHA TÉCNICA DE LA ASIGNATURA. Datos de la asignatura Nombre. Estadística II Código

A3. Ciencia de datos y aprendizaje automático

Esatadística II: inferencial Departamento de Ciencias Sociales y Políticas Universidad Católica del Uruguay

Bases de datos y bases de conocimiento

Inteligencia Artificial: Su uso para la investigación

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

MI4040 Análisis Estadístico y Geoestadístico de Datos Nombre en Inglés

Universidad Nacional de San Agustín VICE RECTORADO ACADÉMICO SILABO

Administración de las Bases de Datos

Transcripción:

Minería de datos Unidad 2. El proceso KDD M en I Sara Vera Noguez

2. La minería de datos en el proceso de KDD Etapas de proceso de KDD: 1) Integración y recopilación 2) Selección, Limpieza (también llamada preprocesamiento),transformación 3) Minería de Datos 4) Evaluación e Interpretación 5) Difusión y uso.

El proceso KDD Hernández, 2008 p.20

Integración y recopilación Generalmente la información proviene de BD OLTP (On-Line Transaction Processing) Pero en ocasiones es necesario extraer información desde bases de datos publicas (censos, datos del clima, etc) o base de datos privadas (como datos de otras compañías, sin infringir la ley)

Integración y recopilación Se deben identificar los datos necesarios, sus fuentes e integrarlos. La integración conlleva solucionar conflictos de tipos de datos, niveles de agregación, llaves primarias y foráneas, codificación, etc. Esta integración da lugar a data warehouse (almacenes de datos)

Integración y recopilación https://visualrsoftware.com/data-warehouse-a-primary-introduction/

Algunos procedimientos para la integración Hacer una copia de las BD integrantes eliminando inconsistencias. Esto da lugar a varias BD, no se tiene un esquema integrado Aplicar Data warehouse (almacén de datos). Implica agregar y cruzar información, generando una DB multidimensional generando un OLAP

OLAP Permiten el análisis multidimensional de los datos Utiliza conocimiento previo para permitir su representación a diferentes niveles de abstracción Permite obtener reportes sofisticado en tiempo real de información multidimensional para comprobar o rechazar patrones hipotéticos.

OLAP vs minería de datos OLAP se asocia con un proceso deductivo. Minería de datos es un proceso inductivo Son herramientas complementarias OLAP al inicio de KDD Minería más adelante en KDD

Fase de selección, limpieza y transformación La calidad del insumo influye en la calidad del producto

Selección, limpieza y transformación Ya que el resultado no solo depende del algoritmo de minería, sino también de los datos, resulta importante la calidad de los datos. Para ello después de integrar los datos se deben seleccionar, limpiar y transformar, para generar el conjunto o vista minable

Selección, limpieza y transformación Se deben identificar los datos necesario y los irrelevantes. Identificar y eliminar* datos anómalos fuera de lo general (outliers) Si bien algunos algoritmos omiten los outliers, otros se ven fuertemente afectados por ellos. En ciertos casos no deben eliminarse p.e. en detección de fraudes

Selección, limpieza y transformación Se deben distinguir los datos necesario y los irrelevantes. Identificar y eliminar* datos anómalos fuera de lo general (outliers) Si bien algunos algoritmos omiten los outliers, otros se ven fuertemente afectados por ellos. En ciertos casos no deben eliminarse p.e. en detección de fraudes

Selección, limpieza y transformación Identificar si se tienen datos faltantes o perdidos (missing values) Identificar la causa de la ausencia de estos datos

Selección, limpieza y transformación Selección de atributos relevantes (columnas) Seleccionar una muestra aleatoria (renglones)

Selección, limpieza y transformación Construcción de atributos: que pueden ser necesario y se pueden generar a partir de otros datos, ya se mediante operaciones sobre un atributo o un conjunto de atributos, o bien mediante el cambio de tipo de un atributo Numerizar atributos categóricos (cambiar de tipo) Discretizar atributos continuos

Selección, limpieza y transformación Numerizar y Discretizar

Fase de minería de datos Su objetivo es extraer conocimiento para el usuarios a partir de los datos Implica la realización de un modelo basado en los datos, para obtener las respuestas buscadas

Fase de minería de datos

Aspectos importantes Determinar el tipo de tarea de minería más adecuada Elegir el tipo de modelo mas convenientes Elegir el algoritmo

Tareas de minería de datos Se relacionan con los problemas que se busca resolver. Cada tarea se desprende de requisitos específicos Cada tarea se asocia con ciertos tipos de datos

Tareas de minería de datos Clasificación: se ve reflejado como un valor discreto a un atributo, que determina la clase de la instancia. Los atributos usados para la clasificación reciben el nombre de atributos relevantes. El objetivo es predecir la clase de nuevas instancias de las que no se conoce este dato, maximizando la razón de precisión del clasificador (r=predicciones correctas/total de predicciones)

Tareas de minería de datos Como una variante de la clasificación se tiene el Ranking, como aprendizaje de preferencias, estimadores de probabilidad, etc.

Tareas de minería de datos Regresión: Se busca aprender una función real; su objetivo es predecir el valor correspondiente para nuevas instancias. La diferencia entre la clasificación y la regresión es que el dato obtenido es real o discreto. El objetivo de la regresión es minimizar el error, comúnmente error cuadrático medio.

Tareas de minería de datos Agrupamiento (clustering) es una tarea descriptiva, que consiste en obtener grupos a partir de los datos. La diferencia entre grupos y clases es que en las clases se tiene datos etiquetados con las clases; mientras que en los grupos las instancias se agrupan buscando maximizar la similitud entre instancias del grupo y minimizar la similitud entre los distintos grupos. Cada grupo se considera como un resumen de los elementos que lo conforman, lo que es de utilidad para describir los datos de forma concisa.

Tareas de minería de datos Correlaciones: son una tarea descriptiva para analizar el grado de similitud de los valores de dos variables numéricas. Si el coeficiente de correlación es 0 indica que no hoy correlación entre las variables; valores cercanos a uno indican una correlación positiva, mientras que valores próximos a -1 son señal de una correlación negativa

Tareas de minería de datos Reglas de asociación: son tareas descriptiva para analizar el grado de relación entre de los valores de dos variables categóricas. Pueden ser de la forma si X toma el valor a, entonces Y toma el valor b. No implican una relación causa efecto

Tareas de minería de datos Reglas de asociación secuenciales: son un tipo especial de reglas de asociación, son una descriptiva para determinar patrones secuenciales de datos, basados en secuencias temporales de acciones. Difieren de otras reglas de asociación en que las relaciones de los datos dependen del tiempo No implican una relación causa efecto

Actividad de procesamiento Elaborar una tabla en la que se plasmen las tareas de minería de datos clasificadas por su finalidad (descriptivas o predicativas) y el tipo de variables que analiza (continuas, discretas o temporales)

Técnicas para minería de datos En equipos de dos integrantes leer las técnicas de minería de datos mostradas en el capítulo 2 del libro de Hernández y realizar un cuadro de de resumen

Actividad para contrastar En equipos de cuatro integrantes, formado por un miembro de cada equipo conjuntar en un cuadro las actividades y técnicas relacionadas.

El proceso KDD Se tiene un modelo iterativo Hernández, 2008 p.20

La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface las necesidades, no es necesario hacer iteraciones; en otro caso si debe hacer otra iteración. Las iteraciones pueden ser para modificar el algoritmo, la técnica, afinar los datos o incluso los requerimientos.

Fase de evaluación e interpretación Se busca que los patrones descubiertos tengan las siguientes cualidades: Ser precisos Ser comprensibles Ser interesantes

Técnicas de evaluación Validación con datos conocidos, pero distintos a los usados en el entrenamiento. Validación simple: dividir el conjunto de datos en dos: un conjunto de entrenamiento y uno pequeño de prueba, los de prueba no se deben usar en el entrenamiento.

Técnicas de evaluación Validación cruzada: cuando se tiene pocos datos, el conjunto se divide en dos: A y B; la división es aleatoria y los conjuntos son del mismo tamaño, primero se entrena el modelo con los datos de A y se validan con B, se calcula el error; se entrenan los datos con B, se validan con A y se calcula el error, finalmente se entrenan con ambos, y se usa el modelo con el menor error

Técnicas de evaluación Validación cruzada con n pliegues: Es una variación de la cruzada, y consiste en dividir el conjunto en n grupos; se usa uno para el entrenamiento y n-1 para pruebas, se calcula el error y se repite el proceso n veces cambiando el conjunto de entrenamientos.

y como medimos si funciona? Dependiendo del problema. Para cada problema tenemos una medida de evaluación.

Medidas de evaluación Dependiendo del problema, para clasificación se mide la precisión predictiva, p=c/n c es el número de instancias del conjunto de prueba clasificadas correctas n es el número de instancias totales Se busca maximizar el valor de p tanto para el conjunto de entrenamiento como para el de prueba

Medidas de evaluación Para reglas de asociación, se evalúa de forma separada cada regla, considerando: Cobertura o soporte = #de instancias a las que la regla aplica y predice correctamente Confianza: proporción de instancias que la regla predice correctamente,= cobertura/# de reglas a las que se puede aplicar

Medidas de evaluación Para regresión, se evalúa el error cuadrático medio calculado como el promedio de los cuadrados de los valores esperados- valores calculados

Medidas de evaluación Para agrupamiento, la medida aplicada dependerá del método utilizado para su implementación, que de forma general miden la cohesión de los grupos, como por ejemplo la distancia media al centro, la distancia media entre grupos; o bien la densidad

Relación tarea -medida En equipos de dos integrante complemente la tabla de tareas de minería especificando la medida a evaluar en cada tarea.

Interpretación y contextualización Las medidas de evaluación debe ser llevadas al contexto específico, ya que este influye en la evaluación del modelo e interpretación de los resultados p.e. para un problema de clasificación con distribuciones de clases no balanceas un valor alto de precisiones no es sinónimo de eficiencia, (si una clase acumula el 90% de la población, y la precisión es.9, pude no saber clasificar a los elementos de clase minoritaria)

Interpretación y contextualización Para contemplar otros aspectos, se pueden usar herramientas como la matriz de costos de clasificación que es un tipos especial de matriz de confusión. Cuando no es viable estimar los costos de los errores se pude aplicar el análisis ROC (Receiver Operating Characteristic)

Fase de difusión y uso El uso de los modelos (generados y validados) se enfoca en dos escenarios: Para recomendar acciones con base en los resultados del modelo (ya se usado por una persona o un sistema) Para aplicar el modelo en distintos conjuntos de datos.

Fase de difusión y uso Es necesaria la difusión de los resultados obtenidos entre los posibles usuarios. Y dar seguimiento para la evolución del modelo, evaluándolo periódicamente ya que los patrones pueden evolucionar. Se pude requerir un ajuste o reconstrucción del modelo

Bibliografía básica Hernández Orallo, J., M. J. Ramírez Quintana, et al. (2004). Introducción a la Mineria de Datos. España, Pearson Educación SA. Han, D. J. (2007). Principles of Data Mining, MIT Press. Maimon, O. Z. and L. Rokach (2005). Data mining and knowledge discovery handbook. USA, Springer. Pérez López, C. and D. Santín Gonzalez (2006). Data Mining-Soluciones Con Enterprise Miner. México, Alfaomega, Ra-Ma. Sumathi, S. and S. N. Sivanandam (2006). Introduction to data mining and its applications. Berlín, Germany, Springer-Verlag New York Inc. Tan, P. N., M. Steinbach, et al. (2005). Introduction to data mining, Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA.

Bibliografía complementaria Everitt, B.S. (1994). A Handbook of Statistical Analyses using S-Plus. Chapman and Hall. Inmon, W.H. (1996). Building the Datawarehouse. J.Wiley & Sons. Han, J. and M. Kamber (2006). Data mining: concepts and techniques, Morgan Kaufmann. Kimball, R (1996). The Data Warehouse Toolkit. John Wiley & Sons. Hastie, T., R. Tibshirani, et al. (2005). The elements of statistical learning: data mining, inference and prediction, Springer Dunham. H. Margaret (2003). Data Mining. Introductory and Advanced Topics, Prentice Hall. Pyle, D. (1999), "Data Preparation for Data Mining", Morgan Kaufmann, San Francisco, CA. Hand, David; Mannila, Heikki; Smyth, Padhraic (2001), Principles of Data Mining, A Bradford Book. The MIT Press. Ian Witten and Eibe Frank (2002), Data Mining, Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers.