Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Documentos relacionados

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Visión global del KDD

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Trabajo final de Ingeniería

Aprendizaje Automatizado

Data Mining Técnicas y herramientas

Datos estadísticos PRESENTACIÓN DE DATOS INDIVIDUALES Y DATOS AGRUPADOS EN TABLAS Y GRÁFICOS

MINERIA DE DATOS Y Descubrimiento del Conocimiento

1.1. Introducción y conceptos básicos

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Parte I: Introducción

Finanzas e Investigación de Mercados"

Introducción a la Minería de Datos

Cómo se usa Data Mining hoy?

Base de datos II Facultad de Ingeniería. Escuela de computación.

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

Minería de Datos. Vallejos, Sofia

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Minería de Datos. Vallejos, Sofia

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

Proceso del KDD (minería de datos o DataMining)

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

MARKETING Y COMERCIO ELECTRÓNICO

Portafolio de Servicios y Productos

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

activuspaper Text Mining and BI Abstract

UNIVERSIDAD DE SALAMANCA

Programación Genética

Introducción a la Minería de Datos (Data Mining)

2. Entorno de trabajo y funcionalidad en Arquímedes

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).

Análisis e Interpretación de Datos Unidad XI. Prof. Yanilda Rodríguez MSN Prof. Madeline Fonseca MSN Prof. Reina del C.Rivera MSN

TEMA 4: Introducción al Control Estadístico de Procesos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Árbol de decisión. Proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones.

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

HERRAMIENTAS DE LA CALIDAD

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

ETL: Extractor de datos georreferenciados

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Conclusiones. Particionado Consciente de los Datos

Análisis de Datos. Práctica de métodos predicción de en WEKA

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Operación Microsoft Access 97

Inteligencia de Negocio

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

II. Relación con Terceros

Curso Superior. Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS

SISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL

INTELIGENCIA EN REDES DE COMUNICACIONES

Capítulo 12: Indexación y asociación

Capítulo 9. Archivos de sintaxis

Generación de Números Pseudo-Aleatorios

Algoritmos de minería de datos incluidos en SQL Server Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

CURSO MINERÍA DE DATOS AVANZADO

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

CLASE10. Opciones Americanas Valuacion de Opciones Americanas.

Sumario... 5 Prólogo Unidad didáctica 1. Introducción a la minería de datos Objetivos de la Unidad... 10

Qué es?? Ventajas

Encuesta Permanente de Hogares

CLASIFICACIÓN NO SUPERVISADA

Curso del Data Mining al Big Data

Habilidades y Herramientas para trabajar con datos

El almacén de indicadores de proceso de negocio en ejecución

Anexo 11. Manual de Administración

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Análisis Competitivo Cómo enfrentar la competencia?

Unidad de aprendizaje 03: Diseño de Investigación. PROFESOR: José Loaiza Torres Administrador de Empresas Magister en Marketing

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

CAPITULO 2 DISEÑO DE GRAFICAS ESTADISTICO-ECONOMICAS DE CONTROL DE CALIDAD.

SISTEMAS Y MANUALES DE LA CALIDAD

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas

Datamining Introducción

Credit scoring. por Dr. Marcelo Dabós, Ph.D.

Resultados de Marketing Directo Utilizando Conceptos de Segmentación. RFM: Recency, Frequency, Monetary Value.

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

PROCEDIMIENTO ESPECÍFICO. Código A-VI-02-A-1 Edición 0

Técnicas de venta (nueva versión)

NIVEL: CICLO SUPERIOR DE GESTIÓN COMERCIAL Y MARKETING

Proceso de la I.C.: Definir el problema y los objetivos de la investigación. Desarrollar el plan de investigación.

Sistemas de Recuperación de Información

Darío Álvarez Néstor Lemo

TEMA 1. Introducción

La inteligencia de marketing que desarrolla el conocimiento

Transcripción:

Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1

Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones temporales. Terminología. 2

DEFINICIÓN Y APLICACIONES 3

Definición y aplicaciones (I) Data Mining (minería de datos): técnicas para la extracción de información oculta en grandes bases de datos. Grandes cantidades de información recopiladas en los últimos años (ámbitos financiero, metereológico, telefonía, medicina, investigación, supermercados, etc.). Fácil y barato recopilar información. Se piensa que la información puede ser útil. Pero el gran volumen la hace inmanejable, es imposible extraer la información útil y descartar la irrelevante. 4

Definición y aplicaciones (II) Dos posibles enfoques para el problema: Tradicional: Análisis manual realizado por un estadístico o un programador. Se requiere personal muy experimentado. Actual: Análisis automático o semiautomático mediante herramientas de fácil uso. No es necesario personal experto. DATA MINING. Origen del término DATA MINING Minería de datos: es necesario remover muchos datos (tierra) para extraer algo de información (metal). 5

Definición y aplicaciones (III) Relación con el aprendizaje automático: Se busca un modelo que explique o se ajuste a los ejemplos recopilados, igual que en aprendizaje automático. Se utilizan modelos similares: Árboles de decisión. Listas de reglas. Métodos bayesianos. Redes neuronales. Principal diferencia: los algoritmos están adaptados para poder trabajar sobre grandes bases de datos. 6

Definición y aplicaciones (IV) Principales aplicaciones: Marketing: estudio del comportamiento de consumidores a partir de datos recopilados (compra con tarjetas de crédito). Finanzas: estudio de mercados, de productos, de clientes, de préstamos, etc. Medicina: diagnóstico automático a partir de bases de datos con historias clínicas de pacientes. Distribución de energía: pervisiones de demanda a partir de datos históricos. Redes de telefonía o datos: previsiones de demanda, de ocupación de líneas, de anchos de banda utilizados a lo largo del día, etc. Detección de fallos: en cadenas de producción, en centrales de producción de energía, etc. 7

GRUPOS DE TÉCNICAS 8

Grupos de técnicas (I) 3 grupos de técnicas principales: Visualización. Ayudas para el descubrimiento manual de información. Se muestran tendencias, agrupamientos de datos, etc. Funcionamiento semiautomático. Verificación. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a él. Se establecen medidas de ajuste al modelo. Descubrimiento. Se busca un modelo desconocido de antemano. Descubrimiento descriptivo: se busca modelo legible. Descubrimiento predictivo: no importa que el modelo no sea legible. 9

Grupos de técnicas (II) Técnicas de visualización: Visualización en 2D de datos multidimensionales. Problema con múltiples atributos: Vibraciones. Temperatura. Horas funcionamiento. Meses desde revisión Se calculan las distancias entre cada 2 instancias de entrenamiento. d 2 2 2 ( x,x ) = ( temp temp ) + ( vib vib ) + ( horas horas ) + ( rev ) 2 1 2 1 2 1 2 1 2 1 rev 2 Se crea un gráfico 2D en el que cada instancia corresponde a un punto y en el que las distancias entre instancias son lo más parecidas posible a las distancias reales. 10

Grupos de técnicas (III) Ejemplo de visualización: At1 At2 At3 At4 At5 At6 Dim.2 Ej. 1 Ej. 2 7 6 2 Ej. 3 9 5 Ej. 4 Ej. 5 1 4 Ej. 6 8 3 Ej. 7 Ej. 8 Ej. 9 Dim.1 11

Grupos de técnicas (IV) Técnicas de verificación: Se conoce de antemano un modelo y se desea verificar si es un buen modelo para el conjunto de instancias disponible. Medidas utilizadas: soporte y precisión. Soporte: dada una regla, porcentaje de instancias que cumplen sus condiciones. Precisión: dada una regla, porcentaje de casos en los que la regla se cumple. soporte si (temp=alta) y (vibr=altas) entonces (fallará) precisión Interesan soporte y precisión altos. 12

Grupos de técnicas (V) Técnicas de descubrimiento. Descriptivo: se busca un modelo legible. Clustering (agrupamiento). Resumen. Generación de reglas en cualquier formato. Justifican la clase (ej. árboles de decisión). Justifican cualquier relación (ej. reglas de asociación). Predictivo: no importa si el modelo no es legible. Clasificación. Análisis de series temporales (predicción). Regresión. 13

EFICIENCIA COMPUTACIONAL 14

Eficiencia computacional (I) Ejemplo: procesamiento paralelo para crear un árbol de decisión. Objetivo: elegir el atributo más apropiado para cada nodo, pero con un gran número de datos. Dos posibles estrategias: Con movimiento de datos entre procesadores. Sin movimiento de datos entre procesadores. 15

Eficiencia computacional (II) Con movimiento de datos entre procesadores. 1. Reparto aleatorio de ejemplos (instancias) entre los procesadores. 2. En cada procesador, ajuste de una función de distribución de probabilidad de los valores de los atributos. 3. Recopilación de resultados (funciones) y envío a un único procesador. 4. En ese procesador se elige el atributo a utilizar en el nodo correspondiente del árbol. 5. Se repite el proceso para todos los nodos. 16

Eficiencia computacional (III) Sin movimiento de datos entre procesadores. 1. Nodo raíz: se elige el atributo como en el caso anterior. 2. Los ejemplos correspondientes a cada rama (desde el nodo anterior) se llevan a un conjunto distinto de procesadores. 3. Cada grupo de procesadores trabaja independientemente sobre su rama del árbol. 4. El reparto continúa hasta que el número de ramas es igual al número de procesadores. 5. Cada procesador trabaja independientemente hasta completar su rama del árbol. 17

BÚSQUEDA DE PATRONES TEMPORALES 18

Búsqueda patrones temporales (I) Ejemplo de la dificultad que puede alcanzar la extracción de información en bases de datos. Trabajaremos sobre un problema médico: Se dispone de historias clínicas de múltiples pacientes. Se desean extraer secuencias de comportamientos que se repitan con frecuencia. Los atributos son los síntomas detectados o las mediciones tomadas en cada revisión: Temperatura. Presión. Medidas en análisis (porcentajes). Etc. 19

Búsqueda patrones temporales (II) Algoritmo: 1. Ordenación temporal de los registros de cada paciente. PACIENTE 1 PACIENTE 2 PACIENTE 3 ATRIBUTOS ATRIBUTOS ATRIBUTOS D Í A S D Í A S D Í A S PACIENTE 4 PACIENTE 5 PACIENTE 6 ATRIBUTOS ATRIBUTOS ATRIBUTOS D Í A S D Í A S D Í A S 20

Búsqueda patrones temporales (III) 2. Búsqueda de combinaciones de atributos (síntomas) que se repiten en un mismo día simultáneamente con alta frecuencia (entre todos los pacientes). 3. Se descartan todos los restantes días (combinaciones de atributos que no se repiten con frecuencia). 4. Sobre la lista ordenada restante, se buscan secuencias repetidas. 21

Búsqueda patrones temporales (IV) 4. Búsqueda de secuencias repetidas: Múltiples pasadas sobre la base de datos. Se comienza con secuencias de un elemento (las de la etapa anterior). En cada pasada se añade un nuevo elemento para crear nuevas secuencias candidatas. Las secuencias candidatas se evalúan, sólo se mantienen aquellas cuya frecuencia de repetición supera un cierto umbral. 5. Poda de las secuencias: Se eliminan todas las secuencias que están contenidas en otra secuencia más larga. 22

TERMINOLOGÍA 23

Terminología (I) KDD: Knowledge discovery in databases. Engloba más aspectos que Data Mining: Preprocesados de los datos: Eliminación de ruidos. Cambios de variable y transformaciones (extracción de características mediante PCA, ICA, etc. Se verá en otra asignatura). Data mining o extracción de información. Procesos posteriores: Interpretación de resultados. Generación de informes. 24

Terminología (II) EDD: Exploratory Data Analysis. Engloba más aspectos que Data Mining: Preprocesados de los datos: Eliminación de ruidos. Cambios de variable y transformaciones (extracción de características mediante PCA, ICA, etc. Se verá en otra asignatura). Data mining o extracción de información. Procesos posteriores: Interpretación de resultados. Generación de informes. 25

Terminología (III) Text mining. Búsqueda de patrones en textos. Búsqueda de documentos similares en bases de datos. Asociación automática de palabras clave (keywords) a documentos. Búsqueda de datos concretos (en tablas, por ejemplo) en grandes bases de datos de documentos. En ningún caso son procesos triviales. 26

Terminología (IV) Web mining. Búsqueda de datos en internet. Múltiples buscadores: Google, etc. No se trata de simples búsquedas en bases de datos. El indexado es muy complejo: Por cada palabra (o grupo de palabras), se crean índices indicando el número de ocurrencias en cada documento. Se comprime la información mediante PCA, ICA o RP (se verán métodos en otra asignatura). 27

Aprendizaje Automático y Data Mining Bloque IV DATA MINING 28