Introducción a la minería de datos. Necesidades asociadas



Documentos relacionados
Introducción a la minería de datos y el descubrimiento del conocimiento en bases de datos

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Trabajo final de Ingeniería

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

MINERIA DE DATOS Y Descubrimiento del Conocimiento

CONSIDERACIONES GENERALES DEL WEB MINING

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Base de datos II Facultad de Ingeniería. Escuela de computación.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Minería de Datos. Vallejos, Sofia

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Presentación de Pyramid Data Warehouse

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Minería de Datos. Vallejos, Sofia

Visión global del KDD

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Sistemas de Información 12/13 La organización de datos e información

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Habilidades y Herramientas para trabajar con datos

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

PLAN DE TRABAJO DOCENTE 2013

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

Business Intelligence

Resultados de Marketing Directo Utilizando Conceptos de Segmentación. RFM: Recency, Frequency, Monetary Value.

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Curso del Data Mining al Big Data

Fundamentos de la Inteligencia de Negocios

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

UN PASEO POR BUSISNESS INTELLIGENCE

DATA WAREHOUSING (ENERO DE 2003) Documento creado por Ing. Héctor H. Martínez Orpinel

Introducción a la Minería de Datos

Proceso del KDD (minería de datos o DataMining)

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Fundamentos del diseño 3ª edición (2002)

Data Mining Técnicas y herramientas

Elementos requeridos para crearlos (ejemplo: el compilador)

Familia de Windows Server 2003

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BUSINESS INTELLIGENCE

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

Planificación, Administración n de Bases de Datos. Bases de Datos. Ciclo de Vida de los Sistemas de Información. Crisis del Software.

Diplomado Business Management

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

Sistema de análisis de información. Resumen de metodología técnica

Inteligencia de Negocios. & Microsoft Excel 2013

Microsoft SQL Server Conceptos.

Sistemas de Inteligencia de Negocios

Parte I: Introducción

ASIGNATURA: Tecnologías de Información y Comunicación II

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Introducción a la Minería de Datos (Data Mining)

DATA WAREHOUSE DATA WAREHOUSE

Sistemas de Data Warehousing

GENERALIDADES DE BASES DE DATOS

DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA

Botón menú Objetivo de la Minería de datos.

El almacén de indicadores de proceso de negocio en ejecución

MAESTRÍA EN INGENIERÍA DE COMPUTACIÓN Y SISTEMAS CON MENCIÓN EN GESTIÓN DE TECNOLOGÍAS DE LA INFORMACIÓN

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Tema 1. Conceptos básicos

BASES DE DATOS, MODELOS DE DATOS Y DBMS

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un

CLASIFICACIÓN NO SUPERVISADA

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012.

Encuesta Permanente de Hogares

Servicio de Difusión de la Creación Intelectual (SeDiCI)

Tecnología aplicada a la toma de decisiones o malas decisiones en tecnología?

Unidad 1. Fundamentos en Gestión de Riesgos

Describir una metodología sistemática de análisis de los procesos organizacionales y cómo estos pueden ser apoyados por las TI.

Soluciones Integrales en Inteligencia de Negocios

Capítulo 2 Tecnología data warehouse

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos de la Inteligencia de Negocios

Presentación. 29/06/2005 Monografía de Adscripción 1

METODOLOGÍA PARA REALIZAR UNA AUDITORÍA INFORMÁTICA.

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

Tema 4 Conceptos básicos de contabilidad de gestión

Datamining Introducción

LENGUAJES DE CONSULTA ORIENTADOS A OBJETOS

Transcripción:

Universidad Nacional de La Pampa Facultad de Ciencias Económicas y Jurídicas Introducción a la minería de datos. Necesidades asociadas Mg. Ing. Mario José Diván mjdivan@divsar.com.ar

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 2

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 3

Qué es data mining? [1/6] La aplicación de técnicas en grandes volúmenes de datos para descubrir información interesante, útil, aplicable y no trivial 1. Características fundamentales de la definición: 1. Very large databases (VLDB) 2. Descubrir 3. Información 4. Interesante 5. Útil 6. Aplicable 7. No trivial 30/10/2006 Total de diapositivas: 43 4

Qué es data mining? [2/6] 1. Qué es un patrón? Síntesis o representación del conocimiento obtenido desde una base de datos 2. Cuándo un patrón es interesante? 1. Interés 2. Oportuno 3. Aplicable 4. No trivial 5. Nuevo 6. Fácil de entender 3. Un algoritmo debe buscar todos los patrones interesantes? 4. Importancia del conocimiento del dominio del negocio donde se aplicará data mining 30/10/2006 Total de diapositivas: 43 5

Qué es data mining? [3/6] Importancia del conocimiento del dominio del negocio donde se aplicará data mining Detección de los procesos de negocios centrales (Core Business) Detección de los procesos de negocios de soporte Trazabilidad del dato hasta la fuente de generación Nivel Estratégico Procesos de Negocios Nivel Táctico Sistemas de Información Nivel Operativo información 30/10/2006 Total de diapositivas: 43 6

Qué es data mining? [4/6] 1. Información versus dato Características: Interés Oportuna Veraz Consistente 2. Concepto de modelo, adaptación del modelo y error 30/10/2006 Total de diapositivas: 43 7

Qué es data mining? [5/6] [ ] Most data mining algorithms can be viewed as compositions of a few basics techniques and principles [ ], consist largely of some specific mix of three components: The model: There are two relevants factors: Function of the model: Eg. Classification and clustering and the Representational form: linear function of multiple variables and a gaussian probability density function. A model contains parameters that are to be determinated from the data. [ ] The preference criterion: [ ] The search algorithm: The specification of an algorithm for finding particular models and parameters, given data, model and a preference criterion.[ ] A parituclar data mining algorithm is usually a instantiation of the model/preference/search components (*) (*) Usama Fayyad & Ramazamy Uthurusamy; Data mining and Knowledge Discovery in Databases ; Communications of ACM, vol 39 Nro. 11, Noviembre de 1996 30/10/2006 Total de diapositivas: 43 8

Qué es data mining? [6/6] Siempre es necesario utilizar data mining? SQL Reporting OLAP Planillas de cálculo Entre otras (*) Chris Rogers; Database Desgins for Data Warehouse Solutions ; Sysbase, 2000. 30/10/2006 Total de diapositivas: 43 9

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 10

Qué no es data mining? 1. No es un software estadístico 2. No es un sistema experto 3. No es consulta sobre bases de datos 30/10/2006 Total de diapositivas: 43 11

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 12

Causas del surgimiento del DM&KDD 1. Crecimiento del volumen de datos Costos de almacenamiento en decrecimiento Poca información ejecutiva, demasiados datos operativos Poco aprovechamiento de los datos históricos 2. Problemas en la exposición de información 3. Surgimiento e implementación del concepto de data warehouse, data marts, corporate informatio factory (CIF) 30/10/2006 Total de diapositivas: 43 13

Causas del surgimiento del DM&KDD 1. Componentes del Corporate Information Factory (CIF) 30/10/2006 Total de diapositivas: 43 14

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 15

Knowledge Discovery in Databases (KDD) Selección Preprocesamiento de datos Escoger la función de data mining Ejecutar el algoritmo Escoger el algoritmo de data mining Interpretación Uso del conocimiento Datos trabajados Conjunto de datos objetivo Fuentes de datos Conocimiento del negocio 30/10/2006 Total de diapositivas: 43 16

KDD -> Conocimiento del Negocio Qué es conocer el negocio? Identificar los procesos centrales de la empresa (Core Business) Identificar los procesos de soporte de la empresa Identificar el proceso de generación de datos a través de los procesos empresariales Esquema conceptual de los procesos funcionales del laboratorio de análisis de la Administración Provincial del Agua (APA) La Pampa, Argentina- 30/10/2006 Total de diapositivas: 43 17

KDD -> Fuentes de datos Sobre qué datos puede aplicarse minería de datos? Identificar las fuentes de datos de los sistemas de información Identificar las fuentes de datos transaccionales Obtener la estructura de las fuentes de datos Analizar si existe redundancia intra e inter fuentes de datos Analizar si existe riesgos de pérdida de información en la estructura Analizar la semántica de la estructura de datos (Precaución con las unidades de medida de los datos) Ver esquema relacional Identificar las fuentes de datos orientadas a las consultas Obtener el modelado del esquema de bases de datos orientado a consultas Hechos versus métricas Identificar hechos y métricas de la estructura multidimensional Ver esquema multidimensional 30/10/2006 Total de diapositivas: 43 18

KDD -> Fuentes de datos -Selección- OLTP Data warehouse Data Mart OLAP Sistemas legados y otras fuentes Selección Problemas comunes de la integración y transformación Redundancia directa e indirecta Inconsistencia (debe decidirse) Unidades de medida para el mismo atributo en diferentes BD Conjunto de datos objetivo 30/10/2006 Total de diapositivas: 43 19

KDD -> Datos trabajados -Preprocesamiento- Preprocesamiento Depurar la fuente de datos, problemas comunes: Ruido en los datos & Análisis de Outliers Inconsistencias Incompleto Valores faltantes Conjunto de datos objetivo Agregar información complementaria al conjunto de datos (dataset) Ejemplo: Medidas descriptivas y/o de tendencia, datos contextuales al dato como paridades cambiarias si son divisas, etc. Datos trabajados 30/10/2006 Total de diapositivas: 43 20

KDD -> Escoger el algoritmo de data mining Datos trabajados Elegir la función de data mining: Agrupamiento (Clustering) Reglas de asociación (Association Rules) Patrones secuenciales (Sequential Patterns) Series temporales Clasificación Predicción Función seleccionada Ejemplo: Clasificación, Algoritmos disponibles: CHAID CART C4.5 J48 ID3 CART Naive Bayes Entre otros 30/10/2006 Total de diapositivas: 43 21

KDD -> Interpretación CART 30/10/2006 Total de diapositivas: 43 22

KDD -> Uso del conocimiento Uso del conocimiento if (cliente_antiguedad <= 10,12 AND mcaja_ahorro_paquete<=611,85 AND mcajeros_propiso_descuentos<=2,36) { } Prob(No)=0,558 (*) No: El cliente del banco no va a comprar una nueva tarjeta de crédito 30/10/2006 Total de diapositivas: 43 23

KDD -> Metodologías de data mining CRISP-DM CRoss Industry Standard Process for Data Mining (http://www.crisp-dm.org) Basado en el proceso KDD Iniciativa de la industria patrocinada por SPSS, Teradata, DaimlerChrysler & Ohra. Etapas: Business understanding Data understanding Data preparation Modeling Evaluation Deployment 30/10/2006 Total de diapositivas: 43 24

KDD -> Metodologías de data mining SEMMA Sample, Explore, Modify, Model, Asses http://www.sas.com Acercamiento que combina un proceso estructurado con la organización lógica de las herramientas necesarias para soportar cada uno de los pasos Propiedad de SAS Institute Etapas: Sample Explore Modify Model Asses 30/10/2006 Total de diapositivas: 43 25

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 26

Contexto de las bases de datos frente al data mining Heterogeneidad en las fuentes de datos Tipología de las fuentes de datos: Estructuradas: Sistemas legados Archivos de texto BD relacionales BD orientadas a objetos BD temporales BD espaciales BD orientadas a consultas Entre otras Semi estructuradas: HTML XML Entre otras 30/10/2006 Total de diapositivas: 43 27

Contexto de las bases de datos frente al data mining Fuertemente recomendable: No desarrollar actividades asociadas a data mining sobre la misma plataforma (Hardware) que utilizan los sistemas transaccionales de la empresa. Razones: Los algoritmos de data mining son en general intensivos en procesamiento Los algoritmos hacen uso intensivo de memoria Data mining trabaja sobre VLDB, por lo que el tiempo de ejecución de los algoritmos puede ser elevado 30/10/2006 Total de diapositivas: 43 28

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 29

Principales funciones del data mining: Reglas de asociación (Association rules) Dado I = {i 1, i 2, i 3,, i n } Sea D un conjunto de datos relevantes a la tarea Sea T un conjunto de ítems / T I Cada transacción T es identificado por un atributo al que denominamos TID Una regla de asociación es una regla de la forma: A B/ A I B I A B φ Soporte (s): % de transacciones en D que contienen A U B, en términos estadísticos es la P(AUB) Confianza(s): % de transacciones en D que contienen A B, en términos estadísticos es la P( A B) 30/10/2006 Total de diapositivas: 43 30

Principales funciones del data mining: Reglas de asociación (Association rules) Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte mínimo (min_sup) y una confianza o confidencia mínima (min_conf). Frecuencia de ocurrencia de un itemset (conjunto de ítems): es el número de transacciones que contienen el itemset. Un itemset satisface un soporte mínimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al número de transacciones en D. Si el itemset satisface el soporte mínimo entonces se lo denomina itemset frecuente Principio A priori : Cualquier subconjunto no vacío de un itemset frecuente debe ser frecuente. 30/10/2006 Total de diapositivas: 43 31

Principales funciones del data mining: Reglas de asociación (Association rules) Ejemplos de reglas de asociación: Basadas en un tipo de valor: Compra(X, CD ) y Compra(X, Reproductor de CD ) => Compra(X, Reproductor MP3 ) Basadas en la dimensión del dato asociado: edad(x, 25 40 ) e Ingreso(X, 24k 48k ) => Compra(X, Palm ) Basadas en niveles de abstracción: edad(x, 25 40 ) => Compra(X, Notebooks ) edad(x, 25 40 ) => Compra(X, Computadoras ) Se tiene diferentes niveles de granularidad en las reglas Se dispone de una jerarquía de conceptos (productos para el ejemplo) Los ítems de niveles inferiores dispondrán de menos soporte 30/10/2006 Total de diapositivas: 43 32

Principales funciones del data mining: Reglas de asociación (Association rules) Si exige que las reglas expuestas posean igual soporte en todos los niveles: Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto implica que perder algunas reglas pero aquellas que cumplan las condiciones valdrían en un contexto general. Si cede a menores soportes en los niveles inferiores: Se corre el riesgo de que la regla no sirva para el contexto general. Una regla es redundante si su soporte está cercano a un valor esperado basado en la regla de un ancestro. En otras palabras, si bien desciende en el nivel de granularidad de la información, ésta no se traduce en el incremento del conocimiento. Ver ejemplo con WEKA 30/10/2006 Total de diapositivas: 43 33

Principales funciones del data mining: Concepto de patrones secuenciales (Sequential patterns) Una secuencia es una lista ordenada de itemsets Una secuencia es maximal si no es contenida por otra Cada secuencia maximal es un patrón secuencial Series temporales son un caso particular de los patrones secuenciales. La secuencia está dada por algún parámetros asociado al tiempo. Aplicaciones específicas: Retención de clientes Marketing focalizado 30/10/2006 Total de diapositivas: 43 34

Principales funciones del data mining: Clasificación y predicción Clasificación versus Predicción: Predice etiquetas de clases categóricas mientras que la predicción se basa en modelos de funciones valuadas-continua. Clasificación: Método supervisado Se compone de 2 etapas: 1. Construcción (Entrenamiento) 2. Poda (Pruning). 1. 1. Overfitting 2. 2. Objetivo del pruning Función de splitting Frena la construcción del árbol si: No existen más atributos que analizar o No existen más ejemplos que procesar o Todos los ejemplos para un nodo determinado poseen igual clase 30/10/2006 Total de diapositivas: 43 35

Principales funciones del data mining: Clasificación y predicción Clasificación Ver ejemplo en SPSS Predicción Predice el valor para una variable continua Modelos de funciones valuadas continua Ejemplos: Regresión lineal simple [Y= Bo + B1*X] Regresión lineal múltiple [Y= Bo + B1*x1+ B2*x2 + + Bn*Xn] Entre otros Ver ejemplo con Infostat Particionamiento del conjunto de datos para evitar el overfitting 30/10/2006 Total de diapositivas: 43 36

Principales funciones del data mining: Agrupamiento (Clustering) Conjunto de datos u objetos reunidos bajo una misma agrupación en función de alguna medida de similaridad que maximiza la varianza entre grupos y la minimiza dentro del mismo No supervisado Tipo de acercamientos Orientados al particionamiento: K-means: Relativamente eficiente Necesita que se especifique el k (cantidad de grupos a armar) No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética) K-medoids Ver ejemplo con Infostat No escala bien Buen desempeño en grupos de datos relativamente pequeños 30/10/2006 Total de diapositivas: 43 37

Principales funciones del data mining: Agrupamiento (Clustering) Tipo de acercamientos Continua Orientados al particionamiento: La principal diferencia entre K-means y k-medoids, es que en el primero el centro del cluster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo. Jerárquico Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar Emplea una matriz de distancia entre los registros, para n datos genera una matriz nxn que contiene dichas distancias y cuya diagonal principal es 0 Existen dos variantes: Aglomerativo: Va reuniendo elementos desde lo más particular hasta obtener el conjunto de datos completo Divisivo: Va particionando el conjunto de datos completo hasta llegar a la división mínima de los mismos Ver ejemplo con Infostat Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc. 30/10/2006 Total de diapositivas: 43 38

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 39

Algunas aplicaciones 1. Minería de datos aplicado al audio, por ejemplo: Detector de mentiras, Patrones secuenciales aplicados a seguridad, etc. 2. Minería de datos aplicado a la calidad de datos 3. Minería de datos como parte del proceso ETL (Extraction, Trasnformation & Load en Data Warehousing) 4. Minería de datos aplicado a la exploración de cuencas petroleras 5. Minería de datos aplicado al tráfico de comunicaciones (Detección de fraudes) 6. Web mining (Entorno semiestructurado): 1. Web usage mining: Análisis de logs de servidores para análisis del patrón de recorrido y consumo del cybernauta [Ej: Amazon] 2. Web content mining: hincapie en el contenido de los documentos 3. Web structure mining: se enfoca la web como grafo dirigido (Page rank, comunidades, etc) 7. Entre otras 30/10/2006 Total de diapositivas: 43 40

Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 41

Alguna de las líneas en desarrollo 1. Web mining: 1. Algoritmos 2. Semantic web 2. Minería de datos sobre data streams: 1. Data streams propiamente dicho dentro del área de bases de datos 2. Adecuación de funciones y algoritmos de data mining para data streams considerando respuestas on line y off line 3. Text Mining: 1. Problemática asociada al procesamiento del lenguaje natural 2. Adecuación y desarrollo de algoritmos para entornos semiestructurados 30/10/2006 Total de diapositivas: 43 42

Muchas gracias por su atención Es solo el inicio 30/10/2006 Total de diapositivas: 43 43