Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Documentos relacionados
Introducción Qué es Minería de Datos?

DIPLOMADO EN ESTADÍSTICA APLICADA

Aplicaciones empresariales

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.

Bodegas de Datos y OLAP. Introducción a la Bodegas de Datos

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

Capítulo 8. Análisis Discriminante

INDICE. Prólogo a la Segunda Edición

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

Redes bayesianas temporales para reconocimiento de escenarios

CM0244. Suficientable

Análisis Inteligente de Datos: Introducción

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

ESTADÍSTICA I PRESENTACIÓN DE LA ASIGNATURA

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

RECURSOS DE TI Aplicaciones - Bibliografía USO DE BD PARA MEJORAR EL DESEMPEÑO EMPRESARIAL

PR1: Programación I 6 Fb Sistemas Lógicos 6 Obligatoria IC: Introducción a los computadores 6 Fb Administración de

PROGRAMA DE ESTUDIOS. - Nombre de la asignatura : Taller de herramientas Estadísticas. - Pre requisitos : LCP 219 Estadística

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

Selección de fuentes de datos y calidad de datos

Introducción a la Minería de Datos

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

CARRERA DE INGENIERIA DE SISTEMAS

Breve introducción a la Investigación de Operaciones

MÓDULO: MÉTODOS CUANTITATIVOS

CÁLCULO DE PROBABILIDADES

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Análisis Multivariante de Datos en Psicología. Ana María López Curso

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Fase 2. Estudio de mercado: ESTADÍSTICA

Modelo Predictivo del Crimen para la Región Metropolitana

Estadística Inferencial. Estadística Descriptiva

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: ANÁLISIS DEL RIESGO ACTUARIAL Y FINANCIERO

Introducción a la Minería de Datos

Teoría de la decisión

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Métodos Predictivos en Minería de Datos

Facultad de Ciencias Sociales - Universidad de la República

PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TEMARIO DE PROFESORES DE ENSEÑANZA SECUNDARIA MATEMÁTICAS

UNIVERSIDAD AUTÓNOMA DE ZACATECAS PLAN ANALÍTICO

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

Visión global del KDD

Distribuciones muestrales. Distribución muestral de Medias

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

Programa de estudios. 1) Muestra y población. Parámetros estimadores y estadísticos. Distribución de Gauss. Intervalo de confianza

CRITERIOS DE EVALUACIÓN DEPARTAMENTO DE MATEMÁTICAS

MATEMÁTICAS 2º DE BACHILLERATO

Tema Contenido Contenidos Mínimos

Métodos Estadísticos Multivariados

Teorema Central del Límite (1)

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Método de cuadrados mínimos

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Tema 1: Introducción

1º CURSO BIOESTADÍSTICA

Complejidad de los Algoritmos

Material de cátedra: Unidad II - PSICOMETRÍA: Concepto, escalamiento, puntuaciones transformadas y normas

UNIVERSIDAD DEL NORTE

PROGRAMA DE ESTUDIOS

Porqué analizar imágenes?

Universidad de Guanajuato Tronco Común de Ingenierías

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Matemáticas II. Carrera: IFM Participantes. Representantes de la academia de sistemas y computación de los Institutos Tecnológicos.

Curso 2016/17 Grados en Biología y Biología Sanitaria Departamento de Física y Matemáticas Marcos Marvá Ruiz ESTADÍSTICA

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

Taller de Explotación de Resultados de I+D. AUDITORÍA TECNOLÓGICA

GUÍA DOCENTE. Matemáticas II

ESTADÍSTICA. Tema 4 Regresión lineal simple

Data Mining, Principios y Aplicaciones

MARIA. -Plan de Estudios- Doctorado en Informática

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Complejidad computacional (Análisis de Algoritmos)

VICERRECTORÍA ACADÉMICA FACULTAD DE CIENCIAS E INGENIERÍA INGENIERÍA SANITARIA INGENIERÍA AMBIENTAL

Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Estándares de evaluación en la materia de MATEMÁTICAS de 1º de ESO. Curso 2016/2017.

I UNIDAD METODOLOGÍA: RECOLECCIÓN DE DATOS

Programa de Asignatura Estadística

LOS CONTENIDOS DE MATEMÁTICAS EN LOS BACHILLERATOS ITALIANOS

FORMACIÓN AVANZADA EN MICROSOFT EXCEL Funciones avanzadas de Excel para mejorar la gestión y análisis de la información empresarial

DIPLOMADO EN MICROSOFT SQL SERVER 2008

Grupos autorizados 2015/16 del Plan Máster Universitario en Matemáticas. Facultad de Matemáticas. Cód. Asignatura. Cur. Tipo. Créd

>> Tecnologías clave << Captura de de información. Infraestructura. Técnicas de de Prototipado rápido

Planificación didáctica de MATEMÁTICAS 3º E.S.O.

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: FORMACIÓN FUNDAMENTAL. Créditos ECTS: 6 Presenciales: 5 No presenciales: 1

CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE EVALUABLES

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b

LOS SISTEMAS ADAPTATIVOS

Transcripción:

Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos en los datos. Proceso de extraer información o patrones interesantes (no triviales, implícitos, previamente desconocidos y potencialmente útiles) desde grandes repositorios. 2 de 39

Minería de datos Etapa principal y una etapa más del proceso global de descubrimiento de conocimiento en bases datos (KDD) (Hätönen et al., 1996). Siguen dos etapas: El postprocesamiento del conocimiento descubierto (selección de los patrones realmente interesantes, presentación de los patrones,...). Poner el conocimiento descubierto en uso. 3 de 39

Minería de datos La Minería de Datos es un proceso no elemental de búsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases, segmentos, los cuales que se obtienen de conjuntos de datos grandes que generalmente están en repositorios de datos (relacionales o no). Esta búsqueda se lleva a cabo utilizando métodos matemáticos, estadísticos o algorítmicos. 4 de 39

Descubrimiento de conocimiento Se considera al Descubrimiento de Conocimiento en Bases de Datos (KDD) como el proceso, lo más automatizado posible, que va de los datos elementales disponibles en un repositorio de datos a la decisión. El objetivo principal del Descubrimiento de Conocimiento en Bases de Datos (KDD) es crear un proceso automatizado que tome como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones. 5 de 39

Minería de datos contra KDD Usualmente ambos términos son intercambiables. Descubrimiento de conocimiento en bases de datos Es el proceso de encontrar información y/o patrones útiles en los datos. Minería de Datos Es el uso de algoritmos para extraer información y/o patrones derivados dentro del proceso KDD. 6 de 39

Minería de datos, etapa del KDD 7 de 39

Minería de datos contra estadística La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población, mientras que la minería de datos pretende buscar información útil usando toda la base datos. 8 de 39

Minería de datos contra estadística La estadística en la mayoría de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc.), mientras que la minería de datos usa técnicas mucho más exploratorias que vienen del aprendizaje de máquina o del análisis de datos, por ejemplo. 9 de 39

Minería de datos contra análisis de datos Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgió del matrimonio entre la informática y la estadística: el análisis de datos (conocido en francés como analyse des données y en inglés como exploratory data analysis). 10 de 39

Minería de datos contra análisis de datos Esta nueva manera de analizar los datos con un objetivo decisional usa mucho más la informática y los métodos analíticos (el análisis de factorial, la clasificación automática, la discriminación, etc.) que los métodos estadísticos clásicos, las pruebas de hipótesis, que parten de supuestos matemáticos muy difíciles de verificar en la práctica. Por ejemplo, no se supone que los datos siguen cierta distribución de probabilidad -los datos se muestran por sí mismos-. 11 de 39

Minería de datos contra análisis de datos A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con volúmenes de datos tan grandes. Entiéndase esto entonces cómo que la minería datos y el análisis de datos son ramas de ciencias diferentes, las ciencias de la computación y la matemática, respectivamente. 12 de 39

Minería de datos contra bodegas de datos Una bodega de datos es un almacén de datos de una compañía que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del históricos, datos evolutivos y posiblemente aquellos datos externos a la compañía pero que tienen una posible relación con las actividades de esta. Estos datos se depositan en una o más bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones. 13 de 39

Minería de datos contra bodegas de datos Evidentemente bodegas de datos y minería de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minería de datos. Podría decirse que ambos, las bodegas de datos y la minería de datos son partes del proceso KDD. 14 de 39

Minería de datos contra aprendizaje de máquinas Aprendizaje de máquinas Es un área de la Inteligencia Artificial (IA) que trata sobre como escribir programas que puedan aprender. En minería de datos es usualmente usado para predicción y clasificación. Se divide en dos: aprendizaje supervisado (aprendizaje por ejemplos). aprendizaje no supervisado. 15 de 39

Minería de datos: ciencia ecléctica 16 de 39

Tareas de la minería de datos Descriptivas: OLAP (visualización). Agrupamiento (clustering). Métodos Factoriales como ACP o AFC. Predictivas: Series de tiempo. Análisis discriminante. Regresión. Árboles de decisión. 17 de 39

Tareas de la minería de datos: agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado). Es similar a la clasificación, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridadde los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman. 18 de 39

Tareas de la minería de datos: agrupamiento Métodos Clasificación jerárquica (grupos disjuntos). Nubes dinámicas (grupos disjuntos). Clasificación piramidal (grupos NO disjuntos). 19 de 39

Tareas de la minería de datos: agrupamiento Análisis de grupos 20 de 39

Tareas de la minería de datos: agrupamiento Método de agrupamiento nubes dinámicas (k-means) 21 de 39

Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Ejemplos: Calificación de crédito (credit scoring). Métodos: Análisis discriminante, árboles de decisión, reglas de clasificación, redes neuronales. 22 de 39

23 de 39

Tareas de la minería de datos: análisis factorial Descubrimiento de factores (análisis factorial) El análisis factorial es un nombre genérico que se da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos). Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores. 24 de 39

Tareas de la minería de datos: análisis factorial Descubrimiento de factores (análisis factorial) Se puede considerar cada factor como una variable dependiente que es función del conjunto entero de las variables observadas. El objetivo central es el resumen y la reducción de datos. Métodos Análisis en componentes principales (ACP). Análisis factorial de correspondencias simples y múltiples (AFC). Análisis canónico (AC). Análisis discriminante (AD). 25 de 39

26 de 39

27 de 39

Tareas de la minería de datos: regresión Regresión Se usa una regresión para predecir los valores ausentes de una variable basándose en su relación con otras variables del conjunto de datos. Hay regresión lineal, no lineal, logística, logarítmica, univariada, multivariada, etc. 28 de 39

29 de 39

Tareas de la minería de datos: series de tiempo Series de tiempo Una serie de tiempo corresponde a un conjunto de observaciones hechas respecto a una variable en momentos equidistantes en el tiempo. Pasos 1. Xt: Serie de tiempo. 2. Corregir errores sistemáticos. 3. Transformaciones matemáticas. 4. Xt=Tendencia+Estacionalidad+Ciclos+Et. 5. Para Et (Si no es un ruido blanco) 1. Elegir el modelo (Box-Jenkings). 1. ARMA(p,q) (AutoRegressiveMovingAverage) 2. ARIMA(p,d,q) (AutoRegressive-IntegratedMovingAverage) 2. Estimar parámetros. 6. Pronósticos. 30 de 39

Tareas de la minería de datos: series de tiempo 31 de 39

Tareas de la minería de datos: resumen Resumen Los métodos de resumen asignan los datos a conjuntos (individuos de segundo orden) que tienen asociadas descripciones. Estos métodos permiten extraer o derivar datos representativos de una base de datos. Permite el análisis de conceptos. Métodos: Análisis de datos simbólicos. Lógica difusa. Análisis de intervalos.

Tareas de la minería de datos: asociación Asociación o análisis de afinidad Conocido como link analysis, se refiere a encontrar relaciones no evidentes en los datos. Métodos Reglas de asociación (association rules). Análisis de correlación y de causalidad. 33 de 39

Tareas de la minería de datos: secuencias Descubrimiento de secuencias Secuence analysis es usado para descubrir secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociación pero tales relaciones son basadas en el tiempo. Métodos Redes neuronales. Series de tiempo. 34 de 39

En qué tipos de datos? Bases de datos relacionales Bodegas de datos Bases de datos transaccionales Bases de datos avanzadas y repositorios de información Bases de datos orientadas a objetos y simbólicas. Bases de datos espaciales (sistemas de información geográfica). Series de tiempo y datos temporales. Bases de datos textuales y multimedia. Bases de datos heterogéneas y heredadas. World wide web (minería web). 35 de 39

Pasos del descubrimiento de conocimiento en bases de datos 1. Aprender el dominio de aplicación Conocimiento previo relevante y objetivos de la aplicación. 2. Crear un conjunto de datos objetivo: selección de los datos 3. Limpieza de los datos y preprocesamiento: ( puede tomer un 60% del esfuerzo!) 4. Reducción de datos y transformación Encontrar características útiles, reducción de variables/dimensionalidad, representación invariante. 5. Escoger funciones (métodos) de la minería de datos Resumen, clasificación, regresión, asociación, agrupamiento. 6. Escojer el (los) algoritmo(s) de minería de datos 7. Minería de datos: buscar patrones de interés 8. Evaluación de patrones y representación del conocimiento visualización, transformación, eliminar patrones redundantes, etc. 9. Uso del conocimiento descubierto 36 de 39

Minería de datos e inteligencia de negocios 37 de 39

Arquitectura de un sistema de minería de datos típico 38 de 39

Gracias por su atención! Preguntas?