Introducción a la Prospección de Datos Masivos ( Data Mining )



Documentos relacionados
Introducción a la Prospección de Datos Masivos ( Data Mining )

Área Académica: Sistemas Computacionales. Profesor: Felipe de Jesús Núñez Cárdenas

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

OPTATIVA I: MINERIA DE DATOS

Extracción Automática de Conocimiento en Bases de Datos e Ingeniería del Software

Bases de datos y bases de conocimiento

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Visión global del KDD

Área Académica: Sistemas Computacionales. Tema: Explotación de un Almacén de Datos: Herramientas OLAP. Profesor: Mtro Felipe de Jesus Nuñez Cardenas

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

TÓPICOS AVANZADOS DE BASES DE DATOS

GUÍA DOCENTE TITULACIONES DE GRADO

Secretaría de Docencia Dirección de Estudios Profesionales

Aprendizaje Computacional. Eduardo Morales y Jesús González

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Minería de Datos. Vallejos, Sofia

DATA WAREHOUSE Y DATA MINING APLICADOS AL ESTUDIO DEL RENDIMIENTO ACADÉMICO Y DE PERFILES DE ALUMNOS

Encuesta Permanente de Hogares

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

Minería de Datos. Vallejos, Sofia

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Data Warehouse y Data Mining Aplicados al Estudio del Rendimiento Académico

Trabajo final de Ingeniería

Darío Álvarez Néstor Lemo

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

José Hernández Orallo Mª. José Ramírez Quintana

Guía docente de la asignatura

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas

Métodos Exploratorios en Minería de Datos

PLAN DE TRABAJO DOCENTE 2013

UN PASEO POR BUSISNESS INTELLIGENCE

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático

ÍNDICE. Introducción... Capítulo 1. Inteligencia de negocios y sistemas de información. Informes... 1

Introducción a la Minería de Datos (Data Mining)

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Trabajo Practico N 12

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Base de datos II Facultad de Ingeniería. Escuela de computación.

Gestión de Información en Cuentas Nacionales de Chile

Contenido XIII. Capítulo 1. Capítulo 2. Alfaomega. Bases de datos - Reinosa, Maldonado, Muñoz, Damiano, Abrutsky

Data Mining Técnicas y herramientas

Habilidades y Herramientas para trabajar con datos

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

(Procesos de Minería de Datos)

Visión General GXplorer. Última actualización: 2009

SISTEMAS DE SOPORTE GERENCIAL

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

arquitectura que maneja. Encontraremos también los diferentes servidores que

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

Introducción a la Minería de Datos

71 datos Utilización de los servicios de transformación de datos de SQL

IFCD02 Administración de Business Intelligence y Datawarehousing

Minería de datos (Presentación del curso)

Sistemas de información

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Fases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:

Datamining Introducción

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Fernando Gutiérrez-Cabello. Data Discovery y visualizaciones en MicroStrategy 10

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS MAESTRÍA EN CIENCIAS DE LA INFORMACIÓN Y LAS COMUNICACIONES MINERÍA DE DATOS

Anexo 1: MATRIZ DE CONGRUENCIA. Objetivo. Problema. Problema. Objetivos. Hipótesis General. Teórico. General. Especifico. Específicos.

ENSIA 605 Inteligencia de Negocios y Minería de Datos

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

Microsoft SQL Server Conceptos.

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

Inteligencia de Negocio

Ernesto Gamaliel Acosta Gabriela Castillo Granados Antonio de Jesús Pérez Maldonado

Grupo de investigación en Minería de Datos

Qué es Clé Manager? Clé-Manager, permite que todas las personas que intervienen en proceso de requerimientos, tengan conocimiento de, cual es:

Bases de datos para toma de decisiones

Web mining y obtención de información para la generación de

CURSO MINERÍA DE DATOS AVANZADO

1.-DATOS DE LA ASIGNATURA

Introducción a la Prospección de Datos Masivos ( Data Mining )

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

MS_20467 Designing Self-Service Business Intelligence and Big Data Solutions

CLASIFICACIÓN NO SUPERVISADA

Introducción a la Minería de Datos y al Aprendizaje Automático

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

FOREST BPMS. Arquitectura Forest BPMS. Metodologia de implementación. Fase I Instalación

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

Parte I: Introducción

Minería de datos para la determinación del grado de exclusión social

Pontificia Universidad Católica del Ecuador

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

Transcripción:

Temario Introducción a la Prospección de Datos Masivos ( Data Mining ) José Hernández Orallo jorallo@dsic.upv.es Transparencias y otra documentación en: http://www.dsic.upv.es/~jorallo/master/ Máster de Ingeniería del Software. DSIC 1. Introducción 1.1. Motivación 1.2. Problemas tipo y aplicaciones 1.3. Relación de DM con otras disciplinas 2. El proceso de KDD 2.1. Las Fases del KDD 2.2. Tipología de Patrones de Minería de Datos 2.3. Ejemplo 3. Técnicas de Minería de Datos 3.1. Taxonomía de Técnicas. 3.2. Evaluación de Hipótesis 3.3. Técnicas no supervisadas y descriptivas. 3.4. Técnicas supervisadas y predictivas. 4. Desarrollo e Implantación 4.1. Comerciales 4.2. Tendencias 4.3. Para saber más 2 4. Desarrollo e Implantación de DM 4.1. Comerciales 4.2. Tendencias 4.3. Para saber más 3 Elder Research, www.dataminglab.com 4 Tipos de : Standalone: Los datos se deben exportar/convertir al formato interno del sistema de data mining: Knowledge Seeker IV (Angoss International Limited, Groupe Bull). On-top: funcionan sobre un sistema propietario (microstrategy sobre Oracle). Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM... Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de interfaz con los datos, estadísticas y visualización, y los algoritmos de aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER). 5 Producto Compañía Técnicas Plataformas Interfaz Knowledge Seeker Angoss Decision Trees, Statistics Win NT ODBC http://www.angoss.com/ CART Salford Systems Decision Trees UNIX/NT www.salford-systems.com Clementine SPSS/Integral Solutions Limited (ISL) Decision Trees, ANN, Statistics, Rule Induction, UNIX/NT ODBC www.spss.com Association Rules, K Means, Linear Regression. Data Surveyor Data Distilleries Amplio Abanico. UNIX ODBC http://www.datadistilleries.com/ GainSmarts Urban Science Especializado en gráficos de ganancias en campañas UNIX/NT www.urbanscience.com de clientes (sólo Decision Trees, Linear Statistics y Logistic Regression). Intelligent Miner IBM Decision Trees, Association Rules, ANN, RBF, Time UNIX (AIX) IBM, DB2 http://www.ibm.com/software/data/iminer Series, K Means, Linear Regression. Microstrategy Microstrategy Datawarehouse sólo Win NT Oracle www.microstrategy.com Polyanalyst Megaputer Symbolic, Evolutionary Win NT Oracle, ODBC http://www.megaputer.com/html/polyanal yst4.0.html Darwin Oracle Amplio Abanico (Decision Trees, ANN, Nearest UNIX/NT Oracle http://www.oracle.com/ip/analyze/wareho Neighbour) use/datamining/index.html Enterprise Miner SAS Decision Trees, Association rules, ANN, regression, UNIX (Sun), Oracle, ODBC http://www.sas.com/software/components clustering. NT, Mac /miner.html SGI MineSet Silicon Graphics association rules and classification models, used for UNIX (Irix) Oracle, Sybase, http://www.sgi.com/software/mineset/ prediction, scoring, segmentation, and profiling Informix. Wizsoft/Wizwhy http://www.wizsoft.com/ Esta tabla se actualiza en: http://www.dsic.upv.es/~jorallo/master/ 6 1

Más software comercial DM: http://www.kdcentral.com/software/data_mining/ http://www.the-data-mine.com/bin/veiw/software/webindex Algunos Prototipos No Comerciales o Gratuitos: Kepler: sistema de plug-ins del GMD (http://ais.gmd.de/kd/kepler.html). Rproject: herramienta gratuita de análisis estadístico (http://www.r-project.org/) Librerías WEKA (http://www.cs.waikato.ac.nz/~ml/weka/) (Witten & Frank 1999) www.spss.com Herramienta que incluye: fuentes de datos (ASCII, Oracle, Informix, Sybase e Ingres). interfaz visual. distintas herramientas de minería de datos: redes neuronales y reglas. manipulación de datos (pick & mix, combinación y separación). 7 8 Ejemplo Práctico: Ensayo de Medicamentos http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-ohp-final_3.html Un número de pacientes hospitalarios que sufren todos la misma enfermedad se tratan con un abanico de medicamentos. 5 medicamentos diferentes están disponibles y los pacientes han respondido de manera diferente a los diferentes medicamentos. Problema: qué medicamento es apropiado para un nuevo paciente? 9. Ejemplo Práctico: Ensayo de Medicamentos Primer Paso: ACCEDIENDO LOS DATOS: Se leen los datos. Por ejemplo de un fichero de texto con delimitadores. Se nombran los campos: age sex BP Cholesterol Na K drug edad sexo presión sanguínea (High, Normal, Low) colesterol (Normal, High) concentración de sodio en la sangre. concentración de potasio en la sangre. medicamento al cual el paciente respondió satisfactoriamente. SE PUEDEN COMBINAR LOS DATOS: P.ej. se puede añadir un nuevo atributo: Na/K 10 Segundo Paso: Familiarización con los Datos. Visualizamos los registros: Permite seleccionar campos o filtrar los datos Permite mostrar propiedades de los datos. Por ejemplo: Qué proporción de casos respondió a cada medicamento? 11 12 2

Permite encontrar relaciones. Por ejemplo: La relación entre sodio y potasio se muestra en un gráfico de puntos. Se puede observar a simple vista que los pacientes con alto cociente Na/K responden mejor al medicamento Y. Pero queremos una clasificación para todos los medicamentos. Es decir, nuestro problema original: Cuál es el mejor medicamento para cada paciente? 13 Se observa una dispersión aparentemente aleatoria (excepto para el medicamto. Y) Tercer Paso: Construcción del Modelo Tareas a realizar en Clementine: Filtrar los campos no deseados. Definir tipos para los campos. Construir modelos (reglas y redes) 14 Se sigue este proceso en Clementine. Además el sistema lo visualiza: Permite examinar las reglas: A partir de 2000 ejemplos entrena la red y construye las reglas. 15 Las reglas extienden el mismo criterion que se había descubierto previamente: es decir, medicamento Y para los pacientes con alto cociente 16 Na/K. Pero además añaden reglas para el resto. EJEMPLO: SAS ENTERPRISE MINER (EM) Herramienta completa. Incluye: conexión a bases de datos (a través de ODBC y SAS datasets). muestreo e inclusión de variables derivadas. partición de la evaluación del modelo respecto a conjuntos de entrenamiento, validación y chequeo. distintas herramientas de minería de datos: varios algoritmos y tipos de árboles de decisión, redes neuronales, regresión y clustering. comparación de modelos. conversión de los modelos en código SAS. interfaz gráfico. Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, 17 modificar y grabar. EJEMPLO: SAS ENTERPRISE MINER (EM) (flujo del proceso KDD) 18 3

EJEMPLO: Oracle: Herramientas Business Intelligence y Data Mining http://www.oracle.com/ip/analyze/warehouse/bus_intell/index.html Tienen una orientación más empresarial y de sistemas de información. Herramientas de OLAP, Datawarehouse e Informes Avanzados: SAS ENTERPRISE MINER (EM) Selección (assessment) de modelos Oracle Express Server. Sales Analyzer and Financial Analyzer. Oracle Express Objects and Oracle Express Analyzer. Oracle Discoverer and Oracle Reports. Herramientas propias de Minería de Datos: Oracle Darwin. (incluido ya en Oracle9i) http://www.oracle.com/ip/analyze/warehouse/datamining/index.html 19 20 Tendencias MS SQL SERVER: Analysis Services OLAP Services de SQL Server 97 se amplió a partir de SQL Server 2000 con características de DM en el llamado Analysis Services. Se fundamenta en el OLE DB for Data Mining : extensión del protocolo de acceso a BB.DD. OLE DB. Implementa una extensión del SQL que trabaja con DMM (Data Mining Model) y permite: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones 21 80s y principios 90s: OLAP: consultas predefinidas. El sistema OLAP como sistema para extraer gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas. Se usa exclusivamente información interna a la organización. Finales de los 90 Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos. El Data-Warehouse incluye Información Interna fundamentalmente. Principios de los 00 Técnicas de scoring y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido. El Data-Warehouse incluye Información Interna y Externa (parámetros de la economía, poblacionales, geográficos, etc.). 22 Minería de Datos no Estructurados Para saber más... Direcciones Web Mining se refiere al proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web. (Etzioni 1996) Web Mining combina objetivos y técnicas de distintas áreas: Information Retrieval (IR) Natural Language Processing (NLP) Data Mining (DM) Databases (DB) WWW research Agent Technology Se puede distinguir entre: web content mining. web structure mining. web use mining. 23 Recursos Generales: KDcentral (www.kdcentral.com) The Data Mine (http://www.the-data-mine.com) Knowledge Discovery Mine (http://www.kdnuggets.com) Mailing list: KDD-nuggets: moderada y con poco ruido: Para suscribirse, enviar un mensaje a kdd-request@gte.com con subscribe kdnuggets en la primera línea del mensaje (el resto en blanco). Revistas: Data Mining and Knowledge Discovery. (http://www.research.microsoft.com/) Intelligent Data Analysis (http://www.elsevier.com/locate/ida) Asociaciones: ACM SIGDD (y la revista explorations, http://www.acm.org/sigkdd/explorations/instructions.htm) 24 4

Bibliografía Bibliografía Muy recomendables (generales y asequibles) Berry M.J.A.; Linoff, G.S. Mastering Data Mining Wiley 2000. Berthold, M.; Hand, D.J. (ed) Intelligent Data Analysis. An Introduction Springer 1999. (Nueva edición a aparecer en 2002). Dunham, M.H. Data Mining. Introductory and Advanced Topics Prentice Hall, 2003. Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. Advances in Knowledge Discovery and Data Mining, AAAI Press / MIT Press, 1996. Han, Jiawei; Micheline Kamber Data Mining: Concepts and Techniques Morgan Kaufmann, April 2000. Hand, David J.; Heikki Mannila and Padhraic Smyth Principles of Data Mining, The MIT Press, 2000. Witten, I.H.; Frank, E. "Tools for Data Mining", Morgan Kaufmann, 1999. 25 Más específicos o técnicamente más duros: Dzeroski, S.; Lavrac, N. Relational Data Mining Springer 2001. Etzioni, O. The World-Wide Web. Quagmire or Gold Mine Communications of the ACM, November 1996, Vol. 39, nº11, 1996. Fayyad, U.M.; Grinstein, G.G.; Wierse, A. (eds.) Information Visualization in Data Mining and Knowledge Discovery Morgan Kaufmann 2002. Mena, Jesus Data Mining Your Website, Digital Press, July 1999. Pyle, D. Data Preparation for Data Mining, Morgan Kaufmann,1999. Thuraisingham, B. Data Mining. Technologies, Techniques, Tools, and Trends, CRC Press, 1999. Wong, P.C. Visual Data Mining, Special Issue of IEEE Computer Graphics and Applications, Sep/Oct 1999, pp. 20-46. 26 5