Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051) SUMILLA El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar el conocimiento del negocio tal como el comportamiento de los clientes, empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicación pueden estar en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc. La minería de datos es el proceso de descubrir conocimiento desde bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de comportamiento aún no conocidos en los datos. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias, etc. La minería de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados). Comprende las siguientes actividades fundamentales: Clasificación de documentos para la asignación automática a clases pre-definidas; Agrupamiento de documentos para la identificación de documentos similares; Recuperación de información (similar a un buscador); Extracción de la información incluida en esos textos (hechos); y Extracción de asociaciones entre los hechos extraídos. OBJETIVOS Al final del curso los alumnos estarán en capacidad de: Comprender y usar las técnicas para el muestreo, descripción, limpieza y transformación de datos mediante la identificación y eliminación de datos extremos, valores nulos y datos mal clasificados, la selección de características y el balanceo de datos. Comprender el proceso de la minería de datos para extraer patrones de comportamiento haciendo uso de la metodología CRISP-DM. Diseñar, desarrollar, evaluar y comprender los modelo descriptivos reglas de asociación y agrupamiento y los modelos predictivos clasificación y regresión, con la finalidad de identificar patrones de comportamiento (conocimiento oculto). Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE Comprender, usar y entender los resultados entregados por los programas de software. Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo naive bayes, regresión logística, k-means, maximización de expectativas y algoritmo a priori. Conocer y entender los fundamentos y problemáticas actuales de Minería de Textos en comparación a Data Mining tradicional. Comprender y usar las técnicas para el análisis y la preparación de documentos. 1
CONTENIDO El curso está conformado por los siguientes temas. Fundamentos de Análisis Predictivo Entendimiento y Preparación de datos Modelo de Clasificación Modelos de Regresión Modelos de Agrupamiento Modelos de Asociación Minería de Textos Los temas se encadenan en una secuencia lógica de desarrollo pedagógico, basados en la exposición conceptual de nociones fundamentales de la minería de datos y en el desarrollo de ejercicios prácticos para consolidar los conocimientos impartidos. METODOLOGÍA Desarrollo de clases teóricas para explicar los conceptos necesarios. Desarrollo de talleres, donde se aplica lo aprendido en clase. Uso de medios audiovisuales (proyectores) Materiales de clase impresos y en CD. DOMINIOS DE APLICACIÓN Riesgos Financieros Riesgos de Fraudes Riesgos de Accidentes de Trabajo Deserción de clientes Detección de fraudes Segmentación de Clientes Ventas Cruzadas Patrones Secuenciales Análisis de opiniones subjetivas Similaridad de documentos Búsqueda e indexación de documentos Análisis de mensajes en redes sociales Análisis de encuestas abiertas. Análisis de post en blogs. Análisis de correos electrónicos (spam). Estructuración de base de datos. REQUISITOS Es deseable que los alumnos tengan experiencia en (no indispensable): Base de datos (MS SQL, mysql, Oracle, Sybase, etc.) Estadística y probabilidades Hoja de cálculo. Disponer de una computadora para el desarrollo de las clases QUIENES PUEDEN ASISTIR Analistas de riesgos. Analistas de marketing en la web. Analistas de marketing, mercadeo o de pronóstico. Investigadores de mercado que desean analizar encuestas abiertas. Personal involucrado en proyectos de Business Intelligence. Personal involucrado en proyectos de pronóstico y predicción. Profesionales de estadísticos y economía. Profesionales en estadística interesados en analizar el contenido de textos no estructurados (formularios, encuestas, etc.). Administradores de Bases de Datos. 2
HERRAMIENTAS Para el desarrollo del curso se hace uso del software libre Rapidminer. MATERIALES El alumno recibe como parte de su capacitación Un CD conteniendo el material del curso, ejercicios prácticos, software libre y documentos relacionados. Material impreso CERTIFICADO Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje. Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 2oras. INSTRUCTOR Ing. Samuel Oporto Díaz. Especialista en el desarrollo de modelos predictivos. Magíster en Inteligencia Artificial ITESM-México. Ingeniero de Sistemas UNI-Perú. Estudios de Especialización en robótica aplicada-cnad-méxico DF. Política Educativa Virtual-UAH- Chile. Docente del curso de Inteligencia Artificial en la UNI, UPAO, USMP y UPC. Docente del Curso de Minería de Datos en el IIFIIS, CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal del Instituto de Investigación de la FIIS (IIFIIS). Especialista en Visión Artificial, Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de Computación con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005, LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas Autónomos. Consultor del programa de Modernización del Estado Peruano. Consultor de la Secretaría de Planificación Estratégica del Ministerio de Educación del Perú. 3
TEMARIO Nombre de los temas a tratar INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS Fundamentos de análisis de datos. Conceptos y conocimientos previos. Definición de la Minería de Datos. Herramientas de software disponibles. Modelo de minería de datos. Evaluación del desempeño. Matriz de confusión. Lift charts. Curva ROC. El proceso de la minería de datos. Metodologías para la minería de datos. CRISP-DM. SEMMA. El proceso de la minería de datos (CRISP). ENTENDIMIENTO Y PREPARACIÓN DE DATOS Entendimiento de los datos. Recolección de datos iníciales. Descripción de los datos. Estadísticas descriptiva univariada y multivariada. Relaciones entre series de datos. Exploración de los datos. Verificación de la calidad de los datos. Preparación de datos. Limpieza de datos. Datos perdidos. Valores extremos. Datos con ruido. Datos mal clasificados. Datos inconsistentes. Integración de datos. Transformación de datos. Reducción de datos. Reducción de datos. Reducción de instancias. MODELOS DE CLASIFICACIÓN ARBOLES DE DECISION Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de modelos de clasificación. Probabilidad de una clasificación. Clasificador Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de Decisión. Árbol de decisión. Información y entropía. Generación del árbol de decisión. Poda del árbol. Regresión Logística. Discretización y numerización. MODELOS DE REGRESIÓN REDES NEURONALES Modelos de Regresión. Evaluación de modelos de regresión. MAPE. Neuronas naturales y artificiales. Épocas, función de transferencia. Aprendizaje de la red neuronal. Preparación de datos. Red Perceptrón. Red de retro propagación. Análisis de las Redes Neuronales. Sub-ajuste y sobre-ajuste. Normalización de datos. Neuronas de la capa intermedia. MODELOS DE AGRUPAMIENTO K-MEANS Y ALGORITMO EM Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de agrupamiento. Medidas de distancias. Tipos de agrupamiento. Componentes Principales. Modelos de Agrupamiento. K-means. Jerárquico. Modelos de agrupamiento y modelos de clasificación. MODELOS DE ASOCIACIÓN ALGORITMO A PRIORI Conceptos acerca de modelos de asociación, entendiendo conceptos como: soporte, confianza, itemset. Buscando itemsets frecuentes. Graficando las reglas de asociación. Generando reglas de asociación. Predicción. Ventas cruzadas, Canasta de mercado. INTRODUCCIÓN A LA MINERIA DE TEXTOS (TEXT MINING) Qué es la minería de textos?. Colecciones de documentos corpus. Datos semiestructurados y datos no estructurados. Técnicas de minería de textos. El proceso de la minería de textos. Herramientas. Lingüística, Morfología, Sintaxis, Semántica. Conceptos básicos, Gramática, Léxico, Sintaxis. Tokenización. Stop words. Stemming. Vector de Indices. Total de horas a dictar Duración 2 h 2 h 4 2 4
EX ALUMNOS EDELNOR SUNAT Pacifico Vida Profuturo AFP Caja Municipal de Trujillo FondeSurco SCI Nextel del Perú Telefónica del Perú ATENTO Corporación Radial del Perú TECSUP UPCH BSH Electrodomésticos LAN Perú Visanet Perú Corporación Lindley Citibank del Perú S.A. Aceros Arequipa Financiera Efectiva S.A. Red Científica Peruana 5
KASPeru Calle Germán Schreiber 291, Piso 2, oficina 201 San Isidro Lima Perú (51-1) 697-8227 (51-1) 725-7209 Todos los derechos reservados. Todos los nombres de empresas y/o productos mencionados tienen propósitos de identificación únicamente, ellos son registrados por sus respectivos dueños. 6