El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso

Documentos relacionados
Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

NÚMERO DE HORAS: 160H PROGRAMACIÓN WEB EN EL ENTORNO CLIENTE OBJETIVO

SISTEMAS DE INFORMACIÓN PARA ADMINISTRACIÓN DE OPERACIONES

Metamodelo de una Bodega de Datos para el Descubrimiento de Conocimiento


El Camino hacia una explotación sostenible de datos. Ing. Gonzalo Mallo

Tema 1. Introducción a UML C H R I STO PHER E X P Ó S I TO I Z Q U I ERDO A I R A M E X P Ó S I TO M Á R Q UEZ I S R A E L LÓ P EZ P L ATA M A R Í A

ARQUITECTURA EMPRESARIAL ESTRATEGIA DE ACOMPAÑAMIENTO 2016

octubre de 2007 Arquitectura de Software

Presentado por: Josué Andino Denis Flores Jorge Luis Pontón Diego Soria. Andino, Flores, Pontón, Soria 1

Diplomado Análisis de negocio, preparación para Certificación

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data

MS_20464 Developing Microsoft SQL Server Databases

POSGRADO EN DATABASE ORACLE

Auditorías de Seguridad de la Información

Aux 1. Introducción a la Minería de Datos

CONTENIDO JUSTIFICACIÓN MAPA DE PROCESOS INTERESADOS MARCO ESTRATÉGICO DE LA PMO

Este dominio consta de 13 procesos que se describen a continuación.

EL BIM EN LA INGENIERÍA

Implementación de Componentes

Tema I: Introducción a las bases de datos. Curso Introducción a las bases de datos.

Versión Fecha de versión Modificaciones (1.0) (Fecha) (Sección, páginas, texto revisado)

INTEGRANTES: RAMOS MAMANI MARILU ZACARÍAS SUXO DIANA

Métodos para el diseño de soluciones

Un marco para la modernización del INEGI. Julio A. Santaella Presidente del INEGI

FACULTAD DE INGENIERÍA Y ARQUITECTURA ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

COBIT 4.1. Planear y Organizar PO8 Administrar la Calidad. By Juan Antonio Vásquez

DIPLOMADO EN DATA MINING

Proceso Unificado de Desarrollo de Software. 13 de sep de 2006

ADMINISTRACIÓN DE PROYECTOS DE TI

Inteligencia de Negocios

CONSEJO DE NORMALIZACIÓN Y CERTIFICACIÓN DE COMPETENCIA LABORAL NORMAS TÉCNICAS DE COMPETENCIA LABORAL

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

DIAGRAMAS DE CASOS DE USO. Prof. Hooberth Chávez Bedoya

Figure 12-1: Phase D: Technology Architecture

INGENIERIA DE SOFTWARE ING. FRANCISCO RODRIGUEZ

Figure 14-1: Phase F: Migration Planning

DE LAS BD A LOS ALMACENES DE DATOS (DW) FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN

EXAV Plan de Proyecto Versión 2.1 Historia de revisiones

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Computación SYLLABUS DEL CURSO Sistemas de toma de Decisiones

Diagramas De Casos De Uso

Bases de datos 1. Teórico: Introducción

SISTEMATIZACIÓN DE LA GENERACIÓN DE PRESUPUESTOS PARA PROYECTOS DE OBRA: SISTEMA DE ADMINISTRACIÓN DE MATERIALES DE TUBERÍA

Soluciones de Auditoría, Administración de Riesgos y Cumplimiento

Arquitectura de un data warehouse Funcionamiento detallado de un data warehouse

Arquitectura de So.ware

Norma técnica para los órganos de la Administración del Estado sobre interoperabilidad de documentos electrónicos

ORACLE WORKFORCE DEVELOPMENT PROGRAM

Pruebas de Software. Agenda. Pruebas de Programas Los Niveles de Prueba Diseño de Casos de Prueba

Desarrollo Orientado a Objetos en Métrica v. 3

Maestría en Ingeniería

VII Reunión Nacional de Estadística. Intercambio de datos y metadatos: proyecto SDMX. Panorama nacional del intercambio de datos

Ingeniería de Software en SOA

Métodos de Inteligencia Artificial

TALLER DE ARQUITECTURA EMPRESARIAL ESTRATEGIA DE ACOMPAÑAMIENTO 2016

Gobierno de TI a través de COBIT 4.1 y cambios esperados en COBIT 5.0. Eduardo Martínez Estébanes y Juan Carlos García Cano

Microsoft Project Server 2010 Técnica Boot Camp Duración: 40 horas Código: MS-50558

Estudio Nacional sobre Gestión de Procesos de Negocio (BPM) 2010

Plan de transición de la certificación en Sistema de Gestión de la Energía bajo la norma ISO 50001:2018. Fecha de Emisión:

Documento de Arquitectura

Estudio Nacional sobre Gestión de Procesos de Negocio (BPM) 2010

UNT INGENIERIA INDUSTRIAL INGENIERIA DE SOFTWARE

PROPUESTA DE MINOR CIENCIA DE LOS DATOS. DATA SCIENCE Resultados de Aprendizaje del Minor

Simulación perceptual

3. Capítulo 3. Diseño de un generador de interfaces para administrar colecciones

Punto 1 Introducción al servicio. Juan Luis Cano

SYLLABUS de la Asignatura Inteligencia de Negocios

Metodologías para Sistemas Multi-agente

Sumario Prólogo Unidad didáctica 1. Introducción a business intelligence Objetivos de la Unidad... 12

Curso Implementing a Data Warehouse with Microsoft SQL Server 2014 (20463)

SSD-AAPP v.4: SISTEMA DE SOPORTE A LA DECISIÓN DE LAS ADMINISTRACIONES PÚBLICAS: SU CULTURA, GUÍAS DE USO Y BUENAS PRÁCTICAS

Metodología propia del ERP de SAP

Integración de Datos y ETL con Oracle Warehouse Builder: Parte 1

COBIT 4.1. Planear y Organizar PO10 Administrar Proyectos. By Juan Antonio Vásquez

Los diagramas de clases y de objetos sirven para modelar diversos aspectos estructurales o estáticos de un sistema: Modelado - Vocabulario del Sistema

Instituto Tecnológico Superior De Acatlán de Osorio. Portafolio de evidencias

MAPA DE PUESTO DEPARTAMENTO DE TALENTO HUMANO

Programming with C# DESCRIPCION MODULOS DE CAPACITACION. Sistemas Informáticos del Valle Módulo 1: Revisión de la sintaxis de C#

Ingeniería de Requisitos

TABLA DE CONTENIDO. Resumen Introducción Entorno relevante asociado al proyecto Contexto de la Industria...

Figure 13-1: Phase E: Opportunities & Solutions

Ingeniería del Software

Técnicas de Diseño

SEMESTRE I SEMESTRE II SEMESTRE III Métodos y aplicaciones de Analítica I (4 créditos)

Seminario Internacional La Normalización y las TIC: El Camino a Seguir. Implementando GTIO. MSc Ing. Sylvia Tosar, CGEIT,PMP

Desarrollo de una Plataforma Tecnológica Colaborativa que promueva el uso de datos abiertos en Colombia. Luisa Fernanda Medina Asesor: Roberto Recio

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

MARCO DE REFERENCIA GOBIERNO DE TI PARA LA GESTIÓN DE TI EN EL ESTADO COLOMBIANO

20767A Implementing a SQL Data Warehouse

SPSS, R y Excel. Modelos de Credit Scoring. Quants Group SAC. Formación Profesional. Una guía práctica y completa de modelos

UNIVERSIDAD TÉCNICA DE AMBATO FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL CARRERA DE INGENIERÍA DE SOFTWARE

CICLO ESCOLAR JULIO DICIEMBRE

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FUNDAMENTOS DE LA METODOLOGIA RUP RATIONAL UNIFIED PROCESS JUAN PABLO GOMEZ GALLEGO ING JORGE GALVES

Introducción a los Servicios Web

CURSOS ABIERTOS DE Q CONSULTORES

LA ISO PARA LA ADMINISTRACIÓN DE DOCUMENTOS Y SU RELACIÓN CON LOS SISTEMAS ELECTRÓNICOS PARA LA CONSERVACIÓN DE ARCHIVOS EN DIFERENTES SOPORTES

Transcripción:

CRISP-DM (http://www.crisp-dm.org/ *) CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso * Este sitio no se encuentra activo actualmente Marcelo A. Soria soria@agro.uba.ar

La metodología CRISP es un modelo jerárquico compuesto por cuatro niveles de abstracción: Marcelo A. Soria soria@agro.uba.ar Fases: etapas del proceso Tareas genéricas: tareas generales, completas y estables Tareas especializadas: especificación de las tareas generales Instancias de procesos: acciones y decisiones concretas Fases Tareas genéricas Tareas especializadas Instancias de procesos

El modelo de referencia y la guía del usuario Marcelo A. Soria soria@agro.uba.ar Modelo de referencia Fases, descripción general de las tareas del proyecto y salidas esperadas Guía del usuario Instrucciones más detalladas de cada fase y tarea Las actividades de la referencia están mapeadas en la guía

Marcelo A. Soria soria@agro.uba.ar Cómo mapear tareas generales y tareas específicas? Describir y analizar el contexto específico de una aplicación Eliminar detalles innecesarios y que no se apliquen al contexto Agregar aquellos detalles específicos del modelo Especializar las partes genéricas del modelo de acuerdo al contexto

Marcelo A. Soria soria@agro.uba.ar Mapeando tareas generales y específicas Contextos de data mining Dominio de aplicación Tipo de problema Aspectos técnicos Técnicas y herramientas Area específica de aplicación del proyecto de data mining (p.ej. bioinformática) Objetivos del proyecto de data-mining (p.ej., clasificación) Temas específicos de data-mining que se refieren a las dificultades y particularidades del proyecto (p.ej., localización de estrellas en diferentes catálogos) Herramientas y técnicas de data mining que se utilizan en el proyecto (p.ej, k-medias, PAM)

Marcelo A. Soria soria@agro.uba.ar Mapeando tareas generales y específicas Mapeando con contextos Mapeando para el presente Se aplica un modelo de procesos genéricos para resolver un problema único. Se mapean los procesos genérícos a tareas específicas para un único uso Mapeando para el futuro Los procesos genéricos se especializan continuamente de acuerdo a los requerimientos de un contexto pre-existente o se generalizan las experiencias de casos únicos.

El modelo de referencia Marcelo A. Soria soria@agro.uba.ar Contiene las fases del proyecto, sus tareas respectivas y algunas relaciones entre tareas. A este nivel no es posible identificar todas las relaciones. Fases 1. Comprensión del dominio 2. Comprensión de los datos 3. Preparación de los datos 4. Modelado 5. Evaluación 6. Despliegue / implementación

Marcelo A. Soria soria@agro.uba.ar 1. Comprensión del dominio 1. Determinar objetivos 1.1 Información general del dominio 1.2 Definir objetivos 1.3 Definir el criterio de éxito 2. Evaluar la situación 2.1 Recursos 2.2 Requerimientos, supuestos, condicionantes 2.3 Condiciones de riesgo y contingencias 2.4 Terminología 2.5 Determinar costos y beneficios 3. Objetivos de data mining 3.1 Determinar los objetivos 3.2 Definir el criterio de éxito 4. Producir el plan del proyecto 4.1 Redacción del proyecto 4.2 Evaluación inicial de técnicas y herramientas

Marcelo A. Soria soria@agro.uba.ar 2. Comprensión de los datos 1. Colección inicial de datos Informe inicial de colección de datos 2. Describir los datos Informe de descripción de datos 3. Exploración de datos Informe de exploración de datos 4. Verificar la calidad de los datos Informe de calidad de los datos

Marcelo A. Soria soria@agro.uba.ar 3. Preparación de los datos 1. Obtener / Seleccionar el conjunto inicial de datos 2. Limpiar datos 3. Construir datos Crear atributos derivados Crear nuevos registros Aplicar transformaciones 4. Integración de los datos 5. Formateo de los datos Conjunto de datos listo para el análisis

Marcelo A. Soria soria@agro.uba.ar 4. Modelado 1. Seleccionar la técnica de modelado 2. Generar el diseño de prueba Crear conjuntos de entrenamiento y de prueba 3. Construir el modelo Determinar parámetros del modelo Modelar Describir el modelo 4. Analizar el modelo Evaluación (comportamiento, ranking de modelos) Reajuste de los parámetros del modelo Modelos

Marcelo A. Soria soria@agro.uba.ar 5. Evaluación 1. Evaluación de resultados Análisis de los resultados de DM Selección de modelos 2. Proceso de revisión 3. Próximos pasos? Lista de posibles acciones Decisiones

Marcelo A. Soria soria@agro.uba.ar 6. Despliegue / Implementación 1. Plan de despliegue / implementación Análisis de los resultados de DM Selección de modelos 2. Plan de monitoreo y mantenimiento Informe de descripción de datos 3. Preparación del informe final 4. Revisión del proyecto Proyecto terminado

Data Mining Group (http://www.dmg.org/) Es otra iniciativa, en este caso activa, para establecer estándares en DM. Este consorcio no intenta producir una metodología de data-mining, sino establecer estándares para las herramientas y el modelado. Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS, Salford Systems, NASA, VISA, etc..

El producto principal de DMG es el Predictive Model Markup Language (PMML), un estándar abierto para representar modelos de Data Mining PMML permite describir un modelo de análisis usando esquemas XML, que luego se pueden exportar, importar e implementar con cualquier herramienta que lo soporte PMML también sirve para representar los datos de entrada y las transformaciones necesarias sobre los datos.

La versión actual del estándar incluye definiciones de modelos para: Regresión lineal y generalizada Reglas de asociación Modelos de clustering Naïve Bayes Árboles de decisión Series de tiempo SVM Análisis de textos etc.

Un ejemplo en R: > install.packages("pmml") > library("pmml") > hyades.kmeans <- kmeans(hyades[,6:11], centers=6, nstart=10) > km.pmml <- pmml(hyades.kmeans) > savexml(km.pmml, file="km_pmml.xml") La función pmml genera el documento XML con la descripción del procedimiento de k-medias sobre algunas variables del dataframe de las Hyades. El archivo XML junto con el conjunto de datos en formato csv se pueden leer en otro programa, y repetir el procedimiento.

Un ejemplo en R: El paquete PMML soporta algunos de los modelos del estándar, no todos, pero cada versión incorpora nuevos. Algunos ejemplos (entre paréntesis se indica la función de R): SVM (ksvm) Redes neuronales (nnet) Regresión (lm/glm) Clusters (kmeans) Asociación (arules) Árboles (rtree)

Estructura del documento PMML Header Información general del modelo, incluyendo copyright y fecha Data Dictionary Data Transformations Tipos de variables (contínuos, categóricos, ordinales), rangos, válidos, inválidos y faltantes Normalizaciones, discretizaciones, agregados. Model Definición, nombre, atributos Mining Schema Datos usados para modelar, valores predichos Target Modificaciones post-procesado, escalado Model specifics Salida específica del modelo

Estructura del documento PMML. Ejemplo Header <?xml version="1.0"?> <PMML version="3.2" xmlns="http://www.dmg.org/pmml-3_2" > <Header copyright="copyright (c) 2011 marcelo" description="kmeans cluster model"> <Extension name="user" value="marcelo" extender="rattle/pmml"/> <Application name="rattle/pmml" version="1.2.27"/> <Timestamp>2011-09-15 16:31:21</Timestamp> </Header> Data Dictionary <DataDictionary numberoffields="6"> <DataField name="vmag" optype="continuous" datatype="double"/> <DataField name="ra" optype="continuous" datatype="double"/> <DataField name="de" optype="continuous" datatype="double"/> <DataField name="plx" optype="continuous" datatype="double"/> <DataField name="pmra" optype="continuous" datatype="double"/> <DataField name="pmde" optype="continuous" datatype="double"/> </DataDictionary>

Estructura del documento PMML. Ejemplo Model <ClusteringModel modelname="kmeans_model" functionname="clustering" algorithmname="kmeans: Hartigan and Wong" modelclass="centerbased" numberofclusters="6"> Mining Schema <MiningSchema> <MiningField name="vmag" usagetype="active"/> <MiningField name="ra" usagetype="active"/> <MiningField name="de" usagetype="active"/> <MiningField name="plx" usagetype="active"/> <MiningField name="pmra" usagetype="active"/> <MiningField name="pmde" usagetype="active"/> </MiningSchema>

Estructura del documento PMML. Ejemplo Model specifics <ComparisonMeasure kind="distance"> <squaredeuclidean/> </ComparisonMeasure> <ClusteringField field="vmag" comparefunction="absdiff"/> <ClusteringField field="ra" comparefunction="absdiff"/>... <Cluster name="1" size="245"> <Array n="6" type="real">7.78628571428571 61.7339183673469 16.1855918367347 22.4350204081633 106.275591836735-26.8302857142857</Array> </Cluster> <Cluster name="2" size="20"> <Array n="6" type="real">9.404 63.542 15.4525 24.8535-196.956-360.564</Array> </Cluster>... </ClusteringModel> </PMML>

Otros estándares Common Warehouse Metamodel (CWM) http://www.cwmforum.org/ Una especificación para modelar metadatos de bases de datos relacionales, no-relacionales y sistemas multidimensionales y facilitar el intercambio de metadatos entre herramientas de data warehousing y repositorios en ambientes distribuidos y heterogéneos. DataSpace Transfer Protocol (DTSP) http://www.dataspaceweb.net/dstp.html DSTP es un protocolo para la distribución, consulta y recuperación de datos en forma remota y distribuida etc.,etc. (JSR-73, SQL/MM,...)

Gobernancia de datos No es un estándar sino un sistema de buenas prácticas para el manejo de datos dentro de la organización. Una definición: Es un sistema de derechos de decisión y responsabilidades para procesos de información ejecutados según modelos previamente acordados que describen quién puede ejecutar qué acciones con cuál información y cuando, bajo qué circunstancias y con qué métodos.

Gobernancia de datos Otra definición: La gobernancia de datos se puede definir como una aproximación organizacional al manejo de los datos y la información que se formaliza como un conjunto de políticas y procedimientos que abarcan el ciclo completo de los datos, desde la adquisición al uso y al descarte.

Para qué sirve un esquema de gobernancia de datos? Objetivos Incrementar valor Manejar costos y complejidad Asegurar la persistencia e integridad de los datos en atención al riesgo, regulaciones, privacidad y seguridad Permitir mejor toma de decisiones Reducir fricciones operacionales Proteger los necesidades de los interesados en los datos Construir procesos estandarizados y repetibles Reducir costos y aumentar la efectividad a través de la coordinación Asegurar la transparencia de procesos

Roles administrador / ministro de datos arquitecto de datos lider de calidad de datos El ministro de datos o Es el contacto primario para todos los temas relacionados con datos. o Es responsable por la calidad y el uso o Define métricas, asegura el cumplimiento de regulaciones o Conduce auditorias El arquitecto de datos o Es el responsable de la definición, modelado, diseño de datos o Es responsable del mantenimiento de los datos o Se ocupa de resolver los requerimientos de datos Lider de calidad de datos o Asegura que los datos satisfacen los requerimientos o Realiza análisis de errores o Monitorea la calidad

Escenarios Gobernancia con un foco en políticas, estándares y estrategias Gobernancia enfocada a la calidad de datos Gobernancia con foco en privacidad, regulaciones y/o seguridad Gobernancia con un foco en la arquitectura e integración Gobernancia de datos enfocada a data warehousing y business intelligence Gobernancia enfocada al apoyo en la toma de decisiones

Partes de un plan de gobernancia Autoridad para la toma de decisiones Políticas y procedimientos estandarizados Repositorios de datos Manejo del contenido de información Manejo de registros de datos Calidad de datos Acceso de datos Seguridad de datos y manejo del riesgo