CRISP-DM (http://www.crisp-dm.org/ *) CRoss Industry Standard Process for Data Mining Es un modelo de proceso de data-mining que es independiente de la herramienta, la aplicación y la industria. La versión 1.0 de la guía se publicó en 2000 El consorcio que promueve el uso de CRIPS actualmente está inactivo, pero la metodología todavía se encuentra en uso * Este sitio no se encuentra activo actualmente Marcelo A. Soria soria@agro.uba.ar
La metodología CRISP es un modelo jerárquico compuesto por cuatro niveles de abstracción: Marcelo A. Soria soria@agro.uba.ar Fases: etapas del proceso Tareas genéricas: tareas generales, completas y estables Tareas especializadas: especificación de las tareas generales Instancias de procesos: acciones y decisiones concretas Fases Tareas genéricas Tareas especializadas Instancias de procesos
El modelo de referencia y la guía del usuario Marcelo A. Soria soria@agro.uba.ar Modelo de referencia Fases, descripción general de las tareas del proyecto y salidas esperadas Guía del usuario Instrucciones más detalladas de cada fase y tarea Las actividades de la referencia están mapeadas en la guía
Marcelo A. Soria soria@agro.uba.ar Cómo mapear tareas generales y tareas específicas? Describir y analizar el contexto específico de una aplicación Eliminar detalles innecesarios y que no se apliquen al contexto Agregar aquellos detalles específicos del modelo Especializar las partes genéricas del modelo de acuerdo al contexto
Marcelo A. Soria soria@agro.uba.ar Mapeando tareas generales y específicas Contextos de data mining Dominio de aplicación Tipo de problema Aspectos técnicos Técnicas y herramientas Area específica de aplicación del proyecto de data mining (p.ej. bioinformática) Objetivos del proyecto de data-mining (p.ej., clasificación) Temas específicos de data-mining que se refieren a las dificultades y particularidades del proyecto (p.ej., localización de estrellas en diferentes catálogos) Herramientas y técnicas de data mining que se utilizan en el proyecto (p.ej, k-medias, PAM)
Marcelo A. Soria soria@agro.uba.ar Mapeando tareas generales y específicas Mapeando con contextos Mapeando para el presente Se aplica un modelo de procesos genéricos para resolver un problema único. Se mapean los procesos genérícos a tareas específicas para un único uso Mapeando para el futuro Los procesos genéricos se especializan continuamente de acuerdo a los requerimientos de un contexto pre-existente o se generalizan las experiencias de casos únicos.
El modelo de referencia Marcelo A. Soria soria@agro.uba.ar Contiene las fases del proyecto, sus tareas respectivas y algunas relaciones entre tareas. A este nivel no es posible identificar todas las relaciones. Fases 1. Comprensión del dominio 2. Comprensión de los datos 3. Preparación de los datos 4. Modelado 5. Evaluación 6. Despliegue / implementación
Marcelo A. Soria soria@agro.uba.ar 1. Comprensión del dominio 1. Determinar objetivos 1.1 Información general del dominio 1.2 Definir objetivos 1.3 Definir el criterio de éxito 2. Evaluar la situación 2.1 Recursos 2.2 Requerimientos, supuestos, condicionantes 2.3 Condiciones de riesgo y contingencias 2.4 Terminología 2.5 Determinar costos y beneficios 3. Objetivos de data mining 3.1 Determinar los objetivos 3.2 Definir el criterio de éxito 4. Producir el plan del proyecto 4.1 Redacción del proyecto 4.2 Evaluación inicial de técnicas y herramientas
Marcelo A. Soria soria@agro.uba.ar 2. Comprensión de los datos 1. Colección inicial de datos Informe inicial de colección de datos 2. Describir los datos Informe de descripción de datos 3. Exploración de datos Informe de exploración de datos 4. Verificar la calidad de los datos Informe de calidad de los datos
Marcelo A. Soria soria@agro.uba.ar 3. Preparación de los datos 1. Obtener / Seleccionar el conjunto inicial de datos 2. Limpiar datos 3. Construir datos Crear atributos derivados Crear nuevos registros Aplicar transformaciones 4. Integración de los datos 5. Formateo de los datos Conjunto de datos listo para el análisis
Marcelo A. Soria soria@agro.uba.ar 4. Modelado 1. Seleccionar la técnica de modelado 2. Generar el diseño de prueba Crear conjuntos de entrenamiento y de prueba 3. Construir el modelo Determinar parámetros del modelo Modelar Describir el modelo 4. Analizar el modelo Evaluación (comportamiento, ranking de modelos) Reajuste de los parámetros del modelo Modelos
Marcelo A. Soria soria@agro.uba.ar 5. Evaluación 1. Evaluación de resultados Análisis de los resultados de DM Selección de modelos 2. Proceso de revisión 3. Próximos pasos? Lista de posibles acciones Decisiones
Marcelo A. Soria soria@agro.uba.ar 6. Despliegue / Implementación 1. Plan de despliegue / implementación Análisis de los resultados de DM Selección de modelos 2. Plan de monitoreo y mantenimiento Informe de descripción de datos 3. Preparación del informe final 4. Revisión del proyecto Proyecto terminado
Data Mining Group (http://www.dmg.org/) Es otra iniciativa, en este caso activa, para establecer estándares en DM. Este consorcio no intenta producir una metodología de data-mining, sino establecer estándares para las herramientas y el modelado. Algunos participantes del consorcio: IBM, MicroStrategy, SAS, SPSS, Salford Systems, NASA, VISA, etc..
El producto principal de DMG es el Predictive Model Markup Language (PMML), un estándar abierto para representar modelos de Data Mining PMML permite describir un modelo de análisis usando esquemas XML, que luego se pueden exportar, importar e implementar con cualquier herramienta que lo soporte PMML también sirve para representar los datos de entrada y las transformaciones necesarias sobre los datos.
La versión actual del estándar incluye definiciones de modelos para: Regresión lineal y generalizada Reglas de asociación Modelos de clustering Naïve Bayes Árboles de decisión Series de tiempo SVM Análisis de textos etc.
Un ejemplo en R: > install.packages("pmml") > library("pmml") > hyades.kmeans <- kmeans(hyades[,6:11], centers=6, nstart=10) > km.pmml <- pmml(hyades.kmeans) > savexml(km.pmml, file="km_pmml.xml") La función pmml genera el documento XML con la descripción del procedimiento de k-medias sobre algunas variables del dataframe de las Hyades. El archivo XML junto con el conjunto de datos en formato csv se pueden leer en otro programa, y repetir el procedimiento.
Un ejemplo en R: El paquete PMML soporta algunos de los modelos del estándar, no todos, pero cada versión incorpora nuevos. Algunos ejemplos (entre paréntesis se indica la función de R): SVM (ksvm) Redes neuronales (nnet) Regresión (lm/glm) Clusters (kmeans) Asociación (arules) Árboles (rtree)
Estructura del documento PMML Header Información general del modelo, incluyendo copyright y fecha Data Dictionary Data Transformations Tipos de variables (contínuos, categóricos, ordinales), rangos, válidos, inválidos y faltantes Normalizaciones, discretizaciones, agregados. Model Definición, nombre, atributos Mining Schema Datos usados para modelar, valores predichos Target Modificaciones post-procesado, escalado Model specifics Salida específica del modelo
Estructura del documento PMML. Ejemplo Header <?xml version="1.0"?> <PMML version="3.2" xmlns="http://www.dmg.org/pmml-3_2" > <Header copyright="copyright (c) 2011 marcelo" description="kmeans cluster model"> <Extension name="user" value="marcelo" extender="rattle/pmml"/> <Application name="rattle/pmml" version="1.2.27"/> <Timestamp>2011-09-15 16:31:21</Timestamp> </Header> Data Dictionary <DataDictionary numberoffields="6"> <DataField name="vmag" optype="continuous" datatype="double"/> <DataField name="ra" optype="continuous" datatype="double"/> <DataField name="de" optype="continuous" datatype="double"/> <DataField name="plx" optype="continuous" datatype="double"/> <DataField name="pmra" optype="continuous" datatype="double"/> <DataField name="pmde" optype="continuous" datatype="double"/> </DataDictionary>
Estructura del documento PMML. Ejemplo Model <ClusteringModel modelname="kmeans_model" functionname="clustering" algorithmname="kmeans: Hartigan and Wong" modelclass="centerbased" numberofclusters="6"> Mining Schema <MiningSchema> <MiningField name="vmag" usagetype="active"/> <MiningField name="ra" usagetype="active"/> <MiningField name="de" usagetype="active"/> <MiningField name="plx" usagetype="active"/> <MiningField name="pmra" usagetype="active"/> <MiningField name="pmde" usagetype="active"/> </MiningSchema>
Estructura del documento PMML. Ejemplo Model specifics <ComparisonMeasure kind="distance"> <squaredeuclidean/> </ComparisonMeasure> <ClusteringField field="vmag" comparefunction="absdiff"/> <ClusteringField field="ra" comparefunction="absdiff"/>... <Cluster name="1" size="245"> <Array n="6" type="real">7.78628571428571 61.7339183673469 16.1855918367347 22.4350204081633 106.275591836735-26.8302857142857</Array> </Cluster> <Cluster name="2" size="20"> <Array n="6" type="real">9.404 63.542 15.4525 24.8535-196.956-360.564</Array> </Cluster>... </ClusteringModel> </PMML>
Otros estándares Common Warehouse Metamodel (CWM) http://www.cwmforum.org/ Una especificación para modelar metadatos de bases de datos relacionales, no-relacionales y sistemas multidimensionales y facilitar el intercambio de metadatos entre herramientas de data warehousing y repositorios en ambientes distribuidos y heterogéneos. DataSpace Transfer Protocol (DTSP) http://www.dataspaceweb.net/dstp.html DSTP es un protocolo para la distribución, consulta y recuperación de datos en forma remota y distribuida etc.,etc. (JSR-73, SQL/MM,...)
Gobernancia de datos No es un estándar sino un sistema de buenas prácticas para el manejo de datos dentro de la organización. Una definición: Es un sistema de derechos de decisión y responsabilidades para procesos de información ejecutados según modelos previamente acordados que describen quién puede ejecutar qué acciones con cuál información y cuando, bajo qué circunstancias y con qué métodos.
Gobernancia de datos Otra definición: La gobernancia de datos se puede definir como una aproximación organizacional al manejo de los datos y la información que se formaliza como un conjunto de políticas y procedimientos que abarcan el ciclo completo de los datos, desde la adquisición al uso y al descarte.
Para qué sirve un esquema de gobernancia de datos? Objetivos Incrementar valor Manejar costos y complejidad Asegurar la persistencia e integridad de los datos en atención al riesgo, regulaciones, privacidad y seguridad Permitir mejor toma de decisiones Reducir fricciones operacionales Proteger los necesidades de los interesados en los datos Construir procesos estandarizados y repetibles Reducir costos y aumentar la efectividad a través de la coordinación Asegurar la transparencia de procesos
Roles administrador / ministro de datos arquitecto de datos lider de calidad de datos El ministro de datos o Es el contacto primario para todos los temas relacionados con datos. o Es responsable por la calidad y el uso o Define métricas, asegura el cumplimiento de regulaciones o Conduce auditorias El arquitecto de datos o Es el responsable de la definición, modelado, diseño de datos o Es responsable del mantenimiento de los datos o Se ocupa de resolver los requerimientos de datos Lider de calidad de datos o Asegura que los datos satisfacen los requerimientos o Realiza análisis de errores o Monitorea la calidad
Escenarios Gobernancia con un foco en políticas, estándares y estrategias Gobernancia enfocada a la calidad de datos Gobernancia con foco en privacidad, regulaciones y/o seguridad Gobernancia con un foco en la arquitectura e integración Gobernancia de datos enfocada a data warehousing y business intelligence Gobernancia enfocada al apoyo en la toma de decisiones
Partes de un plan de gobernancia Autoridad para la toma de decisiones Políticas y procedimientos estandarizados Repositorios de datos Manejo del contenido de información Manejo de registros de datos Calidad de datos Acceso de datos Seguridad de datos y manejo del riesgo