Detección de Patrones de Daños y Averías en la Industria Automotriz

Transcripción

1 Universidad Tecnológica Nacional Facultad Regional Buenos Aires Tesis de Magister en Ingeniería en Sistemas de Información Detección de Patrones de Daños y Averías en la Industria Automotriz Directora: Dra. Paola V. Britos Codirector: Dr. Ramón García Martínez

2 Resumen En la industria automotriz uno de los temas relevantes en la producción y distribución de unidades es la detección e identificación de daños y/o averías producidas a lo largo del circuito que recorren los autos desde que salen de planta de producción hasta que llegan a su destino final. Con el incremento de la globalización, los fabricantes de vehículos han ido rediseñando sus redes de producción en todo el mundo. Para optimizar los costes, determinados países son escogidos para especializarse en la producción de ciertos modelos. Esta situación ha dado lugar a un inevitable aumento del transporte de los vehículos desde los países productores a los mercados finales. Durante estos trayectos los vehículos se ven sometidos a daños, en grado variable, en toda la cadena de suministro. El objetivo del proyecto es utilizar la metodología CRISP-DM para detectar patrones en la producción de daños y/o averías en la cadena de distribución para permitir a la industria: Identificar daños y/o averías. Determinar responsabilidad de siniestralidad en función del tipo de avería y tipo de transporte. Imputar incidentes según el tipo de transporte. Determinar tipos de averías y/o daños. Determinar partes averiadas y/o dañadas que muestren algún tipo de comportamiento. Especificar gravedad de daños y/o averías. Definir e identificar modelos con daños especificando partes, tipo de daño y gravedad. Especificar lugares donde se producen daños y/o averías tratando de definir patrones de comportamiento. Especificar estadísticamente: tipos de transporte que producen daños y/o averías como así también, partes, tipos de averías, gravedades, lugares donde se producen. Descubrir información oculta en función de los modelos generados a partir de los datos disponibles. Página 1 de287

3 Página 2 de287

4 Dedicatoria A mi esposa y familia Sandra, María Elena, Paula y Marcos Página 3 de287

5 Página 4 de287

6 Agradecimiento A la Universidad Tecnológica Nacional, Facultad Regional Tucumán y por su intermedio al Estado Nacional por darme la posibilidad de estudiar y acceder a un nivel académico superior. A la Escuela de Posgrado de la Universidad Tecnológica Nacional, Facultad Regional Buenos Aires por haberme permitido acceder a este nivel de estudio. A mis tutores Dra. Paola Britos y Dr. Ramón García Martínez por haberme conducido a lo largo del desarrollo de este trabajo de tesis. A la Dra. Zulma Cataldi por su colaboración y asesoramiento en la especificación de los lineamientos generales para el desarrollo de esta tesis. A mis colegas y asociados por haber contribuido abierta y desinteresadamente en las pruebas y consultas realizadas no solo para este proyecto en particular sino también por todos los emprendimientos que vamos logrando. A mi esposa por darme la confianza y el apoyo, y soportar diariamente la ardua labor que implica mi desarrollo profesional permanente. A mi madre por haberme inculcado desde niño a seguir el camino de la educación para mejorar mi futuro como persona, como hijo, como hermano y como hombre de familia. Espero que este trabajo y su propuesta de futuras líneas de investigación sirvan como agradecimiento y devolución hacia la sociedad por las oportunidades que me brindó a través de la Universidad Estatal. Página 5 de287

7 Página 6 de287

8 Índice 1. Introducción Minería de Datos (Data Mining) Lineamientos del documento de tesis Técnicas de Minería de Datos Análisis estadístico Análisis a través de sistemas inteligentes Conclusiones Metodologías de Minería de Datos SEMMA CRISP-DM Microsoft Comparación de Metodologías La metodología CRISP-DM Introducción La Metodología CRISP-DM Pasaje de modelos genéricos a modelos especializados El modelo de referencia CRISP-DM Comprensión del Negocio Comprensión de Datos Preparación de Datos Modelado Evaluación La guía de usuario de CRISP-DM Comprendiendo el negocio Comprensión de Datos Preparación de los datos Modelado Evaluación Desarrollo Las salidas del CRISP-DM Comprensión del Negocio Comprensión de Datos Preparación de Datos Modelado Evaluación Desarrollo Resumen de dependencias Apéndice Glosario/Terminología Tipos de problemas de minería de datos Descripción y desarrollo de la industria La industria automotriz y el control de daños y/o averías Circuitos logísticos Transportes y lugares de almacenamiento Procesos a analizar, límites y alcance Puntos de Control Estándares de inspección Información y datos...91 Página 7 de287

9 7.1. Proceso de inspección y captura de datos Sistema normalizado de codificación de daños y/o averías Proceso de educción de requerimientos del proyecto Aplicación de la metodología propuesta Comprensión del Negocio Comprensión de Datos Preparación de Datos Modelado Selección de las técnicas de modelado Generación de la prueba de diseño Construcción de los modelos Descripción de los modelos Modelo de Clasificación Modelo de Clustering Modelo de Predicción Dificultades encontradas Evaluación Evaluación de los resultados en términos de minería de datos Evaluación de los resultados en términos de objetivos de negocio Tipos de averías Lugares Modelos Partes, Averías y Gravedad Lugares, Partes y Tipos de Averías Modelos, Partes y Tipos de Averías Imputación Tipo de Transporte Desarrollo Plan de desarrollo Supervisión y mantenimiento del plan Producción de Informe definitivo Revisión del proyecto Conclusiones Líneas futuras de investigación Bibliografías y Documentación Anexos Anexo 1: Terminología de negocio Anexo 2: Terminología de minería de datos Anexo 3: Consultas estructuradas para base de datos Anexo 4: Codificación Anexo 5: Presentación final Página 8 de287

10 1. Introducción 1.1. Minería de Datos (Data Mining) El gran desarrollo tecnológico de los últimos años ha potenciado el almacenamiento de grandes volúmenes de información. No solo desde el punto de vista del computador personal sino también desde el punto de vista de la computación como un conjunto de dispositivos electrónicamente interconectados capaces de soportar el trasporte de grandes cantidades de información en una dirección determinada con el propósito de ser almacenada centraliza o descentralizadamente, o bien desde el punto de vista de redes electrónicas donde desde cada nodo se permite la posibilidad de cargar información en una o más bases de datos. Al mayor poder de procesamiento y transporte de información se suman los avances tecnológicos en materia de base de datos que soportan grandes volúmenes de información de diferentes orígenes y fuentes pudiendo incluir texto, números, imágenes, video, etc. Estos avances en materia de gran capacidad de almacenamiento de información han dado lugar a la creación de nuevas tecnologías como la Minería de Datos. Conceptualmente la Minería de Datos o Explotación de Datos, como también será llamada en el presente trabajo, se puede definir como un conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos con motivo de predecir de forma automatizada tendencias y comportamientos y/o descubrir de forma automatizada modelos previamente desconocidos [Piatetski-Shapiro, 1991]. Desde un punto de vista empresarial la minería de datos puede ser definida como un conjunto de áreas que tiene como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones [Molina, 2001]. Lo que realmente hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, el Datawarehouse y el Procesamiento Masivo, principalmente usando como materia prima bases de datos. Para tener una aproximación cercana a las diversas definiciones encontradas en diferentes artículos de diferentes autores se puede concluir que la minería de datos es un proceso con el cual se pueden descubrir y cuantificar relaciones predictivas en los datos, y del resultado de este proceso es posible obtener conocimiento útil para el negocio. Hoy en día realizando las consultas (simplemente navegando los datos) convencionales a grandes bases de datos no es suficiente para resolver problemas de negocios, sino que se hace necesario seguir una metodología ordenada para aplicar herramientas tecnológicas y técnicas disponibles en informáticas para así obtener conocimiento y resultados que permitan a las compañías obtener un beneficio. El entorno natural del Data Mining es el Datawarehouse. La minería de datos trata de sacar información de detalle de un almacén de datos. No se conforma solo con la visualización de datos, sino que es necesario obtener resultados en cuanto a la relación que existe entre los mismos y como estos podrían repercutir en el negocio. Página 9 de287

11 Para la explotación de datos aplicando minería de datos existen diferentes técnicas las cuales pueden ser desarrolladas según diferentes metodologías. A continuación se describirán algunas técnicas y metodologías de Data Mining Lineamientos del documento de tesis El primer capítulo desarrolla una breve introducción a la minería de datos que es la base operacional del presente proyecto de tesis. El capítulo dos muestra una descripción de las diferentes técnicas de minería de datos que pueden ser aplicadas en función de las necesidades del estudio en cuestión. El tercer capítulo realiza una comparación entre las diferentes metodología de minería de datos desarrolladas hasta el presente. Además muestra el avance tecnológico de cada técnica y muestra como resultado una breve conclusión que motiva la aplicación de la metodología seleccionada para este proyecto. En el cuarto capítulo se desarrolla la metodología completa a utilizar en este proyecto y esta además representa para esta tesis el estado de la tecnología. Se toma como marco de referencia la metodología propuesta por la organización creadora de la misma y a la cual se hace referencia en las respectivas citas. Le quinto capítulo describe la situación actual de la industria automotriz en lo referente a daños y/o averías. Además se muestran los posibles circuitos logísticos estándares en la industria y demás detalles como los tipos de transporte o lugares de estacionamiento de las unidades automotrices. El sexto capítulo hace referencia a los procesos a analizar, los límites del proyecto y los alcances del mismo. En el séptimo capítulo se realiza la descripción global del sistema de información del que se obtiene toda la información para la explotación de datos. En el capítulo ocho se realiza la aplicación de la metodología propuesta a la industria automotriz. Paso a paso se hace el desarrollo completo de la metodología propuesta. El capítulo nueve muestra las conclusiones a las que se arriba luego del desarrollo del proyecto de tesis. En el capítulo diez se presentan las posibles líneas de investigación que surgen de la realización de este proyecto. El capítulo once muestra la bibliografía a la cual se ha recurrido para el desarrollo del presente proyecto. Finalmente en el capítulo doce se muestran todos los anexos utilizados para la preparación, análisis y evaluación de los resultados. Página 10 de287

12 2. Técnicas de Minería de Datos Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico y mediante los modelos extraídos. Utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. 1. Análisis estadístico Debido al gran volumen de datos con el que se puede contar en la actualidad y al poder de proceso en la tecnología desarrollada hasta aquí, se hace viable la exploración de la información utilizando diferentes técnicas estadísticas. El Análisis Estadístico se preocupa más por el poder de generalización de los resultados obtenidos para inferir los resultados a situaciones más generales que la estudiada. A continuación se presentan algunas técnicas: ANOVA o análisis de la Varianza: Contrasta si existen diferencias significativas entre las medidas de una o más variables continuas en grupos de población distintos. Regresión: Define la relación entre una o más variables y un conjunto de variables predictoras de las primeras. Chi cuadrado: Contrasta la hipótesis de independencia entre variables. Componentes principales: Permite reducir el número de variables observadas a un menor número de variables artificiales, conservando la mayor parte de la información sobre la varianza de las variables. Análisis discriminante: Método de clasificación de individuos en grupos que previamente se han establecido, y que permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto identificar cuáles son las variables que mejor definan la pertenencia al grupo. Series temporales: Es el conocimiento de una variable a través del tiempo para que a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades, que se diferencian por el ámbito de tiempo abarcado, para por composición obtener la serie original. Se pueden aplicar enfoques híbridos con los métodos anteriores, en los que la serie se puede explicar no sólo en función del tiempo sino como combinación de otras variables de entornos más estables y, por lo tanto, más fácilmente predecibles. Análisis cluster 1 : Permite clasificar una población en un número determinado de grupos, en base a semejanzas y desemejanzas de perfiles existentes entre los diferentes componentes de dicha población. El método Chaid (Chi Squared Automatic Interaction Detector): Es un análisis que genera un árbol de decisión para predecir el comportamiento de una variable, a partir de una o más variables predictoras, de forma que los conjuntos de una misma rama y un mismo nivel son disjuntos. Es útil en aquellas situaciones en las que el objetivo es dividir una población en distintos segmentos basándose en algún criterio de decisión. El árbol de decisión se construye partiendo el conjunto de datos en dos o más subconjuntos de observaciones a partir de los valores que toman las variables predictoras. Cada uno de estos subconjuntos vuelve después a ser particionado utilizando el mismo algoritmo. Este proceso continúa hasta que no se encuentran diferencias significativas en la influencia de las 1 Análisis cluster usando mapas autoorganizados (técnica de sistemas inteligentes) será aplicado en esta tesis. Página 11 de287

13 variables de predicción de uno de estos grupos hacia el valor de la variable de respuesta. La raíz del árbol es el conjunto de datos íntegro, los subconjuntos y los subsubconjuntos conforman las ramas del árbol. Un conjunto en el que se hace una partición se llama nodo. El número de subconjuntos en una partición puede ir de dos hasta el número de valores distintos que puede tomar la variable usada para hacer la separación. La variable de predicción usada para crear una partición es aquella más significativamente relacionada con la variable de respuesta de acuerdo con test de independencia de la Chi cuadrado sobre una tabla de contingencia. 2. Análisis a través de sistemas inteligentes El objetivo de la aplicación de Sistemas Inteligentes en la minería de datos es extraer información de manera no supervisada. Se preocupa por ofrecer soluciones algorítmicas con un costo computacional aceptable. A continuación se presentan algunas de estas técnicas: Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización. Redes neuronales: Genéricamente son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. Lógica difusa: Es una generalización del concepto de estadística. La estadística clásica se basa en la teoría de probabilidades, a su vez ésta en la técnica conjuntista, en la que la relación de pertenencia a un conjunto es dicotómica (el 2 es par o no lo es). Si se establece la noción de conjunto borroso como aquel en el que la pertenencia tiene una cierta graduación ( un día a 20º C es caluroso?), dispondremos de una estadística más amplia y con resultados más cercanos al modo de razonamiento humano. Mapas autoorganizados: Los mapas autoorganizados o SOM (Self-Organizing Map), también llamados redes de Kohonen son un tipo de red neuronal no supervisada, competitiva, distribuida de forma regular en una rejilla de, normalmente, dos dimensiones, cuyo fin es descubrir la estructura subyacente de los datos introducidos en ella. A lo largo del entrenamiento de la red, los vectores de datos son introducidos en cada neurona y se comparan con el vector de peso característico de cada neurona. La neurona que presenta menor diferencia entre su vector de peso y el vector de datos es la neurona ganadora (o BMU, Best-Matching Unit, Unidad con mejor ajuste) y ella y sus vecinas verán modificados sus vectores de pesos. Algoritmos de inducción: Encuadrado dentro de las técnicas de Aprendizaje Automático (Machine Learning), estos algoritmos permiten construir automáticamente a partir de un conjunto de datos de entrenamiento un árbol de clasificación. Para inferir el árbol, el algoritmo realiza particiones binarias sucesivas en el espacio de las variables explicativas, Página 12 de287

14 de forma que en cada partición se escoge la variable que aporta más información en función de una medida de entropía o cantidad de información. El árbol así construido consta del mínimo número de atributos (variables) que se requieren para la clasificación eficiente de los ejemplos dados, con lo que es claro el gran poder explicativo de esta técnica. También se pueden elaborar, a partir del árbol, reglas de clasificación fácilmente interpretables, que definen las características que más diferencian a las distintas clases establecidas inicialmente. Este tipo de sistemas clasificadores presentan la ventaja, frente a las técnicas estadísticas, de que tienen un carácter estrictamente no paramétrico. Además, aunque no alcanzan el poder predictivo de las redes neuronales, sus resultados son mucho más fácilmente interpretables que los modelos de caja negra suministrados por aquéllas. 3. Conclusiones En general, cualquiera que sea el problema a resolver, no existe una única técnica para solucionarlo, sino que puede ser abordado siguiendo aproximaciones distintas. El número de técnicas es muy grande y es muy probable que siga creciendo. La experiencia práctica muestra la aptitud de las técnicas de minería de datos para resolver problemas empresariales. También es clara su aportación para resolver problemas científicos que impliquen el tratamiento de grandes cantidades de datos. La minería de datos es, en realidad, una prolongación de una práctica estadística de larga tradición, la de Análisis de Datos. Existe, además, una aportación propia de técnicas específicas de Inteligencia Artificial, en particular sobre la integración de los algoritmos, la automatización del proceso y la optimización del coste. A diferencia de la IA, que es una ciencia joven, en Estadística se viene aprendiendo de los datos desde hace más de un siglo, la diferencia consiste en que ahora existe la potencia de cálculo suficiente para tratar ficheros de datos de forma masiva y automática. Esta es una realidad que cada vez será más habitual. Por otro lado y en relación a la amplia diversidad de técnicas disponibles, conviene tener claro que no existe la técnica más inteligente, sino formas inteligentes de utilizar una técnica y que cada uno utiliza de forma inteligente aquello que conoce. También que para la mayoría de los problemas no existen diferencias significativas en los resultados obtenidos. Página 13 de287

15 Página 14 de287

16 3. Metodologías de Minería de Datos 3.1. SEMMA 2 SAS Institute 3 es el desarrollador de esta metodología, la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del proceso (Figura 1). Muestreo (Sample) Exploración (Explore) Manipulación (Modify) Modelado (Model) Valoración (Assess) Figura 1: Fases de la metodología SEMMA El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de esta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada muestra considerada para el análisis del proceso se debe asociar el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología SEMMA indica que se debe proceder a una exploración de la información disponible con el fin de simplificar en lo posible el problema para optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización o de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo. La tercera fase de la metodología consiste en la manipulación de los datos, en base a la exploración realizada, de forma que se definan y tengan el formato adecuado los datos que serán introducidos en el modelo. Una vez que se han definido las entradas del modelo con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de esta fase consiste en establecer una relación entre las variables explicativas y las variables objeto del estudio, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica fuzzy (difusa), árboles de decisión, reglas de asociación y computación evolutiva. 2 SEMMA: Simple, Explore, Modify, Model, Assess. 3 SAS Institute: Es una empresa con sede en Cary (Carolina del Norte, Estados Unidos). Es uno de los principales fabricantes de software business intelligence.[ Página 15 de287

17 Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos contrastados con otros métodos estadísticos o con nuevas poblaciones muestrales CRISP-DM 4 La metodología CRISP-DM (Chapman, 1999) consta de cuatro niveles de abstracción, organizados de forma jerárquica en tareas que van desde el nivel más general hasta los casos más específicos. A nivel más general, el proceso está organizado en seis fases (Figura 2), estando cada fase a su vez estructurada en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas específicas, donde se describen las acciones que deben ser desarrolladas para situaciones específicas. Así, si en el segundo nivel se tiene la tarea general limpieza de datos, en el tercer nivel se dicen las tareas que tienen que desarrollarse para un caso específico, como por ejemplo, limpieza de datos numéricos, o limpieza de datos categóricos. El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados sobre el proyecto de Data Mining específico. La metodología CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de Data Mining: el del modelo de referencia y la guía del usuario. El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas del proyecto de Data Mining. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia al proyecto de Data Mining específico, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase. La metodología CRISP-DM estructura el ciclo de vida de un proyecto de Data Mining en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto (Figura 2). Las flechas indican relaciones más habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza cíclica del proceso de modelado. 4 CRISP-DM: Cross Industry Standard Process for Data Mining. Página 16 de287

18 Análisis del Problema Análisis de los datos Preparación de los datos Evaluación Datos Modelado Explotación Figura 2: Fases del proceso de modelado metodología CRISP-DM. La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación. La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que sea posible establecer un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis. Una vez realizado el análisis de datos, la metodología establece que se proceda a la preparación de los datos, de tal forma que puedan ser tratados por las técnicas de modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se van a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática. Página 17 de287

19 En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de Data Mining específico. Las técnicas a utilizar en esta fase se seleccionan en función de los siguientes criterios: Ser apropiada al problema Disponer de datos adecuados Cumplir los requerimientos del problema Tiempo necesario para obtener un modelo Conocimiento de la técnica Antes de proceder al modelado de los datos se debe de establecer un diseño del método de evaluación de los modelos, que permita establecer el grado de bondad de los modelos. Una vez realizadas estas tareas genéricas se procede a la generación y evaluación del modelo. Los parámetros utilizados en la generación del modelo dependen de las características de los datos. En la fase de evaluación, se evalúa el modelo, no desde el punto de vista de los datos, sino del cumplimiento de los criterios de éxito del problema. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos para poder repetir algún paso en el que a la vista del desarrollo posterior del proceso se hayan podido cometer errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase, se procede a la explotación del modelo. Normalmente los proyectos de Data Mining no terminan en la implantación del modelo, sino que se deben documentar y presentar los resultados de manera comprensible en orden a lograr un incremento del conocimiento. Además en la fase de explotación se debe de asegurar el mantenimiento de la aplicación y la posible difusión de los resultados [Fayyad, 1996] Microsoft En la Figura 3 se describe las relaciones entre cada paso en la metodología desarrollada por Microsoft para la implementación de Data Mining (Figura 3). Página 18 de287

20 Definir el problema Integración de servicio Integración de servicio Preparar datos Implementar y actualizar modelos Diseñador de minería de datos Vista de origen de datos Explorar datos Validar modelos Generar modelos Figura 3: Fases del proceso de modelado metodología Microsoft. El primer paso del proceso de minería de datos consiste en definir claramente el problema empresarial. Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema, definir las métricas por las que se evaluará el modelo y definir el objetivo final del proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes: Qué se está buscando? Qué atributo del conjunto de datos se desea intentar predecir? Qué tipos de relaciones se intenta buscar? Se desea realizar predicciones a partir del modelo de minería de datos o sólo buscar asociaciones y patrones interesantes? Cómo se distribuyen los datos? Cómo se relacionan las columnas? o en caso de haber varias tablas, cómo se relacionan las tablas? Para responder a estas preguntas, es probable que se deba dirigir un estudio de disponibilidad de datos para investigar las necesidades de los usuarios de la empresa con respecto a los datos disponibles. Si los datos no son compatibles con las necesidades de los usuarios, puede que se deba volver a definir el proyecto. El segundo paso del proceso de minería de datos consiste en consolidar y limpiar los datos identificados en el paso Definir el problema. Los datos pueden estar dispersos en la empresa y almacenados en distintos formatos; también pueden contener incoherencias como entradas que faltan o contienen errores. Página 19 de287

21 El tercer paso del proceso de minería de datos consiste en explorar los datos preparados. Se debe comprender los datos para tomar las decisiones adecuadas al crear los modelos. Entre las técnicas de exploración se incluyen calcular los valores mínimos y máximos, calcular la media y las desviaciones estándar y examinar la distribución de los datos. Una vez explorados los datos, se puede decidir si el conjunto de datos contiene datos con errores y, a continuación, crear una estrategia para solucionar los problemas. El cuarto paso del proceso de minería de datos consiste en generar los modelos de minería de datos. Antes de generar un modelo, se deben separar aleatoriamente los datos preparados en conjuntos de datos de entrenamiento y comprobación independientes. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de comprobación para comprobar la precisión del modelo mediante la creación de consultas de predicción. Una vez definida la estructura del modelo de minería de datos, se procesa rellenando la estructura vacía con los patrones que describen el modelo. Esto se conoce como entrenar el modelo. Los patrones se encuentran al pasar los datos originales por un algoritmo matemático. El modelo de minería de datos se define mediante un objeto de estructura de minería de datos, un objeto de modelo de minería de datos y un algoritmo de minería de datos. El quinto paso del proceso de minería de datos consiste en explorar los modelos que se han generado y comprobar su eficacia. No se debe implementar un modelo en un entorno de producción sin comprobar primero si el modelo funciona correctamente. Además, puede ser que se hayan creado varios modelos y se deba decidir cuál funciona mejor. Si ninguno de los modelos que se han creado en el paso Generar Modelos funciona correctamente, puede ser que se deba volver a un paso anterior del proceso y volver a definir el problema o volver a investigar los datos del conjunto de datos original. El último paso del proceso de minería de datos consiste en implementar los modelos que funcionan mejor en un entorno de producción. Una vez que los modelos de minería de datos se encuentran en el entorno de producción, se pueden llevar acabo diferentes tareas, dependiendo de las necesidades. Éstas son algunas de las tareas que se pueden realizar: Utilizar los modelos para crear predicciones que se puedan utilizar para tomar decisiones empresariales. Incrustar la funcionalidad de minería de datos directamente en una aplicación. Crear un paquete en el que se utilice un modelo de minería de datos para separar de forma inteligente los datos entrantes en varias tablas. Crear un informe que permita a los usuarios realizar consultas directamente en un modelo de minería de datos existente. La actualización del modelo forma parte de la estrategia de implementación. A medida que la organización recibe más datos, se deben volver a procesar los modelos para mejorar así su eficacia. Página 20 de287

22 3.4. Comparación de Metodologías Las metodologías SEMMA, CRISP-DM y Microsoft esencialmente son muy parecidas. Las tres están compuestas por etapas o fases que interactúan entre sí. En referencia a la tecnología SEMMA está más ligada a los aspectos técnicos de la explotación de datos. En cuanto a las otras dos, están más enfocadas en el negocio en sí; es decir en la aplicación de la Minería de Datos a los negocios. Esta diferencia se ve específicamente en la primera etapa donde SEMMA arranca directamente en el trabajo de datos mientras que CRISP-DM y Microsoft empiezan por el estudio del negocio y sus objetivos, y luego recién se transforma en un problema técnico. Analizando la propuesta metodológica de Microsoft se puede ver que está íntimamente vinculada a la aplicación de las herramientas de su propia compañía (Microsoft) especialmente en lo que respecta a la integración de servicios, vista de origen de datos y diseñador de minería de datos. Lo mismo ocurre con la metodología SEMMA la cual está ligada a herramientas SAS. Para concluir se puede decir que uno de los motivos por los cuales fue escogida para el presente proyecto la metodología CRISP-DM es que este sistema está diseñado como una metodología independiente de la herramienta tecnológica a utilizar en la Explotación de Datos. Esto último la hace más flexible. Otro punto importante es que es de libre acceso y cumple con la característica de ser orientada al negocio. Para esta implementación su desarrollo será aplicado a los datos de la Industria Automotriz. Finalmente también es posible resaltar que la metodología CRISP-DM es más completa debido a que tiene toda una fase dedicada al entendimiento del negocio. La Tabla 1 muestra un cuadro comparativo entre las diferentes metodologías descriptas hasta aquí. Metodologías CRISP-DM SEMMA Microsoft Estructura Fases y niveles Fases Fases Niveles Parte de lo general a lo específico No tiene No tiene Fases Análisis del problema Análisis de datos Preparación de Datos Modelado Evaluación Explotación Muestreo Exploración Manipulación Modelado Valoración Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos Herramientas Genéricas SAS Microsoft Procesos Iterativo e interactivo Iterativo e interactivo entre Iterativo e interactivo entre fases entre fases fases Documentación Modelo de referencia No se especifica No se especifica Guía de usuario Objetivos Se centra en los Se centra en las Se centra en los objetivos objetivos características técnicas del empresariales del proyecto empresariales del desarrollo del proceso proyecto Tabla 1: Cuadro comparativo de metodologías Página 21 de287

23 Página 22 de287

24 4. La metodología CRISP-DM 4.1. Introducción La Metodología CRISP-DM Interrupción jerárquica La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos. (Ver figura 4.) Figura 4: Cuatro niveles de interrupción de la metodología CRISP-DM En el nivel superior, el proceso de minería de datos es organizado en un número de fases; cada fase consiste de varias tareas genéricas de segundo nivel. Este segundo nivel es llamado genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos. Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minería de datos como todas las aplicaciones de minería de datos posibles. Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo. El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. Por ejemplo, en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. El tercer nivel describe como esta tarea se distingue en situaciones diferentes, como la limpieza de valores numéricos contra la limpieza de valores categóricos, o si el tipo de problema es de agrupamiento o de modelado predictivo. La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos. En la práctica, muchas de las tareas pueden ser realizadas en un orden diferente, y esto a menudo es necesario para volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Este modelo Página 23 de287

25 de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo. El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minería de datos real. Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos, pero representa más bien lo que en realidad sucede en un caso particular que lo que sucede en general Modelo de referencia y guía de usuario Horizontalmente, la metodología de CRISP-DM distingue entre el modelo de referencia y la guía de usuario. El modelo de referencia presenta una descripción rápida de fases, las tareas, y sus salidas, y describe que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minería de datos Pasaje de modelos genéricos a modelos especializados Contexto de la minería de datos El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP- DM. Actualmente se distinguen cuatro dimensiones diferentes de contextos de minería de datos: El dominio de aplicación es el área específica en la que el proyecto de minería de datos toma lugar. Los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de objetivo(s) con el que el proyecto de minería de datos trata. El aspecto técnico cubre cuestiones específicas en minería de datos que describe diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos. La herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos. La Tabla 2 resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión. Dimensión Ejemplos Dominio Aplicación Modelar Respuesta Contexto Data Mining Tipo Aspecto Problema Técnico Data Mining Descripción y Valores por sumarización omisión Herramienta y Técnica Clementine Realizar Predicción Segmentación Outliers Mineset Realizar Predicción Descripción Outliers Decision Tree Concepto Clasificación Decision Tree Predicción Análisis Dependencia Tabla 2: Dimensión de contextos y ejemplos de minería de datos Página 24 de287

26 Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. Por ejemplo, un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico. Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minería de datos Pasaje con contextos Se distinguen dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM: Pasaje para el presente: Si sólo se aplica el modelo de proceso genérico para realizar un proyecto de minería simple e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido, se habla sobre un pasaje solo para (probablemente) un solo uso. Pasaje para el futuro: Si sistemáticamente se especializa el modelo de proceso genérico según un contexto predefinido (o se analiza sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), se habla explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM. Cualquiera de los tipos de trazados es apropiado según sus propios objetivos, depende de su contexto de minería de datos específicos y las necesidades de su organización Pasaje La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje: Analizar su contexto específico. Quitar cualquier detalle no aplicable a su contexto. Agregar cualquier detalle específico a su contexto. Especializar (o instanciar) el contenido genérico según las características concretas de su contexto. Renombrar el contenido genérico posible para proporcionar significados más explícitos en su contexto para la aclaración El modelo de referencia CRISP-DM El modelo de proceso corriente para la minería de datos proporciona una descripción del ciclo de vida del proyecto de minería de datos. Este contiene las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas. En este nivel de descripción, no es posible identificar todas las relaciones. Las relaciones podrían existir entre cualquier tarea de minería de datos según los objetivos, el contexto, y -lo más importante- el interés del usuario sobre los datos. El ciclo de vida del proyecto de minería de datos consiste en seis fases, se muestran en la Figura 2 (Fases del proceso de modelado metodología CRISP-DM). La secuencia de las fases no es rígida. Página 25 de287

27 El movimiento hacia adelante y hacia atrás entre fases diferentes es siempre requerido. El resultado de cada fase determina que la fase o la tarea particular de una fase tienen que ser realizados después. Las flechas indican las más importantes y frecuentes dependencias entre fases. El círculo externo en la Figura 2 simboliza la naturaleza cíclica de la minería de datos. La minería de datos no se termina una vez que la solución es desplegada. Las informaciones ocultas (lecciones ocultas) durante el proceso y la solución desplegada pueden provocar nuevas y a menudo más preguntas enfocadas en el negocio. Los procesos de minería subsecuentes se beneficiarán de las experiencias previas. A continuación se describe brevemente cada fase: Comprensión del Negocio: Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y exigencias desde una perspectiva de negocio, luego se convierte este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos. Comprensión de los datos: La fase de entendimiento de datos comienza con la colección de datos inicial y continúa con las actividades que permiten familiarizarse con los datos, identificar los problemas de calidad de datos, descubrir los primeros conocimientos en los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. Preparación de Datos: La fase de Preparación de Datos cubre todas las actividades necesarias para construir el conjunto de datos final (los datos que serán provistos por las herramientas de modelado) de los datos en bruto iniciales. Las tareas de Preparación de Datos probablemente van a ser realizadas muchas veces y no en cualquier orden prescripto. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan. Modelado: En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados a valores óptimos. Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requerimientos específicos sobre la forma de datos. Por lo tanto, volver a la fase de Preparación de Datos es a menudo necesario. Evaluación: En esta etapa en el proyecto, se ha construido un modelo (o modelos) que parece tener una alta calidad de la perspectiva de análisis de datos. Antes de proceder al despliegue final del modelo es importante evaluar a fondo el modelo y la revisión de los pasos ejecutados para crearlo para comparar el modelo correctamente obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido suficientemente considerada. En el final de esta fase, una decisión en el uso de los resultados de minería de datos debería ser tomada. Desarrollo: La creación del modelo no es generalmente el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento ganado debería ser organizado y presentado en el modo en el que el cliente pueda usarlo. Ello a menudo implica la aplicación de modelos "vivos" dentro de un proceso de toma de decisiones de una organización, por ejemplo, en tiempo real la personalización de página Web o la repetida obtención de bases de datos de mercadeo. Dependiendo de los requerimientos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización repetida de un proceso cruzado de minería de datos a través de la empresa. En muchos casos, es el cliente, no el analista de datos, quien lleva el paso de desarrollo. Sin embargo, incluso si el analista realizara el esfuerzo de despliegue, esto es importante para el cliente para entender que acciones necesitan ser ejecutadas en orden para hacer uso de los modelos creados en ese momento. Página 26 de287

28 La figura 5 presenta un contexto de fases acompañadas por tareas genéricas y las salidas. En las secciones siguientes, se describen cada tarea genérica y sus salidas más detalladamente. La atención es enfocada en descripciones de tarea y resúmenes de salidas Comprensión del Negocio Figura 5: Tareas genéricas y salidas del modelo de referencia CRISP-DM La primera etapa de la metodología apunta a la comprensión de los objetivos del proyecto desde el punto de vista de los objetivos de negocio. En función del conocimiento obtenido del negocio se plantea un problema de minería de datos. En esta etapa se desarrollan los pasos preliminares para lograr los objetivos del negocio con herramientas de minería de datos. Página 27 de287

29 Determinación de objetivos de negocio Tarea: Determinar los objetivos de negocio Figura 6: Comprensión del Negocio El primer objetivo para un contexto es entender desde una perspectiva de negocio lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos que compiten y restricciones que deben ser correctamente equilibrados. El objetivo debe ser mostrar (destapar) factores importantes, al principio esto puede influir en el resultado del proyecto. Una consecuencia posible de la negligencia de este paso es gastar un gran esfuerzo produciendo respuestas correctas a preguntas incorrectas o erradas. Salida: Contexto Se registra la información que se conoce sobre la situación de negocio de la organización en el principio del proyecto. Objetivos de negocio Se describe el objetivo primario del cliente, desde una perspectiva de negocio. Además de los objetivos del negocio primario allí hay típicamente otras preguntas de negocio relacionadas con lo que al cliente le gustaría administrar. Por ejemplo, el objetivo primario del negocio podría ser mantener a clientes corrientes por predicción cuando ellos son propensos a moverse a un competidor. Los ejemplos de preguntas relacionadas de negocio son Cómo el uso del canal Página 28 de287