RESUMEN ABSTRACT. CRISP, KDD, Business Intelligence, Data Mining, SEMMA



Documentos relacionados
v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Parte I: Introducción

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Data Mining Técnicas y herramientas

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Portafolio de Servicios y Productos

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Gestión y Desarrollo de Requisitos en Proyectos Software

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

CMMI (Capability Maturity Model Integrated)

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

ANALIZANDO GRAFICADORES

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

LOGISTICA D E COMPRAS

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

MINERIA DE DATOS Y Descubrimiento del Conocimiento

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Habilidades y Herramientas para trabajar con datos

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler

Unidad 1. Fundamentos en Gestión de Riesgos

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

El modelo de ciclo de vida cascada, captura algunos principios básicos:

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

SÍNTESIS Y PERSPECTIVAS

Visión global del KDD

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Técnicas de valor presente para calcular el valor en uso

Covarianza y coeficiente de correlación

Master en Gestion de la Calidad

Elementos requeridos para crearlos (ejemplo: el compilador)

Mesa de Ayuda Interna

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

Cumpliendo con las Necesidades de la Salud Sexual y Reproductiva de Jóvenes Vulnerables: Una Caja de Herramientas para Monitoreo y Evaluación

TEMA 3: EN QUÉ CONSISTE?

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

Metodología básica de gestión de proyectos. Octubre de 2003

NORMA INTERNACIONAL DE AUDITORÍA 520

Un primer acercamiento a la CMDB.

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

CAPÍTULO 3 Servidor de Modelo de Usuario

INTRODUCCION AL DESARROLLO DE SISTEMAS DE INFORMACION

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

Preguntas más frecuentes sobre PROPS

<Generador de exámenes> Visión preliminar

Inteligencia de Negocio

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Bechtle Solutions Servicios Profesionales

Profunda comprensión de que valores son o podrían ser percibidos por los clientes.

Construcción de cubos OLAP utilizando Business Intelligence Development Studio


Mantenimiento de Sistemas de Información

6 Anexos: 6.1 Definición de Rup:

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

1. INTRODUCCIÓN 1.1 INGENIERÍA

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

PREPARADO POR: FECHA DE EMISIÓN: FECHA DE VALIDACIÓN:

Es de aplicación a todas aquellas situaciones en las que se necesita desplegar un objetivo para obtener una visión clara de cómo debe ser alcanzado.

CATÁLOGO DE CURSOS. Centro de Prácticas y Capacitación Profesional

Seguimiento y evaluación

Ciclos y fases de la identificación de proyectos. Tema: Ciclo del proyecto. Autor: María Alejandra Albis

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

TEMA 5: La explotación de un servicio TI

Planeación del Proyecto de Software:

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler


ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un

3.3.3 Tecnologías Mercados Datos

Administración de proyectos de desarrollo de software

Solicitar la competencia Business Intelligence Solutions

El objetivo principal del presente curso es proporcionar a sus alumnos los conocimientos y las herramientas básicas para la gestión de proyectos.

Gestión de proyectos

2 EL DOCUMENTO DE ESPECIFICACIONES

Business Process Management(BPM)

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Diseño orientado al flujo de datos

INTELIGENCIA DE NEGOCIOS

INVESTIGACIÓN DE MERCADOS

ERP GESTION LOGÍSTICA

ADMINISTRACIÓN DE PROYECTOS

GUÍA ESENCIAL DE LAS HABILIDADES ESENCIALES

GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS

Unidad VI: Supervisión y Revisión del proyecto

Bases de datos en Excel

Capítulo IV. Manejo de Problemas

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Transcripción:

Rev. Tecnol. Journal of Technology Volumen 9 No. 1 Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP Hernando Camargo 1, Mario Silva 2. RESUMEN Este documento discute los resultados de la investigación analítica sobre los dos caminos comúnmente usados en la búsqueda de la mejor guía disponible para lograr llevar a cabo un proyecto de minería de datos. Estas dos propuestas son SEMMA (Sample, Explore, Modify, Model, Asses) y CRISP (Cross Industry Standard Process for Data Mining). Son las más aceptadas en la comunidad de desarrolladores de proyectos de Minería de Datos. Índice de Términos: CRISP, KDD, Inteligencia de Negocios, Minería de datos, SEMMA. ABSTRACT This paper discusses results of the analytical research on two ways commonly used in the search for the best guide available to carry out a data mining project. The two proposals are SEMMA (Sample, Explore, Modify, Model, Asses) and CRISP (Cross Industry Standard Process for Data Mining). They are the most widely accepted in the community of developers of data mining projects. Index Terms: CRISP, KDD, Business Intelligence, Data Mining, SEMMA 1 Universidad El Bosque 2 Vehículos del camino Concesionario Mazda 11

Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP I. INTRODUCCIÓN Un proyecto, sea el que sea, para que pueda lograr el éxito en los resultados, debe plantear su camino en un concepto llamado metodología. Esta no es la excepción en el caso de los proyectos de minería de datos. Cuando se tiene una gran cantidad de datos estos deben ser contenidos en grandes almacenes informáticos (bodegas de datos) que están diseñados para contener enormes cantidades de información. Su diseño está, entre muchas otras variables, enfocado a satisfacer una inversión a corto plazo pero de larga duración [1]. En esta gran cantidad de información la apreciación visual deja de ser suficiente para analizar todos los datos. Para lograr un resultado que sea interesante para la organización propietaria de la información, se deben aplicar técnicas y métodos estadísticos, de modo que sea más fácil apreciar patrones ocultos en estos datos. Debido a que este tipo de análisis apenas empieza a ser interesante en las organizaciones, la alternativa comúnmente usada para hacer estos estudios es ingresar los datos en las herramientas disponibles como WEKA (Universidad de Waikato) [2] o Business Intelligence Development Studio (Microsoft) [3], entre otros. Sin embargo, si no se cuenta con una guía que le indique al analista cuáles pasos debe seguir para obtener un resultado que genere conocimiento, la tarea de ingresar datos en una herramienta informática no tendría mucho sentido. Se debe usar una metodología que muestre ese camino (no necesariamente la meta). Al buscar el mejor camino para resolver este problema, salen a la luz dos metodologías, CRISP y SEMMA. Las dos permiten tomar la información, aplicar métodos estadísticos y lograr un resultado. Pero cuál de estas dos es mejor, o por lo menos cual es más conveniente para aplicar en un proyecto de minería de datos? Para visualizar una respuesta a esta inquietud se empieza por iniciar el entendimiento sobre lo que se busca en un proyecto de minería de datos. II. MINERÍA DE DATOS La minería de datos se define como el proceso de exploración y análisis, por medios automáticos o semiautomáticos, de grandes volúmenes de información con el objetivo de descubrir e identificar patrones y reglas significativas [4]. La minería de datos, en un primer acercamiento, aparenta ser un tema ya conocido y nada novedoso por implementar tecnologías ya conocidas en las áreas de la Probabilidad y la Estadística, sin embargo se le reconoce un nuevo potencial: el valor que le asigna a la cantidad de datos almacenados en los garajes informáticos de las empresas en general. Mediante este esquema los datos pasan de ser un producto para convertirse en materia prima por explotar. Las nuevas necesidades y características de los datos en volumen y tipología hacen que las disciplinas que integran y aprovechan la minería de datos sean numerosas y heterogéneas. El objetivo principal de la minería de datos es el de analizar los datos para extraer conocimiento, este puede encontrarse en forma de relaciones, patrones o reglas, que precisamente serán inferidas de los datos, o bien en forma de una descripción mas concisa. Los modelos pueden ser de dos tipos: Predictivos y Descriptivos [5]. Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables de interés, que se denominan variables objetivo o dependientes, usando otras variables o campos de las bases de datos que se denominan variables independientes o predictivas. Como ejemplo, un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto en función del gasto en publicidad. Los modelos descriptivos identifican patrones que explican o resumen los datos, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Como ejemplo, una agencia de viajes puede estar interesada en identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder remitirles información relacionada; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos. La minería de datos tiene una serie de tareas que pueden interpretarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de información obtenida con una tarea puede diferir mucho de la obtenida con otra. La clasificación es la tarea más utilizada. En esta tarea cada instancia o registro de la base de datos pertenece a una clase, la cual se indica mediante el valor de un atributo 12

Rev. Tecnol. Journal of Technology Volumen 9 No. 1 que se llama clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. En otras palabras, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias la cual se calcula como el cociente entre las predicciones correctas y el número total de las predicciones. Como ejemplo se puede considerar un oftalmólogo que desea disponer de un sistema que le sirva para determinar la conveniencia o no de recomendar la cirugía ocular para sus pacientes. Para ello dispone de una base de datos de sus antiguos pacientes clasificados en operados satisfactoriamente y operados no satisfactoriamente en función del tipo de problema que padecían y de su edad. El modelo encontrado se utiliza para clasificar nuevos pacientes, es decir, para decidir si es conveniente operarlos o no. La regresión es otra tarea, del orden predictivo, que consiste en aprender una función real que asigna a cada instancia un valor real. Esta es la principal diferencia respecto a la clasificación, el valor a predecir es numérico. El objetivo en este caso es minimizar el error (generalmente el error cuadrático medio) entre el valor predicho y el valor real. A manera de ejemplo, un empresario quiere conocer cuál es el costo de un nuevo contrato basándose en los datos correspondientes a contratos anteriores. Para ello usa una fórmula de regresión lineal, ajustando con los datos pasados la función lineal y usándola para predecir el costo en el futuro. El agrupamiento es la tarea descriptiva por excelencia y consiste en obtener grupos naturales a partir de los datos. En este caso se habla de grupos y no de clases, porque a diferencia de la clasificación, en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Por ejemplo, una librería que ofrece sus servicios a través de la red usa el agrupamiento para identificar grupos de clientes con base en sus preferencias de compras que le permita dar un servicio más personalizado. Así, cada vez que un cliente se interesa por un libro, el sistema identifica a qué grupo pertenece y le recomienda otros libros comprados por clientes de su mismo grupo. Las correlaciones son una tarea descriptiva, que se usa para examinar el grado de similitud de los valores de dos variables numéricas. Una formula estándar para medir la correlación lineal es el coeficiente de correlación r, el cual es un valor comprendido entre -1 y 1. Si r es 1 (respectivamente, -1) las variables están perfectamente correlacionadas (perfectamente correlacionadas negativamente), mientras que si su valor es 0 no hay correlación. Esto quiere decir que cuando r es positivo, las variables tienen un comportamiento similar, mientras que cuando r es negativo, si una variable crece, la otra decrece. Como ejemplo de las correlaciones, un inspector de incendios que desea obtener información útil para la prevención de ellos, probablemente esté interesado en conocer correlaciones negativas entre el empleo de distintos grosores de protección de material eléctrico y la frecuencia de ocurrencia de incendios. Las reglas de asociación son también tareas descriptivas similares a las correlaciones, que tienen como objeto identificar relaciones no explícitas entre atributos categóricos. Pueden ser de muchas formas aunque la formulación más común es del estilo si el atributo X toma el valor d entonces el atribuyo Y toma el valor b. Las reglas de asociación no implican una relación causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Como ilustración, una compañía de asistencia sanitaria desea analizar las peticiones de servicios médicos solicitados por sus asegurados. Cada petición contiene información sobre las pruebas médicas que fueron realizadas al paciente durante una visita. Toda esta información se almacena en una base de datos en la que cada petición es un registro cuyos atributos expresan si se realiza o no cada una de las posibles pruebas médicas que pueden ser realizadas a un paciente. Mediante reglas de asociación, un sistema encontraría aquellas pruebas médicas que frecuentemente se realizan juntas, por ejemplo que un 70 por ciento de las veces que se pide un análisis de orina también se solicita uno de sangre, y esto ocurre en dos de cada diez pacientes. La precisión de esta regla es del 70 por ciento y el soporte del 20 por ciento. Como caso especial de estas reglas de asociación se encuentran las reglas de asociación secuencial, las cuales se usan para determinar patrones secuenciales en los datos. Estos patrones se basan en secuencias temporales de 13

Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP acciones y difieren de las reglas de asociación en que las relaciones entre los datos se basan en el tiempo. Para mostrar esta tarea, asumamos que una tienda de venta de electrodomésticos y equipos de audio analiza las ventas que ha efectuado usando análisis secuencial y descubre que el 30 por ciento de los clientes que compraron un televisor hace seis meses compraron un DVD en los siguientes dos meses. Sin embargo, la minería de datos es solamente una etapa de lo que se ha venido llamando el proceso de extracción de conocimiento a partir de datos. Este proceso se conoce como KDD. III. KDD Se define la KDD o Knowledge Discovery in Databases como el proceso no trivial de identificar patrones válidos, novedosos potencialmente útiles y, en última instancia, comprensibles a partir de los datos [6]. La KDD es un término que se confunde muy comúnmente con la minería de datos. Como se puede apreciar en la Fig. 1, de manera correcta la KDD es un proceso que consta de una serie de fases [5], mientras que la minera de datos es solo una de esas fases. Fig 1. Proceso de KDDFigura 5. Proceso de KDD Del conocimiento extraído se desean las siguientes propiedades [5]: Válido: Hace referencia a que los patrones deben seguir siendo precisos para los datos nuevos (con un cierto grado de incertidumbre), y no sólo para aquellos que han sido usados en su obtención. de decisiones. De hecho, una información incomprensible no proporciona conocimiento (al menos desde el punto de vista de su utilidad). El KDD involucra un proceso iterativo e interactivo [7] de búsqueda de modelos, patrones o parámetros. Sus metas son procesar grandes cantidades de datos, identificar los patrones más significativos y relevantes, y presentarlos como conocimiento para satisfacer los objetivos del usuario. El proceso ya empieza a definir, para alguien que no se encuentra completamente familiarizado con el tema, cómo debería ser el camino para realizar un análisis por medio de la aplicación de técnicas de minería de datos. Para resolver la pregunta inicial sobre que metodología debiera seguirse, se debería mostrar ahora cuales fueron las metodologías en evaluación. IV. CRISP - DM Esta metodología inicialmente fue desarrollada por tres empresas que iniciaron sus investigaciones en el tema de la Minería de Datos: DaimlerChrysler (luego conocido como DaimlerBenz) quien siempre implementó principios y técnicas de minería de datos en sus negocios, SPSS quien provee servicios basados en Minería de Datos desde 1990, y NCR. La metodología CRISP DM, como lo muestra la Fig. 2 [8], está descrita en términos de un modelo de proceso jerárquico, que consiste en una serie de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): Fases, tareas genéricas, tareas especializadas e instancias de proceso. Novedoso: Que aporte algo desconocido tanto para el sistema y preferiblemente para el usuario. Potencialmente útil: la información debe conducir a acciones que reporten algún tipo de beneficio para el usuario. Comprensible: La extracción de patrones no comprensibles dificulta o imposibilita su interpretación, revisión, validación y uso en la toma Fig 2. Modelo Jerárquico de la metodología CRISP.Figura 1. Modelo Jerárquico de la metodología CRISP Las fases que trata la metodología CRISP DM se resumen en la Tabla1. 14

Rev. Tecnol. Journal of Technology Volumen 9 No. 1 Tabla 1. Fases de la metodología CRISP Fase Entendimiento del negocio Entendimiento de los datos Preparación de los datos Modelado Evaluación Despliegue Descripción Esta fase inicial se centra en el entendimiento de los objetivos del proyecto y los requerimientos desde una perspectiva del negocio, para convertir este conocimiento en un problema de definición de minería de datos y un plan preliminar diseñado para alcanzar los objetivos. Esta fase inicia con una colección inicial de datos y procede con actividades para familiarizarse con ellos, identificar problemas de calidad en los mismos, descubrir una primera idea de estos o detectar conjuntos interesantes que permitan formar hipótesis en la búsqueda de información escondida. Cubre todas las actividades para construir la base final de datos (datos que serán el alimento de las herramientas de modelado) desde una base en bruto. Es preferible que las tareas de preparación de datos se realicen varias veces y no en un orden preestablecido. Estas tareas incluyen tabulación, documentación y selección de atributos, también como transformación y limpieza de datos para las herramientas de modelado. Se seleccionan y aplican varias técnicas, y sus parámetros son calibrados a los valores óptimos. Por lo general hay varias técnicas para el mismo tipo de problema. Algunas técnicas tienen requerimientos específicos en la forma de los datos, por lo tanto será a menudo necesario devolverse a la fase de preparación de datos Al llegar a esta fase se ha construido un modelo (o modelos) que aparentan tener una alta calidad desde la perspectiva del análisis de datos. Antes de proceder a la entrega final del modelo es importante evaluarlo más a fondo y revisar los pasos ejecutados para construirlo, de tal forma que este lo más cercano posible de alcanzar los objetivos del negocio. Un objetivo clave es determinar si hay algún evento importante del negocio que no haya sido considerado lo suficiente. Al final de esta fase, se debe tener una decisión sobre el uso de los resultados de minería de datos. La creación del modelo por lo general no es el final del proyecto. Incluso si el propósito del modelo es incrementar conocimiento sobre los datos, el conocimiento ganado necesitará ser organizado y presentado de una manera que el cliente lo pueda usar. A menudo implica aplicar modelos en vivo dentro del proceso de toma de decisiones de una organización, por ejemplo, en la personalización en tiempo real de las páginas web o la puntuación repetida en bases de datos de mercadeo. Sin embargo, dependiendo de los requerimientos, la fase de despliegue puede ser tan simple como generar un reporte o tan compleja como implementar un proceso repetible de minería de datos a través de la empresa. En muchos casos es el cliente, no el analista de datos, quien realiza los pasos de despliegue. Sin embargo, incluso si el analista no carga con el esfuerzo de despliegue, es importante que el cliente entienda que acciones deben ser llevadas a cabo para hacer uso de los modelos creados. La figura 3 ilustra el comportamiento [8] y la relación de las fases descritas en la Tabla 1. Fig. 3. Fases y ciclo de la Metodología CRISP V. SEMMA El acrónimo SEMMA surge de las iniciales de las palabras Sample (muestra), Explore (explorar), Modify (modificar), Model (modelar) y Assess (evaluar). Es un proceso que se sigue para realizar minería de datos [9]. Principalmente SEMMA es una organización lógica para el manejo de una herramienta funcional de SAS llamada Enterprise Manager para el manejo de tareas de minería de datos. SEMMA intenta hacer fácil de aplicar la exploración estadística y la visualización de técnicas, seleccionando y transformando las variables predictivas más relevantes, modelándolas para obtener resultados, y finalmente confirmar la precisión del modelo [1]. SEMMA se enfoca en los aspectos de desarrollo del modelo de minería de datos: muestreo, explorar, modificar, modelar y evaluar, detallados en la Tabla 2. 15

Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP Tabla 2. Aspectos de desarrollo de SEMMATabla 1. Fases de la metodología Muestreo Explorar Modificar Modelar Evaluar Se busca extraer una porción de datos lo suficientemente grande para contener información significativa, pero reducida para manipularla rápidamente. Si los patrones generales aparecen en los datos en su conjunto, estos se pueden distinguir en una muestra representativa. Si un nicho es tan pequeño que no es representable con una muestra y aun así es tan importante que influencia la imagen completa, puede ser descubierto por medio de métodos de síntesis. También se pueden crear conjuntos de datos así: Entrenamiento Usado para modelos adecuados Validación Usado para comprobar Prueba Usado para obtener comprobaciones honestas y para mostrar que tan bien puede generalizar un modelo. Se desea explorar los datos buscando tendencias y anomalías imprevistas para obtener una comprensión total de los mismos. Esta fase ayuda a refinar el proceso de descubrimiento. Si visualmente no hay un resultado claro se pueden tratar los datos por medio de técnicas estadísticas como el análisis factorial, de correspondencias y agrupaciones. A manera de ejemplo, en la minería de datos de campañas de correo directo, el agrupamiento podría revelar grupos de compradores con distintos patrones de ordenamiento, y sabiendo esto, se crea la oportunidad de generar correos personalizados o promociones. Se modifican los datos por medio de la creación, selección y transformación de variables, para centrar el proceso de selección del modelo. Basado en los descubrimientos en la fase de exploración, puede haber la necesidad de manipular los datos para incluir información como la de agrupamiento de compradores y subgrupos significativos, o introducir nuevas variables. También puede ser necesario buscar valores extremos (bordes) y reducir el número de variables, para reducir a los más significativos. También puede ser necesario modificar datos cuando la información minada cambie. Debido a que la minería de datos es un proceso dinámico e iterativo, puede actualizar los métodos o los modelos cuando esté disponible nueva información. Se modelan los datos permitiendo que el software busque automáticamente una combinación de datos que prediga con cierta certeza un resultado deseado. Las técnicas de modelado en minería de datos incluyen las redes neuronales, modelos de arboles de decisión, modelos lógicos y otros modelos estadísticos (como los análisis de serie de tiempo, razonamiento basado en memoria y componentes principales). Cada uno tiene sus fortalezas, y dependiendo de la información se debe aplicar el más adecuado según las situaciones concretas para el análisis con la minería de datos. Por ejemplo, las redes neuronales son muy buenas en la conexión de relaciones no lineales de gran complejidad. Se califican los datos mediante la evaluación de la utilidad y fiabilidad de los resultados del proceso de minería de datos. Una forma común de evaluación de un modelo es la de aplicar el modelo a una porción aparte de resultados obtenidos durante el muestreo. Si el modelo es válido, debería funcionar para esta muestra, así como para la muestra utilizada en la construcción del modelo. De manera similar, se puede probar el modelo nuevamente con los datos conocidos. Por ejemplo, si se sabe cuales clientes tienen altas tasas de retención y su modelo predice la retención, puede probar si el modelo selecciona estos clientes acertadamente. Cuando se haya desarrollado el modelo usando SEMMA basado en la aproximación de minería, se necesita desplegar la solución para calificar los nuevos casos. El despliegue del modelo es el resultado final de la minería de datos. La Fig. 4 muestra el flujo del proceso de Minería de Datos mediante la metodología SEMMA [9]. Fig 4. Fases de SEMMA 16

Rev. Tecnol. Journal of Technology Volumen 9 No. 1 VI. RESULTADOS Las metodologías CRISP-DM y SEMMA fueron comparadas y se obtuvieron los resultados sintetizados en la Tabla 3 que contrasta los aspectos principales de ambos esquemas. Se puede ver que ambas metodologías mantienen la misma esencia al mantener los lineamientos de KDD: son fases relacionadas en un orden similar y funcionan de manera iterativa (por la retroalimentación). Abierta Tabla 3. Comparación CRISP DM y SEMMA CRISP - DM Funciona en cualquier esquema que aplique minería de datos. Permite que cualquier sistema informático pueda seguir estos pasos Implica retroalimentación, es cíclica Fases: Entendimiento del negocio, Entendimiento de los datos, Preparación de los datos, Modelado, Evaluado, Despliegue Metodología Permite aplicar cualquier modelo estadístico Enfocada a resultados empresariales Sigue el esquema propuesto en KDD Libre distribución SEMMA Cerrada (Abierta en los aspectos generales únicamente) Funciona específicamente en SAS Implica retroalimentación, es cíclica Fases: Muestreo, Explorar, Modificar, Modelar, Evaluar Secuencia Lógica Está obligado a los modelos estadísticos que tenga incorporados la herramienta Enterprise Miner Enfocada a resultados del proceso Sigue el esquema propuesto en KDD Distribución en clientes SAS Se aprecia una diferencia marcada en CRISP, que tiene en cuenta aspectos del negocio (en la fase inicial principalmente Entendimiento del negocio). De este modo, CRISP puede percibir para el proyecto de minería de datos los datos que debe buscar, cuáles son los objetivos que debe alcanzar y cuáles podrían ser los resultados esperados. Otra diferencia muy importante es que para acceder a la metodología CRISP se puede hacer directamente desde la página web. Para acceder a la metodología SEMMA solo es posible cuando se tiene una solución SAS con la cual se puede trabajar. Solo se permite el acceso a las generalidades del proceso como muestra de cuál es el camino a seguir. VII. CONCLUSIÓN De los dos caminos, no resulta justo definir cuál es el mejor en términos absolutos. Ambos son bastante sólidos, sin embargo en la práctica es la metodología SEMMA un poco más reducida en el alcance de resultados que la metodología CRISP. SEMMA funciona perfectamente cuando se tiene un sistema SAS, el cual es muy popular en empresas grandes. Sin embargo es posible que este sea el Talón de Aquiles de este estándar, ya que los demás esquemas quedan por fuera de la solución. CRISP DM no sólo se ajusta un poco más a los parámetros de la KDD, sino también a los procesos que una empresa realiza en su trabajo con los datos. También se puede percibir cierta similitud en el proceso de CRISP con otros de desarrollo de proyectos de software como RUP (Proceso Unificado Racional) en donde las fases de CRISP aparentan ser similares al ciclo de vida de RUP. SAS es una empresa que tiene mucha trayectoria en el mercado para el manejo de información. Particularmente tienen experiencia en temas de negocios complejos. Inician actividades en 1976 y hasta hoy en día siempre han sido conocedores de soluciones de sistemas. El conocimiento de cómo abarcar un proyecto de análisis con minería de datos lo han dejado por escrito en el estándar SEMMA, de modo que no se puede descartar fácilmente esta metodología. La minería de datos es una herramienta desarrollada en principio para el análisis de datos aplicando métodos estadísticos. La naturaleza de estos métodos hacía que para que una empresa solicitara este tipo de análisis a una entidad experta en la materia, se vería forzosamente obligada a pagar altos costos por los resultados. Sin embargo la automatización de los procesos generó grandes cantidades de información que incluso estos analizadores no tenían la capacidad de procesar. Los grandes fabricantes de motores de bases de datos como Microsoft (con SQL Server), Oracle, y demás se han visto obligados a incluir en sus soluciones paquetes que permiten aplicar las técnicas de minería de datos dentro de sus tareas comunes. La minería de datos hace parte de la tendencia Business Intelligence (Inteligencia de Negocio) y particularmente resuelve el área de predicción [10], sobre la que las empresas tienen interés en el desarrollo de soluciones. 17

Ingeniería de Sistemas Transferencia de tecnología informática: Entorno colombiano Information Technology Transfer: Colombian environment La minería de datos no se debe percibir como una solución a todos los problemas ya que en la práctica puede tener varios inconvenientes, por ejemplo, si la información ingresada no es correcta, o no es verídica, los resultados pueden conducir a caminos falsos. Además, los patrones muestran tendencias, que pueden cambiar por múltiples motivos, por ejemplo en el mercado automotriz colombiano no se esperaba en su momento que se pudiera presentar problemas en temas de negociación con los países vecinos. Esto no encaja en modelos que se vinieran trabajando y cambia radicalmente los resultados. Sin embargo, si una empresa registra datos y sus operaciones diarias, podrán relacionarse en tiempo real, y así encontrar información de las tendencias para identificar posibles clientes nuevos, nuevos mercados, fraudes, nuevas oportunidades, por ejemplo. REFERENCIAS [1] D. Olson, D.Delen, Advanced Data Mining Techniques. Berlin: Springer - Verlag, 2008, pp 19. [2] The University of Waikato. (25/05/2010). WEKA [Online] Disponible: http://www.cs.waikato.ac.nz/ml/weka/ [3] Microsoft Corporation. (25/05/2010). Introducing Business Intelligence Development Studio [Online] Disponible: http:// technet.microsoft.com/es-es/library/ms173767.aspx [4] M. Berry, G. Linoff, Mastering data mining: the art and science of customer relationship management. West Susex: John Wiley & Sons, 1999. [5] J. Hernández, M. Ramirez, C. Ferri, Introducción a la Minería de Datos. Madrid: Pearson Prentice Hall, 2007, pp 13-14, 25-27. [6] U. Fayad, G. Piateski-Shapiro, P. Smyth, From Data Mining to Knowledge Discovery: An Overview. Menlo Park: American Association for Artificial Intelligence Press, 1996. [7] C. Perez, D. Santin, Data Mining Soluciones con Enterprise Miner. Madrid: Alfaomega Grupo Editor S.A., 2006, pp 13-20. [8] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, R. Wirth, CRISP-DM 1.0 Step by step data mining guide. SPSS Inc, 2000, pp 9, 13. [9] SAS Institute Inc. (27/04/2010). SAS SEMMA [Online] Disponible: http://www.sas.com/offices/europe/uk/technologies /analytics/datamining/miner/semma.html [10] L. Vieira, L. Ortiz, S. Ramirez, Introducción a la Minería de Datos. Rio de Janeiro: E-Papers Servicios Editoriales, 2009, pp 20. Tipo de Artículo: Tipo I: Artículo de Investigación científica y tecnológica. Los autores declaran que no tienen conflicto de interés. Los Autores Hernando Camargo Mila Docente del programa Ingeniería de Sistemas de la Universidad El Bosque desde 2002 a la fecha, Distinción de la Universidad El Bosque a la Excelencia en la Docencia en el año 2004. Especialista en Informática y Ciencias de la Computación, Fundación Universitaria Konrad Lorenz, Bogotá 2006. Ingeniero de Sistemas, Universidad Nacional de Colombia, Bogotá 1988, Docente del Programa en Ingeniería de Sistemas de la Fundación Universitaria Konrad Lorenz desde 2001 a la fecha y desde el 2003 Coordinador Académico de las Facultades de Ingeniería y Matemáticas. Jefe del Departamento de Sistemas de Petróleos Colombianos Limited, Bogotá, desde 1990 a 1998. Gerencia de proyectos informáticos en Comcel durante 1998. Gerencia de proyectos de Outsourcing informático en Gestiontek S. A., desde 1999 a 2001. Carrera 7 B Bis 132-11, Edificio El Campito, Bogotá D.C., Colombia. hercamil@gmail.com Mario Andrés Silva Montoya Asesor de sistemas de Vehículos del Camino, concesionario Mazda. Ingeniero de Sistemas, Universidad El Bosque, 2.010. Experiencia en implementación de redes de computadores, con conocimientos en Dirección de Proyectos según el estándar del Project Management Institute (PMBOK, 3ª edición), con amplio conocimiento de desarrollo de software y manejo de plataformas y programas de desarrollo Visual Studio. NET 2008 (C++, C#), JCreator (Java), SQL Server 2005 (SQL), Oracle 10g, especial interés en el trabajo con Bases de datos. silvam06@hotmail.com 18