Herramienta inteligente para la toma de decisiones basada en Minería de Datos.



Documentos relacionados
REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

Elementos requeridos para crearlos (ejemplo: el compilador)

MARCO METODOLÓGICO CAPITULO III

Análisis de Resultados

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

SÍNTESIS Y PERSPECTIVAS

Presentación de Pyramid Data Warehouse

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

App para realizar consultas al Sistema de Información Estadística de Castilla y León

FUENTES SECUNDARIAS INTERNAS

TEMA 3: EN QUÉ CONSISTE?

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

CAPITULO I. Introducción. En la actualidad, las empresas están tomando un papel activo en cuanto al uso de sistemas y

UNIVERSIDAD DE SALAMANCA

REPUTACIÓN LO QUE TOMA AÑOS CONSTRUIR PUEDE VERSE AFECTADO CRITICAMENTE POR UN SOLO EVENTO

Sistema Inteligente de Exploración

Enginyeria del Software III

Capitulo 3. Desarrollo del Software

Diseño orientado al flujo de datos

Aspel-COI 6.0 Nuevas Funciones y Características

MANUAL DE NAVEGACIÓN DEL SIIA-WEB versión PRONAD

Durante la determinación del problema dentro de los procesos de mercadeo de R & S Training se pudo notar notables deficiencias en las relaciones con

CAPÍTULO 1 INTRODUCCIÓN

Por otro lado podemos enunciar los objetivos más específicos de nuestro estudio:

DE VIDA PARA EL DESARROLLO DE SISTEMAS

QUERCUS PRESUPUESTOS MANUAL DEL USO

Administración por Procesos contra Funciones

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Capitulo III. Diseño del Sistema.

Datos estadísticos PRESENTACIÓN DE DATOS INDIVIDUALES Y DATOS AGRUPADOS EN TABLAS Y GRÁFICOS

IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa

Sistemas de Información Geográficos (SIG o GIS)

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

CAPITULO III MARCO METODOLÓGICO. Desde la perspectiva de Hurtado de Barrera (2008), el tipo de

<Generador de exámenes> Visión preliminar

LiLa Portal Guía para profesores

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Capítulo 1. INTRODUCCIÓN

TEMA 3. EL PROCESO DE COMPILACIÓN, DEL CÓDIGO FUENTE AL CÓDIGO MÁQUINA

ISO9001:2015. Todos los certificados emitidos en este periodo tienen una fecha de caducidad de 15 de septiembre de 2018.

Capítulo VI. Estudio de Caso de Aplicación del Integrador de Información Desarrollado

Observatorio Bancario

G R U P O S INDICE Cómo crear una cuenta en ARQA? Cómo tener un grupo en ARQA? Secciones y funcionalidades de los grupos Configuración del grupo

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Presentación y Planificación del Proyecto: Administración de Calzado

NOMBRE DEL TALLER: Eje temático: Comunicación. Autor: Marisol Hernández Corona. Institución de procedencia. Escuela de Técnicos Laboratoristas

Metodología Orientada a Objetos Clave Maestría en Sistemas Computacionales

de la empresa Al finalizar la unidad, el alumno:

4. Estadística Descriptiva

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Caso práctico de Cuadro de Mando con Tablas Dinámicas

MANUAL DE USUARIO SISTEMA DE ALMACEN DIF SONORA

Unidad 1. Fundamentos en Gestión de Riesgos

01 Índice. GESTOR DE CONTENIDOS Manual de uso 01 ÍNDICE OBJETO DEL DOCUMENTO ESTRUCTURA GRÁFICA DEL SISTEMA... 3

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Caravel Modernization Tool: Tipos de Proyectos. Caravel Modernization Tool: Tipos de Proyectos

Capítulo 3. Análisis y Diseño

Planeación de la Recolección de Datos. Planeacion de Recoleccion de Datos

Capítulo VI. Diagramas de Entidad Relación

Análisis de medidas conjuntas (conjoint analysis)

Dirección de Planificación Universitaria Dirección de Planificación Universitaria Panamá, Rep. de Panamá Panamá, Rep.

2 EL DOCUMENTO DE ESPECIFICACIONES

Mesa de Ayuda Interna

CAPÍTULO 5 CONCLUSIONES Y RECOMENDACIONES

Unidad 8. Estado de Perdidas y Ganancias o Estados de Resultados

Estudio administrativo. un apoyo en la estructura organizacional. del proyecto de inversión

Objetivos Generales. Objetivos específicos. Que el estudiante:

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Base de datos en Excel

CAPÍTULO IV USO DE MICROSOFT PROJECT

NORMA INTERNACIONAL DE AUDITORÍA 520

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño de un estudio de investigación de mercados

Capítulo 1. Introducción

Sistemas de Gestión de Calidad. Control documental

Capítulo I. Marco Teórico

LICENCIA PLATAFORMA ERM

CAPÍTULO 3. HERRAMIENTA DE SOFTWARE DE PLANEACIÓN DE

Principios de Privacidad y Confidencialidad de la Información

Metodología básica de gestión de proyectos. Octubre de 2003

Arquitectura de Aplicaciones

Difusión de la voz del cliente en las operaciones de la empresa: el uso de six-sigma para gestionar el conocimiento Juan Carlos G. Landero, Ph.D.

revista transparencia transparencia y UNIVERSIDADES

Estudio sobre el comportamiento de java en las plataformas windows xp y mac-os x usando un prototipo multimedia

Curso Excel Básico - Intermedio

INVESTIGACIÓN DE MERCADOS

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Diseño orientado a los objetos

PUBLICACIÓN INFORMATIVA DE LA ASOCIACIÓN ESPAÑOLA DE FINANCIEROS DE EMPRESA N 64. MARZO

Operaciones Morfológicas en Imágenes Binarias

Implementación de Paquetes

CAPÍTULO 4 RESULTADOS DE LA INVESTIGACIÓN

activuspaper Text Mining and BI Abstract

ADMINISTRACION DE PROYECTOS

Transcripción:

Herramienta inteligente para la toma de decisiones basada en Minería de Datos. Alberto Ochoa-Zezzatti 1,2, Guillermo Romo 1, Francisco Bañuelos 1, Kyra Mendhizavili 3, Halina Iztebegovič 4 & Shayera Hal 5 1 Cuerpo Académico de Desarrollo e Investigación Tecnológica, UAIE; UAZ. 2.Insituto de Computacão (Programa Postdoctorale), Universidade do UNICAMP; Radamaelli, Brasil. 3 Georgian Technology University, Tbilisi; Georgia. 4 Montenegro University, Podgorica; Montenegro. 3 Izmir University (Artificial Intelligence Laboratory), Izmir; Turkey. Resumen Durante el proceso de toma de decisiones, es necesario contar con una gran cantidad de información para que las posibilidades de errores se reduzcan al mínimo. Nosotros proponemos una herramienta inteligente para la toma de decisiones, la cuál permite organizar grandes cantidades de datos y presentarlas de maneras fáciles de interpretar para los usuarios. Por otro lado, mediante la minería de datos, esta herramienta permite el descubrimiento de patrones ocultos y la predicción de tendencias, con lo cual es posible mejorar el proceso de toma de decisiones. Abstract During the making decision process it is necessary to get lots of information to reduce as much as possible the probability of errors. We propose an intelligent tool for decision making, which allows to organize large amounts of data and present it in different ways and easy to interpret for users. Through data mining, this tool allows the discovery of hidden patterns and tendency prediction so that it is possible to improve the decision making process. Palabras claves: Herramienta inteligente, toma de decisiones, minería de datos. Keywords: Intelligent tool, decision making, data mining. I. Introducción. La toma de decisiones es un proceso común en las organizaciones durante el cual, se elige entre varias alternativas para dar solución a diferentes tipos de problemas. Este proceso de toma de decisiones es muy amplio e involucra, en la mayoría de las ocasiones, varias áreas de conocimiento. Lo más importante al momento de tomar una decisión es la información relacionada al tema en cuestión. Mientras más información se tenga, es más probable tener éxito al haber tomado determinada decisión. Las organizaciones generan grandes cantidades de información, pero el problema radica en tener esta información organizada, resumida, que sea útil y fácil de interpretar. Una herramienta inteligente para la toma de decisiones permite al usuario analizar, organizar y presentar la información de manera resumida y fácil de interpretar, y así los tomadores de decisiones pueden entender mejor el contexto o situación con lo que se mejora el proceso de toma de decisiones. II. Herramienta Inteligente para la Toma de Decisiones. II.A. Minería de datos. Las técnicas de minería de datos se basan en grandes cantidades de datos relacionados y permiten descubrir información oculta y predecir tendencias. La minería de datos es un paso en el proceso de descubrimiento de conocimiento. La minería de datos involucra el uso de sofisticadas herramientas de análisis de datos, las cuales pueden incluir modelos estadísticos como las series de tiempo vistas en [3] y regresión lineal [4], algoritmos matemáticos y métodos de aprendizaje de máquinas [1]. Tanto esta técnica como otras de Inteligencia Artificial pueden ser las que más contribuyan al

futuro de algunos Sistemas de Soporte a las Decisiones (DSS s) [2]. La herramienta presentada en este artículo, utiliza técnicas de minería de datos para analizar la información y presentarla al usuario de manera que sea evidente conocer ciertos patrones existentes en los datos y predecir tendencias, lo cual es muy útil en el proceso de toma de decisiones. II.B. La toma de decisiones. La toma de decisiones es un proceso que se lleva a cabo cotidianamente en todo tipo de actividades por todas las personas. Particularmente en el entorno empresarial, este proceso cobra gran importancia ya que de una correcta toma de decisiones puede depender el éxito o fracaso de una compañía. Este proceso de toma de decisiones se lleva a cabo a diferentes niveles con el fin de lograr ciertos objetivos y su efecto en el tiempo también varía desde las decisiones a corto plazo hasta las de largo plazo. Consta de varios pasos y existen diferentes modelos que los explican. A continuación se muestran algunos pasos comunes en el proceso de toma de decisiones: Identificación del problema Generación de alternativas Selección de alternativa Implantación Evaluación de resultados Figura 1. El proceso de toma de decisiones. En general los sistemas de soporte para las decisiones tienen como propósito fundamental apoyar y facilitar este proceso, a través de la obtención oportuna y confiable de información relevante [5]. II.C. Técnicas estadísticas. Las técnicas estadísticas nos permiten realizar un análisis descriptivo de los datos y hacer predicciones y lograr una mejor toma de decisiones. Se aplicaron diferentes técnicas estadísticas a los datos (recopilados mediante encuestas, los cuales se usan para alimentar el sistema), como la regresión lineal, para definir una ecuación o función que nos permita estimar la estatura promedio de una segunda generación a partir del sexo del individuo y las estaturas de los abuelos paternos y maternos. III.A. Metodología. III. Desarrollo del sistema. La herramienta que proponemos se desarrolló en lenguaje JAVA mediante el IDE (Integrated Developement Envitonment) de Borland, JBuilder. Se desarrollaron diversas funciones dentro del sistema para el manejo y presentación de datos. Es posible cargar diferentes archivos para trabajar con los datos, modificarlos y presentarlos por regiones, entre otras opciones. A partir de algunos módulos reutilizables, se aplicó reingeniería de software para adecuar dichos módulos a los requerimientos solicitados, para ello se comenzó con el diseño del sistema, siendo la función base, la carga de un archivo de datos a partir de los cuales se pueden usar las demás operaciones del sistema. IV. Herramienta desarrollada. Esta Herramienta Inteligente para la Toma de Decisiones (HITODE) presenta al usuario la información de manera organizada y resumida mostrando de forma clara ciertas características de grupos de personas asociadas con patrones en los datos recopilados. Primeramente se recabaron datos mediante encuestas a un grupo de estudiantes de nivel profesional. Estos datos incluían preguntas sobre sus gustos musicales, literarios, deportes, compras por Internet y municipio de origen, entre otros. Esta base de datos se usó para probar la funcionalidad del sistema

HITODE integra siete módulos, los cuales se presentan en el siguiente diagrama: para poder ser usadas por el usuario. Para el uso de los módulos basados en datos de entrada, solo pueden graficarse los atributos que no son de tipo String o cadena. Por ejemplo, el atributo sexo (Figura 3) puede graficarse ya que tiene un dominio definido, en este caso sería {Masculino, Femenino}. De esta forma, con el módulo de graficación, es posible mostrar mediante un gráfico de barras la cantidad de hombres y mujeres registrados en el archivo de datos de entrada. Figura 2. Estructura de HITODE. Los módulos de carga del archivo, el de graficación de datos, el mapa por regiones, el de reportes en orden jerárquico, el módulo para la modificación de datos así como el módulo de parámetros o caras de Chernoff se basan en los datos de entrada que alimentan el sistema [6]. Los dos módulos restantes, que son el cálculo de estaturas y el modelo migratorio se desarrollaron a partir los datos de la encuesta para generar una ecuación que calcule sus respectivos valores, siendo estos módulos independientes de los nuevos datos de entrada. Primeramente, para los módulos basados en datos de entrada, es necesario cargar un archivo de datos que contenga registros con n atributos. Este archivo de texto debe tener un formato específico para poder ser leído por el sistema. Este archivo debe estar en formato CSV (Control Sobre Valor) y además debe contener tres líneas de encabezado, donde la primera línea tiene los nombres de los atributos, la segunda tiene la cantidad de opciones posibles para un atributo y la tercera línea contiene las opciones posibles para cada atributo. Figura 3. Interfaz de HITODE: Módulo de graficación. El módulo de mapa por regiones, consiste en presentar la información de ciertos atributos en un mapa dividido por regiones (Figura 4), donde el color representa el porcentaje más alto de ocurrencia de un atributo y un círculo más pequeño en cada región representa la importancia del segundo atributo de mayor ocurrencia. Por ejemplo al seleccionar el atributo cine, HITODE presentará las preferencias de género cinematográfico por región. De esta manera, permite al usuario visualizar en el mapa los dos géneros cinematográficos predominantes en cada región. Esta función resulta particularmente útil en un estudio de mercado para conocer preferencias de los consumidores, presentadas por región. El módulo de caras o parámetros de Chernoff presenta los datos por regiones mediante la técnica propuesta en [6]. Consiste en usar caras cuyas partes representan ciertos atributos de Una vez cargados los datos, los módulos basados en la carga del archivo, habilitan sus funciones, ya sea botones, áreas de texto, etc.

la región 3 donde su preferencia literaria es el género de ciencia ficción. Figura 4. Interfaz de HITODE mostrando los atributos por regiones. una región determinada. Así por ejemplo, si una región se caracteriza por tener un bajo índice de desempleo, tendría una boca sonriente, de lo contrario tendría una cara triste. No es posible representar todos los atributos mediante los parámetros de Chernoff, solo atributos cuyo dominio sea numérico o dicotómico, debido a que otro tipo de atributos no mostrarían información relevante al presentarse mediante estos parámetros, es decir, si existe un atributo llamado literatura por ejemplo, donde su dominio es {Poesía, Terror, Ciencia ficción, Suspenso, Historia} al tratar de ser presentado con el tamaño de los ojos de una cara de Chernoff, no sería fácil de interpretar lo que significan unos ojos grandes o unos ojos pequeños. Aunque este módulo se realizó de manera independiente, la idea original se tomó de [6]. El módulo de reportes en orden jerárquico permite hacer un filtrado de información basado en una combinación de ciertos atributos. Por ejemplo, primeramente es necesario seleccionar una región, posteriormente seleccionar un atributo como por ejemplo el tipo de literatura, entonces se despliegan las opciones de los diferentes tipos de literatura que existen en el archivo de datos de entrada y finalmente el sexo, si se desea filtrar únicamente hombres o mujeres e incluso ambos. Esta combinación de atributos nos dará como resultado por ejemplo todas las personas de sexo masculino que pertenecen a Figura 5. Interfaz de HITODE mostrando los atributos mediante caras de Chernoff. En el módulo de modificar datos, como su nombre lo indica, nos permite hacer modificaciones al archivo de datos de entrada ya sea para agregar nuevos registros o hacer correcciones a los ya existentes. Los datos se presentan en forma de tabla donde cada uno de Figura 6. Interfaz de HITODE: Módulo de modificación de datos.

los atributos se encuentran organizados por columnas como se muestra en la Figura 6. En el módulo del modelo migratorio, como se mencionó anteriormente, es independiente del archivo de datos de entrada del sistema, ya que hace los cálculos estimados de migración por regiones, basada en una función generada a partir de datos obtenidos mediante encuestas. El módulo del cálculo de las estaturas se basa en una función propuesta generada a partir de un análisis estadístico y muestra el promedio de estatura para dos generaciones posteriores a las de las estaturas de los abuelos tanto paternos como maternos. Es necesario además de esta información, seleccionar el sexo del individuo para la realización del cálculo. La ecuación generada es la siguiente: Estaturas = 129.5713 + 13.99( Sexo) +.168( Prom_Abue_Mat) +.26( Prom_Abue_Pat) (1) Donde Sexo puede tomar valores de 1 para masculino y para femenino y Prom_abue_Mat y Prom_abue_Pat son el promedio de las estaturas de los abuelos maternos y el promedio de las estaturas de los abuelos paternos respectivamente. Los intervalos de confianza y predicción se calculan a partir de (2) y (3) que se pueden encontrar en [4] (ver esta referencia para mayor información). Se presentan en el sistema seguidos de la estatura promedio y el símbolo ±. Yˆ ± 2 1 t ˆ σ T T ) α X, ( X X X n p (2) 2 ˆ X, n p 2 Y 2 T T 1 ± tα ˆ σ (1 + X ( X X ) ) (3) Aunque los módulos del modelo migratorio así como el del cálculo de estaturas funcionan de manera independiente a nuevos datos de entrada, éstos pueden ser implementados para trabajar con un archivo de datos diferente. Estos módulos se desarrollaron con el fin de presentar información útil y simplificada sobre el archivo de datos de entrada basado en la encuesta realizada con base en los gustos y preferencias de los jóvenes Zacatecanos y que contiene atributos que posiblemente no sean muy comunes en otros archivos de datos. Figura 7. Interfaz de HITODE: Cálculo de las estaturas. V. Resultados. El objetivo de la encuesta realizada fue conocer dicha información sobre la juventud Zacatecana para diseñar estrategias de negocios que pueden funcionar para este segmento de mercado en específico. Al utilizar HITODE con el archivo de datos de entrada generado a partir de esta encuesta, fue posible analizar los datos de diversas formas y así entender de manera más sencilla las relaciones existentes entre los atributos incluidos en la encuesta. V.I Trabajo Futuro. Al aplicar las técnicas estadísticas, nos encontramos con el problema de que existía una alta entropía en los datos recopilados y debido a esto, fue muy complicado aplicar algunas de estas técnicas, por lo que fue necesario hacer una limpieza de los datos para poder trabajar con ellos. Por otro lado, debido a la gran cantidad de datos perdidos el porcentaje de predicción (seguridad) que se obtuvo con técnicas como la regresión lineal simple no fue

muy alto al tratar de calcular las estaturas promedio de un individuo en particular a partir de las estaturas de sus abuelos, por lo que se pretende realizar otra recopilación de nuevos datos buscando mejorar la calidad de éstos y de esta manera desarrollar una función dentro de HITODE que permita hacer análisis estadísticos con otros datos. Finalmente HITODE se pretende migrar a Web, siendo implementado utilizando XML (Estándar Markup languaje), para adecuar la información de una manera comprensible y fácilmente analizable. international conference on Knowledge discovery and data mining. 2. [4] Montgomery, D. Peck, E. Vining, G. Introducción al Análisis de Regresión Lineal. CECSA 3ra ed. México D.F. pp. 92 98. 24. [5] Cohen Karen, D., Asín Lares, E. Sistemas de Información para los negocios. Mc Graw Hill, México D.F. pp. 194 199. 25. [6] Chernoff H. The Use of Faces to Represent Points in K- Dimensional Space Graphically, in Journal of the American Statistical Association, Vol. 68, No. 342 (Jun., 1973), pp. 361-368. [7] Hughes, D. Mercadotecnia: planeación estratégica. Ed. Addison-Wesley iberoameric. México, 1986. pp. 59 64. VI. Conclusiones. Una herramienta inteligente para la toma de decisiones nos permite comparar y corroborar información que no es tan fácil de visualizar cuando se tienen grandes cantidades de datos. El sistema que presentamos auxilia a los encargados de toma de decisiones a visualizar estos datos de manera gráfica, y dividida por regiones lo cual resulta particularmente útil al momento de hacer estudios de mercado por mencionar un ejemplo. Reconocimientos. El primer autor desea agradecer a las Dras. Hal, e Iztebegovič por su colaboración en el desarrollo del módulo del cálculo de estaturas del sistema presentado así como su colaboración para la revisión del artículo. También desea agradecer a la Dra. Mendizhavili por su ayuda para el desarrollo y la revisión de HITODE y del presente artículo. Referencias. [1] Seifert, Jeffrey W. Data Mining: An overview. Congressional Research Service - The Library of Congress. 24. [2] Aiken, M. Liu Sheng, O. Vogel, D. Integrating expert systems with group decision support systems. ACM Transactions on Information Systems (TOIS). 1991. [3] Keogh, E. Pazzani, M. Scaling up dynamic time warping for datamining applications. Conference on Knowledge Discovery in Data. Proceedings of the sixth ACM SIGKDD