Herramienta inteligente para la toma de decisiones basada en Minería de Datos. Alberto Ochoa-Zezzatti 1,2, Guillermo Romo 1, Francisco Bañuelos 1, Kyra Mendhizavili 3, Halina Iztebegovič 4 & Shayera Hal 5 1 Cuerpo Académico de Desarrollo e Investigación Tecnológica, UAIE; UAZ. 2.Insituto de Computacão (Programa Postdoctorale), Universidade do UNICAMP; Radamaelli, Brasil. 3 Georgian Technology University, Tbilisi; Georgia. 4 Montenegro University, Podgorica; Montenegro. 3 Izmir University (Artificial Intelligence Laboratory), Izmir; Turkey. Resumen Durante el proceso de toma de decisiones, es necesario contar con una gran cantidad de información para que las posibilidades de errores se reduzcan al mínimo. Nosotros proponemos una herramienta inteligente para la toma de decisiones, la cuál permite organizar grandes cantidades de datos y presentarlas de maneras fáciles de interpretar para los usuarios. Por otro lado, mediante la minería de datos, esta herramienta permite el descubrimiento de patrones ocultos y la predicción de tendencias, con lo cual es posible mejorar el proceso de toma de decisiones. Abstract During the making decision process it is necessary to get lots of information to reduce as much as possible the probability of errors. We propose an intelligent tool for decision making, which allows to organize large amounts of data and present it in different ways and easy to interpret for users. Through data mining, this tool allows the discovery of hidden patterns and tendency prediction so that it is possible to improve the decision making process. Palabras claves: Herramienta inteligente, toma de decisiones, minería de datos. Keywords: Intelligent tool, decision making, data mining. I. Introducción. La toma de decisiones es un proceso común en las organizaciones durante el cual, se elige entre varias alternativas para dar solución a diferentes tipos de problemas. Este proceso de toma de decisiones es muy amplio e involucra, en la mayoría de las ocasiones, varias áreas de conocimiento. Lo más importante al momento de tomar una decisión es la información relacionada al tema en cuestión. Mientras más información se tenga, es más probable tener éxito al haber tomado determinada decisión. Las organizaciones generan grandes cantidades de información, pero el problema radica en tener esta información organizada, resumida, que sea útil y fácil de interpretar. Una herramienta inteligente para la toma de decisiones permite al usuario analizar, organizar y presentar la información de manera resumida y fácil de interpretar, y así los tomadores de decisiones pueden entender mejor el contexto o situación con lo que se mejora el proceso de toma de decisiones. II. Herramienta Inteligente para la Toma de Decisiones. II.A. Minería de datos. Las técnicas de minería de datos se basan en grandes cantidades de datos relacionados y permiten descubrir información oculta y predecir tendencias. La minería de datos es un paso en el proceso de descubrimiento de conocimiento. La minería de datos involucra el uso de sofisticadas herramientas de análisis de datos, las cuales pueden incluir modelos estadísticos como las series de tiempo vistas en [3] y regresión lineal [4], algoritmos matemáticos y métodos de aprendizaje de máquinas [1]. Tanto esta técnica como otras de Inteligencia Artificial pueden ser las que más contribuyan al
futuro de algunos Sistemas de Soporte a las Decisiones (DSS s) [2]. La herramienta presentada en este artículo, utiliza técnicas de minería de datos para analizar la información y presentarla al usuario de manera que sea evidente conocer ciertos patrones existentes en los datos y predecir tendencias, lo cual es muy útil en el proceso de toma de decisiones. II.B. La toma de decisiones. La toma de decisiones es un proceso que se lleva a cabo cotidianamente en todo tipo de actividades por todas las personas. Particularmente en el entorno empresarial, este proceso cobra gran importancia ya que de una correcta toma de decisiones puede depender el éxito o fracaso de una compañía. Este proceso de toma de decisiones se lleva a cabo a diferentes niveles con el fin de lograr ciertos objetivos y su efecto en el tiempo también varía desde las decisiones a corto plazo hasta las de largo plazo. Consta de varios pasos y existen diferentes modelos que los explican. A continuación se muestran algunos pasos comunes en el proceso de toma de decisiones: Identificación del problema Generación de alternativas Selección de alternativa Implantación Evaluación de resultados Figura 1. El proceso de toma de decisiones. En general los sistemas de soporte para las decisiones tienen como propósito fundamental apoyar y facilitar este proceso, a través de la obtención oportuna y confiable de información relevante [5]. II.C. Técnicas estadísticas. Las técnicas estadísticas nos permiten realizar un análisis descriptivo de los datos y hacer predicciones y lograr una mejor toma de decisiones. Se aplicaron diferentes técnicas estadísticas a los datos (recopilados mediante encuestas, los cuales se usan para alimentar el sistema), como la regresión lineal, para definir una ecuación o función que nos permita estimar la estatura promedio de una segunda generación a partir del sexo del individuo y las estaturas de los abuelos paternos y maternos. III.A. Metodología. III. Desarrollo del sistema. La herramienta que proponemos se desarrolló en lenguaje JAVA mediante el IDE (Integrated Developement Envitonment) de Borland, JBuilder. Se desarrollaron diversas funciones dentro del sistema para el manejo y presentación de datos. Es posible cargar diferentes archivos para trabajar con los datos, modificarlos y presentarlos por regiones, entre otras opciones. A partir de algunos módulos reutilizables, se aplicó reingeniería de software para adecuar dichos módulos a los requerimientos solicitados, para ello se comenzó con el diseño del sistema, siendo la función base, la carga de un archivo de datos a partir de los cuales se pueden usar las demás operaciones del sistema. IV. Herramienta desarrollada. Esta Herramienta Inteligente para la Toma de Decisiones (HITODE) presenta al usuario la información de manera organizada y resumida mostrando de forma clara ciertas características de grupos de personas asociadas con patrones en los datos recopilados. Primeramente se recabaron datos mediante encuestas a un grupo de estudiantes de nivel profesional. Estos datos incluían preguntas sobre sus gustos musicales, literarios, deportes, compras por Internet y municipio de origen, entre otros. Esta base de datos se usó para probar la funcionalidad del sistema
HITODE integra siete módulos, los cuales se presentan en el siguiente diagrama: para poder ser usadas por el usuario. Para el uso de los módulos basados en datos de entrada, solo pueden graficarse los atributos que no son de tipo String o cadena. Por ejemplo, el atributo sexo (Figura 3) puede graficarse ya que tiene un dominio definido, en este caso sería {Masculino, Femenino}. De esta forma, con el módulo de graficación, es posible mostrar mediante un gráfico de barras la cantidad de hombres y mujeres registrados en el archivo de datos de entrada. Figura 2. Estructura de HITODE. Los módulos de carga del archivo, el de graficación de datos, el mapa por regiones, el de reportes en orden jerárquico, el módulo para la modificación de datos así como el módulo de parámetros o caras de Chernoff se basan en los datos de entrada que alimentan el sistema [6]. Los dos módulos restantes, que son el cálculo de estaturas y el modelo migratorio se desarrollaron a partir los datos de la encuesta para generar una ecuación que calcule sus respectivos valores, siendo estos módulos independientes de los nuevos datos de entrada. Primeramente, para los módulos basados en datos de entrada, es necesario cargar un archivo de datos que contenga registros con n atributos. Este archivo de texto debe tener un formato específico para poder ser leído por el sistema. Este archivo debe estar en formato CSV (Control Sobre Valor) y además debe contener tres líneas de encabezado, donde la primera línea tiene los nombres de los atributos, la segunda tiene la cantidad de opciones posibles para un atributo y la tercera línea contiene las opciones posibles para cada atributo. Figura 3. Interfaz de HITODE: Módulo de graficación. El módulo de mapa por regiones, consiste en presentar la información de ciertos atributos en un mapa dividido por regiones (Figura 4), donde el color representa el porcentaje más alto de ocurrencia de un atributo y un círculo más pequeño en cada región representa la importancia del segundo atributo de mayor ocurrencia. Por ejemplo al seleccionar el atributo cine, HITODE presentará las preferencias de género cinematográfico por región. De esta manera, permite al usuario visualizar en el mapa los dos géneros cinematográficos predominantes en cada región. Esta función resulta particularmente útil en un estudio de mercado para conocer preferencias de los consumidores, presentadas por región. El módulo de caras o parámetros de Chernoff presenta los datos por regiones mediante la técnica propuesta en [6]. Consiste en usar caras cuyas partes representan ciertos atributos de Una vez cargados los datos, los módulos basados en la carga del archivo, habilitan sus funciones, ya sea botones, áreas de texto, etc.
la región 3 donde su preferencia literaria es el género de ciencia ficción. Figura 4. Interfaz de HITODE mostrando los atributos por regiones. una región determinada. Así por ejemplo, si una región se caracteriza por tener un bajo índice de desempleo, tendría una boca sonriente, de lo contrario tendría una cara triste. No es posible representar todos los atributos mediante los parámetros de Chernoff, solo atributos cuyo dominio sea numérico o dicotómico, debido a que otro tipo de atributos no mostrarían información relevante al presentarse mediante estos parámetros, es decir, si existe un atributo llamado literatura por ejemplo, donde su dominio es {Poesía, Terror, Ciencia ficción, Suspenso, Historia} al tratar de ser presentado con el tamaño de los ojos de una cara de Chernoff, no sería fácil de interpretar lo que significan unos ojos grandes o unos ojos pequeños. Aunque este módulo se realizó de manera independiente, la idea original se tomó de [6]. El módulo de reportes en orden jerárquico permite hacer un filtrado de información basado en una combinación de ciertos atributos. Por ejemplo, primeramente es necesario seleccionar una región, posteriormente seleccionar un atributo como por ejemplo el tipo de literatura, entonces se despliegan las opciones de los diferentes tipos de literatura que existen en el archivo de datos de entrada y finalmente el sexo, si se desea filtrar únicamente hombres o mujeres e incluso ambos. Esta combinación de atributos nos dará como resultado por ejemplo todas las personas de sexo masculino que pertenecen a Figura 5. Interfaz de HITODE mostrando los atributos mediante caras de Chernoff. En el módulo de modificar datos, como su nombre lo indica, nos permite hacer modificaciones al archivo de datos de entrada ya sea para agregar nuevos registros o hacer correcciones a los ya existentes. Los datos se presentan en forma de tabla donde cada uno de Figura 6. Interfaz de HITODE: Módulo de modificación de datos.
los atributos se encuentran organizados por columnas como se muestra en la Figura 6. En el módulo del modelo migratorio, como se mencionó anteriormente, es independiente del archivo de datos de entrada del sistema, ya que hace los cálculos estimados de migración por regiones, basada en una función generada a partir de datos obtenidos mediante encuestas. El módulo del cálculo de las estaturas se basa en una función propuesta generada a partir de un análisis estadístico y muestra el promedio de estatura para dos generaciones posteriores a las de las estaturas de los abuelos tanto paternos como maternos. Es necesario además de esta información, seleccionar el sexo del individuo para la realización del cálculo. La ecuación generada es la siguiente: Estaturas = 129.5713 + 13.99( Sexo) +.168( Prom_Abue_Mat) +.26( Prom_Abue_Pat) (1) Donde Sexo puede tomar valores de 1 para masculino y para femenino y Prom_abue_Mat y Prom_abue_Pat son el promedio de las estaturas de los abuelos maternos y el promedio de las estaturas de los abuelos paternos respectivamente. Los intervalos de confianza y predicción se calculan a partir de (2) y (3) que se pueden encontrar en [4] (ver esta referencia para mayor información). Se presentan en el sistema seguidos de la estatura promedio y el símbolo ±. Yˆ ± 2 1 t ˆ σ T T ) α X, ( X X X n p (2) 2 ˆ X, n p 2 Y 2 T T 1 ± tα ˆ σ (1 + X ( X X ) ) (3) Aunque los módulos del modelo migratorio así como el del cálculo de estaturas funcionan de manera independiente a nuevos datos de entrada, éstos pueden ser implementados para trabajar con un archivo de datos diferente. Estos módulos se desarrollaron con el fin de presentar información útil y simplificada sobre el archivo de datos de entrada basado en la encuesta realizada con base en los gustos y preferencias de los jóvenes Zacatecanos y que contiene atributos que posiblemente no sean muy comunes en otros archivos de datos. Figura 7. Interfaz de HITODE: Cálculo de las estaturas. V. Resultados. El objetivo de la encuesta realizada fue conocer dicha información sobre la juventud Zacatecana para diseñar estrategias de negocios que pueden funcionar para este segmento de mercado en específico. Al utilizar HITODE con el archivo de datos de entrada generado a partir de esta encuesta, fue posible analizar los datos de diversas formas y así entender de manera más sencilla las relaciones existentes entre los atributos incluidos en la encuesta. V.I Trabajo Futuro. Al aplicar las técnicas estadísticas, nos encontramos con el problema de que existía una alta entropía en los datos recopilados y debido a esto, fue muy complicado aplicar algunas de estas técnicas, por lo que fue necesario hacer una limpieza de los datos para poder trabajar con ellos. Por otro lado, debido a la gran cantidad de datos perdidos el porcentaje de predicción (seguridad) que se obtuvo con técnicas como la regresión lineal simple no fue
muy alto al tratar de calcular las estaturas promedio de un individuo en particular a partir de las estaturas de sus abuelos, por lo que se pretende realizar otra recopilación de nuevos datos buscando mejorar la calidad de éstos y de esta manera desarrollar una función dentro de HITODE que permita hacer análisis estadísticos con otros datos. Finalmente HITODE se pretende migrar a Web, siendo implementado utilizando XML (Estándar Markup languaje), para adecuar la información de una manera comprensible y fácilmente analizable. international conference on Knowledge discovery and data mining. 2. [4] Montgomery, D. Peck, E. Vining, G. Introducción al Análisis de Regresión Lineal. CECSA 3ra ed. México D.F. pp. 92 98. 24. [5] Cohen Karen, D., Asín Lares, E. Sistemas de Información para los negocios. Mc Graw Hill, México D.F. pp. 194 199. 25. [6] Chernoff H. The Use of Faces to Represent Points in K- Dimensional Space Graphically, in Journal of the American Statistical Association, Vol. 68, No. 342 (Jun., 1973), pp. 361-368. [7] Hughes, D. Mercadotecnia: planeación estratégica. Ed. Addison-Wesley iberoameric. México, 1986. pp. 59 64. VI. Conclusiones. Una herramienta inteligente para la toma de decisiones nos permite comparar y corroborar información que no es tan fácil de visualizar cuando se tienen grandes cantidades de datos. El sistema que presentamos auxilia a los encargados de toma de decisiones a visualizar estos datos de manera gráfica, y dividida por regiones lo cual resulta particularmente útil al momento de hacer estudios de mercado por mencionar un ejemplo. Reconocimientos. El primer autor desea agradecer a las Dras. Hal, e Iztebegovič por su colaboración en el desarrollo del módulo del cálculo de estaturas del sistema presentado así como su colaboración para la revisión del artículo. También desea agradecer a la Dra. Mendizhavili por su ayuda para el desarrollo y la revisión de HITODE y del presente artículo. Referencias. [1] Seifert, Jeffrey W. Data Mining: An overview. Congressional Research Service - The Library of Congress. 24. [2] Aiken, M. Liu Sheng, O. Vogel, D. Integrating expert systems with group decision support systems. ACM Transactions on Information Systems (TOIS). 1991. [3] Keogh, E. Pazzani, M. Scaling up dynamic time warping for datamining applications. Conference on Knowledge Discovery in Data. Proceedings of the sixth ACM SIGKDD