Minería de Datos (Data Mining) Salvador Barrera Rodríguez Universidad de Guadalajara, Centro Universitario de Ciencias Económico Administrativas, Departamento de Sistemas de Información, Periférico Norte 799, C.P. 45100, Núcleo los Belenes, Zapopan, Jalisco, México. Sachavir@cucea.udg.mx, http://www.cucea.udg.mx/~sachavir. Resumen: En este articulo se pretende divulgar el concepto de minería de datos, su relación con otras herramientas de soporte a la toma de decisiones, aplicaciones de la minería (o extracción) de datos, Explicar y ejemplificar las principales técnicas de minería de datos, tanto directas(d), como Indirectas (I) como son: el análisis de la canasta de compra (I),Razonamiento Basado en casos (D),.Detección automática de agrupamientos(i),.análisis de Relaciones (I),Clasificación (Árboles de decisión) (D), Redes neuronales artificiales (D) (I), Algoritmos genéticos (D) Y proporcionar recursos sobre fabricantes, revistas y sitios en línea, así como bibliografía disponible del tema. Palabras clave: Minería de datos, extracción de datos, Data Mining, el análisis de la canasta de compra, Razonamiento Basado en casos, agrupamientos, Análisis de Relaciones, Clasificación,Árboles de decisión, Redes neuronales artificiales, Algoritmos genéticos. Abstract: This paper wish make public the data mining concept, their relation with other tools of Decisions Support Systems, Data Mining Applications, Teach and show the main data mining techniques, Direct (D) and indirect (I) as: Market Basket Analysis (I), Memory reasoning (D) Automatic Detection of clusters (I), Relationships Analysis (I), Decisions trees (D), Artificial neural networks (D) (I), Genetic Algorithms (D) and show many resources about: companies, magazines and websites, as book references available of the theme. Keywords: Data Mining, Market Basket Analysis, Memory reasoning, Automatic Detection of clusters, Relationships Analysis, Decisions trees, Artificial neural networks, Genetic Algorithms. 1. Introducción DESVANECIMIENTO DE ENTRADA (FADE IN) Interior SALA DE CONFERENCIAS DE CASA CENTRAL DE UN IMPORTANTE BANCO DE DÍA. Vestidos con ropa formal y sentados alrededor de una larga mesa de caoba se encuentran MARIANNE, una gerente de producto; SHANE, una analista de Marketing; CHARLIE, un administrador de base de datos que toma una gaseosa a grandes sorbos, y JILL, una consultora de data warehousing. Dando grandes zancadas ingresa el SR. B., vicepresidente de mercadotecnia (MDT). Sacude con toda prisa la mano de Jill, se deposita a la cabecera de la mesa y se inclina hacia delante. SR. B: Jill, Ha sido muy amable en venir. Cómo estuvo el vuelo? JILL: Eh, estuvo...
SR. B: Bien.La razón por la hoy hemos hecho venir es porque necesitamos que nos de algunos consejos. Acabo de leer un artículo en una revista que me mantuvo despierto dos noches seguidas. Uno de nuestros competidores empezó a hacer algún tipo de análisis de datos que me tiene preocupado. JILL: Qué clase de análisis? SR. B: Qué era lo que estaban haciendo, Shane? SHANE: Data mining SR. B: Eso! Data Mining. Queremos hacer data mining. Y queremos que nos diga cómo empezar. JILL: Perfecto. Y dígame: qué clase de data mining hacían? SR. B: qué clase de data mining hacían, Marianne? MARIANNE: Dado un cierto producto nuevo, eran capaces de predecir cuales de sus clientes lo comprarían. Entonces, generaban listas de nombres y las usaban para enviar la propaganda de los productos. JILL: Marketing directo inteligente. Genial! Ahora cuénteme acerca del tipo de MDT directo que actualmente están haciendo ustedes. Todos se miran entre sí. JILL: Bueno, véamoslo de otra forma: dónde guardan los datos de sus clientes? Todos miran a Charlie CHALIE: Eh... los datos de qué clientes? JILL: Ya sabe, los clientes de la empresa. Cómo acceden a esa información? CHALIE: Bueno, una parte está en nuestro sistema de facturación. Y otra parte en nuestro sistema de análisis de Marketing. Y los clientes de menos de un mes de antigüedad quedan en nuestro sistema de pedidos y suministros hasta que podemos procesarlos... Y además tenemos algunos ex clientes en una base de datos de Access en la notebook de Craig... JILL: Y a cuáles de esos clientes desearían venderles sus nuevos productos? Todos se miran entre sí. MARIANNE: Bueno, lo ideal sería a todos. SR. B: Por supuesto! A todos! JILL: Así que cuando necesitan información acerca de las compras de un determinado cliente, o acerca de cómo van las ventas de un producto en una cierta área geográfica qué hacen? SHANE: (timidamente) Lo llamamos a Charlie. Todos vuelven a mirar a Charlie. Charlie toma un gran sorbo de su gaseosa y la derrama sobre la mesa. JILL: (sacandose el saco) Cuánto tiempo tenemos? DESVANECIMIENTO DE SALIDA (FADE OUT) [5] 1. 1. Sinónimos de Minería de datos Data Mining, Extracción de datos, Descubrimiento del conocimiento en bases de datos (KDD), paleo de datos, extracción del conocimiento, arqueología de datos, exploración de datos, procesamiento de patrones de datos, dragado de datos y cosechamiento de la información.
1.2 Conceptos de Minería de datos La extración de datos es el proceso de elegir, explorar y modelar grandes cantidades de datos para descubrir pautas desconocidas con el fin de ganar una ventaja comercial [13] es la exploración y análisis, por medios automáticos o semiautoma-ticos, de grandes cantidades de datos en orden de descubrir patrones significativos y reglas. [2] La Minería de datos esta relacionado con el Descubrimiento del Conocimiento en Bases de datos (KDD) que es el proceso no trivial de identificar en los datos patrones válidos, novedosos potencialmente útiles y compresibles, y el DM es un paso particular del proceso de KDD, el de aplicar algoritmos específicos para extraer patrones (modelos) a partir de los datos. [10] 2. Evolución del análisis del soporte a la decisión El siguiente gráfico indica a que se le puede llamar minería de datos, de las diferentes herramientas de análisis del soporte a las decisiones:[5] Sin hipotesis hipotesis ligeras DC Segmentación Modelado Míneria de datos DC : Descubrimiento de conocimiento hipotesis moderadas hipotesis fuertes Multidimensional Consultas estándar Fuente: Baseline Consulting Group 2.1 Consultas y Análisis Multidimensional( no es DM) Las consultas del tipo qué pásaría sí...? O parametrizadas, es el método de análisis más difundido.el análisis multidimensional a través de un cubo OLAP (Procesamiento Análitico en Línea), es similar a las tablas dinámicas de Excel, ofreciendo diferentes perspectivas de los datos, con analisis de profundidad (drill-down) y Slicing and dicing la capacidad de adaptar un conjunto de respuestas a gusto del usuario.
2.2 Modelado (DM) Los modelos pueden darle a una compañía una forma prefijada y sencilla de determinar el comportamiento futuro de sus clientes, así como su viabilidad a largo plazo. Ejemplos: Valor de por vida del cliente: cuáles son los atributos que afectan la rentabilidad y el valor del cliente para la empresa a largo Plazo? Desgaste del cliente: cuál es la probabilidad de que un cliente específico se vaya? Modelado Predictivo: cómo afectara el mal tiempo a las ventas del producto este verano? 2.3 Segmentación (DM) Puede ser servir para clasificar y reclasificar a los clientes de acuerdo a características demógraficas, patrones de compra, propensión a la compra etc. Permite discernir el trato que la empresa debería darle a una franja de clientes separada y responder a: A que grupo inicial de clientes se debería apuntar un nuevo servicio? Qué clientes es más probable que cometan fraude? Qué clientes es más probable que respondan a descuentos? 2.4 Descubrimiento del conocimiento no dirigido Como afinidades entre múltiples productos y análisis de secuencia de compras. Ejemplos: Ciertos productos disparadores afectan otras compras. Se puede descubrir la próxima compra probable Se pueden discernir patrones reconocibles en las compras o cancelación de servicios Qué características del cliente afectan el ciclo de vida de un producto? 3. Técnicas de Minería de datos Puede ser Directa (D) o Indirecta (I), de acuerdo a si la salida del modelo esta preestablecida o no. [2] 1.Análisis de la canasta de compra (I) 2.Razonamiento Basado en casos (D) 3.Detección automática de agrupamientos(i) 4.Análisis de Relaciones (I) 5.Clasificación (Árboles de decisión) (D) 6.Redes neuronales artificiales (D) (I) 7.Algoritmos genéticos (D)
3.1 Análisis de la canasta de compra Es una forma de agrupamiento usado para encontrar grupos de artículos que ocurren juntos en un transacción o canasta de compra. El modelo se construye dando la afinidad de diferentes productos, que son comprados juntos y que pueden expresarse en reglas. Muy útil es supermercados, cuentas bancarias y servicios telefónicos. Ejemplo: por qué sera que ponen la cerveza cerca de los pañales? O las sugerencias de libros de Amazon.com 3.2 Razonamiento Basado en casos Memory-based reasoning usa casos históricos para reconocer patrones. Por ejemplo, los clientes de Cognitive Systems Inc., lo usan en su Centro de atención a Clientes; con una biblioteca de 50,000 casos de preguntas. Los casos nuevos se asocian rápidamente en relación con las muestras de la biblioteca, proporcionando más de un 90% de exactitud y respuestas automáticas a las preguntas. 3.3 Detección de agrupamientos Consiste en agrupar conjuntos de datos similares, partiendo de un conjunto más grande de datos. Contrario a la clasificación, descubre las agrupaciones a medida que trabaja con los datos de entrada. Una vez identificados se pueden descubrir generalizaciones, patrones y tendencias basadas en sus características. Utilidad: Conocer un conjunto de personas que pueden formar un nicho de mercado en concreto. 3.4 Análisis de Relaciones Sigue las relaciones entre registros para desarrollar modelos basado en patrones de las relaciones. Tomado de la teoría de los grafos. Una área de aplicación actual es en Telecomunicaciones, cada llamada de un cliente, se enlaza otro (cliente potencial), y puede servir de base para campañas exitosas de MDT, como la de una compañía telefónica de 1$ la llamada con tus padres o novia(o). 3.5 Clasificación (Árboles de decisión) E inducción de reglas. Usadas para DM directa particularmente en clasificación. Dividen los registros en el conjunto de entrenamiento en subconjuntos separados, cada uno de los cuales es descrito por una regla simple. Un ejemplo sencillo es las características de una persona para acceder a un crédito o a obtener un tarjeta de crédito, Su ingreso, su edad, su trabajo etc.
3.6 Redes neuronales Es un método de máquina de aprendizaje por medio del cual se examinan los datos históricos para reconocer patrones, los cuales pueden usarse para efectuar predicciones y apoyar decisiones. Y pueden por ejemplo: Identificar a los consumidores potenciales de un nuevo producto. Wal-Mart Busca artículos particulares de almacenes individuales para decidir el perfil de venta estacional de cada artículo. 3.7 Algoritmos genéticos DM directa: aplica el mecanismo de la genética y la selección natural para la búsqueda de conjuntos óptimos de parámetros que tengan un función predictiva. Usan la selección, cruza y mutación para evolucionar sucesivas generaciones de soluciones, y conforme avanzan, la mejor predicción sobrevive, hasta llegar a la solución óptima. Se usa para mejorar el razonamiento basado en casos y redes neuronales. 4. Conclusiones 4.1 Cómo la definen los no técnicos Gerentes de empresas la definen por medio de las aplicaciones de la tecnología de almacenaje para resolver los problemas de negocios: Rentabilidad del cliente Retención del cliente Segmentación del cliente Predisposición del cliente Optimización de los canales Marketing por objetivos Administración del riesgo Prevención de fraudes Análisis de la canasta de mercado Pronóstico de demandas Optimización de precios 4.2 Comentarios El data mining (DM) no es tanto un tipo de análisis como una clase variada de tipos de análisis.
Muchos proveedores de software, ansiosos por probar la dulce fruta del incremento de las ventas, de hecho embarraron el campo de juego al declarar sus productos como herramientas de Minería de Datos, Algunos más ambiciosos, reemplazan el término Soporte de decisión con Minería de datos. El objetivo del DM es permitir mejorar a la empresa su mercadotecnia, ventas y servicio al cliente, a través de entender mejor a sus clientes. Y son igualmente aplicables a campos como Criminología, radioastronomía, medicina, y control de procesos industriales. Ha sido históricamente sinónimo de análisis estadística, algo que hacen personas con un doctorado para lograr una compresión más precisa de datos detallados. Los proveedores de herramientas DM han hecho cada vez más fácil su uso por parte de personas no versadas en estadísticas, no solamente para detectar patrones interesantes en los datos, si no también para aplicar los resultados 4.3 Compañías que usan DM Alamo Rent-a-Car Burlington Coat Factory Au Bon Pain Company Spalding Sports Bank of America AT&T y MCI Chicago Tribune Marriot Club Internacional 4.4 Caso: Hoteles Marriot Problema: tenia una base de datos con millones de nombres, solía enviar publicidad a todos los clientes de la base de datos, aun gran costo, pero la respuesta resultaba mínima. Solución: Identificar en su lista los clientes con mayores probabilidades de responder, empleando redes neuronales en la minería de datos, con datos socioeconómicos e incremento su tasa de respuesta a 33%.[10]
5. Apéndice: 5.1 El mercado de Data Mining Herramientas que trabajan sobre pequeños volúmenes de datos. Acceden a datos situados en un servidor, pero efectúan el proceso de descubrimiento en un puesto local. Cuando se trabaja con estas herramientas se deben tomas múltiples muestras para asegurarse de que los modelos descubiertos son fiables.ejemplos de estas herramientas: Predict y SPSS. Herramientas que trabajan sobre datos situados en un DW. La necesidad de máquinas potentes para implementar estas herramientas lleva a Silicon Graphics e IBM a proponer ofertas en este mercado. Herramientas como Knowledge Seeker y Datamind se sitúan a medio camino de las dos anteriores. Árboles de decisión: AC2 y Alice de Isoft, Knowlege Seeker de Angoss y SPSS Chaid. Redes neuronales y modelos funcionales: Datamind, Neural connection de SPSS y Predict de NeuralWare. La herramienta IDIS de IDIS Software es una de las dominantes en el proceso de descubrimiento de reglas. [8] 5.2 Soluciones de Minería de Datos: Red Brick Datamind hoy, Informix de IBM http://www3.ibm.com/software/data/informix/redbrick/ Neovista s Decision Series hoy JDA software group http://www.jda.com/ SAS Enterprise y Text miner http://www.sas.com/technologies/data_mining/ Mas herramientas en: http://www.dbmsmag.com/9807mbg.html Cognos 4Thought, Scenario http://www.cognos.com/products/4thought/index.html Microstrategy 7i Data Mining http://www.strategy.com/software/mining.asp Pilot analisis Server (OLAP) http://www.pilotsw.com/solutions/business_pilot_analysis.htm Otros en DM Review, sección data mining www.dmreview.com
Referencias [1] Adriaans, Pieter; Data mining, Syllogic: Addison-Wesley, Harlow 1996, 158 pages. [2] Berry,Michael;Linoff, Gordon ; Data Mining Tecniques,for Marketing, Sales and Customer Support, USA 1997, Wiley Computer Publishing, 454 pags. [3] Bhavari Thuraisingham, Data Mining Technologies, Tecniques, Tools and Trends, CRC Press LLC. Boca Raton 1999, 270 pages. [4] Corey y Abbey, Oracle Data Warehousing, Ed. McGrawHill, España 1997, 313 págs. [5] Dyche, Jill, E-data Transformando datos en Información con Data Warehousing, Argentina 2001, Ed. Prentice Hall, 374 págs. [6] Escorsa y Maspons, De la Vigilancia Tecnólogica a la Inteligencia Competitiva, Ed. Prentice Hall, 165 págs. [7] Han, J. & Kamber, M., Data Mining, Concepts and techniques, Morgan Kaufmann Publishers, San Diego CA. 2001, 550 pages. [8] Joan Torres, Modulo de Tecnologías de e-business, del Master en Dirección de empresas digitales y desarrollo de negocios en Internet en la Universidad Abierta de Cataluña (UOC). [9] Marakas George M, Decision support systems in the twenty-first century,prentice Hall, Upper Saddle River (N.J.) 1999,506 pages. [10] Reynoso Lobato y otros, Aplicaciones de la Inteligencia Artificial,Publicado por la Universidad de Guadalajara, México 2002, 425 págs. [11] Smith y otros, Comercio Electrónico fácil!, México 2001, Ed. Prentice Hall, 365 págs. [12] Stanley A. Brown, Administración de las Relaciones con los Clientes, México 2001, Oxford University Press, 352 páginas. [13] Swift, Ronald S, CRM: como mejorar las relaciones con los clientes, Mexico 2002, Ed. Prentice Hall, 479 páginas. [14] Turban, McClean y Wetherbe Tecnología de Información para la administración, Ed. CECSA, México 2001, 945 págs. [15] Vicente, M. Dolores, La aplicación de agentes inteligentes a la minería de web, Trabajo final de la carrera de Documentación de la UOC,Marzo 2002 http://www.uoc.edu/web/esp/art/uoc/vicente0302/tfc/index1.html [16] Weiss, S. & Indurkhya, N., Predictive Data Mining... A practical guide,morgan Kaufmann Publishers; San Fco. CA. 1998, 228 pages. [17] Westphal, C. & Blaxtron, T., Data mining Solutions, Ed. Wiley, USA 1998, 617 pages. [18] Witten,I. & Eibe, F. Data Mining, Practical Machine Learning tools and techniques with Java Implementations, Morgan Kaufmann Publishers; San Diego CA. 2000, 377 pages. Sitios web de Data Mining Portal Data Mining de DM review http://www.dmreview.com/portal_ros.cfm?navid=9&topic=1&portalid=9 Data Mining Tecniques (Mkt) www.data-miners.com Predictive data minig www.data-miner.com Data Mining, Practical learning machine... www.mkp.com/datamining
Descubrimiento del conocimiento (Sitio antiguo y el nuevo) www.andypryke.com/university/thedatamine.html www.the_data_mine.com Ligas recomendadas en libro de George Marakas DSS in en 21st century http://cwx.prenhall.com/bookbind/pubbooks/marakas/chapter12/destinations1/deluxecontent.html Asociaciones relevantes Data Mining Group http://www.dmg.org/ Internacional Data Warehouse Association http://www.idwa.org/ The Data Warehousing Institute http://www.dw-institute.com/ The Data Management Association http://www.dama.org/ Revistas en línea Revista de Inteligencia de Negocios www.bi-magazine.com Artículos sobre Minería de datos www.lania.mx/spanish/actividades/newsletters/1997-otoño-invierno/index.htm http://www.lania.mx/spanish/actividades/newsletters/1999-otono-invierno/index.html Internet,conocimiento y negocios www.ecommdigital.com/esphera