KEYWORDS: data mining, results evaluation, analysis tasks, AI algorithms.

Transcripción

1 COMERCIALIZACIÓN LA MINERÍA DE DATOS COMO HERRAMIENTA DE MARKETING: DELIMITACIÓN Y MEDIDAS DE EVALUACIÓN DEL RESULTADO José Alberto Castañeda García (jalberto@ugr.es) Miguel Ángel Rodríguez Molina (rmolina@ugr.es) Universidad de Granada Facultad de CC. EE. y EE. Dpto. Comercialización e Investigación de Mercados Campus Cartuja, s/n Granada RESUMEN La minería de datos (data mining) está siendo utilizada cada día más en los negocios, y apareciendo con más frecuencia en trabajos académicos, lo que justifica la aproximación que aquí realizamos. El trabajo pretende abordar una delimitación del concepto minería de datos a través de su definición y concreción de las tareas y algoritmos que la integran. Una vez cumplido el objetivo anterior nos centraremos en uno de los aspectos más problemáticos, la evaluación de los resultados en minería de datos. Propondremos aquí una división de los principales indicadores en 4 categorías: bondad de ajuste, relevancia, novedad y aplicabilidad. Este trabajo tiene implicaciones importantes en el campo profesional, pero también en el académico, ayudando a disipar algunas dudas sobre qué es y cuál es la utilidad de la minería de datos y realizando una propuesta en la poco abordada tarea del análisis de resultados. PALABRAS CLAVE: minería de datos, evaluación del resultado, tareas de análisis, algoritmos de IA ABSTRACT Data mining is being utilized more every day in the businesses and appearing more frequently in academic works, what justifies the approximation that here we present. The paper attempts to approach the data mining concept's delimitation through its definition and concretion of the tasks and algorithms that integrate it. Once the former objective has been completed, we'll focus on one of the most problematical issues, the analysis of the results effectiveness in data mining. We'll propose here a division of the principal measures in 4 categories: goodness, relevance, novelty and applicability. This work has important implications in businesses and in the academic area, helping to dissipate some misgivings about data mining's utility, its components and the measures of the result's effectiveness. KEYWORDS: data mining, results evaluation, analysis tasks, AI algorithms. 1. LA MINERÍA DE DATOS EN LOS NEGOCIOS Y EN EL MARKETING. La necesidad de información surge como consecuencia de dos factores: la incertidumbre y el coste a asumir en caso de errar en la toma de decisiones [Wright y Ashill, 1998]. En los momentos actuales ambas características están presentes en niveles elevados para los negocios, haciendo imprescindible la información para el éxito en el mercado [Kotler, et al. 2000; McLeod, 2000, 4; O'Brien et al. 1995; Sánchez Fernández, 2001; Weiber y Kollmann, 1998], hasta el punto de que algunos autores hablan de una economía basada en la información y el conocimiento [Drucker, 1993]. Para obtener la información necesaria hemos de partir de una materia prima: los datos. Éstos están hoy en día disponibles en grado superlativo gracias a la facilidad de captación, transmisión y gestión de los mismos que ofrecen las tecnologías de la información [Leverick et al. 1997; Talvinen, 1995]. Sin embargo, es la transformación de los datos en información y la aplicación de ésta al negocio lo que generará valor para la empresa [Dhar y Stein, 1997, 11; Stair y Reynolds, 2000, 5].

2 Para el análisis de los datos podemos emplear la "estadística clásica", aunque recientemente se ha incorporado en los negocios la utilización de herramientas de minería de datos. Las razones principales son tres, que se corresponden con las diferencias entre ambas: La minería de datos ofrece la posibilidad de llevar a cabo un proceso de descubrimiento de información automático, es decir, dirigido por el algoritmo [Mena, 1999, 50; Pyle, 1999, 486]. Las técnicas estadísticas "clásicas" requieren generalmente de la delimitación por parte del analista de las variables a considerar, series de datos a incluir y tipo de análisis a realizar. En definitiva, están sujetas a una idea previa del estadista. Las herramientas de minería de datos se han diseñado para ser empleadas directamente por decisores o personal del negocio [Berson y Smith, 1997, 336], y no necesariamente por técnicos. La minería de datos automatiza los procesos estadísticos y, por ello, descargan al usuario final de tal tarea. Desde el punto de vista de productos, las herramientas de minería de datos están preparadas para trabajar con grandes volúmenes de registros, mientras que, generalmente, los paquetes estadísticos clásicos se saturan cuando se introduce gran cantidad de datos para analizar [Mena, 1999, 50; Pyle, 1999, 486]. La escalabilidad es una de sus principales ventajas [Small y Edelstein, 1997]. El interés del mundo profesional por la minería de datos se manifiesta por el variado y amplio conjunto de empresas que han lanzado al mercado productos de data mining 1, entre las cuales se encuentran las tres empresas más importantes en herramientas de análisis SPSS (Clementine), SAS (Enterprise Miner) e IBM (Inteligent Miner). Desde un punto de vista académico, Malhotra y Peterson [2001] identifican a los algoritmos de minería de datos como uno de los campos emergentes y de futuro en la investigación de marketing, a lo que podemos unir la aparición de manuales sobre minería de datos [Berson y Smith, 1997; Caberna et al. 1997; Delmater y Hancock, 2001; Groth, 1998 y 2000; Han y Kamber, 2001 entre otros], algunos de los cuales con especial enfoque en el marketing [Berry y Linoff, 1997]. En el ámbito nacional, y dentro de la disciplina, también encontramos alguna destacable incursión en la minería de datos [Luque Martínez, 2000]. Con todo, y teniendo en cuenta las sugerencias de Desphandè [1999] respecto a aprovechar las aportaciones de otras disciplinas, consideramos conveniente la incursión que aquí se presenta en la minería de datos. Este trabajo supone una continuación de las investigaciones desarrolladas en el seno del grupo de investigación al que pertenecemos. En lo que resta del documento nos dedicaremos a definir el concepto de minería de datos y los factores determinantes de su creciente utilización en los negocios. Seguidamente, realizamos un repaso sobre su aplicación, a través del estudio de las tareas y algoritmos de minería de datos y, a continuación, profundizamos en uno de los aspectos más preocupantes, la evaluación de los resultados. Finalizamos el trabajo con algunas conclusiones e implicaciones, especialmente orientadas al campo de los negocios. 2. DEFINICIÓN DE MINERÍA DE DATOS. Si tuviéramos que dar un concepto de minería de datos nos encontraríamos con tres corrientes diferentes en la literatura. De acuerdo con Peacock [1998a] la definición se puede abordar desde una triple perspectiva, en función de la amplitud de la misma. Así, se puede definir la minería de datos desde un punto de vista estrecho como el descubrimiento automático de patrones o modelos interesantes y no obvios escondidos en una base de datos, los cuales tienen un gran potencial para contribuir en los aspectos principales del negocio. La palabra interesante en los negocios se traduce en su aplicabilidad a las estrategias y tácticas de la empresa, como a sus objetivos. La minería de datos, desde un punto de vista estrecho, comprende, como sistema de extracción de relaciones, los métodos basados en la computadora, requiriendo poca involucración y ayuda por parte del analista en la obtención de información relevante. Incluiríamos aquí los algoritmos de redes neuronales artificiales, árboles de decisión, inducción de reglas, lógica difusa, análisis de links y los algoritmos genéticos. Si tenemos que acudir a un concepto más amplio, Peacock [1998a] indica que la minería de datos también engloba, aparte de lo ya comentado, la confirmación o prueba de relaciones reveladas por el proceso de descubrimiento. Emplearíamos para ello métodos estadísticos clásicos y Bayesianos, así como la fijación de hipótesis que se verificarán en el proceso de obtención de información, a parte de incluir la búsqueda de la 1 Véase Groth, 2000, 245.

3 confirmación de relaciones, modelos o teorías formuladas mediante la aplicación de minería de datos desde un punto de vista estrecho. Como ejemplos se puede mencionar el análisis exploratorio de datos, la regresión mínimo cuadrática, la regresión logística y el análisis discriminante. En este proceso la parte humana juega un importante papel a la hora de obtener información relevante. Se puede hablar, por tanto, de un proceso semiautomático de minería. Por último, y como concepto más amplio recogido en la literatura, la minería de datos se identifica con el proceso de descubrir conocimiento en bases de datos (KDD Knowledge Discovery in Databases), englobando así un conjunto de actividades, entre las que se encuentra el análisis de los datos. En el cuadro siguiente aparecen un conjunto de autores clasificados en función de la postura que adoptan en su trabajo, con relación a las distintas aproximaciones a la definición de minería de datos. Tabla 1. Clasificación de trabajos por definición de minería de datos adoptada. [Elaboración propia] DEFINICIÓN Minería de datos como sistema automático de obtención de información Minería de datos como sistema semiautomático de obtención de información. Minería de datos como sinónimo de KDD TRABAJOS Ainslie y Drèze, 1998; Aluja, 2000; Berson y Smith, 1997; Cabena et al. 1997; Delmater y Hancock, 2001; Gargano y Raggad, 1999; Gilman, 1999; Kimball y Merz, 2000; Mena, 1999; Morgan y Chapple, 1999; Moxon, 1996; Peacock, 1998b; SPSS, Anand et al. 1998; Berry y Linoff, 1997; Edelstein, 1996, 1997, 1998, 1999, 2000a y 2000b; Fayyad, 1997; Frawley y Thearling, 1999; Groth, 1998 y 2000; Han et al. 1999; Han y Kamber, 2001; Leeds, 2000; Luque Martínez, 2000; Padmanabhan y Tuzhilin, 1999; Small y Edelstein, 1997; Sugumaran y Bose, Feelders et al. 2000; Forcht y Cochran, 1999; Hermiz, 1999; Hui y Jha, 1999; Mannila, Para Kimball y Merz [2000] la minería de datos no es más que un paso hacia delante de la estadística (gracias al apoyo de la Inteligencia Artificial, que ha colaborado con la generación de nuevas técnicas). Sin embargo, es la aparición de los nuevos sistemas de almacenamiento (Data Warehouse) lo que permite hacer realidad la minería de datos. De una forma más amplia, el surgimiento de la minería de datos es consecuencia de 4 procesos de desarrollo fundamentales y apareados (figura 1). La evolución producida en la captación de datos, la gestión y análisis de los mismos, y la concepción del propio negocio y de la actividad de marketing han facilitado y motivado el desarrollo de la minería de datos. Figura 1. Evoluciones paralelas a la minería de datos FILOSOFÍA NEGOCIO/ MARKETING Preocupación por la distribución Preocupación por la comunicación Venta cruzada. Máximo valor de los clientes actuales Mejora de la relación con el cliente, mediante la creación de valor HERRAMIEN. DE ANÁLISIS Desarrollo del análisis estadístico. Aparición de las primeras empresas (SPSS, SAS e IBM) Desarrollo de nuevas herramientas de análisis Desarrollo de nuevas técnicas de análisis basadas en Inteligencia Artificial Integración de varias herramientas de análisis en productos con fácil interface BASES DE DATOS Creación de las bases de datos basadas en computadora Avances diversos en BD, aparición de los Sistemas de Gestión Desarrollo del OLTP como herramienta de mejora de captura y acceso a las BD Desarrollo de OLAP y Data Warehouse DATOS Desde 1910 las empresas comienzan a recoger datos de sus clientes (ámbito local) Acumulación de datos en las empresas Globalización. Incremento en el volumen de datos disponibles Las empresas entran en el mercado electrónico, del que captan gran cantidad de datos [Elaboración propia] Años 60 Años 70 Años 80 Años

4 3. ANÁLISIS EN MINERÍA DE DATOS. Previo al análisis de cualquier serie de datos a través de las herramientas aquí analizadas se requiere de un preproceso que en ocasiones supone el 80% del tiempo [Edelstein, 1998 y 1999; Feelders et al. 2000; Leeds, 2000]. Puesto que analizar este aspecto no entra dentro del objetivo de este trabajo nos remitimos a trabajos como el de Pyle [1999] para la profundización y la comprensión de las fases previas al análisis en minería de datos. En la fase de análisis, aunque la minería de datos necesita de escasa supervisión por parte del analista, hay que tomar una serie de decisiones que son claves para el resultado final: en primer lugar, hay que decidir el tipo de análisis (tarea) a realizar y, en segundo lugar, hay que elegir un algoritmo o herramienta para llevarla a cabo Selección de la tarea. En general, la minería de datos permite, como indican Berson y Smith [1997, 341], obtener oro de una montaña de datos. Desde un punto de vista general, la minería de datos permitirá completar dos tareas de análisis: describir y predecir [Edelstein 1996, 2000a y 2000b; Han y Kamber, 2001; Pei et al. 2000], mientras que si profundizamos en cada una de las tareas encontramos un amplio conjunto de posibilidades de análisis (tabla 2). Tabla 2. Funciones de la minería de datos TAREAS Descripción Análisis de asociaciones Clasificación Predicción Análisis de cluster Valores extremos Estimación AUTORES Aluja, 2000; Berry y Linoff, 1997; Han y Kamber, 2001; Luque Martínez, 2000; Peacock, 1998a; Pei et al. 2000; Zaïane et al Aluja, 2000; Berry y Linoff, 1997; Greening, 2000; Groth, 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al. 2000; Zaïane et al Berry y Linoff, 1997; Forcht y Cochran, 1999; Groth, 1998 y 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martínez, 2000; Mena, 1999; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al. 2000; Zaïane. et al Aluja, 2000; Berry y Linoff, 1997; Greening, 2000; Groth, 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martínez, 2000; Mena, 1999; Peacock, 1998a; Pei et al. 2000; Zaïane et al Berry y Linoff, 1997; Forcht y Cochran, 1999; Greening, 2000; Groth, 1998 y 2000; Han y Kamber, 2001; Kimball y Merz, 2000; Luque Martínez, 2000; Mena, 1999; Mobasher et al. 1996; Moxon, 1996; Peacock, 1998a; Pei et al. 2000; Srivastava et al Han y Kamber, Berry y Linoff, 1997; Forcht y Cochran, 1999; Greening, 2000; Groth, 2000; Kimball y Merz, 2000; Luque Martínez, 2000; Moxon, Visualización Groth, 1998; Groth, 2000; Luque Martínez, 2000; Mena, Optimización Groth, 2000; Mena, [Elaboración propia] Series temporales Pei et al ; Zaïane et al No son éstas las únicas tareas que se relacionan con la minería de datos en la literatura, sino que aparecen algunas otras, como la segmentación [Mena, 1999], análisis de evolución [Han y Kamber, 2001], etc., que surgen a partir de las incluidas en la tabla anterior. Como indica Mena [1999, 18], es el tipo de datos con los que se cuenta, junto con los objetivos de la investigación, los que van a determinar la tarea o tareas a realizar. Téngase en cuenta que para la solución de un problema concreto quizás sea necesario llevar a cabo diferentes actividades que muestren una visión global Elección de la herramienta Cada una de las tareas antes comentadas necesita de alguna herramienta para ser desarrollada y es este el momento donde los algoritmos que se integran en los diferentes programas de minería de datos juegan un papel fundamental. Éstos pueden incluir desde aquéllos empleados en la estadística clásica, como las nuevas herramientas desarrolladas a partir de la Inteligencia Artificial, junto con las herramientas de preguntas y de visualización. Si tenemos en cuenta la definición estricta de minería de datos, solamente deberían ser

5 considerados como algoritmos de minería de datos aquellos que permitan obtener un conocimiento de forma automática eliminando, por tanto, las técnicas estadísticas, los algoritmos de preguntas y la visualización. Sería pretencioso ofrecer aquí una visión de cada uno de los algoritmos empleados en minería de datos, por lo que nos remitimos a Berry y Linoff [1997], Berson y Smith [1997] y Han y Kamber [2001]. Conocidas las distintas herramientas, hay que proceder a la selección de la adecuada para la investigación que se plantea en cada momento. Revisada la literatura relevante con relación a este tema, resulta difícil establecer una que sea la más adecuada, e incluso, la mejor dentro de las tareas que se llevan a cabo. Es más, no existe acuerdo en lo que se refiere a las tareas desarrolladas por cada uno de los algoritmos. En definitiva, se han de producir dos elecciones diferentes, aunque conectadas. En primer lugar, hay que seleccionar el algoritmo que sea más adecuado (redes neuronales, árboles de decisión, técnicas de generación de reglas, u otros) y, en segundo lugar, habrá que determinar de entre los paquetes de minería de datos disponibles aquél que, disponiendo de la técnica, sea el más conveniente. En la práctica las decisiones se invierten, debido a que resulta costoso adquirir varios paquetes de minería de datos. En todo caso, para aquellas organizaciones que cuenten con varios productos de minería de datos, aconsejamos la primera de las secuencias. La razón la encontramos en que, por regla general, es el algoritmo el que condiciona el resultado, más que el producto que lo contiene, ya que éste, fundamentalmente, se relaciona con la facilidad de uso. Vamos a centrarnos en primer lugar en analizar los aspectos relevantes a tener en cuenta a la hora de seleccionar el algoritmo de análisis. Cada herramienta es empleada para un conjunto de tareas. Como hemos indicado anteriormente, no existe un acuerdo en la literatura en cuanto a qué actividades son realizadas por los diferentes algoritmos 2. Nosotros hemos construido una tabla indicando usos de las 4 técnicas de minería de datos más comúnmente citadas, así como la estadística clásica. En trabajos futuros se profundizará en este tema, ya que como vemos, varias técnicas se pueden emplear para llevar a cabo una misma actividad, aunque con rendimientos significativamente diferentes. Tabla 3. Selección de algoritmos de minería de datos en función de la tarea a desarrollar [A partir de Berry y Linoff, 1997, 415] HERRAMIENTAS Descripción Asociación Clasificación Predicción Estimación Clustering Optimización Estadística estándar X X X X X X X Generación de Reglas X X X X X Redes Neuronales X X X X Árboles de Decisión X X X X Algoritmos Genéticos X X X X Puesto que un mismo tipo de análisis puede ser completado por varios algoritmos, se hace necesario evaluar el rendimiento de los mismos en base a un conjunto de indicadores. Nosotros proponemos aquí una relación de atributos a medir a la hora de evaluar los algoritmos de minería de datos, la cual ha surgido a partir de Mena [1999, 136]; Berson y Smith [1997, 345] y Berry y Linoff [1997, 422]: Precisión. Mide la capacidad del algoritmo de llegar al resultado correcto. En definitiva, tratamos de evaluar el grado de error cometido en la respuesta. Claridad. Mide la transparencia de una técnica, en cuanto a la interpretación de los posibles resultados, así como la forma en que se ha llegado a los mismos. Una red neuronal es un claro ejemplo de técnica que genera modelos de caja negra, en los cuales es difícil conocer cómo se producen las transformaciones internas que hacen llegar al resultado final. Utilidad. La información tiene un valor que decrece con el paso del tiempo, por ello, resulta necesario que la técnica empleada genere información en un formato fácil de entender, con el objetivo de que tras la interpretación del decisor se convierta en un recurso accionable para la empresa. En definitiva, este indicador mide la forma de presentación de los resultados. Ésta se mejora con el empleo de técnicas de visualización, de jerarquización de reglas, etc. Generalidad. Se refiere a la posibilidad de aplicar la técnica a múltiples tipos de problemas, afectados por un amplio grupo de variables y con el empleo de varios tipos de datos. Adaptabilidad. Se refiere a la existencia o no de una fase de preproceso sobre los datos. Ésta es una de las etapas más costosas del proceso de obtención de conocimiento de la Web y, por ello, resulta conveniente emplear aquella técnica que permita tomar los datos directamente de la base de datos, sin necesidad de cambios previos. 2 Véase Berry y Linoff, 1997; Berson y Smith, 1997; Han y Kamber, 2001.

6 Facilidad de construcción. La construcción del modelo suele ser bastante autónoma con relación al decisor. Sin embargo, también hemos de medir el coste de consecución en base a otros elementos, como el consumo de registros que necesita para el entrenamiento. Rapidez. Los algoritmos pueden tardar 5 minutos en proporcionar una respuesta al problema planteado o un mes. Por ello, y dadas las características de dinamismo del mercado virtual, éste es un elemento a tener en cuenta. Depende en gran medida del hardware en el que se ejecute la herramienta. Gestión de memoria. Mide la necesidad de recursos de computación que son necesarios para que la herramienta pueda actuar correctamente. Generalmente, rapidez y recursos necesarios van de la mano, es decir, aquellos algoritmos más lentos son los que necesitan más capacidad de computación. Estos dos últimos criterios están reduciendo su importancia gracias a los avances que cada día se producen en las tecnologías de la computación. Robustez. En qué medida es capaz el algoritmo de trabajar con datos perdidos o con errores, sin que afecte significativamente a alcanzar el resultado óptimo? Se trata de un atributo relacionado con el preproceso, puesto que reduce la necesidad de éste. Validación. Se refiere a la facilidad para comprobar que el modelo ha llegado a la solución óptima. Así, las técnicas estadísticas disponen de buenos indicadores, como el coeficiente de determinación (R 2 ). Sin embargo, cuando hablamos de minería de datos resulta una tarea más compleja. Habitualmente cada herramienta construye sus propios indicadores, o se emplea la validación cruzada. Disponibilidad. Algunas técnicas están más disponibles en los distintos paquetes comerciales que otras. Así, las redes neuronales y los árboles de decisión son algoritmos usuales, mientras que los algoritmos genéticos difícilmente se encuentran. El listado de dimensiones que acabamos de comentar debe mostrar una visión de conjunto acerca de cada algoritmo, la priorización de los diferentes atributos corresponde al decisor, en función de las necesidades de la empresa. El consejo respecto a las técnica a emplear es la utilización de una combinación de las diferentes herramientas con las que contamos [Berry y Linoff, 1997, 424; Gargano y Raggad, 1999; Mena, 1999, 143]. El objetivo es doble, por un lado conseguimos la validación de los resultados, mediante la obtención de una misma conclusión a través de diferentes técnicas, además de alcanzar una visión más global del problema. El segundo objetivo es mejorar la realización de una tarea concreta, como el empleo de algoritmos genéticos para ajustar los pesos de una red neuronal, o aplicar un árbol de decisión sobre un conjunto de atributos, para encontrar aquellos que son relevantes y aplicarlos en realizar algún tipo de predicción. 4. EVALUACIÓN DEL RESULTADO EN MINERÍA DE DATOS. En general, en minería de datos existe un amplio consenso en que hay que llevar a cabo una fase de evaluación del resultado, al igual que se ha venido realizando con los análisis estadísticos clásicos. En éstos se evalúa la bondad del resultado de forma amplia y precisa, puesto que se han generado multitud de indicadores. Cuando se pretende la evaluación del resultado obtenido en minería de datos, no existe un consenso. Si seguimos a Berson y Smith [1997], Berry y Linoff [1997], Han y Kamber [2001], Mena [1999] o algún otro autor que trate el tema de las medidas de bondad del resultado, encontraremos enormes dificultades para llegar a una conclusión única. Cada autor adopta una perspectiva diferente. En la literatura analizada, a excepción de Berry y Linoff [1997, 94] y Berson y Smith [1997, 510], no aparece ningún esquema completo, y más o menos lógico, de indicadores de la efectividad del resultado obtenido mediante la minería de datos. La aproximación del primero de los trabajos comentados parte de unos objetivos previos que han de guiar la evaluación final. A partir de ahí dicha evaluación se realiza sobre el modelo, sobre el resultado y sobre el impacto que tendrá en la organización la información obtenida. Pese a considerarla como una buena aproximación al tema estudiado, utiliza pocos indicadores para medir constructos complejos, como el impacto de un resultado. Por otro lado, no aporta ningún coeficiente que sirva al decisor para filtrar información en función del nivel de novedad que supone ésta. La otra aproximación es la que Berson y Smith [1997, 510] realizan, basándose fundamentalmente en la precisión del modelo, presentando el mismo conjunto de indicadores que Berry y Linoff [1997, 94], pero

7 referidos todos a la variable antes citada. Sin embargo, como se comentó anteriormente el resultado de la minería de datos es interesante por algo más que por su precisión. La propuesta que aquí realizamos trata de recoger un número amplio de indicadores, tanto objetivos, como subjetivos, organizados en torno a 4 aspectos fundamentales del resultado: la bondad, la relevancia, la novedad y la aplicabilidad del resultado. Vamos a ver detenidamente cada uno de estos grupos de medidas Indicadores de la bondad del resultado. Al igual que en la regresión, estos índices tratan de aportar una idea acerca del error que se comete al emplear un modelo para realizar una tarea. Es, como indican Padmanabhan y Tuzhilin [1999], una medida de la fortaleza estadística del resultado. Son indicadores objetivos construidos, casi específicamente, para cada tipo de resultado [Cabena et al. 1997, 56]. Cuando el resultado se presenta en forma de clasificación o estimación utilizaremos el indicador de PRECISIÓN [Berson y Smith, 1997, 510; Edelstein, 1998 y 2000a], medido a través del porcentaje de predicciones que son correctas. Cuando hablamos de clasificación se empleará el porcentaje de casos bien clasificados y para la estimación el porcentaje de registros con una estimación que el decisor considere correcta. La otra cara de la moneda del indicador presentado es el RATIO DE ERROR [Berry y Linoff, 1997, 99; Berson y Smith, 1997, 510; Edelstein, 1997 y 1998], que mide el porcentaje de casos en los que el resultado no coincide con la realidad. Por tanto, se puede definir como el complementario de la precisión. Otras medidas derivadas de las dos anteriores que han aparecido en la literatura son las siguientes: La varianza o la desviación típica son medidas empleadas cuando se estiman valores continuos. Se basan en obtener un promedio de los errores cometidos [Berry y Linoff, 1997, 100; Berson y Smith, 1997, 511.]. La matriz de confusión [Cabena, et al. 1997, 56; Edelstein, 1998]. Ayuda a conocer la bondad del modelo para predecir y también para descubrir en qué casos se producen errores. Cuando medimos la bondad del ajuste en algoritmos que han necesitado de un entrenamiento previo para generar el modelo, puede ocurrir que basándonos en el indicador de precisión o en el ratio de error se aporte una idea equivocada. Ello ocurre por el sobre-aprendizaje [Berry y Linoff, 1997; Cabena et al. 1997, 56; Peacock, 1998b; Berson y Smith, 1997, 342; Edelstein, 1997; Luque Martínez, 2000], es decir, cuando el modelo se ajusta muy bien a la muestra empleada para su construcción, mientras que para cualquier otra serie de datos el ajuste es bastante malo. En tal caso, el modelo construido ha de ser validado para un conjunto de datos independientes a la muestra empleada y que se denomina conjunto de prueba, midiendo la precisión o ratio de error sobre dicha serie de datos. Pasando a los indicadores que se emplean en los algoritmos que producen resultados en forma de reglas, la precisión se va a medir a través del COEFICIENTE DE CONFIANZA [Berry y Linoff, 1997, 106; Berson y Smith, 1997, 481; Han y Kamber, 2001, 27; Lan et al. 1999; Spiliopoulou et al. 1999; Spiliopoulou y Faulstich, 1998], que se define como la probabilidad condicionada de un hecho (conclusión) con respecto a otro (condición). Utilizaremos el ejemplo siguiente de una base de datos de sesiones en un sitio Web para ilustrar las explicaciones. Tabla 4. Izquierda Ejemplo de matriz de confusión Tabla 5. Derecha Base de datos de ejemplo [Elaboración propia] Observado Clase A Clase B Clase C Predicción Clase A Clase B Clase C Nº Día Zona visitada 1 Laboral Noticias 2 Festivo Chat 3 Festivo Compras 4 Laboral Chat 5 Laboral Noticias 6 Festivo Compras 7 Laboral Juegos Como se puede observar, la regla "SI festivo ENTONCES zona compras" se puede aplicar en la base de datos en tres ocasiones, puesto que son tres veces las que el campo día toma el valor Festivo, el cual es la condición en la regla. De esas tres veces solamente 2 llevan al navegante a la zona de compra, por lo tanto, el coeficiente de confianza se calcula como: P(Compra Festivo) = P(Festivo U Compra) / P(Festivo) = 2/3 = 0.67

8 Berson y Smith [1997, 481] denominan a este indicador como "Precisión", aunque la terminología más generalmente aceptada es la presentada en este trabajo. Por último, la DISTANCIA [Berry y Linoff, 1997, 106] es empleada en algunas técnicas de minería de datos (análisis cluster, razonamiento basado en memoria, etc.), cuando se disponen de variables continuas y numéricas, mediante la raíz cuadrada de la suma al cuadrado de las distancias en cada eje Indicadores de relevancia del resultado. Si los anteriores coeficientes medían la bondad de ajuste del modelo a los datos, éstos se centran en mostrar la importancia del resultado. Para ello mide la aportación a la situación actual y la frecuencia de utilidad del resultado. Mostraremos a continuación dos indicadores, referidos ambos a la presentación de resultados en forma de reglas. Un dato que puede ser interesante en las reglas es el número de veces que se pueden aplicar, es decir, la frecuencia con la que se presenta la condición. Utilizar un porcentaje en lugar de un valor absoluto parece más conveniente, ya que nos libramos de la dependencia al tamaño de la muestra y, además, lo referimos al total de casos considerados. El primero de los indicadores es el COEFICIENTE DE COBERTURA [Berson y Smith, 1997, 481; Lan et al. 1999; Spiliopoulou et al. 1999; Spiliopoulou y Faulstich, 1998], que mide el porcentaje de registros en los cuales se puede aplicar la regla. Se corresponde con el denominador que hemos empleado para el cálculo del coeficiente de confianza. En la base de datos de ejemplo observamos como en total disponemos de 7 registros, de los cuales el campo DIA presenta en 3 ocasiones el valor Festivo, que es precisamente la condición impuesta por la regla "SI festivo ENTONCES zona compras". Así, el coeficiente de cobertura se sitúa para dicha regla en el 0.43 (3/7). Otro de los indicadores es el COEFICIENTE DE APOYO [Berson y Smith, 1997, 481; Berry y Linoff, 1997, 106; Han y Kamber, 2001, 27], que muestra el porcentaje de ocasiones en que globalmente aparece la relación descrita por la regla. Al igual que el anterior también es posible expresarlo en términos absolutos, sin embargo, sería más conveniente la propuesta del porcentaje. Volviendo al ejemplo que venimos empleando observamos como la regla "SI festivo ENTONCES zona compras" solamente se cumple para los casos tercero y sexto, con lo cual el coeficiente de apoyo es del 0.29 (2/7). Existe una relación entre el coeficiente de confianza, de cobertura y de apoyo. Los tres forman distintos elementos de una misma relación, que presentamos a continuación: Coeficiente de Confianza = Coeficiente de Apoyo / Coeficiente de Cobertura Para el caso de los resultados en forma de reglas hay otro indicador apropiado para medir el grado de importancia de la regla a través de la aportación que supone respecto a la pura probabilidad. Se denomina COEFICIENTE DE SIGNIFICACIÓN [Berson y Smith, 1997, 481]. Tomando como ejemplo la siguiente regla: Si Festivo y Navegante comprador Entonces visita a la zona de compras. Confianza = 0.7; Cobertura = 0.2; Apoyo = Por lo tanto, tenemos que el apoyo de dicha regla es del 14% (0.7*0.2). Pero puede ocurrir que en general en Internet, e independientemente de la empresa, en fin de semana entre el 70% de los navegantes, que haya un 40% de navegantes compradores y que las visitas a zonas de compras se sitúen en torno al 50% respecto al total. Con ello tenemos que, por mera probabilidad, en el 14% de las ocasiones un navegante comprador visitará la zona de compras en fin de semana (0.7*0.4*0.5). Ello se cumple siempre que estemos hablando de hechos independientes, entre los que no se puede establecer ningún tipo de relación como la que presume la regla. Algunos autores llaman a este indicador mejora [Luque Martínez, 2000]. Una forma de calcularlo sería a través de la diferencia entre el coeficiente de apoyo y la probabilidad de ocurrencia conjunta de hechos independientes. Por último, y para cualquier tipo de resultado, se puede emplear un indicador de la importancia del mismo, el LIFT [Berson y Smith, 1997, 481; Berry y Linoff, 1997, 106; Edelstein, 1998 y 2000a].

9 El indicador Lift, según Berry y Linoff [1997, 106], permite la comparación entre diferentes resultados producidos por distintos algoritmos, término no posible con el resto de medidas. Sin embargo, está especialmente indicado para la evaluación de tareas de clasificación. La forma de presentación es a través de un indicador o en forma de gráfico, el cual resulta más visual. El problema es que depende de la muestra empleada, ya que para muestras pequeñas se puede generar un alto Lift. Sin embargo, ello no supone que estemos eligiendo el óptimo. El Lift se calcula a través del cociente entre el porcentaje de concentración de elementos o hechos en una determinada clase, frente a la concentración que presenta la población en su conjunto (generalmente dicha población se identifica con el total de registros en la base de datos). Lift = Porcentaje de objetivo en la clase/porcentaje de objetivo en la población. Por ejemplo, si habitualmente el número de respuestas ante un banner instalado en nuestra Web se sitúa en el 5% (sobre un total impactos), y con un modelo, que ayuda a identificar aquellos navegantes con mayor propensión de respuesta, conseguimos el 20%, entonces el indicador Lift toma un valor de 20/5=4. No es un porcentaje, sino simplemente un indicador de cuantas veces es mejor el modelo, en la captación del hecho objetivo, que la aleatoriedad. En forma de gráfico el indicador Lift nos ayudará a conocer cómo evoluciona el indicador a través de los diferentes deciles de la población. La aplicación de un modelo va generando mejores resultados, para luego converger con la situación de ausencia de modelo. Así, el gráfico Lift es el que aparece en trazo más grueso y que presenta una primera fase de fuerte descenso, para pasar a una fase de decrecimiento moderado, hasta alcanzar el valor 1 (valor mínimo) 3. Figura 2. Evolución del indicador LIFT a lo largo de los distintos deciles de la población [Berry y Linoff, 1997, 109] LIFT % objetivo CON MODELO LIFT SIN MODELO % de población % población 4.3. Indicadores de novedad del resultado. Uno de los problemas que tiene la generación de reglas es la obtención de información excesivamente abundante y obvia. El indicador que aquí presentamos trata de solventar ambos problemas. El COEFICIENTE DE NOVEDAD [Berson y Smith, 1997, 481] está exclusivamente creado para indicar si una regla es interesante o no en función del número de reglas ya generadas para un área de conocimiento concreta. Se trata de evitar las redundancias en su obtención. Así, resulta más interesante una regla con los anteriores indicadores bajos, pero desconocida, frente a una con fuertes coeficientes de bondad e importancia, pero cuya existencia ya era conocida por procesos de análisis anteriores. Autores como Büchner et al. [1999], Anand et al. [1998], Han et al. [1999] o Padmanabhan y Tuzhilin [1999], abogan por la inclusión del conocimiento previo del negocio e intuición que detentan los decisores para: restringir el espacio de búsqueda, obtener un conocimiento más preciso y eliminar aquél que resulte no interesante. Se hace necesario, por tanto, codificar el conocimiento de los expertos en el negocio en forma de reglas para hacer más eficiente la búsqueda de información. La forma de medición es generalmente subjetiva (Berson y Smith [1997], por ejemplo, no especificaron ninguna forma de expresarla) y es el decisor quien ha de establecer el método. Una forma de medición más objetiva sería 3 El indicador LIFT no tiene un valor máximo.

10 hacer que tome valores dicotómicos 0 ó 1. De esta forma tomará el primero de ellos cuando sea exactamente igual a otra regla ya generada anteriormente y almacenada, mientras que tomará el valor 1 para cualquier otro caso. En Padmanabhan y Tuzhilin [1999], se discute un algoritmo que pretende obtener todas aquellas reglas relevantes, definidas como contradictorias a las creencias introducidas por el decisor. En ocasiones interesa que el output de un proceso de minería de datos coincida con las creencias anteriores, es el caso en que nos planteamos la prueba de hipótesis. Por tanto, en esta situación, aquellas reglas que sean coincidentes con las creencias previas serán las más interesantes Indicadores de aplicabilidad del resultado. Por último, en los negocios de hoy en día, la necesidad de rapidez en la respuesta al mercado tiene una enorme importancia. Por ello, resulta necesario contar con los resultados y modelos generados lo más rápidamente posible. Las facetas que permiten una aplicación rápida del resultado son, la simplicidad y el beneficio esperado. Es decir, en la medida en que un output resulte más fácil de interpretar, de comprender y de transformar en conocimiento aplicado al negocio, tendrá un mayor valor para el decisor. El COEFICIENTE DE SIMPLICIDAD [Berson y Smith, 1997, 481] ayudará a medir dicho constructo. Nuevamente se trata de una medida subjetiva, establecida por parte del decisor. Una forma sencilla de hacerlo más objetivo es midiendo la forma en que se produce la respuesta y para ello establecer un listado de categorías ordenadas. Una variante objetiva de simplicidad comentada por Berry y Linoff [1997, 98], a la que denominan longitud de descripción mínima, es contar el número de bits necesarios para codificar cada regla y el conjunto de excepciones a la misma. Así, aquella regla que ocupa un menor número de bits será la más valorada. El último conjunto de índices que vamos a comentar, y no menos importantes, es la TIR o tasa de retorno, el VAN o Valor Actual Neto y el BENEFICIO [Berson y Smith, 1997, 511; Berry y Linoff, 1997, 109; Edelstein, 1998 y 2000a]. En definitiva, tratamos de medir una única cosa, el valor que aporta la información aplicada al negocio. Hemos de comparar, por tanto, los costes e ingresos que supone la aplicación del modelo o resultados obtenidos, con la situación en que decidimos sin contar con la información suministrada por la minería de datos. Desde nuestro punto de vista resulta más conveniente un empleo conjunto de todos los coeficientes presentados, para conocer el posible interés e impacto de un proceso minería de datos. El decisor tiene la oportunidad de filtrar las reglas y resultados obtenidos en el proceso de análisis por cada uno de los coeficientes calculados en la fase de evaluación. La prueba del modelo generado en el negocio es el último paso en la validación, y el que realmente establecerá la valía del proceso de minería de datos. 5. REFLEXIONES FINALES E IMPLICACIONES DE NEGOCIO. La minería de datos es una problemática de reciente incursión en los negocios o no menos incipiente preocupación en el marketing. Ello es un factor determinante del escaso, y en ocasiones erróneo, conocimiento de la minería de datos y de su reducido desarrollo, manifiesto en la medición de la eficiencia del resultado. Del trabajo extraemos las siguientes conclusiones: No existe una única definición de minería de datos, ni siquiera una mayoritariamente aceptada, lo que impedirá identificar las técnicas de análisis que, de manera unívoca, la integran. Consideramos, desde un punto de vista práctico, que la minería de datos es un proceso (incluido en un software): automático o semiautomático para el descubrimiento de información orientada a la toma de decisiones a partir de grandes volúmenes de datos, combinando la facilidad de uso con la integrabilidad entre técnicas y con los sistemas empresariales. Como bien indican Ainslie y Drèze [1998], Groth [2000, 61] o Luque Martínez, [2000] la minería de datos no sustituye a la estadística "clásica", sino que la complementa.

11 Una de las principales ventajas citadas en las herramientas de minería de datos es su facilidad de uso, siendo necesario, además, un conocimiento adecuado de los distintos algoritmos empleados, puesto que no todos ofrecen los mismos resultados ni con la misma eficiencia. La utilidad de la minería de datos se reduce en la medida en que no se evalúen adecuadamente los resultados que genera. Ello supone obtener indicadores sobre 4 facetas del resultado: bondad de ajuste, relevancia, novedad y aplicabilidad. El cálculo de estas medidas permitirá cumplir con las promesas que realiza la minería de datos a través de su definición. Resulta conveniente dedicar esfuerzos al establecimiento de medidas de evaluación del resultado en minería de datos que permitan la comparación entre aquellos generados por distintas herramientas. Este estudio ayudará, a todos aquellos académicos y profesionales que se estén planteando estudiar y/o utilizar la minería de datos, a identificar sus potencialidades reales y las distintas corrientes que aparecen en la literatura sobre la temática. Resulta de especial relevancia la ordenación propuesta de medidas de evaluación del resultado, puesto que las mismas constituyen uno de los puntos clave en la obtención de información valiosa del proceso de minería de datos en los negocios, y un elemento esencial para su utilización en el ámbito académico. Proponemos avanzar en la comparación entre el rendimiento de los distintos algoritmos procedentes de la Inteligencia Artificial, así como en su comparación con las técnicas tradicionales de análisis, aspecto que abordaremos en el futuro. Además, el preproceso de los datos en cada técnica y el desarrollo de medidas de evaluación de los resultados son dos aspectos que requieren de un mayor tratamiento en la literatura. BIBLIOGRAFÍA. Ainslie, A.; Drèze, X. (1996): "Data Mining: Using Neural Networks as a Benchmark for Model Building", Decisions Marketing, invierno. Aluja, T. (2000): "Los nuevos retos de la estadística, el Data Mining", Investigación y Marketing, nº 68, págs Anand, S.S.; Patrick, A.R.; Hughes, J.G.; Bell, D.A. (1998): "A Data Mining methodology for cross-sales", Knowledge-Based Systems, nº 10, págs Berry, M.J.A.; Linoff, G. (1997): Data mining techniques: for marketing, sales and customer support. Ed. John Wiley & Sons, Inc. Nueva York. Berson, A.; Smith, S.J. (1997): Data Warehousing, Data Mining, & OLAP. Ed. McGraw-Hill. Nueva York. Büchner, A.G.; Anand, S.S.; Mulvenna, M.D.; Hughes, J.G. (1999): "Discovery Internet marketing intelligence through web log mining", Proc. Unicom99 Data Mining & Datawarehousing: Realising the full Value of Business Data, págs Cabena, P.; Hadjinian, P; Stadler, R.; Verhees, J.; Zanasi, A. (1997): Discovering Data Mining: from Concept to Implementation. Ed. Prentice Hall. Upper Saddle River, NJ. Delmater, R.; Hancock, M. (2001): Data Mining Explained. Ed. Digital Press. Woburn, MA. Deshpandè, R. (1999): "What Are the Contributions of Marketing to Organizational Performance and Societal Welfare?", Journal of Marketing, vol. 63, Special Issue, págs Dhar, V.; Stein, R. (1997): Seven Methods for Transforming Corporate Data Into Business Intelligence. Ed. McGraw-Hill. Upper Saddle River, NJ. Drucker, P. F. (1993): Post Capitalist Society. Oxford: Butterworth Heinemann. Edelstein, H. (1996): "Data mining: exploiting the hidden trends in your data", DB2 Magazine, verano. Edelstein, H. (1997): "Mining for gold", Information Week, abril. Edelstein, H. (1998): "Data mining - let's get practical", DB2 Magazine, verano. Edelstein, H. (1999): "A preprocessing prescriptive", Teradata Review, verano. Edelstein, H. (2000a): "Building Profitable Customer Relationship With Data Mining", disponible en Edelstein, H. (2000b): "Mining Large Databases - A Case Study", disponible en Fayyad, U.M. (1997): "Editorial", Data Mining and Knowledge Discovery, vol. 1, nº 1, págs Feelders, A.; Daniels, H.; Holsheimer, M. (2000): "Methodological and practical aspects of data mining", Information & Management, nº 37, págs Forcht, K.A.; Cochran, K. (1999): "Using data mining and datawarehousing techniques", Industrial Management & Data Systems, vol. 99, nº 5, págs Frawley, A.; Thearling, K. (1999): "Increasing Customer Value by Integrating Data Mining and Campaign Management Software", Direct Marketing Magazine, febrero, págs Gargano, M.L.; Raggad, B.G. (1999): "Data mining - a powerful information creating tool", OCLC Systems & Services, vol. 15, nº 2, págs Gilman, M. (1999): "White paper", disponible en diciembre. Greening, D.R. (2000): "Data mining on the web", Web Techniques, enero. Groth, R. (1998): Data mining. Ed. Prentice Hall PTR. Upper Saddle River, NJ. Groth, R. (2000): Data mining: building competitive advantage. Ed. Prentice Hall PTR. Upper Saddle River, NJ. Han, J.; Kamber, M. (2001): Data mining: concepts and techniques. Ed. Morgan Kaufmann Publishers. San Francisco Han, J.; Lakshmanan, L.; Ng, R.T. (1999): "Constraint-Based, Multidimensional Data Mining", Computer, vol. 32, agosto, nº 8, págs Hermiz, K.B. (1999): "Critical success factors for data mining projects", DM Direct, febrero. Hui, S.C.; Jha, G. (1999): "Data mining for customer service support", Information & Management, nº 38, págs Kimball, R.; Merz, R. (2000): The Data Webhouse Toolkit. Ed. John Wiley & Sons, Inc. Nueva York. Kotler, P.; Cámara, D.; Grande, I.; Cruz, I. (2000): Dirección de Marketing. Edición del Milenio. (10ª Edición). Ed. Prentice Hall. Madrid. Lan, B.; Bressan, S.; Chin Ooi, B.; Tay, Y. (1999): "Making web servers pushier", Proceedings Workshop on Web Usage Analysis and User Profiling (WEBKDD'99), agosto. Leeds, S. (2000): "Data Mining: Beware of the Shaft", Direct Marketing, enero, págs

12 Leverick, F.; Littler, D.; Wilson, D.; Bruce, M. (1997): "The role of IT in the reshaping of marketing", Journal of Marketing Practice: Applied Marketing Science, vol. 3, nº 2, págs Luque Martínez, T. (2000): Proyecto de Investigación a plaza de catedrático. Universidad de Granada. Septiembre. Trabajo no publicado. Malhotra, N.K.; Peterson, M. (2001): "Marketing research in the new millenium: emerging issues and trends", Marketing Intelligence & Planning, vol. 19, nº 4, págs Mannila, H. (1997): "Methods and problems in data mining", Proceedings of International Conference on Database Theory (ICDT'97), Delphi, Grecia, enero. McLeod, R. (2000): Sistemas de Información Gerencial. (7ª Edición). Ed. Prentice Hall PTR. Mexico. Mena, J. (1999): Data Mining your Website. Ed. Digital Press. Boston. Mobasher, B.; Jain, N.; Han, E.; Srivastava, J. (1996): "Web Mining: Pattern Discovery from World Wide Web Transactions", Technical Report TR96-050, Department of Computer Science, University of Minnesota, septiembre. Morgan, W.; Chapple, T. (1999): "Report on data mining and data visualisation", disponible en: Moxon, B. (1996): "Defining data mining", DBMS Data Warehouse Supplement, agosto. O'Brien, T.V.; Schoenbachler, D.D.; Gordon, G.L. (1995): "Marketing information systems for consumer products companies: a management overview", Journal of Consumer Marketing, vol. 12, nº 5, págs Padmanabhan, B.; Tuzhilin, A. (1999): "Unexpectedness as a measure of interestingness in knowledge discovery", Decision Support Systems, nº 27, págs Peacock, P.R. (1998a): "Data Mining in Marketing: part 1", Marketing Management, vol. 16, invierno, nº 4, págs Peacock, P.R. (1998b): "Data Mining in Marketing: Part 2", Marketing Management, primavera, págs Pei, J.; Han, J.; Mortazavi-asl, B.; Zhu, H. (2000): "Mining Access Patterns Efficiently from Web Logs", Proc Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD'00), Kyoto, Japan, abril. Pyle, D. (1999): Data Preparation for Data Mining. Ed. Morgan Kaufmann Publishers. San Francisco, California. Sánchez Fernández, J. (2001): Sistemas de información en las organizaciones: el EDI en los canales de distribución. Ed. Pirámide. Madrid. Small, R.D.; Edelstein, H. (1997): "Scalable data mining", Intelligent Information Systems, 8, págs Spiliopoulou, M.; Faulstich, L. (1998): "WUM: a Web Utilization Miner", Workshop on the Web and Data Bases (WebDB98), págs Spiliopoulou, M.; Faulstich, L.; Winkler, K. (1999): "A data miner analyzing the navigational behaviour of Web", Proc. of the Workshop on Machine Learning in User Modelling of the ACAI'99 Int. Conf., Creta, Grecia, julio. SPSS Inc. (1999): Data Mining with Confidence. Ed. SPSS Inc. Srivastava, J.; Cooley, R.; Deshpande, R.; Tan, P. (2000): "Web Usage Mining: discovery and applications of usage patterns from Web data", ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, vol. 1, nº 2, págs Stair, R.; Reynolds, G. (2000): Principios de Sistemas de Información. Ed. International Thomson Editores. México, D.F. Sugumaran, V.; Bose, R. (1999): "Data analysis and mining environment: a distributed intelligent agent technology application", Industrial Management & Data Systems, vol. 99, nº 2, págs Talvinen, J.M. (1995): "Information systems in marketing", European Journal of Marketing, vol. 29, nº 1, págs Weiber, R.; Kollmann, T. (1998): "Competitive advantages in virtual markets-pespectives of "information-based marketing" in cyberspace", European Journal of Marketing, vol. 32, nº 7/8, págs Wright, M.; Ashill, N. (1998): "A contingency model of marketing information", European Journal of Marketing, vol. 32, nº 1/2, págs Zaïane, O.R.; Xin, M.; Han, J. (1998): "Discovery Web access patterns and trends by Applying OLAP and data mining technology on Web Logs", Proceedings of Advances in Digital Libraries, abril.