Agrupamiento en Grandes Bases de Datos vía la Reducción Estadística del Espacio de Búsqueda

Transcripción

1 Association for Information Systems AIS Electronic Library (AISeL) AMCIS 007 Proceedings Americas Conference on Information Systems (AMCIS) Agrupamiento en Grandes Bases de Datos vía la Reducción Estadística del Espacio de Búsqueda Ignacio Ania ITAM Angel Kuri ITAM Follow this and additional works at: Recommended Citation Ania, Ignacio and Kuri, Angel, "Agrupamiento en Grandes Bases de Datos vía la Reducción Estadística del Espacio de Búsqueda" (007). AMCIS 007 Proceedings. Paper This material is brought to you by the Americas Conference on Information Systems (AMCIS) at AIS Electronic Library (AISeL). It has been accepted for inclusion in AMCIS 007 Proceedings by an authorized administrator of AIS Electronic Library (AISeL). For more information, please contact

2 Agrupamiento en Grandes Bases de Datos vía la Reducción Estadística del Espacio de Búsqueda Ángel Kuri Instituto Tecnológico Autónomo de México Ignacio Ania Instituto Tecnológico Autónomo de México Resumen Dada la necesidad actual de mejorar la relación con los clientes y dado el tamaño cada vez mayor de las bases de datos de las empresas, se han desarrollado nuevos enfoques para el agrupamiento (clustering o aprendizaje no supervisado) de grandes bases de datos. En este artículo se describe una metodología basada en la idea de que en la práctica es posible utilizar un espacio de búsqueda reducido si se logra la adecuada caracterización de distribuciones muestrales. Se generan dos modelos de agrupamiento: uno que corresponde a los datos originales y otro a subconjuntos muestrales. Las distribuciones empíricas resultantes se verifican matemáticamente para atestiguar una aproximación no lineal con alta significación estadística. Por último, como caso de estudio se analiza la aplicación a una empresa que obtiene ventajas competitivas derivadas de la mejor caracterización de los perfiles clientelares. Palabras clave: Grandes bases de datos, Reducción del espacio muestral, Preprocesamiento, Agrupamiento, Caracterización del cliente.. Introducción La minería de datos (MD) es una estrategia computacional para buscar información nueva, valiosa y no trivial. Cada vez es más variado el tipo de aplicaciones propuestas. La biblioteca electrónica de la Association for Information Systems contiene más de 70 artículos al respecto. Tan sólo en la XII Americas Conference on Information Systems (AMCIS 006) se presentaron un taller y siete artículos referentes a MD. Algunos ejemplos son: el uso de MD para identificar patrones inusuales de acceso a las bases de datos, como señal de posibles accesos no autorizados (Yassin et al. 006); la integración de MD y minería de texto para mejorar la toma de decisiones (Li y Wu 006); el empleo de MD en las grandes organizaciones, a fin de utilizar más eficientemente los recursos asignados a la función de soporte técnico (McCann y Kletke 006); y el uso de MD para que los profesores puedan identificar agrupamientos de estudiantes, a fin de darles atención personalizada (Durfee et al. 006).

3 Sin embargo, las historias de éxito referentes al uso de MD tienden a no ser publicadas (Skillicorn 999) y esto se debe a que gran parte de las empresas comerciales que están investigando los beneficios potenciales de la MD lo están haciendo en forma estratégica, es decir, buscan desarrollar ventajas competitivas utilizando MD para conocer mejor a sus clientes, sus necesidades, sus preferencias, sus patrones de uso de los productos o servicios que compran, su comportamiento crediticio. En algunos casos la intención es identificar clientes a los que les pueden vender productos y servicios adicionales. En otros, el propósito es tomar mejores decisiones respecto al otorgamiento o negación de crédito. Pero el objetivo común es incrementar las utilidades y reducir el riesgo. Un número cada vez mayor de empresas comerciales (a las que nos referiremos como la compañía ) están importantemente orientadas a la mejora continua de las relaciones con sus clientes. Dada la creciente influencia de los sistemas de administración de la relación con los clientes (CRM), el esfuerzo de conocer mejor al cliente implica la acumulación de enormes bases de datos (BDs) en las que se almacena gran cantidad de información. Las bodegas de datos proveen información detallada de la historia del cliente, su realidad comercial y otros aspectos de su comportamiento, y constituyen la columna vertebral informática de cualquier empresa sólidamente establecida. Sin embargo, de cada paso tomado por la compañía y de cada nuevo enlace con sus clientes se incrementa el volumen de los datos necesarios. De esta manera, las BDs van creciendo inexorablemente en registros y tablas, y analizar su contenido se vuelve una tarea difícil. Este problema se aborda frecuentemente usando técnicas de MD, entre las que se encuentra el agrupamiento (clustering), que es una de las más importantes. Pero tratar de encontrar los agrupamientos en una BD de varios terabytes con millones de registros resulta en un esfuerzo costoso y no siempre fructífero. Ha habido muchos esfuerzos para llevar a cabo eficientemente esta tarea; por ejemplo, usando computación paralela, optimizando los algoritmos de agrupamiento a través de computación en mallas de computadoras (Skillicorn 999). Pero aún los métodos más eficientes son insuficientes cuando se ataca el problema de agrupamiento para el tipo de BDs mencionadas. Para obtener la mejor información de estas BDs es necesario usar una estrategia especialmente diseñada para el análisis de grandes volúmenes de datos. En este artículo presentamos una metodología derivada de un proyecto en el que fue necesario encontrar una solución práctica al proceso de agrupamiento automático de una BD de una empresa, de tamaño considerable (más de 0 millones de clientes). Enfatizamos el uso de métodos estadísticos para reducir el espacio de búsqueda, así como el tratamiento dado a la información proveniente de múltiples tablas de múltiples BDs. Por asuntos de confidencialidad el nombre de la compañía y los resultados finales de detalle se mantienen privados... Agrupamiento en grandes bases de datos En la MD, el agrupamiento consiste en procesar grandes volúmenes de datos para obtener grupos cuyos elementos exhiben pequeñas diferencias (bajo alguna métrica) entre ellos y, por contra, mayores diferencias respecto a elementos de otros grupos. Dada su importancia como un paso básico de la MD, el agrupamiento ha sido objeto de múltiples esfuerzos de investigación y diseño, y ha demostrado su utilidad en múltiples contextos (Palpanas 000). Muchas técnicas y algoritmos de agrupamiento se han desarrollado, mejorado y aplicado (Ahmed et al. 998, Jain et al. 999, Silva y Pires 00). Algunas tratan de facilitar el procesamiento de grandes BDs, como en (Berkhin 00) y en (Kleinberg et al. 004). Por otro lado, los métodos llamados Divide y Merge (Guha et al. 998) o Snakes y Sandwiches (Peter et al. 003) se refieren a agrupar considerando el almacenamiento físico de los registros de la BD.

4 .. Técnicas de agrupamiento Existen diversas técnicas de agrupamiento. Todas ellas pertenecen a los métodos algorítmicos de análisis de datos. De entre los muchos enfoques para el desarrollo de clasificadores están los siguientes: Agrupamiento iterativo Agrupamiento jerárquico aglomerativo Agrupamiento jerárquico divisivo La primera meta del agrupamiento es encontrar estructuras contenidas en los grupos de datos. Usualmente, estas estructuras son clases a las que son asignados los objetos del conjunto de datos. El resultado del proceso de clasificación desemboca en el desarrollo de un clasificador. Los objetos de los cuales se desconoce la clase se asignan a las mismas usando el clasificador encontrado. El agrupamiento clásico asigna cada objeto a una y sólo una clase; en tanto que en el agrupamiento difuso los objetos se asignan a varias clases con distintos grados de pertenencia en cada una de ellas. Para construir un clasificador, K objetos X k (k=,..., K), descritos por N rasgos con los atributos X k,n (n=,..., N) se comparan vía medidas de similitud. Los objetos involucrados pueden ser estados de un proceso, moléculas, partes de máquinas, clientes de una empresa, etc. Si un proceso se considera como un objeto en una secuencia temporal, los valores medidos en tiempos diferentes se consideran como las características medidas. Por ejemplo, la variable V(t) y la variable V(t+k) serían diferentes características para t=,, k. En el caso de agrupamiento iterativo las posiciones de los centros de agrupamiento se mejoran consecutivamente. Un ejemplo de este tipo de agrupamiento es el agrupamiento usando medias difusas (Kuri 004). Los métodos jerárquicos, por otro lado, producen una jerarquía de posibles particiones (Miyamoto 990). En este caso, dos enfoques son posibles: a) Cada objeto representa un grupo propio. Los grupos son, entonces, sucesivamente aglutinados hasta que el número de grupos deseados se alcanza. A este proceso se le llama agrupamiento aglomerativo. Una forma especial de lograr este efecto se describe en (Bocklisch 987). b) Todos los objetos pertenecen inicialmente a un solo grupo. Nuevos (sub) grupos se crean entonces de manera sucesiva, conduciendo a una estructura de grupos más significativa. Este procedimiento se llama agrupamiento jerárquico divisivo (Dumitrescu 988) y divide los grupos existentes en nuevos grupos. Otras formas de agrupamiento pueden consultarse en (Höppner et al. 998). Un aspecto importante que debe anteceder al agrupamiento es la adecuada elección de la medida de similitud. Virtualmente todas las técnicas de agrupamiento suponen que los valores de las características en la matriz de datos que describen los objetos son numéricas, a fin de permitir que se haga dicha medición. Esto es así para poder determinar si dos objetos X i y X j son similares entre sí. Cuando puede suponerse que hay datos métricos suele usarse una distancia Euclidiana. Esa medida se usó en los datos que se ejemplifican en los apartados subsecuentes. En general puede definirse una familia de métricas de acuerdo con la siguiente ecuación: N d ij = x i,n x j,n n= 3 /g g

5 Con g= se obtiene la suma de las distancias paraxiales absolutas. La distancia Euclidiana nace cuando g=. Con g=o se encuentra la máxima distancia paraxial. Como ilustración de lo anterior, las isolíneas para varios valores de g en un espacio bidimensional se muestran en la figura siguiente. Todos los puntos de la isolínea (i.e. para una g fija) tienen la misma distancia al origen. Una medida alternativa de distancia es la de Mahalanobis (Späth 975). Esta distancia considera las relaciones entre los rasgos. Siendo la covarianza a n,n para los rasgos n y n la distancia d ij entre dos objetos Xi y Xj tenemos: ( n )( n ) K K a n = x x n k,n k,n ; n K i = x k,ni k= K k= dij = N N b n,n x i,n n n ( )( ) x j,n x i,n x j,n En donde bn,n es el elemento correspondiente al inverso de la matriz de covarianzas; K es el número de objetos en la muestra y N es el número de rasgos. Aplicando la distancia de Mahalanobis las correlaciones entre los rasgos se eliminan. En términos concretos, los rasgos reciben menos importancia mientras más alta es su correlación con otros rasgos. Es decir, los rasgos menos correlacionados entre sí tienen mayor importancia. El método que desarrollamos y se describe a continuación, sin embargo, es independiente de la forma de lograr los agrupamientos. De esta manera, pues, nuestra contribución puede considerarse universal en ese sentido: el de su independencia a la forma de alcanzar la determinación de los grupos..3. Muestreo y análisis multivariado El muestreo es la técnica estadística para elegir un cierto número de elementos de una población a ser incluidos en un subconjunto representativo de datos llamado la muestra. Existen dos tipos básicos: probabilísticos y determinísticos. Para cada una de estas categorías existen variantes. Los probabilísticos más conocidos incluyen a) muestreo aleatorio uniforme, b) muestreo sistemático y c) muestreo estratificado. Los no probabilísticos, por otro lado, incluyen métodos como a) el muestreo por conveniencia, b) el muestreo ponderado y c) el muestreo por cuotas. 4

6 El uso de muestreo en MD ha recibido ciertas críticas porque siempre existe la posibilidad de que éste afecte la capacidad algorítmica de encontrar pequeños grupos inmersos en los datos originales (Cheng et al. 005). Sin embargo, pequeños clusters no son significativos en nuestro estudio porque el objetivo principal de la compañía es encontrar clusters estratégicos (y, por tanto, grandes). Un cluster pequeño que pueda no ser incluido en la muestra no es relevante al objetivo de mejorar la relación de la compañía con sus clientes. Además de la teoría de muestreo implicada para reducir el espacio muestral adecuadamente, es necesario aplicar análisis multivariado. Hay muchas formas de efectuar este análisis, incluyendo la regresión multivariada, el análisis de componentes principales, el análisis de varianza y covarianza, y el análisis canónico de correlaciones, entre otras (Jagadish et al. 999). Aquí determinamos explícitamente la función que maximiza el coeficiente de correlación y simultáneamente minimiza el error estándar. Claramente, este enfoque requiere de un número suficientemente grande de modelos a considerar como se discute más adelante.. Metodología Para reducir el espacio muestral eficiente y eficazmente es necesario seguir los pasos que nos conduzcan a la representación y comportamiento adecuados de los datos, independientemente de su origen primario. Estos pasos son los siguientes. Preprocesamiento de datos Reducción del espacio muestral Validación de la muestra Agrupamiento y validación del número de grupos.. Preprocesamiento de datos Este paso incluye la depuración de los datos haciendo una búsqueda exhaustiva de datos incompletos, inconsistentes o faltantes (Delmater y Hancock 00). Esta depuración implica uno de los mayores costos de la minería de datos (Jackson 00), y es inevitable porque muchas de las reglas que son necesarias para mantener la integridad de la información, y que no pueden ser definidas explícitamente en los manejadores de bases de datos (DBMSs), se definen implícitamente en los programas que acceden a las bases de datos, y muy frecuentemente estas definiciones implícitas son incompletas e incluso antagónicas (Mermet y Ania 988). Además también es necesario transformar los datos no numéricos en numéricos. Como resultado de este preprocesamiento, los registros irrecuperables deben eliminarse. En el caso reportado, sin embargo, el número de registros eliminados no fue significativo. Dada la estructura de la BD utilizada en el trabajo que aquí se reporta, fue necesario transformar la estructura de múltiples tablas en una sola vista derivada. Para obtener esta vista se aplicó un proceso de desnormalización. Esta se desprendió de un análisis de la estructura de las llaves: tablas con la misma llave fueron fusionadas y aquellas con distintas llaves se incluyeron en las tablas referenciadas como columnas adicionales. La transformación resultó en una estructura con 45 atributos. Se trabajó con una población total de 400,000 registros elegidos de entre más de,000,000. 5

7 .. Reducción del espacio muestral Para reducir el espacio trabajamos con los datos originales y obtuvimos una muestra que no sólo es un subespacio sino también representa el conjunto de datos originales adecuadamente. Redujimos el conjunto vertical y horizontalmente para obtener la vista minable. Lógicamente esta reducción arroja la representación más pequeña de los datos originales. La reducción vertical nace del análisis multivariado mientras la horizontal se logra con métodos estadísticos tradicionales.... Reducción vertical Existen varias formas de reducir el número de variables. Aquí usamos un análisis de correlaciones de Pearson (r). La exploración de las variables se hizo en los datos originales. Obtuvimos una matriz de correlaciones de 45 variables. Consideramos (tras consultar con los expertos) que las variables con r 0.75 era redundantes. Así, solamente 9 variables se consideraron informacionalmente interesantes. Los datos correspondientes a las variables no correlacionadas se usaron como un filtro. En principio, de un conjunto de variables correlacionadas sólo una es necesaria para efectos de análisis y cuál de ellas se conserva es irrelevante. Las variables a retener en cada caso se escogieron por programa.... Reducción horizontal Aquí aplicamos muestreo aleatorio uniforme. El tamaño de la muestra fue definido por los criterios de los expertos de la compañía; de allí que 0% de los datos originales fue muestreado. De la muestra determinamos qué tan adecuada era la representación, como se describe a continuación..3. Validación de la muestra Para validar la muestra seguimos los siguientes pasos:. Elegir n muestras de tamaños iguales (aquí n = 5).. Elegir conjuntos de m variables para efectuar una prueba de bondad de ajuste. Elegimos parejas (m=) de variables para mostrar que, dentro de cada muestra, el comportamiento de las variables elegidas es estadísticamente equivalente en todas las muestras. 3. Buscar la mejor función regresiva. A este efecto analizamos programáticamente, en cada caso, 34 modelos (ver la tabla ) que van desde exponenciales hasta otros diseñados ad hoc. De estos escogimos aquel que exhibió el mayor coeficiente de correlación de Pearson. 4. Llevar a cabo los pasos y 3 en tanto haya variables a evaluar. Hacemos notar que, puesto que el proceso de ajuste de datos de n a variables V k = f(v, V,..., V k, V k +,..., V n ) no es un proceso trivial (ver Kuri et al. 005), aquí el proceso se simplificó efectuando un análisis de variables de a. Por ejemplo, el par (,0) nace de la elección de los rasgos y 0. Entonces se encontró la relación funcional del rasgo con el rasgo 0 (es decir, V 0 =f(v )). De la misma manera, se eligieron diversas combinaciones de tales pares (ver abajo). Puesto que nuestra principal preocupación es la de constatar que las relaciones funcionales entre pares de rasgos son independientes de las muestras, el asunto fundamental consiste en: a) Encontrar qué tipo de relación funcional es la óptima para una pareja de rasgos y b) Establecer que las mejores relaciones de esta índole se satisfacen para cualquier submuestra. Este proceso es simple (aunque laborioso) e implica la programación de todos los funcionales (modelos) considerados como candidatos. La descripción de los funcionales se puede encontrar en la tabla. Así pues, nuestro 6

8 método implica programar cada uno de los 34 funcionales a fin de alimentar posteriormente cada modelo con los datos de las parejas y así evaluar el comportamiento equivalente en cada submuestra. Tabla. Modelos Regresivos Evaluados Familia Modelo Ecuación Lineal y a += bx Cuadrático a bx ++ cx Polinomio de Orden n 3 a + bx + cx + dx +... Familia Exponencial Exponencial bx ae Exponencial modificado b / x ae Familia de Ley de Potencias Modelos de Rendimiento-Densidad Modelos de Crecimiento Modelos Sigmoidales Logarítmico Log Recíproco Modelo de Presión de Vapor Potencia Potencia Modificada Potencia Desplazada Geométrico Geométrico Modificado Raíz Modelo de Hoerl Modelo Modificado de Hoerl Recíproco Recíproco Cuadrático Modelo de Bleasdale Modelo de Harris 7 a + b ln x a + b ln x a+ b / x+ c ln x e b ax x ab a( x b) bx ax b ax ab / x / x c ab x x ab / x c x c ax + b a + bx + cx ( a + bx) ( a + bx / c Tasa de Saturación ax b + x Asociación Exponencial bx a( e ) Asociación Exponencial 3 cx a( b e ) Relación de Gompertz Logístico Modelo de Richards Modelo MMF Modelo de Weibull ae bcx e c a + be a b ( + e ) cx ab + cx d b + x a be cx / d d d cx )

9 Misceláneos Familia Modelo Ecuación Hiperbólico y a += b x Sinusoidal a b cos( x ++ dc ) Capacidad de Calor Gaussiano Función Racional a bx ++ c x ae ( xb) c a + bx + cx + dx Las siguientes figuras ilustran en hecho de que varias funciones resultantes de variables pareadas arrojaron ajustes regresivos similares. Los datos mostrados en las figuras a y b se ajustan fuertemente usando el modelo MMF; aquellos de las figuras a y b se ajustan por un polinomio de grado 4; finalmente, los datos de las figuras 3a y 3b ajustan muy bien con una función racional. Interesantemente, el coeficiente de correlación de los tres pares es mayor que 0.93 indicando la alta calidad del ajuste. Vemos, por tanto, que las muestras exhiben equivalencia estadísticamente significativa (por limitaciones de espacio, nos es imposible mostrar todos los datos del conjunto; sin embargo, resultados muy similares se aplican en todos los casos). Por otra parte hacemos notar que cuando la comparación se hace entre diferentes parejas obtenemos ajustes óptimos con diferentes modelos. Esto refuerza nuestra hipótesis de que variables distintas se distribuyen diferentemente aunque las muestras se comportan equivalentemente. Una posible hipótesis que este hecho excluye es que todas las variables se distribuyen de igual forma. Si este fuera el caso TODOS los modelos serían similares y no podría derivarse ninguna conclusión significativa de nuestras observaciones Puede argumentarse, en primera instancia, que los altos coeficientes de correlación contradicen el hecho de que nuestras variables se derivan de la eliminación de tales correlaciones. Nótese, sin embargo, que aún si las variables con las que trabajamos no están correlacionadas (como se discutió arriba) esta no-correlación es lineal (como se sigue del uso del coeficiente de Pearson) en tanto que los modelos considerados aquí son altamente no lineales, lo que resuelve la aparente contradicción. (a) (b) Fig.. Ajustes Regresivos. (a) Modelo MMF para la muestra. (b) Modelo MMF para la muestra (a) (b) 8

10 Fig.. Ajustes Regresivos. (a) Polinomio de 4º grado para la Muestra. (b) Polinomio de 4º grado para la Muestra (a) (b) Fig. 3. Ajustes Regresivos. (a) Función Racional para la Muestra. (b) Función Racional para la Muestra La probabilidad de obtener al azar resultados como los que aquí se muestran es menor que 0 -. Queremos enfatizar el hecho de que este análisis es posible sólo porque pudimos caracterizar numéricamente cada uno de los subconjuntos de 34 formas diferentes y elegir después la mejor de ellas. Además, no solamente hemos demostrado caracterización; también mostramos que, en cada caso, dicha caracterización fue similar cuando debía serlo y no lo era en otros casos..4. Agrupamiento y validación del número de grupos Una vez que el espacio muestral ha sido reducido se llega a la fase de agrupamiento. Imponemos los siguientes criterios: a) Los agrupamientos debe realizarse automáticamente (sin aplicar reglas apriorísticas). b) El mejor número (N) de grupos debe derivarse de argumentos de teoría de la información. El valor teórico de N debe ser validado empíricamente del análisis de los grupos por parte de los expertos. Para satisfacer estos criterios se requieren los siguientes pasos: a) Consecutivamente obtener los agrupamientos (vía el algoritmo de Promedios C Difusos) con n grupos, donde n=, 3,., k; y k representa el número de grupos máximo deseable. 9

11 b) Determinar el número óptimo de grupos de acuerdo con el criterio del codo (Bezdek 974) PC PE Fig. 4. Ilustración del Codo para los Datos de la Muestra La figura 4 muestra la gráfica en donde el punto del codo se localiza entre el grupo 6 y el grupo 7, indicando que hay una alta probabilidad de que el número óptimo de grupos se encuentre allí, i.e. N=6. PE es la entropía total de cada partición o agrupamiento; PC es una medida que indica qué tan compactos son los grupos. 3. Validación del espacio de búsqueda reducido Para validar que el proceso de reducción que desarrollamos en nuestra investigación, y que hemos presentado en este artículo, produce una muestra que representa al conjunto de datos originales (400,000 elementos es nuestro caso), primeramente calculamos los porcentajes relativos de miembros que constituyen cada uno de los 6 grupos cuando el agrupamiento se realiza utilizando los datos originales (Completo) y cuando se realiza con los datos de la muestra (Muestra). Los resultados se muestran en la tabla. En esta tabla se puede apreciar que el porcentaje de miembros en cada grupo es prácticamente el mismo, independientemente de que se utilice la muestra completa (400,000 registros) o la muestra reducida (80,000). La diferencia máxima es de 3%. Tabla. Comparación de Agrupamientos para los Datos Completos y Muestrales Completo Muestra Diferencia Grupos (%) (%) (%) A B 0 C D 5 3 E 0 F 8 0 0

12 Asimismo, para determinar si el agrupamiento no sólo mantenía los porcentajes de miembros (como se ilustra en la tabla ) sino también reunía a los mismos elementos de cada grupo, independientemente de que se realizara con los datos completos o con la muestra reducida, etiquetamos cada uno de los elementos de cada grupo cuando efectuamos el agrupamiento con la muestra reducida (Modelo ) y cuando lo hicimos con los datos completos (Modelo ). El resultado se muestra en la Tabla 3. Nuevamente, la diferencia entre los grupos derivados de la población total y aquellos derivados de la muestra resultó ser igual o menor que 3%. Tabla 3. Comparación entre Grupos de Datos Muestrales y Completos Agrupamiento de la Muestra Agrupamiento de la Población Grupo Modelo Modelo Difer. %Pob. Modelo Modelo Difer. %Pob. A % % B % % C % % D % % E % % F % % 4. Conclusiones Como se discutió en la introducción, la MD puede dar importantes ventajas competitivas a las empresas que la utilizan. Pero el manejo de grandes BDs (tanto física como lógicamente) puede convertirse en un problema práctico de grandes proporciones y difícil solución. Aplicando la metodología que aquí se propone es posible disminuir drásticamente el tamaño de la BD a procesar. En el caso reportado se logró una reducción de 93.78%, pues en vez de tener que trabajar con 66 millones de elementos (es decir, 400,000 registros con 45 atributos cada uno), utilizamos una muestra de 0.3 millones (80,000 registros con 9 atributos), y la muestra reducida arrojó resultados estadísticamente indistinguibles de los derivados de los datos originales. Además del beneficio que resulta de tener más rápidamente información para tomar decisiones que pueden representar una importante ventaja competitiva, el uso de esta metodología produce beneficios económicos significativos que resultan de la disminución del poder de cómputo requerido para procesar una muestra de datos mucho menor (velocidad y capacidad de procesamiento de información, cantidad de memoria, costo del software y costos de mantenimiento, entre otros). Teniendo en cuenta que la empresa se vio importantemente beneficiada con la aplicación de los resultados de esta investigación, consideramos que vale la pena seguir explorando estas técnicas en casos con características análogas.

13 Referencias Ahmed, K. M., El-Makky, N. M. y Taha, Y. Effective Data Mining: a Data Warehouse-Backboned Architecture, Proceedings of the 998 Conference of the Centre for Advanced Studies on Collaborative Research, Toronto, noviembre 30-diciembre 3, 998, pp. -. Berkhin, P. Survey of Clustering Data Mining Techniques, en J. Kogan, C. Nicholas y M. Teboulle (Eds.), Grouping Multidimensional Data: Recent Advances in Clustering, The Netherlands: Springer, 00, pp Bezdek, J. C. Cluster Validity with Fuzzy Sets, Journal of Cybernetics 3, 974, pp Bocklisch, S.F. Prozeßanalyse mit unscharfen Verfahren, Berlin: Verlag Technik, 987. Cheng, R. Kannan, S. Vempala y G. A Divide-and-Merge Methodology for Clustering, 4th Annual ACM Symposium on Principle of Database Systems, Baltimore, junio 3-6, 005, pp Delmater, R. y Hancock, M. Data Mining Explained: A Manager's Guide to Customer-Centric Business Intelligence, capítulo 6, Boston: Digital Press, 00. Dumitrescu, D. Hierarchical Pattern Classification, Fuzzy Sets and Systems 8, 988, pp Durfee, A., Schneberger, S. y Amoroso D. A Visual Data Mining Approach to Understanding Students Using Computer-Based Learning Technology, Proceedings of the th Americas Conference on Information Systems, Acapulco, agosto 4-6, 006, pp Guha, S., Rastogi, R. y Shim, K. CURE: An efficient clustering algorithm for large databases, Proceedings of the ACM SIGMOD International Conference on Management of Data, 73-84, Seattle, junio -4, 998, pp Höppner, F., Klawonn, F., Kruse, R. y Runkler, T. Fuzzy Cluster Analysis, Chichester: John Wiley & Sons, 999. Jackson, J. Data Mining: A Conceptual Overview, Communications of the Association for Information Systems (8), 00, pp Jagadish, H.V., Lakshmanan, L.V. y Srivastava, D. Snakes y Sandwiches: Optimal Clustering Strategies for a Data Warehouse, Proceedings of the Association for Computing Machinery SIGMOD International Conference on Management of Data, Philadelphia, junio -3, 999, pp Jain, K., Murty, M. N. y Flynn, P.J. Data Clustering: A Review, ACM Computing Surveys (3:3), septiembre, 999, pp Kleinberg, J., Papadimitriou, C. y Raghavan, P. Segmentation Problems, Journal of the Association for Computing Machinery (5:), marzo, 004, pp Kuri-Morales, A. Automatic Clustering with Self-Organizing Maps and Genetic Algorithms II: an Improved Approach, WSEAS Transactions on Systems (3:) enero 4, 004, pp Kuri-Morales, A. y Juárez-Almaraz, F. Genetic Multivariate Polynomials: an Alternative Tool to Neural Networks, en M. Lazo y A. Sanfeliu (Eds.), Lecture Notes in Computer Science: No. 3773, Berlin: Springer-Verlag, 005, pp Li, Q. y Wu, Y. Information Mining: Integrating Data Mining y Text Mining for Business Intelligence, Proceedings of the th Americas Conference on Information Systems, Acapulco, agosto 4-6, 006, pp McCann, C. y Kletke, M. Using Data Mining to Facilitate More Efficient Resource Allocation y Training for IT Support in Large Organizations, Proceedings of the th Americas Conference on Information Systems, Acapulco, agosto 4-6, 006, pp Mermet J. y Ania I. On the consistency of data in integrated CAD systems, en F. J. Rammig (Ed.), Tool integration y design environments, Amsterdam: North Holland, 988, pp. -. Miyamoto, S. Fuzzy Sets in Information Retrieval and Cluster Analysis, Dordrecht; Boston: Kluwer Academic Publishers, 990. Palpanas, T. Knowledge Discovery in Data Warehouses, ACM SIGMOD Record (9:3), septiembre, 000, pp Peter, W., Chiochetti, J. y Giardina, C. New unsupervised clustering algorithm for large datasets, Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery y Data Mining, Washington, D.C., agosto 4-7, 003, pp Silva, D. R. y Pires, M. T. Using Data Warehouse y Data Mining Resources for Ongoing Assessment of Distance Learning, Proceedings of the 00 IEEE International Conference on Advanced Learning Technologies, Kazan, Rusia, septiembre 9-, 00, pp Skillicorn, D. Strategies for Parallel Data Mining, IEEE Concurrency, octubre-noviembre, 999, pp Späth, H. Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion, Munich: Oldenbourg, 975. Yassin, A., Berndt, D. y Chiarini-Tremblay, M. Investigative Data Warehousing y Mining for Database Security, Proceedings of the th Americas Conference on Information Systems, Acapulco, agosto 4-6, 006, pp