Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos.

Transcripción

1 Escuela Técnica Superior de Ingeniería Informática Máster Oficial en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Autor: D. Álvaro Pita Martín Tutores: Dr. José C. Riquelme Santos Dr. Francisco Martínez Álvarez Convocatoria de Junio Curso 2011/2012

2 2

3 Título: Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Autor: Álvaro Pita Martín Tutor Cotutor Profesores de la asignatura Tribunal: Nombre:.. Firma: Nombre:.. Firma: Nombre:.. Firma: 3

4 4

5 Agradecimientos. Debo agradecer de manera especial a mi tutor, D. José C. Riquelme, por haber confiado en mi persona, y haber aceptado mi petición para realizar este proyecto. Su labor como docente, sus consejos y su capacidad para guiarme a lo largo de esta investigación, han sido un aporte excepcional, tanto en el desarrollo de esta memoria, como en mi propio desarrollo personal y profesional. A Francisco Martínez Álvarez, por su permanente disponibilidad, por el esfuerzo invertido, por animarme en el transcurso de este trabajo en los malos momentos y por lo más importante: brindarme la oportunidad de realizar este proyecto. Sin ti, este trabajo no habría sido posible, gracias amigo mío. A Alicia Troncoso Lora, por su disposición y ayuda, por su absoluta profesionalidad y por la dedicación empleada en este trabajo. Gracias por tus desinteresados consejos. Sin tus aportes, este proyecto tampoco habría sido posible. Por ultimo, mis más sinceros agradecimientos a mis más allegados, mi familia, por su incondicional apoyo, por estar siempre, en los buenos y en los malos momentos, por su cariño, y por demostrarme que siempre puedo contar con ellos, y a María, que ya forma parte de mi familia, por aguantarme a diario, por su paciencia, por su comprensión y por el amor que me brinda. A todos vosotros, gracias. 5

6 6

7 Resumen. Este trabajo final de Máster se incluye dentro de la disciplina de la Extracción Automática de Conocimiento (KDD, Knowledge Discovery in Databases) y más concretamente se centra en la etapa de Minería de Datos (MD). La MD es una de las áreas que más éxito y aplicación ha tenido a la hora de analizar información con el objetivo de extraer nuevo conocimiento. El objetivo de este trabajo es encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos en los que la representación del conocimiento esté basada en reglas de asociación. Concretamente, la extracción de reglas de asociación consiste en descubrir relaciones interesantes, y previamente inesperadas, entre los diferentes atributos de un conjunto de datos. Las reglas obtenidas pueden servir de ayuda para poder tomar posteriores decisiones en cualquier área en la que se esté trabajando. Además por la sencillez que presentan junto con el importante valor del conocimiento que se consigue extraer de los datos, hacen que el estudio de esta técnica sea continuo objeto de investigación. No existen muchos algoritmos en la literatura para encontrar este tipo de reglas, pero la mayoría de los trabajos se basan en modificaciones del algoritmo A Priori y en técnicas basadas en computación evolutiva y además la mayoría han sido aplicados a bases de datos con atributos discretos, mientras que en el mundo real existen numerosas bases de datos donde la información es numérica como por ejemplo las series temporales de eventos relacionados con desastres naturales como los terremotos. 7

8 8

9 Tabla de contenido Agradecimientos Resumen Lista de figuras Lista de tablas Introducción Objetivos Estructura de la memoria Contexto de investigación Minería de datos Qué es la minería de datos? Relación con otras disciplinas Etapas del proceso KDD Tareas de la minería de datos Aplicaciones Reglas de asociación Introducción Medidas de calidad de las reglas de asociación Reglas de asociación cuantitativas Algoritmo a priori Otros algoritmos de extracción de reglas de asociación Herramientas de uso de Reglas de Asociación Estado del arte Metodología Descripción del algoritmo Formalización del algoritmo Obtención de reglas de asociación raras Obtención de reglas de asociación compensadas Resultados Descripción de la base de datos Tablas de resultados Estrategia 1. Reglas de asociación raras Estrategia 2. Reglas de asociación compensadas Conclusiones

10 7 Bibliografía

11 Lista de figuras. Figura 1. Etapas del proceso KDD Figura 3. Estrategia1.txt. Ejemplo de resultados obtenidos Figura 4. Estrategia2.txt. Ejemplo de resultados obtenidos

12 12

13 Lista de tablas. Tabla 1. Base de datos de ejemplo Tabla 2. Datos de ejemplo Tabla 3. Conjunto de datos de ejemplo Tabla 4. Conjunto de datos ordenados de menor a mayor Tabla 5. Reglas obtenidas de forma aleatoria. Provisional Tabla 6. Reglas obtenidas de forma aleatoria. Definitiva Tabla 7. Reglas de asociación raras con consecuente Tabla 8. Reglas de asociación compensadas con consecuente Tabla 9. Reglas de asociación compensadas con consecuente Tabla 10. Reglas de asociación compensadas con consecuente

14 14

15 1 Introducción. Se presenta en este capítulo la motivación para realizar este trabajo de investigación. En concreto, este capítulo se dividirá en dos secciones. Una primera en la que se fijan los objetivos que se quieren cumplir y una segunda en la que se describe la estructura del resto de la memoria. 1.1 Objetivos. Este trabajo se centrará en los siguientes aspectos: Desarrollar una metaheurística para la extracción de reglas de asociación. Una de las principales características de esta técnica será su capacidad para trabajar con atributos continuos, a diferencia de la mayoría de algoritmos existentes en la literatura. Esta metaheurística de optimización estará basada en la función k-ésimo mayor y k- ésimo menor para obtener reglas de asociación en conjunto de datos con atributos numéricos. La metaheurística consiste en calcular los parámetros k de tal forma que las medidas que midan que la calidad de las reglas sean óptimas. Análisis de cuáles son las medidas a partir de las cuales se obtienen las reglas con mayor calidad y que, por tanto, mejor modelan a los datos estudiados. Para validar la calidad de la metaheurística, se aplicará a una base datos de terremotos. En concreto, se pretende predecir el comportamiento de series temporales de terremotos con las reglas de asociación obtenidas mediante un proceso automático. 1.2 Estructura de la memoria. La presente memoria se divide en los siguientes apartados: En el capitulo 2, Contexto de investigación, se describe el ámbito en el que se desarrolla el trabajo. Se estudia en primer lugar el área de la minería de datos, centrada en el proceso completo de extracción de conocimiento a partir de bases de datos. El capitulo se centra en aportar una visión general sobre la minería de datos a modo de introducción, relacionándola con otras disciplinas y estudiando las diferentes etapas que se acontecen en proceso de extracción de conocimiento a partir de bases de datos. Por ultimo, se desarrolla un breve estudio sobre las tareas y aplicaciones de la minería de datos. En el capitulo 2 además, se estudian las reglas de asociación, de forma que se describe de manera más amplia la parte de la minería de datos que se desarrolla posteriormente en la metodología y que supone foco de estudio de esta memoria. En este capitulo se estudian además las medidas de calidad utilizadas en la metodología, que permiten medir la calidad de las reglas de asociación. Por ultimo, se realiza un breve estudio sobre algunos algoritmos de extracción de reglas de asociación, como pueden ser el algoritmo A Priori, Eclat o FP Growth El capitulo 3, Metodología, se centra en el algoritmo desarrollado para este trabajo. Se desarrolla una explicación detallada del funcionamiento de este algoritmo, detallando cada una de las estrategias seguidas en la generación de reglas de asociación. Por un 15

16 lado, se detalla el proceso de generación de reglas de asociación raras. En segundo lugar, se detalla el proceso de generación de reglas de asociación compensadas. Por ultimo, se describe la formulación matemática para dicho algoritmo. En el capitulo 4, Resultados, se realizan una serie de experimentos con el fin de comprobar el algoritmo desarrollado. En este capitulo se describen los datos utilizados para la generación de los experimentos, así como los resultados obtenidos tanto en la generación de reglas de asociación raras como en la generación de reglas de asociación compensadas. En el capitulo 5, Conclusiones, se concluye la memoria del trabajo realizado, aportando unas pequeñas conclusiones sobre el trabajo llevado a cabo. Se presentan además algunas líneas de trabajos futuros. 16

17 2 Contexto de investigación. En este capítulo se proporciona el contexto en el que se ha desarrollado la investigación. Para ello, se hará una breve introducción a la minería de datos y al papel crucial que juega en el proceso conocido como Knowledge Discovery in Databases (KDD). A continuación, se presentarán las técnicas basadas en reglas de asociación, objetivo fundamental de este trabajo. En concreto, se formalizará el problema y se describirán las principales medidas que se utilizan para evaluar la calidad de dichas reglas. Se hará especial hincapié en aquellas técnicas que se centren en el manejo de atributos cuantitativos. 2.1 Minería de datos. En esta sección será estudiada el área de la Minería de datos centrada en el concepto de Minería de Datos dentro del proceso completo de extracción de conocimiento a partir de bases de datos. Obviamente, es imposible tratar y abarcar toda el área en profundidad puesto que es demasiado extensa, por lo que se dará una visión general como introducción acerca de las distintas fases, técnicas, etc. y posteriormente nos centraremos en las partes que están relacionadas con el trabajo Qué es la minería de datos? En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas y a su bajo costo de almacenamiento. El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales ha crecido de manera espectacular en la última década, siendo gran parte de esta información histórica, es decir, en la mayoría de los casos transacciones o situaciones que se han producido. Esta información a parte tener función de memoria de la organización, es útil para predecir la información futura. Además las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Esto implica que la mayoría de los sistemas, produzcan una cantidad inmensa de datos, dentro delos cuales existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información, ya que en muchas situaciones el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual. Por tanto, se llegó a un punto en el que las dimensiones de las bases de datos grandes y sus velocidades de crecimiento, hacían muy difícil para un humano el análisis y la extracción de alguna información importante, desbordando la capacidad de los mismos, y como consecuencia surgen diferentes técnicas de manejo automático de la información: OLPT (On- Line Transactional Processing),OLAP (On-Line Analytical Processing)y herramientas estadísticas. En principio, se pensó que estas técnicas serían la solución ante el crecimiento dela información, sin embargo, presentan una serie de limitaciones e inconvenientes, ya que con SQL por ejemplo, sólo podemos realizar un primer análisis aproximadamente del 80%de la 17

18 información, quedando un 20% restante donde la mayoría de las veces se contiene la información más importante. Este 20% restante requiere utilizar técnicas más avanzadas. Esta serie de problemas y limitaciones de las aproximaciones clásicas, son la causa de la necesidad de una nueva generación de herramientas y técnicas para soportar la extracción de conocimiento útil desde la información disponible, y que se engloban bajo la denominación de minería de datos. Surgen una serie de herramientas y técnicas capaces de identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no son muy evidentes, combinando las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial, para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad. Pero en realidad el que se encarga de la preparación de los datos y la interpretación delos resultados obtenidos, los cuales dan un significado a estos patrones encontrados es lo que se conoce como Descubrimiento de Conocimiento a partir de Bases de Datos (KDD, del inglés Knowledge Discovery from Databases). Con la aparición de estas nuevas técnicas no se requiere que el usuario final sea un experto en aprendizaje automático y en estadística. Aunque desde un punto de vista académico el término minería de datos es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, KDD, estos términos se suelen usar indistintamente. El término KDD se define como un proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos. Mientras que la Minería de Datos es la etapa de descubrimiento en el proceso de KDD. Es el paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos pre-procesados. El resultado de la exploración no debe ser afectada por mayores volúmenes de datos o por ruido en los datos, por lo que los algoritmos de descubrimiento de información deben ser altamente robustos. El objetivo fundamental del KDD es encontrar conocimiento: Útil: El conocimiento debe servir de algo, es decir, debe conducir a acciones de las cuales se pueda obtener algún tipo de beneficio para el usuario. Valido: Los patrones deben seguir siendo precisos para datos nuevos, no solo para aquellos que han sido usados en su obtención. El conocimiento debe verificarse en todos los datos que se tienen. Comprensible: Debe posibilitar la interpretación, revisión, validación y uso en la toma de decisiones. Una información incomprensible no proporciona conocimiento. Nuevo: Debe aportar algo desconocido para el sistema y preferiblemente para el usuario. La minería de datos puede aplicarse a cualquier tipo de información, siendo las técnicas de minería diferentes para cada una de ellas. La información se puede distinguir entre datos estructurados, por ejemplo, provenientes de bases de datos relacionales, otros tipos de datos 18

19 estructurados en bases de datos (espaciales, temporales, textuales y multimedia) y datos no estructurados provenientes de la Web o de otros tipos de repositorios de documentos. El conocimiento extraído por la minería de datos puede ser en forma de relaciones, patrones o reglas inferidos de los datos y previamente desconocidos, o bien en forma de una descripción más concisa, es decir, un resumen de los mismos. Estas relaciones o resúmenes constituyen el modelo de los datos analizados. Existen muchas formas diferentes de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para inferirlos. Los modelos pueden ser de dos tipos: 1. Un modelo predictivo. Pretende estimar valores futuros o desconocidos de variables de interés, denominadas como variables objetivo o dependientes, usando otras variables o campos de la base de datos, referidas como variables independientes o predictivas. Un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto en función del gasto en publicidad. 2. Un modelo descriptivo. Sirve para explorar las propiedades de los datos examinados, no para predecir nuevos datos. En el caso de una agencia de viajes, se desea identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder así remitirles esta información; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos Relación con otras disciplinas KDD nace como interfaz y se nutre de diferentes disciplinas. Es un aspecto muy interesante de esta metodología, ya que involucra distintas áreas de investigación como la estadística, los sistemas de información y bases de datos, el aprendizaje automático, la inteligencia artificial, el reconocimiento de patrones, la visualización de datos, la computación paralela y distribuida, los sistemas de toma de decisiones, la recuperación de información, etc. Para extraer el conocimiento durante estos procesos se utilizan técnicas tales como redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico, árboles de decisión, etc Etapas del proceso KDD. El proceso de KDD consiste en usar métodos de minería de datos (algoritmos)para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con pre-procesamientos y post-procesamientos. El proceso de KDD es un proceso iterativo e interactivo: Iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación del conocimiento extraído, etc. 19

20 Los pasos que se deben seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. En la siguiente imagen pueden verse las etapas básicas de la minería de datos. Figura 1. Etapas del proceso KDD. 1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. 2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida. 3. Implantación del almacén de datos que permita la navegación y visualización previa de sus datos, para discernir qué aspectos pueden ser interesantes para su estudio. 4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el método de minería de datos apropiado. 6. Interpretación, transformación y representación de los patrones extraídos. 7. Difusión y uso del nuevo conocimiento Integración y recopilación de datos. La familiarización con el dominio del problema y la obtención de conocimiento apriori disminuye el espacio de soluciones posibles y por tanto la eficiencia es mayor en el resto del proceso. Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio dela organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas y muchas de estas fuentes son las que se utilizan para el trabajo transaccional. 20

21 Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa, como por ejemplo, demografías (censo), páginas amarillas, psicografías, gráficos Web, información de otras organizaciones; datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc.; datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivas-deportivas, catástrofes; bases de datos externas compradas a otras compañías. El análisis posterior será mucho más sencillo si la fuente es unificada, accesible(interna) y desconectada del trabajo transaccional. El data warehouse es conveniente para KDD aunque no imprescindible, ya que a veces se trabaja directamente con la base de datos o con las bases de datos en formatos heterogéneos. Hay que considerar una serie de cuestiones al realizar la integración de datos desde distintas fuentes. Por ejemplo para la integración del esquema se deben utilizar los metadatos que normalmente se almacenan en las bases de datos y en los data warehouse, para asegurar que entidades equivalentes se emparejan correctamente cuando se produce la fusión desde distintas fuentes. Otro aspecto importante es la redundancia, que se produce cuando un atributo se puede obtener a partir de otros atributos. Una forma de detectarla, es mediante análisis de correlaciones, cuyo objetivo es medir la fuerza con la que un atributo implica a otro en función de los datos disponibles. También es importante la detección y resolución de conflictos en los valores de los datos, ya que un atributo puede diferir según la fuente de procedencia, debido a diferencias en la representación, escala o forma de codificar. Cuidar el proceso de integración a partir de múltiples fuentes reducirá y evitará redundancias e inconsistencias en los datos resultantes, mejorando la exactitud y velocidad del proceso de Minería de Datos Preprocesamiento [1]. La calidad del conocimiento descubierto no depende sólo del algoritmo de minería de datos sino de la calidad de los datos minados. Es decir, aunque el algoritmo de minería de datos sea muy bueno, si los datos no son adecuados, el conocimiento extraído no será válido. Este paso es necesario ya que algunos datos coleccionados en la etapa anterior son irrelevantes o innecesarios para la tarea de minería que se desea realizar. Por tanto el objetivo general de esta fase será seleccionar el conjunto de datos adecuado para el resto del proceso de KDD. Las tareas de esta etapa se agrupan en: 1) Limpieza de datos (data cleaning). Las bases de datos reales en la actualidad suelen contener datos ruidosos, perdidos. Se deben eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba). Algunos de los algoritmos de Minería de Datos tienen métodos propios para tratar con datos incompletos o ruidosos. Pero en general estos métodos no son muy robustos, lo normal es realizar previamente la limpieza de los datos. Los objetivos de esta subetapa son rellenar valores perdidos, suavizar el ruido de los datos, identificar o eliminar outliers (datos anómalos) y resolver inconsistencias. 21

22 2) Transformación de los datos. El objetivo de la transformación de datos es poner los datos de la mejor forma posible para la aplicación de los algoritmos de Minería de Datos. Algunas de las operaciones típicas que se suelen realizar: a) Agregación, generalización de los datos: Se trata de obtener datos de más alto nivel a partir de los actuales, utilizando jerarquías de conceptos. b) Normalización: El objetivo de esta operación es pasar los valores de un atributo a un rango mejor. Es bastante útil para técnicas como AANN o métodos basados en distancias. Entre las técnicas de normalización cabe destacar la normalización minmáx., que realiza una transformación lineal, la normalización zero-mean, que normaliza en función de la media y la desviación estándar, y la normalización por escala decimal que consiste en normalizar moviendo el punto decimal de los valores del atributo. c) Construcción de atributos: Consiste en construir nuevos atributos aplicando alguna operación a los atributos originales tales como agrupación, separación, etc. Puede ser interesante cuando los atributos no tienen mucho poder predictivo por sí solos o cuando los patrones dependen de variaciones lineales de las variables globales. Se utiliza para mejorar la exactitud y la comprensibilidad de la estructura al trabajar con datos con muchas dimensiones. d) Discretización: Se basa en pasar atributos continuos (o discretos con muchos valores) a casos discretos manejables o a categóricos. Esta técnica es imprescindible para muchos algoritmos de Minería de Datos, puesto que muchos no pueden trabajar con valores continuos. Hay que tener especial cuidado ya que una mala discretización puede invalidar los datos. 3) Reducción de la dimensionalidad: En esta etapa el objetivo principal es obtener una representación reducida del conjunto de datos, de volumen mucho menor, pero sin perder en gran medida la integridad de los datos originales. La minería sobre el conjunto reducido resultante debe ser mucho más eficiente pero obteniendo conclusiones iguales o al menos aproximadas. La reducción de la dimensionalidad se puede llevar a cabo mediante un tipo basado en selección de instancias o selección de características. a) La selección de instancias consiste en obtener una representación más pequeña del conjunto de datos. Dentro de este tipo se pueden distinguir dos tipos de técnicas: i) Técnicas paramétricas: Consisten en estimar un modelo a partir de los datos, de forma que se almacenan sólo los parámetros y no los datos reales. Se pueden distinguir dos tipos de modelos, los cuales son la regresión lineal múltiple y los modelos log-lineales que aproximan distribuciones de probabilidad multidimensionales. ii) Técnicas no paramétricas: Sirven para reducir la cantidad de datos mediante el uso de algoritmos basados en clustering y muestreo. El clustering consiste en crear grupos de ejemplos similares seleccionando un representante de cada grupo el cual pasará a formar parte del nuevo conjunto de ejemplos. El objetivo del muestreo es seleccionar un conjunto del total de casos presentes en la base de datos original, pudiendo realizarse mediante varios métodos, como por ejemplo de forma estratificada, por grupos, etc. 22

23 b) La selección de características o variables consiste en encontrar un subconjunto de las variables del problema que optimice la probabilidad de clasificar correctamente. Es necesaria, ya que el hecho de tener más atributos no significa que se tenga más éxito en la clasificación, además el trabajar con menos variables reduce la complejidad del problema, disminuye el tiempo de ejecución y aumenta la capacidad de generalización. c) Un algoritmo de selección de características se compone de dos componentes principales como son la estrategia de búsqueda, para seleccionar subconjuntos candidatos y la función objetivo que evalúe la calidad de los mismos. Existen un gran número de algoritmos para llevar a cabo la selección de características basados en búsqueda, árboles de decisión, etc. d) Otras técnicas que se utilizan para reducir la dimensionalidad del conjunto de datos son la discretización, la compresión de datos, etc Minería de datos La fase de minería de datos es la más característica del KDD, y por esta razón, muchas veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta etapa es producir nuevo conocimiento que pueda utilizar el usuario, construyendo un modelo, basado en los datos recopilados, que sea una descripción de los patrones y relaciones entre los datos con los que se puedan hacer predicciones, entender mejor los datos o explicar situaciones pasadas. Se deben tomar una serie de decisiones antes de empezar el proceso. En primer lugar se tiene que determinar que tipo de conocimiento buscamos, ya que puede ser predictivo o descriptivo. Según el tipo, en segundo lugar hay que seleccionar la técnica más idónea para dicho tipo de conocimiento. Existen un gran número de técnicas entre las que se encuentran clasificación, regresión agrupamiento, asociaciones. También es necesario identificar de qué tipo de modelo se trata dentro de cada técnica. Por ejemplo, para clasificación, puede tratarse de un modelo basado en reglas, redes neuronales, árboles de decisión, etc. Por último hay que elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que se está buscando. Es en esta fase donde mejor vemos el carácter iterativo del proceso de KDD, ya que será necesario explorar modelos alternativos hasta encontrar aquel que resulte más útil para resolver nuestro problema. En la búsqueda del buen modelo, puede que tengamos que retroceder hasta fases anteriores y hacer cambios en los datos que estamos usando o incluso modificar la definición del problema. Además la elección de la tarea a realizar y del algoritmo a usar puede influir en la preparación de los datos Evaluación e interpretación La fase de Minería de Datos puede producir varias hipótesis de modelos por lo que es necesario establecer qué modelos son los más válidos. Medir la calidad de los patrones descubiertos por un algoritmo de Minería de Datos no es un problema trivial, ya que esta medida puede atañer a varios criterios, algunos de ellos bastante subjetivos. 23

24 Idealmente, los patrones descubiertos deben tener tres cualidades; deben ser precisos, comprensibles (es decir, inteligibles) e interesantes (útiles y novedosos). Según las aplicaciones puede interesar mejorar algún criterio y sacrificar ligeramente otro. Se utilizan técnicas de evaluación que consisten en dividir el conjunto de datos en dos conjuntos, de entrenamiento, que sirve para extraer el conocimiento y el de test, que prueba la validez del conocimiento extraído. Existen varias alternativas de estas técnicas, entre las cuales destacan: Validación simple donde se reserva un porcentaje de la base de datos como conjunto de prueba, y no se usa para construir el modelo. Validación cruzada que es recomendable cuando tenemos una cantidad no muy elevada de datos para construir el modelo y puede que no podamos permitirnos el poder reservar parte de los mismos para la etapa de evaluación. Los datos se dividen aleatoriamente en dos conjuntos equitativos con los que se estima la precisión predictiva del modelo. Bootstrapping Consiste en construir primero un modelo con todos los datos iniciales, posteriormente, se crean numerosos conjuntos de datos, llamados bootstrap samples, haciendo un muestreo de los datos originales con reemplazo, por lo que los conjuntos construidos pueden contener datos repetidos. A continuación se construye un modelo con cada conjunto y se calcula su ratio de error sobre el conjunto de test. El error final se calcula promediando los errores obtenidos para cada muestra. Dependiendo de la tarea de minería de datos, existen diferentes medidas de evaluación de los modelos. Por ejemplo en clasificación, lo habitual es evaluar la calidad de los patrones encontrados con respecto a su precisión predictiva, que se calcula como el número de instancias del conjunto de prueba clasificadas correctamente, dividido por el número de instancias totales en el conjunto de prueba. En el caso de reglas de asociación, se suele evaluar de forma separada cada una de las reglas con objeto de restringirnos a aquellas que pueden aplicarse a un número mayor de instancias y que tienen una precisión relativamente alta sobre estas instancias. Se hace en base a dos conceptos, los cuales son soporte y confianza. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes Difusión y uso del nuevo conocimiento Una vez construido y validado el modelo puede usarse principalmente con dos finalidades: para que un analista recomiende acciones basándose en el modelo y en sus resultados, o bien para aplicar el modelo a diferentes conjuntos de datos, de forma manual o automática. Tanto en el caso de una aplicación manual o automática del modelo, es necesario su difusión, es decir, que se distribuya y se comunique a los posibles usuarios, la utilización del nuevo conocimiento de forma independiente, y la incorporación a sistemas ya existentes, aunque hay que tener especial atención para evitar inconsistencias y posibles conflictos. También es importante medir la calidad de evolución del modelo, por lo que se debe tener un cierto mantenimiento para comprobar las prestaciones del mismo. 24

25 2.1.4 Tareas de la minería de datos. Dentro de la minería de datos se han de distinguir tipos de tareas, cada una delas cuales puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de información obtenida con una tarea puede diferir mucho de la obtenida con otra. Como se ha visto anteriormente, las distintas tareas pueden ser predictivas o descriptivas, dichas tareas se describen en las siguientes subsecciones Clasificación. Es probablemente la tarea más utilizada. En ella, cada instancia (o registro de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las predicciones correctas y el número total de predicciones (correctas e incorrectas). Se trata de una tarea de aprendizaje supervisado, ya que es necesario conocer las clases a las que pertenecen los ejemplos utilizados para obtener y evaluar el modelo Regresión. Se utiliza para designar de forma general el problema de predecir una variable de tipo continuo. Se trata de aproximar el valor numérico de dicha variable conociendo el resto de atributos. Implica el aprendizaje de una función para establecer la correspondencia entre los datos y el valor a predecir. En algunos casos, se fija el tipo de función y se determina la función del tipo que mejor se adapta a los datos. El objetivo en este caso es minimizar el error entre el valor predicho y el valor real. Al igual que la clasificación, se trata de una tarea de aprendizaje supervisado. Un caso particular de regresión es el análisis de series temporales. El objetivo de esta tarea, consiste en observarla variación del valor de un atributo en el tiempo. Normalmente los valores que se analizan, están distribuidos en el tiempo. Se suelen visualizar, lo cual permite utilizar medidas de distancia para determinar la similitud entre diferentes series temporales, y para determinar y predecir comportamiento. Se diferencian de la regresión en que los datos tienen una relación temporal Agrupamiento o clustering. Es la tarea descriptiva por excelencia y consiste en obtener grupos naturales a partir de los datos. Se diferencia de la clasificación en que en este caso los grupos no están definidos. En lugar de analizar datos etiquetados con una clase, los analiza para generar esa etiqueta. Se trata de aprendizaje no supervisado si no se conoce el número de clúster, y supervisado en otro caso. Los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud 25

26 Reglas de asociación. Son también una tarea descriptiva, cuyo objetivo es identificar relaciones no explícitas entre atributos categóricos. Regla de asociación se define como un modelo que identifica tipos de asociaciones específicas en los datos. Las reglas de asociación no implican una relación causaefecto, es decir, puede no existir una causa para que los datos estén asociados. Una asociación entre dos atributos ocurre cuando la frecuencia de que seden dos valores determinados de cada uno conjuntamente es relativamente alta. Es muy común en los análisis de cestas de mercados. Un caso especial, son las reglas de asociación secuenciales, las cuales se usan para determinar patrones secuenciales en los datos. Se basan en secuencias temporales de acciones y difieren de las reglas de asociación en que las relaciones entre los datos son temporales Correlaciones. Se usan para examinar el grado de similitud de los valores de dos variables numéricas. El análisis de correlaciones, sobre todo las negativas, puede ser muy útil para establecer reglas de ítems correlacionados Categorización. Se trata de aprender una correspondencia entre los ejemplos y un conjunto de categorías. Se diferencia de la clasificación en que en la categorización, un mismo ejemplo puede tener asociadas varias etiquetas Priorización o aprendizaje de preferencias. Consiste en determinar un orden de preferencia a partir de dos o más ejemplos. Cada ejemplo es una secuencia de valores donde el orden de la secuencia representa la preferencia Aplicaciones. La integración de las técnicas de Minería de Datos en las actividades del día adía se está convirtiendo en algo habitual. Tradicionalmente los negocios de la distribución y la publicidad dirigida han sido las áreas que más han empleado técnicas de minería de datos para reducir costes o aumentar la receptividad de ofertas. Podemos encontrar ejemplos en todo tipo de aplicaciones: financieras, seguros, científicas (medicina, farmacia, astronomía, psicología, etc.), políticas económicas, sanitarias o demográficas, educación, policiales, procesos industriales, etc. A continuación se incluye una lista de ejemplos en algunas de las áreas mencionadas para ilustrar en qué ámbitos se puede usar la minería de datos. Aplicaciones financieras y banca: Detectar patrones de uso fraudulento de tarjetas de crédito, identificar clientes leales, identificar reglas de mercado de valores a partir de históricos, etc. Análisis de mercado, distribución y comercio: Identificar patrones de compra de los clientes, buscar asociaciones entre clientes y características demográficas, etc. Seguros y salud privada: Análisis de procedimientos médicos solicitados conjuntamente, predecir qué clientes compran nuevas pólizas, etc. Medicina: Identificación de terapias médicas satisfactorias para diferentes enfermedades, asociación de síntomas y clasificación diferencial de patologías, etc. 26

27 Minería de texto: Análisis de log de servidores para análisis del patrón de recorrido y consumo del cibernauta, contenido de los documentos, etc. Transportes: Determinar la planificación de la distribución entre tiendas, analizar patrones de carga. Otras áreas: Toma de decisiones, investigación científica, mejora de calidad de datos, etc. 2.2 Reglas de asociación Introducción. En el campo de la minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos. Dentro del aprendizaje automático se encuadran en el aprendizaje no supervisado. A diferencia de la clasificación, las reglas de asociación son descriptivas. Las tareas de minería descriptivas caracterizan las propiedades generales de los datos [3]. La extracción de reglas de asociación encuentra asociaciones interesantes y/o relaciones de correlación entre elementos de grandes conjuntos de datos. Las reglas de asociación muestran condiciones de valores en los atributos que ocurren juntos con frecuencia en los conjuntos de datos dados. Los primeros estudios sobre las reglas de asociación se centraron en datos con atributos binarios, principalmente aplicados a datos en forma transaccional. Un ejemplo típico y ampliamente utilizado en la extracción de reglas de asociación es el análisis de la cesta de la compra [4] sobre el cual se han desarrollado una variedad de métodos para tratarlo. Los datos se recolectan a través de escáneres de códigos de barras en los supermercados obteniendo bases de datos con un gran número de registros de transacciones. Cada registro contiene todos los artículos comprados por un cliente en una transacción de compra única. A partir de estos datos sería interesante saber si ciertos grupos de artículos se compran juntos constantemente, ya que se podrían utilizar para ajustar el diseño de la tienda (colocación de elementos de forma óptima con respecto otras), venta cruzada, promociones, para el diseño de catálogos e identificar segmentos de clientes basados en los patrones de compra. Un caso muy famoso sobre reglas de asociación es el de la cerveza y los pañales, basado en el comportamiento de los compradores en el supermercado. Se descubrió que muchos hombres acaban comprando pañales por encargo de sus esposas. En la cadena de supermercados Wal- Mart, donde se descubrió este hecho, se adoptó la medida de colocar la cerveza junto a los pañales. De esta manera consiguió aumentar la venta de cerveza. Las reglas de asociación proporcionan información de este tipo de la forma si entonces. Estas reglas se calculan a partir de los datos y, a diferencia de las reglas si entonces de la lógica, las reglas de asociación son de naturaleza probabilística. Algunos términos básicos en la terminología de las reglas de asociación son: Ítem, que corresponde a pares atributo-valor. 27

28 Instancia, que corresponde aun conjunto de ítems, corresponde a un ejemplo o registro de la base de datos. El objetivo del proceso de extracción de las reglas de asociación (AR) consiste precisamente en descubrir la presencia de pares de conjunciones (atributo (A) valor (v))que aparecen en un conjunto de datos con cierta frecuencia para formular las reglas que describen las relaciones existentes entre los atributos. Las reglas de asociación (AR) fueron definidas por primera vez por Agrawal et al. [4] como sigue: Sea I = {i 1, i 2,,i n } un conjunto de ítems y D = {t 1, t 2,,t n } un conjunto de N transacciones, donde cada t j contiene un subconjunto de ítems. Esto es, una regla puede ser definida como X Y, donde X, Y I y X Y =. Finalmente, X y Y se llaman antecedente (o parte izquierda de la regla) y consecuente (o parte derecha de la regla), respectivamente. En [5] el problema de descubrir las reglas de asociación se divide en dos subtareas: Encontrar todos los conjuntos que superan el valor mínimo de soporte. Dichos conjuntos se denominan conjuntos frecuentes. Partiendo de los conjuntos frecuentes encontrados, generar las reglas que superan el valor mínimo de confianza. La generación de los conjuntos frecuentes es la tarea más importante y la que requiere más tiempo de computación, de ahí que sea la más estudiada entre la comunidad científica. A diferencia de la estrategia que siguen la mayoría de los investigadores en sus herramientas de extracción de reglas de asociación, el algoritmo propuesto que presentamos en este trabajo, desde el principio del proceso se obtienen reglas de asociación sin tener que realizar el proceso de construcción de los conjuntos frecuentes. Los dos estadísticos utilizados inicialmente para describir las relaciones entre antecedente y consecuente son el soporte (o apoyo, denotado Sop) y la confianza (Conf), los cuales son valores numéricos comprendidos en el intervalo [0,1]. Se define Sop(X) como la proporción de transacciones que contienen el conjunto X. Por tanto, el soporte de una regla de asociación es la proporción de transacciones que contienen tanto el antecedente como el consecuente. La confianza de una regla de asociación es la proporción de transacciones que contienen el antecedente, y que también contienen al consecuente. A continuación se muestra el cálculo del soporte con una pequeña base de datos de ejemplo que contiene 10 transacciones. Se puede observar aquí que, si se quiere obtener manzanas, de 10 transacciones disponibles 4 contienen manzanas, por lo que sop(manzanas)=4/10 = 0.4, igualmente para el sop(zanahoria) hay 3 transacciones que la contienen, así sop(zanahoria)=3/10=0.3 sop(dulcería)= 0.6 sop(manzana dulcería)=0.3 sop(manzana tomates)=0.3 28

29 Tabla 1. Base de datos de ejemplo. {ciruelas, lechugas, tomates} {apio, dulcería} {manzanas, zanahorias, tomates, papas, dulcería} {manzanas, naranjas, lechugas, tomates, dulcería} {duraznos, naranjas, apio, papas} {frijoles, lechuga, tomates} {naranjas, lechuga, zanahorias, tomates, dulcería} {manzanas, plátanos, ciruelas, zanahorias, tomates, cebollas, dulcería} {manzanas, papas} Si el soporte es suficientemente alto y la base de datos es grande, entonces la confianza es un estimado de la probabilidad de cualquier transacción futura que contenga el antecedente, también contendrá la conclusión. De la base de datos de ejemplo, vemos que: conf(manzanas )dulcería= sop(manzana dulcería)/ sop(manzanas)= 0.3/0.4 = 0.75, conf(manzanas )tomates= 0.75, conf(zanahorias )dulcería = 1. El algoritmo de asociación tratará de descubrir todas las reglas que excedan las cotas mínimas especificadas para el soporte y la confianza. La búsqueda exhaustiva de reglas de asociación consideraría simplemente todas las combinaciones posibles de elementos, poniéndolas como antecedentes y consecuentes, entonces se evaluaría el soporte y la confianza de cada regla, y se descartarían todas las asociaciones que no satisfacen las restricciones. Sin embargo el número de combinaciones crece rápidamente con el número de elementos, por lo que si hay 1000 elementos, se tendrán combinaciones (aproximadamente ). Para cada antecedente existe la posibilidad de formar una regla poniendo como consecuente cualquier conjunto de elementos que no contenga algún elemento que ya se encuentra en el antecedente. Así, este procedimiento para la búsqueda de reglas de asociación es muy costoso computacionalmente, por lo que se necesita otro procedimiento más eficiente Medidas de calidad de las reglas de asociación. Se han utilizado una serie de medidas de interés para evaluar las reglas de asociación [6][7]. Todas las que vamos a describir están basadas en la probabilidad que miden la generalidad y fiabilidad de la regla. Soporte(A)[6]: El soporte de un conjunto A se define como el porcentaje de instancias de la base de datos que contienen A. En general, el soporte de A se conoce como la probabilidad de A. 29

30 Soporte(A C)[6]: El soporte de la regla es el porcentaje de instancias de la base de datos que contienen A C. Se conoce como la probabilidad de A y C a la vez. Confianza(A C)[6]: Es la probabilidad condicional de C dado A. Se refiere al número de registros de la base de datos que cubre la regla entre el número de registros que cubre el antecedente de la misma. Lift (A C)[8]:Se refiere a cuántas veces el antecedente y el consecuente aparecen juntos más a menudo de lo esperado en el conjunto de datos suponiendo independencia estadística entre antecedente y consecuente. Mide el grado de dependencia entre el entre el antecedente y el consecuente. Un valor superior a 1 indica dependencia positiva, mientras que un valor inferior a 1 indica dependencia negativa. Conviction(A C)[9]: Es una medida que tiene en cuenta tanto el soporte del antecedente como el soporte del consecuente de la regla. Valores en el intervalo (0,1)significa dependencia negativa, valores superiores a 1 significa dependencia positiva, y un valor igual a 1 significa independencia. Gain(A C)[9]: Se calcula a partir de la diferencia entre la confianza de la regla y el soporte del consecuente Reglas de asociación cuantitativas Normalmente, las reglas de asociación se han extraído sobre bases de datos nominales o bien datos discretos como el ejemplo expuesto anteriormente, sin embargo, cuando el dominio es continuo, las reglas de asociación se conocen como reglas de asociación cuantitativas (QAR, Quantitative Association Rules). En este contexto, sea F = {F 1,,F n } un conjunto de características, con valores en R. Sea A y C dos subconjuntos disjuntos de F, esto es, A F, C F, y A C =. Una QAR es una regla X Y, en la que las características en A pertenecen al antecedente X, y las características en C pertenecen al consecuente Y, tales que: [ ] 30

31 donde l i y l j representan el límite inferior de los intervalos para F i y F j respectivamente y la pareja u i y u j el límite superior. Por ejemplo, una QAR podría ser numéricamente expresada como: F1 [12, 25] F3 [5, 9] F2 [3, 7] F5 [2,8] donde F1 y F3 constituyen las características que aparecen en el antecedente y F2 y F5 lasque aparecen en el consecuente. Sin embargo, la mayoría de las aplicaciones a datos que contienen atributos numéricos suelen ser abordados por una previa discretización de estos atributos numéricos. Como se comentó al inicio de esta memoria, la propuesta desarrollada, a diferencia de estos métodos, tratará los atributos continuos sin necesidad de discretizar los datos previamente. Tabla 2. Datos de ejemplo. Transacción F1 F2 F3 t t t t t t t t t t Si estamos trabajando con Reglas de Asociación Cuantitativas (QAR) consideremos una regla ejemplo: F1 [180; 189] F2 [85; 95] F3 [33; 36] Para este caso, el soporte del antecedente es del 20 %, ya que2 transacciones, t2 y t9, simultáneamente satisface que F1 y F2 pertenece a los intervalos[180,189] y [85,95], respectivamente (2 transacciones de 19, sop(a) = 0.2). En cuanto al soporte del consecuente, sop(c) = 0.2 porque sólo las transacciones t6 y t9 satisfacen quef3 [33, 36]. En cuanto a la confianza, sólo una transacción t9 satisface los tres atributos (F1 y F2 en el antecedente, y F3 en el consecuente) que aparecen en la regla. En otras palabras, sop(a C) = 0.1. Consecuentemente, conf(a C) = 0.1/0.2 = 0.5, esto es, la regla tiene una confianza del 50%. Finalmente, el lift (o interés) es lift(a C) = 0.1/(0.2*0.2) = 2.5,ya que sop(a C = 0.1, sop(a) = 0.2 y sop(c) = 0.2, como se discutió antes. 31