Una plataforma para la minería de datos en entornos imperfectos

Transcripción

1 Una plataforma para la minería de datos en entornos imperfectos Emilio Serrano Fernández MEMORIA TESIS DE MASTER Master en Tecnologías de la Información y Telemática Avanzadas Curso 2006/07 Dpto. Ingeniería de la Información y las Comunicaciones Dpto. Ingeniería y Tecnología de Computadores Facultad de Informática. Universidad de Murcia. Campus de Espinardo Murcia. Spain.

2

3 Dedicatorias A mi abuela que siempre me apoya y enmarca cualquier cosa que lleve mi nombre (quiera o no quiera yo). A mi directora, M a Carmen Garrido, que siempre corrige con paciencia mis fallos (incluso cuando se trata varias veces del mismo error).

4

5 Una plataforma para la minería de datos en entornos imperfectos 1 Resumen Extendido La estimación de magnitudes desconocidas a partir de la información disponible es un problema fundamental en numerosas aplicaciones de las ciencias e ingenierías. Esta tarea puede resolverse, en principio, cuando se dispone de un modelo apropiado de las relaciones relevantes entre las magnitudes conocidas y desconocidas. Cuando esto no ocurre puede utilizarse una etapa previa de aprendizaje inductivo a partir de un conjunto de datos resueltos. El objetivo es obtener automáticamente el conocimiento suficiente para realizar inferencias en situaciones futuras. En la actualidad, la disciplina que se encarga de la obtención de este conocimiento a partir de datos es el Análisis Inteligente de Datos. Para ayudar en este proceso se han desarrollado numerosas herramientas como Weka, RapidMiner,... Sin embargo, en todas ellas la tendencia es eliminar los datos imperfectos. Por ejemplo es típico en el preproceso la eliminación de ejemplos en las bases de datos que contengan valores desconocidos, o la sustitución de esos datos desconocidos por valores medios. Como consecuencia de esto, las técnicas de minería de datos que son recopiladas en éstas herramientas trabajan con datos carentes de imperfección y como mucho encontramos el tratamiento de valores desconocidos expresados comúnmente como (? ). Es por esto que en esta tesis se analizan aquellos aspectos que permitirían mejorar el proceso de extracción inteligente de conocimiento ( Knoweledge Discovery in Databases ) ante la presencia de datos imperfectos. Como propuesta para llevar a cabo estas mejoras se presenta NIP 1.0, una plataforma de ayuda a la extracción de conocimiento teniendo en cuenta la imperfección. Aunque en la actualidad esta plataforma se encuentra en fase de desarrollo ya recoge una amplia funcionalidad, principalmente en la fase de preprocesado y recoge algunas de las técnicas que en la actualidad realizan un mejor y más completo tratamiento de la información imperfecta. Con esta plataforma pretendemos facilitar la investigación en este campo permitiendo que el propio usuario pueda incluir fácilmente su técnica en la herramienta y definir el formato que utiliza para expresar los distintos tipos de información imperfecta. Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación. En esta tesis se estudiará cada una de estas fases desde el enfoque del tratamiento de la información imperfecta. Se muestra que en el preproceso de datos la tendencia actual no ha prestado especial atención a expresar la verdadera naturaleza de la imperfección de los datos. Respecto a la fase de minería de datos, que las formas de imperfección permitidas en algunas de las principales técnicas de minería de datos son escasas en su mayoría, y por último, cómo la evaluación está basada en métodos demasiado genéricos. Por todo ésto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor y más completo tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 que se presenta en la tesis. Se proporciona un ejemplo de uso de NIP además de explicar sus principales funciones: añadir imperfección a bases de datos de numerosas formas (la idea es recopilar las formas más frecuentes de imperfección expresadas desde las principales teorías matemáticas y llevarlas a las bases de datos con un formato definible por el usuario), realizar minería de datos por medio de diversas técnicas, realizar la evaluación de los modelos obtenidos... Para comenzar a abordar todo este trabajo se ha realizado una posible clasificación de cómo se presenta la imperfección en los ítems de información de una base de datos. Se verá que un item puede ser impreciso, incierto y/o desconocido.

6 2 Emilio Serrano Fernández Se han analizado las posibles formas de representar estas tres formas de imperfección mediante las principales teorías matemáticas que permiten su tratamiento (la teoría de la probabilidad, la teoría de conjuntos fuzzy y la teoría de evidencias de Dempster-Shafer). De esta manera un atributo imperfecto se puede representar de diversas formas usando las distintas teorías y cada una de estas formas representa la naturaleza de dicha imperfección en mayor o menor grado. En general, se puede representar la imperfección como tal, como diversos conjuntos fuzzy, mediante funciones de masas, con medias de valores numéricos, por medio de valores discretos de aparición más frecuente, con intervalos, por probabilidades de tomar distintos valores, con funciones de densidad gaussianas... También se ha profundizado en el estudio de técnicas que en la actualidad realizan un mayor y más completo tratamiento de la información imperfecta, centrándonos en las siguientes: un árbol de decisión (FID3.4) y un modelo de mezclas (EMFGN). Utilizando la plataforma desarrollada, NIP, es mucho menos laborioso realizar una comparativa entre técnicas de minería y cómo se comportan ante la imperfección. Esta comparativa nos servirá para observar posibles carencias y proponer mejoras. En concreto se compara el modelo de mezclas EMFGN con el árbol de decisión FID3.4. Se realizan pruebas con 18 variaciones de las bases de datos IRIS e IONOSPHERE en función de la imperfección introducida en cada una de ellas. En general creemos que nos encontramos ante un amplio campo de investigación como es la inclusión de la imperfección en el proceso de extracción de conocimiento. Además se dan los pasos iniciales en la construcción de una herramienta que facilite en trabajo en este campo. Palabras clave: Tratamiento de datos imperfectos, Extracción Inteligente de Conocimiento, Minería de datos, Imprecisión, Incertidumbre.

7 Una plataforma para la minería de datos en entornos imperfectos 3 1. Introducción Como hemos comentado anteriormente, son múltiples las técnicas de minería de datos que se utilizan en la actualidad desde distintas propuestas teóricas, y la mayoría de ellas han prestado relativamente poca atención a la información imperfecta. De esta forma, el objetivo global en el que se enmarca esta tesis es mejorar el planteamiento general del análisis inteligente de datos, en cada una de sus fases, ante la presencia de datos imperfectos. Esto supone afrontar los siguientes subobjetivos: 1. Análisis y estudio de los distintos tipos de imperfección que aparecen en los problemas del mundo real. Realizar una clasificación de los distintos tipos de imperfección que aparecen en problemas del mundo real y de las teorías que los soportan. 2. Análisis y estudio del tratamiento de la imperfección realizado por las técnicas empleadas en la fase de minería de datos. En la actualidad existen múltiples técnicas de minería de datos, basadas en diferentes propuestas teóricas [2]. Sin embargo, la mayoría de técnicas de construcción de modelos para realizar las tareas de inferencia han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos son descartados o ignorados tanto para el proceso de aprendizaje como para el de inferencia. Por lo tanto, dado que las observaciones imperfectas aparecen de forma inevitable en dominios y situaciones realistas y que a priori no sabemos los tipos de datos con los que tenemos que trabajar, queremos realizar un estudio lo más exhaustivo posible de las técnicas que permiten en la actualidad el tratamiento de la información imperfecta en mayor o menor grado. Es decir, nos centraremos en aquellas técnicas que incorporen el tratamiento de observaciones con atributos heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de inferencia. 3. Mejora del tratamiento de la imperfección realizado por alguna de estas técnicas. Una vez realizado un estudio del tratamiento de la imperfección realizado por las técnicas, nos proponemos mejorar dicho tratamiento en alguna de ellas. 4. Análisis y estudio de las técnicas de evaluación empleadas en la fase de evaluación del análisis inteligente de datos. 5. Propuestas de métodos de evaluación más adecuados al entorno de trabajo con datos imperfectos. Derivado del estudio de los métodos de evaluación empleados en la fase de evaluación del análisis inteligente de datos, se propondrán nuevos métodos de evaluación que potencien la capacidad de las técnicas a la hora de tratar con la verdadera naturaleza de la información imperfecta, frente a ignorarla o transformarla a datos sin imperfección. 6. Construcción de una herramienta de apoyo al análisis inteligente de datos ante la presencia de datos imperfectos. El diseño e implantación de esta herramienta permitirá el manejo de bases de datos con imperfección, recopilará todas aquellas técnicas que realicen el tratamiento de imperfección en alguna de sus facetas, permitiendo en todo momento el añadir nuevas técnicas y recogerá métodos de evaluación adecuados a este entorno. Dado que actualmente existe mucho interés en el desarrollo de la tecnología de agentes inteligentes y su popularidad ha crecido rápidamente, pretendemos hacer uso de esta metodología a la hora de construir esta herramienta. 7. Los resultados obtenidos en todos estos subjetivos serán llevados a la práctica en su aplicación al problema algoritmo-instancia. Al trabajar con metaheurísticas, surge el problema algoritmo-instancia que establece que conociendo un algoritmo y unos valores para sus parámetros que den muy buen comportamiento frente a una instancia del problema que pretende resolver, es posible que ni este algoritmo ni estos parámetros funcionen bien para otra instancia del mismo problema. De forma más general, podemos pensar en utilizar diferentes metaheurísticas bajo un mismo esquema coordinado para resolver dicho problema. Para coordinar las diferentes metaheurísticas podemos considerar un esquema en el que cada metaheurística esté representada por un agente y existe un agente coordinador que modifica sus

8 4 Emilio Serrano Fernández comportamientos. En este esquema, uno de los problemas que surge es el diseño de coordinador para realizar, de manera eficiente y/o efectiva, la cooperación entre las metaheurísticas. Nuestra propuesta es modelar el coordinador mediante un conjunto de reglas borrosas que van ser el resultado de un proceso de análisis inteligente de datos [1]. En esta tesis, como trabajo de inicio, se ha cubierto el subobjetivo 1 y se han comenzado a abordar los subobjetivos 2 y Estado del arte/trabajos relacionados/antecedentes La estimación de magnitudes desconocidas a partir de la información disponible es un problema fundamental en numerosas aplicaciones de las ciencias e ingenierías. Esta tarea puede resolverse, en principio, cuando se dispone de un modelo apropiado de las relaciones relevantes entre las magnitudes conocidas y desconocidas. Cuando esto no ocurre puede utilizarse una etapa previa de aprendizaje inductivo a partir de un conjunto de datos resueltos. El objetivo es obtener automáticamente el conocimiento suficiente para realizar inferencias en situaciones futuras. En la actualidad, la disciplina que se encarga de la obtención de este conocimiento a partir de datos es el Análisis Inteligente de Datos. La tarea fundamental del análisis inteligente de datos es encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o semiautomático y los modelos descubiertos deberían ayudar a tomar decisiones más seguras que aporten algún beneficio al sistema. Por tanto, son dos los retos del análisis inteligente de datos: por un lado, trabajar con grandes volúmenes de datos, con los problemas que conlleva (ruido, datos ausentes, vaguedad, etc.), y por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y útil. En muchos casos la utilidad del conocimiento minado está íntimamente relacionado con la comprensibilidad del modelo inferido, por tanto, es importante hacer que la información descubierta sea más comprensible (mediante reglas, etc.). Hasta la fecha, la mayoría de las herramientas actuales de apoyo a la extracción inteligente de conocimiento han prestado bastante atención a la preparación de los datos ya que es un proceso muy importante debido a que los propios datos pueden haber sido recolectados de una manera ad-hoc, se pueden encontrar registros sin rellenar, o se pueden haber producido errores en la entrada de datos. Como resultado, el proceso del análisis inteligente de datos no puede tener éxito sin un serio esfuerzo de preparación de datos. En la figura 1 podemos ver el esfuerzo requerido en cada fase del proceso del análisis inteligente de datos ([10]). Como se muestra en la figura, el 60 % del tiempo se dedica en preparar los datos para la minería, lo que pone de manifiesto la crítica dependencia en datos limpios y relevantes. Sin embargo, este preproceso tiene como objetivo eliminar los datos imperfectos. Por ejemplo es típico en el preproceso la eliminación de ejemplos en las bases de datos que contengan valores desconocidos, o la sustitución de esos datos desconocidos por valores medios. Como consecuencia de esto, las técnicas de minería de datos que son recopiladas en estas herramientas trabajan con datos carentes de imperfección y como mucho encontramos el tratamiento de valores desconocidos expresados comúnmente como? ). Pongamos por ejemplo dos de las más conocidas plataformas para la extracción de conocimiento: Weka y RapidMiner. La Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. Este ave da nombre a una extensa colección de algoritmos de Máquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java; útiles para ser aplicados sobre datos mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además, Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Weka [17] está diseñado como una herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es una tarea sencilla.

9 Una plataforma para la minería de datos en entornos imperfectos 5 Figura1. Esfuerzo requerido en cada fase del análisis inteligente de datos Sin embargo, a pesar de todas las ventajas que ofrece Weka, parece que haya crecido ampliando la cantidad de técnicas que puede aplicar en lugar de la calidad de dichas técnicas, al menos, en lo que al tratamiento de la imperfección se refiere. La prueba es que la única forma de imperfección en los datos que admite Weka es el uso del carácter? para denotar que un dato es desconocido en la base de datos inicial. De aspecto mucho más cuidado disponemos de RapidMiner (antes YALE) [15], el cual es un sistema rápido para el descubrimiento del conocimiento. Una ventaja significativa respecto a Weka es que permite un amplio formato para las bases de datos de entrada, aceptando el de Weka y C4.5 por ejemplo. Una vez más las líneas de avance de la plataforma se han basado en añadir formatos y técnicas de minería ya existentes o compatibles con éstas, por lo que la imperfección vuelve a estar relegada a un segundo plano. Todo esto nos lleva a plantear una herramienta de ayuda al trabajo en análisis inteligente de datos con la verdadera naturaleza de la información imperfecta expresadas desde distintas formas matemáticas para el tratamiento de la imperfección, como son la teoría de la probabilidad, la teoría de los conjuntos fuzzy y la teoría de evidencias de Dempster-Shafer. Se requieren herramientas que no partan de encubrir o eliminar la imperfección además de apoyar la elaboración de bases de datos imperfectas con fines de investigación. Persiguiendo esa idea se ha desarrollado la herramienta NIP que se presenta en esta tesis. Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación [10]. A continuación vamos a referirnos brevemente a cada una de estas fases desde el enfoque del tratamiento de la información imperfecta que en la actualidad se realiza en cada una de ellas. Preproceso de datos En cualquier aplicación del mundo real, muchos de los datos en crudo que encontramos en las bases de datos están incompletos, contienen ruido, hay campos redundantes u obsoletos, valores fuera de rango, datos desconocidos o no disponibles, anomalías, etc. Para que estos datos sean útiles en el proceso de extracción de conocimiento, es necesario que se sometan a un procesamiento previo, en forma de limpieza de datos. Una preparación de datos apropiada puede acortar el tiempo de procesamiento notablemente, dependiendo de la calidad de los datos originales, permitiendo producir mejores modelos en menos tiempo. Sin embargo, en la actualidad, la mayoría de las opciones realizadas en este preprocesamiento han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos

10 6 Emilio Serrano Fernández son ignorados y descartados. Además, la información imperfecta aparece de forma inevitable en dominios y situaciones realistas, por lo que se hace necesario facilitar aquellas acciones del preprocesamiento enfocadas a realizar un mejor y más completo tratamiento de la información imperfecta. Minería de datos Cuando se analiza el tratamiento de la imperfección que realizan algunas de las técnicas de minería más populares sorprende ver que en general han prestado poca atención a la información imperfecta. De este modo, generalmente se permite representar valores desconocidos, si bien es cierto que el tratamiento que se le da a estos valores simplemente consiste en sustituirlo por el valor que se considere más adecuado. Vamos a hacer un rápido recorrido por algunas de las técnicas que realizan un tratamiento más completo de la información imperfecta y que sería interesante tener recogidas en una herramienta enfocada al tratamiento de la imperfección. En principio nos centramos en analizar las distintas técnicas que proporciona la herramienta Weka [17], así como los árboles de decisión (FID3.4 [6,14] y C4.5 [8,13]) y el modelo de mezclas EMFGN [2,9]. Las técnicas implementadas en la plataforma Weka únicamente permiten valores desconocidos. C4.5, permite valores desconocidos, incertidumbre objetiva en atributos nominales e intervalos clásicos para atributos continuos. FID3.4 además de permitir valores desconocidos, permite introducir imprecisión por medio de etiquetas lingüisticas que se refieren a un conjunto fuzzy previamente definido y que puede obtenerse mediante el propio FID. EMFGN permite valores desconocidos, conjuntos fuzzy e incertidumbre objetiva y subjetiva tanto en atributos numéricos como continuos. Evaluación La evaluación de la bondad de los modelos obtenidos en la fase anterior es un aspecto importante y que en la actualidad se realiza en base a métodos de evaluación comunes a todas las técnicas (traten o no traten información imperfecta). Sin embargo, sería interesante disponer de metodologías de evaluación que realmente permitan medir la esencia del tratamiento de la imperfección que cada técnica realiza y que fueran capaces de proporcionar medidas de la robustez de la técnica frente a distintos porcentajes o grados de información imperfecta. Por lo tanto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 [12] de la cual se presenta una versión preliminar en esta trabajo. 3. Cuerpo del trabajo Las personas razonamos con información claramente imperfecta y lo hacemos con asombrosa facilidad. De esta manera, si antes de salir de casa observamos que el cielo está nublado cogeremos un paraguas; hemos deducido que va a llover aunque somos conscientes de que no es algo seguro. Sin embargo, aunque sabemos que el mundo no es perfecto, cuando plasmamos datos a los que pretendemos darle un tratamiento, solemos sesgar esa imperfección de la que somos conscientes. En los enfoques convencionales para la obtención de conocimiento a partir de datos, los vectores de entrada que caracterizan los rasgos de los datos no tienen en cuenta las fuentes de incertidumbre y la información desconocida o imprecisa es descartada o ignorada tanto para el proceso de diseño como para la evaluación. Sin embargo, la imprecisión e incertidumbre pueden aparecer de forma natural por diversas razones [11]. Por ejemplo, errores instrumentales o corrupción debido al ruido en los experimentos pueden

11 Una plataforma para la minería de datos en entornos imperfectos 7 dar lugar a información parcial o desconocida cuando se mida un determinado rasgo. En otros casos, la extracción de la información exacta puede ser excesivamente costosa o inviable. Por otro lado, en algunos casos puede ser conveniente utilizar información adicional proveniente de un experto, la cual, normalmente está dada mediante variables lingüísticas del tipo grado: pequeño, más o menos, etc. Se hace necesario, por lo tanto, incorporar el tratamiento de datos con rasgos o características heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de evaluación del modelo de un sistema. Se debe establecer en qué modo se presenta la imperfección en los datos que recopilamos y representar esa imperfección de manera fiel. Y una vez se haya estudiado en detalle ese punto y no antes, estaremos en posición de dar un tratamiento inteligente de la información que tenga en cuenta la imperfección. Por lo tanto el objetivo global que perseguimos en este trabajo es mejorar el planteamiento general del proceso de extracción de conocimiento, en cada una de sus fases, ante la presencia de datos imperfectos. Para ello presentamos una herramienta que apoya todo este proceso en entornos imperfectos. El trabajo lo hemos estructurado de forma que comienza presentando las posibles formas de imperfección que pueden aparecer en los datos. A continuación se presentan las distintas formas de representar la imperfección de los datos, desde las distintas teorías matemáticas que nos permiten formalizar dicha imperfección. Consecutivamente mostramos las principales fases del proceso de extracción inteligente de conocimiento en su tratamiento de la información imperfecta, analizando su situación actual frente a la imperfección. Posteriormente se presenta NIP 1.0, una plataforma que pretende ayudar en todo el proceso de extracción del conocimiento teniendo en cuenta la presencia de datos imperfectos. Después se usará NIP 1.0 para facilitar la realización de una comparativa entre dos técnicas de minería y sus tratamientos ante la imperfección: FID y EMFGN para finalizar con conclusiones y trabajos futuros Formas de imperfección Una posible clasificación de cómo se presenta la imperfección en los ítems de información de una base de datos sería decir que un item puede ser impreciso, incierto y/o desconocido (podemos verlo en la figura 2). Figura2. Imperfección en los datos

12 8 Emilio Serrano Fernández Item desconocido. El valor de un item puede ser desconocido por multitud de razones, aunque en ocasiones la ausencia de un valor no se debe a errores en los datos. Item incierto. Es un item del cual no tenemos certeza o seguridad absoluta de su valor. En ocasiones, la confianza que tenemos en la veracidad de algunos datos es muy baja. Por ejemplo, los datos generados por una prueba médica no son muy confiables si se conoce que el resultado de dicha prueba es con bastante frecuencia incorrecta. Por otro lado es frecuente conocer el error que comenten determinados sensores al realizar la medida de una determinada característica. Por lo tanto, la incertidumbre afecta a la confianza que damos al valor de un item. La confianza en este valor puede ser expresada en los términos: probable, plausible, creíble... Item impreciso. Un item es impreciso cuando su valor puede ser dividido. En cualquier otro caso hablamos de item preciso. Ejemplos de estos items los encontramos en la información que obtenemos del mundo real, ya sea mediante mediciones con instrumentos o proporcionada por otras personas y que no se corresponde con el valor real de dicho atributo (temperatura ambiental, peso de una persona) sino que se trata de un valor aproximado. En este caso hablamos de un item cuyo valor es vago, difuso, general, ambiguo... Como vemos ni la presencia de items desconocidos, ni la incertidumbre ni la imprecisión implican necesariamente errores en las mediciones o apreciaciones, sino que responden a que la realidad se presenta en ocasiones con estas características. Por lo tanto una alternativa al hecho de ignorar la imperfección de los datos o eliminarla, es la de profundizar en el tratamiento de la información imperfecta expresada con su verdadera naturaleza. En el siguiente apartado veremos algunas formas de representar estas tres posibles formas de imperfección mediante las principales teorías matemáticas que permiten su tratamiento Formas de representar la imperfección Las personas razonamos con información claramente imperfecta y lo hacemos con asombrosa facilidad. De esta manera, si antes de salir de casa observamos que el cielo está nublado cogeremos un paraguas; hemos deducido que va a llover aunque somos conscientes de que no es algo seguro. Sin embargo, aunque sabemos que el mundo no es perfecto, cuando plasmamos datos a los que pretendemos darle un tratamiento, solemos sesgar esa imperfección de la que somos conscientes. En los enfoques convencionales para la obtención de conocimiento a partir de datos, los vectores de entrada que caracterizan los rasgos de los datos no tienen en cuenta las fuentes de incertidumbre y la información desconocida o imprecisa es descartada o ignorada tanto para el proceso de diseño como para la evaluación. Sin embargo, la imprecisión e incertidumbre pueden aparecer de forma natural por diversas razones [11]. Por ejemplo, errores instrumentales o corrupción debido al ruido en los experimentos pueden dar lugar a información parcial o desconocida cuando se mida un determinado rasgo. En otros casos, la extracción de la información exacta puede ser excesivamente costosa o inviable. Por otro lado, en algunos casos puede ser conveniente utilizar información adicional proveniente de un experto, la cual, normalmente está dada mediante variables lingüísticas del tipo grado: pequeño, más o menos, etc. Se hace necesario, por lo tanto, incorporar el tratamiento de datos con rasgos o características heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de evaluación del modelo de un sistema. Se debe establecer en qué modo se presenta la imperfección en los datos que recopilamos y representar esa imperfección de manera fiel. Y una vez se haya estudiado en detalle ese punto y no antes, estaremos en posición de dar un tratamiento inteligente de la información que tenga en cuenta la imperfección. Por lo tanto el objetivo global que perseguimos en este trabajo es mejorar el planteamiento general del proceso de extracción de conocimiento, en cada una de sus fases, ante la presencia de datos imperfectos. Para ello presentamos una herramienta que apoya todo este proceso en entornos imperfectos. El trabajo lo hemos estructurado de forma que comienza presentando las posibles formas de imperfección que pueden aparecer en los datos. A continuación se presentan las distintas formas de representar

13 Una plataforma para la minería de datos en entornos imperfectos 9 la imperfección de los datos, desde las distintas teorías matemáticas que nos permiten formalizar dicha imperfección. Posteriormente mostramos las principales fases del proceso de extracción inteligente de conocimiento en su tratamiento de la información imperfecta, analizando su situación actual frente a la imperfección. Posteriormente se presenta NIP 1.0, una plataforma que pretende ayudar en todo el proceso de extracción del conocimiento teniendo en cuenta la presencia de datos imperfectos. Después se usará NIP 1.0 para facilitar la realización de una comparativa entre dos técnicas de minería y sus tratamientos ante la imperfección: FID y EMFGN para finalizar con conclusiones y trabajos futuros. Valores desconocidos Hay distintas teorías matemáticas que se han encargado de formalizar la imperfección [5]. Entre ellas las tres teorías principales son: La teoría de la probabilidad: usada extensamente para sacar conclusiones sobre la probabilidad de sucesos potenciales. Esta teoría formaliza la incertidumbre cuando las evidencias se basan en las salidas de experimentos aleatorios independientes. La teoría de conjuntos fuzzy: esta teoría es una extensión de la teoría de conjuntos clásica. En la teoría de conjuntos clásica la pertenencia de los elementos al conjunto es una condición de verdadero o falso (el elemento pertenece o no al conjunto). En cambio, para cada conjunto fuzzy, existe asociada una función de pertenencia para sus elementos, que indican en qué grado el elemento forma parte de ese conjunto fuzzy. Una de las formas más usuales de función de pertenencia es la trapezoidal. La teoría de evidencias de Dempster-Shafer: teoría para representar y combinar grados de creencia y que frente a la teoría de probabilidad permite representar la ignorancia y creencia que no esté asignada. Es una teoría que generaliza la teoría de la probabilidad. La creencia en esta teoría está caracterizada por una función denominada función de masas. A continuación, veremos diversas formas de representar la imperfección en los datos según las distintas teorías. Items desconocidos Un item o valor desconocido puede ser representado de las siguientes formas: Representarlo como tal, es decir, indicamos explícitamente que no conocemos su valor. Sustituirlo por la media de ese atributo si es numérico o por el valor más probable si es nominal. Ésta es una forma de traducir ese dato desconocido en uno conocido si bien es cierto que no es una representación fiel a la verdadera naturaleza de su imperfección. Sustituirlo por un intervalo que abarque todo el dominio del atributo. De esta manera indicamos que el valor del atributo puede ser cualquiera de su posible rango. Representarlo mediante un conjunto fuzzy que asigne grado de pertenencia 1 a todo el dominio. Función de masas: La teoría de evidencias también puede ser empleada para representar un valor desconocido. Para nominales asignamos masa 1 a todo el dominio de posibles valores: [valor1, valor2,..., valorn, m = 1] En la teoría de evidencias la masa de una evidencia es un valor entre 0 y 1. Se cumple que la masa de la hipótesis vacía es 0 y que el sumatorio de las masas de todos los posibles conjuntos de hipótesis es 1. De esta manera cuando asignamos la masa 1 a todos los posibles valores decimos que aunque el valor del atributo es desconocido tenemos la certeza absoluta de que será uno de esos valores. Para continuos asignamos masa 1 al dominio completo: ([min, max], m = 1)

14 10 Emilio Serrano Fernández Incertidumbre En este caso vamos a suponer que los datos pueden presentar incertidumbre objetiva (teoría de la probablidad) o incertidumbre subjetiva (Teoría de Evidencias de Demspter-Shafer). Un caso frecuente de incertidumbre objetiva en atributos numéricos es el conocer el error que se ha cometido con su instrumento de medida y que normalmente viene indicado por su media µ y su desviación típica σ. En este caso, sabemos que un valor x medido por dicho instrumento se encuentra en el intervalo [x + µ 2σ, x + µ + 2σ] con un grado de confianza del 95 %. Esta información podría ser expresada de las distintas formas que se muestran a continuación, comenzando por aquellas que más se adecúan a la verdadera naturaleza de dicha información: Como una distribución gaussiana: N(x + µ, σ) Esta función expresa exactamente la incertidumbre de la información. En la teoría de conjuntos fuzzy, como un conjunto fuzzy que asigne un mayor grado de pertenencia a los valores cercanos al centro del intervalo anterior: (x + µ 2σ, x + µ σ, x + µ + σ, x + µ + 2σ) Aquí el grado de pertenencia que tiene x al conjunto fuzzy es máximo en x y va a ir disminuyendo al acercarnos a los extremos del conjunto. En la teoría de conjuntos clásicos, como un intervalo que indica que el valor real puede ser cualquiera de los valores de dicho intervalo. [x + µ 2σ, x + µ + 2σ] En esta representación hay claramente pérdida de información como el hecho de que es más probable que el valor sea x y que la probabilidad va disminuyendo al acercarse a los extremos del intervalo. En la teoría de Evidencias de Dempster-Shafer, mediante una función de masas se asigna toda la masa a ese intervalo: ([x + µ 2σ, x + µ + 2σ], m = 1) Esta representación tiene el mismo problema que la anterior. En atributos nominales una forma de expresar una fuente de incertidumbre es mediante una distribución de probabilidad. [v1 = P (v1), v2 = P (v2)...vn = P (vn)] Como caso más general la función de distribución anterior puede ser considerada como una función de masas desde la Teoría de Evidencias de Dempster-Shafer. En atributos nominales podemos expresar cierta incertidumbre más general (incertidumbre subjetiva) mediante una función de masas general que asigna valores de masas al conjunto de partes del dominio. Imprecisión Se puede representar un valor impreciso mediante etiquetas linguísticas. Estas etiquetas linguísticas tendrán asignadas un conjunto fuzzy definido por su correspondiente función de pertenencia, como por ejemplo una función trapezoidal Las fases del proceso de extracción de conocimiento y el tratamiento de datos imperfectos Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación [10]. A continuación vamos a referirnos brevemente a cada una de estas fases desde el enfoque del tratamiento de la información imperfecta que en la actualidad se realiza en cada una de ellas.

15 Una plataforma para la minería de datos en entornos imperfectos 11 Preproceso de datos En cualquier aplicación del mundo real, muchos de los datos en crudo que encontramos en las bases de datos están incompletos, contienen ruido, hay campos redundantes u obsoletos, valores fuera de rango, datos desconocidos o no disponibles, anomalías, etc. Para que estos datos sean útiles en el proceso de extracción de conocimiento, es necesario que se sometan a un procesamiento previo, en forma de limpieza de datos. Una preparación de datos apropiada puede acortar el tiempo de procesamiento notablemente, dependiendo de la calidad de los datos originales, permitiendo producir mejores modelos en menos tiempo. Sin embargo, en la actualidad, la mayoría de las opciones realizadas en este preprocesamiento han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos son ignorados y descartados. Además, la información imperfecta aparece de forma inevitable en dominios y situaciones realistas, por lo que se hace necesario facilitar aquellas acciones del preprocesamiento enfocadas a realizar un mejor y más completo tratamiento de la información imperfecta. Minería de datos Cuando se analiza el tratamiento de la imperfección que realizan algunas de las técnicas de minería más populares sorprende ver que en general han prestado poca atención a la información imperfecta. De este modo, generalmente se permite representar valores desconocidos, si bien es cierto que el tratamiento que se le da a estos valores simplemente consiste en sustituirlo por el valor que se considere más adecuado. Vamos a hacer un rápido recorrido por algunas de las técnicas que realizan un tratamiento más completo de la información imperfecta y que sería interesante tener recogidas en una herramienta enfocada al tratamiento de la imperfección. En principio nos centramos en analizar las distintas técnicas que proporciona la herramienta Weka [17], así como los árboles de decisión (FID3.4 [6,14] y C4.5 [8,13]) y el modelo de mezclas EMFGN [2,9]. Las técnicas implementadas en la plataforma Weka únicamente permiten valores desconocidos. C4.5, permite valores desconocidos, incertidumbre objetiva en atributos nominales e intervalos clásicos para atributos continuos. FID3.4 además de permitir valores desconocidos, permite introducir imprecisión por medio de etiquetas lingüisticas que se refieren a un conjunto fuzzy previamente definido y que puede obtenerse mediante el propio FID. EMFGN permite valores desconocidos, conjuntos fuzzy e incertidumbre objetiva y subjetiva tanto en atributos numéricos como continuos. Evaluación La evaluación de la bondad de los modelos obtenidos en la fase anterior es un aspecto importante y que en la actualidad se realiza en base a métodos de evaluación comunes a todas las técnicas (traten o no traten información imperfecta). Sin embargo, sería interesante disponer de metodologías de evaluación que realmente permitan medir la esencia del tratamiento de la imperfección que cada técnica realiza y que fueran capaces de proporcionar medidas de la robustez de la técnica frente a distintos porcentajes o grados de información imperfecta. Por lo tanto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 [12] que se presenta en la siguiente sección NIP NIP es un prototipo evolutivo de una herramienta para el proceso de extracción inteligente de conocimiento atendiendo a la imperfección en los datos.

16 12 Emilio Serrano Fernández Vamos a ver a continuación las principales funcionalidades de la herramienta en cada una de las fases del proceso de extracción del conocimiento, si bien debemos comentar que la fase de evaluación se encuentra actualmente en su desarrollo teórico como comentaremos más adelante. Figura3. NIP 1.0 NIP puede descargarse desde su sitio web jcadenas/nip1.0/index.htm Preproceso Partiendo de una base de datos típica de datos separados por comas (como las de UCI Machine Learning Repository [16]) NIP automatiza las siguientes tareas: Normaliza la base de datos inicial atendiendo al máximo y mínimo valor que toma cada atributo en la base de datos. Realiza la proyección, es decir, permite seleccionar de los datos originales qué atributos serán los que aparecerán al final de la fase de preproceso. Realiza particiones fuzzy. A partir de los atributos numéricos se realiza una partición de sus valores en conjuntos fuzzy (por defecto entre 1 y 5 conjuntos fuzzy aunque se puede especificar por opciones avanzadas un número fijo de conjuntos o un rango mayor). Dicha partición se hace utilizando FID [6]. Por supuesto el usuario podrá modificar a mano los conjuntos fuzzy que NIP genere por defecto. El realizar esta partición es crucial para añadir la imprecisión, ya que a partir de la definición de estos conjuntos la imprecisión se incluirá simplemente sustituyendo un dato por el conjunto fuzzy al que pertenezca con mayor grado de pertenencia. Convierte a formatos diversos. Al final del preproceso y siempre que no se especifique lo contrario se obtendrá la base de datos original en el formato de la herramienta Weka, así como los de FID3.4, EMFGN y C4.5. Por supuesto en el futuro se pueden añadir a NIP 1.0 otros formatos de salida para nuevas técnicas de minería. Sin embargo, nuestro objetivo final en esta fase es que se permita especificar un formato libre en el que el usuario pueda establecer la manera de separar los datos, la forma de representar valores desconocidos, la manera de incluir conjuntos fuzzy... Es decir, que el usuario pueda de una manera fácil y cómoda usar todas las funcionalidades de NIP 1.0 pero generando finalmente una base de datos con los datos expresados en el formato que desee, adaptándose por tanto la herramienta al formato de base de datos con la que quiera trabajar. Genera bases de datos con imperfección. Por defecto, se añade un porcentaje de atributos desconocidos y de imprecisos que es especificado por el usuario. Adentrándonos en las opciones avanzadas se puede tener un gran control sobre la cantidad de imperfección, los atributos donde aparecen, su formato, las técnicas para las cuales se desean generar las bases de datos imperfectas... En concreto se permite especificar: 1 Para cada forma de imperfección { 2 Para cada técnica de minería { 3 Cada dato será imperfecto de cierta forma especificada y con cierta probabilidad especificada ; 4 } 5 }

17 Una plataforma para la minería de datos en entornos imperfectos 13 Por ejemplo, se puede establecer que el atributo petal, tenga valores desconocidos en el formato de FID con una probabilidad de 0.1 y que dichos valores desconocidos se sustituyan por el ValorMasProbable (que establece que ante un valor desconocido se sustituye por la media de los valores conocidos del atributo en el caso de un atributo numérico, o bien por el nominal más frecuente en el caso de atributos nominales). Vamos a ver la funcionalidad de NIP 1.0 a través de un ejemplo de su uso, por medio de la conocida base de datos IRIS DATA. Un ejemplo de uso de NIP 1.0 para el preproceso Veamos el uso más básico de NIP además de enumerar las opciones avanzadas de inclusión de imperfección. El primer campo que nos pide NIP es la base de datos de entrada, el fichero con la base de datos para nuestro ejemplo iris.data. El formato es simplemente datos separados por comas. Si no disponemos de una base de datos podemos pulsar el botón obtener para que se abra una ventana de navegador web a un repositorio de BBDD. A continuación especificamos el directorio de salida salida. Pulsando el botón de formato podemos seleccionar los formatos de salida que se producirán entre: Weka, FID, C4.5, EMFGN o formato libre. También se introduce la probabilidad de que un dato sea impreciso o desconocido. Si se quisiese la base de datos perfecta se podría especificar en ambas probabilidades el valor 0. La incertidumbre no se añade todavía, se añadirá como opción avanzada. Cuando introdujimos la base de datos de entrada (iris.data) automáticamente se rellena el campo atributos con at1 at2 at3 at4 CLASS1. Estos son los nombres de los atributos por defecto, atx para atributos numéricos (aquellos cuyo primer valor de la base de datos empiezan con un número en coma flotante) y CLASSX para atributos nominales (el resto). En este punto se puede cambiar el nombre que se ha asignado por defecto a los atributos, la única restricción es que se usen letras minúsculas para numéricos y mayúsculas para nominales. En nuestro caso, la base de datos iris, pondremos sepall sepalw petall petalw CLASS. El estado en este momento sería el que se muestra en la figura 4. Figura4. Estado de NIP 1.0

18 14 Emilio Serrano Fernández Si deseamos considerar un atributo numérico como nominal, simplemente se le debe asignar un nombre en mayúsculas al atributo. También se puede establecer los formatos de salida que se producirán, incluso un formato libre (figura 5). En el formato libre se puede establecer el separador de los datos (no sólo espacio, también otros textos como, o ;...), el texto que aparece ante un dato desconocido (por ejemplo?, -1, [0,1]...) y también la forma de representar los conjuntos fuzzy (por ejemplo v1,v2,v3,v4 o (v1/v2/v3/v4). Con ésto se consigue dar flexibilidad a la herramienta en cuanto al formato de salida y facilitar su uso a autores de técnicas de minería variopintas. Figura5. Formato libre de NIP 1.0 En este punto ya se puede pulsar los botones por defecto, fuzzy sets y obtener BBDD sucesivamente para obtener las bases de datos imperfectas en cada uno de los formatos en el directorio de salida especificado. Además, una vez se hayan realizado estos pasos, NIP permite guardar la configuración elegida, de esta manera trabajar con la misma base de datos (o trabajos parecidos) será tan simple como cargar la configuración previamente guardada y realizar las modificaciones que se deseen en dicha configuración (cambiar conjuntos fuzzy definidos, atributos en la base de datos, formatos de salida...) antes de producir nuevamente las bases de datos de salida. Vamos a explicar los tres pasos básicos que se deben realizar con NIP 1.0 una vez se han introducido los parámetros mínimos de entrada: 1. obtener la configuración por defecto. 2. obtener los conjuntos fuzzy. 3. obtener las bases de datos. Al pulsar el botón por defecto en el panel de opciones avanzadas aparecen los datos necesarios para que NIP calcule los conjuntos fuzzy de los atributos numéricos. Las opciones avanzadas para el ejemplo quedan como siguen: 1 2 sepall sepalw petall petalw CLASS 0 3 Iris - setosa Iris - versicolor Iris - virginica 7 FIN

19 Una plataforma para la minería de datos en entornos imperfectos 15 Al pulsar el botón de fuzzy sets (y antes de obtener las BBDD) NIP pedirá cual de los atributos es la variable de decisión para establecer los conjuntos fuzzy. La variable de decisión debe ser o un atributo numérico que ya se haya particionado o un atributo nominal, lo más sencillo es el segundo caso, así que en este ejemplo se puede elegir CLASS. Con ello las opciones avanzadas quedan como siguen: 1 2 sepall 1 1 sepall sepalw 1 3 sepalw sepalw sepalw petall 1 5 petall petall petall petall petall petalw 1 3 petalw petalw petalw CLASS 0 3 Iris - setosa Iris - versicolor Iris - virginica 7 FIN Podemos ver que a continuación de un atributo aparecen una serie de quíntuplas que hacen referencia al nombre del conjunto fuzzy así como a los 4 valores de la función trapezoidal que lo definen. De esta manera el atributo sepal length (sepall) se ha particionado en un solo conjunto fuzzy sepall que será el conjunto que aparezca en aquellos valores imprecisos de la base de datos para este atributo. Por otro lado el atributo petal width (petalw) se ha separado en 3 conjuntos fuzzy (ver figura 6): 1 petalw petalw petalw Figura6. Conjuntos fuzzy de petal width Al obtener los conjuntos fuzzy también se permite añadir opciones avanzadas en lo referente a la inclusión de imperfección en forma de comandos que se verán en el siguiente apartado. Opciones avanzadas en el preproceso Tras ver los conjuntos fuzzy que se han establecido, sobre el propio panel de opciones avanzadas se puede escribir para: Realizar la proyección: Eliminar líneas completas, es decir, borrar atributos que ya no aparecerán en las BBDD producidas. Cambiar conjuntos fuzzy, es decir, modificar la quintupla que representa un conjunto fuzzy (nombre y cuatro valores del trapecio).

20 16 Emilio Serrano Fernández Además se puede precisar la imperfección que se va a añadir a cada atibuto añadiendo funciones. Estas funciones son: perfecto: Con esta opción se permite que un atributo esté libre de imperfecciones. probabilidad(a1,a2): Siendo a1 el tipo de imperfección (incompleto, impreciso) y a2 la probabilidad de esa imperfección. probabilidad(incierto,µ,σ): Para la incertidumbre se introduce la media (µ) y la desviación típica (σ) del error cometido al medir el valor representado en la base de datos. Hasta el momento, la herramienta sólo permite introducir este tipo de incertidumbre objetiva sobre atributos numéricos. impreciso(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID,C4.5 ) y p2 el tipo de imprecisión que sólo puede valer defecto para indicar la imprecisión por defecto (etiquetas lingüísticas que señalan un conjunto fuzzy). Se asignará a un valor el conjunto fuzzy al que pertenezca con mayor grado de pertenencia. incompleto(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID,C4.5 ) y p2 el tipo de valor desconocido, que puede ser: defecto: En el formato por defecto, EMFGN toma el valor? para expresar un valor desconocido, FID toma el valor -1 (y no permite que la variable de decisión sea desconocida, truncando las líneas de la base de datos en las que se dé esta condición). intervalo: Expresa el valor desconocido mediante el intervalo de valores que puede tomar. En el caso de que se asigne esta opción a un atributo nominal (lo cual es incorrecto), se devolverá el valormasprobable. valormasprobable: Un valor desconocido se sustituye por la media si el atributo es numérico o por el nominal más frecuente en caso de que el atributo sea nominal. conjuntofuzzy: Asigna un conjunto fuzzy al rango del atributo (minimo, maximo). En el caso de que se aplique este formato a un atributo nominal (opción incorrecta), se devolverá el valormasprobable. funciondemasas: El valor desconocido se sustituye por la función de masas ([minimo, maximo], m = 1) para atributos continuos y para los nominales por la función de masas [valor1, valor2...valorn, m = 1]. incierto(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID o C4.5 ) y p2 el tipo de incertidumbre que puede valer: (Llamaremos x al valor de un atributo continuo,µ a la media y σ a la desviación típica de la incertidumbre del atributo). intervalo: El valor x del atributo incierto se sustituye por el intervalo [x + µ 2σ, x + µ + 2σ] conjuntofuzzy: El valor x es sustituido por el conjunto fuzzy definido por la siguiente función trapezoidal (x + µ 2σ, x + µ 2σ, x + µ + 2σ, x + µ + 2σ). conjuntofuzzy2: Igual al anterior, pero dando más pertenencia a los valores cercanos al centro del intervalo anterior (el conjunto fuzzy se define por la función trapezoidal (x + µ 2σ, x + µ σ, x + µ + σ, x + µ + 2σ)). gaussiana: El valor x se sustituye por la gaussiana (N = x + µ, σ 2 ). funciondemasas: El valor x se sustituye por la función de masas ([x+µ 2σ, x+µ+2σ], m = 1). Para introducir estas opciones también se puede usar el asistente que se despliega pulsando en el botón más de la esquina inferior izquierda, podemos verlo en la figura 7. Veamos un ejemplo del uso de las opciones avanzadas, para la base de datos iris vamos a especificar: El primer atributo con valores desconocidos (probabilidad 0.01 y por defecto) e imprecisión (probabilidad 0.2 y por defecto). El segundo atributo con valores desconocidos (con probabilidad 0.5 y por defecto) pero no impreciso. El tercer atributo con valores desconocidos (con probabilidad 0.5 y de formato valormasprobable) pero no impreciso. Que el cuarto atributo y la clase sean perfectos. Para ello usaremos el asistente que se despliega pulsando en el botón más... de la esquina inferior izquierda, podemos verlo en la figura 7. Tras introducir las opciones para cada atributo y para cada técnica de minería que consideraremos (FID y EMFGN), las opciones avanzadas en la vista principal quedan de la siguiente manera: