Una plataforma para la minería de datos en entornos imperfectos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Una plataforma para la minería de datos en entornos imperfectos"

Transcripción

1 Una plataforma para la minería de datos en entornos imperfectos Emilio Serrano Fernández MEMORIA TESIS DE MASTER Master en Tecnologías de la Información y Telemática Avanzadas Curso 2006/07 Dpto. Ingeniería de la Información y las Comunicaciones Dpto. Ingeniería y Tecnología de Computadores Facultad de Informática. Universidad de Murcia. Campus de Espinardo Murcia. Spain.

2

3 Dedicatorias A mi abuela que siempre me apoya y enmarca cualquier cosa que lleve mi nombre (quiera o no quiera yo). A mi directora, M a Carmen Garrido, que siempre corrige con paciencia mis fallos (incluso cuando se trata varias veces del mismo error).

4

5 Una plataforma para la minería de datos en entornos imperfectos 1 Resumen Extendido La estimación de magnitudes desconocidas a partir de la información disponible es un problema fundamental en numerosas aplicaciones de las ciencias e ingenierías. Esta tarea puede resolverse, en principio, cuando se dispone de un modelo apropiado de las relaciones relevantes entre las magnitudes conocidas y desconocidas. Cuando esto no ocurre puede utilizarse una etapa previa de aprendizaje inductivo a partir de un conjunto de datos resueltos. El objetivo es obtener automáticamente el conocimiento suficiente para realizar inferencias en situaciones futuras. En la actualidad, la disciplina que se encarga de la obtención de este conocimiento a partir de datos es el Análisis Inteligente de Datos. Para ayudar en este proceso se han desarrollado numerosas herramientas como Weka, RapidMiner,... Sin embargo, en todas ellas la tendencia es eliminar los datos imperfectos. Por ejemplo es típico en el preproceso la eliminación de ejemplos en las bases de datos que contengan valores desconocidos, o la sustitución de esos datos desconocidos por valores medios. Como consecuencia de esto, las técnicas de minería de datos que son recopiladas en éstas herramientas trabajan con datos carentes de imperfección y como mucho encontramos el tratamiento de valores desconocidos expresados comúnmente como (? ). Es por esto que en esta tesis se analizan aquellos aspectos que permitirían mejorar el proceso de extracción inteligente de conocimiento ( Knoweledge Discovery in Databases ) ante la presencia de datos imperfectos. Como propuesta para llevar a cabo estas mejoras se presenta NIP 1.0, una plataforma de ayuda a la extracción de conocimiento teniendo en cuenta la imperfección. Aunque en la actualidad esta plataforma se encuentra en fase de desarrollo ya recoge una amplia funcionalidad, principalmente en la fase de preprocesado y recoge algunas de las técnicas que en la actualidad realizan un mejor y más completo tratamiento de la información imperfecta. Con esta plataforma pretendemos facilitar la investigación en este campo permitiendo que el propio usuario pueda incluir fácilmente su técnica en la herramienta y definir el formato que utiliza para expresar los distintos tipos de información imperfecta. Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación. En esta tesis se estudiará cada una de estas fases desde el enfoque del tratamiento de la información imperfecta. Se muestra que en el preproceso de datos la tendencia actual no ha prestado especial atención a expresar la verdadera naturaleza de la imperfección de los datos. Respecto a la fase de minería de datos, que las formas de imperfección permitidas en algunas de las principales técnicas de minería de datos son escasas en su mayoría, y por último, cómo la evaluación está basada en métodos demasiado genéricos. Por todo ésto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor y más completo tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 que se presenta en la tesis. Se proporciona un ejemplo de uso de NIP además de explicar sus principales funciones: añadir imperfección a bases de datos de numerosas formas (la idea es recopilar las formas más frecuentes de imperfección expresadas desde las principales teorías matemáticas y llevarlas a las bases de datos con un formato definible por el usuario), realizar minería de datos por medio de diversas técnicas, realizar la evaluación de los modelos obtenidos... Para comenzar a abordar todo este trabajo se ha realizado una posible clasificación de cómo se presenta la imperfección en los ítems de información de una base de datos. Se verá que un item puede ser impreciso, incierto y/o desconocido.

6 2 Emilio Serrano Fernández Se han analizado las posibles formas de representar estas tres formas de imperfección mediante las principales teorías matemáticas que permiten su tratamiento (la teoría de la probabilidad, la teoría de conjuntos fuzzy y la teoría de evidencias de Dempster-Shafer). De esta manera un atributo imperfecto se puede representar de diversas formas usando las distintas teorías y cada una de estas formas representa la naturaleza de dicha imperfección en mayor o menor grado. En general, se puede representar la imperfección como tal, como diversos conjuntos fuzzy, mediante funciones de masas, con medias de valores numéricos, por medio de valores discretos de aparición más frecuente, con intervalos, por probabilidades de tomar distintos valores, con funciones de densidad gaussianas... También se ha profundizado en el estudio de técnicas que en la actualidad realizan un mayor y más completo tratamiento de la información imperfecta, centrándonos en las siguientes: un árbol de decisión (FID3.4) y un modelo de mezclas (EMFGN). Utilizando la plataforma desarrollada, NIP, es mucho menos laborioso realizar una comparativa entre técnicas de minería y cómo se comportan ante la imperfección. Esta comparativa nos servirá para observar posibles carencias y proponer mejoras. En concreto se compara el modelo de mezclas EMFGN con el árbol de decisión FID3.4. Se realizan pruebas con 18 variaciones de las bases de datos IRIS e IONOSPHERE en función de la imperfección introducida en cada una de ellas. En general creemos que nos encontramos ante un amplio campo de investigación como es la inclusión de la imperfección en el proceso de extracción de conocimiento. Además se dan los pasos iniciales en la construcción de una herramienta que facilite en trabajo en este campo. Palabras clave: Tratamiento de datos imperfectos, Extracción Inteligente de Conocimiento, Minería de datos, Imprecisión, Incertidumbre.

7 Una plataforma para la minería de datos en entornos imperfectos 3 1. Introducción Como hemos comentado anteriormente, son múltiples las técnicas de minería de datos que se utilizan en la actualidad desde distintas propuestas teóricas, y la mayoría de ellas han prestado relativamente poca atención a la información imperfecta. De esta forma, el objetivo global en el que se enmarca esta tesis es mejorar el planteamiento general del análisis inteligente de datos, en cada una de sus fases, ante la presencia de datos imperfectos. Esto supone afrontar los siguientes subobjetivos: 1. Análisis y estudio de los distintos tipos de imperfección que aparecen en los problemas del mundo real. Realizar una clasificación de los distintos tipos de imperfección que aparecen en problemas del mundo real y de las teorías que los soportan. 2. Análisis y estudio del tratamiento de la imperfección realizado por las técnicas empleadas en la fase de minería de datos. En la actualidad existen múltiples técnicas de minería de datos, basadas en diferentes propuestas teóricas [2]. Sin embargo, la mayoría de técnicas de construcción de modelos para realizar las tareas de inferencia han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos son descartados o ignorados tanto para el proceso de aprendizaje como para el de inferencia. Por lo tanto, dado que las observaciones imperfectas aparecen de forma inevitable en dominios y situaciones realistas y que a priori no sabemos los tipos de datos con los que tenemos que trabajar, queremos realizar un estudio lo más exhaustivo posible de las técnicas que permiten en la actualidad el tratamiento de la información imperfecta en mayor o menor grado. Es decir, nos centraremos en aquellas técnicas que incorporen el tratamiento de observaciones con atributos heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de inferencia. 3. Mejora del tratamiento de la imperfección realizado por alguna de estas técnicas. Una vez realizado un estudio del tratamiento de la imperfección realizado por las técnicas, nos proponemos mejorar dicho tratamiento en alguna de ellas. 4. Análisis y estudio de las técnicas de evaluación empleadas en la fase de evaluación del análisis inteligente de datos. 5. Propuestas de métodos de evaluación más adecuados al entorno de trabajo con datos imperfectos. Derivado del estudio de los métodos de evaluación empleados en la fase de evaluación del análisis inteligente de datos, se propondrán nuevos métodos de evaluación que potencien la capacidad de las técnicas a la hora de tratar con la verdadera naturaleza de la información imperfecta, frente a ignorarla o transformarla a datos sin imperfección. 6. Construcción de una herramienta de apoyo al análisis inteligente de datos ante la presencia de datos imperfectos. El diseño e implantación de esta herramienta permitirá el manejo de bases de datos con imperfección, recopilará todas aquellas técnicas que realicen el tratamiento de imperfección en alguna de sus facetas, permitiendo en todo momento el añadir nuevas técnicas y recogerá métodos de evaluación adecuados a este entorno. Dado que actualmente existe mucho interés en el desarrollo de la tecnología de agentes inteligentes y su popularidad ha crecido rápidamente, pretendemos hacer uso de esta metodología a la hora de construir esta herramienta. 7. Los resultados obtenidos en todos estos subjetivos serán llevados a la práctica en su aplicación al problema algoritmo-instancia. Al trabajar con metaheurísticas, surge el problema algoritmo-instancia que establece que conociendo un algoritmo y unos valores para sus parámetros que den muy buen comportamiento frente a una instancia del problema que pretende resolver, es posible que ni este algoritmo ni estos parámetros funcionen bien para otra instancia del mismo problema. De forma más general, podemos pensar en utilizar diferentes metaheurísticas bajo un mismo esquema coordinado para resolver dicho problema. Para coordinar las diferentes metaheurísticas podemos considerar un esquema en el que cada metaheurística esté representada por un agente y existe un agente coordinador que modifica sus

8 4 Emilio Serrano Fernández comportamientos. En este esquema, uno de los problemas que surge es el diseño de coordinador para realizar, de manera eficiente y/o efectiva, la cooperación entre las metaheurísticas. Nuestra propuesta es modelar el coordinador mediante un conjunto de reglas borrosas que van ser el resultado de un proceso de análisis inteligente de datos [1]. En esta tesis, como trabajo de inicio, se ha cubierto el subobjetivo 1 y se han comenzado a abordar los subobjetivos 2 y Estado del arte/trabajos relacionados/antecedentes La estimación de magnitudes desconocidas a partir de la información disponible es un problema fundamental en numerosas aplicaciones de las ciencias e ingenierías. Esta tarea puede resolverse, en principio, cuando se dispone de un modelo apropiado de las relaciones relevantes entre las magnitudes conocidas y desconocidas. Cuando esto no ocurre puede utilizarse una etapa previa de aprendizaje inductivo a partir de un conjunto de datos resueltos. El objetivo es obtener automáticamente el conocimiento suficiente para realizar inferencias en situaciones futuras. En la actualidad, la disciplina que se encarga de la obtención de este conocimiento a partir de datos es el Análisis Inteligente de Datos. La tarea fundamental del análisis inteligente de datos es encontrar modelos inteligibles a partir de los datos. Para que este proceso sea efectivo debería ser automático o semiautomático y los modelos descubiertos deberían ayudar a tomar decisiones más seguras que aporten algún beneficio al sistema. Por tanto, son dos los retos del análisis inteligente de datos: por un lado, trabajar con grandes volúmenes de datos, con los problemas que conlleva (ruido, datos ausentes, vaguedad, etc.), y por el otro usar técnicas adecuadas para analizar los mismos y extraer conocimiento novedoso y útil. En muchos casos la utilidad del conocimiento minado está íntimamente relacionado con la comprensibilidad del modelo inferido, por tanto, es importante hacer que la información descubierta sea más comprensible (mediante reglas, etc.). Hasta la fecha, la mayoría de las herramientas actuales de apoyo a la extracción inteligente de conocimiento han prestado bastante atención a la preparación de los datos ya que es un proceso muy importante debido a que los propios datos pueden haber sido recolectados de una manera ad-hoc, se pueden encontrar registros sin rellenar, o se pueden haber producido errores en la entrada de datos. Como resultado, el proceso del análisis inteligente de datos no puede tener éxito sin un serio esfuerzo de preparación de datos. En la figura 1 podemos ver el esfuerzo requerido en cada fase del proceso del análisis inteligente de datos ([10]). Como se muestra en la figura, el 60 % del tiempo se dedica en preparar los datos para la minería, lo que pone de manifiesto la crítica dependencia en datos limpios y relevantes. Sin embargo, este preproceso tiene como objetivo eliminar los datos imperfectos. Por ejemplo es típico en el preproceso la eliminación de ejemplos en las bases de datos que contengan valores desconocidos, o la sustitución de esos datos desconocidos por valores medios. Como consecuencia de esto, las técnicas de minería de datos que son recopiladas en estas herramientas trabajan con datos carentes de imperfección y como mucho encontramos el tratamiento de valores desconocidos expresados comúnmente como? ). Pongamos por ejemplo dos de las más conocidas plataformas para la extracción de conocimiento: Weka y RapidMiner. La Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. Este ave da nombre a una extensa colección de algoritmos de Máquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java; útiles para ser aplicados sobre datos mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además, Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Weka [17] está diseñado como una herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es una tarea sencilla.

9 Una plataforma para la minería de datos en entornos imperfectos 5 Figura1. Esfuerzo requerido en cada fase del análisis inteligente de datos Sin embargo, a pesar de todas las ventajas que ofrece Weka, parece que haya crecido ampliando la cantidad de técnicas que puede aplicar en lugar de la calidad de dichas técnicas, al menos, en lo que al tratamiento de la imperfección se refiere. La prueba es que la única forma de imperfección en los datos que admite Weka es el uso del carácter? para denotar que un dato es desconocido en la base de datos inicial. De aspecto mucho más cuidado disponemos de RapidMiner (antes YALE) [15], el cual es un sistema rápido para el descubrimiento del conocimiento. Una ventaja significativa respecto a Weka es que permite un amplio formato para las bases de datos de entrada, aceptando el de Weka y C4.5 por ejemplo. Una vez más las líneas de avance de la plataforma se han basado en añadir formatos y técnicas de minería ya existentes o compatibles con éstas, por lo que la imperfección vuelve a estar relegada a un segundo plano. Todo esto nos lleva a plantear una herramienta de ayuda al trabajo en análisis inteligente de datos con la verdadera naturaleza de la información imperfecta expresadas desde distintas formas matemáticas para el tratamiento de la imperfección, como son la teoría de la probabilidad, la teoría de los conjuntos fuzzy y la teoría de evidencias de Dempster-Shafer. Se requieren herramientas que no partan de encubrir o eliminar la imperfección además de apoyar la elaboración de bases de datos imperfectas con fines de investigación. Persiguiendo esa idea se ha desarrollado la herramienta NIP que se presenta en esta tesis. Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación [10]. A continuación vamos a referirnos brevemente a cada una de estas fases desde el enfoque del tratamiento de la información imperfecta que en la actualidad se realiza en cada una de ellas. Preproceso de datos En cualquier aplicación del mundo real, muchos de los datos en crudo que encontramos en las bases de datos están incompletos, contienen ruido, hay campos redundantes u obsoletos, valores fuera de rango, datos desconocidos o no disponibles, anomalías, etc. Para que estos datos sean útiles en el proceso de extracción de conocimiento, es necesario que se sometan a un procesamiento previo, en forma de limpieza de datos. Una preparación de datos apropiada puede acortar el tiempo de procesamiento notablemente, dependiendo de la calidad de los datos originales, permitiendo producir mejores modelos en menos tiempo. Sin embargo, en la actualidad, la mayoría de las opciones realizadas en este preprocesamiento han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos

10 6 Emilio Serrano Fernández son ignorados y descartados. Además, la información imperfecta aparece de forma inevitable en dominios y situaciones realistas, por lo que se hace necesario facilitar aquellas acciones del preprocesamiento enfocadas a realizar un mejor y más completo tratamiento de la información imperfecta. Minería de datos Cuando se analiza el tratamiento de la imperfección que realizan algunas de las técnicas de minería más populares sorprende ver que en general han prestado poca atención a la información imperfecta. De este modo, generalmente se permite representar valores desconocidos, si bien es cierto que el tratamiento que se le da a estos valores simplemente consiste en sustituirlo por el valor que se considere más adecuado. Vamos a hacer un rápido recorrido por algunas de las técnicas que realizan un tratamiento más completo de la información imperfecta y que sería interesante tener recogidas en una herramienta enfocada al tratamiento de la imperfección. En principio nos centramos en analizar las distintas técnicas que proporciona la herramienta Weka [17], así como los árboles de decisión (FID3.4 [6,14] y C4.5 [8,13]) y el modelo de mezclas EMFGN [2,9]. Las técnicas implementadas en la plataforma Weka únicamente permiten valores desconocidos. C4.5, permite valores desconocidos, incertidumbre objetiva en atributos nominales e intervalos clásicos para atributos continuos. FID3.4 además de permitir valores desconocidos, permite introducir imprecisión por medio de etiquetas lingüisticas que se refieren a un conjunto fuzzy previamente definido y que puede obtenerse mediante el propio FID. EMFGN permite valores desconocidos, conjuntos fuzzy e incertidumbre objetiva y subjetiva tanto en atributos numéricos como continuos. Evaluación La evaluación de la bondad de los modelos obtenidos en la fase anterior es un aspecto importante y que en la actualidad se realiza en base a métodos de evaluación comunes a todas las técnicas (traten o no traten información imperfecta). Sin embargo, sería interesante disponer de metodologías de evaluación que realmente permitan medir la esencia del tratamiento de la imperfección que cada técnica realiza y que fueran capaces de proporcionar medidas de la robustez de la técnica frente a distintos porcentajes o grados de información imperfecta. Por lo tanto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 [12] de la cual se presenta una versión preliminar en esta trabajo. 3. Cuerpo del trabajo Las personas razonamos con información claramente imperfecta y lo hacemos con asombrosa facilidad. De esta manera, si antes de salir de casa observamos que el cielo está nublado cogeremos un paraguas; hemos deducido que va a llover aunque somos conscientes de que no es algo seguro. Sin embargo, aunque sabemos que el mundo no es perfecto, cuando plasmamos datos a los que pretendemos darle un tratamiento, solemos sesgar esa imperfección de la que somos conscientes. En los enfoques convencionales para la obtención de conocimiento a partir de datos, los vectores de entrada que caracterizan los rasgos de los datos no tienen en cuenta las fuentes de incertidumbre y la información desconocida o imprecisa es descartada o ignorada tanto para el proceso de diseño como para la evaluación. Sin embargo, la imprecisión e incertidumbre pueden aparecer de forma natural por diversas razones [11]. Por ejemplo, errores instrumentales o corrupción debido al ruido en los experimentos pueden

11 Una plataforma para la minería de datos en entornos imperfectos 7 dar lugar a información parcial o desconocida cuando se mida un determinado rasgo. En otros casos, la extracción de la información exacta puede ser excesivamente costosa o inviable. Por otro lado, en algunos casos puede ser conveniente utilizar información adicional proveniente de un experto, la cual, normalmente está dada mediante variables lingüísticas del tipo grado: pequeño, más o menos, etc. Se hace necesario, por lo tanto, incorporar el tratamiento de datos con rasgos o características heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de evaluación del modelo de un sistema. Se debe establecer en qué modo se presenta la imperfección en los datos que recopilamos y representar esa imperfección de manera fiel. Y una vez se haya estudiado en detalle ese punto y no antes, estaremos en posición de dar un tratamiento inteligente de la información que tenga en cuenta la imperfección. Por lo tanto el objetivo global que perseguimos en este trabajo es mejorar el planteamiento general del proceso de extracción de conocimiento, en cada una de sus fases, ante la presencia de datos imperfectos. Para ello presentamos una herramienta que apoya todo este proceso en entornos imperfectos. El trabajo lo hemos estructurado de forma que comienza presentando las posibles formas de imperfección que pueden aparecer en los datos. A continuación se presentan las distintas formas de representar la imperfección de los datos, desde las distintas teorías matemáticas que nos permiten formalizar dicha imperfección. Consecutivamente mostramos las principales fases del proceso de extracción inteligente de conocimiento en su tratamiento de la información imperfecta, analizando su situación actual frente a la imperfección. Posteriormente se presenta NIP 1.0, una plataforma que pretende ayudar en todo el proceso de extracción del conocimiento teniendo en cuenta la presencia de datos imperfectos. Después se usará NIP 1.0 para facilitar la realización de una comparativa entre dos técnicas de minería y sus tratamientos ante la imperfección: FID y EMFGN para finalizar con conclusiones y trabajos futuros Formas de imperfección Una posible clasificación de cómo se presenta la imperfección en los ítems de información de una base de datos sería decir que un item puede ser impreciso, incierto y/o desconocido (podemos verlo en la figura 2). Figura2. Imperfección en los datos

12 8 Emilio Serrano Fernández Item desconocido. El valor de un item puede ser desconocido por multitud de razones, aunque en ocasiones la ausencia de un valor no se debe a errores en los datos. Item incierto. Es un item del cual no tenemos certeza o seguridad absoluta de su valor. En ocasiones, la confianza que tenemos en la veracidad de algunos datos es muy baja. Por ejemplo, los datos generados por una prueba médica no son muy confiables si se conoce que el resultado de dicha prueba es con bastante frecuencia incorrecta. Por otro lado es frecuente conocer el error que comenten determinados sensores al realizar la medida de una determinada característica. Por lo tanto, la incertidumbre afecta a la confianza que damos al valor de un item. La confianza en este valor puede ser expresada en los términos: probable, plausible, creíble... Item impreciso. Un item es impreciso cuando su valor puede ser dividido. En cualquier otro caso hablamos de item preciso. Ejemplos de estos items los encontramos en la información que obtenemos del mundo real, ya sea mediante mediciones con instrumentos o proporcionada por otras personas y que no se corresponde con el valor real de dicho atributo (temperatura ambiental, peso de una persona) sino que se trata de un valor aproximado. En este caso hablamos de un item cuyo valor es vago, difuso, general, ambiguo... Como vemos ni la presencia de items desconocidos, ni la incertidumbre ni la imprecisión implican necesariamente errores en las mediciones o apreciaciones, sino que responden a que la realidad se presenta en ocasiones con estas características. Por lo tanto una alternativa al hecho de ignorar la imperfección de los datos o eliminarla, es la de profundizar en el tratamiento de la información imperfecta expresada con su verdadera naturaleza. En el siguiente apartado veremos algunas formas de representar estas tres posibles formas de imperfección mediante las principales teorías matemáticas que permiten su tratamiento Formas de representar la imperfección Las personas razonamos con información claramente imperfecta y lo hacemos con asombrosa facilidad. De esta manera, si antes de salir de casa observamos que el cielo está nublado cogeremos un paraguas; hemos deducido que va a llover aunque somos conscientes de que no es algo seguro. Sin embargo, aunque sabemos que el mundo no es perfecto, cuando plasmamos datos a los que pretendemos darle un tratamiento, solemos sesgar esa imperfección de la que somos conscientes. En los enfoques convencionales para la obtención de conocimiento a partir de datos, los vectores de entrada que caracterizan los rasgos de los datos no tienen en cuenta las fuentes de incertidumbre y la información desconocida o imprecisa es descartada o ignorada tanto para el proceso de diseño como para la evaluación. Sin embargo, la imprecisión e incertidumbre pueden aparecer de forma natural por diversas razones [11]. Por ejemplo, errores instrumentales o corrupción debido al ruido en los experimentos pueden dar lugar a información parcial o desconocida cuando se mida un determinado rasgo. En otros casos, la extracción de la información exacta puede ser excesivamente costosa o inviable. Por otro lado, en algunos casos puede ser conveniente utilizar información adicional proveniente de un experto, la cual, normalmente está dada mediante variables lingüísticas del tipo grado: pequeño, más o menos, etc. Se hace necesario, por lo tanto, incorporar el tratamiento de datos con rasgos o características heterogéneos (tanto numéricos como nominales) que además puedan presentar incertidumbre e imprecisión tanto en la fase de aprendizaje como de evaluación del modelo de un sistema. Se debe establecer en qué modo se presenta la imperfección en los datos que recopilamos y representar esa imperfección de manera fiel. Y una vez se haya estudiado en detalle ese punto y no antes, estaremos en posición de dar un tratamiento inteligente de la información que tenga en cuenta la imperfección. Por lo tanto el objetivo global que perseguimos en este trabajo es mejorar el planteamiento general del proceso de extracción de conocimiento, en cada una de sus fases, ante la presencia de datos imperfectos. Para ello presentamos una herramienta que apoya todo este proceso en entornos imperfectos. El trabajo lo hemos estructurado de forma que comienza presentando las posibles formas de imperfección que pueden aparecer en los datos. A continuación se presentan las distintas formas de representar

13 Una plataforma para la minería de datos en entornos imperfectos 9 la imperfección de los datos, desde las distintas teorías matemáticas que nos permiten formalizar dicha imperfección. Posteriormente mostramos las principales fases del proceso de extracción inteligente de conocimiento en su tratamiento de la información imperfecta, analizando su situación actual frente a la imperfección. Posteriormente se presenta NIP 1.0, una plataforma que pretende ayudar en todo el proceso de extracción del conocimiento teniendo en cuenta la presencia de datos imperfectos. Después se usará NIP 1.0 para facilitar la realización de una comparativa entre dos técnicas de minería y sus tratamientos ante la imperfección: FID y EMFGN para finalizar con conclusiones y trabajos futuros. Valores desconocidos Hay distintas teorías matemáticas que se han encargado de formalizar la imperfección [5]. Entre ellas las tres teorías principales son: La teoría de la probabilidad: usada extensamente para sacar conclusiones sobre la probabilidad de sucesos potenciales. Esta teoría formaliza la incertidumbre cuando las evidencias se basan en las salidas de experimentos aleatorios independientes. La teoría de conjuntos fuzzy: esta teoría es una extensión de la teoría de conjuntos clásica. En la teoría de conjuntos clásica la pertenencia de los elementos al conjunto es una condición de verdadero o falso (el elemento pertenece o no al conjunto). En cambio, para cada conjunto fuzzy, existe asociada una función de pertenencia para sus elementos, que indican en qué grado el elemento forma parte de ese conjunto fuzzy. Una de las formas más usuales de función de pertenencia es la trapezoidal. La teoría de evidencias de Dempster-Shafer: teoría para representar y combinar grados de creencia y que frente a la teoría de probabilidad permite representar la ignorancia y creencia que no esté asignada. Es una teoría que generaliza la teoría de la probabilidad. La creencia en esta teoría está caracterizada por una función denominada función de masas. A continuación, veremos diversas formas de representar la imperfección en los datos según las distintas teorías. Items desconocidos Un item o valor desconocido puede ser representado de las siguientes formas: Representarlo como tal, es decir, indicamos explícitamente que no conocemos su valor. Sustituirlo por la media de ese atributo si es numérico o por el valor más probable si es nominal. Ésta es una forma de traducir ese dato desconocido en uno conocido si bien es cierto que no es una representación fiel a la verdadera naturaleza de su imperfección. Sustituirlo por un intervalo que abarque todo el dominio del atributo. De esta manera indicamos que el valor del atributo puede ser cualquiera de su posible rango. Representarlo mediante un conjunto fuzzy que asigne grado de pertenencia 1 a todo el dominio. Función de masas: La teoría de evidencias también puede ser empleada para representar un valor desconocido. Para nominales asignamos masa 1 a todo el dominio de posibles valores: [valor1, valor2,..., valorn, m = 1] En la teoría de evidencias la masa de una evidencia es un valor entre 0 y 1. Se cumple que la masa de la hipótesis vacía es 0 y que el sumatorio de las masas de todos los posibles conjuntos de hipótesis es 1. De esta manera cuando asignamos la masa 1 a todos los posibles valores decimos que aunque el valor del atributo es desconocido tenemos la certeza absoluta de que será uno de esos valores. Para continuos asignamos masa 1 al dominio completo: ([min, max], m = 1)

14 10 Emilio Serrano Fernández Incertidumbre En este caso vamos a suponer que los datos pueden presentar incertidumbre objetiva (teoría de la probablidad) o incertidumbre subjetiva (Teoría de Evidencias de Demspter-Shafer). Un caso frecuente de incertidumbre objetiva en atributos numéricos es el conocer el error que se ha cometido con su instrumento de medida y que normalmente viene indicado por su media µ y su desviación típica σ. En este caso, sabemos que un valor x medido por dicho instrumento se encuentra en el intervalo [x + µ 2σ, x + µ + 2σ] con un grado de confianza del 95 %. Esta información podría ser expresada de las distintas formas que se muestran a continuación, comenzando por aquellas que más se adecúan a la verdadera naturaleza de dicha información: Como una distribución gaussiana: N(x + µ, σ) Esta función expresa exactamente la incertidumbre de la información. En la teoría de conjuntos fuzzy, como un conjunto fuzzy que asigne un mayor grado de pertenencia a los valores cercanos al centro del intervalo anterior: (x + µ 2σ, x + µ σ, x + µ + σ, x + µ + 2σ) Aquí el grado de pertenencia que tiene x al conjunto fuzzy es máximo en x y va a ir disminuyendo al acercarnos a los extremos del conjunto. En la teoría de conjuntos clásicos, como un intervalo que indica que el valor real puede ser cualquiera de los valores de dicho intervalo. [x + µ 2σ, x + µ + 2σ] En esta representación hay claramente pérdida de información como el hecho de que es más probable que el valor sea x y que la probabilidad va disminuyendo al acercarse a los extremos del intervalo. En la teoría de Evidencias de Dempster-Shafer, mediante una función de masas se asigna toda la masa a ese intervalo: ([x + µ 2σ, x + µ + 2σ], m = 1) Esta representación tiene el mismo problema que la anterior. En atributos nominales una forma de expresar una fuente de incertidumbre es mediante una distribución de probabilidad. [v1 = P (v1), v2 = P (v2)...vn = P (vn)] Como caso más general la función de distribución anterior puede ser considerada como una función de masas desde la Teoría de Evidencias de Dempster-Shafer. En atributos nominales podemos expresar cierta incertidumbre más general (incertidumbre subjetiva) mediante una función de masas general que asigna valores de masas al conjunto de partes del dominio. Imprecisión Se puede representar un valor impreciso mediante etiquetas linguísticas. Estas etiquetas linguísticas tendrán asignadas un conjunto fuzzy definido por su correspondiente función de pertenencia, como por ejemplo una función trapezoidal Las fases del proceso de extracción de conocimiento y el tratamiento de datos imperfectos Las principales fases del proceso de extracción inteligente de conocimiento a partir de datos son: el preproceso de datos, la minería de datos y la evaluación [10]. A continuación vamos a referirnos brevemente a cada una de estas fases desde el enfoque del tratamiento de la información imperfecta que en la actualidad se realiza en cada una de ellas.

15 Una plataforma para la minería de datos en entornos imperfectos 11 Preproceso de datos En cualquier aplicación del mundo real, muchos de los datos en crudo que encontramos en las bases de datos están incompletos, contienen ruido, hay campos redundantes u obsoletos, valores fuera de rango, datos desconocidos o no disponibles, anomalías, etc. Para que estos datos sean útiles en el proceso de extracción de conocimiento, es necesario que se sometan a un procesamiento previo, en forma de limpieza de datos. Una preparación de datos apropiada puede acortar el tiempo de procesamiento notablemente, dependiendo de la calidad de los datos originales, permitiendo producir mejores modelos en menos tiempo. Sin embargo, en la actualidad, la mayoría de las opciones realizadas en este preprocesamiento han prestado relativamente poca atención a las fuentes de incertidumbre y los datos desconocidos e imprecisos son ignorados y descartados. Además, la información imperfecta aparece de forma inevitable en dominios y situaciones realistas, por lo que se hace necesario facilitar aquellas acciones del preprocesamiento enfocadas a realizar un mejor y más completo tratamiento de la información imperfecta. Minería de datos Cuando se analiza el tratamiento de la imperfección que realizan algunas de las técnicas de minería más populares sorprende ver que en general han prestado poca atención a la información imperfecta. De este modo, generalmente se permite representar valores desconocidos, si bien es cierto que el tratamiento que se le da a estos valores simplemente consiste en sustituirlo por el valor que se considere más adecuado. Vamos a hacer un rápido recorrido por algunas de las técnicas que realizan un tratamiento más completo de la información imperfecta y que sería interesante tener recogidas en una herramienta enfocada al tratamiento de la imperfección. En principio nos centramos en analizar las distintas técnicas que proporciona la herramienta Weka [17], así como los árboles de decisión (FID3.4 [6,14] y C4.5 [8,13]) y el modelo de mezclas EMFGN [2,9]. Las técnicas implementadas en la plataforma Weka únicamente permiten valores desconocidos. C4.5, permite valores desconocidos, incertidumbre objetiva en atributos nominales e intervalos clásicos para atributos continuos. FID3.4 además de permitir valores desconocidos, permite introducir imprecisión por medio de etiquetas lingüisticas que se refieren a un conjunto fuzzy previamente definido y que puede obtenerse mediante el propio FID. EMFGN permite valores desconocidos, conjuntos fuzzy e incertidumbre objetiva y subjetiva tanto en atributos numéricos como continuos. Evaluación La evaluación de la bondad de los modelos obtenidos en la fase anterior es un aspecto importante y que en la actualidad se realiza en base a métodos de evaluación comunes a todas las técnicas (traten o no traten información imperfecta). Sin embargo, sería interesante disponer de metodologías de evaluación que realmente permitan medir la esencia del tratamiento de la imperfección que cada técnica realiza y que fueran capaces de proporcionar medidas de la robustez de la técnica frente a distintos porcentajes o grados de información imperfecta. Por lo tanto sería interesante disponer de una herramienta de ayuda al proceso de extracción de conocimiento ante la presencia de imperfección, que permita trabajar con la verdadera naturaleza de la información imperfecta expresada desde las distintas teorías matemáticas, que facilite además la investigación en este campo para el desarrollo de nuevas técnicas que realicen un mejor tratamiento de la imperfección o mejorando las técnicas existentes en la actualidad. Persiguiendo esta idea se está desarrollando la herramienta NIP 1.0 [12] que se presenta en la siguiente sección NIP NIP es un prototipo evolutivo de una herramienta para el proceso de extracción inteligente de conocimiento atendiendo a la imperfección en los datos.

16 12 Emilio Serrano Fernández Vamos a ver a continuación las principales funcionalidades de la herramienta en cada una de las fases del proceso de extracción del conocimiento, si bien debemos comentar que la fase de evaluación se encuentra actualmente en su desarrollo teórico como comentaremos más adelante. Figura3. NIP 1.0 NIP puede descargarse desde su sitio web jcadenas/nip1.0/index.htm Preproceso Partiendo de una base de datos típica de datos separados por comas (como las de UCI Machine Learning Repository [16]) NIP automatiza las siguientes tareas: Normaliza la base de datos inicial atendiendo al máximo y mínimo valor que toma cada atributo en la base de datos. Realiza la proyección, es decir, permite seleccionar de los datos originales qué atributos serán los que aparecerán al final de la fase de preproceso. Realiza particiones fuzzy. A partir de los atributos numéricos se realiza una partición de sus valores en conjuntos fuzzy (por defecto entre 1 y 5 conjuntos fuzzy aunque se puede especificar por opciones avanzadas un número fijo de conjuntos o un rango mayor). Dicha partición se hace utilizando FID [6]. Por supuesto el usuario podrá modificar a mano los conjuntos fuzzy que NIP genere por defecto. El realizar esta partición es crucial para añadir la imprecisión, ya que a partir de la definición de estos conjuntos la imprecisión se incluirá simplemente sustituyendo un dato por el conjunto fuzzy al que pertenezca con mayor grado de pertenencia. Convierte a formatos diversos. Al final del preproceso y siempre que no se especifique lo contrario se obtendrá la base de datos original en el formato de la herramienta Weka, así como los de FID3.4, EMFGN y C4.5. Por supuesto en el futuro se pueden añadir a NIP 1.0 otros formatos de salida para nuevas técnicas de minería. Sin embargo, nuestro objetivo final en esta fase es que se permita especificar un formato libre en el que el usuario pueda establecer la manera de separar los datos, la forma de representar valores desconocidos, la manera de incluir conjuntos fuzzy... Es decir, que el usuario pueda de una manera fácil y cómoda usar todas las funcionalidades de NIP 1.0 pero generando finalmente una base de datos con los datos expresados en el formato que desee, adaptándose por tanto la herramienta al formato de base de datos con la que quiera trabajar. Genera bases de datos con imperfección. Por defecto, se añade un porcentaje de atributos desconocidos y de imprecisos que es especificado por el usuario. Adentrándonos en las opciones avanzadas se puede tener un gran control sobre la cantidad de imperfección, los atributos donde aparecen, su formato, las técnicas para las cuales se desean generar las bases de datos imperfectas... En concreto se permite especificar: 1 Para cada forma de imperfección { 2 Para cada técnica de minería { 3 Cada dato será imperfecto de cierta forma especificada y con cierta probabilidad especificada ; 4 } 5 }

17 Una plataforma para la minería de datos en entornos imperfectos 13 Por ejemplo, se puede establecer que el atributo petal, tenga valores desconocidos en el formato de FID con una probabilidad de 0.1 y que dichos valores desconocidos se sustituyan por el ValorMasProbable (que establece que ante un valor desconocido se sustituye por la media de los valores conocidos del atributo en el caso de un atributo numérico, o bien por el nominal más frecuente en el caso de atributos nominales). Vamos a ver la funcionalidad de NIP 1.0 a través de un ejemplo de su uso, por medio de la conocida base de datos IRIS DATA. Un ejemplo de uso de NIP 1.0 para el preproceso Veamos el uso más básico de NIP además de enumerar las opciones avanzadas de inclusión de imperfección. El primer campo que nos pide NIP es la base de datos de entrada, el fichero con la base de datos para nuestro ejemplo iris.data. El formato es simplemente datos separados por comas. Si no disponemos de una base de datos podemos pulsar el botón obtener para que se abra una ventana de navegador web a un repositorio de BBDD. A continuación especificamos el directorio de salida salida. Pulsando el botón de formato podemos seleccionar los formatos de salida que se producirán entre: Weka, FID, C4.5, EMFGN o formato libre. También se introduce la probabilidad de que un dato sea impreciso o desconocido. Si se quisiese la base de datos perfecta se podría especificar en ambas probabilidades el valor 0. La incertidumbre no se añade todavía, se añadirá como opción avanzada. Cuando introdujimos la base de datos de entrada (iris.data) automáticamente se rellena el campo atributos con at1 at2 at3 at4 CLASS1. Estos son los nombres de los atributos por defecto, atx para atributos numéricos (aquellos cuyo primer valor de la base de datos empiezan con un número en coma flotante) y CLASSX para atributos nominales (el resto). En este punto se puede cambiar el nombre que se ha asignado por defecto a los atributos, la única restricción es que se usen letras minúsculas para numéricos y mayúsculas para nominales. En nuestro caso, la base de datos iris, pondremos sepall sepalw petall petalw CLASS. El estado en este momento sería el que se muestra en la figura 4. Figura4. Estado de NIP 1.0

18 14 Emilio Serrano Fernández Si deseamos considerar un atributo numérico como nominal, simplemente se le debe asignar un nombre en mayúsculas al atributo. También se puede establecer los formatos de salida que se producirán, incluso un formato libre (figura 5). En el formato libre se puede establecer el separador de los datos (no sólo espacio, también otros textos como, o ;...), el texto que aparece ante un dato desconocido (por ejemplo?, -1, [0,1]...) y también la forma de representar los conjuntos fuzzy (por ejemplo v1,v2,v3,v4 o (v1/v2/v3/v4). Con ésto se consigue dar flexibilidad a la herramienta en cuanto al formato de salida y facilitar su uso a autores de técnicas de minería variopintas. Figura5. Formato libre de NIP 1.0 En este punto ya se puede pulsar los botones por defecto, fuzzy sets y obtener BBDD sucesivamente para obtener las bases de datos imperfectas en cada uno de los formatos en el directorio de salida especificado. Además, una vez se hayan realizado estos pasos, NIP permite guardar la configuración elegida, de esta manera trabajar con la misma base de datos (o trabajos parecidos) será tan simple como cargar la configuración previamente guardada y realizar las modificaciones que se deseen en dicha configuración (cambiar conjuntos fuzzy definidos, atributos en la base de datos, formatos de salida...) antes de producir nuevamente las bases de datos de salida. Vamos a explicar los tres pasos básicos que se deben realizar con NIP 1.0 una vez se han introducido los parámetros mínimos de entrada: 1. obtener la configuración por defecto. 2. obtener los conjuntos fuzzy. 3. obtener las bases de datos. Al pulsar el botón por defecto en el panel de opciones avanzadas aparecen los datos necesarios para que NIP calcule los conjuntos fuzzy de los atributos numéricos. Las opciones avanzadas para el ejemplo quedan como siguen: 1 2 sepall sepalw petall petalw CLASS 0 3 Iris - setosa Iris - versicolor Iris - virginica 7 FIN

19 Una plataforma para la minería de datos en entornos imperfectos 15 Al pulsar el botón de fuzzy sets (y antes de obtener las BBDD) NIP pedirá cual de los atributos es la variable de decisión para establecer los conjuntos fuzzy. La variable de decisión debe ser o un atributo numérico que ya se haya particionado o un atributo nominal, lo más sencillo es el segundo caso, así que en este ejemplo se puede elegir CLASS. Con ello las opciones avanzadas quedan como siguen: 1 2 sepall 1 1 sepall sepalw 1 3 sepalw sepalw sepalw petall 1 5 petall petall petall petall petall petalw 1 3 petalw petalw petalw CLASS 0 3 Iris - setosa Iris - versicolor Iris - virginica 7 FIN Podemos ver que a continuación de un atributo aparecen una serie de quíntuplas que hacen referencia al nombre del conjunto fuzzy así como a los 4 valores de la función trapezoidal que lo definen. De esta manera el atributo sepal length (sepall) se ha particionado en un solo conjunto fuzzy sepall que será el conjunto que aparezca en aquellos valores imprecisos de la base de datos para este atributo. Por otro lado el atributo petal width (petalw) se ha separado en 3 conjuntos fuzzy (ver figura 6): 1 petalw petalw petalw Figura6. Conjuntos fuzzy de petal width Al obtener los conjuntos fuzzy también se permite añadir opciones avanzadas en lo referente a la inclusión de imperfección en forma de comandos que se verán en el siguiente apartado. Opciones avanzadas en el preproceso Tras ver los conjuntos fuzzy que se han establecido, sobre el propio panel de opciones avanzadas se puede escribir para: Realizar la proyección: Eliminar líneas completas, es decir, borrar atributos que ya no aparecerán en las BBDD producidas. Cambiar conjuntos fuzzy, es decir, modificar la quintupla que representa un conjunto fuzzy (nombre y cuatro valores del trapecio).

20 16 Emilio Serrano Fernández Además se puede precisar la imperfección que se va a añadir a cada atibuto añadiendo funciones. Estas funciones son: perfecto: Con esta opción se permite que un atributo esté libre de imperfecciones. probabilidad(a1,a2): Siendo a1 el tipo de imperfección (incompleto, impreciso) y a2 la probabilidad de esa imperfección. probabilidad(incierto,µ,σ): Para la incertidumbre se introduce la media (µ) y la desviación típica (σ) del error cometido al medir el valor representado en la base de datos. Hasta el momento, la herramienta sólo permite introducir este tipo de incertidumbre objetiva sobre atributos numéricos. impreciso(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID,C4.5 ) y p2 el tipo de imprecisión que sólo puede valer defecto para indicar la imprecisión por defecto (etiquetas lingüísticas que señalan un conjunto fuzzy). Se asignará a un valor el conjunto fuzzy al que pertenezca con mayor grado de pertenencia. incompleto(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID,C4.5 ) y p2 el tipo de valor desconocido, que puede ser: defecto: En el formato por defecto, EMFGN toma el valor? para expresar un valor desconocido, FID toma el valor -1 (y no permite que la variable de decisión sea desconocida, truncando las líneas de la base de datos en las que se dé esta condición). intervalo: Expresa el valor desconocido mediante el intervalo de valores que puede tomar. En el caso de que se asigne esta opción a un atributo nominal (lo cual es incorrecto), se devolverá el valormasprobable. valormasprobable: Un valor desconocido se sustituye por la media si el atributo es numérico o por el nominal más frecuente en caso de que el atributo sea nominal. conjuntofuzzy: Asigna un conjunto fuzzy al rango del atributo (minimo, maximo). En el caso de que se aplique este formato a un atributo nominal (opción incorrecta), se devolverá el valormasprobable. funciondemasas: El valor desconocido se sustituye por la función de masas ([minimo, maximo], m = 1) para atributos continuos y para los nominales por la función de masas [valor1, valor2...valorn, m = 1]. incierto(p1,p2): Siendo p1 la técnica de minería (EMFGN,FID o C4.5 ) y p2 el tipo de incertidumbre que puede valer: (Llamaremos x al valor de un atributo continuo,µ a la media y σ a la desviación típica de la incertidumbre del atributo). intervalo: El valor x del atributo incierto se sustituye por el intervalo [x + µ 2σ, x + µ + 2σ] conjuntofuzzy: El valor x es sustituido por el conjunto fuzzy definido por la siguiente función trapezoidal (x + µ 2σ, x + µ 2σ, x + µ + 2σ, x + µ + 2σ). conjuntofuzzy2: Igual al anterior, pero dando más pertenencia a los valores cercanos al centro del intervalo anterior (el conjunto fuzzy se define por la función trapezoidal (x + µ 2σ, x + µ σ, x + µ + σ, x + µ + 2σ)). gaussiana: El valor x se sustituye por la gaussiana (N = x + µ, σ 2 ). funciondemasas: El valor x se sustituye por la función de masas ([x+µ 2σ, x+µ+2σ], m = 1). Para introducir estas opciones también se puede usar el asistente que se despliega pulsando en el botón más de la esquina inferior izquierda, podemos verlo en la figura 7. Veamos un ejemplo del uso de las opciones avanzadas, para la base de datos iris vamos a especificar: El primer atributo con valores desconocidos (probabilidad 0.01 y por defecto) e imprecisión (probabilidad 0.2 y por defecto). El segundo atributo con valores desconocidos (con probabilidad 0.5 y por defecto) pero no impreciso. El tercer atributo con valores desconocidos (con probabilidad 0.5 y de formato valormasprobable) pero no impreciso. Que el cuarto atributo y la clase sean perfectos. Para ello usaremos el asistente que se despliega pulsando en el botón más... de la esquina inferior izquierda, podemos verlo en la figura 7. Tras introducir las opciones para cada atributo y para cada técnica de minería que consideraremos (FID y EMFGN), las opciones avanzadas en la vista principal quedan de la siguiente manera:

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS

N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS José M. Cadenas Juan V. Carrillo M. Carmen Garrido Enrique Muñoz Departamento de Ingeniería

Más detalles

Redes de área local: Aplicaciones y servicios WINDOWS

Redes de área local: Aplicaciones y servicios WINDOWS Redes de área local: Aplicaciones y servicios WINDOWS 9. Usuarios 1 Índice Definición de Usuarios, Equipos y Grupos... 3 Creación de Usuarios... 5 Perfiles de Usuarios... 8 Grupos de usuarios... 14 Inicio

Más detalles

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS UNA SESIÓN EN SPSS INTRODUCCIÓN. SPSS (Statistical Product and Service Solutions) es un paquete estadístico orientado, en principio, al ámbito de aplicación de las Ciencias sociales, es uno de las herramientas

Más detalles

Manual de Usuario. Extractor Service. www.zktime.eu

Manual de Usuario. Extractor Service. www.zktime.eu Manual de Usuario www.zktime.eu INDICE Página Introducción 1 1. Primeros pasos 1 1.1 Instalación 1 1.2 Finalizando la instalación 2 2. Configuración 3 2.1 Configuración de base de datos 3 2.1.1 Configuración

Más detalles

Curso POWERPOINT 97. Introducción

Curso POWERPOINT 97. Introducción Curso POWERPOINT 97 Introducción El curso PowerPoint 97 está destinado a aquellos alumnos que necesiten crear presentaciones que informen de la evolución de un proyecto. PowerPoint es un programa de edición

Más detalles

Introducción a la plataforma Moodle Aníbal de la Torre 2006. Plataforma Moodle. Gestión y administración de un curso

Introducción a la plataforma Moodle Aníbal de la Torre 2006. Plataforma Moodle. Gestión y administración de un curso Plataforma Moodle Gestión y administración de un curso El panel de administración----------------------------------------------------------- 2 Gestión de personas (alumnos y profesores) ------------------------------------

Más detalles

Guía Rápida Preguntas Frecuentes

Guía Rápida Preguntas Frecuentes Preguntas Frecuentes 060212 PGV R3 Estimado cliente, Accederemos a la Plataforma Online desde nuestro navegador de internet a través de la dirección www.alissibronte.es/pedidos.html o desde la sección

Más detalles

% PRODUCTOS NO CONFORMES 10% 5%

% PRODUCTOS NO CONFORMES 10% 5% Departamento de Ingeniería Mecánica Tecnología Mecánica I 67.15 Unidad 13: Control de Calidad Ing. Sergio Laguzzi 1 TEMARIO - Definición de Calidad. Costos de la no Calidad. Estrategia de detección (Planes

Más detalles

Guardar y abrir documentos

Guardar y abrir documentos Contenido 1. Guardar como... 2 2. Abrir... 4 3. Recuperar archivos... 5 4. Unidades, Archivos y Carpetas... 5 5. Estructura de archivos... 6 6. Diferentes visiones de la lista de Abrir... 7 7. Cambiar

Más detalles

Gobierno del Estado de México

Gobierno del Estado de México Gobierno del Estado de México Escuela Preparatoria Oficial No. 82 José Revueltas Hay que alcanzar la exaltación verdadera, para lograrlo, hay que ser serenos, sin prisas, estudiar, trabajar y disciplinarse

Más detalles

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 -

INDICADORES POR ENCUESTA. Cuaderno Práctico -1 - INDICADORES POR ENCUESTA Cuaderno Práctico -1 - ÍNDICE Elaboración del CUESTIONARIO...- 4 - Selección de la MUESTRA...- 5 - APLICACIÓN del cuestionario...- 7 - MECANIZACIÓN de datos...- 8 - Cálculo de

Más detalles

MatemásTIC. Estudio y práctica del álgebra matricial con una aplicación TIC didáctica y sencilla. 65 Noviembre 2010, pp. 57-67

MatemásTIC. Estudio y práctica del álgebra matricial con una aplicación TIC didáctica y sencilla. 65 Noviembre 2010, pp. 57-67 65, pp. 57-67 Estudio y práctica del álgebra matricial con una aplicación TIC didáctica y sencilla MatemásTIC A lo largo de los distintos números de Suma nos planteamos en esta sección descubrir distintas

Más detalles

INFERENCIA ESTADÍSTICA

INFERENCIA ESTADÍSTICA Capítulo 4 INFERENCIA ESTADÍSTICA 4.1. Introducción Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir una cosa de otra. La estadística, ciencia o rama de las Matemáticas que se

Más detalles

Autenticación LDAP - ORACLE

Autenticación LDAP - ORACLE I.E.S. Gonzalo Nazareno Autenticación LDAP - ORACLE Sistemas Gestores de Bases de Datos Pier Alessandro Finazzi José Manuel Ferrete Benítez 2011 Índice Oracle Identity Management... 3 Por qué Oracle Identity

Más detalles

Programa de Educación a Distancia MOODLE EDUC. (Modular Object Oriented Distance Learning Enviroment)

Programa de Educación a Distancia MOODLE EDUC. (Modular Object Oriented Distance Learning Enviroment) MOODLE EDUC (Modular Object Oriented Distance Learning Enviroment) 1) La Interfaz de la asignatura Manual del Profesor Contiene las mismas 5 zonas que observa el alumno. Sin embargo, respecto a los bloques

Más detalles

Planos de ejecución en Velneo V7

Planos de ejecución en Velneo V7 Planos de ejecución en Velneo V7 Por Jesús Arboleya Introducción 3 Arquitectura Cliente/Servidor 4 1. Objetos que siempre se ejecutan en el servidor 5 2. Objetos que siempre se ejecutan en el cliente 6

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Servidor de las Carpetas Compartidas - Manual de Referencia

Servidor de las Carpetas Compartidas - Manual de Referencia Página 1 de 16 Índice 1. De qué trata éste manual Pág. 3 2. Para qué sirve/qué hace éste programa Pág. 3 3. Descripción de la Pantalla Principal del programa Pág. 3 4. Descripción de la Pantalla de gestión

Más detalles

Aplicación de mapas autoorganizados (SOM) a la visualización de datos. Modelos Computacionales Fernando José Serrano García

Aplicación de mapas autoorganizados (SOM) a la visualización de datos. Modelos Computacionales Fernando José Serrano García Aplicación de mapas autoorganizados (SOM) a la visualización de datos Modelos Computacionales Fernando José Serrano García 2 Contenido Introducción... 3 Estructura... 3 Entrenamiento... 3 Aplicación de

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Manual de Usuario. PresenciaPin. Diseñado y producido por. SystemPin

Manual de Usuario. PresenciaPin. Diseñado y producido por. SystemPin Manual de Usuario De PresenciaPin Diseñado y producido por SystemPin Manual de usuario - PRESENCIAPIN Página: 3 INTRODUCCIÓN Este Manual de funcionamiento esta escrito con el fin de explicar el manejo

Más detalles

3.4. Reload Editor ( Guía de Uso).

3.4. Reload Editor ( Guía de Uso). 3.4. Reload Editor ( Guía de Uso). Anterior 3. Lors Management Siguiente 3.4. Reload Editor ( Guía de Uso). 3.4.1. Preguntas básicas sobre Reload Editor. - Qué hace el programa Reload Editor? RELOAD Editor

Más detalles

Manual hosting acens

Manual hosting acens Manual hosting acens Contenido Acceso al panel de control de cliente... 3 Asociar un dominio a mi Hosting... 5 Acceso al panel de administración del hosting... 7 INICIO - Visión general del estado de nuestro

Más detalles

Capítulo 4 MEDIDA DE MAGNITUDES. Autor: Santiago Ramírez de la Piscina Millán

Capítulo 4 MEDIDA DE MAGNITUDES. Autor: Santiago Ramírez de la Piscina Millán Capítulo 4 MEDIDA DE MAGNITUDES Autor: Santiago Ramírez de la Piscina Millán 4 MEDIDA DE MAGNITUDES 4.1 Introducción El hecho de hacer experimentos implica la determinación cuantitativa de las magnitudes

Más detalles

Lean SEIS SIGMA Área Temática: Logística

Lean SEIS SIGMA Área Temática: Logística Proyecto fin de Master Hito 3 Ejercicio Nº 1 Lean SEIS SIGMA Área Temática: Logística www.formatoedu.com 1 Enunciado Lean Seis Sigma es una metodología eficaz para reducir sistemáticamente todas las deficiencias

Más detalles

INFERENCIA ESTADÍSTICA

INFERENCIA ESTADÍSTICA INFERENCIA ESTADÍSTICA Pensemos en los tres siguientes ejemplos: Hacemos una encuesta entre los clientes de una tienda para preguntarles su opinión sobre cambios generales que pretendemos hacer en diversas

Más detalles

Comandos básicos MS-DOS

Comandos básicos MS-DOS Comandos básicos MS-DOS Inicio Para iniciar DOS en Windows XP, hay que irse al botón de Inicio, Ejecutar y poner cmd. Se abrirá una ventana de DOS en la que se probarán todas las opciones de los comandos

Más detalles

LAS CONSULTAS ACCESS 2007. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

LAS CONSULTAS ACCESS 2007. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE LAS CONSULTAS ACCESS 2007 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE LAS CONSULTAS En esta unidad veremos cómo crear consultas y manejarlas para la edición de registros de tablas

Más detalles

CÓMO CONFIGURAR INTERNET INFORMATION SERVER

CÓMO CONFIGURAR INTERNET INFORMATION SERVER CÓMO CONFIGURAR INTERNET INFORMATION SERVER Cintado Mejías, Silvia 75770772-D Ingeniera Técnica en Informática de Gestión 0. INTRODUCCIÓN En este artículo se van a desarrollar el concepto de Internet Information

Más detalles

SEGUIMIENTO EDUCATIVO. Perfil Madre/Padre

SEGUIMIENTO EDUCATIVO. Perfil Madre/Padre SEGUIMIENTO EDUCATIVO Perfil Madre/Padre Noviembre 2010 INDICE 1. INTRODUCCIÓN...3 2. TAREAS HABITUALES...4 2.1 Cambiar de hijo activo en RAYUELA SEGUIMIENTO...4 2.2 Cambiar la foto mostrada de uno de

Más detalles

1) Configuración general del curso:

1) Configuración general del curso: GUÍA MOODLE UP PROFESORES Moodle es una herramienta para dar soporte y apoyo a procesos de enseñanza aprendizaje. Dicha herramienta permite crear espacios virtuales de trabajo a través de los recursos

Más detalles

Desarrollo de SBC. cbea (LSI - FIB) Sistemas Basados en el Conocimiento IA - Curso 2008/2009 1 / 41

Desarrollo de SBC. cbea (LSI - FIB) Sistemas Basados en el Conocimiento IA - Curso 2008/2009 1 / 41 Desarrollo de SBC Ingeniería de los SBC Desarrollo de SBC El punto más importante del desarrollo de SBC es la extracción del conocimiento Requiere la interacción entre el Ingeniero del Conocimiento y el

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

! Sección 1 Acceso a llaves

! Sección 1 Acceso a llaves ! Sección 1 Acceso a llaves Este es el programa que guarda todas nuestras contraseñas, se encuentra en la sección utilidades. Por ejemplo, cuando en el programa Adium o Skype ( o tantos otros ) usamos

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

Unidad 1: El Cuadro de control de Excel

Unidad 1: El Cuadro de control de Excel Unidad 1: El Cuadro de control de Excel 1,0 Introducción Excel nos ayuda a comprender los datos mejor al disponerlos en celdas (que forman filas y columnas) y usando fórmulas para realizar los cálculos

Más detalles

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 3: Controles de formulario

Ministerio de Educación. Base de datos en la Enseñanza. Open Office. Módulo 3: Controles de formulario Ministerio de Educación Base de datos en la Enseñanza. Open Office Módulo 3: Controles de formulario Instituto de Tecnologías Educativas 2011 Controles de formulario El control más habitual de un formulario

Más detalles

Manual. Artologik HelpDesk. Versión 3.4. Artisan Global Software

Manual. Artologik HelpDesk. Versión 3.4. Artisan Global Software Gestión de Proyectos Gestión del Tiempo Encuestas Gestión del E-mail HelpDesk Herramienta de Publicación Sistema de Reservas Manual Artologik HelpDesk Versión 3.4 Manual Artologik HelpDesk Desea darle

Más detalles

SOLUCIÓN CASO CÁLCULO DE GASTOS DE VIAJE

SOLUCIÓN CASO CÁLCULO DE GASTOS DE VIAJE SOLUCIÓN CASO CÁLCULO DE GASTOS DE VIAJE La cumplimentación del parte de dietas requerirá de la introducción de algunos datos como: el nombre del empleado, la fecha de inicio del viaje, la fecha de finalización,

Más detalles

Sistema Integral Multicanal de Atención al Ciudadano

Sistema Integral Multicanal de Atención al Ciudadano Sistema Integral Multicanal de Atención al Ciudadano DIRECCION GENERAL DE TECNOLOGIAS DE LA INFORMACIÓN Versión 004 Enero 2013 Índice 1 Objeto del documento... 3 2 Cuando realmente no es un error... 4

Más detalles

Google Analytics. Definición y creación de objetivos

Google Analytics. Definición y creación de objetivos Google Analytics Definición y creación de objetivos Hasta ahora, uno de los puntos flacos que tenía Google Analytics era la limitación a sólo cuatro objetivos por perfil. En aquellos sitios web en los

Más detalles

Guía para proveedores de contenido. LiLa Portal Guía para proveedores de contenido. Crear Experimentos

Guía para proveedores de contenido. LiLa Portal Guía para proveedores de contenido. Crear Experimentos Library of Labs Content Provider s Guide Guía para proveedores de contenido LiLa Portal Guía para proveedores de contenido En el entorno de LiLa, los proveedores de contenido son los responsables de crear

Más detalles

Guía para las entidades

Guía para las entidades MINISTERIO DE SANIDAD, SERVICIOS SOCIALES E IGUALDAD GUÍA RÁPIDA DEL SISTEMA SIGES PARA LA SUBVENCIÓN DE ONG PRESUPUESTOS Guía para las entidades 30/04/2015 Indice 1. INICIO... 2 2. PASOS PARA LA SOLICITUD

Más detalles

PREGUNTAS FRECUENTES ATENEX

PREGUNTAS FRECUENTES ATENEX PREGUNTAS FRECUENTES ATENEX Instalación Espacio destinado para todo lo relacionado con la instalación de la herramienta. 1. He instalado atenex en windows y cuando pincho en el icono me aparece un mensaje

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Arsys Backup Online Manual de Usuario

Arsys Backup Online Manual de Usuario Arsys Backup Online Manual de Usuario 1 Contenido 1. Instalación del Programa Cliente... 3 Pasos previos... 3 Instalación... 3 Configuración del acceso... 6 Ubicación del servidor de seguridad... 6 Datos

Más detalles

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de planificación y control.

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de planificación y control. ESTUDIOS DE CAPACIDAD POTENCIAL DE CALIDAD 1.- INTRODUCCIÓN Este documento proporciona las pautas para la realización e interpretación de una de las herramientas fundamentales para el control y la planificación

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Taller de Probabilidad y Simulación

Taller de Probabilidad y Simulación Taller de Probabilidad y Simulación Probabilidad I Departamento de Matemáticas UAM, curso 2007-2008 Pablo Fernández Gallardo (pablo.fernandez@uam.es) 1. Una breve introducción a Excel 1.1. Introducción

Más detalles

Web ITSM -GUIA RÁPIDA DE USUARIO-

Web ITSM -GUIA RÁPIDA DE USUARIO- Web ITSM -GUIA RÁPIDA DE USUARIO- Manual básico de la aplicación WebITSM donde se visualiza la funcionalidad completa de la misma y la forma adecuada y eficaz de utilizarla. Ingeniería Técnica en Informática

Más detalles

TUTORIAL GOOGLE DOCS

TUTORIAL GOOGLE DOCS TUTORIAL GOOGLE DOCS Las principales ventajas de Google Docs son: Nuestros documentos se almacenan en línea: esto nos permite acceder a ellos desde cualquier ordenador con conexión a internet, y compartirlos

Más detalles

Guía básica usuario. Grid Portal

Guía básica usuario. Grid Portal Guía básica usuario Grid Portal Índice 1. Introducción... 3 2. Funcionalidades... 3 3. Acceso a Grid Portal... 3 4. Dashboard... 4 5. Detalles... 6 6. Tarifas... 11 7. Informes... 13 8. Proyectos... 17

Más detalles

Título Manual práctico de usuario Alfresco Share (Colabora) Autor Área de Informática Versión 2.0 Lugar: CITI Fecha: 07/09/2012

Título Manual práctico de usuario Alfresco Share (Colabora) Autor Área de Informática Versión 2.0 Lugar: CITI Fecha: 07/09/2012 Área de Informática C/ Rep. Saharaui, 11510, Puerto Real. Tel.: 956016400. Fax: 956016401 Email: area.informatica@uca.es http://www.uca.es/area/informatica Título Manual práctico de usuario Alfresco Share

Más detalles

Gestión Documental ERP

Gestión Documental ERP N. Documento Revisión Nº: 1.0 Fecha: 30/03/11 Introducción 1 Configuración de la Gestión Documental ERP 2 Funcionamiento de la Gestión Documental ERP 6 ÍNDICE Introducción El programa Ahora permite una

Más detalles

Actividades SCORM con Ardora 6.0 José Manuel Bouzán Matanza

Actividades SCORM con Ardora 6.0 José Manuel Bouzán Matanza Actividades SCORM con Ardora 6.0 José Manuel Bouzán Matanza Como introducción simplemente diremos que el estándar SCORM nos permite incluir dentro de las plataformas de LMS (Learning management system)

Más detalles

Centro de Profesorado Luisa Revuelta (Córdoba) TEMA 9 ORTOGRAFÍA, IMPRIMIR Y EXPORTAR

Centro de Profesorado Luisa Revuelta (Córdoba) TEMA 9 ORTOGRAFÍA, IMPRIMIR Y EXPORTAR Centro de Profesorado Luisa Revuelta (Córdoba) TEMA 9 ORTOGRAFÍA, IMPRIMIR Y EXPORTAR 1.- CORRECCIÓN ORTOGRÁFICA DE LA PRESENTACIÓN Al igual que cuando escribimos un texto en un procesador, en debemos

Más detalles

Aritmética finita y análisis de error

Aritmética finita y análisis de error Aritmética finita y análisis de error Escuela de Ingeniería Informática de Oviedo (Dpto. de Matemáticas-UniOvi) Computación Numérica Aritmética finita y análisis de error 1 / 47 Contenidos 1 Sistemas decimal

Más detalles

MANUAL DE AYUDA MODULO GESTION DE PROYECTOS

MANUAL DE AYUDA MODULO GESTION DE PROYECTOS MANUAL DE AYUDA MODULO GESTION DE PROYECTOS Fecha última revisión: Octubre 2013 INDICE DE CONTENIDOS GESTIÓN DE PROYECTOS... 3 1. INTRODUCCIÓN A LA GESTIÓN DE PROYECTOS... 3 CONFIGURACIÓN DE LA GESTIÓN

Más detalles

TALLER COMPUTACIÓN II

TALLER COMPUTACIÓN II Prof. Martín Ferreyra TALLER COMPUTACIÓN II MANEJO AVANZADO DE MS WORD COMBINAR CORRESPONDENCIA Combinar Correspondencia Instituto Secundario John Kennedy Unidad 2. Combinar correspondencia (I) Mediante

Más detalles

Módulo I - Word. Iniciar Word... 2. Finalizar Word... 3. Definición de elementos de pantalla... 4. Escribir texto en un documento... 5. El cursor...

Módulo I - Word. Iniciar Word... 2. Finalizar Word... 3. Definición de elementos de pantalla... 4. Escribir texto en un documento... 5. El cursor... Módulo I - Word Índice Iniciar Word... 2 Finalizar Word... 3 Definición de elementos de pantalla... 4 Escribir texto en un documento... 5 El cursor... 5 Control de párrafos... 5 Nuevos párrafos... 5 Abrir

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Curso de Formación del Programa Un negocio Una Web. - MÓDULO 2 -

Curso de Formación del Programa Un negocio Una Web. - MÓDULO 2 - 1 Curso de Formación del Programa Un negocio Una Web. - MÓDULO 2-1. Secciones 1.1. Visión general y ordenación. 1.2. Como editar sección ya creada. 1.3. Como buscar una sección. 1.4. Como borrar una sección.

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

Outlook Express. Manual de. GESIn. Grupo de Estudios y Servicios Informáticos. GESIn Grupo de Estudios y Servicios Informáticos.

Outlook Express. Manual de. GESIn. Grupo de Estudios y Servicios Informáticos. GESIn Grupo de Estudios y Servicios Informáticos. Manual de Outlook Grupo de Estudios y Servicios Informáticos Página 1 1. Abrir el programa Existen diversos programas para gestionar el correo electrónico. Los más conocidos y usados son Outlook, "Netscape

Más detalles

Manual de Administrador de Entidades

Manual de Administrador de Entidades Manual de Administrador de Entidades Tabla de contenido 1 INTRODUCCIÓN... 1 2 CREAR ENTIDADES... 2 3 RELACIÓN CON USUARIOS Y SALAS... 6 4 NOTICIAS... 8 5 ENCUESTA... 9 6 DOCUMENTOS... 11 7 EVENTO... 12

Más detalles

SINTRA TD Manual de Usuario 1 / 61

SINTRA TD Manual de Usuario 1 / 61 Bienvenido a SINTRA TD, un software que le permitirá interpretar la información recogida en los archivos descargados de su Tacógrafo Digital o Tarjeta de Conductor así como gestionar las actividades de

Más detalles

TABLAS DINÁMICAS EXCEL 2007. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

TABLAS DINÁMICAS EXCEL 2007. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE TABLAS DINÁMICAS EXCEL 2007 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE TABLAS DINÁMICAS Una tabla dinámica consiste en el resumen de un conjunto de datos, atendiendo a varios criterios

Más detalles

Versión: 1.0.0. Desarrollado por AloOnline Alojamiento Web. http://www.aloonline.es. soporte@aloonline.es -1-

Versión: 1.0.0. Desarrollado por AloOnline Alojamiento Web. http://www.aloonline.es. soporte@aloonline.es -1- Versión: 1.0.0 Desarrollado por AloOnline Alojamiento Web http://www.aloonline.es soporte@aloonline.es -1- INDICE 1. Acceder al panel de WordPress... 3 2. Crear entradas en el Blog y páginas... 4 2.1.

Más detalles

www.pildorasinformaticas.com Página 1

www.pildorasinformaticas.com Página 1 Capítulo 1. CREACIÓN DE BBDD Y VALIDACIÓN DE DATOS... 4 1.1. Crear una BBDD... 4 1.2. Formulario de entrada de datos... 5 1.3. Importación de datos... 7 1.4. Ordenación de registros... 10 1.5. Autofiltros...

Más detalles

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial

Más detalles

1. OBJETIVOS DE ESTE TUTORIAL... 2 2. QUÉ ES WORDPRESS?... 2 3. REGISTRARSE COMO USUARIO Y DAR DE ALTA EL PRIMER BLOG... 2

1. OBJETIVOS DE ESTE TUTORIAL... 2 2. QUÉ ES WORDPRESS?... 2 3. REGISTRARSE COMO USUARIO Y DAR DE ALTA EL PRIMER BLOG... 2 1. OBJETIVOS DE ESTE TUTORIAL... 2 2. QUÉ ES WORDPRESS?... 2 3. REGISTRARSE COMO USUARIO Y DAR DE ALTA EL PRIMER BLOG... 2 4. GESTIONAR NUESTRO SITIO WEB WORDPRESS... 8 4.1 ACCEDER AL PANEL DE GESTIÓN...

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

Manual de usuario para el uso del certificado electrónico en la Universidad de Murcia

Manual de usuario para el uso del certificado electrónico en la Universidad de Murcia Manual de usuario para el uso del certificado electrónico en la Universidad de Murcia Versión: 2.14.10.03 Contenido 1 Qué puedo encontrar en este manual?... 3 2 Uso del certificado electrónico desde la

Más detalles

4 o Ingeniería Informática

4 o Ingeniería Informática Esquema del tema 1. Introducción 4 o Ingeniería Informática II26 Procesadores de lenguaje Estructura de los compiladores e intérpretes 2. Etapas del proceso de traducción 3. La interpretación 4. La arquitectura

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Tutorial de Moodle. Actividad Cuestionario

Tutorial de Moodle. Actividad Cuestionario Tutorial de Moodle Actividad Cuestionario Cuestionario Para qué sirve? El Cuestionario es una actividad autoevaluable, en la cual la nota se calcula automáticamente. Sirve al alumno como autoevaluación

Más detalles

Primeros pasos Instalación y puesta a punto

Primeros pasos Instalación y puesta a punto Primeros pasos Instalación y puesta a punto Eliot / Guía del usuario 2 Introducción Bienvenido a la guía de instalación de Eliot. Este manual explica cómo poner en marcha una instalación o un nuevo puesto

Más detalles

Joomla!: La web en entornos educativos. Capítulos 7 y 8

Joomla!: La web en entornos educativos. Capítulos 7 y 8 Joomla!: La web en entornos educativos Capítulos 7 y 8 Material actualizado a septiembre de 2012 Índice Índice de contenido 7. Menús...109 7.1. Introducción...109 7.2. Gestión de menús...109 7.3. Gestión

Más detalles

LA MEDIDA Y SUS ERRORES

LA MEDIDA Y SUS ERRORES LA MEDIDA Y SUS ERRORES Magnitud, unidad y medida. Magnitud es todo aquello que se puede medir y que se puede representar por un número. Para obtener el número que representa a la magnitud debemos escoger

Más detalles

MANUAL DE AYUDA. MÓDULO CALIDAD (Adaptado a ISO 9000)

MANUAL DE AYUDA. MÓDULO CALIDAD (Adaptado a ISO 9000) MANUAL DE AYUDA MÓDULO CALIDAD (Adaptado a ISO 9000) Fecha última revisión: Junio 2011 INDICE DE CONTENIDOS CALIDAD... 4 1. INTRODUCCIÓN A LA CALIDAD... 4 CONFIGURACIÓN DE MAESTROS... 5 2. NIVELES DE SATISFACCIÓN...

Más detalles

Motivación: Control Distribuido:

Motivación: Control Distribuido: Motivación: La clase pasada examinamos brevemente los conceptos de Diseño de sistemas de instrumentación inteligente e Instrumentación Virtual. Durante la discusión del diseño de sistemas de instrumentación,

Más detalles

Ana Rosa Hevia García F

Ana Rosa Hevia García F 1 Organización y gestión. Ahora que ya hemos tenemos una visión general del entorno de Windows y sabemos cómo configurar el ordenador según nuestras necesidades, ya podemos comenzar a utilizar las herramientas

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

Instalación de Microsoft Virtual PC

Instalación de Microsoft Virtual PC Instalación de Microsoft Virtual PC Virtual PC es un software de Microsoft que permite instalar varios sistemas operativos en la misma máquina, sin tener que reiniciar Windows y además de forma segura,

Más detalles

DIAGRAMAS DE FLUJO: DFD

DIAGRAMAS DE FLUJO: DFD DIAGRAMAS DE FLUJO: DFD DFD es un programa de libre disposición para ayuda al diseño e implementación de algoritmos expresados en diagramas de flujo (DF). Además incorpora opciones para el depurado de

Más detalles

"CONTRASTES DE HIPÓTESIS" 4.4 Parte básica

CONTRASTES DE HIPÓTESIS 4.4 Parte básica 76 "CONTRASTES DE HIPÓTESIS" 4.4 Parte básica 77 4.4.1 Introducción a los contrastes de hipótesis La Inferencia Estadística consta de dos partes: Estimación y Contrastes de Hipótesis. La primera se ha

Más detalles

SERVICIO DE EMPLEO Comisión de Empleo y Nuevas Promociones Tlf: 91 308 19 88 servicio.empleo@ciccp.es

SERVICIO DE EMPLEO Comisión de Empleo y Nuevas Promociones Tlf: 91 308 19 88 servicio.empleo@ciccp.es NUEVA APLICACIÓN INFORMÁTICA PARA LA GESTIÓN DEL SERVICIO DE EMPLEO Versión 1.0 Diciembre 2003 1 1. INTRODUCCIÓN...3 2. Ficha OFERTA DE EMPLEO...6 3. Trabajos Pendientes...11 3.1. Listados de nuevas Fichas

Más detalles

3.1 Cómo ejecutar un escaneo utilizando el Asistente de Recuva

3.1 Cómo ejecutar un escaneo utilizando el Asistente de Recuva Cómo ejecutar diferentes escaneos utilizando Recuva Lista de secciones en esta página: 3.0 Antes de comenzar 3.1 Cómo ejecutar un escaneo utilizando el Asistente de Recuva 3.2 Cómo ejecutar un escaneo

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Faes Farma Suite para ipad es la herramienta diseñada específicamente para ayudar a los visitadores médicos en su labor diaria.

Faes Farma Suite para ipad es la herramienta diseñada específicamente para ayudar a los visitadores médicos en su labor diaria. Faes Farma Suite para ipad es la herramienta diseñada específicamente para ayudar a los visitadores médicos en su labor diaria. Esta herramienta le permitirá llevar un seguimiento continuo de su trabajo,

Más detalles

I GE IERÍA DEL SOFTWARE. Mª Dolores Carballar Falcón 28935146L

I GE IERÍA DEL SOFTWARE. Mª Dolores Carballar Falcón 28935146L I GE IERÍA DEL SOFTWARE. Mª Dolores Carballar Falcón 28935146L REFERE CIA AL SISTEMA EDUCATIVO ACTUAL. Los contenidos de este tema, están enfocados a introducir al alumno en el concepto de Ingeniería del

Más detalles

ENTORNO DE UN CURSO. Antes de empezar sería conveniente conocer la estructura de Moodle y entender los siguientes conceptos básicos:

ENTORNO DE UN CURSO. Antes de empezar sería conveniente conocer la estructura de Moodle y entender los siguientes conceptos básicos: ENTORNO DE UN CURSO Antes de empezar sería conveniente conocer la estructura de Moodle y entender los siguientes conceptos básicos: Cursos Categorías Cuentas de usuario y roles Perfil de usuario En Moodle,

Más detalles