UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO"

Transcripción

1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACTULTAD DE ESTUDIOS SUPERIORES ACATLÁN MINERIA DE DATOS CON APLICACIONES TESIS QUE PARA OBTENER EL TITULO DE LICENCIADA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN PRESENTA LILIANA CRUZ ARRRELA ASESOR: DRA. MARICARMEN GONZÁLEZ VIDEGARAY MARZO 2010

2 AGRADECIMIENTOS Gracias a Dios por su infinito amor y apoyo. A mi madre por su confianza y entrega. A mi padre por su apoyo. A mis hermanos por la confianza y amor. A mi esposo Raúl que me ha impulsado a lograr lo inimaginable. A mi Universidad y profesores. Gracias por lo que hemos logrado. Mas la senda de los justos es como la luz de la aurora, que va en aumento hasta que el día es perfecto Proverbios 4:18

3 INTRODUCCIÓN... 1 CAPÍTULO 1. MINERÍA DE DATOS INTRODUCCIÓN QUÉ ES LA MINERÍA DE DATOS? LIMITACIONES DE LA MINERÍA DE DATOS DIFERENCIAS ENTRE MINERÍA DE DATOS Y ESTADÍSTICA MINERÍA DE DATOS Y KDD METODOLOGÍAS DE MINERÍA DE DATOS Metodologías SEMMA Metodología CRISP-DM FASES DE UN PROYECTO DE MINERÍA DE DATOS APLICACIONES DE LA MINERÍA DE DATOS CAPÍTULO 2. TÉCNICAS DE MINERÍA DE DATOS INTRODUCCIÓN TÉCNICA DE DETECCIÓN DE ANOMALÍAS (OUTLIER) AGRUPAMIENTO (CLUSTERING) ÁRBOLES DE DECISIÓN REDES BAYESIANAS REDES NEURONALES SERIES DE TIEMPO CAPÍTULO 3. SOFTWARE PARA MINERÍA DE DATOS INTRODUCCIÓN INTELLIGENT MINER / DB2 DATA WAREHOUSE EDITION (IBM) PASW MODELER (CLEMENTINE) DATAENGINE ORACLE DATAMINING WEKA (SOFTWARE EN JAVA DE MINERÍA DE DATOS)

4 3.7. ENTERPRISE MINER (SAS) CAPÍTULO 4. MANUAL DE MD CON HERRAMIENTAS DE APOYO SELECCIÓN Y PREPROCESADO DE DATOS SELECCIÓN DE VARIABLES EXTRACCIÓN DE CONOCIMIENTO INTERPRETACIÓN Y EVALUACIÓN APLICACIÓN DE UN ESTUDIO DE MINERÍA DE DATOS CONCLUSIÓN REFERENCIAS

5 INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capítulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 1 -

6 Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo práctico que ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación

7 INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capitulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 1 -

8 Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo práctico que ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación

9 Capítulo 1. Minería de Datos 1.1. Introducción La minería de datos (Data Mining) surge a principios de los 80 s cuando la Administración de Hacienda Estadounidense desarrolló un programa de investigación para detectar fraudes en la declaración y evasión de impuestos, mediante lógica difusa, redes neuronales y técnicas de reconocimiento de patrones. Sin embargo, su expansión se produce hasta los 90 s originada principalmente por tres factores. Incremento en la potencia de procesamiento de las computadoras, así como en la capacidad de almacenamiento. El crecimiento de la cantidad de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos y sistemas de almacenamiento masivo, sino también por la automatización de muchos trabajos y técnicas de recogida de datos (observación con nuevas tecnologías, entrevistas más prácticas, encuestas por Internet, etcétera) Aparición de nuevos métodos de técnicas de aprendizaje y almacenamiento de datos, como las redes neuronales, la Inteligencia artificial, el surgimiento del almacén de datos (Data Ware House)[1] La minería de datos surge por la necesidad de obtener estrategias de negocio, conocer a los clientes, obtener información de productos, interpretar información valiosa para la toma de decisiones, etcétera. La idea de minería de datos no es nueva, ya desde los años sesenta los estadísticos manejaban términos como data fishing, minería de datos o data - 3 -

10 archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de minería de datos y descubrimiento de conocimiento en base de datos. A finales de los años ochenta sólo existían un par de empresas dedicadas a ésta tecnología; en 2002 existían más de 100 empresas en el mundo que ofrecían alrededor de 300 soluciones, ahora se ven áreas dedicadas a la minería de datos dentro de cada empresa, ya que, es una herramienta ideal para obtener información valiosa e importante de manera rápida y eficaz, a través de procesos especializados y sistemáticos. Una serie de avances en la tecnología y los procesos de negocio han contribuido al creciente interés de ésta en los sectores público (detectar fraudes, residuos, medición y mejora de programas) y privado (banca, seguros, ventas, etcétera.) Algunos de estos cambios incluyen el crecimiento de las redes de computadoras, que se utilizan para conectar bases de datos; el desarrollo de una mayor búsqueda de relaciones con técnicas como las redes neuronales y algoritmos avanzados, la propagación de las aplicaciones cliente/servidor, lo que permite a los usuarios acceder a los recursos centralizados de datos desde el escritorio y una mayor capacidad para combinar datos de diferentes fuentes en una sola búsqueda.[2] y[3] 1.2. Qué es la minería de Datos? Existen varias definiciones de minería de datos, a continuación se mencionaran algunas: - 4 -

11 Definición 1. Minería de datos es el proceso por el cual generamos un modelo, que sirva para la predicción, este modelo se genera con base en los datos que se encuentran en una base de datos aplicándoles algún algoritmo que construya el modelo. [4] Definición 2. La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos. [5] Definición 3. Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión. [6] Definición 4. Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. [7] En la definición 1 y 2, se dice que la minería de datos es un proceso; en la definición 3 se describe como una integración de áreas y en la definición 4 como un mecanismo de explotación. Las cuatro definiciones se complementan una con otra así como los propósitos que se citan en cada una de ellas. Entonces concluimos que la minería de datos es un proceso que integra diferentes áreas sirviendo como mecanismo de explotación para identificación de información valiosa, novedosa y útil; así como para predicción de comportamientos. Por tanto el objetivo fundamental de ésta es aprovechar el valor de la información localizada y usar patrones preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y se tomen decisiones - 5 -

12 más confiables. El resultado de la minería será un modelo que se tendrá que evaluar para ver qué tan certero será con respecto a sus predicciones y posteriormente se utilizará para predecir el patrón de comportamiento de cualquier dato nuevo (esto se hace calificando los nuevos datos basándose en el modelo generado) que llegue a la base de datos. Las aplicaciones de minería de datos utilizan una gran variedad de parámetros para examinar los datos: La asociación (los patrones de un evento que está conectado a otro evento, como la compra de una pluma y la compra de papel) La secuencia (patrones donde un evento lleva a otro, como el nacimiento de un hijo y la compra de pañales) La clasificación (identificación de nuevos patrones, como coincidencias entre la compra de cinta adhesiva para conductos y la compra de láminas de plástico) Las agrupaciones (encontrar y documentar visualmente grupos de hechos anteriormente desconocidos, como ubicación geográfica y las preferencias de marca) Los pronósticos (el descubrimiento de patrones a partir de los cuales se hacen predicciones en relación con las actividades futuras, tales como, la predicción de que las personas que pertenecen a un club de atletismo tome clases de ejercicio)[8] En la minería de datos casi nunca se menciona el tiempo que se invierte en la limpieza y la verificación de los datos, así como la definición de las variables, pero este proceso es muy importante ya que por lo regular las bases de datos de los sistemas operacionales contienen datos duplicados, a veces erróneos, superfluos o incompletos. A esto se le suman los errores por la operación de los sistemas. Las principales características y objetivos de la minería de datos son: - 6 -

13 Explorar los datos para encontrar información valiosa que está oculta dentro de las grandes bases de datos. El entorno de la minería de datos suele tener una arquitectura cliente servidor, es decir la información se encuentra en un servidor con accesos restringidos y las consultas se hacen por medio de otra aplicación independiente. Las herramientas de minería de datos ayudan a explotar los datos con los que se cuenta, para encontrar patrones, crear predicciones, etcétera. La información obtenida a través de la minería de datos ayuda a los usuarios a elegir cursos de acción y a definir estrategias competitivas, porque conocen información qué sólo ellos emplean. Explorar, a menudo implica el descubrimiento de resultados valiosos e inesperados. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos es un proceso que invierte la dinámica del método científico, el cual consiste en formular una hipótesis y luego se diseña el experimento para confirmarla o refutarla; y en minería de datos primero se diseña y realiza el experimento y finalmente se obtiene el nuevo conocimiento. [10] 1.3. Limitaciones de la minería de datos Las limitaciones de la minería de datos son los primeros datos o datos puros, y no tanto la tecnología o herramientas para el análisis, es decir depende mucho de la limpieza de los datos y de la definición de las variables, si los datos no están correctos el modelo creado no servirá. Del mismo modo la validez de los patrones descubiertos depende de cómo se apliquen al mundo real o a las circunstancias

14 Por ejemplo, para una empresa de telefonía móvil, donde se hace un análisis de cancelación de líneas, se muestra que en algunos estados de la República Mexicana el patrón de compra de equipo y cancelación de la línea en 3 meses, se presenta con más frecuencia durante los meses de diciembre y enero, mientras que en otros estados la cancelación de líneas nunca se da por cambio de equipo, es por problemas con el teléfono y en el mes de septiembre; por tanto, es difícil especificar que cuando se cambia de equipo inmediatamente se da la cancelación de la línea, el usuario que realice las minería está encargada de conocer el negocio para deducir la razón de las cancelaciones de las líneas. Otra limitación es que si bien ésta identifica las conexiones entre los comportamientos y/o variables, no necesariamente se sabe la causa de la relación. [8] 1.4. Diferencias entre minería de datos y estadística La minería de datos como enfoque para el análisis y descubrimiento de la información o conocimiento a realizar en grandes bases de datos combina técnicas como: Estadística (análisis factorial, discriminante, regresivo, de correlaciones), redes neuronales, sistemas expertos o basados en el conocimiento, sistemas de reglas de inducción, lógica difusa, algoritmos genéticos, algoritmos matemáticos (teoría de fractales y del caos, simulación) El uso de metodologías estadísticas y de minería de datos a veces suelen confundirse entre ellas. La minería de datos se presenta como una disciplina nueva, ligada a la Inteligencia Artificial y diferenciada de la Estadística. Por otro lado, en el mundo estadístico más académico, la minería de datos ha sido considerada en su inicio como una moda más, aparecida después de los sistemas expertos, conocida desde hacía tiempo bajo el nombre de data fishing. Ésta conlleva la promesa de exploración y el encuentro de relaciones subyacentes en los datos, por tanto se dice que la esencia de la minería de datos se encuentra en la posibilidad del - 8 -

15 descubrimiento de información insospechada, pero sumamente valiosa, esto significa que la minería de datos es exploratoria y las áreas de la estadística son confirmatorias (confirmar hipótesis) La estadística sobre todo descriptiva se desarrolló en épocas donde no se contaba con las computadoras, de ésta manera un conjunto de datos de 1,000 registros era considerado como "grande", pero no se compara con los 50 millones de transacciones con tarjeta de crédito que se realizan en México anualmente y que conforman bases de datos sumamente interesantes para el mundo financiero. Con la estadística se hacen manipulaciones de datos de manera directa; en minería de datos no es así, se necesita una serie de algoritmos numéricos. Otra diferencia entre estadística y minería de datos es que a la minería no le concierne la selección de la información y en la estadística es cuestión fundamental el cómo seleccionar la muestra de la mejor manera, de tal forma que sea representativa de la población, la minería de datos supone que los datos ya han sido recolectados y se aboca al descubrimiento de información o patrones. En la tabla 1 se muestran las características de la estadística y la minería de forma comparativa para visualizar las diferencias entre ambas

16 Tabla 1. Diferencia minería de datos vs. Estadística En conclusión en la estadística se desarrolla una hipótesis y, a continuación se usan los datos para probar o refutar la hipótesis. Por ejemplo, un usuario podría tener la hipótesis de que un cliente que compra un martillo, también compra una caja de clavos. La eficacia de este enfoque se ve limitado por la creatividad del usuario a desarrollar diversas hipótesis, así como la estructura del software que sea utilizado. En contraste, la minería de datos utiliza un enfoque de descubrimiento, en los algoritmos que son usados para examinar varias relaciones en bases de datos multidimensionales de manera simultánea, identificar a aquellos que se presentan con frecuencia. Por ejemplo, los tipos de compras en una tienda, los horarios, los tipos de clientes, la comparación de clientes por su vivienda, tipo de automóvil, edad, ocupación, ingresos y / o la distancia entre su casa y la tienda, etcétera.[11]

17 1.5. Minería de Datos y KDD La minería de datos revela patrones o asociaciones que son desconocidos para el usuario, por ésta razón, entra o se asocia con el contexto de Knowledge Discovery in Database (KDD) o descubrimiento de conocimientos en las bases de datos. Éste término es originado de la Inteligencia Artificial (AI). Qué es conocimiento? Desde el punto de vista de las organizaciones, se define el conocimiento como aquella información que permite generar acciones asociadas a satisfacer las demandas del mercado, y apoyar las nuevas oportunidades a través de la explotación de las competencias centrales de la organización. El conocimiento es una combinación de valores, información contextualizada y experiencias que proporcionan un marco para evaluar e incorporar nuevas experiencias e información. El conocimiento se origina y aplica en la mente de las personas. En las organizaciones, el conocimiento reside en documentos y bases de datos y también en los procesos, prácticas y normas corporativas (Ver figura 1 de las etapas del descubrimiento)figura 1. Etapas del descubrimiento de conocimientos.[5]) Figura 1. Etapas del descubrimiento de conocimientos.[5]

18 El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: a. Selección de datos. Es la primera etapa para extraer conocimiento, se define la fuente de datos a analizar y esto depende del objetivo del estudio, se parte de una pregunta o hipótesis, o bien se encuentre y sugiera algún modelo a partir del análisis de la información. Los atributos o campos seleccionados son significativos para el conocimiento que se desea obtener, en cuanto al número de registros, a veces es suficiente realizar el análisis sobre un subconjunto o muestra. b. Pre-procesar la información. Ésta etapa tiene por objetivo preparar los datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las técnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo erróneo; integración de datos, para generar un único almacén de datos coherente en aquellos casos donde los datos provienen de diferentes fuentes; transformaciones de datos, para normalizarlos; y reducción de datos, a fin de reducir el tamaño de los datos, por ejemplo, eliminando características redundantes. La importancia del pre-procesamiento de los datos es por la calidad de los datos sobre los que se aplican técnicas de descubrimiento de conocimiento ya que esto impacta de manera directa en la calidad del conocimiento que se descubre a partir de ellos. c. Transformación de la información. Ésta es la que insume mayor tiempo, aproximadamente el 60% del esfuerzo total; ya que es necesario tener el conocimiento del negocio, así como el objetivo del proyecto o hacia donde se quiere llegar. d. Patrones. Antes de comenzar con ésta etapa, se define el tipo de conocimiento que se desea obtener, a partir de éste se elige la técnica y finalmente el algoritmo. La minería tiene diferentes objetivos como predictivo

19 (estimación de valores futuros o desconocidos de variables de interés a partir de otras variables independientes) o descriptivo (identificación de patrones en los datos que los explican o resumen). e. Conocimiento. Una vez que se tenga el modelo de minería de datos, se da un informe de los resultados obtenidos por medio de presentaciones, reportes, cuadros comparativos, graficas, etcétera. Para evaluar si los resultados son los esperados. Los objetivos del descubrimiento de conocimiento y la minería de datos son: Procesar automáticamente grandes cantidades de datos. Identificar los patrones más significativos y relevantes. Descubrir conocimiento apropiado para satisfacer las metas de un usuario. Formular una estrategia de alcance organizacional para el desarrollo, adquisición y aplicación del conocimiento. Implantar estrategias orientadas al conocimiento. Promover la mejora continua de los procesos de negocio, enfatizando la generación y utilización del conocimiento. Monitorizar y evaluar los logros obtenidos mediante la aplicación del conocimiento. Reducir los tiempos de ciclo en el desarrollo de nuevos producto y mejorar los existentes. Reducir los costos por repetición de errores.[5] 1.6. Metodologías de minería de datos Ante la necesidad existente en el mercado de una aproximación sistemática para la realización de los proyectos de minería de datos, diversas empresas y consultorías han especificado un proceso de modelado diseñado para guiar al usuario a través de una sucesión de pasos que le dirijan a obtener buenos

20 resultados. Dentro de las principales metodologías utilizadas por los analistas en los proyectos de minería de datos se tiene la metodología SEMMA (Sample, Explore, Modify, Model, Assess que significa: Muestreo, exploración, manipulación, modelado y valoración) propuesta por SAS y la metodología de libre distribución CRISPDM (Cross- Industry Standard Process for Data Mining) creada por un consorcio de empresas europeas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda) Existen otras metodologías menos usuales como la metodología KM-IRIS creada por un grupo de de Integración y Re-Ingeniería de Sistemas (IRIS) de la Universidad Jaume.[14] Metodologías SEMMA SAS Institute desarrollador de ésta metodología, la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de ésta metodología corresponde a sus letras iníciales en inglés: Sample (Muestreo), Explore (Exploración), Modify (Manipulación), Model (Modelado) y Asses (Valoración). Figura 2. Fases de la metodología SEMMA.[15]

21 El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de ésta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra se define como la capacidad de reproducir a pequeña escala las características de la población. Ésta es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada muestra considerada para el análisis del proceso asocia el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología SEMMA indica que se procede a una exploración de la información disponible con el fin de simplificar el problema y optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización ó de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo. La tercera fase de la metodología consiste en la manipulación de los datos, con los resultados de la exploración realizada, de forma que se definan y tengan el formato adecuado de los datos que serán introducidos en el modelo. Una vez que se han definido las entradas del modelo, con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de ésta fase consiste en establecer una relación entre

22 las variables explicativas y las variables objetivo, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión, reglas de asociación y computación evolutiva. Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos, contrastado con otros métodos estadísticos o con nuevas poblaciones muéstrales. En la figura 3 se observa un esquema de la dinámica general de la metodología

23 Figura 3. Metodología SEMMA.[14] En conclusión, la metodología consiste en los siguientes pasos: tomar los datos o una muestra en caso de que la cantidad de datos sea muy grande, se exploran, modifican, modelan y se evalúan en el modelo o los modelos resultantes para elegir el más adecuado. [14] y [15] Metodología CRISP-DM CRISP-DM es una organización europea creada por tres grandes jugadores en proyectos de minería de datos que son SPSS, NCR y Daimler Chrysler. Lo que trata ésta metodología es desarrollar los proyectos de minería de datos bajo un proceso estandarizado de definición y validación de tal forma que se desarrollen

24 proyectos minimizando los costos que impliquen y con un alto impacto en el negocio. La metodología CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de minería de datos: el modelo de referencia y la guía del usuario. El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas de un proyecto de minería en general. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia a proyectos de minería de datos específicos, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase. La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto

25 Figura 4. Fases del proceso de modelado metodología CRISP-DM. [14] En la figura 4, las flechas indican relaciones más habituales entre las fases, aunque podamos establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza cíclica del proceso de modelado. La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación. La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que se establezca un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis. Una vez realizado el análisis de datos, la metodología establece que se proceda la preparación de los datos, de tal forma que sean tratados por las técnicas de

26 modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se va a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado. Independientemente de la técnica de modelado, los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática. En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos específico. En la fase de evaluación se evalúa el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase y de la precisión del mismo, se procede al despliegue de éste en caso de requerirse. La fase de explotación es en la cual se muestra el resumen de evaluación de los resultados, las relaciones y patrones encontrados para que éstos sean utilizados en la traza de estrategias y toma de decisiones. [14] y [16] Comparación de metodologías Las metodologías SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de minería de datos en fases que se encuentran interrelacionadas entre sí, convirtiendo el proceso en iterativo e interactivo. La metodología SEMMA se centra más en las características técnicas del desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una

27 perspectiva más amplia respecto a los objetivos empresariales del proyecto. Ésta diferencia se establece ya desde la primera fase del proyecto de minería de datos donde la metodología SEMMA comienza realizando un muestreo de datos, mientras que la metodología CRISP-DM comienza realizando un análisis del problema empresarial para su transformación en un problema. Entonces la metodología CRISP-DM está más cercana al concepto real de proyecto, integrada con una Metodología de Gestión de Proyectos específica que completaría las tareas administrativas y técnicas.[14] Otra diferencia significativa entre la metodología SEMMA y la metodología CRISP-DM radica en su relación con herramientas comerciales. La metodología SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los productos SAS donde se encuentra implementada. Por su parte la metodología CRISP-DM ha sido diseñada como una metodología neutra respecto a la herramienta que se utilice para el desarrollo de minería de datos siendo su distribución libre y gratuita.[14] En la figura 5 se muestran la comparativa entre las dos metodologías

28 Figura 5. Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y CRISPDM. [14]

29 1.7. Fases de un Proyecto de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. Figura 6. Fases del Proyecto de Minería de Datos. [10] La figura 6 muestra las fases de la minería de datos, las cuales se describen a continuación: a. Selección y preprocesado de datos. La selección de la información dependerá del objetivo del proyecto, por ejemplo si se requiere hacer un análisis de las altas de líneas Telcel en el mes de noviembre y diciembre de la ciudad de México y zona metropolitana, entonces se está hablando que se acota la información de la base de datos de todos los clientes, incluso, se trabaja con solo una muestra de la información requerida. Con el preprocesado se refiere a la eliminación de información errónea y la corrección algunos datos nulos o con valores irreales. b. Selección de variables. Aún después de haber sido preprocesados los datos o la información, en la mayoría de los casos se tiene una cantidad enorme de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son aquellos basados en la elección de los mejores

30 atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia. c. Extracción de conocimiento. El conocimiento se obtiene aplicando alguna técnica de minería de datos (árboles de decisión, cluster, etcétera) a la información dependiendo del objetivo del estudio (véase el capitulo 2 de Técnicas de minería de datos); con la finalidad de obtener un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También se usan varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. d. Interpretación y evaluación. Una vez obtenido el modelo, se procede a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se comparan los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se altera alguno de los pasos anteriores para generar nuevos modelos Aplicaciones de la minería de datos La minería de datos se utiliza para varios pronósticos tanto en el sector público como privado, industrias como la banca, los seguros, la medicina, para la reducción de costos, mejorar la investigación, y aumentar las ventas. Por ejemplo, las industrias de seguros y banca, usan aplicaciones de minería de datos para detectar el fraude y ayuda a la evaluación del riesgo (credit scoring) Utilizando los datos de clientes recabados a lo largo de varios años, las empresas desarrollan modelos que predicen si un cliente tienen alto riesgo

31 crediticio (por ejemplo hoy en día se cuenta con el buró de crédito), o si un crédito es fraudulento y tiene que ser investigado más a fondo. La comunidad médica a veces utiliza a la minería de datos para ayudar a predecir la eficacia de un procedimiento o medicamento. Las empresas farmacéuticas usan la minería de datos de compuestos químicos y material genético para ayudar a guiar la investigación en nuevos tratamientos para las enfermedades. Empresas como el servicio telefónico, los proveedores de música, clubes utilizan la minería de datos para crear un análisis de churn (probabilidad de que un cliente cancele algún servicio), para evaluar los que son probables a que permanezcan como suscriptores y cuáles son susceptibles de pasar a la competencia. En Estados Unidos, la minería de datos se utilizó inicialmente como un medio para detectar el fraude y el derroche, hoy en día también se utiliza para fines tales como medir y mejorar el rendimiento del programa. Se ha informado que ésta ha ayudado al gobierno federal de EU. a la recuperación de millones de dólares por fraude. El Departamento de Justicia de EU. ha sido capaz de utilizar la minería de datos para evaluar modelos de delincuencia y ajustar las asignaciones de recursos en consecuencia. Otro ejemplo es la Administración Federal de Aviación (EU.), que utiliza la minería de datos para revisión de accidentes comunes de avión para reconocer los defectos y recomendar precaución. Recientemente, la minería de datos ha sido cada vez más citada como una herramienta importante para la seguridad de los ciudadanos. [10]

32 En el Gobierno Ejemplo: El FBI analizará las bases de datos comerciales para detectar terroristas. En julio del 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con ésta información, el FBI unirá todas las bases de datos mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros.[10] En la Empresa Ejemplo 1. Predecir qué personas que solicitan un crédito no lo devuelven. Se cuenta con los datos correspondientes a los créditos concedidos con anterioridad, y otros datos personales como el salario del cliente, si posee casa propia, etcétera. Ver tabla

33 Tabla 2.Información de créditos personales.[10] Aplicando minería de datos, se tiene como resultado la siguiente Regla: SI cuentas-morosas>0 ENTONCES devuelve-crédito = No SI cuentas-morosas=0 Y (salario>2500 Ó Dcrédito > 10) ENTONCES Devuelve-crédito=Sí Ejemplo 2. Determinar las características socio económicas de los turistas en un determinado destino o paquete turístico, identificar patrones de reservas y sugerir destinos. Tabla 3. Información de destinos por cliente

34 En la tabla 3 se tiene la información del cliente y características del viaje. Ana: profesional que viaja por motivos de negocios a grandes ciudades como México y Monterrey. Pedro: profesional que viaja por motivos de negocios generalmente a Monterrey. Luis: turista que viaja a destinos turísticos dentro de México. Esta información en conjunto con la minería de datos es útil también para sugerir destinos en sitios Web ó envió de publicidad a domicilio, obtener la puntuación de un usuario X de una muestra de paquetes turísticos, buscar otros usuarios Y s que tengan un patrón de gustos similar a X, recomendar los paquetes preferidos de los Y s, entre otros. Ejemplo 3. En el oeste se venden más camisas de manga corta que en el este. Una forma de probar ésta hipótesis es la presentada por la minería de datos, donde se sigue todo un proceso de búsqueda de patrones y criterios definidos por el usuario hasta llegar a la información relevante que apoye o niegue su hipótesis. Otra manera es obtener los resultados de ventas de ambos lugares, pero con esto solo se obtendría un Cierto o Falso, es decir no se sabría la razón del porque el resultado, si esto ha sido siempre o por periodos de tiempos, que tipos de clientes son los más usuales, etcétera. Ejemplo 4. Análisis de datos del carro de compras. Se tiene la siguiente información en la tabla

35 Tabla 4. Información de compras por cliente (carrito)[10] Con dicha información y un algoritmo de minería de datos se determinaría que: 100% de las veces que se compran pañales también se compra leche. 50% de las veces que se compran huevos también se compra aceite. 33% de las veces que se compra vino y salmón también se compra lechuga.[10] En la Universidad Ejemplo: Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México (Rodas, 2001) Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño

36 académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar soluciones, debido a que tres de las cuatro variables no dependían de la universidad.[10] En Investigaciones Espaciales Ejemplo: Proyecto SKYCAT. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con x píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (agrupamiento) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etcétera. Con la información obtenida, los astrónomos han descubierto dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.[5] y [10]

37 En los Clubes Deportivos Ejemplo: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de minería de datos y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA) El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador generalmente da la oportunidad a otro de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. El cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. En el 2000 IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes. [10]

38 Capítulo 2. de datos. Técnicas de Minería 2.1. Introducción Hoy en día, la cantidad de datos que se recaba es inimaginable, exceden nuestra habilidad de reducir y analizar la información, pero se cuenta con varias técnicas para apoyo al análisis, así como la tecnología para procesar grandes bases de datos. Las tareas de la minería de datos se clasifican en: a. Predictivas: Estimación de valores futuros o desconocidos de variables de interés (variables objetivo) a partir de otras variables independientes (predictivas) Por ejemplo el análisis de ventas cruzadas, que descubre qué objetos tienden a ser comprados juntos para crear recomendaciones y determinar cómo el posicionamiento del producto contribuye directamente a su línea inferior. En éstas tareas se resuelven con técnicas como: agrupamiento o clustering, regresión, series de tiempo, análisis de secuencias, entre otras. b. Descriptivas: Identificación de patrones en los datos que lo explican o resumen. Por ejemplo, la previsión de ventas que optimiza el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. Así la organización dispone de información sobre las ventas de cada producto en cada mes del último año. En este tipo de análisis se usa técnicas como: análisis de asociaciones, árboles de decisión, redes neuronales, análisis de grupos, etcétera

39 Tabla 1.Técnicas y tareas a realizar. [24] En la tabla 5 se muestra un cuadro comparativo de las diferentes técnicas, así como las tareas (clasificación, regresión, agrupamiento, reglas de asociación, correlaciónales) y algunas técnicas y algoritmos que las abordan. [9],[17] y [24] Nota: La selección de la técnica a utilizar en el análisis depende de los datos con los que se cuente y el objetivo del estudio Técnica de detección de anomalías (Outlier) La meta principal en la detección de anomalías, es encontrar objetos que sean diferentes de los demás. Frecuentemente estos objetos son conocidos como anomalías (outlier) La detección de anomalías también es conocida como detección de desviaciones, porque objetos anómalos tienen valores de atributos con una desviación significativa respecto a los valores típicos esperados. Aunque las anomalías son frecuentemente tratados como ruido o error en muchas operaciones, tales como agrupamiento, para propósitos de

40 detección de fraude son una herramienta valiosa para encontrar comportamientos atípicos en las operaciones que un cliente realiza en una entidad financiera. En términos de salida, las técnicas actuales de detección de anomalías se clasifican en: a. Técnicas basadas en Modelos. Se basan en el campo de estadísticas, dada la premisa de conocer la distribución de los datos. Entre estas técnicas se resalta: el método de convex hull el cual consiste en encontrar el polígono convexo más pequeño que incluye a todos los datos, dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez que tomamos dos puntos en ella, el segmento que los une pertenece también a dicha figura, se muestra un ejemplo de en la figura 7. Figura 1. Ejemplo del método Convexo Hull b. Técnicas basadas en proximidad. Ésta técnica se basa fundamentalmente en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los demás, éste es considerado como una anomalía. Entre los principales métodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. El método de Mahalanobis es una forma diferente de clasificar los datos en los dos grupos y esto se hace mediante la distancia de Mahalanobis en lugar de la distancia euclídea. Está representa la distancia entre el valor promedio del grupo que tiene una covarianza constante, de modo que en dos

41 dimensiones, se da esta distancia por un elipsoide. En la figura 8 se representa una curva de Mahalanobis, donde el proceso de clasificación consiste en calcular la distancia de Mahalanobis de un punto de prueba a la media de los dos grupos y luego decidir qué medio es el más cercano. Supongamos que las x s son el grupo masculino y las o el femenino, entonces es posible ver la forma elíptica que rodea el grupo masculino. Figura 2. Ejemplo del Algoritmo de Mahalonobis

42 El método Euclidiano se basa en calcular la distancia entre dos puntos P ( p, p,... p ) y Q = q, q,... q ) mediante la formula: n ( 2 n n ( p1 q1) + ( p2 q2) ( pn qn ) = ( pi qi ) i = 1 Quedando de la siguiente manera: d = ( x y x1) + ( y2 1) Esté método calcula la distancia como la longitud de la recta que une dos puntos en el espacio. En la figura 9 se observa gráficamente las dos distancias. Figura 3. Distancia Mahalanobis y Euclidiana. c. Técnicas basadas en densidad. Ésta técnica se basa en la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad y que son relativamente distantes de sus vecinos se consideran anómalos. Entre los principales métodos se encuentra: LOF (Local Outlier Factor), está técnica de minera de datos generalmente es de aprendizaje no supervisado, ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna

43 una calificación a cada instancia que refleja el grado con el cual la instancia es anómala. Por lo general ésta técnica es considerada para identificar errores en los datos ó bien para análisis muy en particular, por ejemplo, para el descubrimiento de fraudes. [18], [19] y [20] 2.3. Agrupamiento (Clustering) El análisis de grupos (cluster) es un proceso que divide un grupo de objetos de tal forma que los miembros de cada grupo son similares de acuerdo a alguna métrica. El agrupamiento de acuerdo a la similitud es una técnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa. El objetivo es agrupar elementos en grupos de manera que los elementos dentro de un mismo grupo sean lo más parecidos, mientras que elementos de distintos grupos sean lo más diferentes. Figura 4. Ejemplo de grupos o clúster

44 En la figura 10 se representa un ejemplo de grupos donde la entrada de patrones se muestra en (a), y los grupos se muestran en (b). La obtención de dichos grupos depende del criterio o distancia considerados. Por ejemplo, una baraja de cartas españolas se podría dividir de distintos modos: En cuatro grupos (los cuatro palos) En ocho grupos (los cuatro palos y según sean figuras o números) En dos grupos (figuras y números) Es decir, todo depende de lo que se considere como similar. [21] y [22] Etapas del análisis grupo Elección de las variables: Los tipos de variables dependerán del planteamiento del problema, éstas son: variables cualitativas, ordinales (grado de estudio), nominales (grupo), variables cuantitativas, variables discretas (número de alumnos), variables continuas (estaturas) [5] Elección de la medida de asociación o similitud: En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que depende de las escalas de medida. Las observaciones se agrupan según la similitud expresada en términos de una distancia. Algunas formulas de distancia más usadas son: Distancia euclidiana es llamada también distancia clásica, como la longitud de la recta que une dos puntos en el espacio. Eucl( x, y ) = d i = 1 ( x i y ) i

45 Distancia de Manhattan: es llamada también distancia por cuadras (city block), está hace referencia a recorrer un camino no en diagonal (por el camino más corto) si no zigzagueando, como se haría en Manhattan. Manh( x, y) = = x i y d i 1 i Distancia de Mahalanobis: es una distancia más robusta que utiliza la matriz de covarianzas S. Mahalanobis( x, y ) = ( x y) Cov( D) 1 ( x y ) Visualmente las distancias se observan en la figura 11. Distancia Mahalanobis Distancia Manhattan Distancia Euclídea Figura 5. Comparación de cálculo de distancias

46 Elección de las técnicas de grupos: Existen diferentes técnicas de grupo, la selección dependerá del resultado que se espera. (Ver Técnicas de agrupamiento) Validación de los resultados: Evaluar que tan bueno es el ajuste, es decir si el número de agrupaciones es el adecuado así como la contribución de las variables al agrupamiento Técnicas de agrupamiento. Mapas autoorganizativos (Kohonen): la característica más importante del modelo es el concepto de aprendizaje en un vecindario o agrupación próximo a la neurona ganadora. Figura 6. Visualización de un Mapa de Kohonen

47 En la figura 12 se muestra un ejemplo de Mapa de Kohonen de dos capas donde cada neurona de competición es una categoría y cada neurona de entrada está conectada con cada una de las células de la capa de competición (células que se distribuyen inicialmente de forma aleatoria). Paso1: Se recibe el ejemplo de entrada (n-dimensional) Los ejemplos son representables como puntos en un espacio n-dimensional Figura 7. Entradas en un mapa de Kohonen Paso2: Se propaga por las conexiones hasta llegar a la capa de competición (competición que se realiza de acuerdo a un modelo de interacción lateral) Los prototipos (objetos diseñados para una demostración) también se representan en el espacio y sus coordenadas quedan determinadas por los pesos de las neuronas de la capa de competición Figura 8. Se propagan las conexiones hasta llegar a la capa de competición

48 Paso3: Cada célula de esta capa de competición produce una salida al comparar el ejemplo con sus pesos. Paso4: Se selecciona el prototipo cuya distancia al ejemplo sea menor (célula ganadora) Figura 9. Se selecciona el prototipo. Paso 5: Los pesos de la célula ganadora se modifican para acercarse ligeramente al ejemplo modificando así el mapa de prototipos inicial Figura 10. Mapa de prototipo inicial

49 Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa la distancia del ejemplo a los distintos prototipos existentes sino también la clase a la que pertenecen los ejemplos cercanos. K-Medias (K-Means): es un método de agrupación de casos que se basa en las distancias existentes entre ellos en un conjunto de variables (este método no permite agrupar variables). El objetivo de este algoritmo es intentar situar los prototipos de forma tal que aquellos patrones cercanos (distancia euclídea) sean similares entre sí. Ejemplo. Se cuenta con la siguiente información: Tabla 2. Datos para el ejemplo de K-medias. Paso 1. Graficando se tiene que: ph Atributo1 índice ponderado Figura 11. Gráfica inicial de la información. Paso 2. Seleccionar k elementos aleatoriamente, los cuales representa el centro o media de cada cluster. Para este caso de estudio tomamos medicina A y medicina B como los primeros centroides (centros

50 multivariantes de los conglomerados) definiéndolos como c 1 y c 2 respectivamente; entonces se tiene c 1 = (1,1 ) y c 2 = (2,1 ) ph Atributo1 índice ponderado Paso 3. Figura 12. Primeros centroides. A cada objeto restante se le asigna el grupo con el cual más se parece, basándose en una distancia entre el objeto y la media del grupo. Para esto se calcula la distancia entre los centros de los cluster de cada objeto que en este caso es c1y c 2. La distancia de medicina c = (4,3 ) ) con el primer centroide o media del cluster se calcula con la fórmula de la distancia: 2 2 c 1 = (1,1) (4 1) + (3 1) = 3. 61, y con respecto al segundo 2 2 centroide es c2 = (2,1 ) (4 2) + (3 1) = 2. 83, etc. Para agrupación de cada objeto se basa en la mínima distancia, por ejemplo para medicina C la distancia es menor hacia el grupo 2, por tanto es asignada a este. La distancia de medicina D = (5,4) con respecto a los centroides es:

51 2 2 c 1 = (1,1) (5 1) + (4 1) = c2 = (2,1) (5 2) + (4 1) = Entonces de acuerdo al resultado de las distancias se tiene que medicina C y D están asignadas al grupo 2. Entonces la matriz de grupo quedaría definida de la siguiente manera: Paso 4. Se itera nuevamente. En el grupo uno solo existe un centroide c 1 = (1,1 ), en el grupo 2 hay 3 por tanto se calcula el promedio de estos para obtener el segundo c 2 = (, ) = (, ). Ver figura ph Atributo1 índice ponderado Figura 13. Gráfica de los segundos centroides. Ahora se calculan las distancias de los objetos con el nuevo centroide:

52 2 2 Medicina B (2,1 ) c 1 = (1,1 ) (2 1) + (1 1) = 1 c = ( , ) 3 3 ( 2 11/3) 2 (1 8/3) 2 + = Medicina C (4,3 ) c 1 = (1,1) (4 1) 2 + (3 1) 2 = 3.61 c = ( (4 11/ 3) + (3 8/ 3) = , ) 3 3 Medicina D (5,4) c 1 = (1,1) (5 1) 2 + (4 1) 2 = 5 c = ( (5 11/ 3) + (4 8 / 3) = , ) 3 3 Medicina B se mueve al Grupo 1, medicina C y D siguen quedando en el grupo B, la matriz queda: Paso 5. Como la matriz 0 1 G es diferente a G, se vuelve a iterar. Para obtener los nuevos centroides se calcula el promedio de A y B para el primer grupo, de C y D para el grupo c 1 = (, ) = (1,1) y c 2 = (, ) = (4,3 )

53 Figura 14. Gráfica con nuevos centroides. Nuevamente calculamos la distancia de los objetos con los nuevos centroides. El resultado de las distancias mínimas dan como resultado Medicina A y B en primer grupo y medicina C y D en el segundo, Paso 6. Como el resultado es el mismo que el anterior 2 1 G = G se termina de iterar; ya que los grupos no se han movido por tanto no es necesario más iteraciones. Quedando la agrupación final:

54 Tabla 3. Tabla final del ejemplo Ventajas de la técnica Rendimiento en la información, es decir, se analiza en grandes bases de datos sin problema alguno. Entre las clases internas la similitud es muy alta. Entre las clases externas la similitud es muy baja. La calidad del resultado de los grupos depende de la medida de similitud usada por el método y su implementación. La calidad del método de agrupamiento también depende de la capacidad de descubrir algunos o todos los patrones ocultos. La calidad de la agrupación también depende de la definición y representación del grupo elegido Usos y/o aplicaciones Biología: Crear la taxonomía de todas las cosas vivas, como reino, clases, categorías, familia, género y especies. Con el apoyo de ésta técnica, encontramos la clasificación parecida. Recuperación de información: por ejemplo, buscar algo en Internet entre las millones de páginas Web. El agrupamiento usa grupos de ésta búsqueda, dando como resultados grupos de agrupamiento más pequeños. Clima: para entender el clima, se requiere encontrar patrones en la atmósfera y el océano. Medicina: Los grupos se usan para identificar diferentes subcategorías, por ejemplo, para identificar tipos de depresión

55 Negocios: se usa para agrupar clientes y así realizar actividades de marketing Limitaciones Necesidad de validar la solución. Técnica exploratoria, sin solución única. Perdida de alguna información valiosa más minuciosa. La dificultad de etiquetar los grupos. Gran numero de dimensiones. [26] y [27] 2.4. Árboles de Decisión Un árbol de decisión es un modelo de predicción y se define como un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se determina siguiendo las condiciones que se cumplen desde la raíz del árbol hasta sus hojas. Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la construcción de modelos predictivos. Por está razón es la técnica mas usada. Un árbol de decisión tiene unas entradas las cuales son un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores toman las entradas y las salidas son valores discretos o continuos De forma más concreta, refiriéndonos al ámbito empresarial, los árboles de decisión son diagramas de decisiones secuenciales y muestran sus posibles resultados. Éstos ayudan a las empresas a determinar cuales son sus opciones al mostrarles las distintas decisiones y sus resultados. La opción que evita una pérdida o produce un beneficio extra tiene un valor. La

56 habilidad de crear una opción, por lo tanto, tiene un valor que es comprado o vendido. Inicio Rechazar < 25 años Edad >= 25 años Antigüedad < 18 meses >= 18 meses Rechazar Aceptar Figura 15. Árbol de decisión. En la figura 21 se observa un ejemplo de árbol el cual contiene dos variables: edad y antigüedad. Se interpreta de la siguiente manera: Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es igual o mayor a 18 meses entonces el cliente es aceptado. Existen ciertos conceptos de la metodología: Entropía: es la medida de la incertidumbre que hay en un sistema. Es decir, ante una determinada situación, la probabilidad de que ocurra cada uno de los posibles resultados. La función de entropía más usada es la denominada binaria descrita por la fórmula:

57 H 1 1 p,1 p) = p log2( ) + (1 p)log ( ) p 1 p 2( 2 Su gráfica es: Figura 16. Gráfica de la entropía. Un ejemplo de la entropía binaria podría ser sacar una bola de color blanco negro de una bolsa. Si en la bolsa hay 3 bolas blancas y 3 negras el resultado es completamente desconocido, es decir la incertidumbre es máxima, es decir la entropía es 1. Si, al otro extremo, en la bolsa hay 6 bolas negras el resultado es conocido de antemano, luego la incertidumbre no existe, y la entropía es 0. Ganancia de información: es la diferencia entre la entropía de un nodo y la de uno de sus descendientes. En el fondo no es más que una heurística (resolución de problemas mediante la creatividad y el pensamiento), que servirá para la elección del mejor atributo en cada nodo. Es decir, para el nodo con el conjunto de entrenamiento S y el atributo A, la Ganancia ( S, A) es: Ganancia( A) = I( p, n) Entropía( A) Siendo Sv el subconjunto de S formado por aquellas instancias que en el atributo A toman el valor v

58 Ejemplo: Supongamos que hay un conjunto de entrenamiento S con 14 ejemplos, de los que 9 son positivos y 5 son negativos. Su entropía es por tanto (aplicando la fórmula de la entropía binaria) Dividiendo el conjunto según un atributo A, se obtiene un subconjunto Sa con 6 ejemplos positivos y 2 negativos (entropía 0.811) y otro subconjunto Sb con 3 ejemplos positivos y 3 negativos (entropía 1.00). La ganancia de información que se obtiene si clasificamos el conjunto S según el atributo A es: Ganancia(S,A)= (8/14) (6/14)1.00= Nota: Se elige el atributo que proporcione una mayor ganancia de información Algoritmos o técnicas de árboles de decisión. Entre los algoritmos de aprendizaje más usuales se encuentra: CART[Breiman,1984]. Se basa en el lema divide y vencerás, son métodos que construyen árboles binarios basados en el criterio de partición GINI y que sirven para clasificación como para regresión. La poda se basa en una estimación de la complejidad del error. El proceso general es: Paso 1. El nodo raíz es dividido en subgrupos (dos o más) determinados por la partición de una variable predictora elegida, generando nodos hijos. Paso 2. Los nodos hijos son divididos usando la partición de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condición de parada. Paso 3. Algunos de los nodos resultantes son terminales, mientras que otros nodos continúan dividiéndose hasta llegar a un nodo terminal. Paso 4. En cada árbol se cumple la propiedad de tener un camino único entre el nodo raíz y cada uno de los demás nodos del árbol. Ejemplo: en 215 pacientes que sufrieron un ataque al corazón se evaluaron variables sociodemográficas, historia médica y exámenes de laboratorio

59 A los 30 días 37 pacientes murieron. Se presenta el Árbol de Clasificación desarrollado con el fin de estimar El riesgo de un segundo ataque. Ver figura 23 Figura 17. Ejemplo de árbol resuelto con el algoritmo CART. ID3.Propuesto por Quinlan en 1986, el ID3 es considerado el árbol de decisión más simple, usa la ganancia de información como criterio de separación. El árbol crece hasta encontrar un nodo final. No emplea procedimientos de poda ni manejo de valores perdidos. El objetivo es construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible, según los criterios de coste y bondad. En cada momento elige el mejor atributo

60 El algoritmo general se define mediante un ejemplo: Se toma la decisión de asistir a un juego o no, considerando los factores climatológicos definidos en la siguiente tabla: #_Caso Clima_general Temperatura Humedad Viento Tipo_clase 1 Soleado Caliente Alta No N 2 Soleado Caliente Alta Si N 3 Nublado Caliente Alta No P 4 Lluvioso Templada Alta No P 5 Lluvioso Fría Normal No P 6 Lluvioso Fría Normal Si N 7 Nublado Fría Normal Si P 8 Soleado Templada Alta No N 9 Soleado Fría Normal No P 10 Lluvioso Templada Normal No P 11 Soleado Templada Normal Si P 12 Nublado Templada Alta Si P 13 Nublado Caliente Normal No P 14 Lluvioso Templada Alta Si N Tabla 4. Información de climas para ejemplo. Analizando la información se ve que se tiene 9 con clase P y 5 con clase N. Paso 1. general con la ecuación: Se calcula la información requerida para la clasificación p p n n I( p, n) = ( ) Log 2( ) ( ) Log 2( ) p + n p + n p + n p + n I (p, n) = - (9/14)*log2 (9/14) - (5/14)*log (5/14) = bits 2 Paso 2. Se calcula para cada atributo, se comienza con clima general, se observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de los cuales 2 son de clase p y 3 N, entonces: Soleado p 1 = 2, n 1 = 2 I ( p1, n1) = (2/ 5) * log2(2 / 5) (3 / 5) * log2(3 / 5) =

61 Para el valor de Nublado p 2 = 4, n 2 = 0 I ( p2, n2 ) = (4 / 4) * log2(4 / 4) (0 / 4) * log2(0 / 4) = 0 Y para el valor de Lluvioso p = 3 3, n = 1 3 I ( p3, n3 ) = (3 / 4) * log2(3 / 4) (1/ 4) * log2(1/ 4) = Paso 3. Se calcula a entropía total de los atributos: ( p E( A( = 1 + n ) * I(( p n ) + ( p n2 ) * I( p2 + n p + n 2 ) ( p v + n ) * I( p v v + n ) v 5 * I(( p E( C lima _ General ) = 1 + n 1 ) + 4 * I( p n 2 ) + 5p 3 + n 3 ) = Paso 4. Se obtienen la ganancia que es la diferencia entre la entropía de un nodo y la de uno de sus descendientes y sirve para la elección del mejor atributo en cada nodo que es que gana la mayor información. Ganancia( A) = I( p, n) Entropía( A) Ganancia (Clima_General)= E (Clima_General)= = Clima General Soleado Lluvioso Nublado [2+,3-] E= [3+,1-] E= [3+,0-] E= 0 Figura 18. Árbol de ejemplo con valores de ramificación Clima General. Paso 5. El mismo procedimiento es aplicado a los otros tres atributos, por tanto se continúa con temperatura

62 Caliente p 1 = 2, n 1 = 2 I ( p1, n1) = (2/ 4) * log2(2 / 4) (2 / 4) * log2(2 / 4) = 1 Templada p2 = 4 p1 = 4, n 2 = 2 I ( p2, n2 ) = (4 / 6) * log2(4 / 6) (2 / 6) * log2(2 / 6) = Fria p = 3 3, n = 1 3 I ( p3, n3 ) = (3 / 4) * log2(3 / 4) (1/ 4) * log2(1/ 4) = Se calcula ahora la entropía del atributo temperatura. 4 * I( p1, n1) + 6 * I( p2, n2 ) + 4 * I( p3, n E( Temperatura) = 14 E ( Temperatura) = (4 * (1) + 6 * (0.918) + 4 * (0.811))/14 = ) Paso 6. Se calcula la ganancia. Ganancia (Temperatura) = E(Temperatura) = Ganancia (Temperatura) = =.029 Temperatura Caliente Templada Fría [2+,2-] E= 1 [4+,2-] E= [3+,1-] E= Figura 19. Árbol con rama "Temperatura". Paso 7. Ahora se continua con el atributo de humedad: Alta p 1 = 3, n 1 = 4 I ( p1, n1) = (3 / 7) * log2(3 / 7) (4 / 7) * log2(4 / 7) = Normal p 2 = 6, n 2 = 1 I ( p2, n21) = (6 / 7) * log2(6 / 7) (1/ 7) * log2(1/ 7) =

63 Paso 8. Se calcula su entropía. 7 * I( p, n1) + 7 * I( p2, E( Humedad ) = 14 1 n2 7 * (.985) + 7 * (.591) E ( Humedad ) = = ) Paso 9. Y finalmente su ganancia. Ganancia (Humedad) = E(Humedad) = Ganancia (Humedad)= =.151 Humedad Alta Normal [3+,4-] E= [6+,1-] E= Figura 20.Árbol con rama "Humedad". Paso 10. Se hacen los cálculos correspondientes para viento. Si p 1 = 3, n 1 = 3 I ( p1, n1) = (3 / 6) * log2(3 / 6) (3 / 6) * log2(3 / 6) = 0.1 No p 2 = 6, n 2 = 2 I ( p2, n2 ) = (6 / 8) * log2(6 / 8) (2/ 8) * log2(2/ 8) = Paso 11. Se calcula la entropía y su ganancia

64 6 * I( p, n1) + 8 * I( p2, E( Viento) = 14 1 n2 6 * (.1) + 8 * (0.811) E ( Viento) = = ) Ganancia (Viento) = E(viento) =.048 Ganancia (viento)= =.048 Paso 12. Una vez realizado los cálculos para todos los atributos, se identifica la tupla con mayor ganancia que en este caso es Clima_General para que sea tomada como nodo inicial, el árbol queda de la siguiente manera: Figura 21. árbol de ramificación "Clima General". Paso 13. un árbol final: Esté proceso se hace para cada nodo del árbol. Obteniendo

65 Clima General Soleado Nublado Lluvioso Humedad P Viento Alta Normal Si No N P N P Figura 22. Árbol final. C4.5. Es la evolución del ID3, presentado por Quinlan en Usa como criterio de separación el radio de ganancia (gain ratio) o proporción de ganancia. Esta es la medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas Las ventajas de la técnica de Árboles de decisión Resume los ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que sirvieron para su construcción. Facilita la interpretación de la decisión adoptada. Proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones. Explica el comportamiento respecto a una determinada tarea de decisión

66 Reduce el número de variables independientes. Es una magnifica herramienta para el control de la gestión empresarial. Minimizan el pre-tratamiento, trabajan con un cierto nivel de ruido y datos faltantes. Se definen los ejemplos en términos de pares atributo-valor (representados como un conjunto fijo de atributos, por ejemplo, cielo y sus valores) La función objetivo toma valores discretos (por ejemplo, SI o NO en el ejemplo anterior) [31], [36] y [37] Aplicaciones y Usos de los árboles de decisión Diagnóstico médico. Análisis de riesgo en la concesión de créditos. Elaboración de horarios. Toma de decisiones Segmentación de mercados. Análisis de oportunidades (rentabilidad en la segmentación de mercados) Predicción en las respuestas. Servicios financieros (tarjetas de crédito, detección de fraudes, análisis médicos, investigación biomédica)[31] Nota: Estas aplicaciones también se resuelven mediante otras técnicas como son redes o agrupamiento; la diferencia está en como se muestra el resultado ya que los árboles de decisión son mas sencillos de interpretar Desventajas de los árboles de decisión No permite analizar los casos de dominancia. Las reglas de asignación son sensibles a pequeñas perturbaciones en los datos (inestabilidad)

67 Dificultad para elegir el árbol óptimo. Ausencia de una función global de las variables y como consecuencia pérdida de la representación geométrica. Los árboles de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos hoja es significativa. [34] 2.5. Redes Bayesianas Las redes bayesianas proporcionan una representación gráfica para un conjunto de variables aleatorias y para las relaciones existentes entre ellas. El objetivo de es hallar las relaciones de dependencia e independencia entre todas las variables que conforman un dominio de estudio. De ésta manera permite realizar predicciones sobre el comportamiento de cualquiera de las variables desconocidas a partir de los valores de las otras variables conocidas. Un ejemplo muy claro de red bayesiana se observa en la figura 29. Terremoto! Figura 23. Ejemplificación de una red bayesiana

68 Las redes bayesianas trabajan con el teorema de Bayes el cual es ampliamente usado en la teoría de la probabilidad; el teorema es derivado de la fórmula de probabilidad condicional y permite establecer la probabilidad a posteriori de una variable Y, dado un conjunto de eventos X. ( P( X Y ) P( Y ) P * ( Y ) = P( Y X ) = P( X ) Entonces una red bayesiana es un grafo acíclico dirigido (GAD) tal que los nodos representan las variables del problema X = X, X,... X } y los { 1 2 n arcos representan las dependencias probabilísticas, y P = p( X pa( X )),... p( X pa( X ))} es un conjunto de n { 1 1 n n distribuciones de probabilidad condicionada, una para cada variable, siendo pa ( X i ) el conjunto de padres del nodo en el grafo D. Donde además el cálculo de la probabilidad conjunta del problema se obtiene mediante el producto de los elementos, tal que: P( x) = n i = 1 p( x i pa( X i )) Un ejemplo de red bayesiana se presenta en la figura 30. La función de probabilidad conjunta representada en esta red es p ( X 1,..., X 5 ) = p( X 1 X 2, X 5 ) p( X 2 ) p( X 3 X 5 ) p( X 4 X 3, X 5 ) p( X 5 )

69 Figura 24. Red bayesiana. Con las redes bayesianas se hacen predicciones para problemas multiclase, en los cuales hay varios resultados posibles. Por ejemplo, se construye un modelo para averiguar si un cliente en una organización o empresa será fiel o cambiará de proveedores Ejemplo de Redes Bayesianas A la salida de un congreso de 50 personas de 3 universidades distintas (23,18,9) nos encontramos un profesor entonces se desea: a. Probabilidad de que sea de la tercera universidad? b. Y si es de Economía Cuál sería? Se cuenta con la siguiente información: Congreso con 50 personas de 3 universidades (23,18,9) 1ª. 30% Ciencias, 40% de Ingenierías, 25% humanidades y 5% Economía. 2ª.25% Ciencias, 35% Ingenierías, 30% Humanidades y 10% Economía

70 3ª. 20% Ciencias, 50% Ingenierías, 10% Humanidades y 20% Economía. Solución: 9 P( x) = = 0.18 = 18% c. Se calcula la probabilidad a priori: 50 d. Se hace la siguiente tabla ( x = universidad y = especialid ad ) Tabla 5. Tabla de probabilidades del ejemplo. Aplicando Bayes: 3 e 3 * 3 3 e P( x ) P( y x ) P ( x ) = P( x y ) = = e 3 P( x) P( y x ) = = 37.9% Las ventajas de las Redes Bayesianas x Permiten aprender sobre relaciones de dependencia y causalidad. Permiten combinar conocimiento con datos. Evitan el sobre-ajuste de los datos. Mejoran las bases de datos incompletos. Poseen una sólida teoría probabilista que les permite dar una interpretación objetiva.[40] y [41] Desventajas de las Redes Bayesianas Limitación en su rango de aplicaciones

71 Existen problemas de diagnóstico en que las redes no son aplicables debido a que no se conocen aún los mecanismos que intervienen. Necesitan gran cantidad de probabilidades numéricas y la dificultad de los cálculos debido a la presencia de bucles en éstas redes bayesianas.[41] 2.6. Redes Neuronales Una red neuronal es un sistema de procesadores paralelos conectados entre sí en forma de grafo dirigido. Esquemáticamente cada elemento de procesamiento (neuronas) de la red se representa como un nodo. Estas conexiones establecen una estructura jerárquica que tratando de emular la fisiología del cerebro busca nuevos modelos de procesamiento para solucionar problemas concretos del mundo real. Lo importante en el desarrollo de la técnica de las RNA o red neuronal artificial es su útil comportamiento al aprender, reconocer y aplicar relaciones entre objetos y tramas de objetos propios del mundo real.[5] Las entradas se representan por el vector de entrada x, y el rendimiento mediante el vector de pesos w, entonces el valor de salida es dado por: y = f i T ( w x ) = f ( w. x) f ( w x) i i = Donde f es la función de activación. Cuando se tiene una red de neuronas, las salidas de unas se conectan con las entradas de otras. Si el peso entre dos neurona es positivo, el efecto producido es de excitación y si fuera negativo entonces es de inhibición. El potencial de las redes neuronales proviene de la capacidad por proporcionar el empleo de muchas de éstas unidades simples y robustas al actuar en paralelo. En la figura 31 se observa la estructura de una red neuronal

72 Figura 25. Red neuronal. Nótese que cada entrada dirigida a una neurona viene acompañada de un peso (Wi), el cual multiplica el valor de la entrada. La entrada total de la neurona será la suma (u otra operación) de todas ellas al que, en ocasiones, se le suma una constante umbral. En toda red hay dos capas conectadas con el exterior, la capa de entradas que recibe los datos, y la capa de salidas, que devuelve la respuesta de la red. Entre ambas se sitúan una o más capas denominadas ocultas. La capa de entradas tiene la función de distribuir los datos entre la red, por lo que no se suelen contar cuando se habla del número de capas que tiene una red. Las redes neuronales tienen dos fases principales de operación: aprendizaje o entrenamiento, recuerdo o ejecución. Durante el entrenamiento se aplican ejemplos, generalmente un conjunto de datos conocidos que definen una solución conocida, que mediante una regla de aprendizaje modifican los diferentes pesos de cada neurona en función de cómo difiera la respuesta de la red de la solución esperada. Los valores de estos pesos representan el grado de conocimiento. El entrenamiento concluye cuando el margen de error entre la salida de la red y la salida real es aceptable. Después, en la fase de ejecución, se aplican nuevos datos con solución desconocida y se espera que la red esté preparada para dar una solución verdadera con lo aprendido durante el

73 entrenamiento. Generalmente en esta fase cesa el aprendizaje, por lo que no se modifican los pesos. Por ejemplo los ejemplos son fotografías de pacientes con cáncer de pulmón y sanos y la red descubrirá patrones en ellas. Luego, se pasa una nueva foto y se discernir si hay cáncer o no. Unos datos de entrada más comunes podrían ser edad, sexo, peso, altura, color de piel, color de ojos, color de pelo, grupo sanguíneo, y la salida la raza a la que pertenece el sujeto; ó figuras geométrica, bien sea mediante imágenes o las coordenadas de sus puntos y líneas en el plano. Tamaños de hojas, de pétalos, color de flores, y altura del tallo y catalogamos flores. Las posibilidades son infinitas Ejemplo Un ejemplo real de un proyecto de la NASA para controlar fábricas verdes de alimentos vegetales en el espacio, dependiendo de la luz, temperatura, humedad relativa,co2, nutrientes, edad, y tipo, cada planta tiene una diferente tasa de transpiración (agua que libera), allocation (cuota) (porcentaje comestible de biomasa) y la asimilación (índice de fotosíntesis). Representando esto en forma de red, quedaría así: Figura 26. Ejemplo de la aplicación de una red neuronal de control invernadero

74 Con esta información y la ayuda de las redes neuronales, los ingenieros de la NASA están desarrollando un invernadero que regule por sí mismo los diferentes parámetros (agua, temperatura, luz ) para cultivar unas plantas que desarrollen mayores porcentajes comestibles con el menor gasto de recursos posible. Esto, que ya es importante en cierta medida para cualquier agricultor terrestre, se convierte en algo crítico en una misión tripulada de varios años en la que se lleva lo justo Las ventajas de la red neuronal Las redes neuronales tienen muchas ventajas debido a que está basada en la estructura del sistema nervioso, principalmente el cerebro. Aprendizaje: Las redes neuronales tienen la habilidad de aprender mediante una etapa que se llama aprendizaje. Ésta consiste en proporcionar a la red neuronal de datos como entrada a su vez que se le indica cuál es la salida (respuesta) esperada. Esta es una de las principales características de las redes neuronales y es un punto por el cual el usuario elige la técnica entre los algoritmo a usar. Auto organización: Una red neuronal crea su propia representación de la información en su interior, descargando al usuario de esto. Tolerancia a fallos: Debido a que una red almacena la información de forma redundante, ésta sigue respondiendo de manera aceptable aun si se daña parcialmente. Flexibilidad: Una red maneja cambios no importantes en la información de entrada, como señales con ruido u otros cambios en la entrada (por ejemplo, si la información de entrada es la imagen de un objeto, la respuesta correspondiente no sufre cambios si la imagen cambia un poco su brillo o el objeto cambia ligeramente) Se ajusta a nuevos ambientes por aprendizaje, no hay que programarlo

75 Tiempo real: La estructura de una red es paralela, por lo cuál si esto es implementado con computadoras o en dispositivos electrónicos especiales, se obtiene respuestas en tiempo real ya que procesan la información en paralelo. [43], [ 21] Uso y aplicaciones de las redes neuronales Problemas de clasificación y reconocimiento de patrones de voz, imágenes, señales, etcétera. Encontrar patrones de fraude económico. Hacer predicciones en el mercado financiero, del tiempo atmosférico, etcétera. Cuando no existen modelos matemáticos precisos o algoritmos con complejidad. Planeación. Inspección de calidad. [43] Desventajas de las Redes neuronales Falta de hardware o maquinas especiales que trabajen en paralelo (procesar de forma simultánea) para el procesamiento; ya que una de las capacidades de las redes neuronales radica en su habilidad de procesar información en paralelo Los procesos consumen mucho tiempo. Falta de reglas definitorias que ayuden a construir una red para un problema dado. Largos tiempos de entrenamiento. Gran cantidad de datos de entrenamiento. No existe una metodología que indique como resolver un problema específico, es decir, cuantas neuronas utilizar, que datos utilizar, cuantas capas ocultas, etcétera. Dificultad en encontrar las variables óptimas de entrada. No existe garantía de resultados óptimos. [21]

76 2.7. Series de Tiempo Una Serie de tiempo es una secuencia ordenada de valores de una variable en intervalos de tiempo periódicos y consecutivos. Algunas definiciones que se usan en la técnica son: Tendencia: es un patrón de comportamiento de los elementos de un entorno particular durante un periodo de tiempo. Si los datos muestran una tendencia, se ajustan estos con algún tipo de curva o recta y modelar los residuales. Como el propósito del ajuste es simplemente remover la tendencia a largo plazo, una línea recta es suficiente. Datos con tendencia Removiendo la tendencia a largo plazo, los residuales quedan como sigue: Figura 27. Ejemplo de eliminación de tendencias, en la primera gráfica se observa la concentración de C02 a lo largo del tiempo y en la segunda gráfica se observa la concentración por residuales eliminando la tendencia con una línea recta. Estacionalidad: son fluctuaciones periódicas, por ejemplo cuando hay picos de ventas en la navidad y después declinan. La serie de tiempo de ventas mostrará un incremento durante septiembre a diciembre y una declinación durante enero y febrero

77 Para detectar la estacionalidad se utilizan diferentes métodos gráficos donde se observe la estacionalidad en el tiempo: Gráfica de valores contra el tiempo, donde se observa la estacionalidad Diagramas de caja múltiples Gráfica de comportamiento anual Gráfica de subserie Figura 28. Gráficas donde se observa la estacionalidad Un supuesto en muchas técnicas de series de tiempo es que los datos son estacionarios, donde su media, variancia y autocorrelación no cambia en el tiempo, tampoco se presentan patrones de estacionalidad, sin embargo en la práctica algunas veces si se presentan estos patrones de tendencia y de estacionalidad y es necesario contar con modelos que las consideren

78 Para comparar la efectividad de diferentes modelos utilizados existen ciertos indicadores como son: MAPE, MAD y MSD. MAPE: es el porcentaje promedio absoluto de error, mide la exactitud de los valores estimados de la serie de tiempo. La exactitud se expresa como un porcentaje con número de observaciones. y t igual al valor observado, ŷ t es el valor estimado y n el MAPE Λ ( y t y t )/ y t = x100 ( y t 0) n MAD: Desviación media absoluta, mide la exactitud de los valores estimados de la serie de tiempo. Expresa la exactitud en las mismas unidades de los datos. n y t y t t = MAD = 1 n Λ MSD: Desviación cuadrática media, es más sensible a errores anormales de pronóstico que el MAD. MSD n t = = 1 y t y n Λ t 2 Se busca el valor menor en estos ya que representa un mejor ajuste del modelo Métodos de series de tiempo Los métodos de series de tiempo incluyen métodos de pronóstico y de suavizamiento simples, métodos de análisis de correlación y métodos de Box Jenkins ARIMA

79 Promedio móvil: Un promedio móvil se construye sustituyendo cada valor de una serie por la media obtenida con esa observación y algunos de los valores inmediatamente anteriores y posteriores. Se mostrará este método con los siguientes ejemplos: Ejemplo 1. Aplicar el método de promedios móviles para el pronóstico de ventas de gasolina a partir de la siguiente información: Tabla 6. Resumen de cálculos para promedios móviles de tres semanas. Se considerará el promedio móvil a partir de las tres observaciones más recientes. En este caso se utilizará la siguiente ecuación: Los promedios móviles también se construyen tomando en cuenta valores adyacentes de las observaciones, por ejemplo: En el caso de determinar el promedio móvil para tres observaciones adyacentes de la tabla anterior, se tiene:

80 Tabla 7.Promedios móviles de tres semanas. Promedios móviles ponderados: Para mostrar el uso de éste método, se utilizará la primera parte del ejemplo anterior de la venta de gasolina. El método consiste en asignar un factor de ponderación distinto para cada dato. Generalmente, a la observación o dato más reciente a partir del que se quiere hacer el pronóstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos más antiguos. En este caso, para pronosticar las ventas de la cuarta semana, el cálculo se realizaría de la siguiente manera: pronóstico _ cuarta _ semana = (17) + (21) + (19) = galones Se observa que el dato más alejado (correspondiente a la primera semana) tiene el factor de ponderación más pequeño, el siguiente tiene un factor de ponderación del doble que el primero y el dato más reciente (que corresponde a la tercera semana) tiene un factor de ponderación del triple del primero. Los pronósticos para las diversas semanas se presentan en la siguiente tabla. En todos los casos, la suma de los factores de ponderación es igual a uno

81 Tabla 8.Pronósticos de la i-ésima semana. Suavizamiento exponencial: El suavizamiento exponencial emplea un promedio ponderado de la serie de tiempo pasada como pronóstico; es un caso especial del método de promedios móviles ponderados en el cual sólo se selecciona un peso o factor de ponderación: el de la observación más reciente. En la práctica comenzamos haciendo que F1, el primer valor de la serie de valores uniformados, sea igual a Y1, que es el primer valor real de la serie. El modelo básico de suavizamiento exponencial es el siguiente: t + 1 = αyt + (1 α F ) F t Donde Ft +1 Es el pronóstico de la serie de tiempo para el periodo t+1 Yt Es el valor real de la serie de tiempo en el periodo t Ft es el pronostico de la serie de tiempo para el periodo t

82 α es la constante de suavizamiento, 1 0 α Por tanto, el pronóstico para el periodo dos se calcula de la siguiente manera: ) (1 ) (1 Y F Y Y F F Y F t t t t = + = + = α α α α Como se observa, el pronóstico para el período 2 con suavizamiento exponencial es igual al valor real de la serie de tiempo en el período uno. Para el período 3, se tiene que: ) (1 ) (1 Y Y F F Y F α α α α + = + = Para el período 4, se tiene que: ) (1 ) (1 ] ) (1 )[ (1 ) (1 Y Y Y F Y Y Y F Y F α α α α α α α α α α + + = + + = + = Para mostrar el método de suavizamiento exponencial, retomamos el ejemplo de la gasolina, utilizando como constante de suavizamiento 2 = 0. α Tabla 9.Pronósticos con la formula de suavizamiento exponencial.

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

INTELIGENCIA EN REDES DE COMUNICACIONES

INTELIGENCIA EN REDES DE COMUNICACIONES INTELIGENCIA EN REDES DE COMUNICACIONES MINERÍA DE DATOS EN EL DEPORTE PROFESIONAL Jorge Carrasco Troitiño NIA 100029724 Grupo 91-5 Ingeniería Superior de Telecomunicación INTRODUCCIÓN: Las técnicas de

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Inteligencia de Negocios. Por José Luis Martí USM

Inteligencia de Negocios. Por José Luis Martí USM Inteligencia de Negocios Por José Luis Martí USM Problema Inicial Cuáles fueron los volúmenes de venta, por región y por categoría de producto, en el último año?. Qué tipos de órdenes se debieran favorecer

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING Rodríguez Montequín, Mª Teresa; Álvarez Cabal, J. Valeriano; Mesa Fernández, José Manuel; González Valdés, Adolfo Resumen La gran cantidad de

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Minería de datos y aplicaciones

Minería de datos y aplicaciones Minería de datos y aplicaciones Fernando Virseda Benito Universidad Carlos III NIA 100032962 100032962@alumnos.uc3m.es Javier Román Carrillo Universidad Carlos III NIA 100035306 100035306@alumnos.uc3m.es

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Detección de Patrones de Daños y Averías en la Industria Automotriz

Detección de Patrones de Daños y Averías en la Industria Automotriz Universidad Tecnológica Nacional Facultad Regional Buenos Aires Tesis de Magister en Ingeniería en Sistemas de Información Detección de Patrones de Daños y Averías en la Industria Automotriz Directora:

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas Datamining Técnicas Yerko Halat 4 de Octubre del 2001 1 Concepto: Lógica Difusa Cliente

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Statistics 19 IBM SPSS Decision Trees Identifique grupos y pronostique resultados con facilidad Funciones destacadas Con IBM SPSS Decision Trees podrá: Crear árboles de clasificación

Más detalles

Introducción al DataMining

Introducción al DataMining Introducción al DataMining Lluís Garrido garrido@ecm.ub.es Universitat de Barcelona Índice Qué es el DataMining? Qué puede hacer el DataMining? Cómo hacer el DataMining? Técnicas Metodología del DataMining

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Universidad Mariano Gálvez

Universidad Mariano Gálvez UNIVERSIDAD MARIANO GALVEZ LIC. OMAR GUERRA CURSO: MERCADOTECNIA III Integrantes Grupo No. 3 0213-06-10524 MARIA CRISTINA DONABO VIVAR 0213-03-10225 ERICKSON MARCIAL VARGAS 0213-06-10484 ANA KARINA PALACIOS

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

Empresa de telefonía celular: Transintelcel

Empresa de telefonía celular: Transintelcel Empresa de telefonía celular: Transintelcel El proceso metodológico de esta investigación de mercados está dividido en las siguientes etapas: 1. Datos generales de la empresa 2. Planteamiento del problema

Más detalles

Introducción Qué es Minería de Datos?

Introducción Qué es Minería de Datos? Conceptos Básicos Introducción Qué es Minería de Datos? Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos. Introducción

Más detalles

MINERIA DE DATOS. El arte de sacar conocimiento de grandes volúmenes de datos. Puerto Ordaz, marzo del 2011. Elaborado Por:

MINERIA DE DATOS. El arte de sacar conocimiento de grandes volúmenes de datos. Puerto Ordaz, marzo del 2011. Elaborado Por: MINERIA DE DATOS El arte de sacar conocimiento de grandes volúmenes de datos Elaborado Por: Profesor: Iván Turmero Centeno, Hender Doffourt, Gineska Garcia, Nathaly Gómez, Giselle González, Eduardo Granado,

Más detalles

INTRODUCCIÓN AL DISEÑO DE UNA ENCUESTA.

INTRODUCCIÓN AL DISEÑO DE UNA ENCUESTA. INTRODUCCIÓN AL DISEÑO DE UNA ENCUESTA. Introducción Muchos problemas de investigación requieren la recolección de datos muestrales, los cuales pueden obtenerse mediante el uso de encuestas. La finalidad

Más detalles

Asignatura (E): Jornada de Formación Permanente: Proyecto de Trabajo Especial de Grado. ESTRUCTURA DEL PROYECTO DE TEG.

Asignatura (E): Jornada de Formación Permanente: Proyecto de Trabajo Especial de Grado. ESTRUCTURA DEL PROYECTO DE TEG. Portada (Ver anexo J) * Página de Presentación (Ver anexo H) * Dedicatoria (opcional) * Agradecimiento (opcional) * Índice General (Ver anexo K) * Lista de Cuadros (Ver anexo F) * Lista de Gráficos (Ver

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

Propuesta de Métricas para Proyectos de Explotación de Información

Propuesta de Métricas para Proyectos de Explotación de Información Propuesta de Métricas para Proyectos de Explotación de Información Diego Martín Basso 1. Maestría en Ingeniería de Sistemas de Información. Universidad Tecnológica Nacional, FRBA Buenos Aires, Argentina

Más detalles

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Emilio Soria Olivas! Antonio José Serrano López! Departamento de Ingeniería Electrónica! Escuela Técnica Superior de Ingeniería!

Más detalles

Adscripta: Sofia J. Vallejos- L.U.: 37.032 Materia: Diseño y Administración de Datos Director: Mgter. David Luis la Red Martínez

Adscripta: Sofia J. Vallejos- L.U.: 37.032 Materia: Diseño y Administración de Datos Director: Mgter. David Luis la Red Martínez Universidad Nacional del Nordeste Facultad de Ciencias Exactas, Naturales y Agrimensura Trabajo de Adscripción Minería de Datos Adscripta: Sofia J. Vallejos- L.U.: 37.032 Materia: Diseño y Administración

Más detalles

Identificación fácil de los clientes adecuados

Identificación fácil de los clientes adecuados PASW Direct Marketing 18 Especificaciones Identificación fácil de los clientes adecuados Sabemos que le gustaría que sus programas de marketing sean lo más rentables posible y sabemos que conocer la información

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

1. PRESENTACIÓN GLOBAL LEAN.

1. PRESENTACIÓN GLOBAL LEAN. GLOBAL LEAN APPS 1. PRESENTACIÓN GLOBAL LEAN. GLOBALLEAN apuesta por mejorar la competitividad de las empresas. Y una herramienta clave para conseguir mejoras de competitividad que deriven en resultados

Más detalles

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1 STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico STATGRAPHICS ofrece más de 230 procedimientos de Análisis Exploratorio de Datos, Estadística Descriptiva e Inferencial, Modelos

Más detalles

BUSINESS INTELLIGENCE. www.sbi-technology.com

BUSINESS INTELLIGENCE. www.sbi-technology.com BUSINESS INTELLIGENCE www.sbi-technology.com SBI Technology SRL Maipú 1492 Piso 2 S2000CGT - Rosario Rep. Argentina Tel: (54 341) 530 0815 www.sbi-technology.com Copyright - SBI Technology SRL - Todos

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

CARACTERÍSTICAS GENERALES. a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007

CARACTERÍSTICAS GENERALES. a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007 CARACTERÍSTICAS GENERALES a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007 b) Título que se otorga Ingeniero/a en Sistemas Inteligentes c) Espacio donde se imparte

Más detalles

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional Características Cree estrategias más efectivas evaluando tendencias y resultados Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

INTRODUCCIÓN MARCO PROBLÉMICO JUSTIFICACIÓN 2. OBJETIVOS 2.1 OBJETIVO GENERAL 2.2 OBJETIVOS ESPECÍFICOS 3. MARCO REFERENCIAL 3.

INTRODUCCIÓN MARCO PROBLÉMICO JUSTIFICACIÓN 2. OBJETIVOS 2.1 OBJETIVO GENERAL 2.2 OBJETIVOS ESPECÍFICOS 3. MARCO REFERENCIAL 3. INTRODUCCIÓN MARCO PROBLÉMICO JUSTIFICACIÓN 2. OBJETIVOS 2.1 OBJETIVO GENERAL 2.2 OBJETIVOS ESPECÍFICOS 3. MARCO REFERENCIAL 3.1 TÉCNICAS DE ALMACENAMIENTO DE DATOS 3.1.1 BASES DE DATOS 3.1.1.1 CARACTERÍSTICAS

Más detalles

3.1 Qué es la investigación de mercados?

3.1 Qué es la investigación de mercados? 3.1 Qué es la investigación de mercados? La investigación de mercados es la función que enlaza al consumidor, al cliente y al público con el comercializador a través de la información. Esta información

Más detalles

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS UNIVERSIDAD DE LOS ANDES FACULTAD DE ODONTOLOGIA MERIDA EDO. MERIDA PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS Mérida, Febrero 2010. Integrantes: Maria A. Lanzellotti L. Daniela Paz U. Mariana

Más detalles

Contradicción fundamental Por efecto de contrarios entre dos situaciones del objeto de estudio. El proceso de planificación y evaluación

Contradicción fundamental Por efecto de contrarios entre dos situaciones del objeto de estudio. El proceso de planificación y evaluación Propuesta de perfeccionamiento del proceso de planificación y evaluación del posgrado en una Universidad X (Problema): Cómo integrar los contenidos de educación sexual en el proceso de formación de profesores?

Más detalles

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Unidad Administrativa Especial de Gestión Pensional y Contribuciones Parafiscales de la Protección Social UGPP Objeto: ADQUISICIÓN

Más detalles

Control Informático de Gestión. Tema 5: Sistemas de Apoyo a la Toma de Decisiones

Control Informático de Gestión. Tema 5: Sistemas de Apoyo a la Toma de Decisiones Control Informático de Gestión Tema 5: Sistemas de Apoyo a la Toma de Decisiones Índice Revisión de los sistemas de información en la empresa La información y la toma de decisiones Sistemas transaccionales

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar,

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar, Resultados Preliminares del Proceso de Minería de Datos Aplicado al Análisis de la Deserción en Carreras de Informática Utilizando Herramientas Open Source J. Germán A. Pautsch 1, Horacio D. Kuna 2, Antonia

Más detalles

Retos de la Proliferación de Modelos. 2 de Octubre 2012

Retos de la Proliferación de Modelos. 2 de Octubre 2012 Retos de la Proliferación de Modelos 2 de Octubre 2012 ÍNDICE Introducción Tipos de modelos Problemática de gestión Conclusiones Introducción 3 Aunque hay créditos desde hace 5000 años, los modelos sólo

Más detalles

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo Minería de Datos Óscar Palomo Miñambres Universidad Carlos III de Madrid Avda. De la Universidad, 30 28911, Leganés (Madrid-España) 100049074@alumnos.uc3m.es Abstract En este artículo analizaremos las

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Panel: Minería de datos para la administración tributaria

Panel: Minería de datos para la administración tributaria Panel: Minería de datos para la administración tributaria Leopoldo Gutiérrez Socio líder de Tax Data Analytics en EY Especialista en diseño, desarrollo e implementación de modelos analíticos orientados

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Carlos Daniel Quattrocchi

Carlos Daniel Quattrocchi PRESENTA Lic. Héctor Iglesias Licenciado en Informática. Profesional independiente, ha desempeñado la actividad en informática desarrollando e implementando sistemas, capacitando y asesorando a numerosas

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE TRAINING 2007 APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE Fundamentos en el Uso y Aplicaciones con SPSS Introducción a la Sintaxis Estadísticas

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE Thomas A. Little Ph. D Traducción Autorizada por el Autor. Traductor: MANUEL H RAMIREZ Alta Via Consulting-América Latina La Modelación y Análisis de

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles