UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO"

Transcripción

1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACTULTAD DE ESTUDIOS SUPERIORES ACATLÁN MINERIA DE DATOS CON APLICACIONES TESIS QUE PARA OBTENER EL TITULO DE LICENCIADA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN PRESENTA LILIANA CRUZ ARRRELA ASESOR: DRA. MARICARMEN GONZÁLEZ VIDEGARAY MARZO 2010

2 AGRADECIMIENTOS Gracias a Dios por su infinito amor y apoyo. A mi madre por su confianza y entrega. A mi padre por su apoyo. A mis hermanos por la confianza y amor. A mi esposo Raúl que me ha impulsado a lograr lo inimaginable. A mi Universidad y profesores. Gracias por lo que hemos logrado. Mas la senda de los justos es como la luz de la aurora, que va en aumento hasta que el día es perfecto Proverbios 4:18

3 INTRODUCCIÓN... 1 CAPÍTULO 1. MINERÍA DE DATOS INTRODUCCIÓN QUÉ ES LA MINERÍA DE DATOS? LIMITACIONES DE LA MINERÍA DE DATOS DIFERENCIAS ENTRE MINERÍA DE DATOS Y ESTADÍSTICA MINERÍA DE DATOS Y KDD METODOLOGÍAS DE MINERÍA DE DATOS Metodologías SEMMA Metodología CRISP-DM FASES DE UN PROYECTO DE MINERÍA DE DATOS APLICACIONES DE LA MINERÍA DE DATOS CAPÍTULO 2. TÉCNICAS DE MINERÍA DE DATOS INTRODUCCIÓN TÉCNICA DE DETECCIÓN DE ANOMALÍAS (OUTLIER) AGRUPAMIENTO (CLUSTERING) ÁRBOLES DE DECISIÓN REDES BAYESIANAS REDES NEURONALES SERIES DE TIEMPO CAPÍTULO 3. SOFTWARE PARA MINERÍA DE DATOS INTRODUCCIÓN INTELLIGENT MINER / DB2 DATA WAREHOUSE EDITION (IBM) PASW MODELER (CLEMENTINE) DATAENGINE ORACLE DATAMINING WEKA (SOFTWARE EN JAVA DE MINERÍA DE DATOS)

4 3.7. ENTERPRISE MINER (SAS) CAPÍTULO 4. MANUAL DE MD CON HERRAMIENTAS DE APOYO SELECCIÓN Y PREPROCESADO DE DATOS SELECCIÓN DE VARIABLES EXTRACCIÓN DE CONOCIMIENTO INTERPRETACIÓN Y EVALUACIÓN APLICACIÓN DE UN ESTUDIO DE MINERÍA DE DATOS CONCLUSIÓN REFERENCIAS

5 INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capítulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 1 -

6 Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo práctico que ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación

7 INTRODUCCIÓN La minería de datos es una herramienta útil y con creciente demanda en el mercado y consiste esencialmente el proceso de extracción, transformación y análisis de datos, con el fin de obtener conocimiento de los mismos. En sus inicios la minería de datos solo era utilizada en empresas dedicadas al análisis de los datos con un campo de estudio muy especifico, sin embargo hoy en día la penetración en todos los ámbitos comerciales es muy significativa. Día con día mas empresas utilizan este proceso con el fin de conocer más a sus clientes, dar un mejor servicio, identificar las áreas de oportunidad, todo con el fin de ser más competentes en el mercado. El presente documento tiene como objetivo introducir y guiar al lector al estudio de la minería de datos, mediante aplicaciones y ejemplos prácticos. Utilizando las técnicas más conocidas y las diferentes soluciones respecto a software que ofrecen las empresas líderes en este ramo. Un lector deseado sería un alumno de la licenciatura de Matemáticas Aplicadas y Computación, que se inicia en el estudio del tema. El primer capitulo se refiere a la historia de la minería de datos, se citan diferentes definiciones de la minería de datos. Se menciona la diferencia entre la minería de datos y la estadística, las etapas y proceso para el descubrimiento de conocimiento a partir de un conjunto de datos, se citan las metodologías más usuales de la minería de datos: la metodología SEMMA y CRISP-DM. Se ejemplifican estos temas a través de aplicaciones de la minería de datos. En el capítulo dos se mencionan algunas técnicas más usuales de la minería de datos: - 1 -

8 Árboles de decisión. Redes neuronales. Clustering o agrupamiento. Series temporales. Redes bayesianas. Para cada técnica se menciona su definición, ventajas y desventajas así como un ejemplo práctico que ayude a ilustrar la teoría. En el capítulo 3 se citan algunos IDES o software que contienen utilidades para preprocesamiento, clasificación, agrupamiento, visualización, etcétera; algunos de estos de uso libre. Se detalla en los más usuales como Data Engine, Enterprise Miner, Clementine y Weka. En el capítulo 4 se da una demostración general del software de SAS que es el Enterprise Miner, se menciona los diferentes nodos con los que cuenta para la explotación de información y se cita un ejemplo general con la herramienta para mejor apreciación

9 Capítulo 1. Minería de Datos 1.1. Introducción La minería de datos (Data Mining) surge a principios de los 80 s cuando la Administración de Hacienda Estadounidense desarrolló un programa de investigación para detectar fraudes en la declaración y evasión de impuestos, mediante lógica difusa, redes neuronales y técnicas de reconocimiento de patrones. Sin embargo, su expansión se produce hasta los 90 s originada principalmente por tres factores. Incremento en la potencia de procesamiento de las computadoras, así como en la capacidad de almacenamiento. El crecimiento de la cantidad de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos y sistemas de almacenamiento masivo, sino también por la automatización de muchos trabajos y técnicas de recogida de datos (observación con nuevas tecnologías, entrevistas más prácticas, encuestas por Internet, etcétera) Aparición de nuevos métodos de técnicas de aprendizaje y almacenamiento de datos, como las redes neuronales, la Inteligencia artificial, el surgimiento del almacén de datos (Data Ware House)[1] La minería de datos surge por la necesidad de obtener estrategias de negocio, conocer a los clientes, obtener información de productos, interpretar información valiosa para la toma de decisiones, etcétera. La idea de minería de datos no es nueva, ya desde los años sesenta los estadísticos manejaban términos como data fishing, minería de datos o data - 3 -

10 archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de minería de datos y descubrimiento de conocimiento en base de datos. A finales de los años ochenta sólo existían un par de empresas dedicadas a ésta tecnología; en 2002 existían más de 100 empresas en el mundo que ofrecían alrededor de 300 soluciones, ahora se ven áreas dedicadas a la minería de datos dentro de cada empresa, ya que, es una herramienta ideal para obtener información valiosa e importante de manera rápida y eficaz, a través de procesos especializados y sistemáticos. Una serie de avances en la tecnología y los procesos de negocio han contribuido al creciente interés de ésta en los sectores público (detectar fraudes, residuos, medición y mejora de programas) y privado (banca, seguros, ventas, etcétera.) Algunos de estos cambios incluyen el crecimiento de las redes de computadoras, que se utilizan para conectar bases de datos; el desarrollo de una mayor búsqueda de relaciones con técnicas como las redes neuronales y algoritmos avanzados, la propagación de las aplicaciones cliente/servidor, lo que permite a los usuarios acceder a los recursos centralizados de datos desde el escritorio y una mayor capacidad para combinar datos de diferentes fuentes en una sola búsqueda.[2] y[3] 1.2. Qué es la minería de Datos? Existen varias definiciones de minería de datos, a continuación se mencionaran algunas: - 4 -

11 Definición 1. Minería de datos es el proceso por el cual generamos un modelo, que sirva para la predicción, este modelo se genera con base en los datos que se encuentran en una base de datos aplicándoles algún algoritmo que construya el modelo. [4] Definición 2. La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos. [5] Definición 3. Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión. [6] Definición 4. Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la información histórica con la cual los algoritmos de minería de datos tienen la información necesaria para la toma de decisiones. [7] En la definición 1 y 2, se dice que la minería de datos es un proceso; en la definición 3 se describe como una integración de áreas y en la definición 4 como un mecanismo de explotación. Las cuatro definiciones se complementan una con otra así como los propósitos que se citan en cada una de ellas. Entonces concluimos que la minería de datos es un proceso que integra diferentes áreas sirviendo como mecanismo de explotación para identificación de información valiosa, novedosa y útil; así como para predicción de comportamientos. Por tanto el objetivo fundamental de ésta es aprovechar el valor de la información localizada y usar patrones preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y se tomen decisiones - 5 -

12 más confiables. El resultado de la minería será un modelo que se tendrá que evaluar para ver qué tan certero será con respecto a sus predicciones y posteriormente se utilizará para predecir el patrón de comportamiento de cualquier dato nuevo (esto se hace calificando los nuevos datos basándose en el modelo generado) que llegue a la base de datos. Las aplicaciones de minería de datos utilizan una gran variedad de parámetros para examinar los datos: La asociación (los patrones de un evento que está conectado a otro evento, como la compra de una pluma y la compra de papel) La secuencia (patrones donde un evento lleva a otro, como el nacimiento de un hijo y la compra de pañales) La clasificación (identificación de nuevos patrones, como coincidencias entre la compra de cinta adhesiva para conductos y la compra de láminas de plástico) Las agrupaciones (encontrar y documentar visualmente grupos de hechos anteriormente desconocidos, como ubicación geográfica y las preferencias de marca) Los pronósticos (el descubrimiento de patrones a partir de los cuales se hacen predicciones en relación con las actividades futuras, tales como, la predicción de que las personas que pertenecen a un club de atletismo tome clases de ejercicio)[8] En la minería de datos casi nunca se menciona el tiempo que se invierte en la limpieza y la verificación de los datos, así como la definición de las variables, pero este proceso es muy importante ya que por lo regular las bases de datos de los sistemas operacionales contienen datos duplicados, a veces erróneos, superfluos o incompletos. A esto se le suman los errores por la operación de los sistemas. Las principales características y objetivos de la minería de datos son: - 6 -

13 Explorar los datos para encontrar información valiosa que está oculta dentro de las grandes bases de datos. El entorno de la minería de datos suele tener una arquitectura cliente servidor, es decir la información se encuentra en un servidor con accesos restringidos y las consultas se hacen por medio de otra aplicación independiente. Las herramientas de minería de datos ayudan a explotar los datos con los que se cuenta, para encontrar patrones, crear predicciones, etcétera. La información obtenida a través de la minería de datos ayuda a los usuarios a elegir cursos de acción y a definir estrategias competitivas, porque conocen información qué sólo ellos emplean. Explorar, a menudo implica el descubrimiento de resultados valiosos e inesperados. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos es un proceso que invierte la dinámica del método científico, el cual consiste en formular una hipótesis y luego se diseña el experimento para confirmarla o refutarla; y en minería de datos primero se diseña y realiza el experimento y finalmente se obtiene el nuevo conocimiento. [10] 1.3. Limitaciones de la minería de datos Las limitaciones de la minería de datos son los primeros datos o datos puros, y no tanto la tecnología o herramientas para el análisis, es decir depende mucho de la limpieza de los datos y de la definición de las variables, si los datos no están correctos el modelo creado no servirá. Del mismo modo la validez de los patrones descubiertos depende de cómo se apliquen al mundo real o a las circunstancias

14 Por ejemplo, para una empresa de telefonía móvil, donde se hace un análisis de cancelación de líneas, se muestra que en algunos estados de la República Mexicana el patrón de compra de equipo y cancelación de la línea en 3 meses, se presenta con más frecuencia durante los meses de diciembre y enero, mientras que en otros estados la cancelación de líneas nunca se da por cambio de equipo, es por problemas con el teléfono y en el mes de septiembre; por tanto, es difícil especificar que cuando se cambia de equipo inmediatamente se da la cancelación de la línea, el usuario que realice las minería está encargada de conocer el negocio para deducir la razón de las cancelaciones de las líneas. Otra limitación es que si bien ésta identifica las conexiones entre los comportamientos y/o variables, no necesariamente se sabe la causa de la relación. [8] 1.4. Diferencias entre minería de datos y estadística La minería de datos como enfoque para el análisis y descubrimiento de la información o conocimiento a realizar en grandes bases de datos combina técnicas como: Estadística (análisis factorial, discriminante, regresivo, de correlaciones), redes neuronales, sistemas expertos o basados en el conocimiento, sistemas de reglas de inducción, lógica difusa, algoritmos genéticos, algoritmos matemáticos (teoría de fractales y del caos, simulación) El uso de metodologías estadísticas y de minería de datos a veces suelen confundirse entre ellas. La minería de datos se presenta como una disciplina nueva, ligada a la Inteligencia Artificial y diferenciada de la Estadística. Por otro lado, en el mundo estadístico más académico, la minería de datos ha sido considerada en su inicio como una moda más, aparecida después de los sistemas expertos, conocida desde hacía tiempo bajo el nombre de data fishing. Ésta conlleva la promesa de exploración y el encuentro de relaciones subyacentes en los datos, por tanto se dice que la esencia de la minería de datos se encuentra en la posibilidad del - 8 -

15 descubrimiento de información insospechada, pero sumamente valiosa, esto significa que la minería de datos es exploratoria y las áreas de la estadística son confirmatorias (confirmar hipótesis) La estadística sobre todo descriptiva se desarrolló en épocas donde no se contaba con las computadoras, de ésta manera un conjunto de datos de 1,000 registros era considerado como "grande", pero no se compara con los 50 millones de transacciones con tarjeta de crédito que se realizan en México anualmente y que conforman bases de datos sumamente interesantes para el mundo financiero. Con la estadística se hacen manipulaciones de datos de manera directa; en minería de datos no es así, se necesita una serie de algoritmos numéricos. Otra diferencia entre estadística y minería de datos es que a la minería no le concierne la selección de la información y en la estadística es cuestión fundamental el cómo seleccionar la muestra de la mejor manera, de tal forma que sea representativa de la población, la minería de datos supone que los datos ya han sido recolectados y se aboca al descubrimiento de información o patrones. En la tabla 1 se muestran las características de la estadística y la minería de forma comparativa para visualizar las diferencias entre ambas

16 Tabla 1. Diferencia minería de datos vs. Estadística En conclusión en la estadística se desarrolla una hipótesis y, a continuación se usan los datos para probar o refutar la hipótesis. Por ejemplo, un usuario podría tener la hipótesis de que un cliente que compra un martillo, también compra una caja de clavos. La eficacia de este enfoque se ve limitado por la creatividad del usuario a desarrollar diversas hipótesis, así como la estructura del software que sea utilizado. En contraste, la minería de datos utiliza un enfoque de descubrimiento, en los algoritmos que son usados para examinar varias relaciones en bases de datos multidimensionales de manera simultánea, identificar a aquellos que se presentan con frecuencia. Por ejemplo, los tipos de compras en una tienda, los horarios, los tipos de clientes, la comparación de clientes por su vivienda, tipo de automóvil, edad, ocupación, ingresos y / o la distancia entre su casa y la tienda, etcétera.[11]

17 1.5. Minería de Datos y KDD La minería de datos revela patrones o asociaciones que son desconocidos para el usuario, por ésta razón, entra o se asocia con el contexto de Knowledge Discovery in Database (KDD) o descubrimiento de conocimientos en las bases de datos. Éste término es originado de la Inteligencia Artificial (AI). Qué es conocimiento? Desde el punto de vista de las organizaciones, se define el conocimiento como aquella información que permite generar acciones asociadas a satisfacer las demandas del mercado, y apoyar las nuevas oportunidades a través de la explotación de las competencias centrales de la organización. El conocimiento es una combinación de valores, información contextualizada y experiencias que proporcionan un marco para evaluar e incorporar nuevas experiencias e información. El conocimiento se origina y aplica en la mente de las personas. En las organizaciones, el conocimiento reside en documentos y bases de datos y también en los procesos, prácticas y normas corporativas (Ver figura 1 de las etapas del descubrimiento)figura 1. Etapas del descubrimiento de conocimientos.[5]) Figura 1. Etapas del descubrimiento de conocimientos.[5]

18 El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: a. Selección de datos. Es la primera etapa para extraer conocimiento, se define la fuente de datos a analizar y esto depende del objetivo del estudio, se parte de una pregunta o hipótesis, o bien se encuentre y sugiera algún modelo a partir del análisis de la información. Los atributos o campos seleccionados son significativos para el conocimiento que se desea obtener, en cuanto al número de registros, a veces es suficiente realizar el análisis sobre un subconjunto o muestra. b. Pre-procesar la información. Ésta etapa tiene por objetivo preparar los datos para que sean sometidos a la etapa siguiente del proceso. Dentro de las técnicas para realizar el preprocesamiento cabe mencionar: limpieza de datos, a fin de remover ruido e inconsistencias ya que estos datos nos llevan a un modelo erróneo; integración de datos, para generar un único almacén de datos coherente en aquellos casos donde los datos provienen de diferentes fuentes; transformaciones de datos, para normalizarlos; y reducción de datos, a fin de reducir el tamaño de los datos, por ejemplo, eliminando características redundantes. La importancia del pre-procesamiento de los datos es por la calidad de los datos sobre los que se aplican técnicas de descubrimiento de conocimiento ya que esto impacta de manera directa en la calidad del conocimiento que se descubre a partir de ellos. c. Transformación de la información. Ésta es la que insume mayor tiempo, aproximadamente el 60% del esfuerzo total; ya que es necesario tener el conocimiento del negocio, así como el objetivo del proyecto o hacia donde se quiere llegar. d. Patrones. Antes de comenzar con ésta etapa, se define el tipo de conocimiento que se desea obtener, a partir de éste se elige la técnica y finalmente el algoritmo. La minería tiene diferentes objetivos como predictivo

19 (estimación de valores futuros o desconocidos de variables de interés a partir de otras variables independientes) o descriptivo (identificación de patrones en los datos que los explican o resumen). e. Conocimiento. Una vez que se tenga el modelo de minería de datos, se da un informe de los resultados obtenidos por medio de presentaciones, reportes, cuadros comparativos, graficas, etcétera. Para evaluar si los resultados son los esperados. Los objetivos del descubrimiento de conocimiento y la minería de datos son: Procesar automáticamente grandes cantidades de datos. Identificar los patrones más significativos y relevantes. Descubrir conocimiento apropiado para satisfacer las metas de un usuario. Formular una estrategia de alcance organizacional para el desarrollo, adquisición y aplicación del conocimiento. Implantar estrategias orientadas al conocimiento. Promover la mejora continua de los procesos de negocio, enfatizando la generación y utilización del conocimiento. Monitorizar y evaluar los logros obtenidos mediante la aplicación del conocimiento. Reducir los tiempos de ciclo en el desarrollo de nuevos producto y mejorar los existentes. Reducir los costos por repetición de errores.[5] 1.6. Metodologías de minería de datos Ante la necesidad existente en el mercado de una aproximación sistemática para la realización de los proyectos de minería de datos, diversas empresas y consultorías han especificado un proceso de modelado diseñado para guiar al usuario a través de una sucesión de pasos que le dirijan a obtener buenos

20 resultados. Dentro de las principales metodologías utilizadas por los analistas en los proyectos de minería de datos se tiene la metodología SEMMA (Sample, Explore, Modify, Model, Assess que significa: Muestreo, exploración, manipulación, modelado y valoración) propuesta por SAS y la metodología de libre distribución CRISPDM (Cross- Industry Standard Process for Data Mining) creada por un consorcio de empresas europeas, NCR (Dinamarca), AG (Alemania), SPSS (Inglaterra) y OHRA (Holanda) Existen otras metodologías menos usuales como la metodología KM-IRIS creada por un grupo de de Integración y Re-Ingeniería de Sistemas (IRIS) de la Universidad Jaume.[14] Metodologías SEMMA SAS Institute desarrollador de ésta metodología, la define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de ésta metodología corresponde a sus letras iníciales en inglés: Sample (Muestreo), Explore (Exploración), Modify (Manipulación), Model (Modelado) y Asses (Valoración). Figura 2. Fases de la metodología SEMMA.[15]

21 El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de ésta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra se define como la capacidad de reproducir a pequeña escala las características de la población. Ésta es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple. La metodología SEMMA establece que para cada muestra considerada para el análisis del proceso asocia el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología SEMMA indica que se procede a una exploración de la información disponible con el fin de simplificar el problema y optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización ó de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo. La tercera fase de la metodología consiste en la manipulación de los datos, con los resultados de la exploración realizada, de forma que se definan y tengan el formato adecuado de los datos que serán introducidos en el modelo. Una vez que se han definido las entradas del modelo, con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de ésta fase consiste en establecer una relación entre

22 las variables explicativas y las variables objetivo, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales (tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión, reglas de asociación y computación evolutiva. Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos, contrastado con otros métodos estadísticos o con nuevas poblaciones muéstrales. En la figura 3 se observa un esquema de la dinámica general de la metodología

23 Figura 3. Metodología SEMMA.[14] En conclusión, la metodología consiste en los siguientes pasos: tomar los datos o una muestra en caso de que la cantidad de datos sea muy grande, se exploran, modifican, modelan y se evalúan en el modelo o los modelos resultantes para elegir el más adecuado. [14] y [15] Metodología CRISP-DM CRISP-DM es una organización europea creada por tres grandes jugadores en proyectos de minería de datos que son SPSS, NCR y Daimler Chrysler. Lo que trata ésta metodología es desarrollar los proyectos de minería de datos bajo un proceso estandarizado de definición y validación de tal forma que se desarrollen

24 proyectos minimizando los costos que impliquen y con un alto impacto en el negocio. La metodología CRISP-DM proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de minería de datos: el modelo de referencia y la guía del usuario. El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas de un proyecto de minería en general. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia a proyectos de minería de datos específicos, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase. La metodología CRISP-DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto

25 Figura 4. Fases del proceso de modelado metodología CRISP-DM. [14] En la figura 4, las flechas indican relaciones más habituales entre las fases, aunque podamos establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza cíclica del proceso de modelado. La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación. La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que se establezca un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis. Una vez realizado el análisis de datos, la metodología establece que se proceda la preparación de los datos, de tal forma que sean tratados por las técnicas de

26 modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se va a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado. Independientemente de la técnica de modelado, los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática. En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos específico. En la fase de evaluación se evalúa el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se revisa el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase y de la precisión del mismo, se procede al despliegue de éste en caso de requerirse. La fase de explotación es en la cual se muestra el resumen de evaluación de los resultados, las relaciones y patrones encontrados para que éstos sean utilizados en la traza de estrategias y toma de decisiones. [14] y [16] Comparación de metodologías Las metodologías SEMMA y CRISP-DM comparten la misma esencia, estructurando el proyecto de minería de datos en fases que se encuentran interrelacionadas entre sí, convirtiendo el proceso en iterativo e interactivo. La metodología SEMMA se centra más en las características técnicas del desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una

27 perspectiva más amplia respecto a los objetivos empresariales del proyecto. Ésta diferencia se establece ya desde la primera fase del proyecto de minería de datos donde la metodología SEMMA comienza realizando un muestreo de datos, mientras que la metodología CRISP-DM comienza realizando un análisis del problema empresarial para su transformación en un problema. Entonces la metodología CRISP-DM está más cercana al concepto real de proyecto, integrada con una Metodología de Gestión de Proyectos específica que completaría las tareas administrativas y técnicas.[14] Otra diferencia significativa entre la metodología SEMMA y la metodología CRISP-DM radica en su relación con herramientas comerciales. La metodología SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los productos SAS donde se encuentra implementada. Por su parte la metodología CRISP-DM ha sido diseñada como una metodología neutra respecto a la herramienta que se utilice para el desarrollo de minería de datos siendo su distribución libre y gratuita.[14] En la figura 5 se muestran la comparativa entre las dos metodologías

28 Figura 5. Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y CRISPDM. [14]

29 1.7. Fases de un Proyecto de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. Figura 6. Fases del Proyecto de Minería de Datos. [10] La figura 6 muestra las fases de la minería de datos, las cuales se describen a continuación: a. Selección y preprocesado de datos. La selección de la información dependerá del objetivo del proyecto, por ejemplo si se requiere hacer un análisis de las altas de líneas Telcel en el mes de noviembre y diciembre de la ciudad de México y zona metropolitana, entonces se está hablando que se acota la información de la base de datos de todos los clientes, incluso, se trabaja con solo una muestra de la información requerida. Con el preprocesado se refiere a la eliminación de información errónea y la corrección algunos datos nulos o con valores irreales. b. Selección de variables. Aún después de haber sido preprocesados los datos o la información, en la mayoría de los casos se tiene una cantidad enorme de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son aquellos basados en la elección de los mejores

30 atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia. c. Extracción de conocimiento. El conocimiento se obtiene aplicando alguna técnica de minería de datos (árboles de decisión, cluster, etcétera) a la información dependiendo del objetivo del estudio (véase el capitulo 2 de Técnicas de minería de datos); con la finalidad de obtener un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También se usan varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. d. Interpretación y evaluación. Una vez obtenido el modelo, se procede a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se comparan los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se altera alguno de los pasos anteriores para generar nuevos modelos Aplicaciones de la minería de datos La minería de datos se utiliza para varios pronósticos tanto en el sector público como privado, industrias como la banca, los seguros, la medicina, para la reducción de costos, mejorar la investigación, y aumentar las ventas. Por ejemplo, las industrias de seguros y banca, usan aplicaciones de minería de datos para detectar el fraude y ayuda a la evaluación del riesgo (credit scoring) Utilizando los datos de clientes recabados a lo largo de varios años, las empresas desarrollan modelos que predicen si un cliente tienen alto riesgo

31 crediticio (por ejemplo hoy en día se cuenta con el buró de crédito), o si un crédito es fraudulento y tiene que ser investigado más a fondo. La comunidad médica a veces utiliza a la minería de datos para ayudar a predecir la eficacia de un procedimiento o medicamento. Las empresas farmacéuticas usan la minería de datos de compuestos químicos y material genético para ayudar a guiar la investigación en nuevos tratamientos para las enfermedades. Empresas como el servicio telefónico, los proveedores de música, clubes utilizan la minería de datos para crear un análisis de churn (probabilidad de que un cliente cancele algún servicio), para evaluar los que son probables a que permanezcan como suscriptores y cuáles son susceptibles de pasar a la competencia. En Estados Unidos, la minería de datos se utilizó inicialmente como un medio para detectar el fraude y el derroche, hoy en día también se utiliza para fines tales como medir y mejorar el rendimiento del programa. Se ha informado que ésta ha ayudado al gobierno federal de EU. a la recuperación de millones de dólares por fraude. El Departamento de Justicia de EU. ha sido capaz de utilizar la minería de datos para evaluar modelos de delincuencia y ajustar las asignaciones de recursos en consecuencia. Otro ejemplo es la Administración Federal de Aviación (EU.), que utiliza la minería de datos para revisión de accidentes comunes de avión para reconocer los defectos y recomendar precaución. Recientemente, la minería de datos ha sido cada vez más citada como una herramienta importante para la seguridad de los ciudadanos. [10]

32 En el Gobierno Ejemplo: El FBI analizará las bases de datos comerciales para detectar terroristas. En julio del 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con ésta información, el FBI unirá todas las bases de datos mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros.[10] En la Empresa Ejemplo 1. Predecir qué personas que solicitan un crédito no lo devuelven. Se cuenta con los datos correspondientes a los créditos concedidos con anterioridad, y otros datos personales como el salario del cliente, si posee casa propia, etcétera. Ver tabla

33 Tabla 2.Información de créditos personales.[10] Aplicando minería de datos, se tiene como resultado la siguiente Regla: SI cuentas-morosas>0 ENTONCES devuelve-crédito = No SI cuentas-morosas=0 Y (salario>2500 Ó Dcrédito > 10) ENTONCES Devuelve-crédito=Sí Ejemplo 2. Determinar las características socio económicas de los turistas en un determinado destino o paquete turístico, identificar patrones de reservas y sugerir destinos. Tabla 3. Información de destinos por cliente

34 En la tabla 3 se tiene la información del cliente y características del viaje. Ana: profesional que viaja por motivos de negocios a grandes ciudades como México y Monterrey. Pedro: profesional que viaja por motivos de negocios generalmente a Monterrey. Luis: turista que viaja a destinos turísticos dentro de México. Esta información en conjunto con la minería de datos es útil también para sugerir destinos en sitios Web ó envió de publicidad a domicilio, obtener la puntuación de un usuario X de una muestra de paquetes turísticos, buscar otros usuarios Y s que tengan un patrón de gustos similar a X, recomendar los paquetes preferidos de los Y s, entre otros. Ejemplo 3. En el oeste se venden más camisas de manga corta que en el este. Una forma de probar ésta hipótesis es la presentada por la minería de datos, donde se sigue todo un proceso de búsqueda de patrones y criterios definidos por el usuario hasta llegar a la información relevante que apoye o niegue su hipótesis. Otra manera es obtener los resultados de ventas de ambos lugares, pero con esto solo se obtendría un Cierto o Falso, es decir no se sabría la razón del porque el resultado, si esto ha sido siempre o por periodos de tiempos, que tipos de clientes son los más usuales, etcétera. Ejemplo 4. Análisis de datos del carro de compras. Se tiene la siguiente información en la tabla

35 Tabla 4. Información de compras por cliente (carrito)[10] Con dicha información y un algoritmo de minería de datos se determinaría que: 100% de las veces que se compran pañales también se compra leche. 50% de las veces que se compran huevos también se compra aceite. 33% de las veces que se compra vino y salmón también se compra lechuga.[10] En la Universidad Ejemplo: Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México (Rodas, 2001) Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño

36 académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar soluciones, debido a que tres de las cuatro variables no dependían de la universidad.[10] En Investigaciones Espaciales Ejemplo: Proyecto SKYCAT. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con x píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (agrupamiento) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etcétera. Con la información obtenida, los astrónomos han descubierto dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.[5] y [10]

37 En los Clubes Deportivos Ejemplo: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de minería de datos y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA) El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador generalmente da la oportunidad a otro de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. El cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. En el 2000 IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes. [10]

38 Capítulo 2. de datos. Técnicas de Minería 2.1. Introducción Hoy en día, la cantidad de datos que se recaba es inimaginable, exceden nuestra habilidad de reducir y analizar la información, pero se cuenta con varias técnicas para apoyo al análisis, así como la tecnología para procesar grandes bases de datos. Las tareas de la minería de datos se clasifican en: a. Predictivas: Estimación de valores futuros o desconocidos de variables de interés (variables objetivo) a partir de otras variables independientes (predictivas) Por ejemplo el análisis de ventas cruzadas, que descubre qué objetos tienden a ser comprados juntos para crear recomendaciones y determinar cómo el posicionamiento del producto contribuye directamente a su línea inferior. En éstas tareas se resuelven con técnicas como: agrupamiento o clustering, regresión, series de tiempo, análisis de secuencias, entre otras. b. Descriptivas: Identificación de patrones en los datos que lo explican o resumen. Por ejemplo, la previsión de ventas que optimiza el funcionamiento de su almacén, manteniendo un stock de cada producto que sea suficiente para poder servir rápidamente los pedidos de sus clientes. Así la organización dispone de información sobre las ventas de cada producto en cada mes del último año. En este tipo de análisis se usa técnicas como: análisis de asociaciones, árboles de decisión, redes neuronales, análisis de grupos, etcétera

39 Tabla 1.Técnicas y tareas a realizar. [24] En la tabla 5 se muestra un cuadro comparativo de las diferentes técnicas, así como las tareas (clasificación, regresión, agrupamiento, reglas de asociación, correlaciónales) y algunas técnicas y algoritmos que las abordan. [9],[17] y [24] Nota: La selección de la técnica a utilizar en el análisis depende de los datos con los que se cuente y el objetivo del estudio Técnica de detección de anomalías (Outlier) La meta principal en la detección de anomalías, es encontrar objetos que sean diferentes de los demás. Frecuentemente estos objetos son conocidos como anomalías (outlier) La detección de anomalías también es conocida como detección de desviaciones, porque objetos anómalos tienen valores de atributos con una desviación significativa respecto a los valores típicos esperados. Aunque las anomalías son frecuentemente tratados como ruido o error en muchas operaciones, tales como agrupamiento, para propósitos de

40 detección de fraude son una herramienta valiosa para encontrar comportamientos atípicos en las operaciones que un cliente realiza en una entidad financiera. En términos de salida, las técnicas actuales de detección de anomalías se clasifican en: a. Técnicas basadas en Modelos. Se basan en el campo de estadísticas, dada la premisa de conocer la distribución de los datos. Entre estas técnicas se resalta: el método de convex hull el cual consiste en encontrar el polígono convexo más pequeño que incluye a todos los datos, dado un conjunto S de puntos. Se dice que una figura es convexa si cada vez que tomamos dos puntos en ella, el segmento que los une pertenece también a dicha figura, se muestra un ejemplo de en la figura 7. Figura 1. Ejemplo del método Convexo Hull b. Técnicas basadas en proximidad. Ésta técnica se basa fundamentalmente en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los demás, éste es considerado como una anomalía. Entre los principales métodos se encuentra: la distancia de Mahalanobis y la distancia Euclidiana. El método de Mahalanobis es una forma diferente de clasificar los datos en los dos grupos y esto se hace mediante la distancia de Mahalanobis en lugar de la distancia euclídea. Está representa la distancia entre el valor promedio del grupo que tiene una covarianza constante, de modo que en dos

41 dimensiones, se da esta distancia por un elipsoide. En la figura 8 se representa una curva de Mahalanobis, donde el proceso de clasificación consiste en calcular la distancia de Mahalanobis de un punto de prueba a la media de los dos grupos y luego decidir qué medio es el más cercano. Supongamos que las x s son el grupo masculino y las o el femenino, entonces es posible ver la forma elíptica que rodea el grupo masculino. Figura 2. Ejemplo del Algoritmo de Mahalonobis

42 El método Euclidiano se basa en calcular la distancia entre dos puntos P ( p, p,... p ) y Q = q, q,... q ) mediante la formula: n ( 2 n n ( p1 q1) + ( p2 q2) ( pn qn ) = ( pi qi ) i = 1 Quedando de la siguiente manera: d = ( x y x1) + ( y2 1) Esté método calcula la distancia como la longitud de la recta que une dos puntos en el espacio. En la figura 9 se observa gráficamente las dos distancias. Figura 3. Distancia Mahalanobis y Euclidiana. c. Técnicas basadas en densidad. Ésta técnica se basa en la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad y que son relativamente distantes de sus vecinos se consideran anómalos. Entre los principales métodos se encuentra: LOF (Local Outlier Factor), está técnica de minera de datos generalmente es de aprendizaje no supervisado, ya que en la mayoría de los casos, no se conoce la clase, para ello se asigna

43 una calificación a cada instancia que refleja el grado con el cual la instancia es anómala. Por lo general ésta técnica es considerada para identificar errores en los datos ó bien para análisis muy en particular, por ejemplo, para el descubrimiento de fraudes. [18], [19] y [20] 2.3. Agrupamiento (Clustering) El análisis de grupos (cluster) es un proceso que divide un grupo de objetos de tal forma que los miembros de cada grupo son similares de acuerdo a alguna métrica. El agrupamiento de acuerdo a la similitud es una técnica muy poderosa, la clave para esto es trasladar alguna medida intuitiva de similitud dentro de una medida cuantitativa. El objetivo es agrupar elementos en grupos de manera que los elementos dentro de un mismo grupo sean lo más parecidos, mientras que elementos de distintos grupos sean lo más diferentes. Figura 4. Ejemplo de grupos o clúster

44 En la figura 10 se representa un ejemplo de grupos donde la entrada de patrones se muestra en (a), y los grupos se muestran en (b). La obtención de dichos grupos depende del criterio o distancia considerados. Por ejemplo, una baraja de cartas españolas se podría dividir de distintos modos: En cuatro grupos (los cuatro palos) En ocho grupos (los cuatro palos y según sean figuras o números) En dos grupos (figuras y números) Es decir, todo depende de lo que se considere como similar. [21] y [22] Etapas del análisis grupo Elección de las variables: Los tipos de variables dependerán del planteamiento del problema, éstas son: variables cualitativas, ordinales (grado de estudio), nominales (grupo), variables cuantitativas, variables discretas (número de alumnos), variables continuas (estaturas) [5] Elección de la medida de asociación o similitud: En realidad, es bastante subjetivo el hecho de elegir una medida de similitud ya que depende de las escalas de medida. Las observaciones se agrupan según la similitud expresada en términos de una distancia. Algunas formulas de distancia más usadas son: Distancia euclidiana es llamada también distancia clásica, como la longitud de la recta que une dos puntos en el espacio. Eucl( x, y ) = d i = 1 ( x i y ) i

45 Distancia de Manhattan: es llamada también distancia por cuadras (city block), está hace referencia a recorrer un camino no en diagonal (por el camino más corto) si no zigzagueando, como se haría en Manhattan. Manh( x, y) = = x i y d i 1 i Distancia de Mahalanobis: es una distancia más robusta que utiliza la matriz de covarianzas S. Mahalanobis( x, y ) = ( x y) Cov( D) 1 ( x y ) Visualmente las distancias se observan en la figura 11. Distancia Mahalanobis Distancia Manhattan Distancia Euclídea Figura 5. Comparación de cálculo de distancias

46 Elección de las técnicas de grupos: Existen diferentes técnicas de grupo, la selección dependerá del resultado que se espera. (Ver Técnicas de agrupamiento) Validación de los resultados: Evaluar que tan bueno es el ajuste, es decir si el número de agrupaciones es el adecuado así como la contribución de las variables al agrupamiento Técnicas de agrupamiento. Mapas autoorganizativos (Kohonen): la característica más importante del modelo es el concepto de aprendizaje en un vecindario o agrupación próximo a la neurona ganadora. Figura 6. Visualización de un Mapa de Kohonen

47 En la figura 12 se muestra un ejemplo de Mapa de Kohonen de dos capas donde cada neurona de competición es una categoría y cada neurona de entrada está conectada con cada una de las células de la capa de competición (células que se distribuyen inicialmente de forma aleatoria). Paso1: Se recibe el ejemplo de entrada (n-dimensional) Los ejemplos son representables como puntos en un espacio n-dimensional Figura 7. Entradas en un mapa de Kohonen Paso2: Se propaga por las conexiones hasta llegar a la capa de competición (competición que se realiza de acuerdo a un modelo de interacción lateral) Los prototipos (objetos diseñados para una demostración) también se representan en el espacio y sus coordenadas quedan determinadas por los pesos de las neuronas de la capa de competición Figura 8. Se propagan las conexiones hasta llegar a la capa de competición

48 Paso3: Cada célula de esta capa de competición produce una salida al comparar el ejemplo con sus pesos. Paso4: Se selecciona el prototipo cuya distancia al ejemplo sea menor (célula ganadora) Figura 9. Se selecciona el prototipo. Paso 5: Los pesos de la célula ganadora se modifican para acercarse ligeramente al ejemplo modificando así el mapa de prototipos inicial Figura 10. Mapa de prototipo inicial

49 Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa la distancia del ejemplo a los distintos prototipos existentes sino también la clase a la que pertenecen los ejemplos cercanos. K-Medias (K-Means): es un método de agrupación de casos que se basa en las distancias existentes entre ellos en un conjunto de variables (este método no permite agrupar variables). El objetivo de este algoritmo es intentar situar los prototipos de forma tal que aquellos patrones cercanos (distancia euclídea) sean similares entre sí. Ejemplo. Se cuenta con la siguiente información: Tabla 2. Datos para el ejemplo de K-medias. Paso 1. Graficando se tiene que: ph Atributo1 índice ponderado Figura 11. Gráfica inicial de la información. Paso 2. Seleccionar k elementos aleatoriamente, los cuales representa el centro o media de cada cluster. Para este caso de estudio tomamos medicina A y medicina B como los primeros centroides (centros

50 multivariantes de los conglomerados) definiéndolos como c 1 y c 2 respectivamente; entonces se tiene c 1 = (1,1 ) y c 2 = (2,1 ) ph Atributo1 índice ponderado Paso 3. Figura 12. Primeros centroides. A cada objeto restante se le asigna el grupo con el cual más se parece, basándose en una distancia entre el objeto y la media del grupo. Para esto se calcula la distancia entre los centros de los cluster de cada objeto que en este caso es c1y c 2. La distancia de medicina c = (4,3 ) ) con el primer centroide o media del cluster se calcula con la fórmula de la distancia: 2 2 c 1 = (1,1) (4 1) + (3 1) = 3. 61, y con respecto al segundo 2 2 centroide es c2 = (2,1 ) (4 2) + (3 1) = 2. 83, etc. Para agrupación de cada objeto se basa en la mínima distancia, por ejemplo para medicina C la distancia es menor hacia el grupo 2, por tanto es asignada a este. La distancia de medicina D = (5,4) con respecto a los centroides es:

51 2 2 c 1 = (1,1) (5 1) + (4 1) = c2 = (2,1) (5 2) + (4 1) = Entonces de acuerdo al resultado de las distancias se tiene que medicina C y D están asignadas al grupo 2. Entonces la matriz de grupo quedaría definida de la siguiente manera: Paso 4. Se itera nuevamente. En el grupo uno solo existe un centroide c 1 = (1,1 ), en el grupo 2 hay 3 por tanto se calcula el promedio de estos para obtener el segundo c 2 = (, ) = (, ). Ver figura ph Atributo1 índice ponderado Figura 13. Gráfica de los segundos centroides. Ahora se calculan las distancias de los objetos con el nuevo centroide:

52 2 2 Medicina B (2,1 ) c 1 = (1,1 ) (2 1) + (1 1) = 1 c = ( , ) 3 3 ( 2 11/3) 2 (1 8/3) 2 + = Medicina C (4,3 ) c 1 = (1,1) (4 1) 2 + (3 1) 2 = 3.61 c = ( (4 11/ 3) + (3 8/ 3) = , ) 3 3 Medicina D (5,4) c 1 = (1,1) (5 1) 2 + (4 1) 2 = 5 c = ( (5 11/ 3) + (4 8 / 3) = , ) 3 3 Medicina B se mueve al Grupo 1, medicina C y D siguen quedando en el grupo B, la matriz queda: Paso 5. Como la matriz 0 1 G es diferente a G, se vuelve a iterar. Para obtener los nuevos centroides se calcula el promedio de A y B para el primer grupo, de C y D para el grupo c 1 = (, ) = (1,1) y c 2 = (, ) = (4,3 )

53 Figura 14. Gráfica con nuevos centroides. Nuevamente calculamos la distancia de los objetos con los nuevos centroides. El resultado de las distancias mínimas dan como resultado Medicina A y B en primer grupo y medicina C y D en el segundo, Paso 6. Como el resultado es el mismo que el anterior 2 1 G = G se termina de iterar; ya que los grupos no se han movido por tanto no es necesario más iteraciones. Quedando la agrupación final:

54 Tabla 3. Tabla final del ejemplo Ventajas de la técnica Rendimiento en la información, es decir, se analiza en grandes bases de datos sin problema alguno. Entre las clases internas la similitud es muy alta. Entre las clases externas la similitud es muy baja. La calidad del resultado de los grupos depende de la medida de similitud usada por el método y su implementación. La calidad del método de agrupamiento también depende de la capacidad de descubrir algunos o todos los patrones ocultos. La calidad de la agrupación también depende de la definición y representación del grupo elegido Usos y/o aplicaciones Biología: Crear la taxonomía de todas las cosas vivas, como reino, clases, categorías, familia, género y especies. Con el apoyo de ésta técnica, encontramos la clasificación parecida. Recuperación de información: por ejemplo, buscar algo en Internet entre las millones de páginas Web. El agrupamiento usa grupos de ésta búsqueda, dando como resultados grupos de agrupamiento más pequeños. Clima: para entender el clima, se requiere encontrar patrones en la atmósfera y el océano. Medicina: Los grupos se usan para identificar diferentes subcategorías, por ejemplo, para identificar tipos de depresión

55 Negocios: se usa para agrupar clientes y así realizar actividades de marketing Limitaciones Necesidad de validar la solución. Técnica exploratoria, sin solución única. Perdida de alguna información valiosa más minuciosa. La dificultad de etiquetar los grupos. Gran numero de dimensiones. [26] y [27] 2.4. Árboles de Decisión Un árbol de decisión es un modelo de predicción y se define como un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se determina siguiendo las condiciones que se cumplen desde la raíz del árbol hasta sus hojas. Se utilizan comúnmente cuando se necesitan detectar reglas del negocio que puedan ser fácilmente traducidas al lenguaje natural o SQL, o en la construcción de modelos predictivos. Por está razón es la técnica mas usada. Un árbol de decisión tiene unas entradas las cuales son un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores toman las entradas y las salidas son valores discretos o continuos De forma más concreta, refiriéndonos al ámbito empresarial, los árboles de decisión son diagramas de decisiones secuenciales y muestran sus posibles resultados. Éstos ayudan a las empresas a determinar cuales son sus opciones al mostrarles las distintas decisiones y sus resultados. La opción que evita una pérdida o produce un beneficio extra tiene un valor. La

56 habilidad de crear una opción, por lo tanto, tiene un valor que es comprado o vendido. Inicio Rechazar < 25 años Edad >= 25 años Antigüedad < 18 meses >= 18 meses Rechazar Aceptar Figura 15. Árbol de decisión. En la figura 21 se observa un ejemplo de árbol el cual contiene dos variables: edad y antigüedad. Se interpreta de la siguiente manera: Primero pregunta por la edad. Si es menos a 25 años el cliente es rechazado. Si su edad es igual o mayor a 25 años el árbol pregunta por la antigüedad. Si es menor a 18 meses el cliente es rechazado. En cambio, si su antigüedad es igual o mayor a 18 meses entonces el cliente es aceptado. Existen ciertos conceptos de la metodología: Entropía: es la medida de la incertidumbre que hay en un sistema. Es decir, ante una determinada situación, la probabilidad de que ocurra cada uno de los posibles resultados. La función de entropía más usada es la denominada binaria descrita por la fórmula:

57 H 1 1 p,1 p) = p log2( ) + (1 p)log ( ) p 1 p 2( 2 Su gráfica es: Figura 16. Gráfica de la entropía. Un ejemplo de la entropía binaria podría ser sacar una bola de color blanco negro de una bolsa. Si en la bolsa hay 3 bolas blancas y 3 negras el resultado es completamente desconocido, es decir la incertidumbre es máxima, es decir la entropía es 1. Si, al otro extremo, en la bolsa hay 6 bolas negras el resultado es conocido de antemano, luego la incertidumbre no existe, y la entropía es 0. Ganancia de información: es la diferencia entre la entropía de un nodo y la de uno de sus descendientes. En el fondo no es más que una heurística (resolución de problemas mediante la creatividad y el pensamiento), que servirá para la elección del mejor atributo en cada nodo. Es decir, para el nodo con el conjunto de entrenamiento S y el atributo A, la Ganancia ( S, A) es: Ganancia( A) = I( p, n) Entropía( A) Siendo Sv el subconjunto de S formado por aquellas instancias que en el atributo A toman el valor v

58 Ejemplo: Supongamos que hay un conjunto de entrenamiento S con 14 ejemplos, de los que 9 son positivos y 5 son negativos. Su entropía es por tanto (aplicando la fórmula de la entropía binaria) Dividiendo el conjunto según un atributo A, se obtiene un subconjunto Sa con 6 ejemplos positivos y 2 negativos (entropía 0.811) y otro subconjunto Sb con 3 ejemplos positivos y 3 negativos (entropía 1.00). La ganancia de información que se obtiene si clasificamos el conjunto S según el atributo A es: Ganancia(S,A)= (8/14) (6/14)1.00= Nota: Se elige el atributo que proporcione una mayor ganancia de información Algoritmos o técnicas de árboles de decisión. Entre los algoritmos de aprendizaje más usuales se encuentra: CART[Breiman,1984]. Se basa en el lema divide y vencerás, son métodos que construyen árboles binarios basados en el criterio de partición GINI y que sirven para clasificación como para regresión. La poda se basa en una estimación de la complejidad del error. El proceso general es: Paso 1. El nodo raíz es dividido en subgrupos (dos o más) determinados por la partición de una variable predictora elegida, generando nodos hijos. Paso 2. Los nodos hijos son divididos usando la partición de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condición de parada. Paso 3. Algunos de los nodos resultantes son terminales, mientras que otros nodos continúan dividiéndose hasta llegar a un nodo terminal. Paso 4. En cada árbol se cumple la propiedad de tener un camino único entre el nodo raíz y cada uno de los demás nodos del árbol. Ejemplo: en 215 pacientes que sufrieron un ataque al corazón se evaluaron variables sociodemográficas, historia médica y exámenes de laboratorio

59 A los 30 días 37 pacientes murieron. Se presenta el Árbol de Clasificación desarrollado con el fin de estimar El riesgo de un segundo ataque. Ver figura 23 Figura 17. Ejemplo de árbol resuelto con el algoritmo CART. ID3.Propuesto por Quinlan en 1986, el ID3 es considerado el árbol de decisión más simple, usa la ganancia de información como criterio de separación. El árbol crece hasta encontrar un nodo final. No emplea procedimientos de poda ni manejo de valores perdidos. El objetivo es construir un árbol de decisión que explique cada instancia de la secuencia de entrada de la manera más compacta posible, según los criterios de coste y bondad. En cada momento elige el mejor atributo

60 El algoritmo general se define mediante un ejemplo: Se toma la decisión de asistir a un juego o no, considerando los factores climatológicos definidos en la siguiente tabla: #_Caso Clima_general Temperatura Humedad Viento Tipo_clase 1 Soleado Caliente Alta No N 2 Soleado Caliente Alta Si N 3 Nublado Caliente Alta No P 4 Lluvioso Templada Alta No P 5 Lluvioso Fría Normal No P 6 Lluvioso Fría Normal Si N 7 Nublado Fría Normal Si P 8 Soleado Templada Alta No N 9 Soleado Fría Normal No P 10 Lluvioso Templada Normal No P 11 Soleado Templada Normal Si P 12 Nublado Templada Alta Si P 13 Nublado Caliente Normal No P 14 Lluvioso Templada Alta Si N Tabla 4. Información de climas para ejemplo. Analizando la información se ve que se tiene 9 con clase P y 5 con clase N. Paso 1. general con la ecuación: Se calcula la información requerida para la clasificación p p n n I( p, n) = ( ) Log 2( ) ( ) Log 2( ) p + n p + n p + n p + n I (p, n) = - (9/14)*log2 (9/14) - (5/14)*log (5/14) = bits 2 Paso 2. Se calcula para cada atributo, se comienza con clima general, se observa que tiene 3 valores (v=3), para el primer valor (Soleado) hay 5 objetos de los cuales 2 son de clase p y 3 N, entonces: Soleado p 1 = 2, n 1 = 2 I ( p1, n1) = (2/ 5) * log2(2 / 5) (3 / 5) * log2(3 / 5) =

61 Para el valor de Nublado p 2 = 4, n 2 = 0 I ( p2, n2 ) = (4 / 4) * log2(4 / 4) (0 / 4) * log2(0 / 4) = 0 Y para el valor de Lluvioso p = 3 3, n = 1 3 I ( p3, n3 ) = (3 / 4) * log2(3 / 4) (1/ 4) * log2(1/ 4) = Paso 3. Se calcula a entropía total de los atributos: ( p E( A( = 1 + n ) * I(( p n ) + ( p n2 ) * I( p2 + n p + n 2 ) ( p v + n ) * I( p v v + n ) v 5 * I(( p E( C lima _ General ) = 1 + n 1 ) + 4 * I( p n 2 ) + 5p 3 + n 3 ) = Paso 4. Se obtienen la ganancia que es la diferencia entre la entropía de un nodo y la de uno de sus descendientes y sirve para la elección del mejor atributo en cada nodo que es que gana la mayor información. Ganancia( A) = I( p, n) Entropía( A) Ganancia (Clima_General)= E (Clima_General)= = Clima General Soleado Lluvioso Nublado [2+,3-] E= [3+,1-] E= [3+,0-] E= 0 Figura 18. Árbol de ejemplo con valores de ramificación Clima General. Paso 5. El mismo procedimiento es aplicado a los otros tres atributos, por tanto se continúa con temperatura

62 Caliente p 1 = 2, n 1 = 2 I ( p1, n1) = (2/ 4) * log2(2 / 4) (2 / 4) * log2(2 / 4) = 1 Templada p2 = 4 p1 = 4, n 2 = 2 I ( p2, n2 ) = (4 / 6) * log2(4 / 6) (2 / 6) * log2(2 / 6) = Fria p = 3 3, n = 1 3 I ( p3, n3 ) = (3 / 4) * log2(3 / 4) (1/ 4) * log2(1/ 4) = Se calcula ahora la entropía del atributo temperatura. 4 * I( p1, n1) + 6 * I( p2, n2 ) + 4 * I( p3, n E( Temperatura) = 14 E ( Temperatura) = (4 * (1) + 6 * (0.918) + 4 * (0.811))/14 = ) Paso 6. Se calcula la ganancia. Ganancia (Temperatura) = E(Temperatura) = Ganancia (Temperatura) = =.029 Temperatura Caliente Templada Fría [2+,2-] E= 1 [4+,2-] E= [3+,1-] E= Figura 19. Árbol con rama "Temperatura". Paso 7. Ahora se continua con el atributo de humedad: Alta p 1 = 3, n 1 = 4 I ( p1, n1) = (3 / 7) * log2(3 / 7) (4 / 7) * log2(4 / 7) = Normal p 2 = 6, n 2 = 1 I ( p2, n21) = (6 / 7) * log2(6 / 7) (1/ 7) * log2(1/ 7) =

63 Paso 8. Se calcula su entropía. 7 * I( p, n1) + 7 * I( p2, E( Humedad ) = 14 1 n2 7 * (.985) + 7 * (.591) E ( Humedad ) = = ) Paso 9. Y finalmente su ganancia. Ganancia (Humedad) = E(Humedad) = Ganancia (Humedad)= =.151 Humedad Alta Normal [3+,4-] E= [6+,1-] E= Figura 20.Árbol con rama "Humedad". Paso 10. Se hacen los cálculos correspondientes para viento. Si p 1 = 3, n 1 = 3 I ( p1, n1) = (3 / 6) * log2(3 / 6) (3 / 6) * log2(3 / 6) = 0.1 No p 2 = 6, n 2 = 2 I ( p2, n2 ) = (6 / 8) * log2(6 / 8) (2/ 8) * log2(2/ 8) = Paso 11. Se calcula la entropía y su ganancia

64 6 * I( p, n1) + 8 * I( p2, E( Viento) = 14 1 n2 6 * (.1) + 8 * (0.811) E ( Viento) = = ) Ganancia (Viento) = E(viento) =.048 Ganancia (viento)= =.048 Paso 12. Una vez realizado los cálculos para todos los atributos, se identifica la tupla con mayor ganancia que en este caso es Clima_General para que sea tomada como nodo inicial, el árbol queda de la siguiente manera: Figura 21. árbol de ramificación "Clima General". Paso 13. un árbol final: Esté proceso se hace para cada nodo del árbol. Obteniendo

65 Clima General Soleado Nublado Lluvioso Humedad P Viento Alta Normal Si No N P N P Figura 22. Árbol final. C4.5. Es la evolución del ID3, presentado por Quinlan en Usa como criterio de separación el radio de ganancia (gain ratio) o proporción de ganancia. Esta es la medida basada en información que considera diferentes números (y diferentes probabilidades) de los resultados de las pruebas Las ventajas de la técnica de Árboles de decisión Resume los ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que sirvieron para su construcción. Facilita la interpretación de la decisión adoptada. Proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones. Explica el comportamiento respecto a una determinada tarea de decisión

66 Reduce el número de variables independientes. Es una magnifica herramienta para el control de la gestión empresarial. Minimizan el pre-tratamiento, trabajan con un cierto nivel de ruido y datos faltantes. Se definen los ejemplos en términos de pares atributo-valor (representados como un conjunto fijo de atributos, por ejemplo, cielo y sus valores) La función objetivo toma valores discretos (por ejemplo, SI o NO en el ejemplo anterior) [31], [36] y [37] Aplicaciones y Usos de los árboles de decisión Diagnóstico médico. Análisis de riesgo en la concesión de créditos. Elaboración de horarios. Toma de decisiones Segmentación de mercados. Análisis de oportunidades (rentabilidad en la segmentación de mercados) Predicción en las respuestas. Servicios financieros (tarjetas de crédito, detección de fraudes, análisis médicos, investigación biomédica)[31] Nota: Estas aplicaciones también se resuelven mediante otras técnicas como son redes o agrupamiento; la diferencia está en como se muestra el resultado ya que los árboles de decisión son mas sencillos de interpretar Desventajas de los árboles de decisión No permite analizar los casos de dominancia. Las reglas de asignación son sensibles a pequeñas perturbaciones en los datos (inestabilidad)

67 Dificultad para elegir el árbol óptimo. Ausencia de una función global de las variables y como consecuencia pérdida de la representación geométrica. Los árboles de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos hoja es significativa. [34] 2.5. Redes Bayesianas Las redes bayesianas proporcionan una representación gráfica para un conjunto de variables aleatorias y para las relaciones existentes entre ellas. El objetivo de es hallar las relaciones de dependencia e independencia entre todas las variables que conforman un dominio de estudio. De ésta manera permite realizar predicciones sobre el comportamiento de cualquiera de las variables desconocidas a partir de los valores de las otras variables conocidas. Un ejemplo muy claro de red bayesiana se observa en la figura 29. Terremoto! Figura 23. Ejemplificación de una red bayesiana

68 Las redes bayesianas trabajan con el teorema de Bayes el cual es ampliamente usado en la teoría de la probabilidad; el teorema es derivado de la fórmula de probabilidad condicional y permite establecer la probabilidad a posteriori de una variable Y, dado un conjunto de eventos X. ( P( X Y ) P( Y ) P * ( Y ) = P( Y X ) = P( X ) Entonces una red bayesiana es un grafo acíclico dirigido (GAD) tal que los nodos representan las variables del problema X = X, X,... X } y los { 1 2 n arcos representan las dependencias probabilísticas, y P = p( X pa( X )),... p( X pa( X ))} es un conjunto de n { 1 1 n n distribuciones de probabilidad condicionada, una para cada variable, siendo pa ( X i ) el conjunto de padres del nodo en el grafo D. Donde además el cálculo de la probabilidad conjunta del problema se obtiene mediante el producto de los elementos, tal que: P( x) = n i = 1 p( x i pa( X i )) Un ejemplo de red bayesiana se presenta en la figura 30. La función de probabilidad conjunta representada en esta red es p ( X 1,..., X 5 ) = p( X 1 X 2, X 5 ) p( X 2 ) p( X 3 X 5 ) p( X 4 X 3, X 5 ) p( X 5 )

69 Figura 24. Red bayesiana. Con las redes bayesianas se hacen predicciones para problemas multiclase, en los cuales hay varios resultados posibles. Por ejemplo, se construye un modelo para averiguar si un cliente en una organización o empresa será fiel o cambiará de proveedores Ejemplo de Redes Bayesianas A la salida de un congreso de 50 personas de 3 universidades distintas (23,18,9) nos encontramos un profesor entonces se desea: a. Probabilidad de que sea de la tercera universidad? b. Y si es de Economía Cuál sería? Se cuenta con la siguiente información: Congreso con 50 personas de 3 universidades (23,18,9) 1ª. 30% Ciencias, 40% de Ingenierías, 25% humanidades y 5% Economía. 2ª.25% Ciencias, 35% Ingenierías, 30% Humanidades y 10% Economía

70 3ª. 20% Ciencias, 50% Ingenierías, 10% Humanidades y 20% Economía. Solución: 9 P( x) = = 0.18 = 18% c. Se calcula la probabilidad a priori: 50 d. Se hace la siguiente tabla ( x = universidad y = especialid ad ) Tabla 5. Tabla de probabilidades del ejemplo. Aplicando Bayes: 3 e 3 * 3 3 e P( x ) P( y x ) P ( x ) = P( x y ) = = e 3 P( x) P( y x ) = = 37.9% Las ventajas de las Redes Bayesianas x Permiten aprender sobre relaciones de dependencia y causalidad. Permiten combinar conocimiento con datos. Evitan el sobre-ajuste de los datos. Mejoran las bases de datos incompletos. Poseen una sólida teoría probabilista que les permite dar una interpretación objetiva.[40] y [41] Desventajas de las Redes Bayesianas Limitación en su rango de aplicaciones

71 Existen problemas de diagnóstico en que las redes no son aplicables debido a que no se conocen aún los mecanismos que intervienen. Necesitan gran cantidad de probabilidades numéricas y la dificultad de los cálculos debido a la presencia de bucles en éstas redes bayesianas.[41] 2.6. Redes Neuronales Una red neuronal es un sistema de procesadores paralelos conectados entre sí en forma de grafo dirigido. Esquemáticamente cada elemento de procesamiento (neuronas) de la red se representa como un nodo. Estas conexiones establecen una estructura jerárquica que tratando de emular la fisiología del cerebro busca nuevos modelos de procesamiento para solucionar problemas concretos del mundo real. Lo importante en el desarrollo de la técnica de las RNA o red neuronal artificial es su útil comportamiento al aprender, reconocer y aplicar relaciones entre objetos y tramas de objetos propios del mundo real.[5] Las entradas se representan por el vector de entrada x, y el rendimiento mediante el vector de pesos w, entonces el valor de salida es dado por: y = f i T ( w x ) = f ( w. x) f ( w x) i i = Donde f es la función de activación. Cuando se tiene una red de neuronas, las salidas de unas se conectan con las entradas de otras. Si el peso entre dos neurona es positivo, el efecto producido es de excitación y si fuera negativo entonces es de inhibición. El potencial de las redes neuronales proviene de la capacidad por proporcionar el empleo de muchas de éstas unidades simples y robustas al actuar en paralelo. En la figura 31 se observa la estructura de una red neuronal

72 Figura 25. Red neuronal. Nótese que cada entrada dirigida a una neurona viene acompañada de un peso (Wi), el cual multiplica el valor de la entrada. La entrada total de la neurona será la suma (u otra operación) de todas ellas al que, en ocasiones, se le suma una constante umbral. En toda red hay dos capas conectadas con el exterior, la capa de entradas que recibe los datos, y la capa de salidas, que devuelve la respuesta de la red. Entre ambas se sitúan una o más capas denominadas ocultas. La capa de entradas tiene la función de distribuir los datos entre la red, por lo que no se suelen contar cuando se habla del número de capas que tiene una red. Las redes neuronales tienen dos fases principales de operación: aprendizaje o entrenamiento, recuerdo o ejecución. Durante el entrenamiento se aplican ejemplos, generalmente un conjunto de datos conocidos que definen una solución conocida, que mediante una regla de aprendizaje modifican los diferentes pesos de cada neurona en función de cómo difiera la respuesta de la red de la solución esperada. Los valores de estos pesos representan el grado de conocimiento. El entrenamiento concluye cuando el margen de error entre la salida de la red y la salida real es aceptable. Después, en la fase de ejecución, se aplican nuevos datos con solución desconocida y se espera que la red esté preparada para dar una solución verdadera con lo aprendido durante el

73 entrenamiento. Generalmente en esta fase cesa el aprendizaje, por lo que no se modifican los pesos. Por ejemplo los ejemplos son fotografías de pacientes con cáncer de pulmón y sanos y la red descubrirá patrones en ellas. Luego, se pasa una nueva foto y se discernir si hay cáncer o no. Unos datos de entrada más comunes podrían ser edad, sexo, peso, altura, color de piel, color de ojos, color de pelo, grupo sanguíneo, y la salida la raza a la que pertenece el sujeto; ó figuras geométrica, bien sea mediante imágenes o las coordenadas de sus puntos y líneas en el plano. Tamaños de hojas, de pétalos, color de flores, y altura del tallo y catalogamos flores. Las posibilidades son infinitas Ejemplo Un ejemplo real de un proyecto de la NASA para controlar fábricas verdes de alimentos vegetales en el espacio, dependiendo de la luz, temperatura, humedad relativa,co2, nutrientes, edad, y tipo, cada planta tiene una diferente tasa de transpiración (agua que libera), allocation (cuota) (porcentaje comestible de biomasa) y la asimilación (índice de fotosíntesis). Representando esto en forma de red, quedaría así: Figura 26. Ejemplo de la aplicación de una red neuronal de control invernadero

74 Con esta información y la ayuda de las redes neuronales, los ingenieros de la NASA están desarrollando un invernadero que regule por sí mismo los diferentes parámetros (agua, temperatura, luz ) para cultivar unas plantas que desarrollen mayores porcentajes comestibles con el menor gasto de recursos posible. Esto, que ya es importante en cierta medida para cualquier agricultor terrestre, se convierte en algo crítico en una misión tripulada de varios años en la que se lleva lo justo Las ventajas de la red neuronal Las redes neuronales tienen muchas ventajas debido a que está basada en la estructura del sistema nervioso, principalmente el cerebro. Aprendizaje: Las redes neuronales tienen la habilidad de aprender mediante una etapa que se llama aprendizaje. Ésta consiste en proporcionar a la red neuronal de datos como entrada a su vez que se le indica cuál es la salida (respuesta) esperada. Esta es una de las principales características de las redes neuronales y es un punto por el cual el usuario elige la técnica entre los algoritmo a usar. Auto organización: Una red neuronal crea su propia representación de la información en su interior, descargando al usuario de esto. Tolerancia a fallos: Debido a que una red almacena la información de forma redundante, ésta sigue respondiendo de manera aceptable aun si se daña parcialmente. Flexibilidad: Una red maneja cambios no importantes en la información de entrada, como señales con ruido u otros cambios en la entrada (por ejemplo, si la información de entrada es la imagen de un objeto, la respuesta correspondiente no sufre cambios si la imagen cambia un poco su brillo o el objeto cambia ligeramente) Se ajusta a nuevos ambientes por aprendizaje, no hay que programarlo

75 Tiempo real: La estructura de una red es paralela, por lo cuál si esto es implementado con computadoras o en dispositivos electrónicos especiales, se obtiene respuestas en tiempo real ya que procesan la información en paralelo. [43], [ 21] Uso y aplicaciones de las redes neuronales Problemas de clasificación y reconocimiento de patrones de voz, imágenes, señales, etcétera. Encontrar patrones de fraude económico. Hacer predicciones en el mercado financiero, del tiempo atmosférico, etcétera. Cuando no existen modelos matemáticos precisos o algoritmos con complejidad. Planeación. Inspección de calidad. [43] Desventajas de las Redes neuronales Falta de hardware o maquinas especiales que trabajen en paralelo (procesar de forma simultánea) para el procesamiento; ya que una de las capacidades de las redes neuronales radica en su habilidad de procesar información en paralelo Los procesos consumen mucho tiempo. Falta de reglas definitorias que ayuden a construir una red para un problema dado. Largos tiempos de entrenamiento. Gran cantidad de datos de entrenamiento. No existe una metodología que indique como resolver un problema específico, es decir, cuantas neuronas utilizar, que datos utilizar, cuantas capas ocultas, etcétera. Dificultad en encontrar las variables óptimas de entrada. No existe garantía de resultados óptimos. [21]

76 2.7. Series de Tiempo Una Serie de tiempo es una secuencia ordenada de valores de una variable en intervalos de tiempo periódicos y consecutivos. Algunas definiciones que se usan en la técnica son: Tendencia: es un patrón de comportamiento de los elementos de un entorno particular durante un periodo de tiempo. Si los datos muestran una tendencia, se ajustan estos con algún tipo de curva o recta y modelar los residuales. Como el propósito del ajuste es simplemente remover la tendencia a largo plazo, una línea recta es suficiente. Datos con tendencia Removiendo la tendencia a largo plazo, los residuales quedan como sigue: Figura 27. Ejemplo de eliminación de tendencias, en la primera gráfica se observa la concentración de C02 a lo largo del tiempo y en la segunda gráfica se observa la concentración por residuales eliminando la tendencia con una línea recta. Estacionalidad: son fluctuaciones periódicas, por ejemplo cuando hay picos de ventas en la navidad y después declinan. La serie de tiempo de ventas mostrará un incremento durante septiembre a diciembre y una declinación durante enero y febrero

77 Para detectar la estacionalidad se utilizan diferentes métodos gráficos donde se observe la estacionalidad en el tiempo: Gráfica de valores contra el tiempo, donde se observa la estacionalidad Diagramas de caja múltiples Gráfica de comportamiento anual Gráfica de subserie Figura 28. Gráficas donde se observa la estacionalidad Un supuesto en muchas técnicas de series de tiempo es que los datos son estacionarios, donde su media, variancia y autocorrelación no cambia en el tiempo, tampoco se presentan patrones de estacionalidad, sin embargo en la práctica algunas veces si se presentan estos patrones de tendencia y de estacionalidad y es necesario contar con modelos que las consideren

78 Para comparar la efectividad de diferentes modelos utilizados existen ciertos indicadores como son: MAPE, MAD y MSD. MAPE: es el porcentaje promedio absoluto de error, mide la exactitud de los valores estimados de la serie de tiempo. La exactitud se expresa como un porcentaje con número de observaciones. y t igual al valor observado, ŷ t es el valor estimado y n el MAPE Λ ( y t y t )/ y t = x100 ( y t 0) n MAD: Desviación media absoluta, mide la exactitud de los valores estimados de la serie de tiempo. Expresa la exactitud en las mismas unidades de los datos. n y t y t t = MAD = 1 n Λ MSD: Desviación cuadrática media, es más sensible a errores anormales de pronóstico que el MAD. MSD n t = = 1 y t y n Λ t 2 Se busca el valor menor en estos ya que representa un mejor ajuste del modelo Métodos de series de tiempo Los métodos de series de tiempo incluyen métodos de pronóstico y de suavizamiento simples, métodos de análisis de correlación y métodos de Box Jenkins ARIMA

79 Promedio móvil: Un promedio móvil se construye sustituyendo cada valor de una serie por la media obtenida con esa observación y algunos de los valores inmediatamente anteriores y posteriores. Se mostrará este método con los siguientes ejemplos: Ejemplo 1. Aplicar el método de promedios móviles para el pronóstico de ventas de gasolina a partir de la siguiente información: Tabla 6. Resumen de cálculos para promedios móviles de tres semanas. Se considerará el promedio móvil a partir de las tres observaciones más recientes. En este caso se utilizará la siguiente ecuación: Los promedios móviles también se construyen tomando en cuenta valores adyacentes de las observaciones, por ejemplo: En el caso de determinar el promedio móvil para tres observaciones adyacentes de la tabla anterior, se tiene:

80 Tabla 7.Promedios móviles de tres semanas. Promedios móviles ponderados: Para mostrar el uso de éste método, se utilizará la primera parte del ejemplo anterior de la venta de gasolina. El método consiste en asignar un factor de ponderación distinto para cada dato. Generalmente, a la observación o dato más reciente a partir del que se quiere hacer el pronóstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos más antiguos. En este caso, para pronosticar las ventas de la cuarta semana, el cálculo se realizaría de la siguiente manera: pronóstico _ cuarta _ semana = (17) + (21) + (19) = galones Se observa que el dato más alejado (correspondiente a la primera semana) tiene el factor de ponderación más pequeño, el siguiente tiene un factor de ponderación del doble que el primero y el dato más reciente (que corresponde a la tercera semana) tiene un factor de ponderación del triple del primero. Los pronósticos para las diversas semanas se presentan en la siguiente tabla. En todos los casos, la suma de los factores de ponderación es igual a uno

81 Tabla 8.Pronósticos de la i-ésima semana. Suavizamiento exponencial: El suavizamiento exponencial emplea un promedio ponderado de la serie de tiempo pasada como pronóstico; es un caso especial del método de promedios móviles ponderados en el cual sólo se selecciona un peso o factor de ponderación: el de la observación más reciente. En la práctica comenzamos haciendo que F1, el primer valor de la serie de valores uniformados, sea igual a Y1, que es el primer valor real de la serie. El modelo básico de suavizamiento exponencial es el siguiente: t + 1 = αyt + (1 α F ) F t Donde Ft +1 Es el pronóstico de la serie de tiempo para el periodo t+1 Yt Es el valor real de la serie de tiempo en el periodo t Ft es el pronostico de la serie de tiempo para el periodo t

82 α es la constante de suavizamiento, 1 0 α Por tanto, el pronóstico para el periodo dos se calcula de la siguiente manera: ) (1 ) (1 Y F Y Y F F Y F t t t t = + = + = α α α α Como se observa, el pronóstico para el período 2 con suavizamiento exponencial es igual al valor real de la serie de tiempo en el período uno. Para el período 3, se tiene que: ) (1 ) (1 Y Y F F Y F α α α α + = + = Para el período 4, se tiene que: ) (1 ) (1 ] ) (1 )[ (1 ) (1 Y Y Y F Y Y Y F Y F α α α α α α α α α α + + = + + = + = Para mostrar el método de suavizamiento exponencial, retomamos el ejemplo de la gasolina, utilizando como constante de suavizamiento 2 = 0. α Tabla 9.Pronósticos con la formula de suavizamiento exponencial.

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

INTELIGENCIA EN REDES DE COMUNICACIONES

INTELIGENCIA EN REDES DE COMUNICACIONES INTELIGENCIA EN REDES DE COMUNICACIONES MINERÍA DE DATOS EN EL DEPORTE PROFESIONAL Jorge Carrasco Troitiño NIA 100029724 Grupo 91-5 Ingeniería Superior de Telecomunicación INTRODUCCIÓN: Las técnicas de

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

DE VIDA PARA EL DESARROLLO DE SISTEMAS

DE VIDA PARA EL DESARROLLO DE SISTEMAS MÉTODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS 1. METODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS CICLO DE VIDA CLÁSICO DEL DESARROLLO DE SISTEMAS. El desarrollo de Sistemas, un proceso

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

CMMI (Capability Maturity Model Integrated)

CMMI (Capability Maturity Model Integrated) CMMI (Capability Maturity Model Integrated) El SEI (software engineering institute) a mediados de los 80 desarrolló el CMM (modelo de madurez de la capacidad de software). CMMI: CMM integrado, una mezcla

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

Metodología básica de gestión de proyectos. Octubre de 2003

Metodología básica de gestión de proyectos. Octubre de 2003 Metodología básica de gestión de proyectos Octubre de 2003 Dentro de la metodología utilizada en la gestión de proyectos el desarrollo de éstos se estructura en tres fases diferenciadas: Fase de Éjecución

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas 1 INTRODUCCIÓN. Una visión global del proceso de creación de empresas Cuando se analiza desde una perspectiva integral el proceso de

Más detalles

3.1 Qué es la investigación de mercados?

3.1 Qué es la investigación de mercados? 3.1 Qué es la investigación de mercados? La investigación de mercados es la función que enlaza al consumidor, al cliente y al público con el comercializador a través de la información. Esta información

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS 2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS Objetivo específico: El alumno conocerá la importancia de la investigación en psicología industrial/organizacional, su proceso y limitaciones. Asimismo entenderá

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS

GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS A. Introducción La evaluación de un programa supone la colección sistemática de datos y el análisis e interpretación de los mismos, con el propósito de determinar

Más detalles

Mantenimiento de Sistemas de Información

Mantenimiento de Sistemas de Información de Sistemas de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ACTIVIDAD MSI 1: REGISTRO DE LA PETICIÓN...4 Tarea MSI 1.1: Registro de la Petición... 4 Tarea MSI 1.2: Asignación de la Petición... 5 ACTIVIDAD

Más detalles

Es de aplicación a todas aquellas situaciones en las que se necesita desplegar un objetivo para obtener una visión clara de cómo debe ser alcanzado.

Es de aplicación a todas aquellas situaciones en las que se necesita desplegar un objetivo para obtener una visión clara de cómo debe ser alcanzado. DIAGRAMA DE AÁRBOL 1.- INTRODUCCIÓN Este documento describe el proceso de construcción de un Diagrama de Árbol, mediante el cual se dispone de una metodología simple y sistemática para la identificación

Más detalles

Normas chilenas de la serie ISO 9000

Normas chilenas de la serie ISO 9000 Normas chilenas de la serie ISO 9000 Hernán Pavez G. Director Ejecutivo del Instituto Nacional de Normalización, INN, Matías Cousiño N 64, 6 Piso, Santiago, Chile. RESUMEN: en nuestro país las empresas

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

Capitulo 3: Metodología de Investigación.

Capitulo 3: Metodología de Investigación. Capitulo 3: Metodología de Investigación. 3.1 Introducción. Con el propósito de describir el sector económico en el cual se pretende incursionar y ayude para una correcta realización del plan de negocios

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

Empresa de telefonía celular: Transintelcel

Empresa de telefonía celular: Transintelcel Empresa de telefonía celular: Transintelcel El proceso metodológico de esta investigación de mercados está dividido en las siguientes etapas: 1. Datos generales de la empresa 2. Planteamiento del problema

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación

Más detalles

NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALÍTICOS

NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALÍTICOS NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALÍTICOS (NIA-ES 520) (adaptada para su aplicación en España mediante Resolución del Instituto de Contabilidad y Auditoría de Cuentas, de 15 de octubre

Más detalles

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES ANEXO : PERFILES Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES ANEXO: PERFILES. 3 1. REQUISITOS ANTES DE TENER EL SITIO WEB. 4 1.1 TOMA DE REQUISITOS. 4 1.2 ANÁLISIS

Más detalles

Diseño de un estudio de investigación de mercados

Diseño de un estudio de investigación de mercados Diseño de un estudio de investigación de mercados En cualquier diseño de un proyecto de investigación de mercados, es necesario especificar varios elementos como las fuentes a utilizar, la metodología,

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología La metodología para el desarrollo de software es un modo sistemático de realizar, gestionar y administrar un proyecto

Más detalles

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008 Estándares para planes de calidad de software Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008 DIFERENCIA ENTRE PRODUCIR UNA FUNCION Y PRODUCIR UNA FUNCION

Más detalles

SÍNTESIS Y PERSPECTIVAS

SÍNTESIS Y PERSPECTIVAS SÍNTESIS Y PERSPECTIVAS Los invitamos a observar, a identificar problemas, pero al mismo tiempo a buscar oportunidades de mejoras en sus empresas. REVISIÓN DE CONCEPTOS. Esta es la última clase del curso.

Más detalles

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software Hugo F. Arboleda Jiménez. MSc. Docente-Investigador, Facultad de Ingenierías, Universidad de San

Más detalles

PREPARADO POR: FECHA DE EMISIÓN: 20-05-05 FECHA DE VALIDACIÓN: 20-05-05

PREPARADO POR: FECHA DE EMISIÓN: 20-05-05 FECHA DE VALIDACIÓN: 20-05-05 3. MONITORÍA Y EVALUACIÓN DE LA GESTIÓN SS-UPEG-3 PREPARADO POR: EQUIPO CONSULTOR FECHA DE EMISIÓN: 20-05-05 FECHA DE VALIDACIÓN: 20-05-05 VERSIÓN Nº: 1 Secretaría de Salud de Honduras - 2005 PÁGINA 2

Más detalles

0. Introducción. 0.1. Antecedentes

0. Introducción. 0.1. Antecedentes ISO 14001:2015 0. Introducción 0.1. Antecedentes Conseguir el equilibrio entre el medio ambiente, la sociedad y la economía está considerado como algo esencial para satisfacer las necesidades del presente

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

-OPS/CEPIS/01.61(AIRE) Original: español Página 11 5. Estructura del programa de evaluación con personal externo

-OPS/CEPIS/01.61(AIRE) Original: español Página 11 5. Estructura del programa de evaluación con personal externo Página 11 5. Estructura del programa de evaluación con personal externo 5.1 Introducción Esta sección presenta la estructura del programa de evaluación con personal externo. Describe las funciones y responsabilidades

Más detalles

CAPITULO III A. GENERALIDADES

CAPITULO III A. GENERALIDADES CAPITULO III INVESTIGACION DE CAMPO SOBRE EL DISEÑO DE UN SISTEMA AUTOMATIZADO DE CONTROL INVENTARIO Y EXPEDIENTES DE MENORES DE EDAD PARA EL CENTRO DE DESARROLLO INTEGRAL LA TIENDONA EN LA ZONA METROPOLITANA

Más detalles

I.S.C. E.D. M.E. Ricardo Bustamante González

I.S.C. E.D. M.E. Ricardo Bustamante González INSTITUTO TECNOLOGICO SUPERIOR DE LERDO LICENCIATURA EN INFORMATICA TOPICOS AVANZADOS Ejemplos de la implementación de la minería de datos en el mundo real BRENDA CAROLINA PEREZ IBARRA 06230255 I.S.C.

Más detalles

Boletín de Asesoría Gerencial* Modelo Credit Scoring: Un paso hacia una gestión diferenciada y eficiente del riesgo de crédito

Boletín de Asesoría Gerencial* Modelo Credit Scoring: Un paso hacia una gestión diferenciada y eficiente del riesgo de crédito Espiñeira, Sheldon y Asociados No. 22-2008 *connectedthinking Contenido Haga click en los enlaces para navegar a través del documento Haga click en los enlaces para llegar directamente a cada sección 4

Más detalles

IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO) IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO) Introducción 1. Como se indica en la Norma Internacional de Auditoría 401, "Auditoría en un contexto informatizado", los objetivos globales

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

NORMA INTERNACIONAL DE AUDITORÍA 520

NORMA INTERNACIONAL DE AUDITORÍA 520 NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALíTICOS (En vigor para auditorías de estados financieros por periodos que comiencen en, o después del, 15 de diciembre de 2004)* CONTENIDO Párrafo

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

SISTEMAS Y MANUALES DE LA CALIDAD

SISTEMAS Y MANUALES DE LA CALIDAD SISTEMAS Y MANUALES DE LA CALIDAD NORMATIVAS SOBRE SISTEMAS DE CALIDAD Introducción La experiencia de algunos sectores industriales que por las características particulares de sus productos tenían necesidad

Más detalles

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN 3.3 Aplicaciones Definición de Aplicación (Application). Programa informático que permite a un usuario utilizar una computadora con un fin específico. Las

Más detalles

Empresa Financiera Herramientas de SW Servicios

Empresa Financiera Herramientas de SW Servicios Empresa Financiera Herramientas de SW Servicios Resulta importante mencionar que ésta es una empresa cuya actividad principal está enfocada a satisfacer las necesidades financieras de los clientes, a través

Más detalles

SIC 32 Activos Intangibles Costos de Sitios Web

SIC 32 Activos Intangibles Costos de Sitios Web SIC 32 Activos Intangibles Costos de Sitios Web La Interpretación SIC-32 Activos Intangibles Costos de Sitios Web se encuentra en los párrafos 7 a 10. La SIC-32 viene acompañada de Fundamentos de las Conclusiones

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión) ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB (Modificada en 2008) (IV Difusión) Interpretación SIC-32 Activos Intangibles - Costos de Sitios Web Referencias

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE MARZO 2007 Este documento contesta las preguntas más frecuentes que se plantean las organizaciones que quieren

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos ANEXO VI. Mejores prácticas para el éxito de un sistema de información Uno de los problemas de información dentro de las empresas es contar con datos importantes del negocio y que éstos estén aislados

Más detalles

Sistemas de Gestión de Calidad. Control documental

Sistemas de Gestión de Calidad. Control documental 4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4

Más detalles

LOGISTICA D E COMPRAS

LOGISTICA D E COMPRAS LOGISTICA D E COMPRAS 1. - Concepto de compras OBTENER EL (LOS) PRODUCTO(S) O SERVICIO(S) DE LA CALIDAD ADECUADA, CON EL PRECIO JUSTO, EN EL TIEMPO INDICADO Y EN EL LUGAR PRECISO. Muchas empresas manejan

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Introducción Aunque la estrategia de adquisiciones que Oracle ha seguido en los últimos años siempre ha buscado complementar y fortalecer nuestra oferta

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores Martha Alicia Alles Es contadora pública nacional, doctora por la Universidad de Buenos Aires en la especialidad

Más detalles

MUESTREO TIPOS DE MUESTREO

MUESTREO TIPOS DE MUESTREO MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

MEDICION DEL TRABAJO

MEDICION DEL TRABAJO MEDICION DEL TRABAJO Habíamos dicho al comenzar el curso que habían 4 técnicas que permiten realizar una medición del trabajo 1 Técnicas Directas: - Estudio de tiempos con cronómetro - Muestreo del trabajo

Más detalles

Proyecto Fin de Carrera

Proyecto Fin de Carrera Proyecto Fin de Carrera Gestión del Proyecto para una Plataforma online de intercambio, compra o venta de ayudas técnicas. Consultora: Ana Cristina Domingo Troncho Autor: Álvaro Fanego Lobo Junio de 2013

Más detalles

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Metodología Evolutiva Incremental Mediante Prototipo y Técnicas Orientada a Objeto (MEI/P-OO)

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

CAPITULO III MARCO METODOLÓGICO. Desde la perspectiva de Hurtado de Barrera (2008), el tipo de

CAPITULO III MARCO METODOLÓGICO. Desde la perspectiva de Hurtado de Barrera (2008), el tipo de CAPITULO III MARCO METODOLÓGICO 1. TIPO DE INVESTIGACIÓN Desde la perspectiva de Hurtado de Barrera (2008), el tipo de investigación que propone soluciones a una situación determinada a partir de un proceso

Más detalles

Seguimiento y evaluación

Seguimiento y evaluación Seguimiento y evaluación Por qué es necesario contar con herramientas para el seguimiento y la evaluación? Es la manera en que se puede evaluar la calidad e impacto del trabajo en relación con el plan

Más detalles

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS Administración Nacional de Universidad de la República Educación Pública Facultad de Ingenieria CF Res..0.07 Consejo Directivo Central Consejo Directivo Central Res..05.07 Res. 17.0.07 TECNÓLOGO EN INFORMÁTICA

Más detalles

GUÍA PARA SISTEMAS DE RASTREABILIDAD

GUÍA PARA SISTEMAS DE RASTREABILIDAD REQUISITOS GENERALES Y RECOMENDACIONES PARA IMPLEMENTAR RASTREABILIDAD DE ALIMENTOS AGROPECUARIOS PRIMARIOS Y PIENSOS 1 CAMPO DE APLICACIÓN Esta guía específica los requisitos mínimos que debe cumplir

Más detalles

GUÍA PARA LAS FAMILIAS

GUÍA PARA LAS FAMILIAS GUÍA PARA LAS FAMILIAS Para Obtener Asistencia Financiera Hacer de la educación independiente una realidad. Usted ha tomado la decisión de invertir en una educación independiente para su hijo. La educación

Más detalles

Analizaremos cada una detalladamente, con sus respectivos conceptos, etapas y principios.

Analizaremos cada una detalladamente, con sus respectivos conceptos, etapas y principios. EL PROCESO ADMINISTRATIVO 1) CONCEPTO DE PROCESO ADMINISTRATIVO El proceso administrativo es un conjunto de fases o etapas sucesivas a través de las cuales se efectúa la admón. Mismas que se interrelacionan

Más detalles

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN PROPUESTA: CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN Cómo sabemos cada día las empresas se enfrentan a un mundo globalizado, con retos empresariales,

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Versión final 8 de junio de 2009

Versión final 8 de junio de 2009 GRUPO DE EXPERTOS «PLATAFORMA PARA LA CONSERVACIÓN DE DATOS ELECTRÓNICOS PARA CON FINES DE INVESTIGACIÓN, DETECCIÓN Y ENJUICIAMIENTO DE DELITOS GRAVES» ESTABLECIDO POR LA DECISIÓN 2008/324/CE DE LA COMISIÓN

Más detalles

Enfoque del Marco Lógico (EML)

Enfoque del Marco Lógico (EML) Enfoque del Marco Lógico (EML) Qué es el EML? Es una herramienta analítica que se utiliza para la mejorar la planificación y la gestión de proyectos tanto de cooperación al desarrollo como de proyectos

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

Desarrollo de la estrategia a seguir para. un Sistema de Gestión de la Energía. Instalaciones Industriales

Desarrollo de la estrategia a seguir para. un Sistema de Gestión de la Energía. Instalaciones Industriales Desarrollo de la estrategia a seguir para un Sistema de Gestión de la Energía Instalaciones Industriales Noviembre 2014 Contenido 1. Introducción 2. Antecedentes 3. Potencial de mejora energética de los

Más detalles

GUÍA PARA LAS FAMILIAS To Para Obtener Asistencia Financiera

GUÍA PARA LAS FAMILIAS To Para Obtener Asistencia Financiera GUÍA PARA LAS FAMILIAS To Para Obtener Asistencia Financiera sss.nais.org/parents GUÍA PARA LAS FAMILIAS Para obtener asistencia financiera Haciendo que la educación independiente sea una realidad. Usted

Más detalles

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE 3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE Software Configuration Management (SCM) es una disciplina de la Ingeniería de Software que se preocupa de [Ber92] [Ber84] [Bou98] [Mik97]: Identificar y documentar

Más detalles

7. Conclusiones. 7.1 Resultados

7. Conclusiones. 7.1 Resultados 7. Conclusiones Una de las preguntas iniciales de este proyecto fue : Cuál es la importancia de resolver problemas NP-Completos?. Puede concluirse que el PAV como problema NP- Completo permite comprobar

Más detalles

UNIDAD I INTRODUCCIÓN. Funciones y aplicaciones de la estadística

UNIDAD I INTRODUCCIÓN. Funciones y aplicaciones de la estadística UNIDAD I INTRODUCCIÓN Funciones y aplicaciones de la estadística 1 INTRODUCCIÓN Hay varias razones por las que el alcance de la estadística y la necesidad de estudiar la estadística han crecido de manera

Más detalles

2.2. LA COMPRA. TOMA DE DECISIONES DEL CLIENTE.

2.2. LA COMPRA. TOMA DE DECISIONES DEL CLIENTE. 2.2. LA COMPRA. TOMA DE DECISIONES DEL CLIENTE. En este epígrafe abordaremos el estudio del comportamiento de compra del consumidor, para ello tendremos que estudiar tanto las distintas situaciones de

Más detalles

Plan de Estudios Maestría en Marketing

Plan de Estudios Maestría en Marketing Plan de Estudios CONTENIDOS 1) Presentación 5) Objetivos 2) Requisitos 6) Cursos Obligatorios 3) Plan de Estudios / Duración 7) Cursos Sugeridos 4) Tabla de Créditos 1) Presentación Su programa de Maestría

Más detalles

forma de entrenar a la nuerona en su aprendizaje.

forma de entrenar a la nuerona en su aprendizaje. Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo

Más detalles

de la empresa Al finalizar la unidad, el alumno:

de la empresa Al finalizar la unidad, el alumno: de la empresa Al finalizar la unidad, el alumno: Identificará el concepto de rentabilidad. Identificará cómo afecta a una empresa la rentabilidad. Evaluará la rentabilidad de una empresa, mediante la aplicación

Más detalles

NORMA INTERNACIONAL DE AUDITORÍA 501

NORMA INTERNACIONAL DE AUDITORÍA 501 NORMA INTERNACIONAL DE AUDITORÍA 501 EVIDENCIA DE AUDITORÍA-CONSIDERACIONES ADICIONALES PARA PARTIDAD ESPECÍFICAS (En vigor para auditorías de estados financieros por periodos que comiencen en o después

Más detalles