DATA MINING EN ECONOMÍA. UNA APLICACIÓN AL COMERCIO EXTERIOR.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "DATA MINING EN ECONOMÍA. UNA APLICACIÓN AL COMERCIO EXTERIOR."

Transcripción

1 DATA MINING EN ECONOMÍA. UNA APLICACIÓN AL COMERCIO EXTERIOR. Mauricio BELTRÁN PASCUAL Junta de Castilla y León, Consejería de Hacienda, D.G. de Estadística Catalina BOLANCÉ LOSILLA Departamento de Econometría, estadística y economía española; Facultad de Ciencias Económicas y Empresariales. Universidad de Barcelona Alex COSTA SÁENZ DE SAN PEDRO Responsable de Área de Estadísticas Económicas Instituto de Estadística de Catalunya Montserrat GUILLEN ESTANY Departamento de Econometría, Estadística y Economía Española Universidad de Barcelona Resumen: En la sociedad actual, que muchos han denominado sociedad de la información, se genera una ingente cantidad de datos que no siempre pueden tratarse a través de métodos estadísticos convencionales. Las técnicas y algoritmos incluidos en Data Mining (minería de datos) tienen como objetivo descubrir estructuras subyacentes en los datos y detectar patrones, perfiles y tendencias significativas ocultas en los mismos. El Data Mining, en el ámbito de los negocios, responde a múltiples preguntas, como por ejemplo: quiénes son mis mejores clientes, cómo aumentar la cuota de mercado o cómo conseguir clientes fieles. En este trabajo se precisa el concepto de Data Mining y sus aplicaciones en el campo económico. También se ofrece una breve descripción de las principales técnicas que se engloban en Data Mining: reglas de asociación, redes neuronales, árboles de decisión, algoritmos genéticos, etcétera. Por último, aplicando el algoritmo a priori a datos de comercio exterior se obtienen diferentes reglas de asociación entre distintos productos. La importancia comercial de estas asociaciones de productos es muy interesante en el sentido de que, al poderse establecer en qué países se están produciendo estas asociaciones y en qué países no, se está en condiciones de mejorar las estrategias comerciales lo que, sin duda, implicará un aumento de las exportaciones. 1. Conceptos y definiciones de Data Mining. La gran cantidad de datos que se crean en las actividades que desarrollamos como seres humanos se encuentran almacenados en grandes bases datos y se multiplican rápidamente. Esto es cierto para casi todos los sectores de la actividad pero, aún es más cierto, en las empresas tanto públicas como privadas, locales o multinacionales. Sin embargo, se puede afirmar que este incremento espectacular de datos almacenados no ha supuesto un significativo aumento de la información disponible para la empresa (el bosque no deja ver los árboles) ni, en general, se ha traducido en un incremento de la rentabilidad de las compañías. 1

2 Con el objetivo de optimizar todo el conocimiento existente en la información disponible, hay que utilizar un conjunto de técnicas que se han resumido en la literatura en el concepto de minería de datos o Data Mining. El término Data Mining engloba un conjunto de algoritmos con un objetivo común, identificar de una forma automática patrones que proporcionen información relevante y útil contenida en una gran cantidad de datos. La minería de datos es una parte de un proceso más general que se denomina Descubrimiento de conocimiento en las bases de datos (Knowledge Discovery in Databases o KDD), concepto que proviene de la inteligencia artificial, si bien, en la mayor parte de la bibliografía sobre el tema el concepto de Data Mining toma el significado global del proceso. Una definición más general de la minería de datos es referirse a ella como la extracción no trivial de la información implícita, previamente desconocida y potencialmente útil, a partir de los datos. El Data Mining siempre intenta descubrir los patrones, perfiles y tendencias presentes y significativas ocultas en los datos trabajando con tecnologías de reconocimientos de patrones, como las redes neuronales, máquinas de aprendizaje, algoritmos genéticos, etcétera. El Data Mining puede dar respuesta a múltiples preguntas vitales que se plantean muy a menudo en los negocios: quiénes son mis mejores clientes y cómo puedo fidelizarlos?, qué estrategias puedo diseñar para aumentar mi cuota de mercado?, cómo optimizar mi inventario?, quiénes son los visitantes de mi sitio Web?, y otras muchas más preguntas importantes relativas al mundo de la gestión empresarial. La relaciones del Data Mining con la estadística, la inteligencia artificial y las bases de datos son evidentes. Muchos de sus algoritmos, procedimientos, técnicas y metodología son iguales en esencia, aunque, muchas veces, se denominen con otros nombres. No obstante, el Data Mining presenta características útiles e interesantes que lo hacen atractivo. De forma general, se puede afirmar que para la resolución de problemas, muy a menudo complejos, se utilizan varios procedimientos dada la complementariedad de las técnicas en la solución de los mismos. La importancia del Data Mining se pone de manifiesto al echar un vistazo, desde varias perspectivas, a los movimientos que se observan. Desde que se celebró el primer congreso dedicado a este campo del conocimiento en 1995, en Montreal (Canadá) con el nombre The First International Conference on Knowledge Discovery and Data Mining, han aumentado las reuniones internacionales y se han promovido nuevas conferencias que muestran el increíble auge que está teniendo esta filosofía de trabajo. Por otra parte, la proliferación de paquetes de software informático estadístico por parte de las principales casa comerciales: SAS, SPSS, ORACLE, IBM, MATHWORK Y MICROSOFT, principalmente, han impulsado la utilización de las técnicas que se engloban en Data Mining. También existen múltiples recursos gratuitos en la red. Otros hechos significativos que se pueden observar son: la proliferación de páginas Web, el incremento en el número de artículos y de revistas que tratan estos temas, la incorporación de algunas de las técnicas de Data Mining en algunos manuales de estadística multivariante, un mayor número de tesis doctorales que resuelven problemas utilizando las técnicas que promueve el Data Mining y la proliferación de cursos de postgrado y masters relacionados con esta disciplina, entre otros hechos, que indican la utilidad del Data Mining. 2. Aplicaciones en Economía. Entre los usuarios más destacados del Data Mining están los bancos y otros agentes financieros y las grandes empresas, en especial las industrias de telecomunicaciones, pero el conjunto de sectores que utiliza estas herramientas es muy amplio. Las áreas donde se han desarrollado diferentes técnicas son muchas: ventas e ingresos, gestión de abandonos, (deslealtad), procedimientos de reclamaciones, análisis de impagos, marketing relacional y dirigido, perfilados de clientes, retención de clientes, comercio electrónico, detección del fraude, análisis de la cesta de la compra, desarrollo de nuevos productos, control de procesos, control de calidad, gestión de almacén (merchandansing), etcétera. 2

3 A continuación, se ofrecen unas breves pinceladas para describir someramente los trabajos más significativos y los problemas que se han abordado a través de las técnicas y herramientas empleadas en Data Mining. En relación al marketing y su tarea de clasificar y entender los diversos aspectos del nuevo consumidor podemos afirmar que cada vez es más compleja. Seleccionar el mercado y segmentarlo es una ardua tarea. Se han aplicado con éxito las reglas de asociación, los árboles de decisión y clasificación, así como las redes neuronales y otras técnicas en la segmentación de mercados para detectar tendencias de abandono de clientes, en el descubrimiento de transacciones fraudulentas, en el análisis de la cesta de la compra para determinar los patrones de comportamiento, en la búsqueda de perfiles de clientes, en el análisis de la pérdida de clientes, etcétera. En los últimos años se ha desarrollado el concepto de CRM (Customer Relationship Management, Gestión de la Relación con el Cliente), tanto en su forma analítica como operacional. El Data Mining optimiza y se integra en el sistema de CRM aumentando el beneficio de las compañías que lo implementan. Respecto a los temas de predicción de variables económicas, son casi ya innumerables los investigadores que han utilizado las redes neuronales para compararlas con otros métodos de predicción, generalmente los modelos ARIMA, consiguiendo excelentes resultados. Entre otros trabajos podemos citar a Serrano y Martín del Brío (1993), Pacheco y Delgado (1990), Otero y Trujillo (1993) y Palmer et al. (2003). Los análisis de solvencia se han estudiado siguiendo dos caminos. Uno, a través de aproximaciones simbólico/algorítmicas simulando el razonamiento lógico, siendo los métodos más utilizados los algoritmos de inducción de reglas y los árboles de decisión. La otra vía de investigación se ha dirigido a intentar reproducir el comportamiento de la vida biológica, creando estructuras que se organizan y aprenden. Desde esta perspectiva, las redes neuronales y los algoritmos genéticos aportan excelentes resultados. El prototipo de arquitectura de la red neuronal artificial más empleado para determinar la salud financiera de las empresas es el perceptrón multicapa. Estos sistemas expertos, según diversos autores, son adecuados para estudiar los múltiples aspectos implicados en la solvencia empresarial: evaluación de la gestión de la empresa, vigilancia de la situación financiera, relación de la empresa con su entorno, etcétera. El estudio de las quiebras empresariales ha sido ampliamente tratado y se pueden encontrar excelentes trabajos. Estos estudios se basan en la aplicación de diversas arquitecturas de redes neuronales utilizando un conjunto de ratios contables que caracterizan la actividad económica de las empresas: ratios de liquidez, de autofinanciación de la empresa, de beneficio, de ventas y de cash flow. Puede ampliarse esta información en Laffarga, Martín y Vázquez (1986), Mar Molinero y Serrano (2001), Serrano (1997) y Elorduy Trifoll (2001). Otros trabajos aparecidos en la literatura económica, o que están en proyecto, van encaminados al estudio de los comportamientos en los mercados financieros. Reseñamos, entre varios trabajos, dos estudios: la predicción de estos mercados en el corto plazo a través del IBEX -35 (Aragón et al., 1997 y García Estévez, 2002). También se han llevado a cabo trabajos de predicción del rendimiento de carteras mediante redes neuronales (García Estévez, 2002). Los sistemas expertos antes aludidos, especialmente las redes neuronales artificiales, de las que se nutre el Data Mining, también se han aplicado a otros campos de la economía como por ejemplo a problemas de transporte (Masson y Wang, 1990), a la aproximación de funciones de producción (Joerding et al., 1994) y a la planificación de la producción (Sastri, 1994). 3. Técnicas, métodos y algoritmos utilizados en Data Miming. Las técnicas de Data Mining están muy extendidas en la solución de problemas de predicción y clasificación de datos. El proceso de Data Mining puede ser desglosado en varias fases. Una primera prepara y analiza los datos, la segunda se corresponde con la modelización y 3

4 contrastación de modelos alternativos, la tercera evalúa el modelo óptimo y la cuarta se corresponde con la generalización del mismo. Diversas casas comerciales han presentado metodologías para el desarrollo del Data Mining. Una de las más conocidas es la metodología, CRISP-DM (Cross Industry Standard Process for Data Mining). El CRISP-DM es un proyecto fundado por la Comisión Europea en colaboración con varias empresas (SPSS, Daimler Bentz, etc..). Define un modelo universal para aplicar proyectos de Data Mining (algo parecido a un AENOR para el Data Mining). También la empresa SAS ofrece su proceso metodológico de aplicación de Data Mining (SEMMA) que, en este caso, está constituido por cinco etapas: muestreo (Sampling), exploración (Exploration), modificación (Modification), modelado (Modeling), evaluación (Assessment). El conjunto de problemas que aborda el Data Mining se pueden solucionar con diversas técnicas que se agrupan en los siguientes seis grandes grupos: Técnicas descriptivas, resúmenes e informes, segmentación, descripción de conceptos y clases, clasificación, predicción y análisis de dependencia. A continuación, y a modo de resumen, se enumeran las técnicas más habituales que se utilizan en Data Mining, algunas de las cuales se describirán posteriormente: Descripción de los datos del Data Mining Resúmenes y gráficos Clustering Análisis de enlaces Predicción Data Mining Reglas de asociación Clasificación Regresión Series temporales Modelos de Data Mining y algoritmos Redes neuronales Árboles de decisión Regresión multivariante adaptativa (Sistema Bayesiano) Inducción de reglas K-nearest neighbor and memory-based reasoning (MBR) (Cluster) Regresión logística Análisis discriminante Modelos generalizados aditivos (Modelo ANOVA) Boosting Métodos de búsqueda aleatoria: Algoritmos genéticos, algoritmos evolutivos y el recocido simulado. Como se ha puesto de manifiesto en el apartado anterior existen múltiples técnicas relacionadas con la minería de datos. En este trabajo se describen brevemente cuatro técnicas ampliamente utilizadas: los árboles de decisión, dos modelos de redes neuronales, los algoritmos genéticos y las reglas de asociación. Para el caso de la obtención de reglas de asociación entre productos se realiza una descripción más detallada, en concreto, se describe el algoritmo utilizado, el cual se denomina a priori, además, se ilustra su aplicación con un ejemplo aplicado al comercio exterior. Árboles de decisión Los árboles de decisión son particiones secuenciales de un conjunto de datos que maximizan las diferencias de la variable dependiente. Ofrecen una forma concisa de definir grupos que son consistentes en sus atributos pero que varían en términos de la variable dependiente. Esta herramienta puede emplearse tanto para la resolución de problemas de clasificación como de regresión: árboles de clasificación y árboles de regresión. 4

5 Mediante esta técnica se representan de forma gráfica un conjunto de reglas sobre las decisiones que se deben de tener en cuenta para asignar un determinado elemento a una clase (valor de salida). En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores de la variable de entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de un árbol de decisión se tiene el llamado nodo raíz que va a representar a la variable de mayor relevancia en el proceso de clasificación. Los múltiples algoritmos de los que se dispone, o bien solos o bien integrados en diferentes paquetes informáticos, son los que determinan o generan el procedimiento de cálculo que establece el orden de importancia de las variables en cada interacción. También se pueden imponer ciertas limitaciones en el número de ramas en que se divide cada nodo. Los algoritmos más utilizados son los siguientes: CART, acrónimo de Classification And Regression Trees (Árboles de decisión y de regresión), CHAID, acrónimo de Chi-squared Automatic Interaction Detection (detector automático de interacciones mediante Ji cuadrado), QUEST, que al igual que los dos anteriores están implementados en el Answer Tree y es el acrónimo de Quick, Unbiased, Efficient Statistical Tree (árbol estadístico eficiente, insesgado y rápido) y el C5.0, que está basado en el concepto de ganancia de información. Redes neuronales Las redes neuronales tratan de emular el comportamiento cerebral. Existen actualmente más de 40 paradigmas de redes neuronales artificiales Se estima que tan sólo cuatro arquitecturas: el modelo perceptrón multicapa (MLP), los mapas autoorganizados de Kohonen, (SOFM), el vector de cuantificación (LVQ) y las redes de base radial (RBF) cubren, aproximadamente, el 90% de las aplicaciones prácticas de redes neuronales. El modelo más utilizado es el perceptrón multicapa, que abarca el 70%, dado que este modelo es un aproximador universal de funciones (Funahashi 89) Una red neuronal puede describirse mediante cuatro conceptos: el tipo de modelo de red neuronal; las unidades de procesamiento que recogen información, la procesan y arrojan un valor; la organización del sistema de nodos para transmitir las señales desde los nodos de entrada a los nodos de salida y, por último, la función de aprendizaje a través de la cual el sistema se retroalimenta. El elemento básico de una red neuronal es un nodo. Es la unidad de procesamiento que actúa en paralelo con otros nodos de la red. Es similar a la neurona del cerebro humano: acepta inputs y genera outputs. Los nodos aceptan input de otros nodos. La primera tarea del nodo es procesar los datos de entrada creando un valor resumen que es la suma de todas las entradas multiplicadas por sus ponderaciones. Este valor resumen se procesa a continuación mediante una función de activación para generar un salida que se envía al siguiente nodo del sistema. Las funciones de activación más utilizadas son: la función escalón, la función identidad, la función sigmoide o logística y la tangente hiperbólica Se considera una red neuronal la ordenación secuencial de tres tipos básicos de nodos o capas: nodos de entrada, nodos de salida y nodos intermedios (capa oculta o escondida). Los nodos de entrada se encargan de recibir los valores iniciales de los datos de cada caso para transmitirlos a la red. Los nodos de salida reciben entradas y calculan el valor de salida (no van a otro nodo). En casi todas las redes existe una tercera capa denominada oculta, Este conjunto de nodos utilizados por la red neuronal, junto con la función de activación posibilita a las redes neuronales representar fácilmente las relaciones no lineales, que poseen mayor dificultad para las técnicas multivariantes. 5

6 Se puede decir que una red neuronal tiene tres ventajas que le hacen muy atractiva en el tratamiento de los datos: aprendizaje adaptativo a través de ejemplos, robustez en el tratamiento de información redundante e imprecisa y paralelismo masivo. El método más utilizado en las aplicaciones prácticas de redes neuronales es el perceptrón multicapa, que fue popularizado por Rumelhart, Hinton y Willians (1986). Este modelo de red es conocido también como backpropagation error (propagación del error hacia atrás), también denominado método del gradiente decreciente. La razón de su tremenda utilidad radica en su capacidad de organizar una representación interna del conocimiento en las capas ocultas de neuronas a fin de aprender la relación entre un conjunto de datos de entrada y salida. El perceptrón multicapa es un aproximador universal de funciones. La red backpropagation, conteniendo al menos una capa oculta, es capaz de aprender cualquier tipo de función o relación continua. Esta propiedad convierte a esta red en una herramienta de propósito general. Los mapas autoorganizativos de Kohonen Teuvo Kohonen en 1982 presenta un modelo de red denominado mapas autoorganizativos basándose en ciertas evidencias encontradas en el cerebro humano. Este tipo de red se caracteriza por poseer un aprendizaje no supervisado competitivo. Es decir, la red tiene que descubrir por si misma rasgos, peculiaridades, correlaciones o categorías que se encuentren en los datos. El objetivo de esta red es clusterizar los datos que se presentan a la red a través de las correlaciones. La utilidad de este sistema es que es capaz de realizar análisis cluster, representar funciones de densidad asociadas a distribuciones de probabilidad y proyectar un espacio de alta dimensión en otro más reducido. La arquitectura de la red se basa en dos capas de neuronas, la capa de entrada se encarga de recibir y de transmitir a la capa de salida la información procedente del exterior. Las neuronas de la capa de salida se organizan de forma bidimensional (plano), tridimensional, (paralelepípedo) o de sólo una dimensión (cadena lineal de neurona). Aunque las redes resuelven múltiples problemas y son capaces de encontrar soluciones en muchas situaciones, no son la panacea que lo resuelve todo. El campo de las redes neuronales artificiales es todavía reciente y aún quedan problemas sin resolver: se trata de un método de resolución de problemas demasiado creativo, es difícil en muchas situaciones averiguar porque no funciona la red y no es fácil interpretar su comportamiento. Algoritmos genéticos Estos algoritmos se originaron en los intentos de imitar el comportamiento de las especies (Holland, 1975), a través de ecuaciones matemáticas. Los algoritmos genéticos están inspirados en la solución de problemas que la naturaleza emplea en la evolución de los seres vivos sometiéndolos a diferentes hábitats. Son algoritmos de búsqueda que se basan en el proceso de selección natural y de la genética natural, combinando la supervivencia de los individuos más aptos entre las cadenas de estructuras con un intercambio de información aleatorio. El proceso de optimización del algoritmo comienza con la generación de una población de individuos. Sobre estos individuos se realizan unas definiciones: genoma (todos los parámetros que definen a los individuos de la población), genotipo (la parte del genoma que define a un individuo concreto), fenotipo (es la expresión de un genotipo) y gen (cada uno de los parámetros que define a un individuo). La fase siguiente del proceso es la evaluación en la cual se deja que cada uno de los controladores que constituyen la población actúe controlando el sistema. En la siguiente fase, la selección, se simula el proceso natural de los individuos en cada generación. A esta fase le sigue una secuencia de operadores genéticos que simulan el proceso de reproducción de los seres vivos. Con el genoma final se expresa un fenotipo y se reconstruye 6

7 cada controlador de la población y se procede a una nueva evaluación. El proceso se repite un número determinado de veces hasta que la evaluación se estabiliza. Los algoritmos genéticos se han utilizado, entre otros temas, en la resolución de problemas relacionados con rutas de transporte, en la gestión de carteras comerciales, en la búsqueda del número ideal de neuronas de la capa oculta en la estructura de una red neuronal y, en general, en problemas de optimización de sistemas, estando especializados en problemas de optimización con restricciones. 4. Reglas de asociación. El algoritmo a priori. Entre todo el conjunto de técnicas que se incluyen dentro del término Data Mining, en esta sección nos centramos en los algoritmos de asociación. El objetivo de dichos algoritmos es encontrar distintas reglas de asociación entre ítems, los cuales, comúnmente, se corresponderán con distintos tipos de productos. Las reglas de asociación nos permitirán predecir patrones de comportamiento futuros sobre ocurrencias simultáneas de productos. El algoritmo a priori que introducen Agrawal, Imielinski y Swami (1993) permite la obtención de dichas reglas de forma eficiente en término de número de operaciones en el ordenador. Como su propio nombre indica, el objetivo de una regla de asociación es detectar ítems que, por algún motivo, se dan de forma conjunta. Un ejemplo comúnmente utilizado se centra en el análisis de las reglas de asociación entre los productos de consumo frecuente que se adquieren en un establecimiento comercial, sea éste un pequeño comercio, un supermercado o un hipermercado. En este contexto, el algoritmo a priori permite predecir de un modo eficiente qué productos se compran conjuntamente y qué productos influyen significativamente en la adquisición de otros complementarios. Como se mostrará posteriormente en la quinta sección, este ejemplo puede generalizarse al comercio exterior, concretamente, para analizar cuáles son las reglas de asociación entre los productos que se exportan desde Cataluña. Una regla de asociación está formada por uno o más antecedentes y una consecuencia. Siendo m el número de antecedentes, en general, una regla de asociación puede representarse del siguiente modo: Consecuencia Antecedente 1 Antecedente 2 Antecedente m. Por ejemplo, sean A y B dos productos antecedente y C la consecuencia, la regla de asociación equivale a: C A B, que implicaría que la compra de A y B (antecedentes) supone que un número elevado de veces también se compre C (consecuencia). Para evaluar la capacidad predictiva de una regla de asociación existen varias medidas, las dos más comunes son el soporte y la confianza. El primero equivale al porcentaje de veces que se adquieren de forma conjunta los productos antecedentes (A y B) sobre el total de compras. La confianza de una regla se calcula como cociente entre el soporte de todos los productos implicados en la regla (A, B y C) y el soporte de los productos antecedentes (A y B) multiplicado por El soporte es una medida de significación estadística de la regla, sin embargo, la confianza mide en que medida se cumple dicha regla de asociación. La representación de la regla de asociación anterior se amplia del siguiente modo: C A B (Soporte% Confianza). Por ejemplo, si se supone que el soporte de la regla es del 50% y su confianza equivale al 95%, la regla de asociación anterior queda del siguiente modo: C A B (50% 0,95). 1 Agrawal et al. (1993) definen el soporte como el porcentaje de veces que se dan de forma conjunta los productos antecedentes y la consecuencia (A, B y C). Sin embargo, para facilitar la interpretación de otras medidas alternativas a la confianza, los programas estadísticos existentes denominan soporte al porcentaje de veces que se dan de forma conjunta los productos antecedentes (A y B). 7

8 En este caso, la interpretación que se realiza es la siguiente: El 50% de los individuos compran conjuntamente los productos A y B y, además, el 95% de estos individuos también adquieren C. También, como 0,50 0,95=0,475, se sabe que el 47,5% de los individuos compran A, B y C de forma conjunta. En la práctica, suelen fijarse unos valores mínimos del soporte y la confianza, para posteriormente obtener todas aquellas reglas de asociación con soporte y confianza iguales o superiores a los mínimos establecidos. La base de datos utilizada para el implementar el algoritmo a priori debe contener dos tipos de información, una identifica al individuo (o al país, en nuestra aplicación) que realiza la compra y la otra identifica los distintos productos. Las formas en las que se presenta la base de datos pueden ser dos. Por un lado, puede trabajarse con dos variables (columnas), una que identifique al individuo o al país y la otra que identifique al producto, por tanto, cada registro (fila) se corresponde con un individuo o país y con uno de los productos que éste adquiere. Cada individuo o país tendrá asociadas tantas filas de la base de datos como número de productos compre. Por otro lado, la base de datos puede presentarse con tantas variables como productos y tantos registros como individuos o países, cada una de estas variables tomará valor 1 si el individuo compra el producto y cero en caso contrario. Es sabido que el número de tipos de producto que pueden adquirirse en un establecimiento comercial o ser importados por un determinado país es muy elevado y, por tanto, existen un gran número de combinaciones entre productos, las cuales podrían valorarse para encontrar las distintas reglas de asociación. El algoritmo a priori funciona de un modo eficiente en la obtención de las reglas de asociación, en el sentido de que no necesita evaluar todas las combinaciones posibles entre productos. En Agrawal et al. (1993) se describe el funcionamiento de dicho algoritmo, el cual se resume a continuación. El algoritmo a priori se inicia fijando un valor para el soporte de la regla, sea s dicho soporte. 2 En una primera etapa se seleccionan aquellos productos cuya frecuencia de compra iguala o supera el soporte s. Los productos resultantes son los aspirantes a ser unidos a otros productos. Posteriormente, en una segunda etapa, los productos aspirantes se combinan de dos en dos, seleccionando aquellos pares de productos cuyo soporte iguala o supera el valor s. Las combinaciones de dos productos seleccionadas son las aspirantes a ser ampliadas a tres. Así, sucesivamente, hasta alcanzar el número límite de productos fijado para formar una regla de asociación. En el caso de que no se fije dicho límite, el algoritmo se repite hasta que ninguna de las combinaciones de m productos resulte aspirante a ser ampliada. Las reglas de asociación se forman entre los productos que intervienen en las combinaciones resultantes. Seguidamente, se muestra el funcionamiento del algoritmo a priori con un ejemplo numérico. Supongamos una muestra de 10 individuos los cuales disponen de 5 tipos de producto para adquirir. En la tabla 1 se señala, para cada individuo, cuáles son los productos que compra. Además, se supone un soporte mínimo s=30%. Tabla 1: Datos simulados. Producto Individuo A B C D E 1 X 2 X X X X 3 X X 4 X X 5 X X X X 6 X X X X 7 X X X 8 X X X 9 X 10 X 2 Al igual que en el software Clementine, en este trabajo el soporte de la regla está ligado a los antecedentes de la misma. Es decir, es igual al porcentaje de individuos o países que adquieren dichos antecedentes de forma conjunta. 8

9 Tras analizar cada uno de los productos individualmente, se determina que A posee un soporte del 10%, que es inferior a s, lo que implica que sea eliminado del análisis y no vuelva a considerarse en las combinaciones posteriores. El resto de productos poseen soporte superior al 30%, es decir, son consumidos por más del 30% de los individuos. En una segunda etapa se analizar las combinaciones de productos 2 a 2, las combinaciones resultantes son: {B C}, {B D}, {B E}, {C D}, {C E} y {D E}, todas ellas poseen soporte superior igual o superior al 30%. A continuación, se muestran algunas de las reglas de asociación resultantes con un único antecedente, su soporte y su confianza: C B (40% 0,75), B C (70% 0,43), D B (40% 0,75), B D (70% 0,43), E B (40% 0,75), B E (60% 0,50), D C (70% 0,71), C D (70% 0,71), E C (70% 0,57), C E (60% 0,67), E D (70% 0,71) y D E (60% 0,83) En una tercera etapa se analizan las combinaciones de productos tres a tres, estas son: {B C D}, {B C E}, {B D E} y {C D E}, la primera combinación posee soporte 30% y las dos siguientes poseen soporte 20% y la última 40%. Las reglas de asociación con 2 antecedentes son: D B C (30% 1,00), E B C (30% 0,67), C B D (30% 1,00) E B D (30% 0,67), C B E (30% 0,67), D B E (30% 0,67) B C D (50% 0,40), B C E (40% 0,50) y B D E (50% 0,40) E C D (50% 0,80), D C E (40% 1,00) y C D E (50% 0,80) Finalmente, las combinaciones {B C E} y {B D E} posen soporte inferior al 30% la combinación con cuatro productos {B C D E} ya no se analiza, dado que también poseerá soporte inferior al 30%. Por lo tanto, teniendo en cuenta el criterio del soporte igual o superior a s=30%, no se encuentran reglas de asociación con tres antecedentes. Además del soporte y la confianza, existen otras medidas alternativas que pueden utilizarse para valorar estadísticamente la regla de asociación. Algunas de estas medidas se describen a continuación: Diferencia absoluta entre confianzas: Mide la diferencia entre una regla de asociación y la misma ampliada con un antecedente más. En el ejemplo anterior, pueden compararse las confianzas de las reglas C B y C B D, en este caso la diferencia es 1, =0.25. Puede considerarse que si la confianza de una regla varía con el número de antecedentes, es interesante analizar la regla ampliada (en este caso C B D) en caso contrario no. Diferencia entre el cociente de confianzas y 1: Mide la diferencia entre el cociente de dos confianzas y 1. En el cociente se compara la confianza de una regla de asociación con la de la misma ampliada. Cuanto más alejado esté el cociente de uno más interés posee el análisis de ambas reglas de asociación. En el caso de que el cociente esté próximo a uno únicamente tiene interés el análisis de una de las reglas. Diferencia entre criterios de información: Se trata de una medida de ganancia de información estadística (entropía). Para un determinado suceso con probabilidad p y su contrario, la distribución posee una entropía igual a: H = plog p ( 1 p) log( 1 p). En el contexto de la reglas de asociación se puede calcular, por ejemplo, la entropía asociada a la regla C B, que equivale a: H = P C B log P C B P C B log P C B, ( ) ( ) ( ) ( ) donde C es el contrario de C, y compararla con la entropía asociada a C B D, que se expresa como: H P( C B,D) log P( C B,D) P( C B,D) log P( C B,D) =. Medida c 2 normalizada: Equivale del estadístico χ 2, que mide el grado de asociación entre dos variables discretas. Este estadístico se normaliza dividiéndolo entre el número de casos, de forma que no dependa del número de individuos o países que intervienen en el cálculo. La medida resultante toma valores entre 0 y 1. Cuanto más próxima al 1 esté la χ 2 normalizada mayor será el grado de asociación. Por ejemplo, para la regla de asociación C B D las dos variables discretas que se comparan son dos: la primera toma dos valores según se compre C o no y, la segunda, también toma dos valores según se compren B y D conjuntamente o no. 9

10 A continuación, en el siguiente apartado se ejemplifica la aplicación del algoritmo a-priori a datos sobre exportaciones de productos desde Cataluña al exterior de España. 5. Ejemplo con datos de comercio exterior. El objetivo del análisis es encontrar distintas reglas de asociación entre los diversos productos textiles que se exportan desde Cataluña al exterior de España. Para ello, se ha utilizado el algoritmo a priori descrito en el apartado anterior, el cual puede ejecutarse con el software Clementine. Se analizan las reglas de asociación entre partidas de la TARIC. 3 Las reglas muestran asociaciones entre productos textiles y, también, entre estos productos y otros pertenecientes a otros sectores. Los datos utilizados son todas las exportaciones realizadas en el año Inicialmente, la base de datos utilizada contiene registros, que se corresponden con todas las exportaciones realizadas desde Cataluña en el año Cada uno de estos registros se corresponde con una partida de la TARIC a ocho dígitos que representa una exportación desde Cataluña a un determinado país de destino. A continuación, se describen el proceso que se ha seguido para la búsqueda de las reglas de asociación y, posteriormente, se muestran, a modo de ejemplo, los resultados obtenidos para algunos de los productos textiles considerados. El análisis parte de la selección de una serie de partidas de la TARIC a dos dígitos las cuales se corresponden con productos textiles, éstas van desde la 50 a la 63, ambas incluidas. En una primera etapa se han seleccionado aquellos países que importan alguno de los productos incluidos entre las partidas textiles. Considerando estos países con todas sus importaciones llegadas desde Cataluña, la base de datos queda formada por registros, que se corresponden con 150 países de destino. Para el análisis de cada partida se ha depurado la información inicial. En primer lugar, se elimina de la base de datos aquella información irrelevante para las reglas de asociaciones de interés y facilitar así su búsqueda, es decir, se eliminan de la base de datos aquellos registros que se corresponden con códigos de la TARIC no definidos y muy poco frecuentes. En segundo lugar, se seleccionan los países de interés según el código de la TARIC y el nivel de desagregación. Este segundo proceso de filtrado se describe, a continuación, para un producto en particular. Por ejemplo, si se desea analizar las asociaciones a cuatro dígitos cuya consecuencia coincide con la partida 6110 (suéteres y jerséis de punto), en primer lugar, se buscan las reglas de asociación entre partidas a dos dígitos, posteriormente se seleccionan aquellos registros cuyo código de la TARIC a 2 dígitos coincide con el 61 (piezas y complementos de vestir de punto) o con aquellos sectores que aparecen como antecedente en las asociaciones con consecuencia 61. Seguidamente, para analizar las asociaciones a 6 dígitos cuya consecuencia es la partida (suéteres y jerséis de punto de algodón), el proceso es similar, en este caso se seleccionan aquellos registros cuyo código a 4 dígitos coincide con el 6110 o con todos aquellos que aparecen como antecedentes de éste. Finalmente, para el estudio de las asociaciones a 8 dígitos cuya consecuencia es el código de la TARIC (suéteres y jerséis de punto de algodón para mujeres y niñas), se seleccionan aquellos registros cuyo código de la TARIC a 6 dígitos coincide con el o con sus antecedentes. Tras realizar los distintos procesos de filtrado en la base de datos inicial, aunque el número de registros vaya siendo inferior a , los países que se estudian siempre coinciden con los 150 importadores de alguno de los productos textiles. En este punto cabe advertir que, aunque puede establecerse una jerarquía entre las partidas de la TARIC a 4, 6 y 8 dígitos, es decir, las partidas a 6 dígitos están incluidas dentro de las partidas a 4 dígitos y, también, las expresadas en 8 dígitos se incluyen en las partidas a 6 3 La TARIC es una nomenclatura administrativa que presenta la información según el arancel comunitario integrado. 10

11 dígitos, no se suele encontrar dicha jerarquía entre reglas de asociación. Esto significa que, normalmente, las reglas de asociación a 4 dígitos no se repiten en las asociaciones encontradas a 6 dígitos. Este hecho indica que las conclusiones extraídas de los resultados deben enmarcarse en un nivel de desagregación determinado. Además, no suelen encontrarse asociaciones entre partidas a ocho dígitos. Tras realizar distintas pruebas con los valores de diversos criterios de asociación (soporte, precisión, confianza y χ 2 normalizada), se han seleccionado aquellas reglas que cumplen las siguientes condiciones: 4 El soporte de la regla o porcentaje de casos en los que aparecen los productos antecedentes de forma conjunta es igual o superior al 20%. El valor para la Ji-cuadrado estandarizada es igual o superior a 0,5. La precisión de la regla es igual o superior al 80%. Confianza de la regla igual o superior a 0,9. El número de productos antecedentes se limita a un máximo de 2 productos. En la tabla 2 se describen las partidas de la TARIC sobre las cuales se realiza el análisis de las asociaciones, este análisis consiste en obtener aquellas reglas cuya consecuencia coincide con la partida a la que se hace referencia en esta tabla. Tras obtener las reglas de asociación e interpretarlas, se plantea realizar una serie de análisis a posteriori que complementan los resultados. En concreto, para cada regla de asociación se estudian cuáles son los países mayores importadores del producto consecuencia y, posteriormente, se analiza en que medida estos países cumplen la regla de asociación. Para ordenar los países según sus importaciones se utiliza el valor estadístico de las mismas, se considera que son principales importadores de un producto aquellos países cuyo valor estadístico se sitúa en el último cuartil de la variable. 5 Tabla 2: Partidas analizadas. Código de la Descripción TARIC 61 Piezas y complementos de vestir, de punto 6110 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto, de algodón 62 Piezas y complementos de vestir, excluidos los de punto Todo tipo de ropa de vestir para mujeres y niñas, excluyendo la de baño Todo tipo de pantalones de vestir, excluido los de baño, de algodón, que no sean de punto, para mujeres y niñas Se han obtenido 704 reglas de asociación en las cuales el código de la TARIC 6110 es consecuencia, 7 de las cuales poseen un único antecedente y las 697 restantes dos. Los productos antecedentes son de distinta naturaleza y se sitúan dentro del sector textil o en otros sectores totalmente distintos. Entre todas las reglas de asociación encontradas se seleccionan dos para analizar, ambas con dos antecedentes. La primera es la que posee mayor soporte o, lo que es lo mismo, mayor número de países que importan ambos antecedentes. La segunda regla de asociación se caracteriza por tener confianza 100% además, entre todas las que poseen esta confianza máxima, se ha seleccionado la de mayor soporte y con ambos antecedentes pertenecientes al sector textil. Las dos reglas de asociación seleccionadas son las que se presentan en la tabla 3. 4 La precisión de una regla es una medida relacionada con la eficiencia del algoritmo a-priori y equivale al porcentaje de asociaciones que cumplen el resto de criterios establecidos sobre el total de reglas evaluadas. 5 El valor estadístico es el importe monetario de las exportaciones en la aduana del país de origen. 11

12 Tabla 3: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte Confianza ,3% 38,7% 95,4% 100% Los productos que son antecedentes en las dos reglas de asociación anteriores son: 4202 Bolsos, maletas y maletines, incluidos los neceseres y porta documentos, carteras de mano, fundas para gafas, cámaras, instrumentos de música o armas, sacos de viaje, mochilas, bolsas para la compra, bolsas de deporte, etcétera de cuero natural, artificial o regenerado, de plástico, textiles, fibra o cartón, o cubiertos totalmente o mayoritariamente con estos materiales 6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones, pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para mujeres o niñas 6211 Piezas de vestir para deportes (de entrenamiento), monos y conjuntos de esquí y trajes y pantalones de baño; otras piezas de vestir Según el valor estadístico de sus compras, los principales importadores de los productos incluidos dentro del código de la TARIC 6110 son (número de pedidos entre paréntesis): Italia (306), Portugal (1371), Francia (1342), Alemania (382), Bélgica (422), Países Bajos (384), Reino Unido (322), Venezuela (107), Arabia Saudita (471), Austria (129), Estados Unidos (77), Kuwait (228), Suiza (553), Hong Kong (173), Marruecos (425), Grecia (176) y Andorra (352). Entre todos estos países, existen cuatro que no cumplen la primera regla de asociación descrita en la tabla 3 ( ) con una confianza superior al 95%, estos países son: Alemania, Italia, Grecia y Austria, cuya confianza, aunque inferior al 95%, supera el 50%. Todos los países principales importadores de los productos 6110 según TARIC a cuatro dígitos cumplen la segunda regla de asociación ( ) con una confianza superior al 95%. Se desprende que las exportaciones de bolsos y maletas conjuntamente con la indumentaria descrita inducen a la exportación de jerséis de punto (jerséis y suéters). En un nivel más detallado, se han obtenido 277 reglas de asociación en las cuales el código de la TARIC es consecuencia. Se han encontrado cuatro reglas con un solo antecedente y el resto con dos. Los productos antecedentes son de distinta naturaleza y se sitúan dentro del sector textil o en otros totalmente distintos. 4. Se han seleccionado dos reglas de asociación para analizar, que se describen en la tabla Tabla 4: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte Confianza ,7% 25,3% 90,4% 100% Los productos que son antecedentes en las dos reglas de asociación anteriores son: Camisetas de punto, de algodón Piezas de vestir de cuero natural o de cuero artificial o regenerado Camisas, blusas y blusas camiseras, de algodón, que no sea de punto, para mujeres y niñas Camisas, blusas y blusas camiseras, de seda, que no sean de punto, para mujeres y niñas Los países considerados principales importadores de los productos agrupados en el código de la TARIC son (número de pedidos entre paréntesis): Italia (104), Portugal (498), Francia (562), Bélgica (145), Alemania (151), Países Bajos (137), Reino Unido (87), Arabia Saudita (64), Andorra (73), Austria (34), Grecia (53), Israel (38) y Dinamarca (26). 12

13 Entre todos los países principales importadores existen tres en los que la confianza de la primera regla de asociación ( ) no supera el 50%, estos países son: Andorra, Israel y Arabia Saudita. Por lo que respecta a la segunda regla de asociación ( ) todos los países citados en el párrafo anterior la cumplen con confianza superior al 95%. Por lo tanto, se observa una correlación entre camisas y blusas (que no sean de punto) y suéters de punto de algodón, todo ello para mujeres y niñas. Se han obtenido 48 reglas de asociación en las cuales el código de la TARIC 6204 es consecuencia, las dos primeras poseen un único antecedente y las 46 reglas restantes se han formado con dos antecedentes. Entre todas las reglas de asociación encontradas se seleccionan dos para analizar. Ambas asociaciones se describen en la tabla 5. La primera posee los dos productos antecedentes dentro del sector 61 Ropa y complementos de vestir, de punto. La segunda regla de asociación seleccionada es la que posee mayor soporte o número de países que la cumplen. Tabla 5: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte Confianza ,3% 51,3% 98,4% 90,9% Los productos que son antecedentes en las dos reglas de asociación anteriores son: 6110 Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto 6104 Trajes de sastre, conjuntos, chaquetas, vestidos, faldas, faldas pantalón, pantalones, pantalones de pitillo, calzones y pantalones cortos (menos los de baño), de punto, para mujeres o niñas 9401 Asientos (menos los de profesionales: médicos, peluqueros, etcétera), incluso los transformables en cama, y sus componentes 8207 Útiles intercambiables para herramientas de mano, incluso mecánicas, o para máquinas herramienta como las de hacer embutidos, estampar, enroscar, etcétera. Los principales importadores de los productos incluidos dentro del código de la TARIC 6204 son (número de pedidos entre paréntesis): Portugal (2308), Francia (1552), Alemania (953), Italia (497), Reino Unido (4830), Bélgica (965), Arabia Saudita (1217), Méjico (477), Países Bajos (738), Austria (277), Suiza (749), Irlanda (984), Grecia (439), Israel (1275), Estados Unidos de América (136), Japón (392), Kuwait (407), Venezuela (254), Andorra (406) y Chile (51). Todos ellos cumplen las dos reglas de asociación descritas en la Tabla 18 con una confianza superior al 95%. De este análisis se desprende que los países que importan asientos y útiles para herramientas son los que tienen mayor propensión a la compra de ropa de vestir femenina. Se han obtenido 842 reglas de asociación entre códigos a seis dígitos donde el de la TARIC es consecuencia. Entre todas las asociaciones 16 tienen un único antecedente, el resto poseen dos. De nuevo se han seleccionado dos asociaciones para analizar detalladamente, la primera ya se daba entre códigos a cuatro dígitos ( ), la segunda se caracteriza por poseer dos productos antecedentes incluidos en el código 6204 de la TARIC. Ambas reglas de asociación se describen en la tabla 6. Tabla 6: Reglas de asociación seleccionadas para analizar. REGLA Consecuencia Antecedentes Número Soporte Confianza ,0% 31,3% 100,0% 93,6% 13

14 Los productos que son antecedentes en la regla de asociación anterior son: Suéteres, jerséis, chalecos y artículos similares, incluso con cuello de cisne, de punto, de fibras sintéticas o artificiales Trajes de punto, para mujeres o niñas, de fibras sintéticas o artificiales Faldas y faldas pantalón, para mujeres o niñas, de fibras sintéticas o artificiales, que no sean de punto Faldas y faldas pantalón, para mujeres o niñas, de algodón, que no sean de punto Los países considerados mayores importadores de los productos incluidos dentro del código de la TARIC son: Portugal (233), Francia (263), Bélgica (59), Italia (52), Reino Unido (109). Alemania (156), Méjico (129), Austria (36), Arabia Saudita (234), Grecia (62), Países Bajos (76), Suecia (59), Venezuela (54) e Irlanda (50). Todos estos países cumplen las dos reglas de asociación descritas en la Tabla 20, con una confianza superior al 95%. En la primera regla de asociación se observa como la exportación de suéteres y artículos similares de fibra sintética conjuntamente con trajes de punto sintético induce la exportación de pantalones para mujeres y niñas, de algodón y que no sean de punto. La segunda regla indica que la exportación de faldas que no sean de punto (tanto de algodón como de fibras sintéticas) induce la exportación de pantalones de algodón que no sean de punto. 6. Conclusiones. El trabajo ha permitido evaluar el potencial de las técnicas de Data Mining en economía, y concretamente en el análisis de los datos de comercio exterior. Se ha realizado un estudio para la comunidad autónoma de Cataluña, respecto a las exportaciones desde dicha comunidad a países extranjeros en el año La valoración de algunos resultados muestra una vinculación entre el mercado textil de punto confeccionado y otra ropa de vestir. Esta relación podría esperarse ya que en ambos casos se trata de prendas e indumentarias de vestuario. Además de la anterior relación, se ha detectado una fuerte asociación entre las exportaciones de punto confeccionado y los productos de equipaje, como maletas y bolsos. En este caso se trata de productos que no pertenecen al mismo grupo. Al realizar un análisis más detallado de los correspondientes códigos TARIC más detallados se observa una asociación entre la exportación de camisetas de punto y de piezas de vestir confeccionadas en cuero o material artificial similar. Ello podría explicar la vinculación de la producción de ropa de punto, con el mercado de las prendas de cuero y, consecuentemente con la exportación de suministros de equipaje. Otra de las conclusiones extraídas del análisis de las exportaciones detecta que los envíos de maquinaria (útiles intercambiables para herramientas) están fuertemente asociados a exportaciones de asientos y ropa de vestir. Dichas relaciones no parecerían evidenciarse de un análisis descriptivo de tipo generalista, pero sí son obtenidos a través de los algoritmos utilizados. Como conclusión fundamental del análisis empírico se ha podido identificar qué productos están más relacionados con el mercado textil. Por ejemplo, cambios en el sector de fabricación de bolsos y maletas así con herramientas intercambiables o asientos, pueden determinar inflexiones e incluso anticipar transformaciones en las exportaciones de ropa de vestir, ya que se ha detectado una fuerte asociación entre ambos productos. 14

15 Bibliografía. Agrawal, R y Srikant, R. (1994) Fast Algorithms for Mining association Rules. Paper presented at the 20th Internacional Conference on Very Large Databases, Santiago, Chile. Agrawal, R., Imielienski, T. y Swami, A. (1993) Mining Association Rules between Sets of Items in Large Databases. En: Processes and Conferences on Management of Data, ed. ACM Press, New York, pp Aragón, A., Calzada, J.M., García, A. y Pacheco, J.A. (1997) Aplicaciones de redes neuronales en economía. V Jornadas de ASEPUMA, España. Bigus, J.P. (1996) Data mining with neural networks: solving business problems from application development to decision support, ed. McGraw-Hill, New York. Bonchi, F., Giannotti, F., Mainetto, G. y Pedreschi, D. (1999) Using Data Mining Techniques in Fiscal Fraud Detection. Paper presented at the First International Conference on Data Warehousing and Knowledge Discovery (DaWak 99). Florence, Italy. Breiman, L., Friedman, Jh., Olshen, R.A. y Stone, C.J. (1984) Classification and regression trees. Monterey, ed. Wadsworth & Brooks/Cole Advanced Book & Software. Cajal, B., Jiménez, R., Montaño, J.J., Palmer, A., Sesé, A. y Sospedra, M.J. (2001) Modelo Lineal Generalizado, Redes Neuronales Artificiales y Aprendizaje Automático: un estudio comparativo. Comunicación presentada en la VIII Conferencia Española de Biometría, Pamplona, España. De la Fuente, D., Pino, R., Suárez, C. y Mayo, J.L. (1996) Análisis comparativo de los métodos de previsión univariante, Box-Jenkins, Redes Neuronales artificiales y espacios de Estado. Revista de Estudios de Economía Aplicada, 5, pp Elorduy Trifoll, J. (2001) Las redes neuronales como herramienta de predicción de quiebra, Tesis Doctoral, Universidad Nacional de Educación a Distancia. España. Hand, D.J. (1999) Statistics and Data Mining: Intersecting disciplines. SIGKDD Explorations, 1, pp García Estévez, P. (2002) Modelo de predicción del rendimiento de una cartera mediante una Red Neuronal. Análisis Financiero, 87, pp García Estévez, P. (2002) Aplicaciones de las Redes Neuronales en finanzas. Documentos de Trabajo de la Facultad de Ciencias Económicas y Empresariales. Universidad Complutense. España Gondar Nores, J.E, (2003) Técnicas estadísticas aplicadas a las ciencias bancarias, Data Mining Institute, España. Gondar Nores, J.E, (2003) CRM y Data Mining, Data Mining Institute, España. Hand, D.J.(2000) Data Mining. New Challenges for Statisticians. Social Science Computer Review, 18, pp Holland, J.H. (1975) Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor, Estados Unidos. Joerding, W., Li, Y., Hu, S., y Meador, J.(1994) Approximating production technologies with feedforward neural networks, en Johnson, J.D. y Whinston, A.B. (eds.) Advances in Artificial Intelligence in Economics, Finance and Management, pp Kaastra I. y Boyd, M. (1996) Designing a neural network for forecasting financial and economic time series, Ed. Neurocomputing 10, Elsevier, Estados Unidos. Laffarga, J, Martín, J.L. y Vázquez, M.J. (1986) El pronóstico a corto plazo del fracaso en las instituciones bancarias: propuesta de una metodología y aplicaciones de la banca española. Esic-Market, 53, pp Levi, J.P, Sulé Alonso, M.A. y Solazar Clavel, J. (2002) La predicción y la clasificación de datos en Marketing. Un estudio comparativo mediante técnicas multivariantes, árboles jerárquicos y redes neuronales. Revista ciencia Ergo Sum, 9, nº 1, Méjico. López González, E. y Flórez López, R. (1999) El análisis de solvencia empresarial utilizando redes neuronales auto asociativas: el modelo Kohonen. Proceedings of the VI International Meeting on Advances in Computational Management, Reus, España. Luan, J y Willet, T. (2001) Data Mining and Knowledge management. Paper presented at the Association of Institutional Research Conference, Long Beach, CA. Mar Molinero, C. y Serrano, C. (2001) Bank Failure: A Multidimensional Scaling Approach. European Journal of Finance, 7, pp Martín del Brío, B. y Sanz Molina, A. (2001) Redes Neuronales y Sistemas Borrosos, ed. Ra-ma, España. 15

16 Masson, E. y Wang, Y. (1990) Introduction to computation and learning in artificial neural networks. European Journal of Operational Research, 47, pp Montaño, J.J., Palmer, A., Sesé, A. y Beltrán, M. (2003) Redes Neuronales Artificiales aplicadas al análisis de datos turísticos. En Técnicas y métodos estadísticos aplicados al sector turístico, ed. Govern de las Illes Balears, España. Otero, J.M y Trujillo, F. (1993) Predicción Multivariante y multiperiodo de una serie temporal económica mediante una red neuronal. Revista de Estadística Española, 35, pp Pacheco, J.A. y Delgado, C. (1990) Utilización de las redes neuronales artificiales en el análisis y predicción del IPC Regional. II Congreso de Economía de Castilla y León, España. Palmer, A., Beltrán, M., Montaño, J.J., Jimenez, R., Sesé, A. y Franconetti, J. (2003) Minería de datos en Economía. Aplicaciones de redes neuronales artificiales a datos de la Encuesta de gasto turístico de las Islas Baleares. I Congreso de Economía de las Illes Balears, España. Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colinshearer y Rüdiger Wirth (2000) CRISP-DM 1.0 Step-by-step Data Mining guide. Pitarque, A., Roy, J.F. y Ruiz, J.C. (1998) Redes neurales vs Modelos estadísticos: Simulaciones sobre tareas de predicción y clasificación. Psicológica, 19, pp Prado Lorenzo, J.M. (1991) La aplicación de sistemas expertos al análisis de estados financieros. En memoria de Mª Angeles Gil Luezas, ed. AC, Madrid, España. Quinlan, J.R. (1986) Induction of decision trees, Machine Learning, 1, pp Rodríguez Marín, P. (1991) Sistemas expertos en la gestión empresarial. Dirección y Progreso, 119, pp Rumelhart, D.E., Hinton, G.E. y Willians, R.J. (1986) Learning representations by backpropagating errors. Nature, 323, pp Santín, D., Delgado, F.J. y Valiño, A. (2001) Measuring Technical Efficiency whith neural networks: a review. The Efficiency Series Papers. Permanebte Seminar on Efficiency. Efficiency Group at the Departament of Economics in Oviedo, Spain. Sastri, T. (1994) A neural network production planning system, en Johnson, J.D. y Whinston, A.B. (eds.) Advances in Artificial Intelligence in Economics, Finance and Management, pp Serrano, C. (1995) Las redes neuronales autoorganizadas: aplicaciones en la gestión empresarial. En Sierra Molina, G. y Bonsón Ponte, E. (Eds.) Artificial Intelligence in Accounting, Finance and Tax, pp Serrano, C. (1997) Feedforward Neural Network in the Classification of Financial Iformation. European Journal of Finance, 3, pp Serrano, C. y Martín del Brío, B. (1993) Predicción de la quiebra bancaria mediante el empleo de redes neuronales artificiales. Revista Española de Financiación y Contabilidad, 22, pp SPSS Inc. (2001) Clementine 6.0 User s Guide. Varetto, F. (1998) Genetic algorithms applications in the analysis of insolvency risk. Journal of Banking and Finance, 22, pp Warren, S. (1994) Neural Network and Statistica Models, SAS Institute Inc. 16

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Análisis de los determinantes del riesgo de crédito. Aplicación de técnicas emergentes en el marco de los acuerdos de Basilea II y Solvencia II

Análisis de los determinantes del riesgo de crédito. Aplicación de técnicas emergentes en el marco de los acuerdos de Basilea II y Solvencia II REVISTA ESPAÑOLA DE FINANCIACIÓN Y CONTABILIDAD Vol. XXXVI, n.º 135 julio-septiembre 2007 pp. 649-653 649 Análisis de los determinantes del riesgo de crédito. Aplicación de técnicas emergentes en el marco

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti.

Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. Métodos Estadísticos sticos para Diagnósticos MédicosM Barcelona, uno de marzo de 2008 Pablo Martínez-Camblor Subdirección de Salud de Guipuzcoa, Donosti. MODULO: Diseño de proyectos y análisis estadístico

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Introducción al DataMining

Introducción al DataMining Introducción al DataMining Lluís Garrido garrido@ecm.ub.es Universitat de Barcelona Índice Qué es el DataMining? Qué puede hacer el DataMining? Cómo hacer el DataMining? Técnicas Metodología del DataMining

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

ÍNDICE. Introducción... Capítulo 1. Inteligencia de negocios y sistemas de información. Informes... 1

ÍNDICE. Introducción... Capítulo 1. Inteligencia de negocios y sistemas de información. Informes... 1 Introducción... XI Capítulo 1. Inteligencia de negocios y sistemas de información. Informes... 1 Finalidad de los sistemas de información y origen del Business Intelligence... 1 Herramientas para la toma

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

Business Intelligence en la Estadística

Business Intelligence en la Estadística Business Intelligence en la Estadística Beltrán Pascual, Mauricio mauricio.beltran@larioja.org Jiménez Galán, Diego diego.jimenez@larioja.org Martínez García, José Antonio joseantonio.martinez@larioja.org

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

DATA MINING Una herramienta para la toma de decisiones

DATA MINING Una herramienta para la toma de decisiones DATA MINING Una herramienta para la toma de decisiones Jorge Martín Arevalillo Dpto. Estadística e Investigación Operativa U.N.E.D 14 DICIEMBRE 2000 Data Mining y Data Warehouse El Data Warehouse dota

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Diploma en Business Analytics

Diploma en Business Analytics Diploma en Business Analytics JULIO 2010 FACULTAD DE INGENIERÍA Y CIENCIAS www.uai.cl Por qué un Diploma en Business Analytics? El análisis metódico e inteligente de datos es una actividad estratégica

Más detalles

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional Características Cree estrategias más efectivas evaluando tendencias y resultados Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas

Más detalles

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA CÓDIGO ASIGNATURA 1131-3 DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: DATA MINING y DATA WAREHOUSE Plan 2009 Ingeniería en Informática Año: 5 (Electiva - Ingeniería de Software)

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Tome mejores decisiones mediante la inteligencia predictiva

Tome mejores decisiones mediante la inteligencia predictiva IBM SPSS Modeler Professional Funciones destacadas Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas de minería de datos intuitivo y visual. Crea y valide

Más detalles

Desarrollo de un sistema capaz de optimizar rutas de entrega utilizando algoritmos genéticos

Desarrollo de un sistema capaz de optimizar rutas de entrega utilizando algoritmos genéticos MT 6 Desarrollo de un sistema capaz de optimizar rutas de entrega utilizando algoritmos genéticos Rosario Baltazar 1 Judith Esquivel Vázquez 2 Andrea Rada 3 Claudia Díaz 4 Resumen Durante los últimos 15

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación ESTUDIO DE TECNICAS DE DATA MINING APLICADAS AL ANALISIS DE DATOS GENERADOS CON LA METODOLOGIA BLENDED LEARNING Marcelo Omar Sosa, Sosa Bruchmann Eugenia Cecilia Departamento Computación/Facultad de Ciencias

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar,

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar, Resultados Preliminares del Proceso de Minería de Datos Aplicado al Análisis de la Deserción en Carreras de Informática Utilizando Herramientas Open Source J. Germán A. Pautsch 1, Horacio D. Kuna 2, Antonia

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Introducción Qué es Minería de Datos?

Introducción Qué es Minería de Datos? Conceptos Básicos Introducción Qué es Minería de Datos? Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos. Introducción

Más detalles

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas de Asociación Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas Proposicionales: Reglas de Clasificación Descripción de instancias:

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

1. DATOS DE LA ASIGNATURA

1. DATOS DE LA ASIGNATURA 1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional Tome mejores decisiones mediante la inteligencia predictiva Características principales Cree estrategias más eficaces mediante la evaluación de tendencias y resultados probables

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Marketing Advanced Analytics. Predicción del abandono de los clientes. Whitepaper

Marketing Advanced Analytics. Predicción del abandono de los clientes. Whitepaper Marketing Advanced Analytics Predicción del abandono de los clientes Whitepaper El reto de predecir el abandono de los clientes Resulta entre cinco y quince veces más caro para una compañía captar nuevos

Más detalles

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE BUSINESS INTELLIGENCE Técnicas, herramientas y aplicaciones María Pérez Marqués Business Intelligence. Técnicas, herramientas y aplicaciones María Pérez Marqués ISBN: 978-84-943055-2-8 EAN: 9788494305528

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Impartido por: Juan Alfonso Lara Torralbo 1. Datos del docente NOMBRE Juan Alfonso Lara Torralbo FORMACIÓN

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

IBM SPSS Decision Trees

IBM SPSS Decision Trees IBM Software IBM SPSS Statistics 19 IBM SPSS Decision Trees Identifique grupos y pronostique resultados con facilidad Funciones destacadas Con IBM SPSS Decision Trees podrá: Crear árboles de clasificación

Más detalles

Predicción de índices de futuros financieros mediante redes neuronales

Predicción de índices de futuros financieros mediante redes neuronales Predicción de índices de futuros financieros mediante redes neuronales Joan Bosch 1,Lluís Garrido 1,SergioGómez 2 1) Dept. d Estructura i Constituents de la Matèria, Facultat de Física, Universitat de

Más detalles

Ideas innovadoras para una mejor práctica de negocios

Ideas innovadoras para una mejor práctica de negocios Ideas innovadoras para una mejor práctica de negocios ISSN 1668-5792 Volumen V, Marzo de 2007 El Portafolio de Productos en el Mercado de Consumo Masivo - Parte II Demián Siburi Pág. 3 Data Mining y Generación

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Detección de Patrones de Daños y Averías en la Industria Automotriz

Detección de Patrones de Daños y Averías en la Industria Automotriz Universidad Tecnológica Nacional Facultad Regional Buenos Aires Tesis de Magister en Ingeniería en Sistemas de Información Detección de Patrones de Daños y Averías en la Industria Automotriz Directora:

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio

Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio Revista de Investigación ULASALLE, Rev Inv ULASALLE, Número 1, 2012 (55-64) Universidad La Salle Arequipa, Perú Propuesta de un modelo basado en redes neuronales para la detección de riesgo crediticio

Más detalles

Segmentación y predicción en los modelos de tarificación

Segmentación y predicción en los modelos de tarificación Segmentación y predicción en los modelos de tarificación Caro Carretero, Raquel. rcaro@doi.icai.upcomillas.es Departamento de Organización Industrial Universidad Pontificia Comillas. ICAI RESUMEN El análisis

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval.

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval. Título Estudio Estadístico de Base de Datos Comercial de una Empresa Distribuidora de Energía Eléctrica. Nº de Registro 231 Empresa o Entidad C.A Electricidad de Valencia Autores del Trabajo Nombre País

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Contenido. - Filosofía. - El Sistema. - Estructura. - Apoyo móvil. - Aplicaciones. - Características sobresalientes. - Beneficios del sistema

Contenido. - Filosofía. - El Sistema. - Estructura. - Apoyo móvil. - Aplicaciones. - Características sobresalientes. - Beneficios del sistema Contenido - Filosofía - El Sistema 1 2 - Estructura - Apoyo móvil - Aplicaciones - Características sobresalientes - Problemas frecuentes que soluciona - Beneficios del sistema 3 4 5 6 7 8 - Por qué Neural?

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Investigación de Operaciones. Carrera: Ingeniería en Sistemas Computacionales

1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Investigación de Operaciones. Carrera: Ingeniería en Sistemas Computacionales 1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: (Créditos) SATCA 1 Investigación de Operaciones SCC-1013 2-2 - 4 Ingeniería en Sistemas Computacionales 2.- PRESENTACIÓN

Más detalles

Algoritmos genéticos como métodos de aproximación analítica y búsqueda de óptimos locales

Algoritmos genéticos como métodos de aproximación analítica y búsqueda de óptimos locales Algoritmos genéticos como métodos de aproximación analítica y búsqueda de óptimos locales Jorge Salas Chacón A03804 Rubén Jiménez Goñi A93212 Juan Camilo Carrillo Casas A91369 Marco Vinicio Artavia Quesada

Más detalles

REDES AUTOORGANIZATIVAS II

REDES AUTOORGANIZATIVAS II Tema 5: Redes Autoorganizativas Sistemas Conexionistas 1 REDES AUTOORGANIZATIVAS II 1. Leyes de Grossberg. 1.1. Red de Contrapropagación. - Estructura. - Funcionamiento. - Limitaciones y Ventajas. 2. Teoría

Más detalles

Datamining Introducción

Datamining Introducción Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas Datamining Introducción Yerko Halat 2 de Octubre del 2001 1 Cuál es la diferencia entre

Más detalles

Carlos Daniel Quattrocchi

Carlos Daniel Quattrocchi PRESENTA Lic. Héctor Iglesias Licenciado en Informática. Profesional independiente, ha desempeñado la actividad en informática desarrollando e implementando sistemas, capacitando y asesorando a numerosas

Más detalles

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas...

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... , INDICE Introducción, ; XVII Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... Aproximación al concepto de minería de datos... El proceso de extracción del conocimiento... Técnicas de minería

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE TRAINING 2007 APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE Fundamentos en el Uso y Aplicaciones con SPSS Introducción a la Sintaxis Estadísticas

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

ENSIA 605 Inteligencia de Negocios y Minería de Datos

ENSIA 605 Inteligencia de Negocios y Minería de Datos ENSIA 605 Inteligencia de Negocios y Minería de Datos Profesor: Jaime Miranda P. E mail profesor: jmirandap@fen.uchile.cl OBJETIVOS DEL CURSO OBJETIVO GENERAL Estudiar, analizar, diseñar y aplicar tecnologías

Más detalles

Estadística. Material docente de la UOC. Ángel A. Juan Blanca de la Fuente Alicia Vila PID_00159944

Estadística. Material docente de la UOC. Ángel A. Juan Blanca de la Fuente Alicia Vila PID_00159944 Estadística Ángel A. Juan Blanca de la Fuente Alicia Vila PID_00159944 Material docente de la UOC CC-BY-SA PID_00159944 Estadística Ángel A. Juan Blanca de la Fuente Alicia Vila Licenciado en Matemáticas

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica. Grupo de Política y Gestión Tecnológica. Universidad Pontificia Bolivariana Medellín.

Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica. Grupo de Política y Gestión Tecnológica. Universidad Pontificia Bolivariana Medellín. Bogotá 15 y 16 de Agosto de 2008 EXTRACCIÓN DE PATRONES DE LA ENCUESTA ANUAL MANUFACTURERA COLOMBIANA EMPLEANDO INTELIGENCIA ARTIFICIAL Luis Felipe Duque Álvarez. Estudiante de Ingeniería Electrónica.

Más detalles

Vanesa Berlanga Silvente, María José Rubio Hurtado, Ruth Vilà Baños, Cómo aplicar árboles de decisión en SPSS

Vanesa Berlanga Silvente, María José Rubio Hurtado, Ruth Vilà Baños, Cómo aplicar árboles de decisión en SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo aplicar árboles de decisión en SPSS. Vanesa Berlanga Silvente, María José Rubio Hurtado, Ruth Vilà Baños Fecha de presentación:

Más detalles

I SEMANA ELECTRONICA REDES NEURONALES

I SEMANA ELECTRONICA REDES NEURONALES UNIVERSIDAD NACIONAL SAN ANTONIO ABAD A DEL CUSCO CARRERA PROFESIONAL DE INGENIERIA ELECTRONICA I SEMANA ELECTRONICA REDES NEURONALES Ing. Avid idromán González Se trata de una nueva forma de computación

Más detalles

04/11/2008. Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining

04/11/2008. Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining 04/11/2008 Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining Business Intelligence Qué es Business Intelligence? Business Intelligence Qué es

Más detalles

Inteligencia Artificial para desarrolladores Conceptos e implementación en C#

Inteligencia Artificial para desarrolladores Conceptos e implementación en C# Introducción 1. Estructura del capítulo 19 2. Definir la inteligencia 19 3. La inteligencia de los seres vivos 22 4. La inteligencia artificial 24 5. Dominios de aplicación 26 6. Resumen 28 Sistemas expertos

Más detalles

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare.

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare. Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas Congreso de RR.HH. De Costa Rica 30/10/2012 Prof. Lic. Juan M. Bodenheimer jb@instare.com Nuestra Agenda

Más detalles