Business Intelligence en la Estadística

Transcripción

1 Business Intelligence en la Estadística Beltrán Pascual, Mauricio Jiménez Galán, Diego Martínez García, José Antonio Instituto de Estadística de La Rioja ( Resumen: La Base de Datos Multidimensional de La Rioja utiliza la tecnología Business Intelligence a través de la herramienta informática Pentaho, en torno a la cual se aglutina información estadística referida al Comercio Exterior, encuestas y datos municipales de esta comunidad autónoma. Gracias a la navegación OLAP (On Line Analytical Processing) se permite la consulta personalizada de los datos, que el usuario puede adaptar a sus necesidades concretas sin necesidad de conocimientos informáticos. Como valor añadido, aportamos la posibilidad de crear gráficos y mapas tanto en Comercio Exterior como en datos municipales y un servicio de suscripción a noticias sobre la actualización de datos mediante RSS. La consulta de la información se hace vía web y permite tener varios usuarios con distintos roles y privilegios en función de la información a la que se tiene acceso. La adición de datos se realiza a través de procesos de carga automatizados, transformando ficheros de microdatos en datos entendibles para el usuario. En la actualidad también se está desarrollando la automatización de informes mediante herramientas de Reporting y la utilización del Data Mining a través del programa Weka. Palabras claves: Business Intelligence, Pentaho, OLAP, Data Warehouse, Data Mining, Weka

2 ÍNDICE 1) Conceptos y definición de Business Intelligence. 2) Definición de Pentaho. 3) Data Warehouse y Base de Datos Multidimensional. 4) Herramienta ETL. 5) Cubos OLAP y Pentaho Design Studio. 6) Creación de informes y Pentaho Reporting. 7) Técnicas de Minería de Datos. 8) Un ejemplo de minería de datos aplicado a los municipios de La Rioja. 1. Conceptos y definición de Business Intelligence Las organizaciones de estadística y servicios de estudios, tanto públicos como privados, han ido acumulando una ingente cantidad de datos, sin reparar, muchas veces, en su total utilidad práctica y en la valiosa información que se esconde detrás de los datos. Por ello, actualmente es imprescindible su procesamiento con el fin de disponer de información estadística oportuna, accesible y clara, que aporte un amplio conocimiento de la realidad y permita apoyar y monitorizar la toma de decisiones en aspectos relacionados con el diseño e implementación de actuaciones encaminadas a optimizar múltiples aspectos de nuestra realidad socio-económica. El Business Intelligence (en adelante BI), en un sentido amplio, se puede afirmar que es la clave para llevar a las organizaciones al éxito, dado que implica unir a las personas, a la información y a la tecnología en un marco de referencia común para buscar soluciones con la implicación de todos los agentes y los medios disponibles. Se podría decir que es un concepto multifacético que se utiliza para distinguir un amplio rango de tecnologías, plataformas de software, desarrollos informáticos y procesos. Va dirigido a cumplir tres diferentes objetivos: tomar mejores decisiones de forma rápida, convertir los datos en información útil, accesible y valiosa y utilizar un método razonable para la gestión de la organización de acuerdo, evidentemente, con los fines que marca su función. Las organizaciones de estadística se encuentran en un lugar privilegiado para abordar el salto cualitativo que la sociedad ya está vislumbrando: el paso de la sociedad de la información a la sociedad del conocimiento. En este proceso estas instituciones son actores singulares ya que disponen de la visión, de la información, de los métodos y de los recursos humanos para llevar a cabo esta función y trasladarla a buen puerto. Desde una óptica más orientada a la gestión informática, las aplicaciones de BI son herramientas de soporte de decisiones que permiten en tiempo real, el acceso interactivo, el análisis y la manipulación de información crítica para la empresa. Estas aplicaciones proporcionan a los usuarios un mayor entendimiento que les permite identificar las oportunidades y los problemas de los negocios. Los usuarios son capaces de acceder y apalancar una vasta cantidad de información y analizar sus relaciones y entender las

3 tendencias que últimamente están apoyando las decisiones de los negocios. Estas herramientas previenen una potencial pérdida de conocimiento dentro de la empresa que resulta de una acumulación masiva de información que no es fácil de leer o de usar. Las herramientas de software de BI son usadas para acceder a los datos de los negocios y proporcionar informes, análisis, visualizaciones y alertas a los usuarios. La gran mayoría de las herramientas de BI son usadas por usuarios finales para acceder, analizar e informar sobre las estructuras que se esconden en los datos que más frecuentemente residen en Data Warehouse, Data Marts y almacenes de datos operacionales. Los desarrolladores de aplicaciones usan plataformas de BI para desarrollar y desplegar aplicaciones (las cuales no son consideradas herramientas de BI). Las plataformas de BI se usan principalmente para analizar aplicaciones complejas con muchos cálculos (por ejemplo, rentabilidad de un producto) o para crear aplicaciones amigables para usuarios ocasionales. Durante el periodo formativo, las organizaciones han descubierto activamente nuevas maneras de usar sus datos para apoyar la toma de decisiones, realizar una optimización de procesos y elaborar reportes operacionales. Y durante esta era de invenciones, los desarrolladores de tecnología de BI han construido nichos de software para implementar cada nuevo patrón de aplicaciones que las compañías inventan. Estos patrones de aplicación dan lugar a productos de software centrados exclusivamente en cinco estilos de BI tales como: - Reporte empresarial. Los reportes escritos son usados para generar reportes estáticos altamente formateados destinados a ampliar su distribución con mucha gente. - Cubos de análisis. Los cubos basados en herramientas de BI son usados para proveer capacidades analíticas a los administradores de negocios. - Vistas Ad Hoc Query y análisis. Las herramientas OLAP relacionales son usadas para permitir a los expertos visualizar la base de datos y ver cualquier respuesta y convertirla en información transaccional de bajo nivel. - Data Mining y análisis estadísticos. Son herramientas usadas para desempeñar modelado predictivo o para descubrir la relación causa efecto entre dos métricas. - Entrega de informes y alertas. Los motores de distribución de informes son también son usas para este fin de forma mucho más eficiente y completa. 2. Definición de Pentaho. La plataforma Open Source Pentaho Business Intelligence cubre muy amplias necesidades de análisis de los datos y de la realización de informes. Las soluciones de Pentaho están escritas en Java y tienen un ambiente de implementación también basado en Java. Esto hace que Pentaho sea una solución muy flexible para cubrir una extensa gama de necesidades, tanto las típicas como las sofisticadas y especificas. Los módulos de la plataforma Pentaho BI son: - Integración de Datos - se realiza con una herramienta Kettle ETL (Pentaho Data Integration) que permite implementar los procesos ETL. Últimamente Pentaho lanzó una nueva versión - PDI 3.0 que marcó un gran paso adelante en OSBI ETL y que hizo de Pentaho Data Integration una alternativa interesante para las herramientas comerciales.

4 - Diseño de cubos OLAP - mediante Pentaho Design Studio se facilita el tratamiento de los archivos XML que definen la estructura de los cubos y las consultas que facilitan el acceso a zonas de datos concretos. - Reporting - este módulo para crear informes ofrece la solución adecuada a las necesidades de distintos usuarios. Pentaho Reporting es una solución basada en el proyecto JFreeReport, que permite generar informes de forma ágil y con gran capacidad. Además, posibilita la distribución de los resultados del análisis en múltiples formatos. Concretamente, todos los informes incluyen la opción de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho permiten también la programación de tareas y la ejecución automática de informes con una determinada periodicidad.

5 El aspecto final de un informe hecho con Pentaho sería el siguiente: - Análisis - Pentaho Análisis suministra a los usuarios un sistema avanzado de análisis de información. Con el uso de las tablas dinámicas (pivot tables, crosstabs), generadas por Mondrian y JPivot, el usuario puede navegar por los datos, ajustando su visión, los filtros de visualización, añadiendo o quitando los campos de agregación. Los datos pueden ser representados en una forma de SVG o Flash, los dashboards widgets, o también integrados con los sistemas de minería de datos y los portales web (portlets). Además, con el Microsoft Excel Analysis Services, se puede analizar los datos dinámicos en Microsoft Excel (usando la conexión a OLAP server Mondrian). - Dashboards - todos los componentes del módulo Pentaho Reporting y Pentaho Análisis pueden formar parte de un Dashboard. En Pentaho Dashboards es muy fácil incorporar una gran variedad de tipos de gráficos, tablas y velocímetros (dashboard widgets) e integrarlos con los Portlets JSP, donde podrá visualizar informes, gráficos y análisis OLAP.

6 - Data Mining - la minería de datos en Pentaho se realiza con el programa Weka. 3. Data Warehouse y Base de datos Multidimensional Según la definición clásica, un Data Warehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un Data Warehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de BI. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc.). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

7 Fuente: Elaboración propia El término Data Warehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el propio Bill Inmon, un Data Warehouse se caracteriza por ser: Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del Data Warehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar. Histórico: el tiempo es parte implícita de la información contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No volátil: el almacén de información de un Data Warehouse existe para ser leído, pero no modificado. La información es por tanto permanente. De modo que, la actualización del Data Warehouse significa la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.

8 La adaptación de este modelo típico de la empresa a las características y necesidades de un instituto de estadística no precisa de grandes modificaciones. Las fuentes de información son muchas y se ajustan a diferentes formatos. La utilidad de los procesos ETL mantiene su importancia y el Data Warehouse o almacén de datos sigue siendo aquí el núcleo básico para contener la información estadística que permitirá obtener productos más elaborados. Fuente: Elaboración propia El Data Warehouse de La Rioja está ubicado físicamente en la base de datos Oracle. Se divide en tres apartados: Municipal, Comercio Exterior y Encuestas. En el apartado Municipal se aglutina información estadística referida a población, catastro, equipamiento, presupuestos, movimiento natural de la población, empleo, turismo, deporte, educación, agricultura y ganadería de nuestra comunidad autónoma. Su consulta permite estudiar el comportamiento de dichos datos a través del tiempo, además de ilustrarlos con elementos gráficos. La información sobre el Comercio Exterior se divide en dos partes en función del ámbito temporal sujeto a estudio. De esta forma se permite el análisis mensual, que facilita el acercamiento más actualizado, y el anual, que hace posible la observación de este fenómeno con una perspectiva más amplia. En el acceso web, como sucede en el apartado municipal, el usuario dispone de herramientas gráficas que le permitirán obtener mapas de distintas áreas geográficas relacionados con esta información. Por último, se dispone del apartado de encuestas. En él tenemos actualmente datos de las encuestas de I+D, EPA, Presupuestos Familiares y Condiciones de Vida. Se trata de un sector de información muy interesante para el Instituto de Estadística de La Rioja, que esperamos que permita hacer más eficaz el tratamiento, tabulación y difusión de encuestas. En base a lo citado anteriormente, la Base de Datos Multidimensional de La Rioja ofrece información y gráficos que pueden ser consultados y descargados a través de la web del Gobierno de La Rioja, dentro de la sección de Estadística ( Una vez en esta área, hay caminos en forma de pestañas para el acceso a los distintos apartados descritos anteriormente.

9 Las fuentes de información son principalmente el Instituto Nacional de Estadística, la Consejería de Agricultura, Ganadería y Desarrollo Rural, la Dirección General del Catastro, el Observatorio de Empleo y la Consejería de Educación, Cultura y Deporte, Dirección General de Tráfico, Banco de España, etc. Sus principales características frente a otras bases de datos son las siguientes: Desglose mucho mayor por zonas geográficas BDM frente a BD relacionales (navegación por los datos y diseño personal de la consulta) Entorno gráfico ameno y exportable Otras ventajas (automatización y actualización inmediata) Esta base de datos utiliza la tecnología Business Intelligence a través de la herramienta informática Pentaho para aglutinar la información estadística de forma que se facilite su explotación. Gracias a la navegación OLAP (On Line Analytical Processing) se permite la consulta personalizada de los datos, que el usuario puede adaptar a sus necesidades concretas sin necesidad de conocimientos informáticos. Añadido a esto, se aporta la posibilidad de crear gráficos y mapas así como un servicio de suscripción a noticias sobre la actualización de datos mediante RSS. Los mapas constituyen un valor añadido de esta base de datos, que están desarrollados por la Agencia del Conocimiento y la Tecnología a partir del programa informático denominado IDE Rioja, el cual ha sido ampliamente reconocido y premiado. La consulta de la información se hace vía web y permite tener varios usuarios con distintos roles y privilegios en función de la información a la que se tiene acceso. Productores y usuarios de la información estadística son los encargados de la eficiencia, efectividad y éxito de la misma, unos por su rol de producirla y otros por su rol de usarla bien. La existencia de una cultura organizacional en este tema es condición básica para ambas tareas. 4. Herramienta ETL. Destacaremos el módulo Pentaho Data Integration por ser la utilidad básica para el tratamiento de información estadística y el que entendemos que más fácilmente puede adaptarse a las necesidades de cualquier instituto de estadística. Pentaho Data Integration, también conocido como Kettle (acrónimo recursivo: "Kettle Extraction, Transformation, Transportation, and Load Environment") incluye la herramienta Spoon, que es el diseñador gráfico de Transformaciones y Trabajos del sistema de ETTL de Pentaho. Está diseñado para ayudar en los procesos ETTL, que incluyen la Extracción, Transformación, Transporte y Carga de datos. Es una Interfaz Gráfica de Usuario (GUI), que permite diseñar Transformaciones y Trabajos que se pueden ejecutar con las herramientas de Kettle (Pan y Kitchen). Pan (cazuela o cacerola en inglés) es un motor de transformación de datos que realiza muchas funciones tales como lectura, manipulación y escritura de datos hacia y desde varias fuentes de datos. Kitchen (cocina en inglés) es un programa que ejecuta los Trabajos diseñados por Spoon en XML o en un catálogo de base de datos. Los Trabajos normalmente se planifican en modo batch (por lotes) para ejecutarlos automáticamente en intervalos regulares. Las Transformaciones y Trabajos se pueden describir usando un archivo XML o se pueden colocar en un catálogo de base de datos de Kettle. Luego Pan o Kitchen pueden leer los datos para ejecutar los pasos que se describen en la Transformación o ejecutar el Trabajo. En resumen, PDI facilita la construcción, actualización y mantenimiento de Data Warehouses.

10 Esta es la apariencia que tienen los Trabajos y Transformaciones realizados con esta utilidad: Las Transformaciones y Trabajos se componen de diferentes pasos. Por lo general, los pasos que componen un trabajo suelen ser transformaciones ejecutadas en secuencia, aunque también pueden incluirse otros pasos auxiliares como retrasos (delay), avisos, etc. Cada uno de estos pasos se unen mediante saltos (líneas con dirección) formando un flujo que tomará los datos, los transformará y transportará para facilitar la carga en las bases de datos del Data Warehouse. Dentro de la secuencia habitual de trabajo en el Instituto de Estadística utilizamos esta herramienta para la creación de las tablas de dimensión y tablas de hechos. Con estas tablas creadas podemos adjudicar los diferentes identificadores a las medidas que se incluyen en los ficheros de microdatos. Estas tablas contienen la información estadística que vamos a manejar en los accesos OLAP y contienen la jerarquización, estructura y valores que vamos a emplear a la hora de diseñar los cubos con la herramienta Pentaho Design Studio. Dada la versatilidad y potencia de PDI, resulta una utilidad interesante en el trabajo cotidiano que se realiza en un instituto de estadística, independientemente de que la entidad utilice o no el resto de herramientas que ofrece el BI. 5. Cubos OLAP y Pentaho Design Studio. OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes bases de datos.

11 La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP (On-Line Transaction Processing) pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP, que es la mejor opción para operaciones de tipo INSERT, UPDATE y DELETE. Una vez determinada la utilización de este tipo de acceso a los datos y disponiendo de Pentaho para realizar su desarrollo, usaremos Design Studio (basado en Eclipse) para definir nuestros cubos OLAP. Esta herramienta contiene una colección de editores, visores y módulos de administración integrados en una sencilla aplicación con un entorno de desarrollo gráfico que permite construir y probar los distintos elementos que componen este método de acceso a la información. La definición del esquema se realiza en formato XML dentro de un archivo de extensión mondrian.xml. En este mismo archivo podemos definir uno o más cubos con las dimensiones y niveles que queramos hacer visibles a los diferentes usuarios de la información. Las consultas se definen en el editor de Action Sequence mediante la creación de dos archivos. El principal es el de extensión xaction donde se describe la consulta y el secundario de extensión properties en el que quedan definidas algunas características básicas de la consulta como autor, título, etc. Una vez que ya tenemos la información en nuestras bases de datos y definidos los elementos descritos anteriormente sólo nos resta refrescar el servidor para tener acceso. Esta es la apariencia que tiene una consulta de acceso:

12 Podemos ver en este punto algunas de las posibilidades que ofrece este tratamiento de los datos. Por un lado, tenemos las medidas (columna de la derecha) y, por otro lado, las dimensiones (resto de columnas). También podemos ver una serie de iconos que permiten modificar la consulta, cambiar la forma de navegación, filtrar información, obtener elementos gráficos, exportar a otros formatos (Excel y PDF), etc. En la difusión de información estadística que hacemos desde la web incorporamos un manual que describe cada una de las partes con las que el usuario puede actuar para personalizar su consulta y obtener el mayor rendimiento. En otro documento describimos la propia información, detallando cada una de sus particularidades. Por ultimo, incorporamos un servicio de suscripción a noticias referentes a la incorporación de nuevos datos mediante RSS. De este modo, facilitamos el acceso de nuestros usuarios a la información con la mayor rapidez posible. A modo de ejemplo, el tiempo que puede transcurrir desde que DG de Aduanas pone a disposición en su web los archivos de Comercio Exterior hasta que el usuario tiene noticia de que están a su disposición sería inferior a una hora. 6. Creación de informes y Pentaho Reporting. El uso de informes es común a todo tipo de organizaciones, independientemente de que se trate de empresas, administraciones o institutos de estadística. Esta necesidad hace interesante disponer de herramientas que faciliten su creación y reduzcan en la medida de lo posible el esfuerzo y la dedicación de personal. La posibilidad de personalización del informe, la sencillez de su modificación y las mejoras a la hora de difundir los reports son otras claves que invitan a su utilización. Pentaho Reporting es el módulo de la suite que utilizamos con los fines anteriormente expuestos. Permite a las organizaciones un sencillo acceso a los datos, grandes posibilidades a la hora de elegir distintos formatos y layouts, medios de distribución de la información a los diferentes usuarios y mejoras de eficiencia a la hora de desarrollo. En Pentaho Reporting encontramos un escritorio autónomo que nos facilita el despliegue del informe de forma flexible y sencilla. En el report podemos acceder a datos estructurados de forma relacional, OLAP o basada en XML. Una vez obtenido el producto, lo podemos exportar a los formatos más populares (PDF, HTML, Microsoft Excel, RTF o texto plano). Permite reports Ad-Hoc basados en Web para usuarios que necesiten enfocar el informe de forma más precisa. En resumen, podemos decir que se adapta de forma sencilla, funcional y sostenible a las necesidades de reporting que tienen gran cantidad de organizaciones.

13 En el Instituto de Estadística de La Rioja las necesidades de informes tenían fundamentalmente tres apartados: informes económicos, fichas municipales y monográficos periódicos (afiliados a la Seguridad Social, encuestas INE, información de coyuntura económica, indicadores sociales, Comercio Exterior, etc.). Esta es una muestra de los productos que hemos obtenido:

14 7. Técnicas de minería de datos La gran cantidad de datos que se crean en las actividades que desarrollamos como seres humanos se encuentran almacenados en grandes bases datos y se multiplican rápidamente. Esto es cierto para casi todos los sectores de la actividad pero, aún es más cierto, en las empresas tanto públicas como privadas, locales o multinacionales. Sin embargo, se puede afirmar que este incremento espectacular de datos almacenados no ha supuesto un significativo aumento de la información disponible para la empresa (el bosque no deja ver los árboles) ni, en general, se ha traducido en un incremento de la rentabilidad de las compañías. Con el objetivo de optimizar todo el conocimiento existente en la información disponible, hay que utilizar un conjunto de técnicas que se han resumido en la literatura en el concepto de minería de datos o Data Mining. El término Data Mining engloba un conjunto de algoritmos con un objetivo común, identificar de una forma automática patrones que proporcionen información relevante y útil contenida en una gran cantidad de datos. La minería de datos es una parte de un proceso más general que se denomina Descubrimiento de conocimiento en las bases de datos (Knowledge Discovery in Databases o KDD), concepto que proviene de la inteligencia artificial, si bien, en la mayor parte de la bibliografía sobre el tema el concepto de Data Mining toma el significado global del proceso. Fases del proceso de KDD (Knowledge Discovery in Databases) Una definición más general de la minería de datos es referirse a ella como la extracción no trivial de la información implícita, previamente desconocida y potencialmente útil, a partir de los datos. El Data Mining siempre intenta descubrir los patrones, perfiles y tendencias presentes y significativas ocultas en los datos trabajando con tecnologías de reconocimientos de patrones, como las redes neuronales, máquinas de aprendizaje, algoritmos genéticos, etcétera. El Data Mining puede dar respuesta a múltiples preguntas vitales que se plantean muy a menudo en los negocios: quiénes son mis mejores clientes y cómo puedo fidelizarlos?, qué estrategias puedo diseñar para aumentar mi cuota de mercado?, cómo optimizar mi inventario?, quiénes son los visitantes de mi sitio Web?, y otras muchas más preguntas importantes relativas al mundo de la gestión empresarial. Las relaciones del Data Mining con la estadística, la inteligencia artificial y las bases de datos son evidentes. Muchos de sus algoritmos, procedimientos, técnicas y metodología son iguales en esencia, aunque, muchas veces, se denominen con otros nombres. No obstante, el Data Mining presenta características útiles e interesantes que lo hacen atractivo. De forma general, se puede afirmar que para la resolución de problemas, muy a menudo complejos, se utilizan

15 varios procedimientos dada la complementariedad de las técnicas en la solución de los mismos. El conjunto de problemas que aborda el Data Mining se pueden solucionar con diversas técnicas que se agrupan en los siguientes seis grandes grupos: Técnicas descriptivas, resúmenes e informes, segmentación, descripción de conceptos y clases, clasificación, predicción y análisis de dependencia. A continuación, y a modo de resumen, se enumeran las técnicas más habituales que se utilizan en Data Mining, algunas de las cuales se describirán posteriormente: Descripción de los datos del Data Mining Resúmenes y gráficos Clustering Análisis de enlaces Predicción Data Mining Reglas de decisión Clasificación Regresión Series temporales Modelos de Data Mining y algoritmos Redes neuronales Árboles de decisión Regresión multivariante adaptativa (Sistema Bayesiano) Inducción de reglas K-nearest neighbor and memory-based reasoning (MBR) (Cluster) Regresión logística Análisis discriminante Modelos generalizados aditivos (Modelo ANOVA) Boosting Métodos de búsqueda aleatoria: Algoritmos genéticos, algoritmos evolutivos y el recocido simulado. En este trabajo se describen brevemente cuatro técnicas ampliamente utilizadas: los árboles de decisión, las redes neuronales, los algoritmos genéticos y las reglas de asociación. Árboles de decisión Los árboles de decisión son particiones secuenciales de un conjunto de datos que maximizan las diferencias de la variable dependiente. Ofrecen una forma concisa de definir grupos que son consistentes en sus atributos pero que varían en términos de la variable dependiente. Esta herramienta puede emplearse tanto para la resolución de problemas de clasificación como de regresión: árboles de clasificación y árboles de regresión. Mediante esta técnica se representan de forma gráfica un conjunto de reglas sobre las decisiones que se deben de tener en cuenta para asignar un determinado elemento a una clase (valor de salida). En los árboles de decisión se encuentran los siguientes componentes: nodos, ramas y hojas. Los nodos son las variables de entrada, las ramas representan los posibles valores de la variable de entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de un árbol de decisión se tiene el llamado nodo raíz que va a representar a la variable de mayor relevancia en el proceso de clasificación. Los múltiples algoritmos de los que se dispone, o bien solos o bien integrados en diferentes paquetes informáticos, son los que determinan o generan el procedimiento de cálculo que establece el orden de importancia de las variables en cada interacción. También se pueden imponer ciertas limitaciones en el número de ramas en que se divide cada nodo.

16 Los algoritmos más utilizados son los siguientes: CART, acrónimo de Classification And Regression Trees (Árboles de decisión y de regresión), CHAID, acrónimo de Chi-squared Automatic Interaction Detection (detector automático de interacciones mediante χ2 cuadrado), QUEST, el algoritmo QUEST, que al igual que los dos anteriores están ya implementados en múltiples programas es el acrónimo de Quick, Unbiased, Efficient Statistical Tree (árbol estadístico eficiente, insesgado y rápido y el C5.0, que está basado en el concepto de ganancia de información. Redes neuronales Las redes neuronales tratan de emular el comportamiento cerebral. Existen actualmente más de 40 paradigmas de redes neuronales artificiales. Se estima que tan sólo cuatro arquitecturas: el modelo perceptrón multicapa (MLP), los mapas autoorganizados de Kohonen, (SOFM), el vector de cuantificación (LVQ) y las redes de base radial (RBF) cubren, aproximadamente, el 90% de las aplicaciones prácticas de redes neuronales. El modelo más utilizado es el perceptrón multicapa, que abarca el 70%, dado que este modelo es un aproximador universal de funciones. Una red neuronal puede describirse mediante cuatro conceptos: el tipo de modelo de red neuronal; las unidades de procesamiento que recogen información, la procesan y arrojan un valor; la organización del sistema de nodos para transmitir las señales desde los nodos de entrada a los nodos de salida y, por último, la función de aprendizaje a través de la cual el sistema se retroalimenta. El elemento básico de una red neuronal es un nodo. Es la unidad de procesamiento que actúa en paralelo con otros nodos de la red. Es similar a la neurona del cerebro humano: acepta inputs y genera outputs. Los nodos aceptan inputs de otros nodos. La primera tarea del nodo es procesar los datos de entrada creando un valor resumen que es la suma de todas las entradas multiplicadas por sus ponderaciones. Este valor resumen se procesa a continuación mediante una función de activación para generar una salida que se envía al siguiente nodo del sistema. Las funciones de activación más utilizadas son: la función escalón, la función identidad, la función sigmoide o logística y la tangente hiperbólica. Se considera una red neuronal la ordenación secuencial de tres tipos básicos de nodos o capas: nodos de entrada, nodos de salida y nodos intermedios (capa oculta o escondida). Los nodos de entrada se encargan de recibir los valores iniciales de los datos de cada caso para transmitirlos a la red. Los nodos de salida reciben entradas y calculan el valor de salida (no van a otro nodo). En casi todas las redes existe una tercera capa denominada oculta. Este conjunto de nodos utilizados por la red neuronal, junto con la función de activación posibilita a las redes neuronales representar fácilmente las relaciones no lineales, que poseen mayor dificultad para las técnicas multivariantes. Se puede decir que una red neuronal tiene tres ventajas que le hacen muy atractiva en el tratamiento de los datos: aprendizaje adaptativo a través de ejemplos, robustez en el tratamiento de información redundante e imprecisa y paralelismo masivo. El método más utilizado en las aplicaciones prácticas de redes neuronales es el perceptrón multicapa, que fue popularizado por Rumelhart, Hinton y Willians (1986). Este modelo de red es conocido también como backpropagation error (propagación del error hacia atrás), también denominado método del gradiente decreciente. La razón de su tremenda utilidad radica en su capacidad de organizar una representación interna del conocimiento en las capas ocultas de neuronas a fin de aprender la relación entre un conjunto de datos de entrada y salida. El perceptrón multicapa es un aproximador universal de funciones. La red backpropagation, conteniendo al menos una capa oculta, es capaz de aprender cualquier tipo de función o relación continua. Esta propiedad convierte a esta red en una herramienta de propósito general. Algoritmos genéticos

17 Estos algoritmos se originaron en los intentos de imitar el comportamiento de las especies (Holland, 1975), a través de ecuaciones matemáticas. Los algoritmos genéticos están inspirados en la solución de problemas que la naturaleza emplea en la evolución de los seres vivos sometiéndolos a diferentes hábitats. Son algoritmos de búsqueda que se basan en el proceso de selección natural y de la genética natural, combinando la supervivencia de los individuos más aptos entre las cadenas de estructuras con un intercambio de información aleatorio. El proceso de optimización del algoritmo comienza con la generación de una población de individuos. Sobre estos individuos se realizan unas definiciones: genoma (todos los parámetros que definen a los individuos de la población), genotipo (la parte del genoma que define a un individuo concreto), fenotipo (es la expresión de un genotipo) y gen (cada uno de los parámetros que define a un individuo). La fase siguiente del proceso es la evaluación en la cual se deja que cada uno de los controladores que constituyen la población actúe controlando el sistema. En la siguiente fase, la selección, se simula el proceso natural de los individuos en cada generación. A esta fase le sigue una secuencia de operadores genéticos que simulan el proceso de reproducción de los seres vivos. Con el genoma final se expresa un fenotipo y se reconstruye cada controlador de la población y se procede a una nueva evaluación. El proceso se repite un número determinado de veces hasta que la evaluación se estabiliza. Los algoritmos genéticos se han utilizado, entre otros temas, en la resolución de problemas relacionados con rutas de transporte, en la gestión de carteras comerciales, en la búsqueda del número ideal de neuronas de la capa oculta, en la estructura de una red neuronal y, en general, en problemas de optimización de sistemas, estando especializados en problemas de optimización con restricciones. Reglas de asociación. El algoritmo a priori. El objetivo de estos algoritmos es encontrar distintas reglas de asociación entre ítems, los cuales, comúnmente, se corresponderán con distintos tipos de productos. Las reglas de asociación nos permitirán predecir patrones de comportamiento futuros sobre ocurrencias simultáneas de productos. El algoritmo a priori que introducen Agrawal, Imielinski y Swami (1993) permite la obtención de dichas reglas de forma eficiente en término de número de operaciones en el ordenador. Como su propio nombre indica, el objetivo de una regla de asociación es detectar ítems que, por algún motivo, se dan de forma conjunta. Un ejemplo comúnmente utilizado se centra en el análisis de las reglas de asociación entre los productos de consumo frecuente que se adquieren en un establecimiento comercial, sea éste un pequeño comercio, un supermercado o un hipermercado. En este contexto, el algoritmo a priori permite predecir de un modo eficiente qué productos se compran conjuntamente y qué productos influyen significativamente en la adquisición de otros complementarios. Este ejemplo puede generalizarse al Comercio Exterior, concretamente, para analizar cuáles son las reglas de asociación entre los productos que se exportan desde cualquier comunidad o país a otros espacios geográficos con el objetivo de apoyar políticas comerciales más eficientes para los empresarios. Una regla de asociación está formada por uno o más antecedentes y una consecuencia. Siendo m el número de antecedentes, en general, una regla de asociación puede representarse del siguiente modo: Consecuencia Antecedente 1 Antecedente 2 Antecedente m. Por ejemplo, sean A y B dos productos antecedente y C la consecuencia, la regla de asociación equivale a: C A B, que implicaría que la compra de A y B (antecedentes) supone que un número elevado de veces también se compre C (consecuencia). Para evaluar la capacidad predictiva de una regla de asociación existen varias medidas, las dos más comunes son el soporte y la confianza. El primero equivale al porcentaje de veces que se adquieren de forma conjunta los productos

18 antecedentes (A y B) sobre el total de compras. La confianza de una regla se calcula como cociente entre el soporte de todos los productos implicados en la regla (A, B y C) y el soporte de los productos antecedentes (A y B) multiplicado por El soporte es una medida de significación estadística de la regla, sin embargo, la confianza mide en qué medida se cumple dicha regla de asociación. La representación de la regla de asociación anterior se amplía del siguiente modo: C A B (Soporte% Confianza). 8. Un ejemplo de minería de datos aplicado a los municipios de La Rioja Para ver las posibilidades de automatización de diferentes análisis estadísticos se ha desarrollado un ejemplo estadístico de clasificación de los municipios de La Rioja de análisis cluster o de conglomerados. El análisis cluster es un nombre genérico que se utiliza para designar un conjunto variado de procedimientos cuya finalidad es asignar de forma empírica, elementos a conglomerados, de tal forma que los elementos de cada conglomerado sean los más parecidos entre sí, a la vez que se intenta maximizar la heterogeneidad de los objetos de los diferentes grupos o conglomerados. La integración del Pentaho con el WEKA se realiza a través de consultas que ofrecen ya los ficheros en un formato que lee directamente el programa de minería de datos (formato arff). En nuestro caso se realiza la consulta de la base de datos municipal y se extrae la información necesaria para la realización de grupos de municipios homogéneos. El programa WEKA es una extensa colección de algoritmos de Máquinas de conocimiento desarrollados por la Universidad de Waikato (Nueva Zelanda) e implementados en Java, útiles para ser aplicados sobre datos mediante los interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además, Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, reglas de asociación y visualización. Weka está diseñado como una herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es una tarea relativamente sencilla. La licencia de Weka es GPL (GNU Public License. lo que significa que este programa es de libre distribución y difusión. Además, Weka es independiente de la arquitectura, ya que funciona en cualquier plataforma donde haya una máquina virtual Java disponible. En el caso del análisis que se desarrolla a continuación, de forma muy sucinta, el código JAVA utilizado es el siguiente: package cluster1; import weka.core.instances; import java.io.bufferedreader; import java.io.filereader; import weka.clusterers.clusterevaluation; import weka.clusterers.clusterer; import java.util.random; public class Main { public static void main(string[] args) { 1 Agrawal et al. (1993) definen el soporte como el porcentaje de veces que se dan de forma conjunta los productos antecedentes y la consecuencia (A, B y C). Sin embargo, para facilitar la interpretación de otras medidas alternativas a la confianza, los programas estadísticos existentes denominan soporte al porcentaje de veces que se dan de forma conjunta los productos antecedentes (A y B).

19 try { BufferedReader reader = new BufferedReader(new FileReader("V:\estadis\PUBLICACIONES\BDM\JECAS 2010\cluster\datos.arff")); Instances data = new Instances(reader); reader.close(); // setting class attribute data.setclassindex(data.numattributes() - 1); ClusterEvaluation eval = new ClusterEvaluation(); Clusterer clusterer = new EM(); clusterer.buildclusterer(data); eval.setclusterer(clusterer); eval.evaluateclusterer(newdata); System.out.println("# of clusters: " + eval.getnumclusters()); } catch (Exception e) { System.out.println("Error no puedo abrir el fichero"); return; } } } Las variables utilizadas en el análisis efectuado han sido las siguientes: altitud del municipio, (ALTITUD), vehículos por mil habitantes, (vehpomilh), bancos por mil habitantes, (banpormilh), porcentaje de extranjeros (extrnporcen), porcentaje de afiliados (afilporcen), índice de juventud (indice_juventud) e índice de vejez (indice_vejez). Para la formación de los conglomerados se utilizaron tanto métodos jerárquicos, en nuestro caso el método de Ward, como no jerárquicos (método K-mean). El proceso de elaboración de los cluster se dio por concluido dado que se cumplía el objetivo para el que fue diseñado y porque ambos métodos empleados presentaban una similar clasificación de los municipios. Una vez elaborados los grupos se realizó un análisis confirmatorio a través de la técnica estadística del análisis discriminante consiguiendo un pronóstico de aciertos muy elevado (para el primer cluster el acierto alcanzó el 96,8%, en el segundo fue del 86,1% y en el último conglomerado subió al 97,3%). Los principales resultados se detallan a continuación donde se resume la información a través de la media y la desviación típica de todas las variables utilizadas para cada uno de los conglomerados. El Cluster número uno, formado por 63 municipios, se caracteriza, en general por encontrarse en el valle del Ebro, tienen una altitud más baja que el resto de los municipios, el porcentaje de extranjeros alcanza una media del 14,50%, el porcentaje de trabajadores afiliados a la Seguridad Social es mayor que en los otros dos conglomerados y el índice de juventud también es superior (16,19%).

20 El segundo conglomerado está formado por 36 municipios que geográficamente se sitúan, la mayoría de ellos, cerca de la sierra. En términos medios, los municipios de esta agrupación están definidos por el mayor porcentaje de bancos por mil habitantes, 7,42 y el mayor índice de vejez de las tres zonas, 37,73%. El tercer grupo lo conforman 75 municipios que se encuentran en buena medida en la zona de la sierra. Este cluster se caracteriza por alcanzar el mayor índice de vehículos por mil habitantes, 930, la tasa más baja de extranjeros, 3,59%, la menor tasa de bancos (sólo seis municipios de este conglomerado dispone de algún entidad bancaria), así como por disponer de un elevado índice de vejez, 34,11%. Fuente: Elaboración propia