Introducción de la Propuesta

Transcripción

1

2 Introducción de la Propuesta La evolución de la tecnología en los años recientes ha provocado cambios drásticos en muchas actividades y zonas geográficas, debido a que ha abierto nuevas posibilidades en la utilización de dispositivos para administrar la información en todas sus formas. La idea del Data Mining no es nueva en el mundo informático. Ya desde los años sesenta los estadísticos utilizaban términos como Data Fishing, Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos. A principios de los años ochenta Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky Shapiro, entre otros, empezaron a consolidar los términos del Data Mining y KDD 1. Actualmente la tecnología ha cambiado vertiginosamente, de manera inimaginable, de tal manera que los recursos tecnológicos nos invaden en todo lugar y las instituciones públicas no son la excepción. Este documento representa el diseño de un manual empleando Data Mining como tecnología informática para predecir el potencial de desarrollo en las empresas de la zona oriental asociadas a la Comisión Nacional de la Micro y Pequeña Empresa Regional San Miguel. A fin de que se aproveche dicha tecnología para seleccionar las empresas que aún no han alcanzado su potencial de desarrollo conforme a los requerimientos básicos de la institución. Por ello, con el diseño del manual se pretende brindar a la institución facilidad de identificación de indicadores provenientes de los datos almacenados en la base de datos, así como también la extracción de estrategias de desarrollo para ejecutar en las empresas que son atendidas

3 5.1 Objetivos de la Propuesta Objetivo General Desarrollar un manual empleando Data Mining (Minería de Datos) para predecir el potencial de desarrollo de las empresas en la zona oriental asociadas a la Comisión Nacional de la Micro y Pequeña Empresa Regional San Miguel, que permitirá incentivar a la institución para utilizar una herramienta informática innovadora donde aporte significativamente a la toma de decisiones con respecto a las empresas atendidas por este Objetivos Específicos Delimitar los objetivos del proyecto de Data Mining con una visión empresarial para su respectiva de ejecución. Identificar los datos más relevantes del proceso. Determinar el modelo para la ejecución del proyecto de Data Mining. Análisis de los resultados obtenidos. 57

4 5.2 Justificación de la Propuesta En la actualidad existe ya dentro de la sociedad un fenómeno denominado sociedad informática, el cual, se multiplica día a día en gran cantidad de datos almacenados. Sin embargo, esta explosión de datos no supone un aumento del conocimiento humano, puesto que resulta imposible procesarlos con métodos clásicos. La información que se genera diariamente en una organización es uno de sus activos principales, por lo que se debe orientar los recursos tecnológicos de manera que ayuden a la administración a tomar decisiones estratégicas y oportunas. La capacidad de solucionar problemas de decisión y la calidad de las decisiones tomadas, en muchas ocasiones tienen grandes repercusiones y llega afectar el funcionamiento de la organización, de modo que estas se enfrentan al dilema de, cuántos más datos están disponibles menos información se tiene. Para enfrentar estos problemas, en los últimos años han surgido una serie de técnicas que facilitan el procesamiento avanzado de los datos y permiten realizar un análisis en profundidad de los mismos de forma automática. La idea clave es que los datos contienen más información oculta de la que se ve a simple vista. El Data Mining ha surgido en el ámbito informático como una tecnología poderosa con un gran potencial para ayudar a las empresas a concentrarse en la información más importante de sus Bases de Datos. Esta tecnología permite predecir futuras tendencias y comportamientos, dando paso a la toma de decisiones proactivas y conducido por un conocimiento acabado de la información, además de buscar patrones ocultos, encontrando información predecible que una persona experta en informática no puede llegar a encontrar porque se encuentra fuera de sus expectativas. La Comisión Nacional de la Micro y Pequeña Empresa cuenta con un aproximado de 5,804 2 empresas (dato actualizado al año 2010) que son atendías con programas de 2 Coordinador CONAMYPE Regional-San Miguel. 58

5 intervención en diversos sectores, estos datos son utilizados únicamente para las consultas de los ya registrados, para consultas de contactos y evaluaciones básicas, no se obtiene un conocimiento extra que permita a los usuarios evaluar una información de donde puedan tomar decisiones favorables para las empresas atendidas. Cabe mencionar que un proyecto de Data Mining no es un sistema automatizado, es una herramienta extra que se utiliza en las empresas para extraer información oculta, en el presente caso, que el proyecto de Data Mining permita predecir el potencial de desarrollo de las empresas que son atendías por la institución. El diseño del manual se utilizará como guía para el usuario, para que en un momento dado que la tecnología sea implementada exista una herramienta para el manejo de la tecnología. 59

6 5.3 Motivación del Proyecto Data Mining surgió como línea de investigación a finales de la década de los 80 s con el propósito de buscar una solución al problema de descubrimiento de conocimiento en bases de datos; el conocimiento adquirido de las bases de datos se utiliza para dar soporte a los procesos de toma de decisiones empresariales. Los veinte años de investigación de Data Mining han dado como resultado un gran número de referencias bibliográficas haciendo énfasis en algoritmos de descubrimiento, sin embargo son escasas las referencias que abordan el problema de aplicación del Data Mining en una institución pública como caso práctico 3. Aunque para ciertos tipos de problemas de Data Mining hay métodos de estimación en fases avanzadas de la ejecución de esta tecnología; cuyos resultados, esfuerzo y tiempo son un tanto más complejos, más sin embargo, se adquirió una motivación grupal por dar énfasis en esta parte de la informática que muy poco se conoce en dicho ámbito. Dado el caso que el presente trabajo es una tesis efectuada por alumnos aún bachilleres, para adquirir el grado profesional de Ingeniería en Sistemas Informáticos, el desarrollo del proyecto en su modalidad de propuesta es básico, por ende, con resultados esenciales para un aprendiz de Data Mining. Esta es la motivación central de este trabajo de tesis, en el que se propone un conocimiento especifico de modelos gerenciales, centralizado en Business Intelligence adquiriendo resultados óptimos de información únicamente almacenada en una base de datos. Para beneficio de la población estudiantil de la Universidad de Oriente, interesados en esta área de la informática; como una guía básica de ejecución de un proyecto de Data Mining

7 Figura 2. Portada del Manual 61

8 5.4 Introducción del Manual El presente manual en donde se emplea la tecnología informática denominada Data Mining (Minería de Datos), permite en este caso, predecir el potencial de desarrollo de las empresas de la zona oriental que son atendidas por la Comisión Nacional de la Micro y Pequeña Empresa (CONAMYPE) en la regional de San Miguel. El objetivo principal del diseño del manual es guiar a la institución en la utilización de una nueva y poderosa tecnología informática, muy poco conocida en la actualidad, más sin embargo, no deja de tener sus elementos importantes e innovadores que automaticen ciertos procesos de una empresa, aparte de lo que puede ejecutar un sistema automatizado. El proyecto se define bajo la predicción del potencial de desarrollo de las empresas que son atendidas por CONAMYPE, donde se ejecuta con la selección de variables claves determinadas dentro de la base de datos, el cual se lleva a cabo en cuatro etapas, llegando así, a un conocimiento oportuno de la información para poder diseñar nuevas estrategias de desarrollo. Data Mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos, este trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, entre otros; donde el descubrimiento del conocimiento en la información es el objetivo a lograr. El manual esta contenido por las generalidades de este, generalidades del Data Mining, los datos y el origen de la información, el procesamiento de los datos, estructura de los datos, inteligencia de negocios, base de datos, minero inteligente, etapas del modelo del Data Mining. 62

9 5.5 Generalidades del Manual A quien va enfocado el manual: El manual empleando Data Mining (Minería de Datos) está enfocado directamente al personal técnico de CONAMYPE así también como al Coordinador que son los que manipulan la información que se obtiene de las empresas que son atendidas por la institución, con el objetivo de apoyar en la toma de decisiones para fijar rumbos o estrategias a seguir dentro de la institución. 5.6 Datos y Origen de la Información El dato es un hecho que describe un suceso o una entidad. La importancia de los datos está en su capacidad de asociarse dentro de un contexto para convertirse en información. Por si mismo los datos son elementos de conocimiento que carecen de significado por sí mismos, por lo tanto no pueden afectar el comportamiento. En cambio la información reduce cierta incertidumbre y, por lo tanto, permite tomar mejores decisiones. Hoy en día, está claro que el almacenamiento de la información es algo sencillo y barato y se trata de una tendencia valida en los próximos años. Los sistemas informáticos cada día van teniendo una capacidad mayor, y lo que ahora es normal encontrar en una computadora personal, quedara obsoleto dentro de unos meses. Este incremento de los sistemas de almacenamiento tiene un efecto que es realmente interesante ya que es poco costoso guardar datos de procesos que realizan los sistemas automatizados como: ventas, inventarios, clientes, etc, por lo que las bases de datos crecen hasta límites inesperados. Cuando se decide iniciar un proceso de almacenamiento de datos, se suele hacer con la intención de analizarlos posteriormente, mas sin embargo, cuando llega el momento, el análisis que se realiza suele ser de manera superficial y guiado por los resultados que se esperan encontrar al analizarlos. Lo normal es utilizar alguna 63

10 herramienta (hoja de cálculo) para localizar correlaciones entre variables, establecer medias e intentar modelar de esta forma la información. Sin embargo, en esos grandes volúmenes de datos existe información que no puede ser encontrada con los procedimientos tradicionales de trabajo. El Data Mining ayuda a dar un paso bastante grande en ese análisis sacando a la luz relaciones ocultas entre los datos: información desconocida que pueda ayudar a gestionar o mejorar los procesos de una empresa. 5.7 Estructura de los Datos Para analizar los datos con fiabilidad es necesario que exista cierta estructuración y coherencia entre ellos. Si el responsable de almacenamiento de la información ha sido siempre la misma persona, es posible que no haya algún tipo de problema y si en un dado caso lo hay pues parte de este se encuentre resuelto. Sin embargo, en general no se da esta situación, al contrario, son muchas las personas que en distintos departamentos y a lo largo del tiempo han ido creando archivos con diferentes tipos de datos, entre otros, y es aquí donde surge la necesidad de conjugar los distintos documentos y bases de datos de manera que se puedan utilizar para extraer conclusiones. Los problemas más comunes que se presentan al no tener definida una estructuración de los datos, se muestran a continuación: - Diferentes tipos de datos representando el mismo concepto. - Diferentes claves para representar el mismo elemento. - Diferentes niveles de precisión al representar un dato 4. La situación no es sencilla, y se agrava más aun cuando los diferentes archivos se encuentran en sistemas automatizados y soportes diferentes. En ciertas ocasiones pueden opinar que los datos están en diferentes archivos porque representan informaciones y procesos distintos, y no tiene sentido alguno estructurar la 4 Data Mining aplicado a la toma de decisiones en Mantenimiento Condicional. Universidad de Sevilla. 64

11 información más allá de lo que ya está, y es posible que si se realiza así, se encuentre con información útil y relevante entregada de forma oportuna. 5.8 Procesamiento de los Datos Los datos necesitan albergarse en un lugar físico para su posterior procesamiento o ejecución. Hasta el momento se ha supuesto que los datos no son tan voluminosos, y por lo tanto caben en memoria, más sin embargo, existen ciertos problemas en donde el volumen de los datos es tan grande que es imposible almacenarlos en memoria. Es por eso que los datos se almacenan en un conjunto de archivos los cuales conforman una Base de Datos. Día con día la cantidad de datos almacenados se multiplica, sin embargo contrariamente a lo que pudiera esperar, esta explosión de datos no supone un aumento de conocimiento ya que resulta casi imposible procesarlos y analizarlos utilizando los métodos tradicionales. Es así que hoy las empresas tienen grandes volúmenes de datos almacenados y organizados pero a los que no se les puede analizar eficientemente debido a la falta de una poderosa herramienta con gran potencial para ayudar a concentrarse en la información más importante de las Bases de Datos. Existen diferentes sentencias de SQL con las cuales se pueden realizar un primer análisis, pero la mayoría de las veces, se requiere de la utilización de herramientas más avanzadas con capacidades de predicción de futuras tendencias y comportamientos, permitiendo que las empresas tomen decisiones proactivas y conducidas por el conocimiento acabado de la información Inteligencia de Negocios (Business Intelligence) En la era de la información las empresas y organizaciones se ven saturadas por grandes volúmenes de información, provenientes del resultados de las operaciones que realizan cada una de ellas, a pesar de tener toda esta información a disposición 5 Data Mining aplicado a la toma de decisiones en Mantenimiento Condicional. Universidad de Sevilla. 65

12 se encuentra la dificultad de poder dar un significado que se punto de apoyo para la toma de decisiones efectivas. La inteligencia de negocios hace referencia a un conjunto de productos o servicios para acceder a los datos, analizarlos y convertirlos en información. Es la manera más valiosa que tiene una empresa para diferenciarse de las demás, consiste en realizar un trabajo de primera con la información 6. Algunos de los beneficios que obtienen las empresas y organizaciones al implementar este sistema son: - Capacidad de análisis - Reducción de costos - Reducción de tiempos de proceso - Búsqueda de patrones y tendencias desconocidos que solo aparecen al momento en que los datos son analizados - Generación de pronósticos, presupuesto y planeación 5.10 Data Mining El Data Mining emerge como una tecnología que ayuda a la compresión de la informática almacenada en la base datos y que a su vez forma parte de una etapa de todo el proceso denominado KDD (Knowledge Discovery from Database ) aunque finalmente se le atribuye todo el significado del proceso en lugar de referirse solo a la etapa. El Data Mining es una tecnología conformada por etapas y que la conforman varias áreas o ciencias y no se debe de confundir con un gran software. Por su gran gama de recursos que posee el Data Mining se pueden concebir nuevas oportunidades de negocio o actualización del mismo entre las posibilidades que ofrece son: 6 Trabajo de Adscripción Minería de Datos. 66

13 Predicción de tendencias y comportamientos Descubrimiento de fraudes por parte de los clientes Marketing como publicidad dirigida a clientes específicos El Data Mining persigue ciertos objetivos: Predicción: el Data Mining puede mostrar el modo en el que actuarán en el futuro ciertos atributos dentro de los datos. Identificación: los patrones de datos pueden utilizarse para identificar la existencia de un artículo, un evento o una actividad Bases de Datos Origen de las Bases de Datos Los orígenes de las bases de datos se remontan hasta el año 1890 cuando el Ingeniero Estadístico Herman Hollerit ( ), quien fue nombrado el primer Ingeniero Estadístico de la historia creó una maquina llamada Máquina Automática Perforada la cual fue usada para el censo que se realizó en Estados Unidos en el año de 1890 y está sirvió para dar resultados en dos años y medio lo que redujo en cuatro años y medio el trabajo de resultados respecto al censo de 1880 que se tardaran siete años en obtener los resultados. En la década de los cincuenta se dio origen a las cintas magnéticas, gracias a este mecanismo se empezó a automatizar la información, la que consistía en leer una cinta o más y pasar los datos a otra, como haciendo un proceso de actualización, estas cintas solo podían leer de forma secuencial y ordenada. En la década de los setenta Edgar Frank Codd definió el modelo relacional en un documento, llamado A Relational Model of Data for Large Shared Data Banks (Un modelo relacional de datos para grandes bancos de datos compartidos) en el que especifico una serie de reglas para la administración de los sistemas de base de datos relacional. 67

14 Se crea el lenguaje SQL (Structured Query Language) que es un lenguaje que analiza grandes cantidades de información la cual permite realizar distintos tipos de operación frente a la misma información Clasificación de las Bases de Datos Las bases de datos se definen como un conjunto de datos que pertenecen al mismo contexto y almacenados de forma sistemática y estructurada para su posterior uso. Las bases de datos dieron un giro estructural sobre cómo se recopilan los datos respecto a los inicios del almacenamiento de información cuando se podían considerar que eran simplemente archivos, lo que dificultaba su acceso y en algunos casos era casi imposible localizar el dato que se requería, esto sin embargo cambio gracias a las bases de datos ya que son su implementación se volvió una tarea más fácil, ordenada, veraz y sobre todo rápida de contar con la información oportuna cuando se necesitara. Los avances que surgieron a lo largo de los años trajeron como consecuencia que las bases de datos se clasificarán con distintos modelos de acuerdo a las necesidades que se requerían. Los modelos más comunes de bases de datos son: Jerárquico En Red Relacional Orientado a Objetos Bases de Datos Jerárquicas Es una estructura de datos que como su nombre lo indica administra la información de forma jerárquica. Los registros se conectan entre sí en una estructura de árbol invertido. Cada registro tiene un nodo padre que puede tener varios nodos

15 hijos, esto se define como una relación de uno a muchos, los nodos que no tienen padre se llaman raíz y los que no tienen hijos se llaman hojas. Bases de Datos en Red Al igual que el anterior modelo de bases de datos se trata de una estructura jerárquica, con la diferencia de que un nodo hijo puede poseer más de un nodo padre, es decir, una relación de muchos a muchos lo que facilita el acceso a los datos, ya que se puede acceder a un nodo por diferentes vías. Base de Datos Relacional Este modelo de base de datos relacional es el más difundido en la actualidad, y el que ofrece una mayor flexibilidad para el manejo de los datos ya que se almacenan en tablas, que está a su vez formada por filas y columnas, donde las filas contienen los registros, las columnas, los campos y denominando a toda la tabla como relación. Para vincular una tabla con otro existe un campo clave que se denomina clave primaria que sirve como enlace de una tabla a otra. Características Una base de datos relacional se componen de varias tablas o relaciones No puede existir dos tablas con el mismo nombre ni registro Cada tabla es a su vez un conjunto de registros (filas y columnas) La relación entre una tabla padre y un hijo se lleva a cabo por medio de las claves primarias y foráneas Las claves primarias son la clave principal de un registro dentro de una tabla y estas deben cumplir con la integridad de datos Las claves foráneas se colocan en la tabla hija, contienen el mismo valor que la clave primaria del registro padre; por medio de estas se hacen las relaciones. 69

16 Base de Datos Orientada a Objetos Un objeto es la representación de algo, tal representación es lo que establece su Identidad, Estado y Comportamiento. El modelo de datos orientado a objetos es una adaptación para aquellos lenguajes de programación orientada a objetos y se basa en encapsular objetos Software para Data Mining Desde la conspiración de los primeros conceptos del Data Mining se ha desarrollado una evolución significativa de dicha tecnología a lo largo de los años y los algoritmos que son utilizados para ello no se han quedado atrás. La mayoría creado hace 30 años otorgando una ventaja para los grandes desarrolladores de software de Data Mining, generando así, datos de alta confiabilidad. Cabe mencionar que el Data Mining no se debe confundir con un gran software, se utiliza software en las diferentes etapas de ejecución del proyecto de este. El Data Mining se divide en las siguientes etapas: Selección de los Datos de entrada Transformación de los datos Data Mining Interpretación de los resultados Entre los desarrolladores de software de Data Mining más importantes se encuentran: Microsoft Oracle IBM Teradata SAP

17 MICROSOFT Microsoft presenta una solución de Data Mining basado en su gestor de base de datos Microsoft SQL Server 2008, que utiliza la plataforma de Business Intelligence Development Studio, que son tipos de proyectos adicionales y específicos de Business Intelligence de SQL Server y que es parte de toda la plataforma de Microsoft Visual Studio SQL Server Business Intelligence Development Studio es el entorno principal que se utiliza para el desarrollo de las aplicaciones y soluciones que envuelvan proyectos de Analysis Services, Integration Services y Reporting Services, a diferencia del SQL Management Studio que funciona nada más para administrar y configurar proyectos ya existentes de Analysis Services para cada proyecto, ofreciendo asistentes, diseñadores, plantillas y herramientas para trabajar con su respectivo objeto A continuación se describen los componentes más importantes del entorno de Business Intelligence Develpment Studio: 71

18 BI Menú Explorador de Solución Ventana de Salida Ventana de Etiquetas Ventana de Diseño Ventana de Propiedades Figura 3. Vista de Software para Data Mining Dónde: Explorador de Solución: esta área es donde se administra y configura la solución del proyecto, así como la creación y administración de los objetos. Ventana de Etiquetas: las etiquetas se establecen justo en la parte superior de la ventana de diseño y permite cambiar rápidamente entre los diseñadores que se tengan disponibles, cada objeto o archivo que está abierto se mostrará en una etiqueta. Ventana de Diseño: aquí se analizan y se editan objetos, lo que permite interactuar directamente con el objeto. Ventana de Propiedades: en esta ventana se muestran las propiedades de los ítems seleccionados y permite que se modifiquen ciertas características como nombre, archivo de origen, tipo de dato entre otras. 72

19 Ventana de Salida: se muestran mensajes de alerta cuando se construye o implementa un proyecto, en caso de que existan errores aquí se enlistan y describe el error. BI Menú: en este panel se encuentran herramientas específicas para los proyectos de Analysis Services. Como parte de las soluciones que provee la plataforma de Business Intelligence, vienen integrados las técnicas para las estructuras del Data Mining, entre las cuales están: - Reglas de Asociación - Clustering - Árboles de Decisión - Regresión Lineal - Regresión Logística - Navie Bayes - Redes Neuronales - Clústeres de Secuencia - Series de Tiempo 9. ORACLE Oracle es considerado como uno de los sistemas de datos más completos en el mercado actual por su gran versatilidad para trabajar en diferentes ambientes con sistemas de almacenamiento de datos. Siendo uno de los principales gestores de datos, presenta una solución integrada en todo su entorno de trabajo. Oracle Data Mining (ODM) es una opción en su versión Oracle Database 11g Enterprise Edition, que permite la creación y extender las aplicaciones que proporcionan análisis predictivos. Oracle permite además que desarrolladores externos puedan crear aplicaciones para optimizar los resultados y mostrarlos en tiempo real en toda la empresa. 9 Data Mining with Microsoft SQL Server

20 Todo esto presenta una ventaja muy marcada, ya que siendo todo esto parte de los servicios que el mismo gestor de Oracle proporciona, simplifica el proceso de extracción del conocimiento puesto que elimina el movimiento de los datos para el proceso de análisis, todos los procedimientos de preparación, creación de modelos y los análisis permanecen en la base de datos, lo que resulta en la automatización y reducción de tiempo de respuesta. Oracle simplifica el trabajo aceptando tablas transaccionales y no transaccionales (resúmenes, registros únicos), todo esto se transforma de forma automática dentro del gestor lo que es una tarea menos para el desarrollador. Oracle proporciona dos algoritmos: - Navies Bayes (Clasificación y Predicción) - Reglas de Asociación Navies Bayes: son técnicas de clasificación y predicción que construye modelos para predecir la probabilidad de posibles resultados. Reglas de Asociación: detectan diferentes eventos que se puedan asociar entre sí, se puede utilizar para encontrar combinaciones en productos de preferencias para clientes. La interfaz que presenta Oracle Miner es una opción más para optimizar los resultados permitiendo a los analistas de datos, acceder a los datos utilizando esta interfaz gráfica para encontrar el conocimiento oculto. IBM La solución que nos presenta IBM se denomina IBM Intelligent Miner for Data (Minero Inteligente de Datos) que comunica las funciones de minería de datos con las de pre-proceso en el servidor. 74

21 El modulo cliente incluye una interfaz desde la cual los analistas de datos pueden realizar, solicitar funciones de un servidor de Intelligent Miner for Data. Los resultados solicitados se presentan al cliente para que los puedan visualizar y analizar siendo claro que funciona bajo la arquitectura Cliente/Servidor. El software ofrecido por IBM puede funcionar bajo diferentes plataformas de sistemas operativos: Solaris Operating Enviroment y Windows. Los módulos que integran el Intelligent Miner for Data son: Interfaz de Usuario: permite definir las funciones de Data Mining desde un entorno gráfico lo que facilita al usuario su manejo. API de capa de entorno: es un conjunto de funciones que controlan la ejecución de procesos y resultados de minería. La API está disponible en todos los sistemas operativos de servidores. Visualizador: herramienta utilizada para visualizar los resultados generados por una función solicitado por los analistas de datos. Acceso a Datos: función que permite navegar por las tablas, planos y bases de datos. Biblioteca de Proceso: biblioteca que proporciona acceso a las funciones de las bases de datos. Bases de Minería: colección de objetos de Data Mining que utilizan para un objetivo de Data Mining. Kernels de Minería: algoritmos que comienzan a operar cuando se utiliza las funciones de Data Mining. Resultados de Minería y Herramientas para Exportación: los datos que se extraen después de llevar a cabo el proceso de Data Mining. 75

22 TERADATA Teradata Corporation es una empresa especializada en la implementación y desarrollo y desarrollo de almacenes de datos y aplicaciones analíticas. Sus productos son comúnmente usados por grandes compañías que utilizan sus soluciones para administrar sus almacenes de datos para análisis y propósitos de inteligencia de negocios. Fundada en 1979, se dedicó a la venta y desarrollo de sistemas de gestión de base de datos relacionales (RDBMS por sus siglas en inglés) empezó como una división de NCR Corporation y en 2007 se convirtió en una compañía independiente con su propia marca. Los almacenes de datos son accedidos por el tipo de conexión ODBC (Open Database Connectivity) o JDBC (Java Database Connectivity) o con su propia aplicación de conexión pudiendo ser ejecutados en sistemas operativos como Microsoft Windows y todas las versiones de UNIX. Teradata Data Mining Services Entre las aplicaciones que ofrece Teradata para los servicios de Data Mining están: Segmentación de Clientes Probabilidad de Compra Posibles Clientes Detección de Fraude Pérdida de Clientes Adquisiciones de Clientes Todos estos servicios se aplican bajo diferentes fases de ejecución y talleres para asegurar un producto final confiable. Los módulos que abarcan los talleres son: Metodologías de Data Mining Preguntas de Negocio y Modelado 76

23 Términos Comunes Analíticos Verificación de Tecnología Análisis y Transformación Metodología para el Desarrollo del Proyecto de Data Mining Son diversas las metodologías que se utilizan para el desarrollo de proyectos de Data Mining tales como: SEMMA (Sample, Explore, Modify, Model, Assess), DMAMC (Definir, Medir, Analizar, Mejorar, Controlar) y CRISP-DM (Cross Industy Standard Process for Data Mining), mas sin embargo una de las metodologías principalmente utilizadas en los ambientes académicos e industriales es la Metodologia CRISP-DM. Por qué CRISP-DM? Otras metodologías se centran más en las características estadísticas de un modelo de Data Mining, mientras que la metodología CRISP-DM posee una visión más amplia respecto a los objetivos del negocio del proyecto, y objetivos propios del Data Mining. Las diferencias surgen desde la primera fase del proyecto de Data Mining puesto que otras metodologías comienzan realizando un muestreo de los datos, mientras que la metodología CRISP-DM inicia realizando un análisis del problema desde el punto de vista de negocios. La metodología CRISP-DM ha sido diseñada como una metodología no vinculada a ningún proveedor de software, por lo que es posible utilizarla con múltiples herramientas de Business Intelligence. Reseña de CRISP-DM Los orígenes de CRISP-DM, se remontan hacia el año 1999 cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca), AG (Alemania),

24 SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS y Daimer-Chrysler, proponen a partir de diferentes versiones de KDD, el desarrollo de una guía de referencia de libre distribución denominada CRISP-DM (Cross Industry Standard Process for Data Mining). CRISP-DM está dividida en fases, la sucesión de fases no es necesariamente rígida. Cada fase es estructurada en varias tareas generales. Las tareas generales se proyectan a tareas específicas, donde finalmente se describen las acciones que deben ser desarrolladas para situaciones específicas. La tabla siguiente resume las fases, actividades y las tareas específicas que propone la metodología CRIP-DM y las que se realizan en el proyecto de Data Mining 11. Etapa Actividad Tarea Específica. ETAPA I. Comprensión del Negocio. Determinar objetivos del negocio. -Escenario Actual. - Objetivos del negocio. -Factores críticos para el éxito del negocio. Evaluación de la situación Determinar los objetivos de minería de datos. -Inventario de Recursos -Requerimientos, expectativas y restricciones -Riesgos y Contingencias -Terminología -Costos y Beneficios. -Objetivos de minería de datos -Factores críticos de 11 Plan para enfocar las campañas bancarias utilizando Data Mining. Universidad de Chile. 78

25 éxito para minería de datos Desarrollar el plan del proyecto -Plan de proyecto -Validación inicial de técnicas y herramientas. ETAPA II. Comprensión de los datos. Recolección Inicial de los datos -Colección inicial de los datos Descripción de los datos -Descripción de los datos relevantes para el proyecto. ETAPA III. Preparación de los datos. Preparación de la colección de datos. -Iniciar el proyecto en BI Dev Studio. - Creación del Origen de Datos. Selección de los datos. - Creación de Vista de Origen de Datos. ETAPA IV. Modelado. Selección de la técnica - Técnica de modelado. de modelado Generar diseño de -Diseño de pruebas. pruebas Construcción del Modelo -Creación de Estructura de Minería de Datos. -Implementación. -Procesamiento Evaluar el modelo - Evaluación del modelo. ETAPA V. Evaluación. Evaluación de Resultados Evaluación de los resultados del proceso de minería de datos. -Explorando el modelo de Arboles de Decisión. Aprobación del modelo Errores y Soluciones. 79

26 5.14 Etapas de Ejecución del Proyecto de Data Mining Etapa I. Comprensión del Negocio Objetivos del Negocio Determinar los objetivos de negocio es una tarea correspondiente a una labor de comprensión de qué es lo que CONAMYPE quiere conseguir desde una perspectiva de negocios, por lo cual, los objetivos del negocio son: - Fortalecer aspectos claves que determinan la formación y el fortalecimiento de las micro y pequeñas empresas atendidas por CONAMYPE. - Descubrir si los programas de intervención que la institución brinda a las empresas, son óptimos para su desarrollo potencial. - Creación de nuevas y mejoradas estrategias de desarrollo en todas las áreas y sectores que sean necesarias. - Apoyo en la toma de decisiones para mejorar los procesos de desarrollo. - Determinar indicadores que permitan evaluar el proceso nuevo y antiguo del tratamiento de los datos dentro de la institución. Factores Críticos para el Éxito. Los Factores Críticos de Éxito (FCE), son el conjunto de mínimo o limitado de áreas, factores o puntos determinantes en las cuales si se obtienen resultados satisfactorios se asegura un desempeño exitoso para un individuo, un departamento o una organización. En otras palabras los Factores Críticos de Éxito se pueden tomar como factores, componentes o elementos constitutivos claves de una organización, transformadas 80

27 en variables donde sus valores en cierto momento son considerados críticos o inaceptables en cuyo caso afectan lo que se considera como exitoso o aceptable 12. Los factores críticos para el éxito del negocio son una herramienta esencial para la dirección de la institución, detallando así: - Institución que genera conocimiento y propone políticas encaminadas a fortalecer y desarrollar a la Micro y Pequeña Empresa. - Institución comprometida con los empresarios de la zona oriental, así como también con la igualdad y justicia para ellos Evaluación de la Situación Esta tarea consiste en realizar una investigación exhaustiva sobre los recursos, restricciones y suposiciones que deberían ser considerados al momento de elaborar el plan del proyecto de Data Mining. Las descripciones de los resultados que se obtienen como fruto de esta tarea se entregan a continuación: Inventario de Recursos A continuación se listan todos los recursos que estarán disponibles para la realización del proyecto de Data Mining: Recursos Físicos - El sistema de gestión de base de datos a utilizar para la ejecución de proyecto de Data Mining será Microsoft SQL Server Computadoras Portátiles. Se cuenta con 3 computadoras portátiles para realizar el desarrollo y las pruebas del proyecto como medio de evaluación de este. - La plataforma a utilizar para el proyecto de Data Mining será Microsoft Visual Studio 2008 con un proyecto de Bussiness Intelligence creando una plantilla de Analysis Services

28 Fuentes de Información y Conocimiento - Metodología CRISP-DM, es la guía de referencia más amplia utilizada en el desarrollo de proyectos de Data MIning. - Sistema de Registro de CONAMYPE - Manuales de lenguaje SQL - Manuales de Data Mining con Microsoft SQL Server Manuales de Bussiness Intelligence. Recursos Humanos - Coordinador de Centro CONAMYPE Regional- San Miguel. - Personal técnico de CONAMYPE los cuales brindaran la información necesaria para la realización del proyecto. Requisitos, Suposiciones y Restricciones. El acceso a la información se realiza mediante el sistema de CONAMYPE, considerando que el personal técnico, los cuales son parte del proyecto, están autorizados para el uso y manipulación de la información contando cada uno con usuario y contraseña de este, por lo cual, no se presentan problemas respecto al uso de la información. El proyecto de tesis está inmerso dentro de la mejora continua como un medio de proyección social por parte de la Universidad de Oriente, esto significa que no existen restricciones presupuestarias, es decir, limitaciones para gastos financieros en el presupuesto; o de plazo de finalización demasiado exigente. Se utiliza Microsoft SQL Server 2008 ya que es uno de los gestores que se vinculan a un proyecto de Business Intelligence para la ejecución del Data Mining. Por motivos de seguridad de la información, no se permitió trabajar desde el servidor de datos, más sin embargo, no dificulta la ejecución del proyecto. 82

29 Riesgos y Planes de Contingencia Este resultado incluye un listado de los riesgos que pueden afectar el proyecto, impactando sus plazos, costos y el resultado final. Incluye también un listado de los correspondientes planes de contingencia diseñados para mitigar dichos riesgos. Riesgos - Cambio de autoridad con poco interés sobre el proyecto a realizar - Restricción en el acceso a los datos - Falta de equipo tecnológico - Mal diseño y estructuración de la Base de Datos - Selección errónea de datos apropiados que tengan un impacto significativo para la institución Planes de Contingencia - Presentar una propuesta con mayores beneficios para la institución para la realización del proyecto - Mostrar la carta de aprobación de proyecto por parte de la institución - Proponer equipo tecnológico adecuado a la ejecución del proyecto - Reestructuración de la Base de Datos - Analizar minuciosamente los datos para identificar los de mayor impacto para la institución y para la ejecución del proyecto Glosario de Terminología de Negocio Glosario de Terminología del Negocio del que forma parte la comprensión del negocio disponible en el proyecto. Construyendo esto el glosario es útil en la producción del conocimiento. 83

30 Micro Empresa: Es toda unidad económica que tiene hasta 10 ocupados y ventas anuales hasta el equivalente de 476 salarios mínimos urbanos. Pequeña Empresa: Es toda unidad económica que tiene hasta cincuenta ocupados y que sus ventas anuales son el equivalente a 4,762 salarios mínimos urbanos excluyendo aquellas que tienen ventas anuales menores de 476 salarios mínimos con 10 o menos ocupados. Potencial de desarrollo: Es la posibilidad de crecimiento y fortalecimiento de las diferentes actividades que realiza una empresa. Empresas atendidas: Son aquellas micro y pequeñas empresas que han recibido algún tipo de servicio por parte de la institución. Sectores Productivos: Son las distintas ramas o divisiones de la actividad económica, atendiendo al tipo de proceso que se desarrolla. Estrategias de desarrollo: Es un conjunto de acciones planificadas de acuerdo a indicadores que revelen el crecimiento al que se pretende llegar. Programas de intervención: Son programas gubernamentales con cobertura nacional que el gobierno impulsa mediante el Ministerio de Economía para dar respuestas a los sectores más vulnerables. Diagnóstico Territorial: Es el estudio que realiza el personal técnico para identificar las necesidades y recursos con las que cuenta la micro o pequeña empresa. Indicadores de impacto: Representación cuantitativa de una variable en relación con otra, que permite medir los efectos a mediano o largo plazo. Glosario de Terminología de Data Mining Glosario de Terminología de Data Mining, pertinente al problema del negocio en cuestión. 84

31 Algoritmo: Es un conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permiten realizar una actividad mediante pasos sucesivos que no generen dudas a quien deba realizar dicha actividad. Árboles de Decisión: Un árbol de decisión es un descriminador de clases que, recursivamente, particiona un conjunto de instancias hasta que cada partición consista íntegramente o dominadamente dé ejemplos de una clase. Bases de datos: Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. Business Intelligence (Inteligencia de Negocios): Se puede definir como el proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos. Conocimiento: Es una mezcla de experiencia, valores, información que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. Clasificación: Tarea en Data Mining que divide los datos en pequeños grupos basados en su semejanza, sin predefinición de los grupos de datos. CRISP-DM: Es un método standard que ha sido desarrollado para ayudar en la realización de proyectos de Data Mining. Data Mining: Consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dato: Son la mínima unidad semántica y se corresponden con elementos primarios de información que por sí solos son irrelevantes como apoyo a la toma de decisiones. Extracción: Proceso por el cual se obtienen datos clave de las bases de datos operacionales que sirven para la toma de decisiones. 85

32 Herramienta Informática: Aplicación automatizada de procesos que permiten realizar actividades en menor cantidad de tiempo. Hojas: Conjuntos ya clasificados de ejemplos y etiquetados con el nombre de una clase. Información: Es un conjunto de datos procesados y que tienen un significado (relevancia, propósito y contexto), y que por lo tanto son de utilidad para quien debe tomar decisiones. KDD (Descubrimiento de Conocimiento en Bases de Datos): Es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia comprensibles a partir de los datos. Metodología de Data Mining: Son fases definidas que van desde la definición del problema hasta la ejecución y evaluación del modelo, pasando por el estudio de los datos y la creación de dicho modelo. Modelado: Acción de representar el funcionamiento de un negocio de manera que se pueda usar activamente como un medio de simular el mundo real. La realización del modelo es fundamental para la toma de decisiones. Nodo: Nombres o identificadores de los atributos. Predicción: Aseveración de que algo va a suceder en el futuro. Ramas: Posibles valores del atributo asociado al nodo. Técnicas de Data Mining: Es el conjunto de habilidades para aplicar determinados conocimientos de Data Mining. Tecnología: Es un conjunto de conocimientos técnicos, ordenados científicamente que permiten construir objetos y máquinas para adaptar el medio y satisfacer las necesidades de las personas. Tabla: Formato en el que los datos se almacenan en las bases de datos relacionales es decir, a través hojas de dos dimensiones (líneas y columnas). 86

33 Variable: Es una cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra. Análisis Costo - Beneficio Se muestra un análisis del costo-beneficio para el proyecto. Comparando los costos que puede incurrir el proyecto junto con los beneficios que este puede traer a la institución; en un dado caso de implantación. COSTOS MONTO BENEFICIOS Licencia de Microsoft SQL - Identificar, Procesar y Extraer la información $ Server Development 2008 desde una base de datos que realmente es Licencia de Visual Studio importante. $ Professional Mejorar la toma de decisiones en la institución a través de datos almacenados en la base. Encargado de Informática $ Permitir a las micro y pequeñas empresa evolucionar en todas las áreas posibles por medio de los servicios que la institución les brinda Objetivos de Data Mining Esta tarea corresponde a la traducción de términos técnicos - estadísticos de los objetivos del negocio que se pretenden alcanzar con el proyecto de Data Mining, la descripción de estos objetivos hacen posible alcanzar los objetivos del negocio, detallándose a continuación: - Predecir el modo en que actuarán en el futuro ciertos atributos dentro de los datos. - Identificar los patrones de datos que pueden utilizarse para la identificación de un evento o una actividad. 87

34 Factores críticos de éxito para Data Mining. Los factores críticos de éxito definen el criterio para un resultado exitoso al proyecto en términos técnicos, este debe tomarse como el funcionamiento correcto de los objetivos. - Resultados acertados con referencia de su origen, la base de datos. - Informe claro para las posibles tomas de decisiones ya administrativas Desarrollo del Plan del Proyecto Plan de Proyecto. A continuación se presenta una lista de todas las etapas ejecutadas en el proyecto, junto a su duración. Figura 4. Plan de Proyecto de Data Mining Validación inicial de herramientas, metodología y técnicas. Este resultado es el segundo de la tarea de Desarrollo del plan de proyecto. Consiste en una evaluación inicial de las herramientas, metodología y técnicas de Data Mining que se utilizarán. Se selecciona una herramienta de Data Mining que soporte varios métodos para diferentes etapas del proyecto. Es importante evaluar las herramientas y las técnicas tempranamente en el proyecto, pues que la elección de las herramientas y técnicas influye significativamente en el proyecto. A continuación se presentan los resultados obtenidos: 88

35 La técnica de Arboles de decisión, inspiro la idea de poder cumplir y representar el objetivo principal del proyecto el cual es la predicción del potencial de desarrollo de las micro y pequeñas empresas, a partir de los datos almacenados en la base de datos. El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión que proporciona Microsoft SQL Server 2008 Analysis Services (SSAS) para el modelado de predicción de atributos discretos y continuos. Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, o estados, de estas columnas para predecir los estados de una columna que se designa como elemento de predicción Etapa II. Comprensión de los Datos Descripción de los datos A continuación se muestra el desarrollo de la descripción de las tablas, así como también el diagrama de la base de datos. Definición de Tablas Tabla tbl_contacto En esta tabla se almacena la información referente a los contactos de las empresas atendidas por la institución. Campo Tipo de Dato Tamaño Descripción ContactoID int (identity) - Identificador Nombre nvarchar 50 Nombre del Contacto Apellido nvarchar 50 Apellido del Contacto Telefono_Fijo nvarchar 25 Teléfono Fijo de Contacto Celular nvarchar 25 Celular de Contacto nvarchar 30 Correo Electrónico de Contacto 89

36 UserCrea nvarchar 50 Usuario que crea un nuevo registro FechaCrea date -- Fecha de creación UserModif nvarchar 50 Usuario que realiza alguna modificación FechaModif date -- Fecha de modificación. Tabla tbl_empresa Tabla que almacena la información referente a las empresas atendidas por la institución. Campo Tipo de Tamaño Descripción Dato EmpresaID int -- Identificador Nombre nvarchar 50 Nombre de la Empresa TipoContribuyenteID int -- Identificador de Tipo de Contribuyente TipoEmpresaID int -- Identificador de Tipo de Empresa ContactoID int -- Identificador de Contacto SectorProductivo int -- Identificador de Sector al que pertenece CapacitacionesID int -- Identificador de Capacitaciones MunicipioID int -- Identificador de Municipio DepartamentoID int Identificador de Departamento AsesoriaID int -- Identificador de Asesoría TipoAtencionID int -- Identificador de Tipo de Atención ProgramaID int -- Identificador de Programa de Intervención VentasID int -- Identificador de Ventas CalidadProducto_ServicioID int -- Identificador de Calidad de Producto o Servicio Numero_Empleados int -- Número de Empleados UserCrea text 50 Usuario que ingreso o crea un 90

37 nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_tipoempresa Tabla que contiene el nombre del tipo de empresa perteneciente. Campo Tipo de Dato Tamaño Descripción TipoEmpresaID int -- Identificador Descripción nvarchar 50 Descripción del tipo de Empresa UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_sectorproductivo En esta tabla están definidos los sectores productivos económicos a los cuales pertenece cada una de las empresas. Campo Tipo de Dato Tamaño Descripción SectorProductivoID int -- Identificador Nombre nvarchar 50 Nombre del Sector TecnicoID int -- Identificador de Técnico UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación 91

38 UserModif Text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_tipoatencion Tabla que contiene las opciones de atención a los clientes. Campo Tipo de Dato Tamaño Descripción TipoAtencionID int(identity) -- Identificador Descripción nvarchar 50 Descripción del Tipo Atención UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_asesor En esta tabla se almacena información específica referente a los Asesores Campo Tipo de Dato Tamaño Descripción AsesorID int(identity) -- Identificador Nombre nvarchar 50 Nombre de Asesor Apellido nvarchar 50 Apellido de Asesor Telefono_Fijo nvarchar 25 Teléfono fijo de Asesor Celular nvarchar 25 Celular de Asesor nvarchar 30 Correo electrónico de Asesor UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación 92

39 FechaModif nvarchar -- Fecha de modificación Tabla tbl_asesoria Tabla la cual almacena información sobre el tipo de asesorías que se brindan. Campo Tipo de Dato Tamaño Descripción AsesoriaID int(identity) -- Identificador Descripción nvarchar max Descripción de Asesoría Fecha_Inicio date -- Fecha de Inicio Fecha_Finalizacion date -- Fecha de Finalización AsesorID int -- Identificador de Asesor UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_consultor Tabla que contiene los nombres de Consultores Individuales y Jefes de Proyectos Calificados. Campo Tipo de Dato Tamaño Descripción ConsultorID int -- Identificador Nombre nvarchar 50 Nombre de Consultor Apellido nvarchar 50 Apellido de Consultor Especialidad nvarchar 50 Especialidad de Consultor Telefono_Fijo nvarchar 25 Telefono Fijo nvarchar 25 Correo Electrónico 93

40 UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif date -- Fecha de modificación Tabla tbl_capacitaciones En esta tabla se registran las capacitaciones que la institución ha realizado a las empresas. Campo Tipo de Dato Tamaño Descripción CapacitacioneID int -- Identificador Descripción nvarchar max Descripción de Capacitacion Fecha_Inicio date -- Fecha de Inicio Fecha_Finalizacion date -- Fecha de Finalización ConsultorID int -- Identificador de Consultor TecnicoID int -- Identificador de Técnico UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif date -- Fecha de modificación Tabla tbl_departamento Tabla que almacena la lista de departamentos de la Zona Oriental que atiende la institución. Campo Tipo de Dato Tamaño Descripción DepartamentoID int(identity) -- Identificador 94

41 Nombre nvarchar 50 Nombre de Departamento UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif datetime -- Fecha de modificación Tabla tbl_municipio Tabla que contiene los municipios que atiende la institución. Campo Tipo de Dato Tamaño Descripción MunicipioID int(identity) -- Identificador Nombre nvarchar 50 Nombre de Municipio UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif date -- Fecha de modificación Tabla tbl_programa En esta tabla se almacenan la lista de programas de intervención los cuales la institución lleva a cabo para el desarrollo de las micro y pequeñas empresas. Campo Tipo de Dato Tamaño Descripción ProgramaID int -- Identificador Descripción nchar 50 Descripción Fecha_Inicio date -- Fecha de Inicio Fecha_Finalizacion date -- Fecha de Finalización ConsultorID int -- Identificador de Consultor 95

42 TecnicoID int -- Identificador de Técnico UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif date -- Fecha de modificación Tabla tbl_tecnico En esta tabla está contenida información sobre los técnicos que laboran en la institución. Campo Tipo de Dato Tamaño Descripción TecnicoID int -- Identificador Nombre nvarchar 50 Nombre de Técnico Apellido nvarchar 50 Apellido de Técnico Dirección nvarchar max Dirección de Técnico Telefono_Fijo nvarchar 25 Teléfono Fijo Celular nvachar 25 Celular nvarchar 25 Correo Electrónico AreaLaboral nvarchar 50 Área Laboral UserCrea nvarchar 50 Usuario que ingreso o crea un nuevo registro FechaCrea date -- Fecha de ingreso o creación UserModif nvarchar 50 Usuario que realizo alguna modificación FechaModif date -- Fecha de modificación 96

43 Tabla tbl_calidad Esta tabla contiene datos sobre la calidad de los productos o servicios que las empresas ofrecen, se crea esta tabla para tomar más atributos que evaluar para predecir el potencial. Campo Tipo de Tamaño Descripción Dato CalidadProducto_ServicioID int -- Identificador Descripción nvarchar 50 Descripción de la Calidad del Producto o Servicio. UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif Text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación Tabla tbl_ventas Tabla la cual contiene el intervalo de ventas que puede llegar a alcanzar una empresa. Campo Tipo de Dato Tamaño Descripción VentasID int(identity) -- Identificador Intervalo_Venta nvarchar max Intervalo de Venta UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación 97

44 FechaModif nvarchar -- Fecha de modificación Tabla tbl_tipocontribuyente Esta tabla contiene la descripción de los tipos de contribuyentes. Campo Tipo de Dato Tamaño Descripción TipoContribuyente int(identity) -- Identificador Descripción nvarchar 50 Descripción del Tipo de Contribuyente UserCrea text 50 Usuario que ingreso o crea un nuevo registro FechaCrea nvarchar -- Fecha de ingreso o creación UserModif text 50 Usuario que realizo alguna modificación FechaModif nvarchar -- Fecha de modificación 98

45 Figura 5. Diagrama de Base de Datos 99

46 Colección Inicial de los Datos La colección Inicial de datos consiste en una lista de los datos que serán utilizados en el proyecto. Así mismo dicha lista incluye los requerimientos de selección de datos que sea preciso realizar para obtener información más detallada que la disponible. Las actividades preliminares que se llevaron a cabo para hacer el uso correcto de las tablas seleccionadas consistió en: Planificar qué información se necesitará Verificar si la información que se necesita para alcanzar los objetivos de Data Mining está disponible. Definir los atributos relevantes para alcanzarlos objetivos de Data Mining. Seleccionar las tablas de interés para el proyecto de Data Mining. Seleccionar datos de cada tabla para el proyecto. A continuación se presenta la vista realizada en Microsoft SQL Server con el objetivo de reflejar el contenido de varias tablas. Se creó una nueva vista para centrar, simplificar y personalizar la percepción de la base de datos para cada usuario que manipule la misma. Además se usara como mecanismo de seguridad, que permitirá a los usuarios obtener acceso a los datos por medio de la vista. 100

47 Figura 6. Vista en Microsoft SQL Server Management Studio Se muestra una tabla donde se especifica el nombre de la tabla, el campo y la descripción del campo así también como el criterio de selección el cual consiste en determinar los datos que han sido identificados como relevantes o irrelevantes. Nombre de Vista: VPotencial Nombre de Tabla Campo Descripción Es Relevante? tbl_empresa EmpresaID Identificador Si tbl_empresa Nombre Nombre de la Si Empresa tbl_tipocontribuyente TipoContribuyenteID Tipo de No Contribuyente tbl_tipoempresa TipoEmpresaID Identificador de Si Tipo Empresa tbl_contacto ContactoID Identificador de Contacto No 101

48 tbl_sectorproductivo SectorProductivoID Identificador de Si Sector Productivo tbl_municipio MunicipioID Identificador de Si Municipio tbl_departamento DepartamentoID Identificador de Si Departamento tbl_asesoria AsesoriaID Identificador de Si Asesoría tbl_tipoatencion TipoAtencionID Identificador de No tipo de atención tbl_programa ProgramaID Identificador de Si Programa tbl_ventas VentasID Identificador de Si Ventas tbl_calidad CalidadProducto_ServicioID Identificador de Si Calidad tbl_empresa ContratoAnual_Empleados Número de Si Empleados Contratados Anual tbl_empresa Potencial Potencial Si tbl_empresa Numero_Empleados Número de Si empleados de empresa tbl_empresa UserCrea Usuario que No ingreso o crea un nuevo registro tbl_empresa FechaCrea Fecha de ingreso No o creación tbl_empresa UserModif Usuario que No realizo alguna modificación tbl_empresa FechaModif Fecha de modificación No 102

49 Etapa III. Preparación de los datos Modo Offline Cuando se trabaja en Modo Offline, el proyecto contiene archivos que son almacenados en la maquina cliente. Cuando se hacen modificaciones a los objetos en este ambiente, los cambios son almacenados en formato XML en el disco duro. Los modelos y los otros objetos no son creados en el servidor hasta que el usuario de data mining decida desplegarlos a un servidor destino de su elección. Esto provee capacidad de diseñar y probar los modelos en el servidor de testeo antes de desplegarlos en el servidor real. Cuando se implementa un proyecto, BI Dev Studio valida los objetos en el proyecto, creando un script, y enviándolo al servidor. La unidad de implementación del proyecto entero, representa el Analysis Services. Estas herramientas son lo suficientemente inteligentes para implementar cambios mientras se está trabajando en el proyecto. Comenzado el proyecto en BI Sev Studio en Modo Offline. Un proyecto de SQL Server Analysis Services (SSAS) permite definir un esquema que contiene los objetos de una Base de Datos de Analysis Services, estos es modelos de minería de datos y objetos complementarios. 1. Iniciar Bussiness Intelligence Development Studio. 103

50 2. Desde el Menú Archivo, seleccionar Nuevo Proyecto. El cuadro de dialogo del nuevo proyecto aparece como se muestra en la siguiente figura. Figura 7. Pantalla Inicial de BI Dev Studio 3. Seleccionar Business Intelligence Projects. 4. Seleccionar Proyecto de Analysis Services. 5. Introducir el nombre del Proyecto. 104

51 6. Clic en Aceptar Figura 8. Cuadro de dialogo de Nuevo Proyecto Creación del Origen de Datos. (Data Source) Un origen de datos es una conexión de datos que se administra en el proyecto y se implementa en el (SSAS), contiene el nombre del servidor y la base de datos donde residen los datos del origen Para crear el data source, seguir estos pasos: 1. Clic derecho en el folder de Orígenes de datos en el Explorador de soluciones y seleccionar Nuevo Origen de Datos para iniciar el Asistente de Orígenes de datos. 105

52 Figura 9. Crear un Nuevo Origen de Datos 2. Aparece la página de introducción del Asistente de orígenes de datos como se muestra en la figura, clic en Siguiente. Figura 10. Asistente para Origen de Datos 106

53 3. Clic en el botón Nuevo para agregar una conexión a la base de datos. Figura 11. Selección de definición de conexión 4. Se abrirá el cuadro de diálogo de Administrador de conexiones. Figura 12. Administrador de Conexiones 107

54 5. En la lista Proveedor del Administrador de conexión, seleccionar OLE DB nativoo\microsoft OLE DB Provider for SQL Server. Figura 13. Selección del Proveedor 6. En la lista Nombre del servidor, seleccionar el servidor en el que se aloja la base de datos BD_DataMining (seleccionar localhost si la base de datos se aloja en el servidor local). En la lista Seleccionar o introducir el nombre de la base de datos 108

55 Figura 14. Selección de Base de Datos 7. Verificar la conectividad presionando el botón Probar Conexión, debe obtenerse el siguiente mensaje. Figura 15. Prueba de Conexión 8. Automáticamente aparece el nombre de la conexión de los datos y las propiedades de conexión de los datos, clic en Siguiente 109

56 Figura 16. Propiedades de Conexión 9. En la página Información de Suplantación, seleccionar Utilizar la cuenta de servicio, clic en Siguiente Figura 17. Información de Suplantación 110

57 10. Introducir el nombre del origen de datos, clic en Finalizar Figura 18. Finalización del Asistente Creando Vista del Origen de Datos (Data Source View) Una vista de origen de datos es una abstracción del origen de datos, permite modificar la estructura de los datos (sin modificar los objetos de la base de datos original) para que sean más significativos en el contexto del proyecto. Se pueden seleccionar tablas, establecer relaciones entre ellas, adicionar columnas y vistas con nombre. Para crear la Vista del Origen de Datos, seguir estos pasos: 1. Clic derecho en el folder de Vistas de Origen de datos en el Explorador de Soluciones y seleccionar Nueva vista de origen de datos para iniciar el asistente. 111

58 Figura 19. Crear una Nueva Vista de Origen de Datos 2. Aparece la página de introducción del Asistente para vistas del origen de datos como se muestra en la figura. Figura 20. Asistente para Vistas de Origen de Datos 112

59 3. En la página Seleccionar un origen de datos, el origen de datos BD Data Mining que se creó en la última tarea aparecerá seleccionado de forma predeterminada en Orígenes de datos relacionales, clic en Siguiente. Figura 21. Selección del Origen de Datos 4. Si se desea crear un nuevo origen de datos, hacer clic en Nuevo Origen de datos para inicia el Asistente de orígenes de datos. 5. En Seleccionar tablas y vistas, clic en para mover las tablas desde la lista de los Objetos disponibles hasta la lista de Objetivos Incluidos, clic en Siguiente. 113

60 Figura 22. Selección de Tablas y Vistas 6. En la página Finalizando el Asistente, modificar el nombre de la vista, el cual será BD Data Mining_View. Figura 23. Finalización del Asistente 114

61 Etapa IV. Modelado Selección de la Técnica del Modelado Como primer paso en la etapa del modelado es preciso seleccionar la técnica que se utilizará. Las distintas técnicas disponibles deben evaluarse en relación a su capacidad para alcanzar los objetivos de Data Mining, teniendo en cuenta las restricciones de recursos del proyecto. Hay que tomar en cuenta que no todas las herramientas y técnicas son aplicables a cada tarea, para ciertos problemas solo algunas técnicas son apropiadas. Puede ser el caso de que solamente una herramienta o técnica esté disponible para resolver el problema, y aun aquella puede no ser del todo técnicamente la mejor alternativa. Técnica de modelado La técnica del modelado a utilizar se selecciona luego de estudiar su funcionamiento, por lo que la técnica seleccionada se agregara a la información que se ha obtenido en el proceso anterior con el objetivo de resolver un problema de Data Mining. La técnica de modelado se escoge en base a los siguientes criterios: - Ser apropiada al problema - Disposición de los datos adecuados - Cumplimiento de los requerimientos del problema - Tiempo necesario para obtener un problema - Conocimiento de la técnica. La técnica seleccionada tomando en cuenta cada uno de los anteriores criterios es: El algoritmo de Arboles de Decisión de Microsoft, cuya documentación para mayor comprensión de la misma se muestra a continuación. 115

62 Algoritmo de Arboles de Decisión de Microsoft El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación y regresión proporcionada por Microsoft SQL Server Analysis Services para el modelado y predicción de atributos discretos y continuos. Los arboles de decisión son probablemente la técnica de Data Mining más popular por la plataforma de entrenamiento más rápido, alto grado de exactitud, comprensión de patrones. La tarea más común de los árboles de decisión es la clasificación, que determina si el conjunto de datos pertenece a un tipo específico o clase. Por ejemplo, los solicitantes de préstamos pueden ser clasificados por bajo o alto riesgo, y el árbol de decisión determina las reglas para llevar a cabo la clasificación basada en los datos históricos. La principal idea de los árboles de decisión es dividir los datos recursivamente dentro de subconjuntos. Cada atributo de entrada es evaluado para determinar cuan limpiamente se dividen los datos a través de las clases (o estados) de la variable. El proceso de evaluación de todas las entradas se repite en cada subconjunto. Cuando el proceso recursivo se ha completado, el árbol de decisión está formado. Arboles de decisión ofrecen diferentes ventajas por encima de otros algoritmos de Data Mining. Los arboles de decisión son rápidos en construir y fáciles de interpretar. Cada nodo en el árbol es claramente etiquetado en términos de atributos de entrada, y cada trayectoria formada desde la raíz hasta una hoja forma una regla sobre la variable. La predicción basada en arboles de decisión es eficiente. Arboles de decisión pueden realizar tareas de regresión para predecir variables continuas. Por ejemplo, además de predecir si una pareja está en alto o bajo riesgo para un préstamo, un árbol se puede construir para predecir la tasa de interés exacta que debe cargarse al cliente. Desarrollado por el equipo de investigación de Microsoft, el algoritmo de árboles de decisión de Microsoft, es un algoritmo de árboles de decisión hibrido, realiza tareas de clasificación y regresión. 116

63 Una de las características únicas del algoritmo de árboles de decisión de Microsoft es que también puede ser aplicado para asociación y análisis. Por qué Arboles de Decisión? El algoritmo es llamado Arboles de decisión de Microsoft en lugar de Árbol de decisión de Microsoft por diferentes razones. Primero, la configuración del parámetro puede ser ajustado de tal manera que los árboles resultantes pueden ser muy diferentes en términos de nodos divididos y formas de árbol, o hasta criterios de división, entonces ellos pueden ser considerar diferentes algoritmos de decisión. Segundo, el algoritmo de árboles de decisión de Microsoft permite la creación de múltiples arboles apuntando a múltiples atributos en un simple modelo. Un árbol modelo puede contener cientos y cientos de árboles, dependiendo de la forma de los datos. Estos árboles pueden ser visualmente vinculados a través de una red de dependencia para su posterior análisis. Cómo funciona el Algoritmo? El algoritmo de árboles de decisión de Microsoft genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta. El algoritmo de árboles de decisión de Microsoft utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos de Analysis Services utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. La selección de características es importante para evitar que los atributos irrelevantes utilicen tiempo de procesador. Si utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse o incluso quedarse sin memoria. Entre los métodos que se usan 117

64 para determinar si hay que dividir el árbol figuran métricas estándar del sector para la entropía y las redes Bayesianas. Datos requeridos para los modelos de Arboles de Decisión Los requisitos para un modelo de Arboles de Decisión son los siguientes: Una columna única key. Debe contener una columna numérica o de texto que identifique cada registro de manera única. Una columna de predicción. Se requiere una columna de predicción. Se pueden incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento. Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento. El algoritmo de árboles de decisión es un algoritmo de clasificación y regresión para modelar la predicción de atributos (clase) discretos o continuos. Atributos continuos. Son aquellos atributos por lo general numéricos tales como 23.49, , 87. Por ejemplo una columna puede contener información de ventas, que son atributos continuos. Atributo discreto. Son aquellos datos categóricos tales como alto, bajo, hombre, mujer.generalmente se afirma que un atributo es discreto cuando tiene una cantidad posible de valores diferentes que se pueden contar. Por ejemplo una columna puede contener información de intervalos de ventas, que son discretos. Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de estas columnas para predecir los estados de una columna que se designa como elemento de 118

65 predicción, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción 13. Predicciones Binarias. Un árbol de decisión recibe como input un conjunto de atributos y entrega una decisión que puede ser vista como una predicción del output dados los inputs. Los inputs. Los inputs y los outputs de un árbol de decisión pueden ser discretos o continuos, no obstante en el proyecto se supondrán inputs discretos y outputs booleanos. Un árbol llega a una decisión luego de aplicar en cada nodo un test a un atributo. Cada rama corresponde a uno de los valores posibles de dicho atributo. Las hojas entregan el output del árbol. La lista de atributos que constituyen el input del árbol y que permiten tomar la decisión son las siguientes: capacitaciones, ventas, calidad de producto o servicios, asesorías, sector productivo, entre otras. Una vez obtenidos los inputs, el árbol de decisión permite clasificar a las empresas como Si han alcanzado potencial de desarrollo (1) o No han alcanzado potencial de desarrollo (0) Construcción y Ejecución del Modelo A continuación se crea la estructura del modelo de Data Mining. 1. En el Explorador de soluciones, hacer clic en el botón secundario en Estructuras de minería de datos y seleccionar Nueva estructura de minería de datos

66 Figura 24. Nueva Estructura de Minería de Datos 2. Aparece la página de inicio del Asistente para minería de datos, clic en Siguiente. Figura 25. Asistente para Minería de Datos 120

67 3. En Seleccionar el método de definición, debe comprobarse que la opción A partir de una base de datos relacional o un almacén de datos se ha seleccionado y a continuación, clic en Siguiente. Figura 26. Selección del Método de Definición 4. En Seleccionar la técnica de minería de datos, en Qué técnica de minería de datos desea utilizar?, seleccionar Arboles de decisión de Microsoft clic en Siguiente. 121

68 Figura 27. Crear la Estructura de Minería de Datos 5. En Seleccionar vista de origen de datos, observar que BD Data Mining_View se ha seleccionado de forma predeterminada. Hacer clic en Explorar para ver las tablas de la vita de origen de datos. Clic en Siguiente 122

69 Figura 28. Selección de Vistas de Origen de Datos 6. En Especificar tipos de tablas, activar la casilla de verificación de la columna Escenario, situada junto a la tabla de VPotencial; a continuación, hacer clic en Siguiente 123

70 Figura 29. Especificación de Tipos de Tablas 7. En Especificar los datos de entrenamiento, seleccionar las siguientes columnas: Figura 30. Especificación de Datos de Aprendizaje 124

71 8. Alternativamente se puede presionar el botón de Sugerir, se abrirá el cuadro de dialogo Sugerir columnas relacionadas que enumera las columnas que están más ligadas a la columna de predicción, ordenando los atributos según la relación que tengan con el atributo de predicción. Las columnas cuyo valor es mayor que 0.05 se seleccionan automáticamente, clic en Aceptar Figura 31. Sugerir Tablas Relacionadas 9. En Especificar el contenido y el tipo de datos de las columnas, hacer clic en Detectar. Un algoritmo usara los datos de la vista y determinará si 125

72 las columnas numéricas contienen valores continuos o discretos. Figura 32. Especificación del Contenido y el Tipo de Columnas 10. Después de hacer clic en Detectar comprobar que las entradas de las columnas Tipo de contenido y Tipo de datos tengan la configuración especificada 11. En el siguiente cuadro de dialogo, clic en Siguiente. 126

73 Figura 33. Conjunto de pruebas Nota: En porcentaje de datos de prueba no colocar 30% En máximo número de casos en el conjunto de datos de prueba no colocar nada, borrar el valor. 12. En Finalización del asistente realizar lo siguiente: En Nombre de la estructura de minería de datos, escribir Structure_Potencial. En Nombre del modelo de minería de datos escribir VP_Decision_Tree Activar la casilla de verificación Permitir obtención de detalles. Clic en Finalizar. 127

74 Figura 34. Finalización del Asistente Finalmente permite entrar a la ventana de diseño del modelo de minería de datos para árboles de decisión. Figura 35. Estructura de Minería de Datos 128

75 Observar ahora que en la parte superior de la ventana del Diseñador de Minería de Datos se ubican cinco fichas de ventanas: Figura 36. Ficha de Ventanas Estructura de minería de datos. Modelos de minería de datos Visor del modelo de minería de datos Gráfico de precisión de minería de datos Predicción del modelo de minería de datos. Procesar el Modelo de Minería de Datos. Ahora que la estructura y los parámetros para el modelo de minería de datos se ha completado se debe implementar y procesar. Implementación de la BD Analysis Services. 1. En el menú Depurar, seleccionar Iniciar Depuración o presionar F5. Figura 37. Inicio de Depuración 129

76 Con esto se obtiene los siguientes resultados. Figura 38. Progreso de Implementación 130

77 Procesamiento de la BD Analysis Services. 1. Una vez la base de datos se ha implementado en el equipo servidor, se deben procesar el método de minería de datos mediante el proceso siguiente: Figura 39. Procesar Estructura de Minería de Datos 2. Se abre el cuadro de dialogo Procesar estructura de minería de datos. 131

78 Figura 40. Cuadro de Dialogo de Procesamiento de Estructura de Minería de Datos 3. Clic en Ejecutar Se abre el cuadro de dialogo Progreso del proceso para mostrar información acerca del procesamiento del modelo. El procesamiento del modelo puede llevar algún tiempo, dependiendo del equipo. 132

79 Figura 41. Progreso del Proceso 4. Al finalizar, hacer clic en Cerrar dos veces. Creando Predicciones Para crear consultar de predicción (DMX) por medio del Generador de consultas de predicción en la ficha de Predicción de modelo de minería de datos del Diseñador de minería de datos. El Generador de consultas de predicción es similar al Generador de consultas de Microsoft Access; ofrece operaciones de arrastrar y colocar para crear las consultas, contiene las vistas siguientes: 133

80 Diseño Consulta Resultado. Creando la Consulta 1. Seleccionar un modelo de minería de datos y una tabla de entrada. En la ficha Predicción de modelo de minería de datos del Diseñador de minería de datos, en el cuadro de Modelo de minería de datos, clic en Seleccionar modelo de minería de datos. Figura 42. Selección de Modelo de Minería de Datos 134

81 2. Desplazar por el árbol hasta la estructura que se ha creado anteriormente, expandir y seleccionar VP_Decision_Tree, y, a continuación clic en Aceptar. Figura 43. Selección del Modelo 3. En el cuadro Seleccionar tablas de entrada, clic en Seleccionar tabla de escenarios. Se abrirá un cuadro de dialogo Seleccionar tabla. 135

82 Figura 44. Selección de Tabla Caso En la lista Origen de datos, comprobar que BD Data Mining se haya seleccionado. En la lista Nombre de la tabla o lista, seleccione la tabla tbl_empresa y, a continuación clic en Aceptar. 136

83 4. Después de seleccionar la tabla de entrada, el Generador de consultas de predicción crea una asignación predeterminada entre el modelo de minería de datos y la tabla de entrada en función de los nombres de las columnas. Figura 45. Asignación Predeterminada entre el Modelo de Minería y la Tabla de Entrada Creando una Consulta de Predicción 1. En la columna Origen de la cuadricula de la ficha Predicción del modelo de minería de datos, hacer clic en la celda de la primera fila vacía y, a continuación seleccionar Tabla tbl_empresa 137

84 2. Determinar qué modelo de árboles de decisión de Microsoft de la estructura se utilizara para crear predicciones. Clic en la siguiente fila vacía de la columna Origen y, a continuación seleccionar VP_Decision_Tree 3. Clic en la siguiente fila vacía de la columna Origen y, a continuación, seleccionar Función de Predicción. En la fila Función de predicción, de la columna Campo, seleccionar PredictProbability. La función de PredictProbability proporciona información acerca de la corrección de la probabilidad de predicción. En la columna Criterios o argumento, se puede especificar parámetros para la función de predicción. 4. Especificar la columna de destino para la función PredictProbability En la fila PredictProbability de la columna Criterios o argumentos, escribir [VP_Decision_Tree].[Potencial] 5. Hacer clic en Cambiar a vista de resultado de consulta, que es el primer botón de la barra de herramientas de la ficha Predicción de modelo de minería de datos. 138

85 Figura 46. Cambiar a Vista de Resultado 6. Al hacer clic en Resultado, se podrá ver los resultados de la consulta de predicción actual. Las columnas EmpresaID, Potencial y Expression identifican a las empresas potenciales y no potenciales y la probabilidad de que la predicción sea correcta. 139

86 Figura 47. Resultados de la Predicción 140

87 Etapa V. Evaluación Evaluación de resultados En esta última etapa, se evalúa el modelo de Arboles de Decisión, teniendo en cuenta el cumplimiento de los criterios de éxito del negocio. Además debe tomarse en cuenta, que la fiabilidad calculada para el modelo se aplica solamente para los datos sobre los que se realizó el análisis. Es preciso revisar el proceso, teniendo en cuenta los resultados obtenidos, para poder repetir algún paso anterior, en el que se haya posiblemente cometido algún error. Evaluación de los resultados del proceso de Data Mining De acuerdo con la metodología CRISP-DM, este ítem corresponde a una síntesis de los resultados de la evaluación de negocios en términos de criterios de éxito. Entre las actividades que se han desarrollado para obtener el resultado son las siguientes: - Explorar el modelo de Arboles de Decisión. - Comprender los resultados del modelo. - Interpretar los resultados del modelo. Explorando el Modelo de Árboles de Decisión 1. Una vez que se hayan procesado el modelo del proyecto, se podrá ver utilizando la pestaña Visor de modelos de minería de datos del Diseñador de minería de datos. Este visor tiene dos pestañas: Árbol de Decisión y Red de dependencias. 141

88 2. En la pestaña Árbol de Decisión, se puede examinar los modelos del árbol que componen el modelo de minería de datos. 3. El visor muestra por defecto los primeros tres niveles de árbol, si el árbol contiene menos solamente se mostrará solo los niveles existentes, se puede ser más niveles utilizando el control deslizante Mostrar nivel o de la lista Expansión Predeterminada. Figura 48. Dos Niveles Figura 49. Tres Niveles Figura 50. Cuatro Niveles 142

89 4. Cada nodo muestra la siguiente información: Figura 51. Leyenda de Minería de Datos 5. Para ver los escenarios (datos) se entrenamiento que cada nodo admite, hacer clic en el botón secundario en el nodo, y a continuación clic en Obtener Detalles. Se obtiene el siguiente detalle: 143

90 Figura 52. Obtención de Detalles de Cada Nodo 6. La pestaña Red de Dependencias nuestra las relaciones entre los atributos que ayudan a la capacidad de predicción del modelo de minería de datos que se ha ejecutado. Figura 53. Gráfico de Red de Dependencias 144

91 El nodo central, representa el atributo de predicción del modelo de minería de datos. Cada nodo adyacente representa un atributo del cual de toma en cuenta para tener como resultado el atributo de predicción. La barra de desplazamiento mide la intensidad de los vínculos que se muestran. Si se desplaza hacia abajo muestra los vínculos más fuertes. Figura 54. Vínculos más Fuertes 145

92 Creación de un Informe con Reporting Services. A continuación se muestran los pasos a seguir para crear un informe del resultado de la ejecución del Proyecto d Data Mining: 1. En el Explorador de Soluciones, clic derecho sobre la solución, clic en Agregar- Nuevo Proyecto. Figura 55. Agregar Nuevo Proyecto 2. Aparece el cuadro de dialogo, donde se selecciona Proyecto de servidor de Informes, y escribir el nombre del proyecto PotencialInforme. 146

93 Figura 56. Creación de Nuevo Proyecto 3. Una vez creado el Nuevo Proyecto, clic derecho sobre Orígenes de datos compartidos, clic sobre Agregar nuevo origen de datos. Figura 57. Agregar Nuevo Origen de datos 147

94 4. Aparece el cuadro de dialogo de la figura siguiente, donde se especifica el Nombre del Servidor: localhost y la base de datos: ProyectoDM. Figura 58. Propiedades de conexión A continuación se prueba la conexión, haciendo clic sobre el botón Probar conexión, si la conexión ha sido un éxito, aparece el siguiente mensaje: 148

95 5. Después de realizada la conexión, aparece el siguiente cuadro de dialogo donde se especifica el Nombre, Tipo Y Cadena de Conexión del origen de datos compartidos, Figura 59. Propiedades de origen de datos compartidos 6. A continuación, una vez creado el Origen de Datos, se creara un nuevo informe, dando clic derecho sobre Informe- Agregar un nuevo informe. 149

96 Figura 60. Agregar un Nuevo Informe 7. Aparece el cuadro de dialogo del Asistente para Informes, clic en Siguiente. Figura 61. Asistente para informes 150

97 8. Seleccionar Origen de Datos, clic en Siguiente Figura 62. Seleccionar el Origen de datos 9. A continuación se creara una consulta, seleccionar el Modelo de minería de datos: VP_Decision_Tree y la tabla de casos con la que se trabajará, una vez seleccionada se prosigue arrastrando todos aquellos campos que se desea que aparezcan en el informe. En Criterios o argumento se escribe lo siguiente [VP_Decision_Tree].[Potencial],1 151

98 Figura 63. Diseñador de consultas 10. En el siguiente cuadro de dialogo, aparece la cadena de consulta que se hizo en el punto anterior. 152

99 Figura 64. Cadena de Consulta 11. En Seleccionar el tipo de informe, aparecen dos opciones Tabular y Matriz, seleccionar el que desee, clic en Siguiente 153

100 Figura 65. Selección de tipo de informe 12. En Diseñar tabla, elegir como agrupar los datos en la tablas, clic en Siguiente 154

101 Figura 66. Diseñar la Tabla 13. En Elegir el estilo de tabla, se selecciona la opción que desee para el estilo en que aparezca la tabla, clic en Siguiente 155

102 Figura 67. Estilo de Tabla 14. Aparece el cuadro de dialogo de Finalización del asistente, donde se escribe el nombre de informe, clic en Finalizar. 156

103 Figura 68. Finalización del Asistente 15. Una vez Finalizado el Asistente, aparece el Reporte como se muestra en la siguiente figura 157

104 Figura 69. Reporte 158