UNIVERSIDAD POLITECNICA SALESIANA SEDE CUENCA FACULTAD DE INGENIERIAS CARRERA: INGENIERIA DE SISTEMAS TEMA

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD POLITECNICA SALESIANA SEDE CUENCA FACULTAD DE INGENIERIAS CARRERA: INGENIERIA DE SISTEMAS TEMA"

Transcripción

1 UNIVERSIDAD POLITECNICA SALESIANA SEDE CUENCA FACULTAD DE INGENIERIAS CARRERA: INGENIERIA DE SISTEMAS Tesis previa a la obtención del Titulo de: Ingeniero de Sistemas TEMA PROYECTO DE MINERÍA DE DATOS PARA EL ANÁLISIS DEL COMPORTAMIENTO DE LOS CLIENTES DE TELECOMUNICACIONES AUTORA: Daycy Elizabeth Peralta Cochancela. DIRECTOR: Msc. Ing. Miguel Ángel Zúñiga Prieto Cuenca, Diciembre del 2009

2 CERTIFICACIÒN Certifico que el trabajo denominado PROYECTO DE MINERÍA DE DATOS PARA EL ANÁLISIS DEL COMPORTAMIENTO DE LOS CLIENTES DE TELECOMUNICACIONES realizado por la señorita Daycy Elizabeth Peralta Cochancela ha sido dirigido y supervisado por quien suscribe. Msc. Ing. Miguel Ángel Zúñiga.

3 AUTORIA Las ideas, criterios así como conclusiones del presente proyecto son de exclusiva responsabilidad de la autora. Daycy Elizabeth Peralta.

4 Dedicatoria. Dedico esta Tesis. A mi Padre que con esfuerzo, paciencia e inteligencia ha sabido entregar todo de si para poder lograr este propósito. A mi Madre por su comprensión, su confianza y su tiempo, por haberme escuchado durante el trajinar de esta nueva etapa, mi carrera universitaria que ahora culmina. Por haberse entregado por entero con su ejemplo de vida para permitirme ser todo lo que soy como persona y como profesional, por haber inculcado mis valores y principios, y sobre todo por el amor que solo seres especiales como Ustedes pudieron entregarme sin pedir nunca nada a cambio. Con amor eterno.

5 Agradecimiento. Mi más sincero agradecimiento. En primer lugar quiero agradecer a Dios por bendecirme durante todo este tiempo y permitirme llegar hasta donde he llegado. Mi agradecimiento a la Empresa E.T.A.P.A. por brindarme la oportunidad de realizar el proyecto de pregrado en tan prestigiosa institución. A la Ing. Diana Astudillo por haber dedicado parte de su tiempo en compartir sus conocimientos y haberme brindado su amistad sincera. Al Msc. Ing. Juan Pablo Bermeo por su dedicación y apoyo incondicional al facilitarme la información requerida y por su asistencia en todas mis inquietudes. Al Ing. Bolívar Piedra por haber encaminado el proyecto como un auténtico líder y por el importante tiempo dedicado a este proyecto. Al Ing. Xavier Zárate por ser la enseñanza y fortaleza en lo duro del camino, por ser mi motivación en el aspecto profesional y soporte en vida personal. Al Msc. Ing. Miguel Ángel Zúñiga por su dirección, paciencia y valiosos consejos que me permitieron alcanzar los objetivos de esta Tesis. A todos ellos, excelentes profesionales y verdaderos amigos. Gracias. CAPITULO I... Error! Marcador no definido. INTRODUCCIÓN DE LA EMPRESA... Error! Marcador no definido.

6 1.1 Empresa Pública Municipal de Telecomunicaciones, Agua Potable, Alcantarillado y Saneamiento de Cuenca E.T.A.P.A.... Error! Marcador no definido. 1.2 Definición de objetivos.... Error! Marcador no definido. 1.3 Análisis de la situación real de la Empresa.... Error! Marcador no definido. 1.4 Descripción de actividades de la Empresa E.T.A.P.A... Error! Marcador no definido. 1.5 Telefonía Fija.... Error! Marcador no definido. CAPITULO II... Error! Marcador no definido. RECURSOS DISPONIBLES... Error! Marcador no definido. 2.1 Recursos Humanos.... Error! Marcador no definido. 2.2 Recursos Informáticos.... Error! Marcador no definido Sistema Operativo.... Error! Marcador no definido Bases de Datos.... Error! Marcador no definido Software de Desarrollo.... Error! Marcador no definido Hardware.... Error! Marcador no definido. CAPITULO III... Error! Marcador no definido. SISTEMAS DATA WAREHOUSE... Error! Marcador no definido. 3.1 Introducción.... Error! Marcador no definido. 3.2 Almacén de Datos.... Error! Marcador no definido Características de un Almacén de Datos.... Error! Marcador no definido Funciones de un Almacén de Datos.... Error! Marcador no definido Ventajas.... Error! Marcador no definido Problemas en su manejo.... Error! Marcador no definido. 3.3 Data Marts... Error! Marcador no definido Características de un Data Mart... Error! Marcador no definido. 3.4 Cubos de Información.... Error! Marcador no definido. 3.5 Fases de la Minería de Datos.... Error! Marcador no definido Selección.... Error! Marcador no definido Limpieza y Pre-Procesamiento.... Error! Marcador no definido Transformación.... Error! Marcador no definido Minería de Datos.... Error! Marcador no definido Interpretación y Evaluación.... Error! Marcador no definido. 3.6 Extracción de conocimiento.... Error! Marcador no definido Selección de variables.... Error! Marcador no definido Descripción de Variables.... Error! Marcador no definido. 3.7 Técnicas de Minería de Datos.... Error! Marcador no definido Clustering (Agrupamiento).... Error! Marcador no definido Segmentación.... Error! Marcador no definido Clasificación.... Error! Marcador no definido Predicción.... Error! Marcador no definido Redes Neuronales.... Error! Marcador no definido Árboles de Decisión.... Error! Marcador no definido. CAPITULO IV... Error! Marcador no definido. METODOLOGIA DE APLICACIÓN DEL DATA MINING (DM). Error! Marcador no definido. 4.1 Introducción.... Error! Marcador no definido. 4.2 Metodologías recomendadas para Minería de Datos.. Error! Marcador no definido Diferencia entre SEMMA y CRISP-DM... Error! Marcador no definido.

7 4.3 Metodología CRISP-DM.... Error! Marcador no definido. 4.4 Fases del modelo de referencia... Error! Marcador no definido Comprensión del Negocio... Error! Marcador no definido Comprensión de los Datos.... Error! Marcador no definido Preparación de los datos.... Error! Marcador no definido Modelado.... Error! Marcador no definido Evaluación.... Error! Marcador no definido Despliegue o Desarrollo.... Error! Marcador no definido. CAPITULO V... Error! Marcador no definido. SELECCIÓN E IMPLEMENTACION DEL ALGORITMO... Error! Marcador no definido. 5.1 Descripción y comprensión del Algoritmo.... Error! Marcador no definido. 5.2 Selección del Algoritmo.... Error! Marcador no definido. 5.3 Tipos de Aprendizaje... Error! Marcador no definido Aprendizaje Supervisado.... Error! Marcador no definido Aprendizaje no supervisado.... Error! Marcador no definido. 5.4 Ventajas y Desventajas del algoritmo de Red Neuronal.... Error! Marcador no definido. 5.5 Implementación del algoritmos seleccionado... Error! Marcador no definido Parámetros del Algoritmo.... Error! Marcador no definido. CAPITULO VI... Error! Marcador no definido. GLOSARIO... Error! Marcador no definido. 6.1 Terminología del negocio.... Error! Marcador no definido. 6.2 Terminología de Minería de Datos.... Error! Marcador no definido. CONCLUSION... Error! Marcador no definido. ANEXOS... Error! Marcador no definido.

8 CAPITULO I INTRODUCCIÓN DE LA EMPRESA Contenido: 1.1 ETAPA. 1.2 Definición de Objetivos. 1.3 Análisis de la situación real de la Empresa.

9 1.4 Descripción de actividades de la Empresa. 1.5 Telefonía Fija. 1.1 Empresa Pública Municipal de Telecomunicaciones, Agua Potable, Alcantarillado y Saneamiento de Cuenca E.T.A.P.A. Son ya 40 años en los que E.T.A.P.A se ha ido fortaleciendo y creciendo acorde al ritmo que le ha exigido Cuenca y el desarrollo de la tecnología, llegando hoy en día a posicionarse entre las mejores Empresas del país, con reconocida eficiencia en la prestación de servicios de telecomunicaciones, agua potable, alcantarillado y gestión ambiental, cualidad muy difícil de conseguir y más aún de mantenerla.

10 1.2 Definición de objetivos. MISION. Somos una Empresa Pública Municipal de telecomunicaciones, agua potable y saneamiento, que garantiza la prestación de estos servicios en Cuenca, con responsabilidad ambiental, calidad, honestidad y vocación de servicio. Con este compromiso nos proyectamos a nivel nacional. VISION. Ser una Empresa modelo en el ámbito nacional en la prestación de servicios públicos de telecomunicaciones, agua potable y saneamiento, complementarios y conexos; con los más altos niveles de calidad e innovación de sus productos y servicios, buscando la fidelidad de sus clientes. 1.3 Análisis de la situación real de la Empresa. La Empresa no cuenta con procesos que le permitan predecir el hecho de que un cliente incumpla en sus pagos por consumo o como se conoce como caer en mora, por lo que se procede a la toma acciones correctivas consistentes en suspender el servicio hasta que el cliente cumpla con sus obligaciones. En el caso del servicio telefónico un cliente puede tener un máximo de hasta 3 planillas pendientes de pago, luego de este tiempo el servicio es suspendido parcialmente; es

11 decir, primero se suspende el tráfico saliente luego de 3 meses mas de incumplimiento del cliente se procede a suspender el trafico entrante. No se tienen mecanismos que permitan predecir a los clientes que podrían llegar a tener más de 3 meses pendientes y así ponerlos sobre aviso o sugerir que se acerquen a cancelar sus deudas antes de incumplir sus obligaciones de pago. El presente Proyecto de Tesis pretende formar parte de estudio donde se prevea con cierto grado de precisión el incumplimiento de pago en las cuentas referentes al servicio de Telefonía Fija basado en el comportamiento de pago de los clientes y comportamiento de consumo de forma que la información que se obtenga se entregará a la Gerencia Comercial de la Empresa E.T.A.P.A. Todo esto con el propósito de ofrecer un mejor servicio a los clientes satisfaciendo así sus necesidades e incrementando los ingresos para la Empresa. 1.4 Descripción de actividades de la Empresa E.T.A.P.A. La Empresa municipal E.T.A.P.A tiene a su cargo la supervisión de servicios como: Agua Potable, Alcantarillado, Gestión Ambiental, administración del Parque Nacional Cajas (PNC) y todas las funciones relacionadas a las Telecomunicaciones, las mismas que se clasifican en: Telefonía Fija. Local.

12 Regional. Nacional. Internacional. Celular. Servicios especiales. Servicios temporales. Telefonía Pública. Teléfonos Públicos Inteligentes. Locutorios Alo E.T.A.P.A. Tarjeta Prepago para Telefonía Pública. Internet de alta Velocidad (Banda Ancha). Residencial ADSL Familia Net. Corporativo Segundo Nivel ADSL. Corporativo Primer Nivel ADSL. Corporativo Primer Nivel SHDL. En este proyecto de tesis se contempla únicamente el servicio de Telefonía Fija, limitándose su alcance a la predicción de clientes que de acuerdo a su comportamiento histórico de consumo y pago podrían incurrir en mora: 1.5 Telefonía Fija. El servicio telefónico fijo conmutado es un servicio que permite al cliente hacer y recibir llamadas a través de un aparato telefónico fijo hacia cualquier lugar con acceso telefónico sea local, nacional, celular o internacional a través de la infraestructura tecnológica de la Empresa prestadora del servicio telefónico..

13 Llamada Local. Son todas las llamadas realizadas por el suscriptor del servicio a todas las parroquias urbanas o rurales del cantón Cuenca. Llamada Regional. Son aquellas llamadas que se realizan dentro de los 15 cantones restantes de la provincia del Azuay, y, a las provincias de Guayas, El Oro, Loja, Zamora Chinchipe, Morona Santiago y Cañar. Llamada Nacional. Son todas aquellas llamadas que se realizan a las provincias que no constan como regionales. Llamada Celular. Son las llamadas que realiza desde su teléfono hacia las operadoras celulares de Movistar, Porta celular o Alegro PCS, sin importar en qué parte del país se encuentre la persona con el teléfono celular. Llamada Internacional. Son todas aquellas llamadas que se realizan desde su teléfono hacia otros países Antecedentes. La Empresa E.T.A.P.A. ha venido trabajando en la creación de nuevos productos, mejoramiento de la atención al cliente y otras áreas en lo que a productos de telecomunicaciones se refiere.

14 Debido a esto se ha planteado realizar la un estudio de mercado, identificando a grupos de clientes y aplicando técnicas de Minería de Datos para la realización del proyecto. Cabe mencionar que se ha dado ya el primer paso, en lo que se refiere a la creación de la base de clientes de E.T.A.P.A. dentro del proyecto del nuevo sistema de Gestión Comercial. En el área de las telecomunicaciones en especial, se tiene cantidades grandes de información, tales como horario del día en que llama, número de llamadas, destinos diferentes de llamadas, minutos de consumo, ubicación origen del que llama, entre otros datos, lo cual se convierte en una fuente de conocimiento para la toma de decisiones. La minería de datos se lo hace en base a un proceso que contempla la aplicación de algoritmos estadísticos y de inteligencia artificial, que ya vienen programados en las herramientas comerciales que se encuentran en el mercado, de las cuales E.T.A.P.A. ha adquirido Microsoft Business Intelligence.

15 CAPITULO II RECURSOS DISPONIBLES Contenido: 2.1 Recursos Humanos. 2.2 Recursos Informáticos.

16 2.2.1 Sistema Operativo Bases de Datos Software de Desarrollo Hardware. 2.1 Recursos Humanos. La Empresa Municipal de telecomunicaciones, agua potable y alcantarillado E.T.A.P.A. cuenta con personal profesional los mismos que se encuentran a cargo de la realización de diferentes proyectos para brindar un mejor servicio a la comunidad, en

17 las diferentes áreas que le compete al DEPARTAMENTO DE DESARROLLO DE SOFTWARE. El presente proyecto será realizado por la Srta. Daycy Peralta bajo la supervisión del Ing. Bolívar Piedra el mismo que ocupa el cargo de Profesional 1 teniendo bajo su responsabilidad la Administración del Proyecto, tomando en cuenta las necesidades actuales de la Empresa así como la de sus clientes. Tienen también interés en el proyecto el Ing. Esteban Garzón que ocupa el cargo de Responsable del Departamento de Desarrollo de Software en el Departamento de Desarrollo de Software conjuntamente con el Econ. Manuel Freire funcionario Departamento de Gerencia Comercial ubicado en el Centro Multiservicios Gapal 2.2 Recursos Informáticos Sistema Operativo. o Microsoft Windows XP Profesional Versión 2002 Service Pack 2 La Empresa E.T.A.P.A. cuenta con la licencia de Microsoft Windows XP Profesional como Sistema Operativo para el desarrollo de todos los proyectos que se realizan en dicha Institución formando parte de las herramientas definidas como estándar para el desarrollo de proyectos informáticos en la Empresa.

18 2.2.2 Bases de Datos. DB2 (AS/400) Software de Desarrollo. Microsoft SQL Server 2005 Management Studio. Business Intelligence Development Studio. Microsoft Office Microsoft Internet Explorer. iseries Navigator. Microsoft SQL Server Management Studio. Microsoft SQL Server 2005 consolida la administración de servidores y la creación de objetos comerciales en dos entornos integrados: SQL Server Management Studio y Business Intelligence Development Studio. Ambos entornos utilizan soluciones y proyectos para fines de administración y organización Esta herramienta tiene una particularidad, que ha sido creada para ayudar en el espacio de los negocios que tiene capacidad de trabajar con grandes cantidades de datos. A continuación las ventajas y desventajas de Microsoft SQL Server 2005: Ventajas. Crear, desplegar y administrar aplicaciones Empresariales más seguras, escalables y confiables.

19 Maximizar la productividad de IT mediante la reducción de la complejidad y el soporte de aplicaciones de bases de datos. Compartir datos en múltiples plataformas, aplicaciones y dispositivos para facilitar la conexión de sistemas internos y externos. Controlar los costes sin sacrificar el rendimiento, la disponibilidad, la escalabilidad o la seguridad Desventajas. Su desventaja más importante seria el elevado costo de su licencia. SQL Server Management Studio. SQL Server Management Studio es un entorno integrado para obtener acceso a todos los componentes de SQL Server, así como para configurarlos y administrarlos, además combina un amplio grupo de herramientas gráficas con un editor de texto enriquecido para ofrecer acceso a SQL Server a los programadores y administradores, sin importar su nivel de especialización. Proporciona un entorno para administrar Analysis Services, Integration Services, Reporting Services y XQuery. Business Intelligence Development Studio. Business Intelligence Development Studio es un entorno integrado para desarrollar construcciones de inteligencia Empresarial, como cubos, orígenes de datos, informes y paquetes de Integration Services. Business Intelligence Development Studio incluye plantillas de proyecto que proporcionan un contexto para desarrollar construcciones específicas...

20 Integration Services Capacidades de extracción, transformación y carga (ELT) de datos para almacenamiento e integración de datos en toda la Empresa. Cuando trabajamos con Integración Services nos encontramos con un entorno agradable al usuario, donde podemos trabajar en la realización de segmentación de información usando el método que mas creamos conveniente y así poder depurar dicho paquete, ayuda al usuario en que permite visualizar el proceso completo mientras se realiza la depuración, además de enseñar los resultados de cada grupo de datos. Análisis Services Capacidades de procesamiento analítico en línea (OLAP) para el análisis rápido y sofisticado de conjuntos de datos grandes y complejos, utilizando almacenamiento multidimensional. De la misma forma que cuando se trabaja en Integración Services, Análisis Services ofrece muchas facilidades para trabajar con la información que permanece oculta en las grandes Bases de Datos, para este proceso es de vital importancia ejecutar consultas SQL hacia la Base de Datos, además ofrece herramientas que nos ayudan a crear los diferentes paquetes que se usaran para el análisis de los datos, para poder ejecutar un paquete se debe conocer el uso de las herramientas que nos ofrece el cuadro de controles. Microsoft Office Dentro de este proyecto se vio la necesidad de usar programas que se encuentran dentro del paquete de office, así se esta usando por ejemplo: Microsoft Office Word 2003

21 Como procesador de texto, especialmente para la realización de informes que se envían a diferentes Departamentos de la Empresa, actas de reunión, etc. De la misma forma se entregarán periódicamente informes del avance del proyecto al Director de Tesis designado. Microsoft Office Excel 2003 De la misma manera esta previsto usar Microsoft Office Excel para el uso de las hojas de cálculo cuando se disponga de la información necesaria, esto con el fin de presentar cuadros estadísticos que son requeridos para el análisis de la información del comportamiento de los clientes que serán objeto de nuestro estudio. Microsoft Office Visio Este proyecto esta destinado a trabajar con la información guardada dentro de la Base de Datos de la Empresa, es así que ser equiere de Visio como una herramienta adicional para visualizar las relaciones que tienen las diferentes entidades o tablas que serán objeto de análisis. Adobe Reader 7.0 Adobe nos ayudará en lo referente a los documentos que se usan como guía dentro de la preparación y desarrollo del proyecto, así como la explicación de las metodologías que se usarán. Microsoft Outlook Un administrador para el uso de la información personal que se usa diariamente como contactos de todo el personal de E.T.A.P.A. calendario de actividades, etc. De esta me facilita el estar en contacto con el personal respectivo.

22 Con el uso de esta herramienta se establece contacto frecuente con el Director del proyecto elegido por la Universidad para cualquier duda sobre el desarrollo del mismo. Microsoft Internet Explorer. Este navegador es de uso cotidiano dentro de la Empresa, para el desarrollo del proyecto se ha otorgado acceso completo de Internet para las diferentes investigaciones que se requieran así como ayudas sobre el funcionamiento de las herramientas que se usarán para el desarrollo del presente proyecto. Cabe señalar que no todos los sitios son posibles de visitar, por ejemplo sitios de correos personales, salas de Chat, sitios de ventas online, o sitios para descargar programas están restringidos por la Empresa. Para esto existe un control de todas las páginas Web que son visitadas, con el fin de obtener un mejor desempeño en las actividades que se realiza dentro de la Empresa. iseries Navigator v5 El servidor iseries Navigator se usa para tener una conexión a la BD de la Empresa, de esta forma se puede trabajar con los campos que se crean necesarios y conocer las características de cada atributo, como tipo de dato o longitud Hardware. Mainboard LAN 10/100 mbps Puertos de conexión PS/2, paralelo, serie, USB Procesador INTEL Pentium GHz, 800 MHz. Memoria RAM 3GB.

23 Disco Duro 160GB RPM Unidades de almacenamiento secundario CD. ROM Puertos USB Estas son las características del equipo que se usará para el desarrollo del Proyecto de Tesis, se resalta que la Empresa ya contaba con este equipo y con el Software que se usará el mismo que se escribió anteriormente.

24 CAPITULO III SISTEMAS DATA WAREHOUSE Contenido: 3.1 Introducción. 3.2 Almacén de Datos Características de un Almacén de Datos.

25 3.2.2 Funciones de un Almacén de Datos Ventajas Problemas en su manejo. 3.3 Data Marts Características de un Data Mart. 3.4 Cubos de Información. 3.5 Fases de la Minería de Datos Selección Limpieza y Pre-procesamiento Transformación Minería de Datos Interpretación y evaluación. 3.6 Extracción del conocimiento Selección de variables Descripción de Variables. 3.7 Técnicas de Minería de Datos Clustering Segmentación Clasificación Predicción Redes Neuronales Árboles de decisión. 3.1 Introducción. La Minería de Datos nace por la aparición de nuevas necesidades de las Empresas de explotar su información y sacar provecho de esta. La Minería de datos se define como el proceso de extracción de conocimiento útil y comprensible que permanece oculto proveniente de grandes cantidades de datos almacenados. Así el objetivo de Minería de

26 Datos es encontrar modelos claros desde sus datos originales, para que estos modelos sean efectivos deben ser supervisados y el uso de sus resultados deberá ser beneficioso para la Empresa. Para comenzar con el proceso de Minería de Datos es primordial tener conocimiento del negocio además de tener una idea clara del objetivo del proyecto, es decir cuales son los problemas que se están presentando y que resultados se espera obtener del proyecto. Tomando en cuenta a la Minería de Datos como parte de un sistema Data Warehousing los mismos que se sustentan en el uso de almacenes de datos de los que se disponga en la Empresa. La cantidad de datos que poseen actualmente todas las Empresas del sector público y privado, requiere ser procesada de tal manera que se extraiga información útil que se deberá descifrar. En este proyecto se va ha estudiar un caso de la Empresa Pública Municipal de Telecomunicaciones, Agua Potable, Alcantarillado y Saneamiento de Cuenca E.T.A.P.A. donde se pretende evitar el fraude en el pago del servicio de Telefonía Fija la misma que posee importante información sobre los clientes. Ciencias como la Inteligencia Artificial y la Estadística forman parte fundamental de la Minería de Datos, de esta forma se obtendrá información fácil de comprender para el usuario y se usará para encontrar la solución para los inconvenientes que pueden presentarse dentro de la Empresa. Es por este motivo, que es importante comprender el negocio. 3.2 Almacén de Datos. El concepto de Almacén de Datos o Colección de Datos nace en 1992 y esta ligado a la definición de EIS por sus siglas en inglés (Executive Information System) o Sistema de Información Ejecutivo de una organización.

27 Para el proceso de extracción del conocimiento se trabaja directamente con los almacenes de datos o su traducción en inglés (Data Warehouse) que son grandes repositorios de datos como Bases de Datos corporativas ya organizados bajo un esquema ya establecido. Los Almacenes de datos permiten ver el problema desde diferentes perspectivas que se pueden discutir mientras avanza un propósito de Minería de Datos hasta llegar a algoritmos que puedan transformar a toda la información que se tenga anteriormente en uno o varios almacenes de Datos en información útil y comprensible al usuario. A Continuación se muestra las aplicaciones y como los Almacenes de Datos pueden usarse de diferentes maneras acelerando los procesos de análisis de la información.

28 Figura 3.1 Perspectiva general y usos de un Almacén de Datos. DIAZ, Wladimiro, Almacenes de Datos La figura 3.1 muestra el proceso al cual los datos son sometidos los datos para extraer información y usen el usuario para poder interpretar los datos y generar procesos que ayuden al mejoramiento de la organización. En primer lugar tenemos los orígenes de datos los cuales pueden ser de fuentes internas es decir; fuentes propias de la Empresa, así como también pueden ser externas (datos tomados de fuera pero que sirven en el proceso de Minería de Datos). Cabe señalar que las fuentes tanto internas como externas pueden estar en diferentes formatos. Una vez identificadas las diferentes fuentes de datos se procede a realizar el ETL, que puntualiza el proceso de Extracción, Transformación y Carga de los datos para obtener el almacén de datos que se convertirá en la fuente de información consolidada a la que accederán las diferentes herramientas generadoras de análisis o generadoras de informes entre ellas la Minería de Datos.

29 3.2.1 Características de un Almacén de Datos. Las características que brinda un almacén de datos o Data Warehouse son: Integrado. No Volátil. Variable en el tiempo. Temático. Integrado. Se dice que los datos tienen que estar integrados ya que son los mismos tipos de datos que se usarán en todos los departamentos de la Empresa, estos datos pueden ser de diferentes fuentes, un archivo de texto, una hoja de cálculo o Bases de Datos que tengan datos que se vinculen entre ellos. No Volátil. Los datos de un Data Warehouse no se eliminan. Variable en el tiempo. Mientras pasa el tiempo los datos tienen que ser actualizados para fines de consulta de los usuarios. Temático. Los datos son organizados por temas para facilitar su uso. Los Almacenes de Datos también cuentan con Metadatos, que es información sobre los datos como por ejemplo, la fecha de publicación o ultima actualización. Un Almacén de datos ofrece: Herramientas para la toma de decisiones. Permite la aplicación de técnicas estadísticas para la realización de análisis. Se trabaja con datos pasados, de esta manera se pueden predecir datos futuros. Optimización tecnológica.

30 3.2.2 Funciones de un Almacén de Datos. Un almacén de datos tiene que cumplir con las siguientes funciones: Integración. Separación. Integración. Los datos provenientes de las diferentes fuentes de información como Bases de Datos de cada unidad de la Empresa Separación. Los datos que se usan diariamente de los datos que se ubican dentro del almacén de datos con propósitos de análisis y toma de decisiones Ventajas. Se debe mencionar las ventajas que presenta el trabajar con un almacén de datos ya presenta mejorías notables dentro de avance del proyecto tales como: Rentabilidad de las inversiones realizadas para su creación. Aumento de la competitividad en el mercado Problemas en su manejo. Infravaloración del esfuerzo necesario para su diseño y creación. Infravaloración de los recursos necesarios para la captura, carga y almacenamiento de los datos. Incremento continuo de los requisitos de los usuarios. Privacidad de los datos.

31 3.3 Data Marts Los Data Marts son representaciones de subconjuntos de datos que conforman un Data Warehouse pertenecientes a un área o departamento específicas. Dentro de la Empresa E.T.A.P.A. Se han tomado en cuenta para este proyecto los subconjuntos de información correspondientes a Consumos en Telefonía Fija como son Llamadas Internacionales, Llamadas Nacionales, Llamadas Regionales, Llamadas Celular y Llamadas Locales, dejando fuera los servicios de Internet Banda Ancha, Agua Potable y Alcantarillado Características de un Data Mart Los Data Mart tiene las siguientes características: Usuarios limitados. Área especifica. Tiene un propósito específico. Tiene una función de apoyo 3.4 Cubos de Información. Se los conoce también como Cubos OLAP. Los Cubos de Información tratan de organizar los datos en tablas y en relaciones. Los Cubos de información se pueden construir con un número indefinido de dimensiones o niveles de agregación; a estos se les conoce con el nombre de Hipercubos, que es el termino que se utiliza cuando se usa mas de tres dimensiones.

32 Un cubo OLAP contiene información de la o las variables que se han considerado objeto de estudio, facilitando una vista lógica de la información proveniente del Sistema de Información de la Empresa, permitiendo visualizar desde una mejor perspectiva multidimensional desde diferentes aspectos o atributos de una dimensión; los atributos generalmente responderán a las preguntas: cuanto, que, donde, etc. Los Cubos de información poseen dimensiones y variables conocidas también como indicadores de Gestión, siendo las dimensiones atributos o medidas de las variables como por ejemplo atributos correspondientes a clientes tales como: Nombre, ubicación, dirección, Sexo, etc. 3.5 Fases de la Minería de Datos. Los proyectos de Minería de datos (MD) o Data Mining (DM) se aplican en diferentes áreas, así por ejemplo, se emplea en la Banca, comercio electrónico, Industrias agrícolas, Medicina, Industrias de modas, etc. Esto comprueba que existe una extensa variedad de campos donde la Minería de Datos puede ser aplicada, y no necesariamente los usuarios finales tienen que ser expertos en Minería de Datos ya que estas herramientas proveen de mecanismos orientadas a usuarios finales.

33 Un proyecto de Minería de Datos requiere seguir una metodología que nos pueda proyectar resultados lo suficientemente confiables para poder tomar decisiones. En este caso se usara la Metodología CRISP-DM da do que, la Minería de Datos es un campo reciente por lo que se ha tratado de escoger una metodología que pueda satisfacer sus necesidades. Este tema se explicará con más detalle fase por fase, tarea por tarea, y finalmente sus resultados en el Capítulo IV. A continuación se presenta un grafico correspondiente a las fases de la Minería de Datos: Figura 3.2 Fases de la Minería de Datos Selección. Los objetivos del plan de trabajo deben estar muy claros, es importante que no exista ninguna duda sobre esto ya que el resultado dependerá de las preguntas que se hayan planteado al inicio.

34 Para realizar este paso se necesita tener los suficientes datos con que trabajar, en este caso se entiende que los orígenes de datos que generalmente son lo grandes cantidades de información, este es el proceso en el cual se decide cuales son los datos con los que se trabajará e identificar las variables que serán relevantes, ya que la calidad de la información que se muestre como resultado obedecerá a los datos que se hayan escogido para ser estudiados. Los datos serán seleccionados de acuerdo las necesidades que se tenga, por ejemplo, para la elaboración de este proyecto no debemos tomar en cuenta a los datos que correspondan a los clientes que consumen el servicio de Agua Potable, no porque no se considere información importante, sino porque no puede para los objetivos que se están planteando. Se debe tener cuidado con los problemas que viene juntamente con la selección de datos, ya sean datos que pueden confundir por que no están claros en su descripción, se puede dar el caso en que se trabaje con cierta información y luego de haber seleccionado y ejecutado los algoritmos escogidos; se puede llegar a la conclusión de que la información que se obtuvo del resultado no es la correcta. Ha este fenómeno se le conoce como Outliners que define a los datos que no concuerdan con el comportamiento frecuente del resto de datos con los que se esta trabajando Limpieza y Pre-Procesamiento. Dentro del Proceso de Transformación se encuentra la Limpieza de Datos que consta en identificar los datos que pueden estar errados o repetidos y deshacerse de ellos, con el objetivo de conocer datos mas confiables de mejor calidad que posibiliten realizar

35 procesos posteriores; todo esto es un proceso que demanda de mucho cuidado, así la limpieza de datos se puede dividir en: Separar en elementos. Estandarizar. Verificar. Hacer correspondencias. Agrupar. Documentar Transformación. Para iniciar la transformación de los datos se debe escoger una herramienta que a además de ser conocida, pueda trabajar de manera paralela con los almacenes de datos que tenga la Empresa, ya sean Bases de Datos, archivos planos, etc. Las fases de la Minería de Datos que priorizaremos son la Extracción, Transformación y Carga de los datos conocida también como ETL por sus siglas en ingles (Extract, Transform, and Load). Las personas que manipulen los datos deben conocer como es el movimiento de los orígenes de datos, si es posible información como: Conocimiento sobre los esquemas que tiene la Empresa. Tablas que estén relacionadas a los servicios con los que se esta trabajando. Ciertas características de los campos. Tipos de datos. Para realizar el ETL se usara la Herramienta SQL Server Integration Services (SSIS) misma que dispone de tareas gráficas que permiten ejecutar los diferentes procesos y depurar los diferentes paquetes que se hayan ejecutado para el ETL, por lo que todos estos puntos influyen directamente en la Extracción de Datos, es muy probable que la información que ha sido extraída tenga datos erróneos que contengan algún tipo de ruido, o basura. Para evitar que la información llegue distorsionada se aplica la Limpieza de los Datos.

36 3.5.4 Minería de Datos. Generalmente, el 60% del tiempo y del esfuerzo de un proyecto de minería de datos está dedicado a la preparación de los datos. El 30% a la modelización y evaluación de los modelos creados. Y el 10% restante se reparte entre las demás actividades. También se conoce a la Minería de Datos con el nombre de Análisis Inteligente de Datos un análisis de datos hace mas hincapié en el razonamiento estadístico de los resultados obtenidos por lo que se representarán en cuadros descriptivos que son de fácil interpretación. En este caso se utilizarán gráficos estadísticos para la elaboración de informes que se presentarán a la Gerencia Comercial, ya que lo que se necesita expresar son los resultados finales, y así poder intercambiar ideas sobre las posibles estrategias a aplicar. En esta fase se tienen ya los datos transformados y depositados en el almacén de datos, es aquí donde se pueden aplicar diferentes técnicas que ayudan a resolverse, así se aplicará un algoritmo de Minería de Datos correspondiente a las tareas ya sean estas de dos tipos: Predictivas. Descriptivas. Predictivas. Tiene por objetivo generar modelos, que parten desde las grandes cantidades de datos y paso a paso descubren relaciones ocultas y complejas a partir de diversas operaciones. Descriptivas. Tiene por objetivo generar información y realizar un análisis dimensional.

37 3.5.5 Interpretación y Evaluación. La interpretación y evaluación de datos se realizara luego de obtener los resultados de los algoritmos que se han ejecutado, se interpretará los resultados que arrojó la herramienta y se podrá distinguir si la información es válida o no, en caso de que se determine que la información no alcanzó los resultados esperados, se debe alterar alguno de los procesos de tal forma de ubicar donde esta el error. Esta fase de la Minería de Datos debe ser realizada por un experto que conozca el negocio, el mismo que nos va a indicar que tan viable es la información obtenida para los objetivos planteados. En esta fase los algoritmos han lanzado ya los patrones de comportamiento de las diferentes variables. Se debe tener especial cuidado al momento de interpretar los resultados arrojados por el algoritmo ya que podemos ver desde distintos puntos de vista por lo tanto aplicar diferentes criterios. Según algunos textos los patrones de comportamiento obtenidos deberán tener tres cualidades: Precisos. Comprensibles. Interesantes. En algunos textos se añade una fase mas que se la conoce como Fase de Difusión esta pretende dar ha conocer el nuevo conocimiento a todos los usuarios, dentro de este proyecto no se tomará en cuenta esta fase sino se trabajará con la difusión de la información dentro de la fase de interpretación y evaluación. 3.6 Extracción de conocimiento.

38 Se puede definir al conocimiento como la información que es de vital importancia que se ubica dentro de los almacenes de datos que poseen las organizaciones sean del tipo que fuesen (públicas o privadas) y que permiten tomar decisiones orientadas a satisfacer las necesidades de la Empresa así como la demanda de los clientes orientados a las telecomunicaciones. Existe una gran mayoría de autores que se refieren a la Minería de Datos como un sinónimo de la Extracción del conocimiento o KDD por sus siglas en inglés (Knowledge Discovery from Databases), pero en la práctica se podrá dar cuenta de la diferencia que existe entre estos dos términos, así también se da el caso en que se toma a la Extracción del conocimiento como un conjunto de fases siendo la Minería de Datos como una de ellas Selección de variables. En este caso se pretende clasificar a los clientes de acuerdo a sus consumos de Telefonía Fija, de esta manera se podrá obtener información para descifrar cuales son los clientes con los que debemos trabajar luego de haber obtenido gran cantidad de información sobre sus consumos y haber diferenciado las diferentes Categorías así: Categoría 1 (Popular) Categoría 2 (Residencial) Categoría 3 (Comercial) Para el presente estudio se toma en cuenta únicamente a los clientes de Categoría Residencial además la técnica de Minería de Datos que se elija dependerá de la necesidad que tenga la organización si es que desea clasificar, predecir, etc. El proceso de selección de variables debe ser considerando uno de los más importantes. Ya que se trata uno de los puntos vitales donde se va ha enfocar las diferentes opiniones. El proceso consiste en identificar las variables con las que se trabajara procurando que estas variables sean de la mejor calidad posible así podremos esperar resultados óptimos.

39 En este caso se tratan de variables de tipo numérico, desde donde se partirá para el estudio y aplicación de los diferentes algoritmos que se explican mas adelante; así las variables principales que se pretenden usar son: Valor de la Factura Estado de la línea. Meses Pendientes. Tipos de llamada. Tiempo de permanencia de la instalación durante el periodo de estudio. Destinos Diferentes. Numero de llamadas. Duración de llamadas. Días de Pago. Porcentaje de Pago. Deuda Total. Posible Deudor Descripción de Variables. Valor de la Factura. Hace referencia al valor total que consta en la planilla del servicio. Estado de la línea. Hace referencia a la identificación de una línea si es que ésta en nueva o retirada. Meses Pendientes.

40 Hace referencia a las deudas mensuales acumuladas que posee el cliente. Tipo de llamada. El tipo de llamada se identifica por un código asignado por la Empresa, así: Tipo de llamada Código Local. 12 Regional. 16 Nacional. 32 Celular. 20 Internacional. 64 Tabla 3.1. Códigos de llamadas. Destinos diferentes. Los distintos números telefónicos marcados desde un mismo número de origen aplicado para: Telefonía Local. Telefonía Regional. Telefonía Nacional. Telefonía Celular. Telefonía Internacional. Número de llamadas. Corresponde a la cantidad de llamadas que el abonado a realizado desde su numero de origen aplicado para: Telefonía Local. Telefonía Regional. Telefonía Nacional. Telefonía Celular. Telefonía Internacional.

41 Duración de llamadas. Hace referencia al tiempo de duración de una llamada realizada desde un mis o numero de origen a cada uno de los destinos. Días de Pago. Es un total de los días que se suman desde que se origino la deuda hasta que se canceló. Porcentaje de pago. El porcentaje que el cliente a cancelado puede ser total o parcial en el caso de que hayan realizado pagos por abonos. Deuda Total. Hace referencia al valor total acumulado de la deuda adquirida por el cliente, los valores se representarán de Dólares Americanos (USD) Posible Deudor. La variable que será objeto de predicción e indicara que clientes serán designados como posibles deudores. En base a las variables ya mencionadas se obtienen las siguientes variables derivadas que conjuntamente con las principales conforman el conjunto total de variables a usar dentro del periodo de estudio. Un mes se divide en 2 periodos, al ser siete periodos de estudio se trata de 13 periodos desde el periodo 0 hasta el periodo 13 así: Mes Mes de Predicción (Agosto) Mes de Predicción -1 (Julio) 0-1 Mes de Predicción -2 (Junio) 2-3 Mes de Predicción -3 (Mayo) 4-5 Periodos

42 Mes de Predicción -4 (Abril) 6-7 Mes de Predicción -5 (Marzo) 8-9 Mes de Predicción -6 (Febrero) Mes de Predicción -7 (Enero) Tabla 3.2. Descripción de periodos. Valor 0 Valor 1 Valor 2 Valor 3 Valor 4 Valor 5 Variable Descripción. Total del valor de la factura del servicio telefónico correspondiente al periodo 0 Total del valor de la factura del servicio telefónico correspondiente al periodo 1 Total del valor de la factura del servicio telefónico correspondiente al periodo 2 Total del valor de la factura del servicio telefónico correspondiente al periodo 3 Total del valor de la factura del servicio telefónico correspondiente al periodo 4 Total del valor de la factura del servicio telefónico correspondiente al periodo 5 Valor 6 Valor 7 Valor 8 Valor 9 Valor 10 Total del valor de la factura del servicio telefónico correspondiente al periodo 6 Total del valor de la factura del servicio telefónico correspondiente al periodo 7 Total del valor de la factura del servicio telefónico correspondiente al periodo 8 Total del valor de la factura del servicio telefónico correspondiente al periodo 9 Total del valor de la factura del servicio telefónico correspondiente al periodo 10

43 Valor 11 Valor 12 Valor 13 AVG Valor 64 Total del valor de la factura del servicio telefónico correspondiente al periodo 11 Total del valor de la factura del servicio telefónico correspondiente al periodo 12 Total del valor de la factura del servicio telefónico correspondiente al periodo 13 Promedio del valor total de llamadas internacionales. AVG Valor 32 AVG Valor 20 AVG Valor 16 AVG Valor 12 AVG Valor 0 MAX Valor 64 MAX Valor 32 Promedio del valor total de llamadas nacionales. Promedio del valor total de llamadas a celular. Promedio del valor total de llamadas regionales. Promedio del valor total de llamadas locales. Promedio de la suma del total de llamadas realizadas. Máximo valor del total de llamadas internacionales. Máximo valor del total de llamadas nacionales. MAX Valor 20 MAX Valor 16 MAX Valor 12 MAX Valor 0 MIN Valor 64 Máximo valor del total de llamadas celulares. Máximo valor del total de llamadas regionales. Máximo valor del total de llamadas locales. Valor máximo de la suma del total de llamadas realizadas. Mínimo valor del total de llamadas

44 MIN Valor 32 MIN Valor 20 MIN Valor 16 MIN Valor 12 MIN Valor 0 Llamadas 0 Llamadas 1 Llamadas 2 Llamadas 3 Llamadas 4 Llamadas 5 Llamadas 6 Llamadas 7 Llamadas 8 Llamadas 9 Llamadas 10 internacionales. Mínimo valor del total de llamadas nacionales. Mínimo valor del total de llamadas a celular. Mínimo valor del total de llamadas regionales. Mínimo valor del total de llamadas locales. Valor mínimo de la suma del total de llamadas realizadas. Número de llamadas realizadas en el periodo 0 Número de llamadas realizadas en el periodo 1 Número de llamadas realizadas en el periodo 2 Número de llamadas realizadas en el periodo 3 Número de llamadas realizadas en el periodo 4 Número de llamadas realizadas en el periodo 5 Número de llamadas realizadas en el periodo 6 Número de llamadas realizadas en el periodo 7 Número de llamadas realizadas en el periodo 8 Número de llamadas realizadas en el periodo 9 Número de llamadas realizadas en el periodo 10

45 Llamadas 11 Llamadas 12 Llamadas 13 AVG Llamadas 64 Número de llamadas realizadas en el periodo 11 Número de llamadas realizadas en el periodo 12 Número de llamadas realizadas en el periodo 13 Promedio de llamadas internacionales. AVG Llamadas 32 AVG Llamadas 20 Promedio de llamadas nacionales. Promedio de llamadas a celular. AVG Llamadas 16 Promedio de llamadas regionales. AVG Llamadas 12 Promedio de llamadas locales. AVG Llamadas 0 Promedio de las llamadas realizadas. MAX Llamadas 64 MAX Llamadas 32 Máximo número de llamadas internacionales. Máximo número de llamadas nacionales. MAX Llamadas 20 Máximo número de llamadas a celular. MAX Llamadas 16 Máximo número de llamadas regionales. MAX Llamadas 12 Máximo número de llamadas locales. MAX Llamadas 0 MIN Llamadas 64 MIN Llamadas 32 Número máximo del total de llamadas realizadas. Mínimo número de llamadas internacionales. Mínimo número de llamadas nacionales.

46 MIN Llamadas 20 Mínimo número de llamadas a celular. MIN Llamadas 16 Mínimo número de llamadas regionales. MIN Llamadas 12 Mínimo número de llamadas locales. MIN Llamadas 0 Número mínimo del total de llamadas realizadas. Duración 0 Duración 1 Duración 2 Duración 3 Duración 4 Duración 5 Duración 6 Duración 7 Duración 8 Duración 9 Duración 10 Duración 11 Duración expresada en minutos de las llamadas realizadas en el periodo 0. Duración expresada en minutos de las llamadas realizadas en el periodo 1. Duración expresada en minutos de las llamadas realizadas en el periodo 2. Duración expresada en minutos de las llamadas realizadas en el periodo 3. Duración expresada en minutos de las llamadas realizadas en el periodo 4. Duración expresada en minutos de las llamadas realizadas en el periodo 5. Duración expresada en minutos de las llamadas realizadas en el periodo 6. Duración expresada en minutos de las llamadas realizadas en el periodo 7. Duración expresada en minutos de las llamadas realizadas en el periodo 8. Duración expresada en minutos de las llamadas realizadas en el periodo 9. Duración expresada en minutos de las llamadas realizadas en el periodo 10. Duración expresada en minutos de las llamadas realizadas en el periodo 11

47 Duración 12 Duración 13 AVG Duración 64 AVG Duración 32 Duración expresada en minutos de las llamadas realizadas en el periodo 12 Duración expresada en minutos de las llamadas realizadas en el periodo 13 Promedio de la duración de llamadas internacionales. Promedio de la duración de llamadas nacionales. AVG Duración 20 AVG Duración 16 AVG Duración 12 AVG Duración 0 Promedio de la duración de llamadas a celular. Promedio de la duración de llamadas regionales. Promedio de la duración de llamadas locales. Promedio de la duración de todas las llamadas. MAX Duración 64 Máxima duración de llamadas internacionales. MAX Duración 32 Máxima duración de llamadas nacionales. MAX Duración 20 Máxima duración de llamadas a celular. MAX Duración 16 Máxima duración de llamadas regionales. MAX Duración 12 Máxima duración de llamadas locales. MAX Duración 0 Máxima duración de todas las llamadas. MIN Duración 64 Mínima duración de llamadas internacionales.

48 MIN Duración 32 Mínima duración de llamadas nacionales. MIN Duración 20 Mínima duración de llamadas a celular. MIN Duración 16 Mínima duración de llamadas regionales. MIN Duración 12 Mínima duración de llamadas locales. MIN Duración 0 Mínima duración de todas las llamadas. Destinos 0 Destinos 1 Destinos 2 Destinos 3 Destinos 4 Destinos 5 Destinos 6 Destinos 7 Destinos 8 Destinos 9 Destinos 10 Número de destinos diferentes llamados en el periodo 0. Número de destinos diferentes llamados en el periodo 1. Número de destinos diferentes llamados en el periodo 2. Número de destinos diferentes llamados en el periodo 3. Número de destinos diferentes llamados en el periodo 4. Número de destinos diferentes llamados en el periodo 5. Número de destinos diferentes llamados en el periodo 6. Número de destinos diferentes llamados en el periodo 7. Número de destinos diferentes llamados en el periodo 8. Número de destinos diferentes llamados en el periodo 9. Número de destinos diferentes llamados

49 Destinos 11 Destinos 12 Destinos 13 AVG Destino 64 AVG Destino 32 AVG Destino 20 AVG Destino 16 AVG Destino 12 AVG Destino 0 en el periodo 10. Número de destinos diferentes llamados en el periodo 11. Número de destinos diferentes llamados en el periodo 12. Número de destinos diferentes llamados en el periodo 13. Promedio destinos diferentes de llamadas internacionales. Promedio destinos diferentes de llamadas nacionales. Promedio destinos diferentes de llamadas a celular. Promedio destinos diferentes de llamadas regionales. Promedio destinos diferentes de llamadas locales. Promedio de todos los destinos diferentes. MAX Destino 64 MAX Destino 32 MAX Destino 20 MAX Destino 16 MAX Destino 12 MAX Destino 0 MIN Destino 64 Máximo numero de destinos diferentes de llamadas internacionales. Máximo numero de destinos diferentes de llamadas nacionales. Máximo numero de destinos diferentes de llamadas a celular. Máximo numero de destinos diferentes de llamadas regionales. Máximo numero de destinos diferentes de llamadas locales. Máximo número de destinos diferentes de todas las llamadas. Mínimo número de destinos diferentes de llamadas internacionales.

50 MIN Destino 32 MIN Destino 20 MIN Destino 16 MIN Destino 12 MIN Destino 0 Retirada Nueva Conteo Mes Meses Mora Mínimo número de destinos diferentes de llamadas nacionales. Mínimo número de destinos diferentes de llamadas a celular. Mínimo número de destinos diferentes de llamadas regionales. Mínimo número de destinos diferentes de llamadas locales. Mínimo número de destinos diferentes de todas las llamadas. Indica si la línea telefónica ha sido retirada. Indica si la línea telefónica ha sido instalada recientemente. Indica el tiempo que el cliente tiene la línea telefónica dentro del periodo de estudio. Número de facturas pendientes de pago. AVG Meses Mora Promedio de facturas pendientes de pago. MAX Meses Mora MIN Meses Mora Número máximo de facturas pendientes de pago. Número mínimo de facturas pendientes de pago. Tabla 3.3. Descripción de variables. 3.7 Técnicas de Minería de Datos. Las técnicas de Minería de Datos serán utilizadas con el objetivo de obtener la información oculta en grandes cantidades de datos que se han dado debido al desarrollo y progresos tecnológicos, así se puede encontrar posibles tendencias de comportamiento, existen técnicas como por ejemplo:

51 Clustering (Agrupamiento). Segmentación. Clasificación. Predicción. Redes Neuronales. Árboles de decisión Clustering (Agrupamiento). Considerada la técnica mas usada por la Minería de Datos el cual trata de formar grupos mediante la información que se disponga; este permite caracterizar en grupos a los individuos en este caso a los clientes que tienen similares características entre ellos pero que entre grupos tengan una marcada diferencia. A esto se le conoce como vecindad Este algoritmo posee dos tipos de métodos para su implementación. El algoritmo de mediana-k el cual asigna un solo cluster a cada dato, este proceso se denomina agrupación en clusters duro. El segundo algoritmo es el Expectation Maximization (EM) en cambio este el dato puede pertenecer a varios clusters o grupos de datos, a esto se le conoce como agrupación de cluster blando. Esta técnica nos permite trabajar con resultados significativos y así comenzar ha reconocer los modelos de conducta, así por ejemplo existen los algoritmos de: Algoritmo K-means. Algoritmo K-medoids. Ejemplo.

52 Dentro de la Empresa se puede usar el agrupamiento para identificar a los clientes en base al tipo de servicio que consumen, una vez que se tenga esta información mediante el código del cliente se lo identifica y se pueden ofrecer promociones o incluso aplicar descuentos sobre el costo del servicio si es que la herramienta determina que es un cliente que se ubica dentro del grupo de los consumidores importantes de dicho servicio Segmentación. La técnica de Segmentación permite agrupar registros en una base de datos basándose en una serie de. Los registros en estos grupos o segmentos se seleccionan de forma que sean lo más parecidos posible, siendo cada grupo diferente a todos los demás (Similar a clustering). En un contexto CRM, los algoritmos de segmentación se emplean para agrupar clientes en segmentos en función de un número reducido de atributos de compra. Este esquema puede ser empleado para facilitar la comprensión de las distintas tipologías de clientes, y para construir un entorno en el que analizar su cambio a lo largo del tiempo. Ejemplo. Se puede tomar toda la población y se segmentar en base a la antigüedad de los clientes partiendo de una fecha establecida, dependiendo de las necesidades la técnica permite seguir haciendo subdivisiones, que pueden ser por ejemplo las facturas que hayan quedado pendientes de los clientes anteriores a determinada fecha y de los clientes recientes.

53 3.7.3 Clasificación. La técnica de clasificación se emplea con el fin de obtener un mayor conocimiento sobre los datos y predecir valores categóricos o cualitativos. Su uso va desde la predicción de si un cliente (o grupo de clientes identificados como un segmento) tiene una elevada propensión de abandono (irse a comprar a la competencia) hasta la identificación de clientes con alto, medio o bajo riesgo de devolver un crédito. En combinación con un esquema de segmentación, este tipo de algoritmos puede emplearse para clasificar a un nuevo cliente, en función de un número reducido de transacciones, dentro de los segmentos previamente detectados. Ejemplo. Se puede hacer un análisis en base a la información demográfica de los consumidores, tomando en cuenta las características que presentan los clientes que forman parte de la Categoría Residencial de Telefonía Fija. El algoritmo se usará al momento en que se ingrese un nuevo cliente, es decir, mediante sus características se clasificará si el cliente corresponde a la Categoría Residencial o no Predicción. Los algoritmos de predicción permiten construir modelos que estimen un valor numérico o cuantitativo, como por ejemplo el gasto o consumo. En este caso, y mediante los hábitos de compra de los clientes, es posible predecir su gasto total a medio o largo plazo. Otra posibilidad son los modelos de propensión. En este caso, el algoritmo calcula un valor entre 0 y 1 que refleja la propensión de un cliente a, por ejemplo, responder a una campaña promocional. Ejemplo.

54 Tomando el mismo ejemplo de los clientes que consumen el Servicio de BA podemos aplicar un estudio con los clientes actuales y predecir si los futuros clientes consumirán o no el servicio según los comportamientos pasados Redes Neuronales. Esta técnica de inteligencia artificial, se identifica por su capacidad para detectar y aprender complejos algoritmos, se considera como una herramienta de uso frecuente para detectar los grupos comunes en los datos. Las Redes Neuronales pueden trabajar con datos incompletos. Algunos ejemplos de red neuronal son: El Perceptrón. El Perceptrón multicapa. Los Mapas Autoorganizados, también conocidos como redes de Kohonen. Existen dos tipos de aprendizaje: Aprendizaje Supervisado. Aprendizaje no Supervisado.

55 Figura 3.3 Red Neuronal Árboles de Decisión. Este método es conocido quizás por ser el mas fácil de comprender, permite la integración de varias tareas de análisis entre ellas se puede mencionar a la regresión, la clasificación y la asociación, además permite incorporar al modelo atributos discretos y continuos. Al igual que el algoritmo anterior los árboles de decisión usan varios métodos o técnicas que dependerán de las necesidades que existan así se puede crear diferentes árboles dependiendo del modelo de que se disponga de igual manera las bifurcaciones de cada árbol dependerán del número de atributos. Los árboles de decisión forman parte de una metodología de aprendizaje supervisado dentro de las técnicas de predicción donde la raíz del árbol es un conjunto de datos y los subconjuntos consideradas como decisiones que están organizadas en forma jerárquica llamados nodos que forman las ramas del árbol, se representa precisamente en forma de árbol en donde cada nodo es una decisión, los cuales a su vez generan reglas para la clasificación de los conjuntos de datos.

56 Ejemplo. Se la puede usar cuando el objetivo es dividir a la población que seria la raíz del árbol en varios conjuntos de datos dependiendo de las necesidades que se tenga, cada nodo puede tornarse como una posible decisión, dentro de la Empresa se recomienda para establecer estrategias de marketing. Figura 3.4 Árboles de Decisión.

57 CAPITULO IV METODOLOGIA DE APLICACIÓN DEL DATA MINING (DM) Contenido: 4.1 Introducción.

58 4.2 Metodologías recomendadas para Minería de Datos Diferencia entre SEMMA y CRISP-DM. 4.3 Metodología CRISP-DM 4.4 Fases del modelo de referencia Comprensión del negocio Comprensión de los datos Preparación de los datos Modelado Evaluación Desarrollo. 4.1 Introducción. Antes de comenzar con cualquier proyecto donde se integre los nombres de Minería de Datos o Business Intelligence se deberá contar con la información suficiente. Tener mucha información no basta, hace falta tener conocimiento de que se puede hacer con la información disponible, lo ideal sería poder explotar al máximo los Activos de

59 Información que posea la Empresa estableciendo un equipo de trabajo que tenga los conocimientos necesarios sobre Minería de Datos y así poder convertir a los resultados en una ventaja competitiva. Todo esto tiene un solo objetivo; alcanzar información relevante para los directores de la Empresa así como para las personas encargadas del proceso de toma de decisiones Dentro del desarrollo del proyecto se vio la necesidad de adquirir una forma de trabajo; una metodología a seguir paso a paso para comprender cada una de sus fases, una metodología que explique cuando se debe hacer cada actividad y su razón. En este capitulo se presenta un modelo de Metodología en especial, que en este caso se debe adecuar al contexto de la Empresa E.T.A.P.A. según sus necesidades. 4.2 Metodologías recomendadas para Minería de Datos. Tomando en cuenta la gran cantidad de información que se maneja dentro de Empresas de varios tipos entre estas las Empresas de de Telecomunicaciones y el progreso tecnológico de la última década, se crea lo que hoy se conoce como Minería de Datos. Por lo que la expansión de la información significa la creación de nuevas técnicas de interpretación lo que produce una ventaja dentro de la Empresa al incrementar las

60 posibilidades de adquirir más conocimiento. Esto es muy útil para establecer estrategias de marketing. Se han creado diferentes metodologías para realizar un análisis de Minería de Datos estableciendo ciertos parámetros que se deben cumplir dependiendo de la información que se tenga y de lo que concretamente se desea aunque los resultados sean obtenidos en un plazo no muy corto ya que una metodología consta de ciertas fases sucesivas que hay que seguir respetando el orden jerárquico. El sector donde estamos aplicando la Minería de Datos necesita un trabajo de tipo evolutivo donde no siempre se va a escoger la mejor técnica en los primeros períodos ya que los comportamientos de los clientes tienen que ser seguidos de cerca y evaluados representando directamente la fuente de consumo de los servicios que ofrece la Empresa. Es por eso que ciertas Empresas han desarrollado metodologías para que el usuario pueda seguir utilizando al máximo su información. SAS por ejemplo puso a disposición de los usuarios a la metodología SEMMA por sus siglas en ingles (Sample, Explore, Modify, Model, Assess). Un grupo de Empresas de países europeos creó una metodología CRISP-DM por sus siglas en ingles (Cross- Industry Standard Process for Data Mining) Diferencia entre SEMMA y CRISP-DM. Para comprender de mejor manera las diferencias de cada metodología se explicará cada una por separado de una manera breve pero lo mas clara posible. Metodología SEMMA.

61 La metodología SEMMA se caracteriza principalmente por priorizar sus fases desde un punto de vista técnico, es decir, dando prioridad a las prácticas usadas para su implementación y obtención de resultados. Obteniendo una parte de la toda la población es como la metodología SEMMA comienza su trabajo, directamente va hacia la manipulación de datos de la Empresa, a la clasificación de variables e inmediatamente comenzar con el análisis de los mismos, con el fin de abreviar al máximo el problema que se pretende resolver. Dentro de las herramientas usadas por SEMMA para la aplicación de la metodología usa productos creados por su propia Empresa SAS En la siguiente figura se muestran las fases de esta metodología: Figura 4.1 Fases de la Metodología SEMMA. Metodología CRISP-DM. La metodología CRISP-DM fue creada por un consorcio europeo conformado por Empresas de Dinamarca, Alemania, Inglaterra y Holanda que se unieron con el objetivo de crear una metodología de libre distribución que se identifica por perseguir el cumplimiento de objetivos desde el punto de vista Empresarial, dando preferencia así a

62 la comprensión del negocio como se denomina el ciclo con el que comienza la metodología. Por ser una metodología de libre distribución puede trabajar con cualquier herramienta para desarrollar el proyecto que este disponible en el mercado aplicando así una característica adicional que es el de ser una metodología equitativa. Así se distingue esta metodología como un modelo que esta basado en situaciones reales que ocurren en la Empresa, organizando sus fases principales y estableciendo tareas secundarias que especifican con más detalle las obligaciones de cada una de las seis tareas. Básicamente ambas metodologías comparten la misma naturaleza y el mismo objetivo ya que se busca solucionar un problema que permanece en la Empresa y que los resultados están ocultos dentro toda la información. Finalmente se presenta un grafico comparativo sobre las fases que presentan las metodologías:

63 Figura 4.2 Comparativa de las interrelaciones entre las fases de las metodologías SEMMA y CRISP-DM 4.3 Metodología CRISP-DM. La metodología CRISP-DM por sus siglas en inglés (CRoss-Industry Standard Process for Data Mining) es una metodología relativamente joven que nace no mucho tiempo después de que la Minería de Datos se forje como disciplina importante dentro del análisis de de los Activos de Información que posee la Empresa. Esta herramienta de trabajo surge de la necesidad de aprender nuevas técnicas para aplicar y comprender de mejor manera a la Minería de Datos y sus resultados basándose en un proceso jerárquico ya que se compone de diferentes niveles o tareas ofreciendo resultados a corto tiempo por lo que según algunos textos que tratan sobre

64 Business Intelligence lo consideran como una metodología de Minería de Datos para inexpertos. Su construcción esta basada en experiencias practicas más que de teoría, por ser una metodología abierta se la puede usar con varias herramientas de Business Intelligence. Se caracteriza por comenzar su análisis desde una perspectiva global enfatizando en el conocimiento del negocio, de esta forma la metodología esta más apegada al proyecto que se realiza en la Empresa como primera fase. Esta metodología consta de seis fases que interactúan entre si según lo indica la figura. Figura 4.3 Fases de la Metodología CRISP-DM.

65 4.4 Fases del modelo de referencia Comprensión del Negocio. Corresponde a la primera fase del problema, el entendimiento del negocio y sus objetivos es de vital importancia para comenzar con un proyecto de Minería de Datos ya que se debe tener una visión de tipo empresarial y competitiva conociendo el entorno de la Empresa. Se trata de comprender las necesidades que tiene el cliente y de que forma la Empresa puede aportar para satisfacer las mismas. Dentro de la Empresa E.T.A.P.A. para la realización del presente proyecto se establece como punto principal obtener patrones de comportamiento basado en actuaciones pasadas; en este caso se pretende ofrecer servicios que la Empresa dispone y que al cliente le interese adquirir. Es aquí donde se necesita del conocimiento del entorno de trabajo, de esta manera se beneficiará la Empresa directamente y obliga a seguir innovando en proyectos afines. En este punto se recomienda establecer un grupo de trabajo donde se pueda crear una lluvia de ideas tanto de las personas que ya conocen el negocio como de las que aun no lo conocen y pueden dar una visión desde la perspectiva del cliente. Se conoce que la Empresa E.T.A.P.A. es una Empresa de Telecomunicaciones que actualmente no tiene mucha competencia en ciertos servicios como por ejemplo la prestación de Telefonía. Lo que se busca es establecer nuevos propósitos para poder captar mayor cantidad de clientes o lanzar nuevos servicios o actualizar según los avances tecnológicos los ya existentes. Para esto se debe identificar las necesidades de los clientes además de sus características y la razón por la que prefirieron a esta Empresa. Una manera efectiva de incrementar las ventas de los servicios que ofrece la Empresa E.T.A.P.A. es por medio de la creación de estrategias de de marketing que ofrezcan

66 planes de servicios que le interesen al cliente, estos planes pueden incluir paquetes de servicios que estén relacionados entre ellos, de esta forma el cliente se interesa por el paquete que se le esta ofertando generando un mayor interés en el consumidor por adquirir el servicio y aumentando las ganancias para la Empresa. Con estrategias como la esta se pretende afianzar la relación entre el cliente y la Empresa dando a conocer e interés que tiene la compañía por mantener satisfechos a sus clientes fortaleciendo el concepto de lealtad hacia la Empresa. Un aspecto importante a tomar en cuenta es que un solo cliente puede estar interesado en varios servicios de los que ofrece la Empresa E.T.A.P.A. ya sea en distintos instantes de tiempo o no; al tratarse de un solo cliente consumiendo varios servicios hace que las estrategias de venta se concentren en el mantenimiento de cliente y estimularlo a que adquiera mas servicios o incluso a colaborar con el incremento de clientes; esto se puede producir al momento en que el cliente se encuentra satisfechos y comienza a promocionar a la Empresa y sus servicios casi de forma inconciente con sus allegados. La Empresa debe contar con personas autorizadas y capacitadas para decidir que estrategia de marketing emplear para la promoción de sus servicios. Esta fase se divide en: Determinar objetivos del negocio.

67 Evaluación de la situación. Determinación de objetivos de Minería de Datos. Producir el plan de proyecto. Figura 4.4 Comprensión del Negocio. Metodología CRISP-DM 1.0 Determinar objetivos del Negocio.

68 Para este aspecto es importante que se tenga un punto de vista Empresarial de tal manera que se enfoque en los objetivos competitivos que tiene la Empresa, comprende también el claro entendimiento del problema de la Empresa y lo que se busca obtener. Según la metodología, el hecho de ubicar el contexto dentro de la determinación del o los objetivos de la Empresa, implica que se debe ubicar al inicio del proyecto la información de la Empresa a la cual se esta aplicando la metodología. Información referente a la actividad a la que se dedica la Empresa, los productos y/o servicios que ofrece la Empresa E.T.A.P.A. y sobretodo tener en cuenta las necesidades de los clientes y las razones por la cual podría interesarle los servicios de la competencia. Evaluación de la situación. Se ubican todos los Sistemas de Información que son de propiedad de la Empresa para tener en cuenta los recursos humanos e informáticos con los que se puede contar para realizar el proyecto. Parte de la evaluación comprende la identificación de restricciones y mantenerse al tanto de la información a la que se tiene acceso y a la información a la que no, los permisos que se otorgarán al usuario, etc. Determinación de objetivos de Minería de Datos.

69 Comprende una definición de objetivos usando términos más técnicos aplicados ya a definiciones apegadas a la Minería de Datos, esa es la diferencia con el objetivo del negocio. Producir el plan de proyecto. Para llegar a esta etapa se deberá cumplir con los objetivos de Minería de Datos, este a su vez servirá para cumplir los objetivos de negocio, además de señalar cuales son las herramientas que se usarán, estableciendo si dichas herramientas ya posee la Empresa o requieren ser adquiridas Comprensión de los Datos. La comprensión de datos hace referencia a una recopilación inicial de los datos de la Empresa que luego serán convertidos en información de esta manera poco a poco se produce la familiarización de los datos. Este proceso pretende dar a conocer alguna anomalía dentro de los sistemas de Información como inconvenientes en la calidad de los datos. Se puede considerar una reducción del volumen de datos, descartando información que para el presente objetivo no puede ser de mucha importancia. Identificar variables importantes, evitando la redundancia de datos sin que este afecte al contenido mismo de la información. Dentro de la Empresa E.T.A.P.A. se aplicará la comprensión de datos directamente con el sistema que se encuentra en AS-400 que es donde esta gran parte de la información de la Empresa, y el estado en el que se encuentra la misma, desde aquí se pueden hacer consultas (query) y comenzar a descartar información y maximizar el entendimiento. Se debe tomar en cuenta los servicios que presta la Empresa e ir asociando la información que se indague con alguno de los servicios, identificando los esquemas en

70 los que podría estar ubicada información referente a los servicios que serán objeto de estudio en este proyecto que pueden ser: Telecomunicaciones; que integra a Telefonía ya sea esta Internacional, Nacional, Regional, Local y Celular tanto en categoría Comercial (Cat 3) Categoría Residencial (Cat 2) Categoría Popular (Cat 1). Servicios de Internet Banda Ancha. Agua Potable y Alcantarillado. En esta fase de la metodología aplicada a la Empresa, es de vital importancia conocer los códigos que distinguen a cada servicio ya que puede existir un mismo cliente con varios servicios por lo que se distinguirán por código de servicio. Familiarizarse lo más posible con los Sistemas de Información que posee la Empresa con el objetivo de disminuir tiempo al momento de trabajar directamente con la información origen de la Empresa. En este punto se toma en cuenta un análisis de calidad y volumen de los datos que se tiene, se debe procurar aumentar la investigación aun así ya se tenga los datos seleccionados, de esta forma se puede incrementar aun mas el conocimiento y la familiarización de los datos. Esta fase se divide en:

71 Recopilar datos iniciales. Descripción de los datos. Explorar los datos. Verificar la calidad de los datos. Figura 4.5: Comprensión de los Datos Metodología CRISP-DM 1.0 Recopilar datos iniciales.

72 Consiste en hacer una revisión de los datos que se han seleccionado anteriormente, de esta forma esta fase comprende la antesala para la preparación de los datos. Da como resultado un informe de recolección de datos donde se registrará los inconvenientes que se hayan presentado durante todo el espacio de recopilación de datos y si se ha llegado a alguna solución. Descripción de los datos. Esta parte radica principalmente en detallar mediante un informe sobre la calidad, formato, cantidad de datos que se puede presentar en porcentajes por esquema por ejemplo, veracidad e integridad de los datos además de cualquier otra observación que se considere importante dentro de la descripción de los datos. Explorar los datos. Identificar cuales son los datos con los que trabajaremos directamente ya de una forma más técnica usando interrogantes que permitan determinar datos importantes para la posterior aplicación de las diferentes técnicas de Minería de Datos, así como para la realización de reportes que permitirán presentar un informe donde se describe los resultados que ha tenido la fase de explotación de datos y el alcance que tendrá sobre el proyecto incluyendo objetivos generales e hipótesis que se hayan planteado. Verificar la calidad de los datos. Se busca validar los datos haciendo pruebas que confirmen que las necesidades que se presentaron en el proyecto están siendo cubiertas por las aplicaciones realizadas con los datos seleccionados, es posible que al llegar a esta parte salga a relucir que faltan datos o que se esta usando información errónea o establecer un margen de error para el proyecto. La validación de datos esta llena de preguntas todas con el único fin de saber si estamos haciendo lo correcto.

73 4.4.3 Preparación de los datos. Esta fase toma mas tiempo que las anteriores, mas de la mitad de todo el trabajo y requiere de mayor esfuerzo, esta fase incluye todas las acciones que se usarán para los diferentes procesos consulta de la información, además se integran etapas importantes como la Transformación y Limpieza de Datos. Se han seleccionado ya los datos con los que se trabajará durante todo el proceso del proyecto y cubre a todas las actividades que se realicen para cumplir con el proyecto. La Limpieza de datos se profundizó anteriormente en el Capitulo III tomando en cuenta datos numéricos como categóricos. Para el perfeccionamiento de los datos con los que se va a trabajar se tomará en cuenta lo establecido en el capitulo anterior sobre ETL aplicando algoritmos basados en Inteligencia Artificial como una de las bases de la Minería de Datos seleccionados para sondear información y obtener resultados favorables, ya que si tomamos los datos tal cual están almacenados en la Base de Datos no entregarán resultados favorables. El verdadero valor de la información es el que se obtiene luego de un proceso aplicando una técnica que de soporte para la posterior toma de decisiones. Para la selección de los algoritmos debemos tener muy claro el objetivo que se esta buscando, el volumen de información con el que se va a necesitar, finalmente realizar reportes de la información obtenida, debiendo establecer un margen de error admisibles. Dentro de la fase de preparación de los datos se debe incluir las variables que se tomarán en cuenta para el análisis siendo estas valores y consumos del servicio de Telefonía Fija.

74 En este caso se trabajará con la mayoría de variables de tipo numérico, desde donde se partirá para el estudio y aplicación de los diferentes algoritmos que se explican mas adelante. Usando las variables definidas se buscara establecer patrones de comportamiento de los clientes de los diferentes servicios ya mencionados, de tal forma mantenerlos plenamente identificados tanto a los clientes potenciales como a los que estar por abandonar la Empresa, sería ideal estar al tanto de los motivos por los cuales algunos clientes no están consumiendo el servicio y mejor aún; saber por que las personas prefieren otras Empresas que ofrecen servicios similares. Todo este trabajo se debe realizar sin dejar de lado el ruido o error que trae consigo un proyecto de Minería de Datos, es precisamente por eso que se debe tener la capacidad de identificar posible información errónea que la herramienta pueda arrojar como resultado. Esta fase se divide en: Selección de los datos. Limpieza de los datos.

75 Construir de los datos. Integrar de los datos. Formatear los datos. Figura 4.6 Preparación de los Datos. Metodología CRISP-DM 1.0 El conjunto de datos representa el grupo de datos con los que se va a trabajar en el proyecto, este debe ser descrito a detalle especificando su intervención dentro del proyecto. Selección de los datos.

76 Consiste en la designación de datos a utilizarse durante el desarrollo del proyecto, al mencionar selección de datos se esta haciendo referencia a los esquemas, tablas, registros además diferenciar información a la que se tiene acceso y cuales son los permisos que de los que se dispone. La selección de datos incluye también los datos que serán incluidos o excluidos en el proyecto y los motivos para ello. Depende mucho de los objetivos que se hayan planteado para el proyecto además de que en el transcurso del desarrollo se encuentran nuevos datos que resultan ser significativos. Se clasificó a los clientes de la categoría residencial en 4 subgrupos con el fin de aplicar el algoritmo para cada uno de estos grupos dado que la herramienta soporta grandes cantidades de datos no es necesario aplicarla por partes, sin embargo se da conocer la clasificación realizada, todos ellos pertenecientes a la categoría Residencial. Empresas del Estado y agrupaciones sociales Instituciones Religiosas Instituciones Educativas Públicas Otros Se cuenta con un listado de los clientes producto de un trabajo manual que pertenecen a cada una de estas cuatro clasificaciones, pero no se consideró incluirlo en la presente obra. Limpieza de los datos. Evitar que la información llegue distorsionada o duplicada así el proyecto perderá veracidad, se debe contar con datos que contengan un nivel de calidad aceptable para poder aplicar las diferentes técnicas seleccionadas.

77 Dentro del informe de limpieza de datos se establece las acciones que han sido tomadas para mejorar la calidad de la información cual ha sido el impacto que ha tenido dentro del proyecto. Construir de los datos. Incluye operaciones para preparación de los datos como la modificación de datos o añadir registros si fuese necesario. Ha estos cambios se denominan atributos derivados ya que su origen proviene de tablas o registros ya existentes, en el caso de que se hayan creado tablas o registros nuevos se deberá justificar su creación, describir cuales son sus atributos y el objetivo de su creación. Integrar de los datos. Técnica mediante la cual se combina la información de las diferentes tablas de las que se disponga y que pueden estar relacionadas entre si pero que contiene información diferente mediante algún atributo o cruzando diferentes tablas, de esta forma se produce la combinación de tablas. Se puede tomar esta fase como la de aplicación la herramienta Integración Services ya que los orígenes de la información están situados en diferentes almacenes de datos, para esta integración se usa la herramienta mencionada anteriormente como se indica en la figura.

78 Figura 4.7 Ejemplo de Integración de datos. Los orígenes de datos están representados por las figura 4.8 y 4.9 Figura 4.8 Origen de datos. Figura 4.9 Origen de datos. El Origen de Datos Clientes Residenciales representa como su nombre lo indica a todas las instalaciones telefónicas cuya categoría sea B, es decir, un origen de datos; por otro lado, el Origen de Datos Select Meses Mora representa las cuentas pendientes de cada cliente de Telefonía Fija.

79 La idea de la integración de datos es justamente combinarlos mediante estrategias de Bases de Datos o tareas. Se escogen las diferentes tareas a ser utilizadas y se procede a configurarlas según lo que se desee realizar, cada tarea tiene una función específica así que se debe tener previo conocimiento de sus funcionalidades. Se puede apreciar como se realizan ciertas tareas antes de proceder a la combinación y que además es necesario aplicar más tareas luego de que los datos se encuentren integrados. Figura 4.10 Una vez que se hayan aplicado todas las tareas se procede a enviar los datos ya convertidos en información a un Destino de Datos configurado previamente para recibir la información. Figura 4.11 Envía información integrada a un destino especifico.

80 La unión de los orígenes de datos mas las tareas ejecutadas y el o los destinos forman lo que se conoce como paquete de integración. Es preciso realizar varios paquetes de Extracción de la información, ya que los orígenes de datos pueden encontrase aún en una hoja de Excel o en un archivo plano por lo que se debe conocer a fondo la estructura d los datos para su óptimo funcionamiento. Es en esta fase donde se encuentra la esencia misma de un proyecto de Minería de Datos. Formatear los datos. Hace referencia a los datos que han sido modificados, eliminados o agregados, si se ha alterado el orden de los registros dentro de las tablas se debe justificar y detallar, la metodología identifica a este proceso como datos reformateados.

81 4.4.4 Modelado. Dentro de esta fase se seleccionan varias técnicas de modelado luego estudiar su funcionamiento, por lo que la nueva técnica se agregará a la información que se ha obtenido en el proceso anterior con el objetivo de resolver un problema de Minería de Datos. Existen varias formas de resolver un mismo problema de MD pero se debe acertar a la técnica que más se apegue a las necesidades de la consulta. Es muy frecuente observar que cuando el proyecto este en esta fase se tenga que regresar al ciclo de Preparación de Datos por motivos de formatos de datos, en este caso se procede a estudiar nuevamente el porque de la necesidad de retroceder además de proveer de soluciones para tratar de evitarlo. El proceso de Modelado muestra ya los patrones conductuales como resultado de la aplicación de las técnicas, cabe señalar que la Base de Datos de la Empresa se actualiza diariamente es por eso que los datos históricos son parte importante dentro de este proyecto ya que se osaran datos que correspondan a fechas especificas. Se escoge las técnicas de modelamiento en base a los siguientes criterios. Ser apropiada al problema. Disponer de Datos adecuados. Cumplir los requerimientos del problema. Tiempo necesario para obtener un problema. Conocimiento de la técnica.

82 Esta fase se divide en: Seleccionar la técnica de modelamiento. Generación de pruebas de modelo. Construcción del modelo. Evaluación del modelo. Figura 4.12 Modelado. Metodología CRISP-DM 1.0

83 Seleccionar la técnica de modelamiento. Seleccionar la técnica que se aplicara, se trata de una técnica específica que se tendrá que conocer su funcionamiento e interpretar los resultados. En el caso de que se aplique más de una técnica se tendrá que especificar por separado documentando cada una de las técnicas usadas para una mejor comprensión. Generación de pruebas de modelo. Se debe formar un medio que describa el procedimiento para verificar la validez de las técnicas que están siendo usadas. La metodología indica que se debe tener por separado datos para que sean para hacer pruebas. Generalmente suelen existir herramientas de software que no soportan grandes cantidades de datos es por eso que es óptimo seleccionar cierta muestra para la aplicación de pruebas, la ventaja de trabajar con datos de pruebas es la velocidad de ejecución de respuesta, así se puede manipular el software que se este usando con un grado mayor de confianza. Construcción del modelo. Una vez escogidos los datos se debe aplicar el modelo seleccionado ajustando los parámetros necesarios y describir los modelos obtenidos añadiendo la interpretación que se tenga de cada uno de ellos. Evaluación del modelo. Esta tarea le corresponde a un experto puede tratarse de la persona quien este a cargo del liderazgo del proyecto o el mismo desarrollador, el cual debe decidir si las técnicas usadas han sido las más idóneas y si los resultados obtenidos son viables o no para cumplir con los objetivos propuestos, esto se hará conjuntamente con personal que conozca a fondo el negocio. Incluso en esta fase se habla de un Ing. en Minería de Datos como experto que puede también dar opiniones sobre el negocio desde una perspectiva más técnica si la Empresa lo tuviese, pero no es el caso.

84 4.4.5 Evaluación. Para esta fase los modelos que fueron escogidos deben estar ya implementados dentro de la Empresa, cabe señalar que se debe hacer un recuento de todos los pasos que se siguieron hasta llegar a la evaluación con el fin de asegurase de que no se ha pasado por alto algún detalle. En el momento en que el proyecto se encuentra en esta fase, se entiende que los objetivos del proyecto fueron alcanzados desde el punto de vista Empresarial antes el punto de vista técnico, se puede hablar de un éxito o fracaso en el progreso de toda la metodología. Se recomienda documentar todo el proceso ya que dentro de la fase de evaluación se pudo cometer algún error que pueda provocar el regreso a las fases anteriores, esto puede pasar durante el desarrollo de un proyecto de Minería de Datos.

85 Esta fase se divide en: Evaluación de los resultados. Proceso de revisión Determinación de los próximos pasos. Figura 4.13 Evaluación. Metodología CRISP-DM 1.0

86 Evaluación de los resultados. Se trata de valorar, como se menciono anteriormente si las técnicas aplicadas y los diferentes modelos dieron como resultado la información que se necesitaba para cumplir las metas del proyecto, al mismo tiempo hacer una evaluación de los recursos usados y el tiempo invertido. Los resultados se consideran como satisfactorios siempre y cuando tengan un margen de aceptación razonable para la Empresa, caso contrario se debe encontrar los parámetros idóneos para una óptima deducción. Proceso de revisión. Los modelos ya han sido aplicados y los resultados ya están catalogados como satisfactorios o no, en ambos casos se recomienda plantearse interrogantes como; Se usaron los datos necesarios? Olvidó plantear alguna otra variable que pueda representar cambios dentro de los resultados? El proceso de revisión debe realizarse en presencia de todo el equipo que forma parte del proyecto, de esta manera se puede tomar en cuenta todos los puntos de vista y se consideran las falencias o aciertos de los resultados. Generalmente en el proceso de revisión surgen cambios, este hecho debe considerarse totalmente normal ya que cada vez surgen más necesidades e ideas siempre y cuando estén dentro de lo permitido y cuente con el apoyo y justificación de todo el grupo de trabajo.

87 Determinación de los próximos pasos. Para la determinación de las siguientes acciones a tomar se cuenta con las personas que aportaron para el desarrollo del proyecto, dicho grupo deberá tomar en cuenta las acciones futuras y los posibles resultados que se espera obtener. En este caso se plantea ejecutar cada que sea necesario los paquetes desarrollados así los paquetes están diseñados para generar información según la fecha deseada como se indica en el grafico. De esta manera se consigue una reutilización de los paquetes anteriormente realizados. Figura 4.14 Ventana por la que el usuario determina la información precisa. Cabe señalar que la ventana que se indica en la figura 4.9 fue diseñada con una tarea de la herramienta Integration Services.

88 4.4.6 Despliegue o Desarrollo. El despliegue del proyecto no significa que el propósito haya terminado, ya que se deben hacer pruebas de su implementación así como un seguimiento periódico. Los resultados que presenta deben ser claros de tal manera que se puedan comprender fácilmente por personas que no tengan mucha intervención en el área de la Informática, sino también de profesionales o no que pertenezcan a otras áreas. Tomando en cuenta lo anterior, lo mas optimo es que se presenten resultados de una manera visual usando cuadros estadísticos que representen las variables usadas y su aporte para la Empresa. La complejidad de la fase de despliegue dependerá de los requisitos que han propuesto así puede ir desde la simple presentación de un informe hasta la demostración del sistema ya implementado. Se busca dejar camino abierto para un posterior análisis, dejar de base este plan para seguir adelante con la obtención de nuevo conocimiento que sea de verdadera utilidad para la Empresa.

89 Esta fase se divide en: Desarrollo del plan Plan de supervisión y mantenimiento. Producción del reporte final Revisión del proyecto. Figura 4.15 Despliegue o Desarrollo Metodología CRISP-DM 1.0

90 Desarrollo del plan. Consiste en desplegar una técnica que permita poner en pie el trabajo desarrollado y elaborar un informe detallado incluyendo cronograma de actividades y cuales son las medidas que se han de tomar. Plan de supervisión y mantenimiento. Trata de la preparación de una táctica que permita un control sobre los resultados que se va obteniendo durante el progreso además de ciertas tutorías con las personas encargadas de los sistemas informáticos sobre la nueva información que generalmente aparece dentro de un proyecto de Minería de Datos. Producción del reporte final. El informe final del proyecto se basa en un resumen de los pasos que se han implementado a lo largo del proyecto, así como los inconvenientes encontrados. El reporte final debe ser realizado por el líder del proyecto conjuntamente con su equipo de trabajo. El formato de elaboración del reporte final corresponde a las políticas de la Empresa donde se este aplicando el proyecto. Revisión del proyecto. Revisar el proyecto e identificar lo que esta correcto y lo que no lo esta y debe ser modificado si las circunstancias lo permiten, estas pueden ser: Autorización por parte de los directores. Tiempo. Recursos Humanos y Económicos.

91 CAPITULO V SELECCIÓN E IMPLEMENTACION DEL ALGORITMO Contenido: 5.1 Descripción y comprensión del algoritmo.

92 5.2 Selección del algoritmo. 5.3 Tipos de Aprendizaje Aprendizaje Supervisado Aprendizaje no Supervisado. 5.4 Ventajas y Desventajas del algoritmos seleccionado. 5.5 Implementación del algoritmos seleccionado Parámetros del Algoritmo. 5.1 Descripción y comprensión del Algoritmo. El objetivo de este capitulo es visualizar un trabajo con datos de la Empresa donde se aplicará toda la metodología CRISP-DM explicada en el capitulo anterior, para esta fase se debe contar con toda la información que se haya considerado.

93 Existen varios algoritmos que presenta la herramienta Microsoft SQL Server con su producto Análysis Services que se usarán dependiendo de las necesidades que se tengan que cumplir. Qué algoritmo escoger? Se busca un algoritmo que sea capaz de emitir resultados lo mas precisos que sea posible, con el fin de obtener información confiable para una posterior toma de decisiones. Dentro los algoritmos que se contemplan dentro de la Minería de Datos, existe uno en especial que cuyo funcionamiento se asemeja al reaccionar del cerebro humano, su finalidad es precisamente esa; emular el comportamiento de un cerebro biológico a través de una serie de métodos matemáticos y procesos. 5.2 Selección del Algoritmo. Para este proyecto se ha seleccionado un algoritmo perteneciente a la rama de la Inteligencia Artificial, siendo el algoritmo escogido por sus características al Algoritmo de Redes Neuronales (RNA)

94 A pesar de la gran actividad e investigación en esta área, el diseño de las redes neuronales artificiales para aplicaciones específicas usando un conjunto dado de restricciones proporcionadas por la persona encargada de ejecutar la red, por mas experiencia que adquiera en el manejo de RNA siempre será un proceso de prueba y error, dependiendo principalmente de los resultados que se obtengan luego de cada entrenamiento. Las redes neuronales artificiales (RNA) son un método de aprendizaje basado en la Inteligencia artificial que se usa para identificar patrones de comportamiento y comprensión de la información, razón por lo que se integra a las Redes Neuronales como una herramienta para usarse dentro de la Minería de Datos. Las RNA son métodos que permiten simular los comportamientos biológicos humanos que posteriormente se convertirán en información, en este caso se pretende que emule las conductas que pueden tener los consumidores de los servicios que ofrece la Empresa. Se pretende que una vez que se implante el algoritmo se ajuste al entorno en el que se encuentran y pueda continuar su aprendizaje sin necesidad de ser re-configurados. Las neuronas artificiales comienzan su funcionamiento al momento de recibir la información a través de las sinapsis de sus dentritas, cada sinapsis representa la unión de un axón de otra neurona con una dentrita de la neurona con una dentrita de la otra neurona. La información se transfiere de una neurona a otra mediante una transmisión electro-química que se da en la sinapsis por lo que la información se transmite a lo largo de las dentritas, la neurona se activa siempre y cuando el resultado es superior a un determinado límite denominado umbral. Las RNA ofrecen un paradigma atractivo para el diseño y el análisis de sistemas inteligentes para un amplio rango de aplicaciones en inteligencia Artificial (IA) por muchas razones incluyendo entre ellas: Flexibilidad para la adaptación Aprendizaje

95 Este algoritmo combina cada estado del atributo de entrada con cada atributo de predicción, este algoritmo crea una red formada por niveles de neuronas que son capas denominadas capa de entrada, capa oculta y capa de salida, siendo la única opcional la capa oculta. A continuación se indica el diagrama de una neurona biológica. Figura 5.1 Neurona Biológica.

96 Figura 5.2 Neurona Artificial Tipos de Aprendizaje. Aprendizaje Supervisado. Aprendizaje no supervisado Aprendizaje Supervisado. Proporciona información contenida en datos de entrada y tratar de acercarse a la respuesta correcta apoyándose en los patrones que se desea encontrar que se basa en fórmulas matemáticas que minimizan el error, estas respuestas son propagadas hacia delante hasta que alcanza las capas de salida. Existen dos redes principales en el aprendizaje supervisado: Perceptrón Simple. Perceptrón Multicapa. Adaline. Perceptrón Simple. Este consiste en una suma de las señales de entrada, multiplicadas por unos valores de pesos escogidos inicialmente en forma aleatoria concedida por la propia herramienta en una fase en la que la red neuronal aprende, la entrada es comparada con un patrón preestablecido con anterioridad para determinar la salida de la red.

97 Esta red tiene una estructura que esta formada por varias neuronas de entrada, y una o mas neuronas de salida, por lo tanto esta no contiene capa oculta dentro de su estructura. Si en la comparación, la suma de las entradas multiplicadas por los pesos es mayor o igual que el patrón preestablecido, la salida de la red es uno (1), en caso contrario la salida es cero (0). La red Perceptrón en su configuración inicial, no está en capacidad de distinguir patrones de entrada muy complejos, sin embargo, mediante un proceso de aprendizaje es apto para adquirir esta capacidad. El entrenamiento implica un proceso de refuerzo, mediante el cual los pesos que codifican las sinapsis, se incrementan o se decrementan dependiendo de si las dendritas contribuyen o no a las respuestas correctas del Perceptrón Al inicio del desarrollo de los sistemas de inteligencia artificial, se encontró gran similitud entre su comportamiento y el de los sistemas biológicos y en principio se creyó que este modelo podía computar cualquier función aritmética o lógica Perceptrón Multicapa. El entrenamiento de esta red neuronal consistirá, al igual que en el Perceptrón simple, en presentar las entradas, junto con las salidas deseadas para cada una de ellas, y modificar los pesos de acuerdo al error (diferencia entre la salida deseada y la obtenida).

98 La principal dificultad en el entrenamiento de redes de varias capas es encontrar los errores asociados con las capas ocultas; es decir, en las capas que no son la de salida (sólo se tiene salida deseada en las capas de salida). Esto es debido a que los errores son necesarios para el aprendizaje, para saber cómo modificar los pesos de las neuronas que se hayan asignado a la capa oculta. Así se da origen a algoritmos muy ingeniosos, el precursor y más conocido por su simplicidad, es el que recibió el nombre de retropropagación del error conocido como backpropagation. Las neuronas de la capa oculta usan como regla de propagación, la suma ponderada de las entradas con los pesos sinápticos w ij y sobre esa suma ponderada se aplica una función de transferencia de tipo sigmoide como se indica en la figura 5.3 de igual forma en la retropropagación, el error en los nodos de las capas ocultas es proporcional a la sumatoria de los gradientes de los nodos de la capa siguiente pesados por los pesos de conexión. La aparición de una función de activación del tipo sigmoide es debido a restricciones analíticas en los algoritmos de entrenamiento. Una función de activación de este tipo es:

99 Figura 5.3 Transferencia de tipo Sigmoide. La aparición de una función de activación del tipo sigmoide es debido a restricciones analíticas en los algoritmos de entrenamiento. Una función de activación de este tipo es: Figura 5.4 Función de activación. Donde x es la sumatoria de las entradas al nodo pesadas por los pesos de conexión y y(p) la salida del nodo correspondiente (o sea si recordamos del artículo anterior): Figura 5.5 Proceso de entrenamiento. Esto es parte de un proceso matemático el cual es la base para la creación y funcionamiento del algoritmo. Adaline

100 Su nombre proviene de las siguientes siglas (ADAptative LINear Element). Se dice que la red Adaline es una generalización de la red Perceptrón, excepto en su función de transferencia, la cual es una función de tipo lineal en lugar de un limitador fuerte como en el caso del Perceptrón. La red Adaline presenta la misma limitación de la red Perceptrón en cuanto al tipo de problemas que pueden resolver, ambas redes pueden solo resolver problemas linealmente separables Aprendizaje no supervisado. Proporciona un conjunto de información sin necesidad de establecer un patrón de datos que colabore con los resultados que se desea obtener a la salida ya que el mismo algoritmo produce patrones de salida seguros, por lo cual la red se auto-organiza para alcanzar las capas de salida mediante una auto-organización de la información obtenida durante el aprendizaje. En este caso no existe un valor de salida como en el aprendizaje supervisado, es decir, no se puede comparar los resultados obtenidos con los que se esperaba obtener por lo tanto no se puede calculara un error. Para el aprendizaje no supervisazo se usan dos métodos principales que son: Aprendizaje de Hebb. Aprendizaje Competitivo.

101 Aprendizaje de Hebb. Conocida como la regla de Hebb, esta puede interpretarse matemáticamente teniendo en cuenta que si dos neuronas en cualquier lado de la sinápsis son activadas simultáneamente la longitud de la sinápsis se incrementará. Aprendizaje Competitivo. En el aprendizaje competitivo, las neuronas pugnan entre sí, para representar a una clase o patrón de entrada. La neurona seleccionada es aquella cuyos pesos incidentes se asemejan más al patrón de entrada. El aprendizaje consiste en reforzar las conexiones de la unidad ganadora y debilitar las otras, para que los pesos de la unidad ganadora se asemejen cada vez más al patrón de entrada. 5.4 Ventajas y Desventajas del algoritmo de Red Neuronal. Ventajas.

102 Es capaz de trabajar con información incompleta o con ruido. El algoritmo aplica autoaprendizaje. Permite predecir las acciones futuras basándose en experiencia o generalizando acciones. Tiene tolerancia a fallos. Operan en tiempo real y de forma dinámica. Desventajas. Las redes neuronales tienen la capacidad de procesar información en paralelo por lo que no pueden ser ejecutado en todas las maquinas ya que no todas permites un atrabajo simultaneo. No posee reglas definitorias que ayuden a resolver un problema dado. Al momento en que la rede entrega un resultado desfavorable, la solución es modificar el número de neuronas en la capa oculta y entrenar nuevamente, sin poder usar los datos anteriormente obtenidos. 5.5 Implementación del algoritmos seleccionado.

103 La Herramienta que se utilizará es SQL Server 2005 conjuntamente con dos entornos como son SQL Server Management Studio y Business Intelligence Development Studio. Esta última permite realizar paquetes de extracción de datos y la creación de los diferentes algoritmos. Se establece las tablas que deben estar creadas con anterioridad dentro del Microsoft SQL Server Management Studio esto corresponde al ETL de los datos cuyos resultados ya deben haber sido ubicados, puede ser en un archivo plano, en una BD creada en access o en una nueva tabla que se ha creado dentro del esquema. En este caso se extrae la información mediante un proceso de ETL usando Integration Services, se ha creado una nueva Base de Datos denominada BTelefonia donde constan todas las tablas o entidades que se han ido creando a lo largo de todo el proyecto. El primer paquete que se creo es el correspondiente a clasificar los clientes que forman parte de la Categoría 2 (Residencial). Este fue un trabajo manual donde se selecciono a cinco diferentes grupos de clientes los cuales ya se describieron en el Capitulo III. Se creo un origen de datos en Excel, de esta forma se podrán añadir o eliminar registros en caso de que se den recategorización de líneas o se agreguen nuevos clientes. Dentro de Análisis Services se realiza un proyecto escogiendo como t{técnica de Minería de Datos a Red Neuronal, donde se ubica a un origen de datos que corresponde a la Base de Datos que se ha creado en Management Studio, en este caso se trata de BTelefonia. Posteriormente la herramienta indica la necesidad de una vista de origen de datos que contiene las entidades que van a ser usadas en el modelo, de esta forma se puede crear ya la estructura de Minería que se trata de la creación de la red.

104 Para este paso se deberá tener claro la cardinalidad de las relaciones que se han tomado de la vista de origen de datos con el fin de seleccionar correctamente las tablas anidadas y los escenarios. Figura 5.6 Estructura de la Red Neuronal dad por la herramienta. Parámetros del Algoritmo. Figura 5.7 Parámetros del algoritmo de Red Neuronal Parámetros del Algoritmo. Para entrenar la Red Neuronal se debe configurar ciertos parámetros como son:

105 Hidden_Node_Ratio Especifica la proporción entre neuronas ocultas y neuronas de entrada y de salida. La siguiente fórmula determina el número inicial de neuronas de la capa oculta: HIDDEN_NODE_RATIO * SQRT (Total input neurons * Total output neurons) El valor predeterminado es 4,0. Holdout_Percentage Especifica el porcentaje de escenarios de los datos de entrenamiento utilizados para calcular el error de exclusión, que se utiliza como parte de los criterios de detención durante el entrenamiento del modelo de minería de datos. El valor predeterminado es 30. Holdout_Seed Especifica un número que se utiliza para inicializar el generador pseudoaleatorio cuando el algoritmo determina aleatoriamente los datos de exclusión. Si este parámetro se establece en 0, el algoritmo genera la inicialización basada en el nombre del modelo de minería de datos, para garantizar que el contenido del modelo permanece intacto al volver a realizar el proceso. El valor predeterminado es 0. Maximum_Input_Attributes

106 Determina el número máximo de atributos de entrada que se pueden proporcionar al algoritmo antes de emplear la selección de características. La función de selección de atributos de entrada se deshabilita cuando este valor se establece en 0. El valor predeterminado es 255. Maximum_Output_Attributes Determina el número máximo de atributos de salida que se pueden proporcionar al algoritmo antes de emplear la selección de características. La característica de selección de atributos de salida se deshabilita cuando este valor se establece en 0. El valor predeterminado es 255. Maximum_States Especifica el número máximo de estados discretos por atributo que admite el algoritmo. Si en número de estados de un atributo específico es mayor que el número especificado para este parámetro, el algoritmo utiliza los estados más frecuentes de este atributo y trata al resto como estados que faltan. El valor predeterminado es 100. Sample_Size

107 Especifica el número de escenarios que se van a utilizar para realizar el entrenamiento del modelo. El algoritmo utiliza el valor menor entre este número o el porcentaje del total de escenarios que no están incluidos en los datos de exclusión, según se especifica en el parámetro Holdout_Percentage. En otras palabras, si Holdout_Percentage se establece en 30, el algoritmo utilizará el valor de este parámetro o un valor igual al 70 por ciento del número total de casos, según cuál sea menor. El valor predeterminado es Referencia: Parámetros: Dentro del Visor de modelo de Minería de Datos se escoge las entradas para el entrenamiento de la red como se indica en la figura. Figura 5.8 Configuración de variables de entrada para al red. Figura 5.9 Configuración de la variable de salida para al red.

108 Dentro de la pestaña Gráfico de Precisión de Minería de Datos se asignan las columnas tanto de la tabla de entrada con las de la estructura de Minería de Datos. Se conoce la probabilidad de aprendizaje así: Figura 5.10 Gráfico de elevación. Figura 5.11 Leyenda del modelo de red.

109 El modelo de Red Neuronal presenta una matriz de clasificación donde se puede visualizar los verdaderos positivos y los falsos positivos que ha dado como resultado la red. Dicha matriz permite ver la tasa de clasificación correcta. Figura 5.12 Leyenda del modelo de red. Verdaderos Positivos. Para el valor 0, es decir, el modelo predijo un valor correcto para clientes que serán solventes; Para el valor 1, es decir, el modelo predijo correctamente que serían clientes insolventes; Falsos Positivos. Para el valor 0, es decir, el modelo predijo que serían en realidad no lo fueron; clientes insolventes cuando Para el valor 1, es decir, el modelo predijo que se serían clientes insolventes cuando en realidad no lo fueron; Número total de predicciones exactas = Márgen de confiabilidad 72% Número total de predicciones erróneas = Márgen de error 28%

110 CAPITULO VI GLOSARIO Contenido: 6.1 Terminología del Negocio. 6.2 Terminología de Minería de Datos.

111 6.1 Terminología del negocio. BA: Hace referencia la servicio de Banda Ancha. 2

112 Churn: Definición usada para definir el abandono de clientes. Recategorización. Acción de modificar la categoría a la que pertenece la línea telefónica. 6.2 Terminología de Minería de Datos. Actividad: Es parte de una tarea. Algoritmo: Conjunto de operaciones y procedimientos que deben seguirse para resolver un problema. Autoorganización: Consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo específico. BD: Base de Datos. BI: Por sus siglas en ingles Business Intelligence traducida como Inteligencia de Negocios o Inteligencia Empresarial. Herramientas que se implementan para hacer eficiente el proceso de Toma de Decisiones. CAL: Licencia de Acceso de Cliente. Cluster: Grupo de datos con características similares. Clustering. Técnica de agrupamiento que consiste en hacer grupos entre un gran conjunto de datos. CRISP-DM: Por sus siglas en inglés CRoss-Industry Standard Process for Data Mining Metodología usada para la aplicación de Minería de Datos. Data Mart: Lugar donde se almacenan pequeñas cantidades de datos. 3

113 Data Warehouse: Lugar donde se almacenas grandes cantidades de datos, puede ser solo un computador o varios computadores llamadas también como servidores. Datos Perdidos: Por sus siglas en ingles MISSING VALUES Datos faltantes que no fueron tomados en cuenta para la realización el modelo y podrían resultar importantes. Especializado: Una tarea que hace presunciones específicas en contextos definidos de minería de datos. ETL: Por sus siglas en ingles Extract, Transform and Load corresponde a la Extracción, transformación y Carga de los datos. Fase: Término para identificar los niveles o etapas de un proceso. Inteligencia Artificial: Ciencia cuyo objetivo entrenar neuronas artificiales para emular el comportamiento biológico de un humano. KDD: Por sus siglas en ingles Knowledge Discovery from Databases corresponde al descubrimiento del conocimiento. K-medias: Método de agrupamiento por vecindad que hace referencia al dato mas cercano. Modelo: La capacidad de aplicar algoritmos a un conjunto de datos para predecir objetivos identificando atributos. OLAP: Por sus siglas en ingles On-Line Analytical Processing corresponde a un proceso analítico en tiempo real. OLTP: Por sus siglas en ingles On-Line Transactional Processing ; Base de Datos orientado al procesamiento de transacciones donde se pueden hacer actualizaciones. 4

114 Outliners: Datos que no concuerdan con el comportamiento frecuente del resto de datos con los que se esta trabajando. Precisión: Se define como la medida de un modelo predictivo que refleja la proporción número de veces que el modelo es correcto cuando se aplica a los datos. Redes Neuronales Artificiales: Conocidas como RNA, son un método de aprendizaje cuyo objetivo es emular el comportamiento humano MOLAP: Por sus siglas en ingles Multidimensional OnLine Analytical Processing Base de Datos donde la información se almacena de forma multidimensional. Salida: El resultado de la ejecución de una tarea. Tarea: Serie de actividades para producir una o más salidas, parte de una fase. ROLAP: Por sus siglas en ingles Relational OnLine Analytical Processing Sistemas OLAP elaborados sobre una Base de Datos relacional. Umbral: Límite del resultado que tiene una neurona. CONCLUSION. 5

115 Con la realización del presente proyecto la Empresa cuenta ya con un plan que le permita predecir los clientes insolventes con un porcentaje de precisión del 72% en su primer entrenamiento mediante la aplicación de técnicas de Minería de Datos. El periodo de estudio que comprende los siete meses anteriores al mes de predicción permitió determinar patrones de comportamiento estables para el entrenamiento del algoritmo de Red Neuronal. 6

116 Las técnicas de Minería de datos se pueden aplicar en cualquier área donde se quiera usar de la manera más óptima la información que se genera diariamente además aplicando la Inteligencia de Negocios se puede obtener resultados favorables para la Empresa. ANEXOS. 7

117 8

118 PROYECTO DE MINERIA DE DATOS PARA EL ANALISIS Y PREDICCION DE CLIENTES DE TELECOMUNICACIONES CON CARTERA VENCIDA MEDIANTE REDES NEURONALES. MANUAL DE USUARIO. Daycy Peralta

119 Presentación. Se ha desarrollando un proyecto de tesis donde se predice con cierto grado de precisión el incumplimiento de pago en las cuentas referentes al servicio de Telefonía Fija basado en el comportamiento de pago de los clientes y comportamiento de consumo de forma que la información que se obtenga se entregará a la Gerencia Comercial de la Empresa E.T.A.P.A. Todo esto con el propósito de ofrecer un mejor servicio al cliente satisfaciendo así sus necesidades e incrementando los ingresos para la Empresa.

120 Requisitos del Sistema. Hardware. Procesador INTEL Pentium GHz, 800 MHz. Memoria RAM 3GB. Disco Duro 160GB RPM Software. Previamente se debe verificar que los siguientes programas se encuentren instalados. Microsoft SQL Server 2005 Management Studio. Business Intelligence Development Studio.

121 Pasos de la Aplicación. Para ingresar se deberá realizar los siguientes pasos. Ingresar al programa Microsoft SQL Server 2005 / SQL Server Management Studio a través de Menú Inicio / Todos los programas / Microsoft SQL Server 2005 / SQL Server Management Studio. En el cuadro de dialogo Conectar al Servidor escoger Desarrollador13 para conectarse al servidor local. Click en Conectar. Figura 1 Conexión a la Base de Datos Desplegar el explorador de objetos. Figura 2. Explorador de Objetos

122 Ingresar al programa Microsoft SQL Server 2005 / SQL Server Business Intelligence Development Studio. Figura 3. SQL Server Business Intelligence. Escoger la opción Abrir Proyecto ya que no siempre se encuentran los archivos dentro de los Proyectos Recientes. Expandir la lista desplegable de los archivos. Ubicarse en Disco Local (C:) en Proyecto Minería de Datos. Figura 4. Abrir Proyecto.

123 Se podrá visualizar cuatro proyectos. o CDR Cat2. o Morosidad. o Prueba entrena RN CDR. o Recaudación. Figura 5. Todos los p proyectos. Abrir la carpeta Morosidad Figura 6. Abre proyecto Morosidad.

124 Abrir la carpeta Proyecto de SSIS1. Figura 7. Abre archivo Proyecto de SSIS Verificar si en la parte derecha de la pantalla se visualiza el explorador de soluciones que se indica en la Figura 10. Click en el Menú Ver y escoger Explorador de Soluciones Figura 8. Visualiza Explorador de Soluciones.

125 Doble Click sobre el Proyecto de SSIS1.sln Figura 9. Paquetes del proyecto Morosidad. Figura 10. Paquete Mes Predicción desde Flujo de control Se visualizan los paquetes de acuerdo al orden en el que se encuentran en el Explorador de Soluciones (lado derecho de la pantalla) A la izquierda de la pantalla se encuentran verticalmente la ventanas de: o Explorador de Servidores. o Variables. o Cuadro de herramientas.

126 Llenando tabla Mes Mora. La tabla Mes Mora indica la cantidad de facturas pendientes que el cliente tiene acumuladas con respecto a cierto mes. Ubicarse en la ventana Variables e ingresar únicamente a las Variables correspondientes al Mes de Predicción y el Año. Figura 11. Ventana Variables. Establecer el valor correspondiente a la Variable Año ingresando los cuatro dígitos. Establecer el valor correspondiente a la Variable Mes_Prediccion ingresando el mes ya sea de un digito (1-9) o de dos dígitos (10-12). Nota. Puede provocar confusión el nombre de la variable Mes Predicción mientras se este llenando la tabla Mes Mora, en este campo se digita únicamente los meses de estudio que se desee analizar, mas no el mes a predecir. Se asignó dicho nombre a la variable para una posterior aplicación. Para el ejemplo se ha ingresado en la variable Mes 8 (Agosto) del año Luego se ingresará el mes 7 y así mes por mes, hasta contar con la información correspondiente a los siete meses anteriores al mes de predicción.

127 Ubicarse en la pestaña Flujo de Datos Figura 12. Paquete Mes Predicción desde Flujo de datos.

128 Click derecho sobre la tarea denomina Llena mes Predicción o Mes Mora y escoger la opción Editar. Figura 13. Modifica tabla destino.

129 Escoger la tabla hacia donde se enviará la información dentro de la lista desplegable a donde se enviará la información. Meses Mora. Figura 14. Editor destino. Aceptar y se regresa a la ventana de al figura 7 con un Click en la pestaña Flujo de Control e iniciar depuración. Figura 15. Inicia depuración.

130 Al iniciar la depuración se visualiza la siguiente ventana. Figura 16. Ejecución de Paquete. Click en el botón Aceptar. Se ejecuta automáticamente todo el proceso. Figura 17. Proceso de Ejecución.

131 Cuando el paquete termina su ejecución aparecerá la siguiente pantalla. Lo que indica que la tabla esta llena. Figura 18. Ejecución culminada. Click Derecho sobre la tabla Meses Mora del Management Studio. Figura 19. Abre contenido de la tabla Meses Mora.

132 Al abrir la tabla Mes Mora se obtiene la siguiente ventana. Figura 20. Tabla Mes Mora desde Base de Datos. La Figura 20 se interpreta de la siguiente manera: La instalación T cuenta con 2 meses en mora o pendientes hasta el mes de Febrero del año Es necesario repetir el proceso, ahora se ingresando cada me Figura 21. Ventana Variables.

133 Llenando tabla Mes Predicción. La tabla Mes Predicción indica la cantidad de facturas pendientes que el cliente tiene acumuladas con respecto al mes que se desea predecir. Nota. La tabla Mes Predicción solo debe llenarse cuando se desee realizar un entrenamiento a la Red Neuronal. Ubicarse en el mismo paquete. Figura 22. Paquete Mes Predicción desde Flujo de control.

134 Click sobre Flujo de datos. Click derecho sobre la tarea denomina Llena mes Predicción o Mes Mora y escoger la opción Editar. Figura 23. Edita tabla destino. Escoger la tabla a donde se desee enviar la información. Tabla Mes Predicción. Figura 24. Escoge tabla destino.

135 Click en Aceptar. Figura 25. Paquete modificado para ejecutar. Ejecutar el paquete estándar. presionando el botón Iniciar depuración de la barra Figura 26. Inicia depuración.

136 A continuación se muestra como se va ejecutando el paquete. Llenando tabla Clientes por periodos. Figura 27. Proceso de depuración. La Tabla Clientes por periodos contiene la información del consumo de Telefonía de los clientes por periodos, sabiendo que son 13 periodos que se deben conformar. Es por esto que es el paquete que mas tiempo se toma en ejecutar. Se recomienda iniciar su ejecución el día anterior paquetes. al que se ejecuten los demás

137 Seguir la ruta C:\Proyecto Minería de Datos\CDR Cat2\CDR s\ CDR s.sln Figura 28. Abre proyecto CDR s. Doble Clickk sobre el paquete soluciones. CDR_clientes.dtsx Dentro del explorador de Figura 29. Explorador de soluciones.

138 A continuación se muestra la siguiente ventana ubicada en la pestaña Flujo de Control. Figura 30. Paquete CDR_clientes desde Flujo de control. Expandir la ventana Variables ubicada en la parte izquierda de la ventana Figura 31. Ventana Variables. Dentro del campo Fecha Predicción ingresar el valor del mes a prever tal y como se muestra en la figura, en formato año,mes,01.

139 Iniciar depuración del proyecto. Figura 32. Inicia proceso de ejecución desde Flujo de control. Al posicionarse en la pestaña Flujo de datos se puede visualizar como se va armando la tabla de destino como lo indica la siguiente figura. Figura 33. Inicia proceso de ejecución desde Flujo de datos.

140 Es necesario esperar hasta que culmine el proceso de ejecución ya que tarda aproximadamente 2 horas con 16 minutos. Se podrá ver la siguiente pantalla. Figura 34. Culmina el proceso de ejecución.

141 Llenando tabla Valores Totales. La tabla Valores Totales contiene todas las variables por periodos que se derivan de las variables principales. Es la tabla que más campos contiene. Seguir la ruta C:\ \Proyecto Minería de Datos\Morosidad\Proyecto de SSIS1 Abrir el proyecto Proyecto SSIs1.slh Figura 35. Abre archivo Proyecto de SSIS Doble Clickk sobre el paquete Estadisticos.dtsx Figura 36. Paquetes del proyecto Morosidad.

142 Iniciar depuración del paquete Estadisticos.dtsx Figura 37. Inicia proceso de ejecución. Observará como se llena la tabla Valores Totales cambiar por la ventana de como se va llenado la tabla Figura 38. Proceso que llena tabla Valores Totales.

143 Simultáneamente se Llenará la Tabla Entrenamiento RN poner la figura que muestra como se va llenando la tabla Posicionarse solo con un Clickk sobre la tarea de Flujo Llena tabla Entrenamiento. Figura 39. Tareas de Flujo de datos. Ubicarse en el Flujo de datos. Figura 40. Proceso que llena tabla Entrenamiento RN.

144 Llenando tabla Recaudación. Doble Clickk sobre el Paquete Recaudación Deudas Figura 41. Paquetes del proyecto Morosidad. Se abrirá la siguiente ventana dentro del Flujo de control Figura 42. Paquete Recaudación deudas desde Flujo de control.

145 Iniciar depuración si Ud. desea se puede cambiar al Flujo de datos Figura 43. Proceso que llena la tabla Recaudación.

146 Llenando tabla Recaudación Todo. Doble Clickk sobre el Paquete Recaudación Todo Figura 44. Paquetes del proyecto Morosidad. Iniciar depuración del Paquete Recaudación todo Figura 45. Paquete Recaudación todo desde Flujo de control.

147 Iniciar depuración si Ud. desea se puede cambiar al Flujo de datos Figura 46. Proceso que llena la tabla Recaudación todo.

148 Llenando tabla Información Red Neuronal. Abrir Proyecto Figura 47. Abre proyecto Entrenamiento Red Neuronal. En el explorador de soluciones se visualiza la figura Figura 48. Paquetes del proyecto Entrenamiento Res Neuronal.

149 Doble Click sobre el Paquete Unión CDR y Recaudación.dtsx Figura 49. Proceso que llena la tabla Información Red Neuronal. Iniciar depuración. Llenando tabla Datos Entrenamiento RN Doble Click sobre el Paquete Información para RN.dtsx Figura 50. Paquetes del proyecto Entrenamiento Red Neuronal.

150 Se abrirá la siguiente ventana dentro del Flujo de control. Figura 51. Paquete Información para RN desde Flujo de control. Click sobre la pestaña Flujo de datos. Figura 52. Paquete Información para RN desde Flujo de datos. Iniciar depuración.

151 Entrenando la Red Neuronal. Abrir el Proyecto en la dirección C:\Proyecto de Minería de Datos \ Prueba entrena RN CDR\ Entrenamiento Red Neuronal Figura 53. Abre archivo Prueba RN.slh Una vez abierto el archivo se visualiza la siguiente ventana. Figura 54. Estructura del proyecto Red Neuronal.

152 Doble Click sobre la Estructura de Minería de datos Prueba Entrenamiento RN.dmm Figura 55. Estructura del proyecto de Minería de Datos. Ubicarse en la pestaña Visor de Modelo de Minería de datos. Figura 56. Visor de Modelo de Minería de Datos. Click en el botón actualizar el contenido del visor. Procesar nuevamente el proyecto si fuese necesario, dando Click en Sí. Figura 57. Confirmación de Reprocesamiento.

153 Click en Ejecutar. Figura 58. Inicio de Reprocesamiento Se visualizará la ventana que indica que el proyecto esta ejecutándose. Figura 59. Transcurso de Reprocesamiento.

154 Click en la pestaña Gráfico de precisión de Minería de datos Figura 60. Red Neuronal desde Gráfico de precisión de Minería de datos. Click en Seleccionar tabla de Escenarios Figura 61. Asignación de columnas. Escoger Prueba Entrenamiento RN (dbo) Figura 62.Selecciona tabla de escenarios.

155 Automáticamente se asignan las relaciones de la Estructura con la tabla de Escenarios. Figura 63. Asignación de columnas completada. Click en la pestaña Gráfico de elevación A continuación se podrá ver la ventana que indica el grafico de elevación así como la leyenda de dicho grafico. Figura 64. Gráfico de Elevación.

156 Figura 65. Leyenda del Gráfico de elevación. Click en la pestaña Matriz de clasificación Figura 66. Matriz de clasificación. En esta ventana se puede observar e interpretar los falsos positivos y los falsos negativos que forman parte del resultado de la predicción. Click en la pestaña Predicción del modelo de Minería de datos Figura 67. Predicción del Modelo.

157 Click sobre la lista desplegable del campo origen. Figura 68. Selecciona tabla de entrada. Escoger la opción Modelo de Minería de datos Prueba Entrenamiento RN Escoger la opción Tabla Prueba entrenamiento RN Figura 69. Escoge origen y campos para predicción. Click sobre el botón Cambiar a resultado de consulta

158 Escoger la opción Resultado Figura 70. Escoge opción resultado. A continuación se presentan los resultados de la predicción. Siendo las instalaciones que no se consideran posibles morosos y 1 las instalaciones correspondientes a clientes considerados como posibles morosos. Figura 71. Muestra resultado de la predicción.

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

CAPITULO 7. MS SQL Server Express Edition

CAPITULO 7. MS SQL Server Express Edition CAPITULO 7 MS SQL Server Express Edition 7.1 Requerimientos Previos El proceso de instalación de Microsoft SQL Server 2008 no es complejo y es de gran importancia tener en cuenta que se está realizando

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

DATA WAREHOUSE DATA WAREHOUSE

DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE Autor: Roberto Abajo Alonso Asignatura: Sistemas Inteligentes, 5º Curso Profesor: José Carlos González Dep. Ing. Sistemas Telemáticos, E.T.S.I. Telecomunicación Universidad

Más detalles

Curso por internet de. Análisis de datos de control ligados a indicadores de riesgos: herramientas y casos prácticos

Curso por internet de. Análisis de datos de control ligados a indicadores de riesgos: herramientas y casos prácticos Curso por internet de Análisis de datos de control ligados a indicadores de riesgos: Ministerio de Sanidad y Política Social Qué encontrará en este curso? Este curso aborda las herramientas de análisis

Más detalles

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Programa de Capacitación y Certificación. INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Contenido PERFIL DE UN ESPECIALISTA EN BASES DE DATOS.... 3 6231. MANTENIENDO UNA BASE DE DATOS DE SQL SERVER 2008

Más detalles

BIABLE. Business Intelligence Available Inteligencia de Negocios Disponible. BIABLE, la nueva forma de trabajar con Microsoft Excel.

BIABLE. Business Intelligence Available Inteligencia de Negocios Disponible. BIABLE, la nueva forma de trabajar con Microsoft Excel. BIABLE Business Intelligence Available Inteligencia de Negocios Disponible QUÉ ES BIABLE? BIABLE, la nueva forma de trabajar con Microsoft Excel. B IABLE (Business Intelligence Available, Inteligencia

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Implementación de un Data Warehouse con Microsoft SQL Server 2012. Cursos Especialización. Versión 1.0

Implementación de un Data Warehouse con Microsoft SQL Server 2012. Cursos Especialización. Versión 1.0 Implementación de un Data Warehouse con Microsoft SQL Server 2012 Cursos Especialización Versión 1.0 13/02/2013 Tabla de contenido 1 Introducción... 3 2 Objetivos... 3 3 Prerrequisitos... 4 4 Duración

Más detalles

BUSINESS INTELLIGENCE. www.sbi-technology.com

BUSINESS INTELLIGENCE. www.sbi-technology.com BUSINESS INTELLIGENCE www.sbi-technology.com SBI Technology SRL Maipú 1492 Piso 2 S2000CGT - Rosario Rep. Argentina Tel: (54 341) 530 0815 www.sbi-technology.com Copyright - SBI Technology SRL - Todos

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Business Intelligence

Business Intelligence Business Intelligence Metodología > 1 Implantación tecnológica de un balanced scorecard Precio 1.000 Este curso introduce al alumno en la metodología de BSC y su implantación tecnológica para el seguimiento

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI INTRODUCCIÓN Se habla en multitud de ocasiones de Business Intelligence, pero qué es realmente? Estoy implementando en mi organización procesos de Business

Más detalles

Microsoft SQL Server Conceptos.

Microsoft SQL Server Conceptos. Microsoft Conceptos. Microsoft 2005 es una plataforma de base de datos a gran escala de procesamiento de transacciones en línea (OLTP) y de procesamiento analítico en línea (OLAP). La siguiente tabla muestra

Más detalles

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM?

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM? Introducción En vista de los comentarios y sugerencias que nos hicieron, via mail y por chat, sobre la posibilidad de la creación de nuevo conocimiento, he creido conveniente introducir el tema Data Mining

Más detalles

SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU

SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU AGENDA INTRODUCCION PLANTEAMIENTO METODOLOGICO ANTECEDENTES

Más detalles

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM Sergio Bauz Olvera 1, Washington Jama 2 1 Ingeniero en Estadística e Informática 2003 2 Director de Tesis de Grado, Ing. Washington Jama.

Más detalles

Microsoft SQL Server e Inteligencia de Negocio con Excel

Microsoft SQL Server e Inteligencia de Negocio con Excel Competencias Microsoft Mediante estas certificaciones, Microsoft acredita que contamos con personal técnico cualificado, y con la experiencia en proyectos en clientes suficientes, para ofrecer soluciones

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

CURSOS PREPARACIÓN PARA CERTIFICACIÓN MICROSOFT SQL SERVER

CURSOS PREPARACIÓN PARA CERTIFICACIÓN MICROSOFT SQL SERVER NIVEL ASSOCIATE: SQL SERVER 2012 QUERYING 2012 DESCRIPCIÓN - CÓDIGO 10774A Este curso de 32 horas, es impartido por un instructor certificado proporciona las habilidades técnicas necesarias para escribir

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico Alicia Iriberri Dirección de Tecnologías de Información I.- Definición del foco estratégico II.- Establecimiento de mediciones a través del Balanced Scorecard (Tablero de Comando) III.- Despliegue del

Más detalles

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Inteligencia de Negocios Introducción Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agenda 1.Introducción 2.Definición 3.ETL 4.Bodega de Datos 5.Data Mart

Más detalles

SQL Server 2014 Implementación de una solución de Business Intelligence (SQL Server, Analysis Services, Power BI...)

SQL Server 2014 Implementación de una solución de Business Intelligence (SQL Server, Analysis Services, Power BI...) Prólogo 1. A quién se dirige este libro? 15 2. Requisitos previos 15 3. Objetivos del libro 16 4. Notación 17 Introducción al Business Intelligence 1. Del sistema transaccional al sistema de soporte a

Más detalles

TÓPICOS ESPECIALES DE INGENIERÍA DE SISTEMAS E INFORMÁTICA SÍLABO

TÓPICOS ESPECIALES DE INGENIERÍA DE SISTEMAS E INFORMÁTICA SÍLABO TÓPICOS ESPECIALES DE INGENIERÍA DE SISTEMAS E SÍLABO I. DATOS GENERALES CARRERA PROFESIONAL : INGENIERÍA DE SISTEMAS E CÓDIGO DE LA CARRERA : 02 NOMBRE DE LA ASIGNATURA : TÓPICOS ESPECIALES DE INGENIERÍA

Más detalles

Business Intelligence

Business Intelligence 2012 Business Intelligence Agenda Programas Diferencias de OLTP vs OLAP Arquitectura de una solución de BI Tecnologías Microsoft para BI Diferencias entre OLTP v/s OLAP Alineación de Datos OLTP Datos organizados

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Carlos Daniel Quattrocchi

Carlos Daniel Quattrocchi PRESENTA Lic. Héctor Iglesias Licenciado en Informática. Profesional independiente, ha desempeñado la actividad en informática desarrollando e implementando sistemas, capacitando y asesorando a numerosas

Más detalles

Desarrollo Informático del SIGOB

Desarrollo Informático del SIGOB Desarrollo Informático del SIGOB Los soportes informáticos del Sistema de Información y Gestión para la Gobernabilidad (SIGOB) utilizan productos de tecnología avanzada, que permite la rápida incorporación

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

04/11/2008. Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining

04/11/2008. Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining 04/11/2008 Las preguntas que nunca pensó que podría responder! Ahora es posible con Business Intelligence y Data Mining Business Intelligence Qué es Business Intelligence? Business Intelligence Qué es

Más detalles

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS Integrante: Profesor: Maximiliano Heise Luis Ríos Fecha de entrega: miércoles 18 de abril de 2012

Más detalles

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE BUSINESS INTELLIGENCE PRESENTACIÓN Ramón Díaz Hernández Gerente (1.990) Nuestro Perfil Inversión permanente en formación y nuevas tecnologías. Experiencia en plataforma tecnológica IBM (Sistema Operativo

Más detalles

Manual de instalación. BIABLE Great Plains-Dynamics

Manual de instalación. BIABLE Great Plains-Dynamics Manual de instalación BIABLE Great Plains-Dynamics Manual de instalación 2 Introducción general BIABLE es una herramienta que facilita la disponibilidad de información estratégica en tiempo real a partir

Más detalles

CL_55115 Planning, Deploying and Managing Microsoft Project Server 2013

CL_55115 Planning, Deploying and Managing Microsoft Project Server 2013 Gold Learning Gold Business Intelligence Silver Data Plataform P Planning, Deploying and Managing Microsoft Project Server 2013 www.ked.com.mx Por favor no imprimas este documento si no es necesario. Introducción.

Más detalles

TECNOLOGÍA SOFTWARE PARA EL DESARROLLO DE SISTEMAS DE INFORMACIÓN. Sistemas Informacionales (BI Business Intelligence) Sonia Marrero Cáceres

TECNOLOGÍA SOFTWARE PARA EL DESARROLLO DE SISTEMAS DE INFORMACIÓN. Sistemas Informacionales (BI Business Intelligence) Sonia Marrero Cáceres TECNOLOGÍA SOFTWARE PARA EL DESARROLLO DE SISTEMAS DE INFORMACIÓN Sistemas Informacionales (BI Business Intelligence) Sonia Marrero Cáceres Sistemas Informacionales Sistemas informacionales: Sistemas de

Más detalles

Catálogo de Servicios

Catálogo de Servicios Catálogo de Servicios Fecha: 14 de mayo de 2013 Índice 1 Presentación... 3 2 Servicios de Consultoría SQL Server... 4 2.1 Monitorización servidores SQL Server... 4 2.2 DBA Remoto... 5 2.3 Consolidación

Más detalles

Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server

Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server Sobre el Profesor Master en Tecnologías de Bases de Datos (Administración de Bases de Datos e Inteligencia

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

PRESENTACIÓN. Quiénes somos? Nuestra visión de servicio. satisfagan sus necesidades. Grupo CF Developer http://www.grupocfdeveloper.

PRESENTACIÓN. Quiénes somos? Nuestra visión de servicio. satisfagan sus necesidades. Grupo CF Developer http://www.grupocfdeveloper. PRESENTACIÓN Quiénes somos? Grupo CF Developer es un grupo tecnológico dedicado a desarrollar productos y servicios informáticos destinados al sector educativo. Actualmente Grupo CF Developer distribuye

Más detalles

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas para la Gestión Unidad 3 Aplicaciones de Sistemas U.N.Sa. Facultad de Cs.Económicas SIG 2010 UNIDAD 3: APLICACIONES DE SISTEMAS Aplicaciones empresariales: Sistemas empresariales. Sistemas de administración

Más detalles

FORMACIÓN PARA LA CERTIFICACIÓN OFICIAL MICROSOFT. MCSA: SQL Server Solutions Associate

FORMACIÓN PARA LA CERTIFICACIÓN OFICIAL MICROSOFT. MCSA: SQL Server Solutions Associate FORMACIÓN PARA LA CERTIFICACIÓN OFICIAL MICROSOFT MCSA: SQL Server Solutions Associate DETALLE DE LA ACCION FORMATIVA Mediante la siguiente acción formativa se formará a las personas asistentes para la

Más detalles

MS_10777 Implementing a Data Warehouse with Microsoft SQL Server 2012

MS_10777 Implementing a Data Warehouse with Microsoft SQL Server 2012 Implementing a Data Warehouse with Microsoft SQL Server 2012 www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción Almacenes de datos

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Técnico Profesional en SQL Server 2014: Especialista Business Intelligence

Técnico Profesional en SQL Server 2014: Especialista Business Intelligence Técnico Profesional en SQL Server 2014: Especialista Business Intelligence TITULACIÓN DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES Técnico Profesional en

Más detalles

Microsoft Dynamics NAV

Microsoft Dynamics NAV Microsoft Dynamics NAV Maximizar el valor a través de conocimiento de negocio Business Intelligence White Paper Noviembre 2011 La información contenida en este documento representa el punto de vista actual

Más detalles

MGS Moda, Confección

MGS Moda, Confección MGS: El sistema CAD más avanzado y versátil para la industria de la confección La gama de productos MGS constituye una respuesta eficaz y contrastada a una necesidad claramente identificada: disponer de

Más detalles

Manual de instalación. BIABLE Great Plains-Dynamics

Manual de instalación. BIABLE Great Plains-Dynamics Manual de instalación BIABLE Great Plains-Dynamics Manual de instalación 2 Introducción general BIABLE es una herramienta que facilita la disponibilidad de información estratégica en tiempo real a partir

Más detalles

Curso por internet de Gestión de Riesgos y Mejora de la Seguridad del Paciente. Ministerio de Sanidad y Política Social

Curso por internet de Gestión de Riesgos y Mejora de la Seguridad del Paciente. Ministerio de Sanidad y Política Social Curso por internet de Gestión de Riesgos y Mejora de la Seguridad del Paciente Ministerio de Sanidad y Política Social Qué encontrará en este curso? - Este curso aborda de forma progresiva las fases, técnicas

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

SERIT forma parte del área de infraestructura de DIGIP Soluciones Integrales.

SERIT forma parte del área de infraestructura de DIGIP Soluciones Integrales. SERIT forma parte del área de infraestructura de DIGIP Soluciones Integrales. Acerca de SERIT Nuestra compañía se dedica a proveer servicios integrales de infraestructura a empresas, con el objetivo de

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing Julio 2014 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES Área Profesional: DESARROLLO

Más detalles

Core Solutions of Microsoft SharePoint Server 2013 CURSO PRESENCIAL DE 25 HORAS

Core Solutions of Microsoft SharePoint Server 2013 CURSO PRESENCIAL DE 25 HORAS Core Solutions of Microsoft SharePoint Server 2013 CURSO PRESENCIAL DE 25 HORAS CURSO DESCRIPCIÓN DEL CURSO... 2 TEMARIO... 3 Administración de bases de datos Microsoft SQL Server Duración: 25 horas Después

Más detalles

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER DURACIÓN DÍAS DE CONEXIÓN 40 horas 60 días CONTACTO: formacion@fgulem.es El Campus Virtual ha sido concebido con una metodología dinámica e

Más detalles

La Solución informática para su sistema de gestión

La Solución informática para su sistema de gestión Página 1 de 7 ÍNDICE 1. Introducción 2. Características del software 3. Precios QUALITYSLAVE 4. Servicios Página 2 de 7 1.- INTRODUCCIÓN QUALITYSLAVE es una solución informática que permite a las organizaciones

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Versiones Home / Profesional

Versiones Home / Profesional . ConSix Facturación 9.0 Versiones Home / Profesional Manual de Usuario Copyright 2009 http://www.consix.es 1. Introducción a ConSix Facturación 1.1. Qué es ConSix Facturación? ConSix Facturación es una

Más detalles

Plantillas Empresariales de ibaan Decision Manager. Guía del usuario de BAAN IVc Sales

Plantillas Empresariales de ibaan Decision Manager. Guía del usuario de BAAN IVc Sales Plantillas Empresariales de ibaan Decision Manager Una publicación de: Baan Development B.V. P.O.Box 143 3770 AC Barneveld Países Bajos Impreso en los Países Bajos Baan Development B.V. 2002. Reservados

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

CONFIGURACIÓN Y DESARROLLO

CONFIGURACIÓN Y DESARROLLO CONFIGURACIÓN Y DESARROLLO Beneficios Permite controlar con eficiencia el rendimiento. SQL Server 2005 brinda a los administradores de Microsoft Dynamics GP herramientas de control automatizadas y mejoradas

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

E-data. Transformando datos en información con Data Warehousing

E-data. Transformando datos en información con Data Warehousing Federico Plancarte Sánchez E-data. Transformando datos en información con Data Warehousing Tema 2 El soporte a la Decisión 2-1 Evolución del soporte a la decisión Diversas categorías del análisis del DS

Más detalles

Técnico Profesional en SQL Server 2014: Especialista Business Intelligence

Técnico Profesional en SQL Server 2014: Especialista Business Intelligence Técnico Profesional en SQL Server 2014: Especialista Business Intelligence Titulación certificada por EUROINNOVA BUSINESS SCHOOL Técnico Profesional en SQL Server 2014: Especialista Business Intelligence

Más detalles

Inteligencia de Negocios (Business Intelligence)

Inteligencia de Negocios (Business Intelligence) ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA DE SISTEMAS Programa de Pregrado Modalidad de Experiencia Laboral Artículo El uso de la Minería de Datos en la Inteligencia de Negocios (Business Intelligence)

Más detalles

DIPLOMADOS. Universidad de Chile. Diplomado en Business Intelligence. Colección: Postales

DIPLOMADOS. Universidad de Chile. Diplomado en Business Intelligence. Colección: Postales DIPLOMADOS Colección: Postales Universidad de Chile Diplomado en Business Intelligence 2015 Por qué La Universidad de Chile? No cualquier Diplomado No cualquier Universidad Es la institución de educación

Más detalles

4. La instantánea se pone en línea y está listo para su uso.

4. La instantánea se pone en línea y está listo para su uso. 1 er RESUMEN TRADUCIDO. Las instantáneas de SQL Server 2005. Una vista de DBA en SQL 2005 instantáneas de base de datos Las instantáneas de bases de datos son un instrumento nuevo Enterprise Edition sólo,

Más detalles

Introducción a BusinessObjects XI Release 2 Service Pack 2 / Productivity Pack

Introducción a BusinessObjects XI Release 2 Service Pack 2 / Productivity Pack Introducción a BusinessObjects XI Release 2 Service Pack 2 / Productivity Pack Acerca de este manual Acerca de este manual Este manual proporciona información para empezar a utilizar BusinessObjects XI

Más detalles

Comparación de características entre las ediciones Estándar y Enterprise

Comparación de características entre las ediciones Estándar y Enterprise Comparación de características entre las ediciones Estándar y Enterprise Enterprise Enterprise es una plataforma completa de datos para ejecutar aplicaciones de misión crítica OLTP (Online Transaction

Más detalles

VERIFICACIÓN DE FIRMAS DE NCR APTRA

VERIFICACIÓN DE FIRMAS DE NCR APTRA VERIFICACIÓN DE FIRMAS DE NCR APTRA La imagen es todo. Proteja la suya. Primera línea de defensa frente al fraude de firmas Usted tiene una presión constante para reducir los costos de los procesamientos

Más detalles

Inteligencia de Negocios. & Microsoft Excel 2013

Inteligencia de Negocios. & Microsoft Excel 2013 Inteligencia de Negocios (Business Intelligence - BI) & Microsoft Excel 2013 Instructor: Germán Zelada Contenido del Curso Fundamentos de Data Warehousing y BI Qué es Business Intelligence? Definiendo

Más detalles

Identificación fácil de los clientes adecuados

Identificación fácil de los clientes adecuados PASW Direct Marketing 18 Especificaciones Identificación fácil de los clientes adecuados Sabemos que le gustaría que sus programas de marketing sean lo más rentables posible y sabemos que conocer la información

Más detalles

Eagle e Center. Tel 57 1 6064173 Bogotá Colombia. estadístico que genera reportes gráficos y consolidados de esta información.

Eagle e Center. Tel 57 1 6064173 Bogotá Colombia. estadístico que genera reportes gráficos y consolidados de esta información. El valor de la información, definiendo información como los datos procesados bajo parámetros útiles, es determinante en los mercados actuales, donde las decisiones basadas en hechos y datos garantizan

Más detalles

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público. 1 En la actualidad el 80% de la información de una empresa está relacionada a un lugar. La variable de ubicación está presente en todas las áreas críticas de un negocio. Sin embargo, las organizaciones

Más detalles

Conjunto de informes y gráficos consolidados en un solo objeto que facilita la visualización y análisis de la información. 2

Conjunto de informes y gráficos consolidados en un solo objeto que facilita la visualización y análisis de la información. 2 1. BLOQUE DESCRIPTIVO 1. Título de la Buena Práctica Uso de una base de datos robusta que ayuda en la toma de decisiones (Data Warehouse), como fuente principal del Sistema de apoyo a la gestión (SAG)

Más detalles

Características de Advanced Product 7.0 (Access 2003): y SQL

Características de Advanced Product 7.0 (Access 2003): y SQL C/ Ventura Plaja, 4 Local 2 08028 Barcelona Tel. 902157584 / 93 274 28 19 Fax.93 274 23 99 E-mail: comercial@ apsys.es www.apsys.es Advanced Product Características de Advanced Product 7.0 (Access 2003):

Más detalles

PRESENTACION. http://www.tugalabs.com

PRESENTACION. http://www.tugalabs.com 1 PRESENTACION http://www.tugalabs.com 2 Qué es SAPO? SAPO es una aplicación WEB de tarificación de plantas telefónicas, con el cual usted obtiene los siguientes beneficios: 1. Obtener información confiable,

Más detalles

Programa Internacional Business Intelligence

Programa Internacional Business Intelligence Fecha de inicio: 18 de junio de 2012 Programa Internacional Business Intelligence En un ambiente globalizado y de alta competitividad entre las empresas, la adecuada administración del capital intelectual

Más detalles

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012 DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012 FLUJO DE CAPACITACIÓN Prerrequisitos Fundamentos de Programación Sentencias SQL Server 2012 Duración: 12 horas 1. DESCRIPCIÓN

Más detalles

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL ESCUELA DE DISEÑO Y COMUNICACIÓN VISUAL PROYECTO DE GRADO PREVIO A LA OBTENCIÓN DEL TÍTULO DE

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL ESCUELA DE DISEÑO Y COMUNICACIÓN VISUAL PROYECTO DE GRADO PREVIO A LA OBTENCIÓN DEL TÍTULO DE ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL ESCUELA DE DISEÑO Y COMUNICACIÓN VISUAL PROYECTO DE GRADO PREVIO A LA OBTENCIÓN DEL TÍTULO DE PROGRAMADOR DE SISTEMAS TEMA SISTEMA DE PLANIFICACIÓN ACADÉMICA MANUAL

Más detalles

Data Warehousing - Marco Conceptual

Data Warehousing - Marco Conceptual Data Warehousing - Marco Conceptual Carlos Espinoza C.* Introducción Los data warehouses se presentan como herramientas de alta tecnología que permiten a los usuarios de negocios entender las relaciones

Más detalles

PORTFOLIO APLICA.DÀT. Business Intelligence. Que veo y que hay

PORTFOLIO APLICA.DÀT. Business Intelligence. Que veo y que hay Soluciones de Gestión para extraer provecho de los datos. (Business Intelligence, Cuadro de Mando i Calidad de datos) Que veo y que hay PORTFOLIO Business Intelligence Tiene infinidad de datos. No tiene

Más detalles

Operación Microsoft Windows XP

Operación Microsoft Windows XP Entornos de red Concepto de red En el nivel más elemental, una red consiste en dos equipos conectados entre sí mediante un cable de forma tal que puedan compartir datos. Todas las redes, no importa lo

Más detalles

El taller de Inteligencia de Negocio no tiene requisitos en cuanto a conocimientos, debido a su naturaleza introductoria.

El taller de Inteligencia de Negocio no tiene requisitos en cuanto a conocimientos, debido a su naturaleza introductoria. DESCRIPTOR DE PROGRAMAS PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE Versión: 03 UNIDAD ACADÉMICA: Escuela de Ingeniería Departamento de Ciencia de la Computación- CETIUC NOMBRE DE LA ACTIVIDAD Taller: Inteligencia

Más detalles

www.itconsulting.com.bo B. Las palmas C./ San Miguel#420 Telf. Of.: 591-3-3210356 Cel.76364838 Santa Cruz - Bolivia

www.itconsulting.com.bo B. Las palmas C./ San Miguel#420 Telf. Of.: 591-3-3210356 Cel.76364838 Santa Cruz - Bolivia Señor(a): CLIENTE Presente.- Santa Cruz, 14 Noviembre del 2012 REF.: COTIZACION ESPECIALISTA EN ANALISIS DE DATOS & INTELIGENCIA DE NEGOCIOS EN EXCEL 2007-2010 Distinguido Señores: Consultores en Tecnologías

Más detalles

Anexo 11. Manual de Administración

Anexo 11. Manual de Administración PONTIFICIA UNIVERSIDAD JAVERIANA Anexo 11. Manual de Administración Para mantenimiento a los modelos y código fuente Alex Arias 28/05/2014 El presente documento muestra los requerimientos necesarios para

Más detalles

Data Warehouse Marco de Calidad

Data Warehouse Marco de Calidad Data Warehouse Marco de Calidad Autor: Pablo Martín Gutiérrez Tutor: Antonio García Carmona Defensa del Proyecto de Final de Carrera Índice Introducción. Objetivos del PFC. Fundamentos Business Intelligence

Más detalles

Facultad de Ingeniería Informática. Informe de las Prácticas Profesionales

Facultad de Ingeniería Informática. Informe de las Prácticas Profesionales Facultad de Ingeniería Informática CEIS Informe de las Prácticas Profesionales Título: Informatización de los Procesos de Negocio Solicitud de Trabajo Extra laboral en el CITI, a través de la BPMS BizAgi

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles