UNIVERSIDAD VERACRUZANA TESINA. Licenciado en Sistemas Computacionales Administrativos. Mariana Garrido Palomino. M.T.E. María Luisa Velasco Ramírez

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD VERACRUZANA TESINA. Licenciado en Sistemas Computacionales Administrativos. Mariana Garrido Palomino. M.T.E. María Luisa Velasco Ramírez"

Transcripción

1 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

2

3 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

4 AGRADECIMIENTOS Todo viaje llega a su fin, y ciertamente, este ha sido largo Me gustaría que estas líneas sirvieran para expresar mi más profundo sincero agradecimiento a todas aquellas personas que me han ayudado a lo largo de este viaje que ha sido la titulación en Sistemas Computacionales Administrativos. A Dios, por acompañarme todos los días. A mis compañeros de clases, porque sin ellos las penas y alegrías no habrían sido iguales. Porque nunca falto el compañero amable que sin pedir nada a cambio te brindaba ayuda. Gracias a mis amigos Isaid, Yasmin, Fernando, Erivan, amigos incondicionales que siempre estuvieron en los momentos que necesité, siempre haciendo equipo de trabajo, los mejores momentos de la licenciatura sin duda los viví junto a ustedes. Gracias a una de mis mejores amigas Ilse Denisse que desde el primer día en la facultad inició una amistad de esas que son para toda la vida, esas

5 noches sin dormir, momentos juntas como edecanes, en el servicio social, nuestros equipos (binas) eran lo mejor, te quiero mucho, eres una gran amiga, siempre podrás contar conmigo. A mis profesores, por ser siempre profesionales con su trabajo. Por sus horas en clases y revisión de exámenes. Por siempre invitarnos a seguir aprendiendo y nunca quedarnos con dudas. A mi directora de tesis, gracias maestra María Luisa Velasco Ramírez por ser mi guía en este tramo final. Por ayudarme en todo lo que ha podido. Por contestar siempre a mis correos con prontitud. Por inspirarme y dirigirme cuando no sabía por dónde ir. A mis sinodales el maestro Guillermo Leonel Sánchez Hernández y el maestro Luis Alejandro Gazca Hernández por sus asertivos comentarios al momento de hacer las revisiones de mi tesina y por siempre sentir el apoyo de su parte. A mis padres, por haber hecho con su esfuerzo desde el día en que nací, el que hoy me haya convertido en quién soy. Por todo el trabajo para brindarme siempre lo mejor. Por sus consejos y regaños. Por ser siempre los primeros en estar ahí cuando he necesitado hablar o cualquier tipo de ayuda. Por

6 recordarme cada día lo mucho que me quieren. Por instigarme día a día también a realizar mis obligaciones, entre ellas este proyecto. A mi hermano por que sé que en muchas ocasiones he sido ejemplo para él y al finalizar este proyecto espero que lo incite a terminar su Ingeniería, gracias por sus consejos y por siempre cuidar de mí. A mis tías: Lorena, Lidia, Lulú, Bety, a cada una de ustedes gracias por el apoyo que recibí de su parte en diferentes momentos de mi vida y que ahora me permiten llegar hasta aquí, por sus consejos, simplemente por el hecho de estar conmigo, muchas gracias. A mis abuelas, porque son un ejemplo de vida y un orgullo tenerlas y dedicarles el esfuerzo de estos 4 años de licenciatura, gracias por el simple hecho de estar en mi vida. Gracias a mi novio Marco porque en estos últimos meses has complementado otra parte de mi vida, siempre dándome ánimo e incitándome a que este trabajo concluyera de la mejor manera, eres un gran amigo, un gran novio en el que confío y al cual amo con todo mi corazón.

7 A mis amigos y familiares, gracias por siempre estar conmigo, por su confianza, su cariño, por siempre alentarme a ser mejor persona y nunca conformarme pero siempre siendo agradecida con lo que me da la vida. Con todo mi cariño, Mariana.

8 ÍNDICE Página RESUMEN... 1 INTRODUCCIÓN... 2 CAPÍTULO I Planteamiento del problema Enunciado del problema Propuesta de solución Justificación de la investigación Delimitaciones Limitaciones de la investigación Alcances de la investigación Objetivos de la investigación General Específicos Metodología CAPÍTULO II Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos Herramientas Comerciales de Análisis de Datos Arquitectura Software para Data Mining Áreas de Aplicación CAPÍTULO III Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos Data Mining y Funciones de Bases de Datos Data Warehouse Data Warehouse y Data Mining V

9 CAPÍTULO IV Introducción Preparación de los Datos Ejecución de WEKA Pre procesado de los datos Clasificación, Agrupamiento, Asociación, Visualización de los Datos Selección de Atributos CAPÍTULO V Instituto Nacional de Investigaciones de la Caña de Azúcar (INICA) Predicción Meteorológica Madrid, Barajas Tasación automática de vehículos, Universidad Politécnica de Velencia Nasa Yuwe, Universidad EAFIT (Escuela de Administración, Finanzas y Tecnología) Colombia Aprendizaje del Código Genético, Laboratorio de Investigación en Inteligencia Artificial (LIDIA), Argentina Predicción de palabras nicho, Universidad Carlos de Madrid CONCLUSIONES FUENTES DE INFORMACIÓN ÍNDICE DE FIGURAS ÍNDICE DE TABLAS VI

10 RESUMEN La presente investigación consiste en un estudio sobre la búsqueda de patrones en bases de datos y cual es su aplicación en las pequeñas y medianas empresas. De acuerdo con Calleja (2010) en la actualidad vivimos en un mundo saturado de información. Contamos con herramientas tecnológicas que ponen al alcance de nuestra mano vastas cantidades de información y datos. La expansión de internet y de los sistemas de información ha revolucionado considerablemente nuestra capacidad de obtener información de una manera fácil y rápida. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido al gran poder de procesamiento de las máquinas. No obstante, con el grado de crecimiento con el que la información es recolectada y almacenada electrónicamente hoy en día en prácticamente todos los campos de comportamiento/desarrollo humano, la extracción de información útil de todos los datos disponibles se está convirtiendo en un creciente reto científico y una necesidad económica masiva (Zaki and Ho 2000). Dentro de este enorme conjunto de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (Data Mining), que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingles) que se encarga 1

11 de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean. 2

12 INTRODUCCIÓN

13 En la actualidad, nos encontramos en un ambiente cada vez más competido, donde las empresas requieren de herramientas sólidas, que las asistan en la toma de decisiones que puedan traer beneficios y mejoras en sus procesos, un ejemplo es el Data Mining en donde se analiza y explora automáticamente en grandes bases de datos para extraer información útil y no evidente que permita la toma oportuna de decisiones así como generar ventajas competitivas. Las PYMES (Pequeñas y Medianas Empresas), son organizaciones que se caracterizan por tener un número reducido de empleados y una facturación media o baja. En el censo económico del INEGI (Instituto Nacional de Estadística Geografía e Informática) del 2004, se establece que existen en México alrededor de 2,726,568 PYMES, las cuales representan aproximadamente el 94% del total de las empresas mexicanas (Diario Oficial de la Federación, 2004). El crecimiento de las PYMES ocurre actualmente entre una fuerte competencia, contracción económica, clientela más inteligente, reducción de márgenes de utilidad y constantes innovaciones tecnológicas. [González, 2006]. De ahí la importancia de que las PYMES tomen decisiones acertadas en el momento que se requieran y antes que su competencia lo haga. Lo anterior supone un enorme reto para las organizaciones, en especial en el manejo de grandes volúmenes de información para conocer el entorno y predecir su evolución. De acuerdo a Guerena (s.f.) las pequeñas y medianas empresas de hoy en día están comenzando a voltear sus ojos hacia tecnologías como sistemas inteligentes, redes neuronales, sistemas expertos, minería de datos, entre otras. Y todas las han llevado a apostar en ellas el todo de su empresa: procesos administrativos, procesos operativos, administración de recursos humanos, etc. La minería de datos se ha transformado en la base de la toma de decisiones en las grandes empresas. Sin embargo, su utilización en las medianas y pequeñas 4

14 empresas ha sido mínima o inexistente. Entre las causas de este fenómeno están bajo en número de expertos en el área, los altos costos de asesoría y del software y, el mayor factor, la falta del conocimiento de los medianos y pequeños empresarios en la existencia de la minería de datos (Guerena, s.f.). La Inteligencia Empresarial (Business Intelligence) es, para el área de tecnologías de la información, una arquitectura y una colección de aplicaciones operacionales integradas, así como de bases de datos que dan soporte a la toma de decisiones y que proveen a las empresas un fácil acceso a sus propios datos (Moss, et.al., 2003). La inteligencia empresarial se compone de varias tecnologías, que son: Almacenes de datos (Datawarehouses) que son: colecciones de datos diseñados para dar soporte a la toma de decisiones, las cuales son integradas, no volátiles, variables en el tiempo y están orientadas a la información [Inmon, 2005]. OLAP (On-Line Analytical Processing) que permite consultas en línea a estructuras multidimensionales, las cuales proporcionan facilidades para manejar y transformar los datos [Hernández, 2005]. Minería de datos (Data Mining) que persigue el descubrimiento automático del conocimiento contenido en la información almacenada de modo ordenado en grandes bases de datos [Pérez, et.al., 2006]. Estas 3 tecnologías, permiten fortalecer las capacidades de las empresas para identificar oportunidades, detectar riesgos y competir más eficaz y eficientemente. Al día de hoy, existen diversas herramientas de software que implementan dichas técnicas, tanto comerciales (Oracle Data Mining, Clementine, SAS Enterprise Miner, Cognos, NadaMind) como de dominio público (Weka y Yale), pero en muchas ocasiones, las empresas no cuentan con los medios económicos para introducirlas en su empresa y por lo tanto no son capaces de utilizar al máximo su 5

15 información, pues no la tienen organizada adecuadamente y carecen de los métodos necesarios para procesarla y analizarla de la mejor manera. Por este motivo las pequeñas y medianas empresas no pueden palpar los beneficios que pueden obtener de estas aplicaciones como: mejor aprovechamiento de sus fuentes de información, mayor disponibilidad de recursos humanos y tecnológicos, fortalecimiento de las capacidades analíticas y de planificación, incremento de ventas, renovado el conocimiento y entendimiento de las necesidades y perfiles de sus clientes, lo que mejora las relaciones con los mismos. Es necesario un cambio de paradigma que nos permita llevar los beneficios que ofrecen las técnicas avanzadas de computación inteligente, como data mining (minería de datos), text mining (minerías de texto), ontologías de dominio específico y técnicas de optimización y aprendizaje dirigido a las Pymes. Debemos tomar en cuenta que muchas de las Pymes no cuentan con: personal especializado en TI; ni un presupuesto que les permita desembolsar grandes cifras de dinero, a cambio de un sistema integral de inteligencia de negocio, que puede obtener si realiza la contratación de una consultoría especializada; ni el pago del licenciamiento de una plataforma integral de inteligencia de negocio, en donde las interfaces se encuentren orientadas al usuario final; ni una robusta plataforma de hardware, que se requiere (en la mayoría de los casos) para implantar sistemas integrales. La incursión de tecnología analítica en la operación y seguimiento de los procesos de las Pymes, marca un gran punto de diferenciación en las empresas, para que estas puedan subsistir y crecer en un mercado tan competitivo. 6

16 CAPÍTULO I.

17 1.1 Planteamiento del problema Hoy en día las empresas se desarrollan en un ambiente de constantes cambios, es por eso la importancia de analizar los diferentes factores que se manifiestan alrededor de ellas. Es interesante conocer estos cambios debido a que las empresas deben estar conscientes de que sus competidores están constantemente buscando estrategias para generar ventaja competitiva. La relevancia aquí es que las empresas deben estar alertas y hacer un análisis estratégico de su entorno. En la actualidad, las PYMES en México atraviesan una problemática tanto interna como externa que ha provocado que bajen su productividad y que carezcan de una estabilidad en el mercado. La interna siendo la carencia de organización, retrasos tecnológicos, falta de capacitación del personal, y la escasez de recursos financieros: y la externa se refiere a la falta de acceso al financiamiento, tasas de intereses no competitivas, y una política fiscal no promotora del desarrollo. (Kauffman, 2001). Se ha notado que un punto clave es la administración interna, muchas veces no se le da la importancia necesaria y se ve reflejado en los resultados. Crear una ventaja competitiva no es cosa fácil de lograr y tomar en cuenta estos aspectos es vital para la sobrevivencia de la organización, es por esto que una opción de ventaja competitiva es el análisis de los datos que se manejan en la misma para así obtener información que nos sea de utilidad en la toma de decisiones. Los factores internos se refieren a los problemas provenientes por la gestión del conocimiento; en cuanto a lo específico es necesario analizar la industria o sector donde se encuentra la empresa, por ejemplo el grado de madurez o de 8

18 concentración. En cuanto a factores externos, éstos se reconocen como las variables macroeconómicas, aquellas que monitorean cómo está la situación económica, política, social y cultural del medio en que se está desenvolviendo la empresa. Según Kauffman (2001), PYMES carecen de sistemas de planeación, organización, administración y control eficiente, también de tecnologías propias de la gestión y desarrollo de sus actividades productivas. Se puede decir entonces que las PYMES no aprovechan la información que les proporcionan los datos almacenados debido al desconocimiento del uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.2 Enunciado del problema Las PYMES no aprovechan la información y el conocimiento que les proporcionan los datos almacenados debido al desconocimiento en el uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.3 Propuesta de solución Dar a conocer a las PYMES las diferentes herramientas que se pueden utilizar para el análisis de los patrones de bases de datos, en este caso en particular el de la herramienta WEKA, para que así dentro de la organización interna de las mismas se lleve a cabo el procesamiento de los datos y con esto se obtenga información que le sea de utilidad a la empresa y pueda tomar decisiones acertadas en los diferentes procesos que tiene la empresa. 9

19 Como parte del proyecto de investigación Desarrollo de una plataforma tecnológica que permita fortalecer la cadena de valor de las MPYMES de la región Xalapa a través del cual se pretende efectuar una aportación de tipo empírica, que sirva para fortalecer mediante la innovación la cadena de valor de una microempresa. Esta aportación consta de un impacto conceptual, por medio de la revisión sistemática de herramientas de análisis de datos y su aplicación en las MPYMES o PYMES en general. 1.4 Justificación de la investigación Es importante que en la actualidad las PYMES en México hagan un cambio en su enfoque administrativo, ya que se encuentran en un arduo ambiente de negocios donde sobreviven únicamente las mejores. La gran capacidad de almacenamiento de las bases de datos permite recolectar grandes cantidades de datos, cuyo análisis resulta útil para generar conocimiento en una organización, el conocimiento al que se da mayor importancia es aquél que procede del interior de la misma, proveniente de su equipo de personas, así como de sus clientes. Pero, cómo lograr que una PYME genere conocimiento?, por ello es importante el presente trabajo de investigación. Cómo proveerle a la PYME el conocimiento necesario para permitirle competir de manera directa dentro del nicho de mercado en el que se encuentra. Es por eso que se deben implementar nuevas estrategias en la organización para la generación de una ventaja competitiva. Las empresas en general necesitan adaptarse a los cambios del entorno y no confiarse, en el caso de las PYMES sería importante detectar sus fortalezas y debilidades para poder aprovechar mejor que sabe hacer y las oportunidades que el mercado le esta ofreciendo. 10

20 1.5 Delimitaciones Espacio: La investigación se limitará a la Facultad de Contaduría, Administración, Sistemas y Gestión. Tiempo: Un periodo de 10 meses (Febrero Noviembre 2012). Población: Empresas que se encuentran registradas en el SUME de la Facultad de Contaduría, Administración, Sistemas y Gestión. Muestra: Las pruebas a realizar se harán con los datos de las empresas del SUME. 1.6 Limitaciones de la investigación La investigación se limitará a las pruebas de los datos de las empresas que nos brinden apoyo para el procesamiento de la información con fines de muestra y ejemplo que se presentarán en este trabajo de experiencia recepcional. Ya que para la mayoría de las empresas el tipo de datos e información que manejan son de carácter confidencial, por lo que no les es posible darnos acceso a sus bases de datos. 1.7 Alcances de la investigación Se pretende estudiar el uso de herramientas para el análisis de datos, así como la aplicación el KDD para detectar las ventajas y oportunidades que proporciona disponer de información que genere conocimiento en las pequeñas y medianas empresas. 11

21 1.8 Objetivos de la investigación General Analizar la búsqueda de patrones en Bases de Datos y su aplicación en las pequeñas y medianas empresas con el apoyo del uso de la herramienta WEKA Específicos Describir el proceso de KDD. Describir Minería de Datos (Data Mining), tecnologías de apoyo y áreas de aplicación. Analizar la arquitectura software para Data Mining. Describir las tendencias de la Minería de Datos. Analizar Data Mining y funciones de base de datos. Describir el almacenamiento de datos. Describir las herramientas comerciales de análisis de datos. Describir las técnicas de análisis de datos en WEKA. 12

22 1.9 Metodología Búsqueda en bases de datos, libros, revistas especializadas, bases de datos, bibliotecas virtuales. Selección de la información más relevante para la realización de esta investigación. Comprensión de los temas que serán abordados, retroalimentando los conocimientos adquiridos dentro de la investigación. Descripción y estudio de la herramienta WEKA para el análisis de datos. Conclusiones que se irán dando a lo largo de la realización del documento. 13

23 CAPÍTULO II. MINERÍA DE DATOS Y KDD

24 2.1 Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos KDD Siempre se ha dicho que la información es poder. El ser humano siempre ha intentado conocer e investigar a fondo todo aquello que le rodeaba para sacar el máximo partido a sus posibilidades de progreso y éxito, y para ello, disponer de información exclusiva y relevante, siempre ha sido de ayuda. Han existido muchos nombres para la Minería de Datos o disciplinas similares. Entre ellos se encuentra el Data Fishing, Data Discovery, y, más recientemente, Knowledge Discovery in DataBases (KDD). A pesar de que para muchos. KDD y la minería de datos son sinónimos, KDD es un proceso que incluye a la minería de datos como uno de sus pasos (Calleja, 2010). KDD es el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos. KDD se ha definido como el proceso no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, y finalmente comprensibles Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones (Molina y García, 2006). Los datos recogen un conjunto de hechos de una base de datos y los patrones son expresiones que describen un subconjunto de los datos. KDD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el sistema y potencialmente útiles. 15

25 Se han de definir medidas cuantitativas para los patrones obtenidos. Se debe establecer alguna medida de interés que considere la validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simplemente, registrar la información conseguida y suministrársela a quien esté interesado. Figura 2.1 Esquema del proceso de KDD 1 Fuente: Molina y García, 2006 La utilidad de aplicaciones futuras en KDD es de largo alcance. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. El proceso de KDD se inicia con la identificación de los datos. Para ello hay que imaginar qué datos se necesitan, dónde se pueden encontrar y cómo conseguirlos. Una vez que se dispone de datos, se deben seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan, poniéndolos en un formato adecuado. Una vez que se tiene los datos adecuados se procese a la Minería de Datos, un proceso en el que se seleccionarán las herramientas y técnicas adecuadas para lograr los objetivos pretendidos y tras este proceso llega el análisis de resultados, con lo que se obtiene el conocimiento pretendido. 16

26 Figura 2.2 Metodología para el KDD. Fuente: Cantera, 2011 KDD es un proceso interactivo e iterativo, que involucra numerosos pasos e incluye muchas decisiones que deben ser tomadas por el usuario, y se estructura en las siguientes etapas: (Molina y García, 2006). 1. Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final. 2. Creación del conjunto de datos: consiste en la selección del conjunto de datos, o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento. 3. Limpieza y procesamiento de los datos: se compone de las operaciones, tales como: recolección de la información necesaria sobre la cuales va a realizar el procesos, decidir las estrategias sobre la forma en que se van a manejar los campos de los datos disponibles, estimación del tiempo de la información y sus posibles cambios. 4. Reducción de los datos y proyección: encontrar las características más significativas para representar los datos, dependiendo del objetivo del proceso. 5. Elegir la tarea de Minería de Datos: decidir el objetivo del proceso del KDD. 17

27 6. Elección del algoritmo de Minería de Datos: selección del método a ser utilizado para buscar patrones en los datos. 7. Minería de Datos: Consiste en la búsqueda de los patrones de interés en una determinada forma de representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o árboles, regresión, agrupación, etc. 8. Interpretación de los patrones encontrados. 9. Consolidación del conocimiento descubierto. Minería de Datos Se pueden encontrar decenas de definiciones a este concepto. La Minería de Datos consiste en la aplicación de técnicas en grandes volúmenes de datos para descubrir información útil, aplicable y no trivial. Esta definición, aplicada a un entorno más empresarial podría reconstruirse como el conjunto de métodos, que junto con un profundo conocimiento del negocio, están orientados a identificar, en grandes volúmenes de datos, relaciones y tendencias ocultas hasta el momento (Creus, 2006). Minería de Datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes bases de datos. Podemos decir, que la minería de datos es un proceso dentro de un proceso que lo engloba todo, el KDD. En este paso, la Minería de Datos se encarga de buscar relaciones y patrones entre toda la cantidad de información disponible. 18

28 Muchos de los métodos con los que cuenta la minería de datos se basan en diferentes técnicas de varios campos, como el aprendizaje de máquinas, reconocimiento de patrones y estadística, en este último encontramos los algoritmos de clasificación y regresión entre otros. Las principales características y objetivos de la Minería de Datos según Vallejos (2006) son: Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet El entorno de la minería de datos suele tener una arquitectura clienteservidor. Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultando por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rápidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. 19

29 Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos produce cinco tipos de información: Asociaciones, Secuencias, Clasificaciones, Agrupamientos, Pronósticos. Los mineros de datos usan varias herramientas y técnicas. Un esquema del proceso lo podemos encontrar en el propuesto por Fayyad (1996). Este esquema consta de cinco pasos para obtener el conocimiento que queremos extraer de los datos que tenemos. 1. Selección de datos. Extraemos de una base de datos o cualquier otra colección de datos, aquellos campos y atributos que concuerdan con el objetivo que buscamos. 2. Pre-procesado. En este paso, efectuaremos la limpieza de los datos, como por ejemplo, rellenar campos vacíos o atributos inútiles. 3. Transformación. En este paso, la información se convertirá a otros nuevos formatos si es necesario. 4. Minería. El núcleo del proceso, aquí se identifican los patrones y las relaciones entre los datos. 5. Interpretación y evaluación. El usuario debe interactuar con los resultados para tomar las acciones pertinentes en caso de ser válidos y útiles. 20

30 2.2 Herramientas Comerciales de Análisis de Datos Knowledge Seeker de Angoss Software International, Toronto, Canadá Herramienta interactiva de clasificación basada en los algoritmos de árboles de decisión que se ejecuta sobre plataformas Windows y UNIX. Tiene una representación flexible a través de árboles de decisión, a su vez provee características para permitir la identificación de la relevancia de los resultados en los negocios. El API permite usar los resultados del análisis en aplicaciones personalizadas (Molina y García, 2006). DataCruncher de DataMind, San Mateo, CA, USA Herramienta de Data Mining para clasificación y clustering basada en Tecnología de Agentes de Redes (ATN Agent Network Technology). La aplicación servidor se ejecuta sobre UNIX y Windows NT, la aplicación cliente en todas las plataformas Windows.Puede ser utilizada para la clasificación, predicción y clustering no supervisado. Los resultados son versátiles y permiten una minuciosa valoración de los modelos y de sus resultados (Molina y García, 2006). Intelligent Miner de IBM, Armonk, NY, USA Intelligent Miner es un conjunto de estadísticas, procesamiento y minería de datos, sus funciones se pueden utilizar para analizar grandes bases de datos. También proporciona herramientas de visualización para la visualización e interpretación de los resultados de la minería, el servidor software se ejecuta en AIX, AS/400, OS/390 y los sistemas Sun Solaris, AIX, OS/2 y los sistemas operativos de Windows. Algunas de sus características son la ampliación de las asociaciones, clasificación, clustering y predicción, funciones estadísticas, exportación e importación de bases mineras en todos los sistemas operativos, explotación del DB2 Parallel Edition y DB2 Universal Database Enterprise Extended Edition, Secuencias repetibles, 21

31 programas para todas las plataformas de servidores (Cabena, Hyun Hee Choi, Il Soo Kim, Shuichi Otsuka, Reinschmidt, Saarenvirta, 2009). Clamentine de Integral Solutions, Basingstoks, UK Herramienta con un entorno de trabajo que soporta todo el proceso de data mining. Ofrece árboles de decisión, redes de neuronas, generación de reglas de asociación y características de visualización. Se ejecuta cobre VMS, UNIX o Windows NT (Molina y García, 2006). Soporta diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC), posee distintas herramientas de minería de datos como: correlación, reglas de asociación, patrones secuenciales, agrupación/segmentación/conglomerado, clasificación, manipulación de datos, combinación, visualización, exportación de modelos en distintos lenguajes, exportación de datos integrada a otros programas, generación de informes y gestión de proyectos (Hernández, 2006). Alice de Isoft SA, Gif sur Yvette, Francia. Es una herramienta para Data Mining interactivo basada en tecnología de árboles de decisión. Se ejecuta sobre plataformas Windows. Su representación es interactiva y permite guiar el análisis, tiene la opción de generar gráficos para proveer una visión general de los datos en todas las etapas del proceso de Data Mining (Molina y García, 2006). Decision Series, de NeoVista Software Cupertino CA, USA. Es una herramienta para múltiples operaciones de Data Mining para el desarrollo de modelos basados en servidores. Proporciona algoritmos de redes de neuronas, árboles y reglas de inducción, clustering y análisis de asociaciones. Trabaja sobre sistemas UNIX mono o multi-procesadores de HP y Sun. Accede sólo a ficheros 22

32 planos, aunque posiblemente las últimas versiones ya trabajarán contra bases de datos relacionales (Molina y García, 2006). Pilot Discovery Server de Pilot Software, Cambridge ME, USA. Es una herramienta para la clasificación y predicción, basada en la tecnología de árboles de decisión CART. Trabaja sobre UNIX y Windows NT. Es importante exponer que es solamente indicada para clientes de los programas para soporte a la toma de decisiones de Pilot y solo cubre un específico sector del espectro del data mining y simplemente trabaja con datos almacenados en bases de datos relacionales. (Molina y García, 2006).. El producto de la minería de datos primero diseñado para ejecutivos de ventas y mercadotecnia (Gale Group, 1996). SAS Solution for Data Mining de SAS Institute, Cary, NC, USA. Según Molina (2006) SAS Solution es un gran número de herramientas de selección, exploración y análisis de datos para entornos cliente-servidor. Las opciones de Data Mining incluyen: aplicaciones de redes de neuronas, de árboles de decisión y herramientas de estadística además de aplicaciones portables para un gran número de entornos PC, UNIX y mainframes. SAS ofrece Data Warehouse y análisis de datos así como conjuntos extensibles de herramientas de manipulación y visualización de datos. SAS tiene una gran experiencia en herramientas estadísticas y de análisis de datos (Molina, García, 2006). MineSet, de Silicon Graphics, Mountain View, CA, USA Es un paquete de herramientas para Data Mining y visualización que proporciona algoritmos para la generación de reglas para clasificación y asociaciones. Trabaja sobre plataformas SGI bajo IRIS. Ofrece herramientas de visualización para los 23

33 datos y los modelos generados, soporta muchas operaciones de Data Mining, el gestor de herramientas actúa como un punto central de control y permite el acceso y transformación de los datos. La arquitectura de MineSet está compuesta por un cliente que es el administrador y el que permite las visualizaciones, el servidor que procesa los datos y los algoritmos de minería (modelos) y por último la fuente de datos que está conformada por las bases de datos (Ron Kovahavi, 1998). SPSS, de SPSS, Chicago IL, USA SPSS (Statistical Product and Service Solutions) es un conjunto de potentes herramientas de tratamiento de datos y análisis estadístico. Funciona mediante menús desplegables y cuadros de diálogo que facilitan el trabajo (Castañeda, Cabrera, Navarro, Wietse de Vries, 2010). Syllogic Data Mining Tool, de Syllogic, Houten, The Netherlands Es una herramienta con entorno de trabajo multi-estratégico con interface visual. Soporta análisis de árboles de decisión, clasificación k-vecino más próximo, y análisis de clustering y asociaciones por k-means. Trabaja cobre Windows NT y en estaciones UNIX con uno o varios procesadores. La interface visual permite a los usuarios construir proyectos de data mining enlazando objetos. La versión está optimizada para entornos masivamente paralelos y validos para grandes bases de datos. La empresa también ofrece un gran número de servicios de consultoría en las áreas de Data Warehousing y Data Mining (Molina et. 2006). Darwin de Thinking Machines, Bedford MA, USA. Darwin es una aplicación de minería de datos escalable que encuentra relaciones sutiles y con frecuencia difíciles de alcanzar entre los miles de millones de piezas 24

34 de datos y utiliza esta información nueva para ayudar a resolver una variedad de problemas de negocio, de los desafíos de marketing para gestión de la calidad con la eficiencia de fabricación. Es capaz de extraer el más grande de los almacenes de datos, debido a su diseño de procesamiento paralelo. Funciona en un amplia gama de arquitecturas de hardware, incluyendo estaciones de trabajo independientes y en red, SMPS, y racimos de cada uno. Accede a cualquier base de datos relacional a través de su extremo frontal compatible con ODBC, incluyendo Informix, Oracle y Sybase (Gale Group, 1996). 2.3 Arquitectura Software para Data Mining A continuación se muestra una pirámide que presenta la estructura de cómo las diferentes tecnologías encajan entre si. Figura 2.3 Pirámide de Data Mining Fuente: Molina y García, 2006 En el nivel más bajo se encuentra las comunicaciones y sistemas. A continuación aparece el soporte del middleware. Esto va seguido por la gestión de las bases de datos y el Data Warehouse. Después aparecen las diferentes tecnologías de Data Mining. Finalmente, se tienen los sistemas de apoyo a la toma de decisiones que usan los resultados de Data Mining y ayudan a que los usuarios tomen las 25

35 decisiones eficazmente. Estos usuarios pueden ser administradores, analistas, programadores, y cualquier otro usuario del sistema de información. Figura 2.4 Arquitectura de Data Mining Fuente: Molina y García, 2006 En la figura 2.4 se integran múltiples bases de datos a través de algún middleware y como consecuencia forman un Data Warehouse que se explora a continuación. Los componentes de Data Mining también se integran en este escenario para aplicar Data Mining a las bases de datos directamente. Figura 2.5 Visión en tres dimensiones de Data Mining Fuente: Molina y García,

36 La figura 2.5 muestra una vista tridimensional de las tecnologías de Data Mining. En el centro se encuentra la tecnología para la integración. Ésta es la tecnología del middleware tal como la gestión distribuida orientada al objeto y también la tecnología web para la integración y acceso a través de la web. Arquitectura Funcional A continuación se describen los componentes funcionales de Data Mining. Un SGBD con una arquitectura en la que la herramienta de Data Mining es uno de los módulos del SGBD será un SGBD Mining. Éste se puede organizar de varias maneras. Figura 2.6 Data Mining como parte del procesador de consultas Fuente: Molina y García, 2006 En la figura 2.6 se considera Data Mining como una extensión del procesador de consultas. Es decir, podrían extenderse los módulos del procesador de consultas como el optimizador de consultas para ocuparse de Data Mining. Arquitectura del Sistema Una arquitectura del sistema consiste en componentes como los middleware y otros componentes del sistema como el sistema de bases de datos y el sistema de data warehouse para data mining (Molina, García, 2006). 27

37 Los middleware podrían basarse en diferentes tecnologías. Un sistema middleware muy popular es el que se basa en una arquitectura cliente-servidor. La mayoría de los vendedores de sistemas de bases de datos han migrado a una arquitectura llamada cliente-servidor. Así múltiples clientes acceden a los diferentes servidores de las bases de datos a través de alguna red (Molina y García, 2006). 2.4 Áreas de Aplicación En este punto se presentan las principales áreas y sectores empresariales en las que se puede aplicar la minería de datos. Marketing De acuerdo con García (2006) actualmente con la generación de los puntos de venta sistematizados y conectados a un ordenador central, y el constante uso de las tarjetas de créditos se genera gran cantidad de información que hay que analizar. Con ello se puede emplear la minería de datos para: Identificar patrones de compra de los clientes: Determinar cómo compran, a partir de sus principales características, conocer el grado de interés sobre tipos de productos, si compran determinados productos en determinados momentos. Segmentación de clientes: Consiste en la agrupación de los clientes con características similares, por ejemplo demográficas. Es una importante herramienta en la estrategia de marketing que permite realizar ofertas acordes a diferentes tipos de comportamiento de los consumidores. 28

38 Predecir respuestas a campañas mailing: Las campañas mailing o también llamado marketing consiste en enviar a sus clientes un correo electrónico con las novedades de su empresa, información, promociones y descuentos. ( Qué es Mailing?, s.f.). Cabe mencionar que estas campañas son caras y pueden llegar a ser molestas para los clientes a los que no le interesan el tipo de producto promocionado por lo que es importante limitarlas a los individuos con una alta probabilidad de interesarse por el producto. Análisis de cestas de la compra: Consiste en descubrir relaciones entre productos, esto es, determinar qué productos suelen comprarse junto con otros, con el fin de distribuirlos adecuadamente. Compañías de Seguros En el sector de las compañías de seguros y la salud privada, se pueden emplear las técnicas de minería de datos, por ejemplo para (Rodríguez, 2011): Cálculo de primas Captación de nuevos clientes Fidelización de clientes Desarrollo de nuevas líneas de productos Creación de informes de riesgo geográfico Detección de siniestros fraudulentos Banca En el sector bancario la información que puede almacenarse es, además de las cuentas de los clientes, la relativa a la utilización de tarjetas de crédito, que puede 29

39 permitir conocer hábitos y patrones de comportamiento de los usuarios. Esta información puede aplicarse para: Detectar patrones de uso fraudulento de tarjetas de crédito. Identificar clientes leales: Es importante para las compañías de cualquier sector mantener a los clientes. Y es que hay estudios que demuestran que es cuatro veces más caros obtener nuevos clientes que mantener los existentes. Predecir clientes con probabilidad de cambiar su afiliación. Determinar gasto en tarjeta de crédito por grupos. Encontrar correlaciones entre indicadores financieros. Identificar reglas de mercado de valores a partir de históricos. Telecomunicaciones En el sector de las telecomunicaciones se puede almacenar información interesante sobre las llamadas realizadas, tal como el destino, la duración, la fecha en que se realiza la llamada, por ejemplo para (Molina, García, 2006): Detección de fraude telefónico: Mediante por ejemplo el agrupamiento o clustering se pueden detectar patrones en los datos que permitan detectar fraudes. 30

40 Medicina En el campo médico se almacena gran cantidad de información, sobre los pacientes, tal como enfermedades pasadas, tratamientos impuestos, pruebas realizadas, evolución, etc. Se pueden emplear técnicas de minería de datos con esta información, por ejemplo, para: Identificación de terapias médicas satisfactorias para diferentes enfermedades. Asociación de síntomas y clasificación diferencial de patologías. Estudio de factores de riesgo para la salud en distintas patologías. Segmentación de pacientes para una atención más inteligente según su grupo. Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos. Identificación de terapias médicas y tratamientos erróneos para determinadas enfermedades. Industria farmacéutica En el sector químico y farmacéutico se almacenan gran cantidad de información (Molina y García, 2006): 31

41 Bases de datos de dominio público conteniendo información sobre estructuras y propiedades de componentes químicos. Resultados de universidades y laboratorios publicadas en revistas técnicas. Datos generados en la realización de los experimentos. Datos propios de la empresa. Biología Con el almacenamiento de toda la información que está generado en bases de datos accesibles por Internet, el siguiente reto consiste en descubrir cómo funcionan nuestros genes y su influencia en la salud. Existen nuevas tecnologías que están posibilitando el desarrollo de una nueva biología que permite extraer conocimiento biomédicos a partir de bases de datos experimentales en el entorno de un ordenador básicamente mediante técnicas de minería de datos y visualización. Estos trabajos forman parte de los desarrollos de la Bioinformática (Molina y García, 2006). En la Empresa Una empresa en posesión de bases de datos de calidad y tamaño suficiente puede emplear Data Mining para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar (Garrido, Latorre, 2010): Predicción automática de comportamientos. Predicción automática de tendencias. 32

42 Descubrimiento automático de comportamientos desconocidos anteriormente. Finanzas Según Baltazar (2010) algunas de las aplicaciones del Data Mining en el campo financiero son algunas de las siguientes: Estudio de mercados, productos, de clientes, de préstamos. Estudio de medidas antifraude. Sistemas de comprobación de transacciones En la Gestión de Recursos Humanos Las NTIC (Nuevas Tecnologías de Información y Comunicaciones) indujeron la amplitud del objeto de las GRH (Gestión de Recursos Humanos) al objeto de la gestión del conocimiento. El tratamiento del capital intelectual es inmanente hoy a los e-rrhh o e-grh (expresión electrónica o digitalizada del sistema de GRH, así como los distintos procesos o actividades clave que lo integran). Y junto el tratamiento del mismo exige dominio de esas NTIC: redes, internet, intranet, e- mail, e-business, e-learning, etc. (Cuesta, Alcaide y López, 2009). Actualmente existe la necesidad de desarrollar y aplicar sistemas de e-rrhh en las empresas, en búsqueda de aumento de productividad del trabajo, donde es imprescindible la integración de amiento del capital humano y el concepciones y técnicas sobre el tratamiento del capital humano y el capital intelectual, con concepciones técnicas comprendidas en las NTIC, destacando su nexo con la actual GRH los Data Warehouses y Data Mining (Cuesta et al, 2009). 33

43 En Internet Con el e-bussines al aplicar la búsqueda en perfiles de clientes, publicidad dirigida y fraudes. Lo vemos muy comúnmente en los buscadores inteligentes al hacer generación de jerarquías y búsquedas en las bases de conocimiento web así como en la gestión de tráfico de la red controlando la eficiencia y errores (Gutiérrez, 2001). 34

44 CAPÍTULO III. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS

45 3.1 Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos La principal razón por la que la minería de datos se ha hecho tan popular es debido a que ahora con los sistemas de bases de datos se puede representar, almacenar y recuperar los datos, y reforzar características como la integridad y seguridad (Molina y García, 2006). Ahora que se tiene los datos guardados en las bases de datos y quizás normalizados y estructurados hay varias formas de hacer Data Mining. Un enfoque es reforzar un SGBD con una herramienta de Data Mining. Se puede comprar un SGBD comercial y una herramienta de Data Mining comercial que tenga construidas las interfaces para el SGBD y se puede aplicar la herramienta a los datos administrados por el SGBD (Molina y García, 2006). El otro enfoque es una integración fuerte del SGBD con las herramientas de Data Mining. El núcleo de la base de datos tiene las herramientas de Data Mining incorporadas dentro de él. Se puede decir que este tipo de SGBD es un Mining SGBD. Según esto las diferentes funciones del SGBD como el procesamiento de consultas y la gestión del almacenamiento son influenciadas por las técnicas de Data Mining. En general, la agregación de una herramienta de Data Mining influirá sobre las diferentes funciones del SGBD como: el procesamiento de consultas, la gestión del almacenamiento, la gestión de transacciones, la gestión de meta data (diccionario de datos), la gestión de la seguridad y de la integridad. 36

46 El tipo de modelado de los datos usado puede tener algún impacto en Data Mining. Muchos de los datos que serán utilizados se guardan en bases de datos relacionales. Sin embargo, actualmente cada vez más se guardan los datos en bases de datos no relacionales tales como bases de datos multimedia. El diseño de la base de datos juega un papel fundamental en la aplicación de Data Mining. La administración de las bases de datos también resulta influida por la realización de Data Mining. 3.2 Data Mining y Funciones de Bases de Datos En el caso de integración fuerte entre el SGBD y Data Mining hay un enérgico impacto sobre las funciones del sistema de bases de datos. Estrechamente relacionado con la optimización de consultas está la eficiencia de las estructuras de almacenamiento, índices y métodos de acceso (Molina y García, 2006). En el caso de gestión de transacciones, la realización de Data Mining puede tener poco impacto, puesto que Data Mining se hace normalmente en los datos de apoyo a la toma de decisiones y no en los datos transaccionales. La seguridad, integridad, calidad de datos y tolerancia a fallos son influidas por Data Mining. En el caso de seguridad, Data Mining podría suponer una amenaza importante para la seguridad y privacidad. Data Mining tiene muchas aplicaciones en el descubrimiento de la intrusión y análisis de amenazas a las bases de datos. Se puede usar Data Mining para descubrir modelos de intrusiones y amenazas. Ésta es un área emergente y se llama información de confianza. 37

47 En el caso de calidad e integridad de los datos, se podrían aplicar las técnicas de Data Mining para descubrir datos malos y mejorar la calidad de los datos. Data Mining también puede usarse para analizar la seguridad de los datos para varios sistemas. Existen algunos retos que superar antes de que la minería de datos se convierta en una tecnología de masas. En los aspectos metodológicos sería útil la existencia de una API Standard de forma que los desarrolladores puedan integrar sin dificultad los resultados de diversos algoritmos de minería. La escalabilidad de la minería de datos hacia grandes volúmenes es y será una de las tendencias futuras ya que el volumen de la información tiende a crecer de manera exponencial (Riquelme, Ruiz y Gilbert. 2006). 3.3 Data Warehouse Un Data Warehouse es un tipo especial de base de datos. Data Warehouse se define como un almacén de datos orientado a un tema, integrado, no volátil y variante en el tiempo que soporta decisiones de administración. Los Data Warehouses surgieron por dos razones: primero, la necesidad de proporcionar una fuente única de datos limpia y consistente para propósitos de apoyo para la toma de decisiones; segundo, la necesidad de hacerlo sin afectar a los sistemas operacionales (Pérez, 2006). El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas y brindar una visión integrada de dicha información, 38

48 especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización (Mendez, Britos y García, 2003). Las cargas de trabajo del Data Warehouse están destinadas para el apoyo a la toma de decisiones y por lo tanto, tienen consultas intensivas; así mismo, los propios Data Warehouses suelen ser bastante grandes (a menudo mayores que 500 GB y con una tasa de crecimiento de hasta el 50% anual). Por consecuencia es difícil, perfeccionar el rendimiento. Contribuyen a este problema (Molina y García, 2006): a) Los errores de diseño de la base de datos. b) El uso ineficiente de los operadores relacionales. c) La debilidad en la implementación del modelo relacional de DBMS. d) La falta de escalabilidad del propio DBMS. e) Los errores de diseño arquitectónico que limitan la capacidad e imposibilitan la escalabilidad de la plataforma. La estructura adoptada por el almacén de datos se debe realizar de tal modo que satisfaga las necesidades de la empresa, dicha elección es clave en la efectividad del Data Warehouse. Existen tres formas básicas de estructura de almacén (Méndez et.al 2003): 1. Data Warehouse central. Consta de un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa. 2. Data Warehouse distribuido. Estructura de un solo nivel que particiona para distribuirlo a nivel departamental. 3. Data Warehouse de dos niveles. Combinación de las anteriores que soporta requerimientos de información tanto a nivel empresarial como departamental. 39

49 Los costos de implementar un Data Warehouse a grandes rasgos son el costo de costo de construcción y el costo de mantenimiento y operación una vez construido. El costo de construcción se refiere a los recursos humanos, el tiempo y la tecnología empleada. Dentro de los costos de operación y mantenimiento está el costo de evolución, de crecimiento, el producido por los cambios (Britos, 2003). El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos: impacto en la gente, impactos en los procesos empresariales y de toma de decisiones (Méndez et. al 2003). 40

50 ESTRUCTURA DE UN DATA WAREHOUSE Los Data Warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el Data Warehouse. Figura 3.1 Estructura de los datos en un Data Warehouse Fuente: Cesares,

51 En la figura, se muestran los diferentes componentes del Data Warehouse y son (Cesares, 2006): Detalle de datos actuales. Reflejan las ocurrencias más recientes, es voluminoso ya que se almacena al más bajo nivel de granularidad. Detalle de datos antiguos. Son aquellos que se almacenan sobre alguna forma de almacenamiento masivo, no es frecuente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Datos ligeramente resumidos. Son los que provienen de bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel casi siempre se almacena en disco. Datos completamente resumidos. Estos datos son compactos y fácilmente accesibles. A veces se encuentran en el ambiente de Data Warehouse y en otros, fuera del límite de la tecnología que ampara al Data Warehouse. Meta data. El componente final del Data Warehouse es el de la meta data. Es usada como un directorio para ayudar al analista a ubicar los contenidos del Data Warehouse, es una guía para la trazabilidad de los datos, cómo se transforma y del ambiente operacional así como también es una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los ligeramente resumidos y éstos, con los datos completamente resumidos. 42

52 APLICACIONES DE LOS DATA WAREHOUSE La explotación del Data Warehouse puede realizarse mediante diversas técnicas: Query & Reporting, On-line analytical processing (OLAP), Executive Information System (EIS), Decision Support Systems (DSS), Visualización de la información, Data Mining, etc. Se llaman sistemas OLAP a aquellos sistemas que deben soportar requerimientos complejos de análisis, analizar datos desde diferentes perspectivas y soportar anpalisis complejos contra un volumen ingente de datos. La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos mediante navegación del usuario por los mismos de modo asistido. Existen dos arquitecturas diferentes para los sistemas OLAP: OLAP multidimensional (MD-OLAP) y OLAP relacionales (ROLAP). La arquitectura MD-OLAP requiere unos cálculos intensivos de compilación. Lee de datos pre compilados, y tiene capacidades limitadas de crear agregaciones dinámicamente o de hallar ratios que no se hayan pre calculado y almacenado previamente. La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales (Molina y García. 2006). 43

53 DATA MARTS Se puede definir como un almacén de datos especializado, orientado a un tema, integrado, volátil y variante en el tiempo para apoyar un subconjunto específico de decisiones de administración (Pérez, 2006). Hay tres enfoques principales para la creación de un Data Mart (Molina y García. 2006): 1. Los datos pueden ser simplemente extraídos del Data Warehouse. 2. Un Data Mart puede ser creado de forma independiente. 3. Primero el Data Mart, se crean conforme van siendo necesarios. Un aspecto importante en el diseño de Data Marts es la granularidad de la base de datos. Donde la granularidad se refiere al nivel más bajo de agregación de datos que se mantendrá en la base de datos (Molina y García, 2006). 3.4 Data Warehouse y Data Mining Una vez que se ha definido que es Data Mining y Data Warehouse se pueden definir sus principales características, cuál es la relación que existe entre ellos, su importancia y en que se diferencian. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos orientados al almacenamiento, extracción y análisis de datos. Data Mining es la extracción de información oculta y predecible de grandes bases de datos. Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil a partir de la información contenida en las bases de datos. Las herramientas de Data Mining sirven para predecir tendencias y comportamientos, de esta manera permiten a las 44

54 organizaciones tomar decisiones proactivas para adaptarse rápidamente a los cambios del mercado obteniendo así ventajas (Mendez et al. 2003) Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas por consultas en un sistema tradicional. La potencialidad de estas herramientas reside en la capacidad de explorar las bases de datos en busca de patrones ocultos, encontrando información predecible que para un experto serían casi imposible debido al gran volumen de información. El origen de la información que utilizan los algoritmos de Data Mining, por lo general, son datos históricos que se encuentran almacenados en un Data Warehouse. El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia. (Britos, 2003). Data Warehouse almacena los datos de las bases de datos heterogéneas para que los usuarios consulten sólo un único aspecto. El Data Warehouse en general no intenta extraer la información de los datos almacenados. Data Warehouse estructura y organiza los datos para soportar funciones de administración, Data Mining intenta extraer la información útil, así como predecir las tendencias de los datos (Molina y García, 2006.) La mejor forma de aplicar las técnicas de Data Mining es que éstas se encuentren totalmente integradas con el Data Warehouse ya que esto permite que los cambios originados en las bases de datos operacionales sean replicados al Data Warehouse y puedan ser analizados y monitoreados mediante las técnicas de Data Mining (Mendez et. al 2003). Por qué Data Warehouse y Data Mining? La respuesta es por que se tiene mayor poder de procesamiento y sofisticación del sistema, demanda de mejora del 45

55 acceso a los datos, la necesidad de información para la toma de decisiones y la recopilación de información tiene alto coste (Royo, 2000). Esencialmente, un Data Warehouse organiza los datos eficazmente para realizar Data Mining sobre ellos. Entonces, es esencial la pregunta Es imprescindible tener un Data Warehouse para hacer Data Mining? La respuesta es no. Podría utilizarse un buen SGBD para gestionar una base de datos transaccionales. Por lo tanto, los datos no pueden ser actuales, y los resultados obtenidos desde Data Mining tampoco lo serán. Si se necesita información actualizada, Data Mining entonces se podría hacer Data Mining sobre una base de datos administrada por un SGBD que también tenga características de procesamiento de transacciones (Molina y García. 2006). 46

56 CAPÍTULO IV. TÉCNICAS DE ANÁLISIS DE DATOS EN WEKA

57 4.1 Introducción WEKA es el acrónimo de Waikato Enviroment for Knowledge Analysis, es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente provenientes del aprendizaje automático, sobre cualquier conjunto de datos de usuario. Para ello únicamente se requiere que los datos a analizar se almacenen con un cierto formato, conocido como ARFF (Atribute-Relation File Format). WEKA se distribuye como software de libre distribución desarrollado en Java. Está constituido por una serie de paquetes de código abierto con diferentes técnicas de pre procesado, clasificación agrupamiento, asociación, y visualización, así como facilidades para su aplicación y análisis de prestaciones cuando son aplicadas los datos de entrada seleccionados. Estos paquetes pueden ser integrados en cualquier proyecto de análisis de datos, e incluso pueden extenderse con contribuciones de los usuarios que desarrollen nuevos algoritmos. Con el objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas ( Análisis de Datos en WEKA, s.f). 4.2 Preparación de los Datos Los datos de entrada a la herramienta, sobre los que operarán las técnicas implementadas, deben estar codificados en un formato específico, denominado Atribute-Relation File Format (extensión arff ). La herramienta permite cargar los datos en tres soportes: fichero de texto, acceso a una base de datos y acceso a 48

58 través de internet sobre una dirección URL de un servidor web. En nuestro caso trabajaremos con ficheros de texto. Los datos deben estar dispuestos en el fichero de la forma siguiente: cada instancia en una fila, y con los atributos separados por comas. El formato de un fichero arff sigue la estructura siguiente (Molina y García. 2006): 1. Cabecera. Se define el nombre de la relación. Su formato es el <NOMBRE_RELACION> Donde < NOMBRE_RELACION> es de tipo String. Si dicho nombre contiene algún espacio será necesario expresarlo entrecomillado. 2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán nuestro archivo junto a su tipo. La sintaxis es la <nombre-del-atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. WEKA acepta diversos tipos, estos son: a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entrecomillada. La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidads de tiempo: dd Día MM Mes yyyy Año HH Horas mm Minutos ss Segundos d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente. 49

59 e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Muestra de Datos Se declaran los datos que componen la relación separando entre comas los atributos y con saltos de línea las 4,3.2 Aunque éste es el modo completo es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo. En el caso de que algún dato sea desconocido se expresará con un símbolo de interrogación (? ). Es posible añadir comentarios con el símbolo %, que indicará que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero (Morate, s.f.). 4.3 Ejecución de WEKA WEKA se distribuye como un fichero ejecutable comprimido de java (fichero jar ), que se invoca directamente sobre la máquina virtual de JVM. La herramienta se invoca desde el intérprete de Java, en el caso de usar entorno Windows, bastaría una ventana de comandos para invocar al intérprete Java. 50

60 Una vez invocada, aparece la ventana de entrada a la interfaz gráfica que nos ofrece cuatro opciones posibles de trabajo (Molina y García. 2006): Figura 4.1 Interfaz principal WEKA Fuente: WEKA 3.6.6, 2012 Explorer: es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. El explorador permite tareas de (García, s.f.): 1. Pre procesado de los datos y aplicación de filtros. 2. Clasificación 3. Clustering. 4. Búsqueda de Asociaciones 5. Selección de atributos 6. Visualización de datos 51

61 Experimenter: esta opción permite definir experimentos más cómprelos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados. KnowledgeFlow: esta opción es una novedad de WEKA que permite llevar a cabo las mismas acciones del Explorer, con una configuración totalmente gráfica, inspirada en herramientas de tipo data-flow para seleccionar componentes y conectarlos en un proyecto de minería de datos, desde que se cargan los datos, se aplican algoritmos de tratamiento y análisis, hasta el tipo de evaluación deseada ( Tutorial WEKA, s.f.) Simple CLI: es una abreviación de Simple Client, la interfaz Command-line Interfaz es simplemente una ventana de comandos java para ejecutar las clases de WEKA. La primera distribución de WEKA no disponía de interfaz gráfica y las clases de sus paquetes se podían ejecutar desde la línea de comandos pasando los argumentos adecuados ( Tutorial WEKA, s.f.) 4.4 Pre procesado de los datos El primer paso para comenzar a trabajar con el explorador es definir el origen de los datos. WEKA soporta diferentes fuentes que coinciden con los botones que están debajo de las pestañas superiores. Las diferentes posibilidades son las siguientes: Open File Al pulsar sobre este botón aparecerá una ventana de selección de fichero. Aunque el formato por defecto de WEKA es el arff eso no significa que sea el único que admita, para ello tiene interpretadores de otros formatos. Estos son (Morate, s.f.): 52

62 Figura 4.2 Interfaz OpenFile WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 CSV. Archivos separados por comas o tabuladores. La primera línea contiene los atributos. C4.5. Archivos codificados según el formato C4.5. Unos datos codificados según este formato estarían agrupados de tal manera que en un fichero.names estarían los nombres de los atributos y en el fichero.data estarían los datos en sí. WEKA cuando lee ficheros codificados según el formato C4.5 asume que ambos ficheros (el de definición de atributos y el de datos) están en el mismo directorio, por lo que sólo es necesario especificar uno de los dos. Instancias Serializadas. WEKA internamente almacena cada muestra de los datos como una instancia de la clase instance. Esta clase es serializable 53

63 por lo que estos objetos pueden ser volcados directamente sobre un fichero y también cargados a uno. Para cargar un archivo arff simplemente debemos buscar la ruta donde se encuentra el fichero y seleccionarlo. Si dicho fichero no tiene extensión arff, al abrirlo WEKA intentará interpretarlo, si no lo consigue aparecerá un mensaje de error. Pulsando en Use converter nos dará la opción de usar un interpretador de ficheros de los tipos ya expuestos. Open URL Con este botón se abrirá una ventana que nos permitirá introducir una dirección en la que se definirá dónde se encuentra el fichero. El tratamiento de los ficheros (restricciones de formato, etc.) es el mismo que en el apartado anterior. Figura 4.3 Interfaz OpenURL WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

64 Open DB Con este botón se nos da la posibilidad de obtener los datos de una base de datos. Para configurarla lo primero es definir la url por la cual es accesible la base de datos, la contraseña para acceder, el nombre de usuario, la consulta que queremos realizar y si queremos o no usar el modo de datos abreviado. Figura 4.4 Interfaz OpenDB WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

65 4.5 Clasificación, Agrupamiento, Asociación, Visualización de los Datos Clasificación En este modo podremos clasificar por varios métodos los datos ya cargados. Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto. Brinda facilidades para aplicar esquemas de clasificación, entrenar modelos y evaluar su precisión. Agrupamiento La tercera pestaña, llamada Cluster, accedemos a la sección dedicada a clustering. El funcionamiento es muy similar a clasificación: se elije un método de clustering, se selecciona las opciones pertinentes y empieza el funcionamiento. Una opción propia de este apartado es la posibilidad de ver de una froma gráfica la asignación de las muestras clusters. Esto se puede conseguir activando la opción Store cluster for evaluation, ejecutando el experimento y seguidamente, en la lista de resultados, pulsando el botón secundario sobre el experimento en cuestión y marcando la opción Visualize cluster assignments con esto obtendremos una ventana similar a las del modo explorador para mostrar gráficas en el que nos mostrará el clustering realizado. Asociación La cuarta pestaña muestra la ventana que nos permite aplicar métodos orientados a buscar asociaciones entre datos. Es importante reseñar que estos métodos sólo funcionan con datos nominales. Éste es sin duda el apartado más sencillo y más simple de manejar, carente de opciones, basta con seleccionar un método, configurarlo y verlo funcionar. 56

66 Visualización El modo visualización es un modo que muestra gráficamente la distribución de todos los atributos mostrando gráficas en dos dimensiones, en las que va representando en los ejes todos los posibles pares de combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones entre los atributos en una forma gráfica. Pulsando doble clic sobre cualquier gráfica se nos mostrará en una ventana nueva con la interfaz para gráficas ya explicado. Las opciones que ofrece este modo se activan mediante las barras deslizantes. 4.6 Selección de Atributos La selección de atributos nos permite acceder al área de atributos. El objetivo de estos métodos es identificar, mediante un conjunto de datos que poseen unos ciertos atributos, aquellos atributos que tienen más peso a la hora de determinar su los datos son de una clase u otra. Para empezar un método de selección de atributos lo primero es seleccionar el método de evaluación de atributos (Attribute evaluator). Este método será el encargado de evaluar cada uno de los casos a los que se le enfrente y dotar a casa atributo de un peso específico. El funcionamiento para seleccionar este método es el mismo que con los otros métodos en WEKA. El siguiente paso será elegir el método de búsqueda que será el encargado de generar el espacio de pruebas. El funcionamiento es el mismo al caso anterior. Una vez seleccionado el método de evaluación y el de generación del espacio de pruebas sólo falta elegir el método de prueba, el atributo que representa la clasificación conocida. Una vez acabado el experimento tenemos la opción 57

67 Visualize Reduced Data, que nos mostrará los datos habiendo tomado los mejores atributos en una ventana como la del modo Visualización. Ejemplo 1: Los datos que se procesaron en WEKA para efectos de prueba y ejemplificación fueron los 'Sueldo ' Casado Coche Hijos Sexo 10000,Sí,No,0,H 20000,No,Sí,1,M 15000,Sí,Sí,2,H 30000,Sí,Sí,1,M 10000,Sí,Sí,3,H 40000,No,Sí,0,M 25000,No,No,0,H 20000,No,Sí,0,M 20000,Sí,Sí,3,H 30000,Sí,Sí,2,H 50000,No,No,0,M 8000,Sí,Sí,2,H 20000,No,No,0,M 10000,No,Sí,0,H 8000,No,Sí,0,H Para un mejor entendimiento a continuación se explica en la tabla el nombre del atributo, el tipo y la descripción de cada uno. 58

68 Atributo Tipo Descripción Sueldo Numérico Cantidad monetaria que gana cada empleado. Casado Nominal Si el empleado es o no casado. Coche Nominal Si el empleado tiene o no automóvil. Hijos Numérico Cantidad de hijos de cada empleado. Sexo Nominal Si el empleado es H (hombre) o M (mujer). Tabla 4.1 Descripción de atributos de empleados.arff Fuente: Elaboración propia, Posteriormente, en la se encuentran los datos que se analizaron en WEKA. Cargar registros y filtrado de datos Figura 4.5 Carga de registros WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

69 1 2 3 Figura 4.6 Registro atributo sueldo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Al seleccionar el archivo arff y abrirlo se nos habilitan todas las opciones de la parte inferior. En la parte izquierda señalada con el número 1 muestra los diferentes atributos, dependiendo del atributo seleccionado en la parte derecha señalado con el número 2 se observa la cantidad de registros que tiene ese determinado valor y en la parte señalada con el número 3 se ve gráficamente ese mismo proceso. 60

70 Figura 4.7 Registro atributo casado en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura4.8 Registro atributo coche en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

71 Figura 4.9 Registro atributo hijos en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura 4.10 Registro atributo sexo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

72 Entonces se percibe que en la Fig. 4.6 en el atributo sueldo el mínimo es de 8000 y el máximo es de 50000, en la Fig. 4.7 están casados 7 empleados y 8 no, en la Fig. 4.8 vemos que 4 empleados no tienen coche y 11 sí poseen uno, en la Fig. 4.9 observamos que el mínimo de hijos es 0 y el máximo de hijos por empleado es 3 y por último en la Fig notamos que 9 son hombres y 6 son mujeres. WEKA permite seleccionar atributos para removerlos totalmente del proceso de minería de datos y nos permite también hacer un filtrado de estos atributos. En el botón Choose aparecen diferentes filtros que tiene WEKA en el cual hay unos que han sido supervisados y aceptados por WEKA y otros que aún están en proceso de revisión. Figura 4.11 Selección de filtro en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

73 Clasificador de árbol y ejecución Figura 4.12 Selección de clasificador en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En la segunda pestaña Classify primero se debe dar clic en el botón Choose y elegir un clasificador, en nuestro caso elegimos el J48 que es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos más utilizado. Se trata de un refinamiento y podrá conseguir una probabilidad de acierto ligeramente superior al del anterior clasificador. El parámetro más importante que debemos tener en cuenta es el factor de confianza, que influye en el tamaño y capacidad de predicción del árbol construido (García y Álvarez, s.f.). Primero se tienen que fijar en los datos que nos da la matriz de confusión para ver si se puede o no tomar en cuenta los resultados obtenidos, en este caso obtuvimos: 64

74 === Confusion Matrix === a b <-- classified as 8 1 a = H 0 6 b = M La cual dice que 8 son correctos y 0 incorrectos y en la b 6 son correctos y 1 incorrecto, con esto podemos ver que es confiable y se puede tomar en cuenta. Al visualizar el árbol obtenemos lo siguiente: Figura 4.13 Árbol derivado del clasificador J-48 en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Se observa que el número de hojas es 3 y el tamaño del árbol es de 5 el cual nos dice que si el sueldo es menor o igual a entonces son empleados hombres y si el sueldo es mayor a y tienen menor o igual a 1 hijo son empleadas mujeres, si tienen mayor a 1 hijo son empleados hombres. 65

75 Cluster Esta opción es muy parecida a la de clasificación, con la diferencia de que con cluster se parten los datos en diferentes subdivisiones para así arrojar un análisis de manera independiente, también se debe seleccionar un algoritmo para realizar el cluster, el más eficiente y preciso es el SimpleKMeans, debido a que un aspecto importante es que el clustering basado en probabilidades (Talavera, Gaudioso, 2004), es una aproximación trabajando con tipos de datos continuos y discretos. Por este motivo se decidió por este tipo de cluster. Figura 4.14 Interfaz Cluster SimpleKMeans en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 De donde se puede decir que hizo 3 iteraciones, en la primera lo hizo utilizando todos los datos de la base de datos, donde el sueldo que predomina es , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son hombres. En la 2da iteración utilizó 9 tuplas de las cuales el sueldo que predomina es de , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son mujeres. En la 66

76 última iteración sólo utilizaron 6 tuplas, el sueldo que predominó fue de 15500, a mayoría si están casados, sí tienen coche, tienen 2 hijos en promedio y la mayoría son hombres. Asociación La opción de asociación permite ver la información oculta, detrás de toda la información de los registros ingresados. Primero seleccionamos el algoritmo de asociación, en este caso será el A priori, el cual sólo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser discretizados previamente (García y Álvarez, s.f.). Figura 4.15 Interfaz Asociación A priori en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

77 Selección de atributos Selección atributos determina cuáles son los atributos más importantes para realizar la minería de datos y saber cuál es la variable más influyente dentro del proceso. De igual manera se selecciona cuál será el algoritmo evaluador. En este caso se eligió BestFirst. Figura 4.16 Interfaz Selección Atributos BestFirst en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En este caso la variable que nos recomienda es Casado, entonces seleccionamos Casado y por teoría nos debe decir que Sexo es la variable más influyente. 68

78 Figura 4.17 Interfaz Selección Atributos BestFirst II en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Donde dice que las variables finales son la 3 y la 5, o sea, Coche y Sexo, donde la más relevante es la 2, por lo tanto es Sexo. Visualización El modo visualización como su nombre lo dice, muestra gráficamente la distribución de todos los atributos mostrando gráficas de sus dimensiones. En las que va representando en los ejes todas las posibles combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones de una forma gráfica. 69

79 Figura 4.18 Interfaz Visualizar en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En conclusión se puede decir que WEKA tiene diversos algoritmos para el análisis de los datos, en este caso en el preprocess se realizó la discretización de nuestras variables: sueldo, casado, coche, hijos, sexo para que así los de tipo numérico fueran valores discretos y con esto poder proseguir con los siguientes algoritmos como son los árboles que dependiendo de la variable que nos interese nos muestra diferente información basada en los patrones. Ó como en el cluster en donde aplica el algoritmo a diferente número de registros y con esto obtiene diferente información para así ver que tanto cambian las tendencias en relación al número de registros que se analizan en el cluster. El algoritmo de asociación es en lo personal de los que más te brindan información útil ya que como vemos en la Fig WEKA nos despliega una serie de reglas de las cuales nosotros podemos ver que variable (y su cantidad del total de registros) se relaciona con que variable, tomando de está última también la cantidad del total de registros. Así como también en la parte final nos dice que tan confiable es la regla, en este caso todas fueron con conf; (1), es decir, con una 70

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Data Warehousing - Marco Conceptual

Data Warehousing - Marco Conceptual Data Warehousing - Marco Conceptual Carlos Espinoza C.* Introducción Los data warehouses se presentan como herramientas de alta tecnología que permiten a los usuarios de negocios entender las relaciones

Más detalles

DATA WAREHOUSE DATA WAREHOUSE

DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE Autor: Roberto Abajo Alonso Asignatura: Sistemas Inteligentes, 5º Curso Profesor: José Carlos González Dep. Ing. Sistemas Telemáticos, E.T.S.I. Telecomunicación Universidad

Más detalles

Fundamentos de Data Warehouse

Fundamentos de Data Warehouse Mendez, A., Mártire, A., Britos, P. Y Garcia-Martínez, R. Centro de Actualización Permanente en Ingeniería del Software Escuela de Postgrado Instituto Tecnológico de Buenos Aires Av. Eduardo Madero 399

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

BUSINESS INTELLIGENCE. www.sbi-technology.com

BUSINESS INTELLIGENCE. www.sbi-technology.com BUSINESS INTELLIGENCE www.sbi-technology.com SBI Technology SRL Maipú 1492 Piso 2 S2000CGT - Rosario Rep. Argentina Tel: (54 341) 530 0815 www.sbi-technology.com Copyright - SBI Technology SRL - Todos

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

INGENIERÍA EN SISTEMAS COMPUTACIONALES

INGENIERÍA EN SISTEMAS COMPUTACIONALES INGENIERÍA EN SISTEMAS COMPUTACIONALES UNIDAD 1 Catedrático: JOSÉ RAMÓN VALDEZ GUTIÉRREZ Alumnos: AVILA VALLES JAIRO EDUARDO 08040265 Victoria de Durango, Dgo.Mex Fecha: 14/09/2012 Tabla de contenido INTRODUCCIÓN

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Cómo ganar con una solución intuitiva de Business Intelligence para las medianas empresas

Cómo ganar con una solución intuitiva de Business Intelligence para las medianas empresas Resumen de producto SAP Soluciones SAP para pequeñas y medianas empresas SAP BusinessObjects Business Intelligence, Edge Edition Objetivos Cómo ganar con una solución intuitiva de Business Intelligence

Más detalles

Más allá del Business Intelligence

Más allá del Business Intelligence especial informática Más allá del Business Intelligence Ofrecer a todos los usuarios de una organización la información que necesitan para tomar decisiones estratégicas, que mejoren su efectividad operacional,

Más detalles

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones 1. La Información: Propiedades de la Información. Sistemas de Información. Bases de Datos. 2. Administración

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

ESTRATEGIAS DIRECTIVAS

ESTRATEGIAS DIRECTIVAS ESTRATEGIAS DIRECTIVAS CRM: Estrategia de Negocios que Crea Valor Ing. Víctor M. Ornelas P. y Lic. Víctor M. Ornelas O. La Alta Dirección de las empresas se encuentra en una búsqueda continua de crear

Más detalles

Construcción de sistemas de soporte a la toma de decisiones

Construcción de sistemas de soporte a la toma de decisiones INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE CÓMPUTO Construcción de sistemas de soporte a la toma de decisiones M. En C. Eduardo Bustos Farías 1 Desarrolla en Sistemas de Apoyo de Decisión Como

Más detalles

Evaluación de un sistema de información para mejorar la red de ventas Pág. 1 SUMARIO 1 A. TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN 3

Evaluación de un sistema de información para mejorar la red de ventas Pág. 1 SUMARIO 1 A. TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN 3 Evaluación de un sistema de información para mejorar la red de ventas Pág. 1 Sumario SUMARIO 1 A. TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN 3 A.1. Intranet...3 A.2. Extranet...4 A.3. Internet...4 A.4.

Más detalles

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa.

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa. asired EIS Integración de Sistemas Explotación de Datos y Business Intelligence. Descripción de producto. 2004 Así-Red Servicios Telemáticos, S.L.L. C/ Progreso, 36, 3º B 36202 Vigo Telf. 986 44 34 91

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos.

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Ing. Corso Cynthia, Ing. Luque Claudio, Ing. Ciceri Leonardo, Sr Donnet Matías Grupo

Más detalles

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE BUSINESS INTELLIGENCE PRESENTACIÓN Ramón Díaz Hernández Gerente (1.990) Nuestro Perfil Inversión permanente en formación y nuevas tecnologías. Experiencia en plataforma tecnológica IBM (Sistema Operativo

Más detalles

BASES DE DATOS. 1.1 Funciones de un DBMS

BASES DE DATOS. 1.1 Funciones de un DBMS BASES DE DATOS Un DBMS, son programas denominados Sistemas Gestores de Base de Datos, abreviado SGBD, en inglés Data Base Management System (DBMS) que permiten almacenar y posteriormente acceder a los

Más detalles

Fundamentos de la Inteligencia de Negocios

Fundamentos de la Inteligencia de Negocios Sistemas de Información para la Gestión UNIDAD 2: Infraestructura de Tecnología de la Información Unidad 2 Infraestructura de Tecnología de la Información Estructura de TI y tecnologías emergentes. Estructura

Más detalles

Información General sobre

Información General sobre Información General sobre MapInfo SOFTWARE Y DATOS PARA TRANSFORMAR LA UBICACIÓN GEOGRÁFICA EN UNA VENTAJA EMPRESARIAL LA IMPORTANCIA DE LAS SOLUCIONES BASADAS EN LA LOCALIZACIÓN A pesar de que cada vez

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes

Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes Titulación certificada por EUROINNOVA BUSINESS SCHOOL Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión

Más detalles

TECNOLÓGICAS EMPRESAS

TECNOLÓGICAS EMPRESAS SOLUCIONES TECNOLÓGICAS INTEGRALES PARA LAS EMPRESAS Por: Ivonne Rodríguez CONTENIDO 1. Problemas actuales en las empresas 2. Bussines Intelligence 3. Capa: Data Warehouse 4. Capa: BI en el campo empresarial

Más detalles

Presentación Corporativa Viainfo Ltda. 2014

Presentación Corporativa Viainfo Ltda. 2014 Presentación Corporativa Viainfo Ltda. 2014 V i a i n f o L i m i t a d a C e r r o S a n t a L u c i a 9 8 0 1 Q u i l i c u r a w w w. v i a i n f o. c l QUIENES SOMOS: SOMOS UN GRUPO DE PROFESIONALES

Más detalles

Control Informático de Gestión. Tema 5: Sistemas de Apoyo a la Toma de Decisiones

Control Informático de Gestión. Tema 5: Sistemas de Apoyo a la Toma de Decisiones Control Informático de Gestión Tema 5: Sistemas de Apoyo a la Toma de Decisiones Índice Revisión de los sistemas de información en la empresa La información y la toma de decisiones Sistemas transaccionales

Más detalles

UN PASEO POR BUSISNESS INTELLIGENCE

UN PASEO POR BUSISNESS INTELLIGENCE UN PASEO POR BUSISNESS INTELLIGENCE Ponentes: Agreda, Rafael Chinea, Linabel Agenda Sistemas de Información Transaccionales Qué es Business Intelligence? Usos y funcionalidades Business Intelligence Ejemplos

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

Unicenter Asset Management versión 4.0

Unicenter Asset Management versión 4.0 D A T A S H E E T Unicenter Asset Management versión 4.0 Unicenter Asset Management es una completa solución para gestionar los activos TI de su entorno empresarial de forma activa. Proporciona funciones

Más detalles

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición (cont.) Un Data Warehouse es una colección de

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

CAPÍTULO II MARCO TEÓRICO. Este capítulo trata de los sistemas de información, su concepto, integrantes, funciones,

CAPÍTULO II MARCO TEÓRICO. Este capítulo trata de los sistemas de información, su concepto, integrantes, funciones, CAPÍTULO II MARCO TEÓRICO INTRODUCCIÓN DEL MARCO TERICO Este capítulo trata de los sistemas de información, su concepto, integrantes, funciones, tiempo de vida o ciclo, algunos ejemplos de su empleo, los

Más detalles

Sesión No. 11. Contextualización: Nombre de la sesión: SAP PAQUETERÍA CONTABLE

Sesión No. 11. Contextualización: Nombre de la sesión: SAP PAQUETERÍA CONTABLE Paquetería contable 1 Sesión No. 11 Nombre de la sesión: SAP Contextualización: Hasta la sesión anterior conocimos sobre distintas paqueterías contables, principalmente para pequeñas y medianas empresas

Más detalles

Presentación. 29/06/2005 Monografía de Adscripción 1

Presentación. 29/06/2005 Monografía de Adscripción 1 Presentación Alumno: Uribe, Valeria Emilce Profesor Director: Mgter. David Luis La Red Martínez. Asignatura: Diseño y Administración de Datos. Corrientes 2005. 29/06/2005 Monografía de Adscripción 1 MONOGRAFIA

Más detalles

RECURSOS DE TI Aplicaciones - Bibliografía FUNDAMENTOS DE LA INTELIGENCIA DE NEGOCIOS

RECURSOS DE TI Aplicaciones - Bibliografía FUNDAMENTOS DE LA INTELIGENCIA DE NEGOCIOS Sistemas de Información para la Gestión UNIDAD 3: RECURSOS DE TECNOLOGÍA DE INFORMACIÓN Aplicaciones UNIDAD 2: RECURSOS DE TI Aplicaciones 1. Administración de bases de datos e información: Sistemas de

Más detalles

Sistemas de Ayuda a la Decision Qué es un Sistema de Ayuda a la Decisión?

Sistemas de Ayuda a la Decision Qué es un Sistema de Ayuda a la Decisión? Sistemas de Ayuda a la Decision Qué es un Sistema de Ayuda a la Decisión? Luis Daniel Hernández Molinero Departamento de Ingeniería de la Información y las Comunicaciones Facultad de Informática Universidad

Más detalles

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM Sergio Bauz Olvera 1, Washington Jama 2 1 Ingeniero en Estadística e Informática 2003 2 Director de Tesis de Grado, Ing. Washington Jama.

Más detalles

NUEVAS FORMAS DE NEGOCIO A PARTIR DE LA TECNOLOGÍA

NUEVAS FORMAS DE NEGOCIO A PARTIR DE LA TECNOLOGÍA Resumen NUEVAS FORMAS DE NEGOCIO A PARTIR DE LA TECNOLOGÍA Cátedra: Administración Gerencial Integrantes: Broggi, Nicolás Leg: 52897 Fiorelli, Alexis Leg: 52605 Gramajo, Flavia Leg: 52574 Roldán, Maximiliano

Más detalles

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas para la Gestión Unidad 3 Aplicaciones de Sistemas U.N.Sa. Facultad de Cs.Económicas SIG 2010 UNIDAD 3: APLICACIONES DE SISTEMAS Aplicaciones empresariales: Sistemas empresariales. Sistemas de administración

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA... 7 Tarea DSI 1.1: Definición de Niveles de Arquitectura... 9 Tarea DSI

Más detalles

E-data. Transformando datos en información con Data Warehousing

E-data. Transformando datos en información con Data Warehousing Federico Plancarte Sánchez E-data. Transformando datos en información con Data Warehousing Tema 2 El soporte a la Decisión 2-1 Evolución del soporte a la decisión Diversas categorías del análisis del DS

Más detalles

SISTEMAS DE PLANEACIÓN DE RECURSOS EMPRESARIALES 2008

SISTEMAS DE PLANEACIÓN DE RECURSOS EMPRESARIALES 2008 SISTEMAS DE PLANEACIÓN DE RECURSOS EMPRESARIALES 2008 Por qué es Necesario Implementar un ERP? Las tendencias actuales y futuras están obligando a las empresas a aumentar su competitividad, por lo que

Más detalles

LOS INDICADORES DE GESTIÓN

LOS INDICADORES DE GESTIÓN LOS INDICADORES DE GESTIÓN Autor: Carlos Mario Pérez Jaramillo Todas las actividades pueden medirse con parámetros que enfocados a la toma de decisiones son señales para monitorear la gestión, así se asegura

Más detalles

CARACTERÍSTICAS GENERALES. a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007

CARACTERÍSTICAS GENERALES. a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007 CARACTERÍSTICAS GENERALES a) Nombre del Proyecto Curricular Licenciatura de Ingeniería en Sistemas Inteligentes 2007 b) Título que se otorga Ingeniero/a en Sistemas Inteligentes c) Espacio donde se imparte

Más detalles

Tema 1. Conceptos básicos

Tema 1. Conceptos básicos Conceptos básicos Sistema de Gestión de Bases de Datos, SGBD (DBMS, Database Management System): software diseñado específicamente para el mantenimiento y la explotación de grandes conjuntos de datos 1

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

INGENERíA EN INFORMÁTICA. Sistema de Información. (Concepto, Importancia, Tipos de Si, Actividades)

INGENERíA EN INFORMÁTICA. Sistema de Información. (Concepto, Importancia, Tipos de Si, Actividades) INGENERíA EN INFORMÁTICA Sistema de Información (Concepto, Importancia, Tipos de Si, Actividades) NOMBRE: Oscar Apata T. CARRERA: Ingeniería en Informática ASIGNATURA: Tecnologías de la Información II

Más detalles

IBM Cognos Enterprise: Inteligencia de negocio y gestión del rendimiento potente y escalable

IBM Cognos Enterprise: Inteligencia de negocio y gestión del rendimiento potente y escalable : Inteligencia de negocio y gestión del rendimiento potente y escalable Puntos destacados Dota a los usuarios de su organización de las capacidades de business intelligence y de gestión del rendimiento

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 9. IMPLEMENTACION LA ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM).

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 9. IMPLEMENTACION LA ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM). PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 9. IMPLEMENTACION LA ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM). Objetivo: Al finalizar la unidad el alumno conocerá el proceso de desarrollo

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS Integrante: Profesor: Maximiliano Heise Luis Ríos Fecha de entrega: miércoles 18 de abril de 2012

Más detalles

ivector Integra Colombia

ivector Integra Colombia ivector Integra Colombia VECTORE Aliado integral para sus Sistemas de Información Quiénes somos? Vectore, Iniciativas de Negocio es una Consultora, cuya área de Sistemas de Información ha realizado implantaciones

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

UNIDAD 2. ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM)

UNIDAD 2. ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM) UNIDAD 2. ADMINISTRACIÓN DE LA RELACIÓN CON EL CLIENTE (CRM) Objetivos Al finalizar la unidad el alumno deberá conocer los antecedentes, el origen, los objetivos, los diferentes tipos y las estrategias

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

IBM Cognos Business Intelligence Scorecarding

IBM Cognos Business Intelligence Scorecarding IBM Cognos Business Intelligence Scorecarding Enlazando exitosamente la estrategia con las operaciones Visión General Las tarjetas de puntuación o scorecards ofrecen un enfoque comprobado para comunicar

Más detalles

Tecnologías de la Información en la Gestión Empresarial

Tecnologías de la Información en la Gestión Empresarial Tecnologías de la Información en la Gestión Empresarial 1 Sesión No.8 Nombre: Procesos de Negocio y Gestión en Business Intelligence Objetivo: Al término de la sesión, el alumno ilustrará un proceso de

Más detalles

El presente artículo se centra en el conocimiento

El presente artículo se centra en el conocimiento Herramientas para el Diseño de Sistemas de Gestión del Conocimiento Basadas en Inteligencia Empresarial Lilian Judith Sandoval.¹ Salvador Peña.² Resumen El presente artículo se centra en el conocimiento

Más detalles

Conceptos básicos de Big Data

Conceptos básicos de Big Data Conceptos básicos de Big Data Este documento no podrá ser reproducido, total o parcialmente, sin el permiso expreso de TRC Informática, S.L. Correos electrónicos, mensajes de textos, datos en formularios

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

Apolo Aplicaciones -1-

Apolo Aplicaciones -1- Apolo Aplicaciones Profitability Planning System / Sistema de Planificación de la Rentabilidad (PPS) El sistema de planificación de la rentabilidad de Apolo Aplicaciones es la mejor solución que permite

Más detalles

FUNDAMENTOS DE DATA WAREHOUSE

FUNDAMENTOS DE DATA WAREHOUSE FUNDAMENTOS DE DATA WAREHOUSE 1. Qué es Data Warehouse? El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado

Más detalles

Presentación Corporativa

Presentación Corporativa SETADIGITAL TECHNOLOGY GROUP LTDA Presentación Corporativa Servicios Especializados de Tecnología Avanzada www.setadigital.com Nosotros SetaDigital Technology Group Ltda (STG) es una compañía informática

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

Fundamentos de la Inteligencia de Negocios

Fundamentos de la Inteligencia de Negocios Universidad Nacional de Salta Facultad de Ciencias Económicas, Jurídicas y Sociales Sistemas de Información para la Gestión Fundamentos de la Inteligencia de Negocios Administración de Bases de Datos e

Más detalles

Somos una empresa con trayectoria en el mercado ERP con profundos conocimientos de la Actividad.

Somos una empresa con trayectoria en el mercado ERP con profundos conocimientos de la Actividad. Desde 1992, ofrecemos soluciones de negocios, flexibles considerando sus necesidades actuales y con la facilidad de adaptación necesaria para contemplar sus futuros requerimientos. Somos una empresa con

Más detalles

Anuncio de software ZP11-0010 de IBM Europe, Middle East and Africa con fecha 18 de enero de 2011

Anuncio de software ZP11-0010 de IBM Europe, Middle East and Africa con fecha 18 de enero de 2011 con fecha 18 de enero de 2011 IBM Tivoli Business Service Manager for the Enterprise V4.2.1 permite que los negocios y las operaciones vean y comprendan las complejas relaciones de impacto empresarial

Más detalles

Cómo puedo administrar mejor los activos de software y mitigar el riesgo de las auditorías de cumplimiento?

Cómo puedo administrar mejor los activos de software y mitigar el riesgo de las auditorías de cumplimiento? RESUMEN DE LA SOLUCIÓN CA SERVICE MANAGEMENT: ADMINISTRACIÓN DE ACTIVOS DE SOFTWARE Cómo puedo administrar mejor los activos de software y mitigar el riesgo de las auditorías de cumplimiento? CA Service

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Viaje de aprendizaje. Asociación Peruana de Empresas de Seguros

Viaje de aprendizaje. Asociación Peruana de Empresas de Seguros Viaje de aprendizaje Asociación Peruana de Empresas de Seguros Promoviendo una cultura de la información y estadística de los microseguros Contenidos Información básica del proyecto... 1 Sobre el proyecto...

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

CAPÍTULO 2 DATA WAREHOUSES

CAPÍTULO 2 DATA WAREHOUSES CAPÍTULO 2 DATA WAREHOUSES Un Data Warehouse (DW) es un gran repositorio lógico de datos que permite el acceso y la manipulación flexible de grandes volúmenes de información provenientes tanto de transacciones

Más detalles

La Inteligencia de Negocios es ya una realidad para las empresas medianas

La Inteligencia de Negocios es ya una realidad para las empresas medianas Reuniones/Entrevistas La Inteligencia de Negocios es ya una realidad para las empresas medianas La Inteligencia de Negocios es el siguiente paso que las empresas deben dar para mejorar su toma de decisiones

Más detalles

ADMINISTRACIÓN Y PROGRAMACIÓN EN SIS- TEMAS DE PLANIFICACIÓN DE RECURSOS EMPRESARIALES Y DE GESTIÓN DE RELA- CIONES CON CLIENTES

ADMINISTRACIÓN Y PROGRAMACIÓN EN SIS- TEMAS DE PLANIFICACIÓN DE RECURSOS EMPRESARIALES Y DE GESTIÓN DE RELA- CIONES CON CLIENTES IFCT0610: ADMINISTRACIÓN Y PROGRAMACIÓN EN SIS- TEMAS DE PLANIFICACIÓN DE RECURSOS EMPRESARIALES Y DE GESTIÓN DE RELA- CIONES CON CLIENTES CÓDIGO ESPECIALIDAD C.P. PRESEN- CIALES TELEFORMA- CIÓN TOTALES

Más detalles

CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS

CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS 1. RESEÑA HISTORICA Las exigencias competitivas del mercado hacen que las organizaciones busquen mecanismos

Más detalles