UNIVERSIDAD VERACRUZANA TESINA. Licenciado en Sistemas Computacionales Administrativos. Mariana Garrido Palomino. M.T.E. María Luisa Velasco Ramírez

Tamaño: px
Comenzar la demostración a partir de la página:

Download "UNIVERSIDAD VERACRUZANA TESINA. Licenciado en Sistemas Computacionales Administrativos. Mariana Garrido Palomino. M.T.E. María Luisa Velasco Ramírez"

Transcripción

1 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

2

3 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

4 AGRADECIMIENTOS Todo viaje llega a su fin, y ciertamente, este ha sido largo Me gustaría que estas líneas sirvieran para expresar mi más profundo sincero agradecimiento a todas aquellas personas que me han ayudado a lo largo de este viaje que ha sido la titulación en Sistemas Computacionales Administrativos. A Dios, por acompañarme todos los días. A mis compañeros de clases, porque sin ellos las penas y alegrías no habrían sido iguales. Porque nunca falto el compañero amable que sin pedir nada a cambio te brindaba ayuda. Gracias a mis amigos Isaid, Yasmin, Fernando, Erivan, amigos incondicionales que siempre estuvieron en los momentos que necesité, siempre haciendo equipo de trabajo, los mejores momentos de la licenciatura sin duda los viví junto a ustedes. Gracias a una de mis mejores amigas Ilse Denisse que desde el primer día en la facultad inició una amistad de esas que son para toda la vida, esas

5 noches sin dormir, momentos juntas como edecanes, en el servicio social, nuestros equipos (binas) eran lo mejor, te quiero mucho, eres una gran amiga, siempre podrás contar conmigo. A mis profesores, por ser siempre profesionales con su trabajo. Por sus horas en clases y revisión de exámenes. Por siempre invitarnos a seguir aprendiendo y nunca quedarnos con dudas. A mi directora de tesis, gracias maestra María Luisa Velasco Ramírez por ser mi guía en este tramo final. Por ayudarme en todo lo que ha podido. Por contestar siempre a mis correos con prontitud. Por inspirarme y dirigirme cuando no sabía por dónde ir. A mis sinodales el maestro Guillermo Leonel Sánchez Hernández y el maestro Luis Alejandro Gazca Hernández por sus asertivos comentarios al momento de hacer las revisiones de mi tesina y por siempre sentir el apoyo de su parte. A mis padres, por haber hecho con su esfuerzo desde el día en que nací, el que hoy me haya convertido en quién soy. Por todo el trabajo para brindarme siempre lo mejor. Por sus consejos y regaños. Por ser siempre los primeros en estar ahí cuando he necesitado hablar o cualquier tipo de ayuda. Por

6 recordarme cada día lo mucho que me quieren. Por instigarme día a día también a realizar mis obligaciones, entre ellas este proyecto. A mi hermano por que sé que en muchas ocasiones he sido ejemplo para él y al finalizar este proyecto espero que lo incite a terminar su Ingeniería, gracias por sus consejos y por siempre cuidar de mí. A mis tías: Lorena, Lidia, Lulú, Bety, a cada una de ustedes gracias por el apoyo que recibí de su parte en diferentes momentos de mi vida y que ahora me permiten llegar hasta aquí, por sus consejos, simplemente por el hecho de estar conmigo, muchas gracias. A mis abuelas, porque son un ejemplo de vida y un orgullo tenerlas y dedicarles el esfuerzo de estos 4 años de licenciatura, gracias por el simple hecho de estar en mi vida. Gracias a mi novio Marco porque en estos últimos meses has complementado otra parte de mi vida, siempre dándome ánimo e incitándome a que este trabajo concluyera de la mejor manera, eres un gran amigo, un gran novio en el que confío y al cual amo con todo mi corazón.

7 A mis amigos y familiares, gracias por siempre estar conmigo, por su confianza, su cariño, por siempre alentarme a ser mejor persona y nunca conformarme pero siempre siendo agradecida con lo que me da la vida. Con todo mi cariño, Mariana.

8 ÍNDICE Página RESUMEN... 1 INTRODUCCIÓN... 2 CAPÍTULO I Planteamiento del problema Enunciado del problema Propuesta de solución Justificación de la investigación Delimitaciones Limitaciones de la investigación Alcances de la investigación Objetivos de la investigación General Específicos Metodología CAPÍTULO II Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos Herramientas Comerciales de Análisis de Datos Arquitectura Software para Data Mining Áreas de Aplicación CAPÍTULO III Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos Data Mining y Funciones de Bases de Datos Data Warehouse Data Warehouse y Data Mining V

9 CAPÍTULO IV Introducción Preparación de los Datos Ejecución de WEKA Pre procesado de los datos Clasificación, Agrupamiento, Asociación, Visualización de los Datos Selección de Atributos CAPÍTULO V Instituto Nacional de Investigaciones de la Caña de Azúcar (INICA) Predicción Meteorológica Madrid, Barajas Tasación automática de vehículos, Universidad Politécnica de Velencia Nasa Yuwe, Universidad EAFIT (Escuela de Administración, Finanzas y Tecnología) Colombia Aprendizaje del Código Genético, Laboratorio de Investigación en Inteligencia Artificial (LIDIA), Argentina Predicción de palabras nicho, Universidad Carlos de Madrid CONCLUSIONES FUENTES DE INFORMACIÓN ÍNDICE DE FIGURAS ÍNDICE DE TABLAS VI

10 RESUMEN La presente investigación consiste en un estudio sobre la búsqueda de patrones en bases de datos y cual es su aplicación en las pequeñas y medianas empresas. De acuerdo con Calleja (2010) en la actualidad vivimos en un mundo saturado de información. Contamos con herramientas tecnológicas que ponen al alcance de nuestra mano vastas cantidades de información y datos. La expansión de internet y de los sistemas de información ha revolucionado considerablemente nuestra capacidad de obtener información de una manera fácil y rápida. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido al gran poder de procesamiento de las máquinas. No obstante, con el grado de crecimiento con el que la información es recolectada y almacenada electrónicamente hoy en día en prácticamente todos los campos de comportamiento/desarrollo humano, la extracción de información útil de todos los datos disponibles se está convirtiendo en un creciente reto científico y una necesidad económica masiva (Zaki and Ho 2000). Dentro de este enorme conjunto de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (Data Mining), que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingles) que se encarga 1

11 de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean. 2

12 INTRODUCCIÓN

13 En la actualidad, nos encontramos en un ambiente cada vez más competido, donde las empresas requieren de herramientas sólidas, que las asistan en la toma de decisiones que puedan traer beneficios y mejoras en sus procesos, un ejemplo es el Data Mining en donde se analiza y explora automáticamente en grandes bases de datos para extraer información útil y no evidente que permita la toma oportuna de decisiones así como generar ventajas competitivas. Las PYMES (Pequeñas y Medianas Empresas), son organizaciones que se caracterizan por tener un número reducido de empleados y una facturación media o baja. En el censo económico del INEGI (Instituto Nacional de Estadística Geografía e Informática) del 2004, se establece que existen en México alrededor de 2,726,568 PYMES, las cuales representan aproximadamente el 94% del total de las empresas mexicanas (Diario Oficial de la Federación, 2004). El crecimiento de las PYMES ocurre actualmente entre una fuerte competencia, contracción económica, clientela más inteligente, reducción de márgenes de utilidad y constantes innovaciones tecnológicas. [González, 2006]. De ahí la importancia de que las PYMES tomen decisiones acertadas en el momento que se requieran y antes que su competencia lo haga. Lo anterior supone un enorme reto para las organizaciones, en especial en el manejo de grandes volúmenes de información para conocer el entorno y predecir su evolución. De acuerdo a Guerena (s.f.) las pequeñas y medianas empresas de hoy en día están comenzando a voltear sus ojos hacia tecnologías como sistemas inteligentes, redes neuronales, sistemas expertos, minería de datos, entre otras. Y todas las han llevado a apostar en ellas el todo de su empresa: procesos administrativos, procesos operativos, administración de recursos humanos, etc. La minería de datos se ha transformado en la base de la toma de decisiones en las grandes empresas. Sin embargo, su utilización en las medianas y pequeñas 4

14 empresas ha sido mínima o inexistente. Entre las causas de este fenómeno están bajo en número de expertos en el área, los altos costos de asesoría y del software y, el mayor factor, la falta del conocimiento de los medianos y pequeños empresarios en la existencia de la minería de datos (Guerena, s.f.). La Inteligencia Empresarial (Business Intelligence) es, para el área de tecnologías de la información, una arquitectura y una colección de aplicaciones operacionales integradas, así como de bases de datos que dan soporte a la toma de decisiones y que proveen a las empresas un fácil acceso a sus propios datos (Moss, et.al., 2003). La inteligencia empresarial se compone de varias tecnologías, que son: Almacenes de datos (Datawarehouses) que son: colecciones de datos diseñados para dar soporte a la toma de decisiones, las cuales son integradas, no volátiles, variables en el tiempo y están orientadas a la información [Inmon, 2005]. OLAP (On-Line Analytical Processing) que permite consultas en línea a estructuras multidimensionales, las cuales proporcionan facilidades para manejar y transformar los datos [Hernández, 2005]. Minería de datos (Data Mining) que persigue el descubrimiento automático del conocimiento contenido en la información almacenada de modo ordenado en grandes bases de datos [Pérez, et.al., 2006]. Estas 3 tecnologías, permiten fortalecer las capacidades de las empresas para identificar oportunidades, detectar riesgos y competir más eficaz y eficientemente. Al día de hoy, existen diversas herramientas de software que implementan dichas técnicas, tanto comerciales (Oracle Data Mining, Clementine, SAS Enterprise Miner, Cognos, NadaMind) como de dominio público (Weka y Yale), pero en muchas ocasiones, las empresas no cuentan con los medios económicos para introducirlas en su empresa y por lo tanto no son capaces de utilizar al máximo su 5

15 información, pues no la tienen organizada adecuadamente y carecen de los métodos necesarios para procesarla y analizarla de la mejor manera. Por este motivo las pequeñas y medianas empresas no pueden palpar los beneficios que pueden obtener de estas aplicaciones como: mejor aprovechamiento de sus fuentes de información, mayor disponibilidad de recursos humanos y tecnológicos, fortalecimiento de las capacidades analíticas y de planificación, incremento de ventas, renovado el conocimiento y entendimiento de las necesidades y perfiles de sus clientes, lo que mejora las relaciones con los mismos. Es necesario un cambio de paradigma que nos permita llevar los beneficios que ofrecen las técnicas avanzadas de computación inteligente, como data mining (minería de datos), text mining (minerías de texto), ontologías de dominio específico y técnicas de optimización y aprendizaje dirigido a las Pymes. Debemos tomar en cuenta que muchas de las Pymes no cuentan con: personal especializado en TI; ni un presupuesto que les permita desembolsar grandes cifras de dinero, a cambio de un sistema integral de inteligencia de negocio, que puede obtener si realiza la contratación de una consultoría especializada; ni el pago del licenciamiento de una plataforma integral de inteligencia de negocio, en donde las interfaces se encuentren orientadas al usuario final; ni una robusta plataforma de hardware, que se requiere (en la mayoría de los casos) para implantar sistemas integrales. La incursión de tecnología analítica en la operación y seguimiento de los procesos de las Pymes, marca un gran punto de diferenciación en las empresas, para que estas puedan subsistir y crecer en un mercado tan competitivo. 6

16 CAPÍTULO I.

17 1.1 Planteamiento del problema Hoy en día las empresas se desarrollan en un ambiente de constantes cambios, es por eso la importancia de analizar los diferentes factores que se manifiestan alrededor de ellas. Es interesante conocer estos cambios debido a que las empresas deben estar conscientes de que sus competidores están constantemente buscando estrategias para generar ventaja competitiva. La relevancia aquí es que las empresas deben estar alertas y hacer un análisis estratégico de su entorno. En la actualidad, las PYMES en México atraviesan una problemática tanto interna como externa que ha provocado que bajen su productividad y que carezcan de una estabilidad en el mercado. La interna siendo la carencia de organización, retrasos tecnológicos, falta de capacitación del personal, y la escasez de recursos financieros: y la externa se refiere a la falta de acceso al financiamiento, tasas de intereses no competitivas, y una política fiscal no promotora del desarrollo. (Kauffman, 2001). Se ha notado que un punto clave es la administración interna, muchas veces no se le da la importancia necesaria y se ve reflejado en los resultados. Crear una ventaja competitiva no es cosa fácil de lograr y tomar en cuenta estos aspectos es vital para la sobrevivencia de la organización, es por esto que una opción de ventaja competitiva es el análisis de los datos que se manejan en la misma para así obtener información que nos sea de utilidad en la toma de decisiones. Los factores internos se refieren a los problemas provenientes por la gestión del conocimiento; en cuanto a lo específico es necesario analizar la industria o sector donde se encuentra la empresa, por ejemplo el grado de madurez o de 8

18 concentración. En cuanto a factores externos, éstos se reconocen como las variables macroeconómicas, aquellas que monitorean cómo está la situación económica, política, social y cultural del medio en que se está desenvolviendo la empresa. Según Kauffman (2001), PYMES carecen de sistemas de planeación, organización, administración y control eficiente, también de tecnologías propias de la gestión y desarrollo de sus actividades productivas. Se puede decir entonces que las PYMES no aprovechan la información que les proporcionan los datos almacenados debido al desconocimiento del uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.2 Enunciado del problema Las PYMES no aprovechan la información y el conocimiento que les proporcionan los datos almacenados debido al desconocimiento en el uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.3 Propuesta de solución Dar a conocer a las PYMES las diferentes herramientas que se pueden utilizar para el análisis de los patrones de bases de datos, en este caso en particular el de la herramienta WEKA, para que así dentro de la organización interna de las mismas se lleve a cabo el procesamiento de los datos y con esto se obtenga información que le sea de utilidad a la empresa y pueda tomar decisiones acertadas en los diferentes procesos que tiene la empresa. 9

19 Como parte del proyecto de investigación Desarrollo de una plataforma tecnológica que permita fortalecer la cadena de valor de las MPYMES de la región Xalapa a través del cual se pretende efectuar una aportación de tipo empírica, que sirva para fortalecer mediante la innovación la cadena de valor de una microempresa. Esta aportación consta de un impacto conceptual, por medio de la revisión sistemática de herramientas de análisis de datos y su aplicación en las MPYMES o PYMES en general. 1.4 Justificación de la investigación Es importante que en la actualidad las PYMES en México hagan un cambio en su enfoque administrativo, ya que se encuentran en un arduo ambiente de negocios donde sobreviven únicamente las mejores. La gran capacidad de almacenamiento de las bases de datos permite recolectar grandes cantidades de datos, cuyo análisis resulta útil para generar conocimiento en una organización, el conocimiento al que se da mayor importancia es aquél que procede del interior de la misma, proveniente de su equipo de personas, así como de sus clientes. Pero, cómo lograr que una PYME genere conocimiento?, por ello es importante el presente trabajo de investigación. Cómo proveerle a la PYME el conocimiento necesario para permitirle competir de manera directa dentro del nicho de mercado en el que se encuentra. Es por eso que se deben implementar nuevas estrategias en la organización para la generación de una ventaja competitiva. Las empresas en general necesitan adaptarse a los cambios del entorno y no confiarse, en el caso de las PYMES sería importante detectar sus fortalezas y debilidades para poder aprovechar mejor que sabe hacer y las oportunidades que el mercado le esta ofreciendo. 10

20 1.5 Delimitaciones Espacio: La investigación se limitará a la Facultad de Contaduría, Administración, Sistemas y Gestión. Tiempo: Un periodo de 10 meses (Febrero Noviembre 2012). Población: Empresas que se encuentran registradas en el SUME de la Facultad de Contaduría, Administración, Sistemas y Gestión. Muestra: Las pruebas a realizar se harán con los datos de las empresas del SUME. 1.6 Limitaciones de la investigación La investigación se limitará a las pruebas de los datos de las empresas que nos brinden apoyo para el procesamiento de la información con fines de muestra y ejemplo que se presentarán en este trabajo de experiencia recepcional. Ya que para la mayoría de las empresas el tipo de datos e información que manejan son de carácter confidencial, por lo que no les es posible darnos acceso a sus bases de datos. 1.7 Alcances de la investigación Se pretende estudiar el uso de herramientas para el análisis de datos, así como la aplicación el KDD para detectar las ventajas y oportunidades que proporciona disponer de información que genere conocimiento en las pequeñas y medianas empresas. 11

21 1.8 Objetivos de la investigación General Analizar la búsqueda de patrones en Bases de Datos y su aplicación en las pequeñas y medianas empresas con el apoyo del uso de la herramienta WEKA Específicos Describir el proceso de KDD. Describir Minería de Datos (Data Mining), tecnologías de apoyo y áreas de aplicación. Analizar la arquitectura software para Data Mining. Describir las tendencias de la Minería de Datos. Analizar Data Mining y funciones de base de datos. Describir el almacenamiento de datos. Describir las herramientas comerciales de análisis de datos. Describir las técnicas de análisis de datos en WEKA. 12

22 1.9 Metodología Búsqueda en bases de datos, libros, revistas especializadas, bases de datos, bibliotecas virtuales. Selección de la información más relevante para la realización de esta investigación. Comprensión de los temas que serán abordados, retroalimentando los conocimientos adquiridos dentro de la investigación. Descripción y estudio de la herramienta WEKA para el análisis de datos. Conclusiones que se irán dando a lo largo de la realización del documento. 13

23 CAPÍTULO II. MINERÍA DE DATOS Y KDD

24 2.1 Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos KDD Siempre se ha dicho que la información es poder. El ser humano siempre ha intentado conocer e investigar a fondo todo aquello que le rodeaba para sacar el máximo partido a sus posibilidades de progreso y éxito, y para ello, disponer de información exclusiva y relevante, siempre ha sido de ayuda. Han existido muchos nombres para la Minería de Datos o disciplinas similares. Entre ellos se encuentra el Data Fishing, Data Discovery, y, más recientemente, Knowledge Discovery in DataBases (KDD). A pesar de que para muchos. KDD y la minería de datos son sinónimos, KDD es un proceso que incluye a la minería de datos como uno de sus pasos (Calleja, 2010). KDD es el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos. KDD se ha definido como el proceso no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, y finalmente comprensibles Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones (Molina y García, 2006). Los datos recogen un conjunto de hechos de una base de datos y los patrones son expresiones que describen un subconjunto de los datos. KDD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el sistema y potencialmente útiles. 15

25 Se han de definir medidas cuantitativas para los patrones obtenidos. Se debe establecer alguna medida de interés que considere la validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simplemente, registrar la información conseguida y suministrársela a quien esté interesado. Figura 2.1 Esquema del proceso de KDD 1 Fuente: Molina y García, 2006 La utilidad de aplicaciones futuras en KDD es de largo alcance. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. El proceso de KDD se inicia con la identificación de los datos. Para ello hay que imaginar qué datos se necesitan, dónde se pueden encontrar y cómo conseguirlos. Una vez que se dispone de datos, se deben seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan, poniéndolos en un formato adecuado. Una vez que se tiene los datos adecuados se procese a la Minería de Datos, un proceso en el que se seleccionarán las herramientas y técnicas adecuadas para lograr los objetivos pretendidos y tras este proceso llega el análisis de resultados, con lo que se obtiene el conocimiento pretendido. 16

26 Figura 2.2 Metodología para el KDD. Fuente: Cantera, 2011 KDD es un proceso interactivo e iterativo, que involucra numerosos pasos e incluye muchas decisiones que deben ser tomadas por el usuario, y se estructura en las siguientes etapas: (Molina y García, 2006). 1. Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final. 2. Creación del conjunto de datos: consiste en la selección del conjunto de datos, o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento. 3. Limpieza y procesamiento de los datos: se compone de las operaciones, tales como: recolección de la información necesaria sobre la cuales va a realizar el procesos, decidir las estrategias sobre la forma en que se van a manejar los campos de los datos disponibles, estimación del tiempo de la información y sus posibles cambios. 4. Reducción de los datos y proyección: encontrar las características más significativas para representar los datos, dependiendo del objetivo del proceso. 5. Elegir la tarea de Minería de Datos: decidir el objetivo del proceso del KDD. 17

27 6. Elección del algoritmo de Minería de Datos: selección del método a ser utilizado para buscar patrones en los datos. 7. Minería de Datos: Consiste en la búsqueda de los patrones de interés en una determinada forma de representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o árboles, regresión, agrupación, etc. 8. Interpretación de los patrones encontrados. 9. Consolidación del conocimiento descubierto. Minería de Datos Se pueden encontrar decenas de definiciones a este concepto. La Minería de Datos consiste en la aplicación de técnicas en grandes volúmenes de datos para descubrir información útil, aplicable y no trivial. Esta definición, aplicada a un entorno más empresarial podría reconstruirse como el conjunto de métodos, que junto con un profundo conocimiento del negocio, están orientados a identificar, en grandes volúmenes de datos, relaciones y tendencias ocultas hasta el momento (Creus, 2006). Minería de Datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes bases de datos. Podemos decir, que la minería de datos es un proceso dentro de un proceso que lo engloba todo, el KDD. En este paso, la Minería de Datos se encarga de buscar relaciones y patrones entre toda la cantidad de información disponible. 18

28 Muchos de los métodos con los que cuenta la minería de datos se basan en diferentes técnicas de varios campos, como el aprendizaje de máquinas, reconocimiento de patrones y estadística, en este último encontramos los algoritmos de clasificación y regresión entre otros. Las principales características y objetivos de la Minería de Datos según Vallejos (2006) son: Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet El entorno de la minería de datos suele tener una arquitectura clienteservidor. Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultando por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rápidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. 19

29 Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos produce cinco tipos de información: Asociaciones, Secuencias, Clasificaciones, Agrupamientos, Pronósticos. Los mineros de datos usan varias herramientas y técnicas. Un esquema del proceso lo podemos encontrar en el propuesto por Fayyad (1996). Este esquema consta de cinco pasos para obtener el conocimiento que queremos extraer de los datos que tenemos. 1. Selección de datos. Extraemos de una base de datos o cualquier otra colección de datos, aquellos campos y atributos que concuerdan con el objetivo que buscamos. 2. Pre-procesado. En este paso, efectuaremos la limpieza de los datos, como por ejemplo, rellenar campos vacíos o atributos inútiles. 3. Transformación. En este paso, la información se convertirá a otros nuevos formatos si es necesario. 4. Minería. El núcleo del proceso, aquí se identifican los patrones y las relaciones entre los datos. 5. Interpretación y evaluación. El usuario debe interactuar con los resultados para tomar las acciones pertinentes en caso de ser válidos y útiles. 20

30 2.2 Herramientas Comerciales de Análisis de Datos Knowledge Seeker de Angoss Software International, Toronto, Canadá Herramienta interactiva de clasificación basada en los algoritmos de árboles de decisión que se ejecuta sobre plataformas Windows y UNIX. Tiene una representación flexible a través de árboles de decisión, a su vez provee características para permitir la identificación de la relevancia de los resultados en los negocios. El API permite usar los resultados del análisis en aplicaciones personalizadas (Molina y García, 2006). DataCruncher de DataMind, San Mateo, CA, USA Herramienta de Data Mining para clasificación y clustering basada en Tecnología de Agentes de Redes (ATN Agent Network Technology). La aplicación servidor se ejecuta sobre UNIX y Windows NT, la aplicación cliente en todas las plataformas Windows.Puede ser utilizada para la clasificación, predicción y clustering no supervisado. Los resultados son versátiles y permiten una minuciosa valoración de los modelos y de sus resultados (Molina y García, 2006). Intelligent Miner de IBM, Armonk, NY, USA Intelligent Miner es un conjunto de estadísticas, procesamiento y minería de datos, sus funciones se pueden utilizar para analizar grandes bases de datos. También proporciona herramientas de visualización para la visualización e interpretación de los resultados de la minería, el servidor software se ejecuta en AIX, AS/400, OS/390 y los sistemas Sun Solaris, AIX, OS/2 y los sistemas operativos de Windows. Algunas de sus características son la ampliación de las asociaciones, clasificación, clustering y predicción, funciones estadísticas, exportación e importación de bases mineras en todos los sistemas operativos, explotación del DB2 Parallel Edition y DB2 Universal Database Enterprise Extended Edition, Secuencias repetibles, 21

31 programas para todas las plataformas de servidores (Cabena, Hyun Hee Choi, Il Soo Kim, Shuichi Otsuka, Reinschmidt, Saarenvirta, 2009). Clamentine de Integral Solutions, Basingstoks, UK Herramienta con un entorno de trabajo que soporta todo el proceso de data mining. Ofrece árboles de decisión, redes de neuronas, generación de reglas de asociación y características de visualización. Se ejecuta cobre VMS, UNIX o Windows NT (Molina y García, 2006). Soporta diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC), posee distintas herramientas de minería de datos como: correlación, reglas de asociación, patrones secuenciales, agrupación/segmentación/conglomerado, clasificación, manipulación de datos, combinación, visualización, exportación de modelos en distintos lenguajes, exportación de datos integrada a otros programas, generación de informes y gestión de proyectos (Hernández, 2006). Alice de Isoft SA, Gif sur Yvette, Francia. Es una herramienta para Data Mining interactivo basada en tecnología de árboles de decisión. Se ejecuta sobre plataformas Windows. Su representación es interactiva y permite guiar el análisis, tiene la opción de generar gráficos para proveer una visión general de los datos en todas las etapas del proceso de Data Mining (Molina y García, 2006). Decision Series, de NeoVista Software Cupertino CA, USA. Es una herramienta para múltiples operaciones de Data Mining para el desarrollo de modelos basados en servidores. Proporciona algoritmos de redes de neuronas, árboles y reglas de inducción, clustering y análisis de asociaciones. Trabaja sobre sistemas UNIX mono o multi-procesadores de HP y Sun. Accede sólo a ficheros 22

32 planos, aunque posiblemente las últimas versiones ya trabajarán contra bases de datos relacionales (Molina y García, 2006). Pilot Discovery Server de Pilot Software, Cambridge ME, USA. Es una herramienta para la clasificación y predicción, basada en la tecnología de árboles de decisión CART. Trabaja sobre UNIX y Windows NT. Es importante exponer que es solamente indicada para clientes de los programas para soporte a la toma de decisiones de Pilot y solo cubre un específico sector del espectro del data mining y simplemente trabaja con datos almacenados en bases de datos relacionales. (Molina y García, 2006).. El producto de la minería de datos primero diseñado para ejecutivos de ventas y mercadotecnia (Gale Group, 1996). SAS Solution for Data Mining de SAS Institute, Cary, NC, USA. Según Molina (2006) SAS Solution es un gran número de herramientas de selección, exploración y análisis de datos para entornos cliente-servidor. Las opciones de Data Mining incluyen: aplicaciones de redes de neuronas, de árboles de decisión y herramientas de estadística además de aplicaciones portables para un gran número de entornos PC, UNIX y mainframes. SAS ofrece Data Warehouse y análisis de datos así como conjuntos extensibles de herramientas de manipulación y visualización de datos. SAS tiene una gran experiencia en herramientas estadísticas y de análisis de datos (Molina, García, 2006). MineSet, de Silicon Graphics, Mountain View, CA, USA Es un paquete de herramientas para Data Mining y visualización que proporciona algoritmos para la generación de reglas para clasificación y asociaciones. Trabaja sobre plataformas SGI bajo IRIS. Ofrece herramientas de visualización para los 23

33 datos y los modelos generados, soporta muchas operaciones de Data Mining, el gestor de herramientas actúa como un punto central de control y permite el acceso y transformación de los datos. La arquitectura de MineSet está compuesta por un cliente que es el administrador y el que permite las visualizaciones, el servidor que procesa los datos y los algoritmos de minería (modelos) y por último la fuente de datos que está conformada por las bases de datos (Ron Kovahavi, 1998). SPSS, de SPSS, Chicago IL, USA SPSS (Statistical Product and Service Solutions) es un conjunto de potentes herramientas de tratamiento de datos y análisis estadístico. Funciona mediante menús desplegables y cuadros de diálogo que facilitan el trabajo (Castañeda, Cabrera, Navarro, Wietse de Vries, 2010). Syllogic Data Mining Tool, de Syllogic, Houten, The Netherlands Es una herramienta con entorno de trabajo multi-estratégico con interface visual. Soporta análisis de árboles de decisión, clasificación k-vecino más próximo, y análisis de clustering y asociaciones por k-means. Trabaja cobre Windows NT y en estaciones UNIX con uno o varios procesadores. La interface visual permite a los usuarios construir proyectos de data mining enlazando objetos. La versión está optimizada para entornos masivamente paralelos y validos para grandes bases de datos. La empresa también ofrece un gran número de servicios de consultoría en las áreas de Data Warehousing y Data Mining (Molina et. 2006). Darwin de Thinking Machines, Bedford MA, USA. Darwin es una aplicación de minería de datos escalable que encuentra relaciones sutiles y con frecuencia difíciles de alcanzar entre los miles de millones de piezas 24

34 de datos y utiliza esta información nueva para ayudar a resolver una variedad de problemas de negocio, de los desafíos de marketing para gestión de la calidad con la eficiencia de fabricación. Es capaz de extraer el más grande de los almacenes de datos, debido a su diseño de procesamiento paralelo. Funciona en un amplia gama de arquitecturas de hardware, incluyendo estaciones de trabajo independientes y en red, SMPS, y racimos de cada uno. Accede a cualquier base de datos relacional a través de su extremo frontal compatible con ODBC, incluyendo Informix, Oracle y Sybase (Gale Group, 1996). 2.3 Arquitectura Software para Data Mining A continuación se muestra una pirámide que presenta la estructura de cómo las diferentes tecnologías encajan entre si. Figura 2.3 Pirámide de Data Mining Fuente: Molina y García, 2006 En el nivel más bajo se encuentra las comunicaciones y sistemas. A continuación aparece el soporte del middleware. Esto va seguido por la gestión de las bases de datos y el Data Warehouse. Después aparecen las diferentes tecnologías de Data Mining. Finalmente, se tienen los sistemas de apoyo a la toma de decisiones que usan los resultados de Data Mining y ayudan a que los usuarios tomen las 25

35 decisiones eficazmente. Estos usuarios pueden ser administradores, analistas, programadores, y cualquier otro usuario del sistema de información. Figura 2.4 Arquitectura de Data Mining Fuente: Molina y García, 2006 En la figura 2.4 se integran múltiples bases de datos a través de algún middleware y como consecuencia forman un Data Warehouse que se explora a continuación. Los componentes de Data Mining también se integran en este escenario para aplicar Data Mining a las bases de datos directamente. Figura 2.5 Visión en tres dimensiones de Data Mining Fuente: Molina y García,

36 La figura 2.5 muestra una vista tridimensional de las tecnologías de Data Mining. En el centro se encuentra la tecnología para la integración. Ésta es la tecnología del middleware tal como la gestión distribuida orientada al objeto y también la tecnología web para la integración y acceso a través de la web. Arquitectura Funcional A continuación se describen los componentes funcionales de Data Mining. Un SGBD con una arquitectura en la que la herramienta de Data Mining es uno de los módulos del SGBD será un SGBD Mining. Éste se puede organizar de varias maneras. Figura 2.6 Data Mining como parte del procesador de consultas Fuente: Molina y García, 2006 En la figura 2.6 se considera Data Mining como una extensión del procesador de consultas. Es decir, podrían extenderse los módulos del procesador de consultas como el optimizador de consultas para ocuparse de Data Mining. Arquitectura del Sistema Una arquitectura del sistema consiste en componentes como los middleware y otros componentes del sistema como el sistema de bases de datos y el sistema de data warehouse para data mining (Molina, García, 2006). 27

37 Los middleware podrían basarse en diferentes tecnologías. Un sistema middleware muy popular es el que se basa en una arquitectura cliente-servidor. La mayoría de los vendedores de sistemas de bases de datos han migrado a una arquitectura llamada cliente-servidor. Así múltiples clientes acceden a los diferentes servidores de las bases de datos a través de alguna red (Molina y García, 2006). 2.4 Áreas de Aplicación En este punto se presentan las principales áreas y sectores empresariales en las que se puede aplicar la minería de datos. Marketing De acuerdo con García (2006) actualmente con la generación de los puntos de venta sistematizados y conectados a un ordenador central, y el constante uso de las tarjetas de créditos se genera gran cantidad de información que hay que analizar. Con ello se puede emplear la minería de datos para: Identificar patrones de compra de los clientes: Determinar cómo compran, a partir de sus principales características, conocer el grado de interés sobre tipos de productos, si compran determinados productos en determinados momentos. Segmentación de clientes: Consiste en la agrupación de los clientes con características similares, por ejemplo demográficas. Es una importante herramienta en la estrategia de marketing que permite realizar ofertas acordes a diferentes tipos de comportamiento de los consumidores. 28

38 Predecir respuestas a campañas mailing: Las campañas mailing o también llamado marketing consiste en enviar a sus clientes un correo electrónico con las novedades de su empresa, información, promociones y descuentos. ( Qué es Mailing?, s.f.). Cabe mencionar que estas campañas son caras y pueden llegar a ser molestas para los clientes a los que no le interesan el tipo de producto promocionado por lo que es importante limitarlas a los individuos con una alta probabilidad de interesarse por el producto. Análisis de cestas de la compra: Consiste en descubrir relaciones entre productos, esto es, determinar qué productos suelen comprarse junto con otros, con el fin de distribuirlos adecuadamente. Compañías de Seguros En el sector de las compañías de seguros y la salud privada, se pueden emplear las técnicas de minería de datos, por ejemplo para (Rodríguez, 2011): Cálculo de primas Captación de nuevos clientes Fidelización de clientes Desarrollo de nuevas líneas de productos Creación de informes de riesgo geográfico Detección de siniestros fraudulentos Banca En el sector bancario la información que puede almacenarse es, además de las cuentas de los clientes, la relativa a la utilización de tarjetas de crédito, que puede 29

39 permitir conocer hábitos y patrones de comportamiento de los usuarios. Esta información puede aplicarse para: Detectar patrones de uso fraudulento de tarjetas de crédito. Identificar clientes leales: Es importante para las compañías de cualquier sector mantener a los clientes. Y es que hay estudios que demuestran que es cuatro veces más caros obtener nuevos clientes que mantener los existentes. Predecir clientes con probabilidad de cambiar su afiliación. Determinar gasto en tarjeta de crédito por grupos. Encontrar correlaciones entre indicadores financieros. Identificar reglas de mercado de valores a partir de históricos. Telecomunicaciones En el sector de las telecomunicaciones se puede almacenar información interesante sobre las llamadas realizadas, tal como el destino, la duración, la fecha en que se realiza la llamada, por ejemplo para (Molina, García, 2006): Detección de fraude telefónico: Mediante por ejemplo el agrupamiento o clustering se pueden detectar patrones en los datos que permitan detectar fraudes. 30

40 Medicina En el campo médico se almacena gran cantidad de información, sobre los pacientes, tal como enfermedades pasadas, tratamientos impuestos, pruebas realizadas, evolución, etc. Se pueden emplear técnicas de minería de datos con esta información, por ejemplo, para: Identificación de terapias médicas satisfactorias para diferentes enfermedades. Asociación de síntomas y clasificación diferencial de patologías. Estudio de factores de riesgo para la salud en distintas patologías. Segmentación de pacientes para una atención más inteligente según su grupo. Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos. Identificación de terapias médicas y tratamientos erróneos para determinadas enfermedades. Industria farmacéutica En el sector químico y farmacéutico se almacenan gran cantidad de información (Molina y García, 2006): 31

41 Bases de datos de dominio público conteniendo información sobre estructuras y propiedades de componentes químicos. Resultados de universidades y laboratorios publicadas en revistas técnicas. Datos generados en la realización de los experimentos. Datos propios de la empresa. Biología Con el almacenamiento de toda la información que está generado en bases de datos accesibles por Internet, el siguiente reto consiste en descubrir cómo funcionan nuestros genes y su influencia en la salud. Existen nuevas tecnologías que están posibilitando el desarrollo de una nueva biología que permite extraer conocimiento biomédicos a partir de bases de datos experimentales en el entorno de un ordenador básicamente mediante técnicas de minería de datos y visualización. Estos trabajos forman parte de los desarrollos de la Bioinformática (Molina y García, 2006). En la Empresa Una empresa en posesión de bases de datos de calidad y tamaño suficiente puede emplear Data Mining para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar (Garrido, Latorre, 2010): Predicción automática de comportamientos. Predicción automática de tendencias. 32

42 Descubrimiento automático de comportamientos desconocidos anteriormente. Finanzas Según Baltazar (2010) algunas de las aplicaciones del Data Mining en el campo financiero son algunas de las siguientes: Estudio de mercados, productos, de clientes, de préstamos. Estudio de medidas antifraude. Sistemas de comprobación de transacciones En la Gestión de Recursos Humanos Las NTIC (Nuevas Tecnologías de Información y Comunicaciones) indujeron la amplitud del objeto de las GRH (Gestión de Recursos Humanos) al objeto de la gestión del conocimiento. El tratamiento del capital intelectual es inmanente hoy a los e-rrhh o e-grh (expresión electrónica o digitalizada del sistema de GRH, así como los distintos procesos o actividades clave que lo integran). Y junto el tratamiento del mismo exige dominio de esas NTIC: redes, internet, intranet, e- mail, e-business, e-learning, etc. (Cuesta, Alcaide y López, 2009). Actualmente existe la necesidad de desarrollar y aplicar sistemas de e-rrhh en las empresas, en búsqueda de aumento de productividad del trabajo, donde es imprescindible la integración de amiento del capital humano y el concepciones y técnicas sobre el tratamiento del capital humano y el capital intelectual, con concepciones técnicas comprendidas en las NTIC, destacando su nexo con la actual GRH los Data Warehouses y Data Mining (Cuesta et al, 2009). 33

43 En Internet Con el e-bussines al aplicar la búsqueda en perfiles de clientes, publicidad dirigida y fraudes. Lo vemos muy comúnmente en los buscadores inteligentes al hacer generación de jerarquías y búsquedas en las bases de conocimiento web así como en la gestión de tráfico de la red controlando la eficiencia y errores (Gutiérrez, 2001). 34

44 CAPÍTULO III. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS

45 3.1 Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos La principal razón por la que la minería de datos se ha hecho tan popular es debido a que ahora con los sistemas de bases de datos se puede representar, almacenar y recuperar los datos, y reforzar características como la integridad y seguridad (Molina y García, 2006). Ahora que se tiene los datos guardados en las bases de datos y quizás normalizados y estructurados hay varias formas de hacer Data Mining. Un enfoque es reforzar un SGBD con una herramienta de Data Mining. Se puede comprar un SGBD comercial y una herramienta de Data Mining comercial que tenga construidas las interfaces para el SGBD y se puede aplicar la herramienta a los datos administrados por el SGBD (Molina y García, 2006). El otro enfoque es una integración fuerte del SGBD con las herramientas de Data Mining. El núcleo de la base de datos tiene las herramientas de Data Mining incorporadas dentro de él. Se puede decir que este tipo de SGBD es un Mining SGBD. Según esto las diferentes funciones del SGBD como el procesamiento de consultas y la gestión del almacenamiento son influenciadas por las técnicas de Data Mining. En general, la agregación de una herramienta de Data Mining influirá sobre las diferentes funciones del SGBD como: el procesamiento de consultas, la gestión del almacenamiento, la gestión de transacciones, la gestión de meta data (diccionario de datos), la gestión de la seguridad y de la integridad. 36

46 El tipo de modelado de los datos usado puede tener algún impacto en Data Mining. Muchos de los datos que serán utilizados se guardan en bases de datos relacionales. Sin embargo, actualmente cada vez más se guardan los datos en bases de datos no relacionales tales como bases de datos multimedia. El diseño de la base de datos juega un papel fundamental en la aplicación de Data Mining. La administración de las bases de datos también resulta influida por la realización de Data Mining. 3.2 Data Mining y Funciones de Bases de Datos En el caso de integración fuerte entre el SGBD y Data Mining hay un enérgico impacto sobre las funciones del sistema de bases de datos. Estrechamente relacionado con la optimización de consultas está la eficiencia de las estructuras de almacenamiento, índices y métodos de acceso (Molina y García, 2006). En el caso de gestión de transacciones, la realización de Data Mining puede tener poco impacto, puesto que Data Mining se hace normalmente en los datos de apoyo a la toma de decisiones y no en los datos transaccionales. La seguridad, integridad, calidad de datos y tolerancia a fallos son influidas por Data Mining. En el caso de seguridad, Data Mining podría suponer una amenaza importante para la seguridad y privacidad. Data Mining tiene muchas aplicaciones en el descubrimiento de la intrusión y análisis de amenazas a las bases de datos. Se puede usar Data Mining para descubrir modelos de intrusiones y amenazas. Ésta es un área emergente y se llama información de confianza. 37

47 En el caso de calidad e integridad de los datos, se podrían aplicar las técnicas de Data Mining para descubrir datos malos y mejorar la calidad de los datos. Data Mining también puede usarse para analizar la seguridad de los datos para varios sistemas. Existen algunos retos que superar antes de que la minería de datos se convierta en una tecnología de masas. En los aspectos metodológicos sería útil la existencia de una API Standard de forma que los desarrolladores puedan integrar sin dificultad los resultados de diversos algoritmos de minería. La escalabilidad de la minería de datos hacia grandes volúmenes es y será una de las tendencias futuras ya que el volumen de la información tiende a crecer de manera exponencial (Riquelme, Ruiz y Gilbert. 2006). 3.3 Data Warehouse Un Data Warehouse es un tipo especial de base de datos. Data Warehouse se define como un almacén de datos orientado a un tema, integrado, no volátil y variante en el tiempo que soporta decisiones de administración. Los Data Warehouses surgieron por dos razones: primero, la necesidad de proporcionar una fuente única de datos limpia y consistente para propósitos de apoyo para la toma de decisiones; segundo, la necesidad de hacerlo sin afectar a los sistemas operacionales (Pérez, 2006). El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas y brindar una visión integrada de dicha información, 38

48 especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización (Mendez, Britos y García, 2003). Las cargas de trabajo del Data Warehouse están destinadas para el apoyo a la toma de decisiones y por lo tanto, tienen consultas intensivas; así mismo, los propios Data Warehouses suelen ser bastante grandes (a menudo mayores que 500 GB y con una tasa de crecimiento de hasta el 50% anual). Por consecuencia es difícil, perfeccionar el rendimiento. Contribuyen a este problema (Molina y García, 2006): a) Los errores de diseño de la base de datos. b) El uso ineficiente de los operadores relacionales. c) La debilidad en la implementación del modelo relacional de DBMS. d) La falta de escalabilidad del propio DBMS. e) Los errores de diseño arquitectónico que limitan la capacidad e imposibilitan la escalabilidad de la plataforma. La estructura adoptada por el almacén de datos se debe realizar de tal modo que satisfaga las necesidades de la empresa, dicha elección es clave en la efectividad del Data Warehouse. Existen tres formas básicas de estructura de almacén (Méndez et.al 2003): 1. Data Warehouse central. Consta de un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa. 2. Data Warehouse distribuido. Estructura de un solo nivel que particiona para distribuirlo a nivel departamental. 3. Data Warehouse de dos niveles. Combinación de las anteriores que soporta requerimientos de información tanto a nivel empresarial como departamental. 39

49 Los costos de implementar un Data Warehouse a grandes rasgos son el costo de costo de construcción y el costo de mantenimiento y operación una vez construido. El costo de construcción se refiere a los recursos humanos, el tiempo y la tecnología empleada. Dentro de los costos de operación y mantenimiento está el costo de evolución, de crecimiento, el producido por los cambios (Britos, 2003). El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos: impacto en la gente, impactos en los procesos empresariales y de toma de decisiones (Méndez et. al 2003). 40

50 ESTRUCTURA DE UN DATA WAREHOUSE Los Data Warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el Data Warehouse. Figura 3.1 Estructura de los datos en un Data Warehouse Fuente: Cesares,

51 En la figura, se muestran los diferentes componentes del Data Warehouse y son (Cesares, 2006): Detalle de datos actuales. Reflejan las ocurrencias más recientes, es voluminoso ya que se almacena al más bajo nivel de granularidad. Detalle de datos antiguos. Son aquellos que se almacenan sobre alguna forma de almacenamiento masivo, no es frecuente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Datos ligeramente resumidos. Son los que provienen de bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel casi siempre se almacena en disco. Datos completamente resumidos. Estos datos son compactos y fácilmente accesibles. A veces se encuentran en el ambiente de Data Warehouse y en otros, fuera del límite de la tecnología que ampara al Data Warehouse. Meta data. El componente final del Data Warehouse es el de la meta data. Es usada como un directorio para ayudar al analista a ubicar los contenidos del Data Warehouse, es una guía para la trazabilidad de los datos, cómo se transforma y del ambiente operacional así como también es una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los ligeramente resumidos y éstos, con los datos completamente resumidos. 42

52 APLICACIONES DE LOS DATA WAREHOUSE La explotación del Data Warehouse puede realizarse mediante diversas técnicas: Query & Reporting, On-line analytical processing (OLAP), Executive Information System (EIS), Decision Support Systems (DSS), Visualización de la información, Data Mining, etc. Se llaman sistemas OLAP a aquellos sistemas que deben soportar requerimientos complejos de análisis, analizar datos desde diferentes perspectivas y soportar anpalisis complejos contra un volumen ingente de datos. La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos mediante navegación del usuario por los mismos de modo asistido. Existen dos arquitecturas diferentes para los sistemas OLAP: OLAP multidimensional (MD-OLAP) y OLAP relacionales (ROLAP). La arquitectura MD-OLAP requiere unos cálculos intensivos de compilación. Lee de datos pre compilados, y tiene capacidades limitadas de crear agregaciones dinámicamente o de hallar ratios que no se hayan pre calculado y almacenado previamente. La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales (Molina y García. 2006). 43

53 DATA MARTS Se puede definir como un almacén de datos especializado, orientado a un tema, integrado, volátil y variante en el tiempo para apoyar un subconjunto específico de decisiones de administración (Pérez, 2006). Hay tres enfoques principales para la creación de un Data Mart (Molina y García. 2006): 1. Los datos pueden ser simplemente extraídos del Data Warehouse. 2. Un Data Mart puede ser creado de forma independiente. 3. Primero el Data Mart, se crean conforme van siendo necesarios. Un aspecto importante en el diseño de Data Marts es la granularidad de la base de datos. Donde la granularidad se refiere al nivel más bajo de agregación de datos que se mantendrá en la base de datos (Molina y García, 2006). 3.4 Data Warehouse y Data Mining Una vez que se ha definido que es Data Mining y Data Warehouse se pueden definir sus principales características, cuál es la relación que existe entre ellos, su importancia y en que se diferencian. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos orientados al almacenamiento, extracción y análisis de datos. Data Mining es la extracción de información oculta y predecible de grandes bases de datos. Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil a partir de la información contenida en las bases de datos. Las herramientas de Data Mining sirven para predecir tendencias y comportamientos, de esta manera permiten a las 44

54 organizaciones tomar decisiones proactivas para adaptarse rápidamente a los cambios del mercado obteniendo así ventajas (Mendez et al. 2003) Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas por consultas en un sistema tradicional. La potencialidad de estas herramientas reside en la capacidad de explorar las bases de datos en busca de patrones ocultos, encontrando información predecible que para un experto serían casi imposible debido al gran volumen de información. El origen de la información que utilizan los algoritmos de Data Mining, por lo general, son datos históricos que se encuentran almacenados en un Data Warehouse. El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia. (Britos, 2003). Data Warehouse almacena los datos de las bases de datos heterogéneas para que los usuarios consulten sólo un único aspecto. El Data Warehouse en general no intenta extraer la información de los datos almacenados. Data Warehouse estructura y organiza los datos para soportar funciones de administración, Data Mining intenta extraer la información útil, así como predecir las tendencias de los datos (Molina y García, 2006.) La mejor forma de aplicar las técnicas de Data Mining es que éstas se encuentren totalmente integradas con el Data Warehouse ya que esto permite que los cambios originados en las bases de datos operacionales sean replicados al Data Warehouse y puedan ser analizados y monitoreados mediante las técnicas de Data Mining (Mendez et. al 2003). Por qué Data Warehouse y Data Mining? La respuesta es por que se tiene mayor poder de procesamiento y sofisticación del sistema, demanda de mejora del 45

55 acceso a los datos, la necesidad de información para la toma de decisiones y la recopilación de información tiene alto coste (Royo, 2000). Esencialmente, un Data Warehouse organiza los datos eficazmente para realizar Data Mining sobre ellos. Entonces, es esencial la pregunta Es imprescindible tener un Data Warehouse para hacer Data Mining? La respuesta es no. Podría utilizarse un buen SGBD para gestionar una base de datos transaccionales. Por lo tanto, los datos no pueden ser actuales, y los resultados obtenidos desde Data Mining tampoco lo serán. Si se necesita información actualizada, Data Mining entonces se podría hacer Data Mining sobre una base de datos administrada por un SGBD que también tenga características de procesamiento de transacciones (Molina y García. 2006). 46

56 CAPÍTULO IV. TÉCNICAS DE ANÁLISIS DE DATOS EN WEKA

57 4.1 Introducción WEKA es el acrónimo de Waikato Enviroment for Knowledge Analysis, es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente provenientes del aprendizaje automático, sobre cualquier conjunto de datos de usuario. Para ello únicamente se requiere que los datos a analizar se almacenen con un cierto formato, conocido como ARFF (Atribute-Relation File Format). WEKA se distribuye como software de libre distribución desarrollado en Java. Está constituido por una serie de paquetes de código abierto con diferentes técnicas de pre procesado, clasificación agrupamiento, asociación, y visualización, así como facilidades para su aplicación y análisis de prestaciones cuando son aplicadas los datos de entrada seleccionados. Estos paquetes pueden ser integrados en cualquier proyecto de análisis de datos, e incluso pueden extenderse con contribuciones de los usuarios que desarrollen nuevos algoritmos. Con el objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas ( Análisis de Datos en WEKA, s.f). 4.2 Preparación de los Datos Los datos de entrada a la herramienta, sobre los que operarán las técnicas implementadas, deben estar codificados en un formato específico, denominado Atribute-Relation File Format (extensión arff ). La herramienta permite cargar los datos en tres soportes: fichero de texto, acceso a una base de datos y acceso a 48

58 través de internet sobre una dirección URL de un servidor web. En nuestro caso trabajaremos con ficheros de texto. Los datos deben estar dispuestos en el fichero de la forma siguiente: cada instancia en una fila, y con los atributos separados por comas. El formato de un fichero arff sigue la estructura siguiente (Molina y García. 2006): 1. Cabecera. Se define el nombre de la relación. Su formato es el <NOMBRE_RELACION> Donde < NOMBRE_RELACION> es de tipo String. Si dicho nombre contiene algún espacio será necesario expresarlo entrecomillado. 2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán nuestro archivo junto a su tipo. La sintaxis es la <nombre-del-atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. WEKA acepta diversos tipos, estos son: a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entrecomillada. La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidads de tiempo: dd Día MM Mes yyyy Año HH Horas mm Minutos ss Segundos d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente. 49

59 e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Muestra de Datos Se declaran los datos que componen la relación separando entre comas los atributos y con saltos de línea las 4,3.2 Aunque éste es el modo completo es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo. En el caso de que algún dato sea desconocido se expresará con un símbolo de interrogación (? ). Es posible añadir comentarios con el símbolo %, que indicará que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero (Morate, s.f.). 4.3 Ejecución de WEKA WEKA se distribuye como un fichero ejecutable comprimido de java (fichero jar ), que se invoca directamente sobre la máquina virtual de JVM. La herramienta se invoca desde el intérprete de Java, en el caso de usar entorno Windows, bastaría una ventana de comandos para invocar al intérprete Java. 50

60 Una vez invocada, aparece la ventana de entrada a la interfaz gráfica que nos ofrece cuatro opciones posibles de trabajo (Molina y García. 2006): Figura 4.1 Interfaz principal WEKA Fuente: WEKA 3.6.6, 2012 Explorer: es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. El explorador permite tareas de (García, s.f.): 1. Pre procesado de los datos y aplicación de filtros. 2. Clasificación 3. Clustering. 4. Búsqueda de Asociaciones 5. Selección de atributos 6. Visualización de datos 51

61 Experimenter: esta opción permite definir experimentos más cómprelos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados. KnowledgeFlow: esta opción es una novedad de WEKA que permite llevar a cabo las mismas acciones del Explorer, con una configuración totalmente gráfica, inspirada en herramientas de tipo data-flow para seleccionar componentes y conectarlos en un proyecto de minería de datos, desde que se cargan los datos, se aplican algoritmos de tratamiento y análisis, hasta el tipo de evaluación deseada ( Tutorial WEKA, s.f.) Simple CLI: es una abreviación de Simple Client, la interfaz Command-line Interfaz es simplemente una ventana de comandos java para ejecutar las clases de WEKA. La primera distribución de WEKA no disponía de interfaz gráfica y las clases de sus paquetes se podían ejecutar desde la línea de comandos pasando los argumentos adecuados ( Tutorial WEKA, s.f.) 4.4 Pre procesado de los datos El primer paso para comenzar a trabajar con el explorador es definir el origen de los datos. WEKA soporta diferentes fuentes que coinciden con los botones que están debajo de las pestañas superiores. Las diferentes posibilidades son las siguientes: Open File Al pulsar sobre este botón aparecerá una ventana de selección de fichero. Aunque el formato por defecto de WEKA es el arff eso no significa que sea el único que admita, para ello tiene interpretadores de otros formatos. Estos son (Morate, s.f.): 52

62 Figura 4.2 Interfaz OpenFile WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 CSV. Archivos separados por comas o tabuladores. La primera línea contiene los atributos. C4.5. Archivos codificados según el formato C4.5. Unos datos codificados según este formato estarían agrupados de tal manera que en un fichero.names estarían los nombres de los atributos y en el fichero.data estarían los datos en sí. WEKA cuando lee ficheros codificados según el formato C4.5 asume que ambos ficheros (el de definición de atributos y el de datos) están en el mismo directorio, por lo que sólo es necesario especificar uno de los dos. Instancias Serializadas. WEKA internamente almacena cada muestra de los datos como una instancia de la clase instance. Esta clase es serializable 53

63 por lo que estos objetos pueden ser volcados directamente sobre un fichero y también cargados a uno. Para cargar un archivo arff simplemente debemos buscar la ruta donde se encuentra el fichero y seleccionarlo. Si dicho fichero no tiene extensión arff, al abrirlo WEKA intentará interpretarlo, si no lo consigue aparecerá un mensaje de error. Pulsando en Use converter nos dará la opción de usar un interpretador de ficheros de los tipos ya expuestos. Open URL Con este botón se abrirá una ventana que nos permitirá introducir una dirección en la que se definirá dónde se encuentra el fichero. El tratamiento de los ficheros (restricciones de formato, etc.) es el mismo que en el apartado anterior. Figura 4.3 Interfaz OpenURL WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

64 Open DB Con este botón se nos da la posibilidad de obtener los datos de una base de datos. Para configurarla lo primero es definir la url por la cual es accesible la base de datos, la contraseña para acceder, el nombre de usuario, la consulta que queremos realizar y si queremos o no usar el modo de datos abreviado. Figura 4.4 Interfaz OpenDB WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

65 4.5 Clasificación, Agrupamiento, Asociación, Visualización de los Datos Clasificación En este modo podremos clasificar por varios métodos los datos ya cargados. Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto. Brinda facilidades para aplicar esquemas de clasificación, entrenar modelos y evaluar su precisión. Agrupamiento La tercera pestaña, llamada Cluster, accedemos a la sección dedicada a clustering. El funcionamiento es muy similar a clasificación: se elije un método de clustering, se selecciona las opciones pertinentes y empieza el funcionamiento. Una opción propia de este apartado es la posibilidad de ver de una froma gráfica la asignación de las muestras clusters. Esto se puede conseguir activando la opción Store cluster for evaluation, ejecutando el experimento y seguidamente, en la lista de resultados, pulsando el botón secundario sobre el experimento en cuestión y marcando la opción Visualize cluster assignments con esto obtendremos una ventana similar a las del modo explorador para mostrar gráficas en el que nos mostrará el clustering realizado. Asociación La cuarta pestaña muestra la ventana que nos permite aplicar métodos orientados a buscar asociaciones entre datos. Es importante reseñar que estos métodos sólo funcionan con datos nominales. Éste es sin duda el apartado más sencillo y más simple de manejar, carente de opciones, basta con seleccionar un método, configurarlo y verlo funcionar. 56

66 Visualización El modo visualización es un modo que muestra gráficamente la distribución de todos los atributos mostrando gráficas en dos dimensiones, en las que va representando en los ejes todos los posibles pares de combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones entre los atributos en una forma gráfica. Pulsando doble clic sobre cualquier gráfica se nos mostrará en una ventana nueva con la interfaz para gráficas ya explicado. Las opciones que ofrece este modo se activan mediante las barras deslizantes. 4.6 Selección de Atributos La selección de atributos nos permite acceder al área de atributos. El objetivo de estos métodos es identificar, mediante un conjunto de datos que poseen unos ciertos atributos, aquellos atributos que tienen más peso a la hora de determinar su los datos son de una clase u otra. Para empezar un método de selección de atributos lo primero es seleccionar el método de evaluación de atributos (Attribute evaluator). Este método será el encargado de evaluar cada uno de los casos a los que se le enfrente y dotar a casa atributo de un peso específico. El funcionamiento para seleccionar este método es el mismo que con los otros métodos en WEKA. El siguiente paso será elegir el método de búsqueda que será el encargado de generar el espacio de pruebas. El funcionamiento es el mismo al caso anterior. Una vez seleccionado el método de evaluación y el de generación del espacio de pruebas sólo falta elegir el método de prueba, el atributo que representa la clasificación conocida. Una vez acabado el experimento tenemos la opción 57

67 Visualize Reduced Data, que nos mostrará los datos habiendo tomado los mejores atributos en una ventana como la del modo Visualización. Ejemplo 1: Los datos que se procesaron en WEKA para efectos de prueba y ejemplificación fueron los 'Sueldo ' Casado Coche Hijos Sexo 10000,Sí,No,0,H 20000,No,Sí,1,M 15000,Sí,Sí,2,H 30000,Sí,Sí,1,M 10000,Sí,Sí,3,H 40000,No,Sí,0,M 25000,No,No,0,H 20000,No,Sí,0,M 20000,Sí,Sí,3,H 30000,Sí,Sí,2,H 50000,No,No,0,M 8000,Sí,Sí,2,H 20000,No,No,0,M 10000,No,Sí,0,H 8000,No,Sí,0,H Para un mejor entendimiento a continuación se explica en la tabla el nombre del atributo, el tipo y la descripción de cada uno. 58

68 Atributo Tipo Descripción Sueldo Numérico Cantidad monetaria que gana cada empleado. Casado Nominal Si el empleado es o no casado. Coche Nominal Si el empleado tiene o no automóvil. Hijos Numérico Cantidad de hijos de cada empleado. Sexo Nominal Si el empleado es H (hombre) o M (mujer). Tabla 4.1 Descripción de atributos de empleados.arff Fuente: Elaboración propia, Posteriormente, en la se encuentran los datos que se analizaron en WEKA. Cargar registros y filtrado de datos Figura 4.5 Carga de registros WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

69 1 2 3 Figura 4.6 Registro atributo sueldo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Al seleccionar el archivo arff y abrirlo se nos habilitan todas las opciones de la parte inferior. En la parte izquierda señalada con el número 1 muestra los diferentes atributos, dependiendo del atributo seleccionado en la parte derecha señalado con el número 2 se observa la cantidad de registros que tiene ese determinado valor y en la parte señalada con el número 3 se ve gráficamente ese mismo proceso. 60

70 Figura 4.7 Registro atributo casado en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura4.8 Registro atributo coche en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

71 Figura 4.9 Registro atributo hijos en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura 4.10 Registro atributo sexo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

72 Entonces se percibe que en la Fig. 4.6 en el atributo sueldo el mínimo es de 8000 y el máximo es de 50000, en la Fig. 4.7 están casados 7 empleados y 8 no, en la Fig. 4.8 vemos que 4 empleados no tienen coche y 11 sí poseen uno, en la Fig. 4.9 observamos que el mínimo de hijos es 0 y el máximo de hijos por empleado es 3 y por último en la Fig notamos que 9 son hombres y 6 son mujeres. WEKA permite seleccionar atributos para removerlos totalmente del proceso de minería de datos y nos permite también hacer un filtrado de estos atributos. En el botón Choose aparecen diferentes filtros que tiene WEKA en el cual hay unos que han sido supervisados y aceptados por WEKA y otros que aún están en proceso de revisión. Figura 4.11 Selección de filtro en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

73 Clasificador de árbol y ejecución Figura 4.12 Selección de clasificador en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En la segunda pestaña Classify primero se debe dar clic en el botón Choose y elegir un clasificador, en nuestro caso elegimos el J48 que es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos más utilizado. Se trata de un refinamiento y podrá conseguir una probabilidad de acierto ligeramente superior al del anterior clasificador. El parámetro más importante que debemos tener en cuenta es el factor de confianza, que influye en el tamaño y capacidad de predicción del árbol construido (García y Álvarez, s.f.). Primero se tienen que fijar en los datos que nos da la matriz de confusión para ver si se puede o no tomar en cuenta los resultados obtenidos, en este caso obtuvimos: 64

74 === Confusion Matrix === a b <-- classified as 8 1 a = H 0 6 b = M La cual dice que 8 son correctos y 0 incorrectos y en la b 6 son correctos y 1 incorrecto, con esto podemos ver que es confiable y se puede tomar en cuenta. Al visualizar el árbol obtenemos lo siguiente: Figura 4.13 Árbol derivado del clasificador J-48 en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Se observa que el número de hojas es 3 y el tamaño del árbol es de 5 el cual nos dice que si el sueldo es menor o igual a entonces son empleados hombres y si el sueldo es mayor a y tienen menor o igual a 1 hijo son empleadas mujeres, si tienen mayor a 1 hijo son empleados hombres. 65

75 Cluster Esta opción es muy parecida a la de clasificación, con la diferencia de que con cluster se parten los datos en diferentes subdivisiones para así arrojar un análisis de manera independiente, también se debe seleccionar un algoritmo para realizar el cluster, el más eficiente y preciso es el SimpleKMeans, debido a que un aspecto importante es que el clustering basado en probabilidades (Talavera, Gaudioso, 2004), es una aproximación trabajando con tipos de datos continuos y discretos. Por este motivo se decidió por este tipo de cluster. Figura 4.14 Interfaz Cluster SimpleKMeans en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 De donde se puede decir que hizo 3 iteraciones, en la primera lo hizo utilizando todos los datos de la base de datos, donde el sueldo que predomina es , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son hombres. En la 2da iteración utilizó 9 tuplas de las cuales el sueldo que predomina es de , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son mujeres. En la 66

76 última iteración sólo utilizaron 6 tuplas, el sueldo que predominó fue de 15500, a mayoría si están casados, sí tienen coche, tienen 2 hijos en promedio y la mayoría son hombres. Asociación La opción de asociación permite ver la información oculta, detrás de toda la información de los registros ingresados. Primero seleccionamos el algoritmo de asociación, en este caso será el A priori, el cual sólo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser discretizados previamente (García y Álvarez, s.f.). Figura 4.15 Interfaz Asociación A priori en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

77 Selección de atributos Selección atributos determina cuáles son los atributos más importantes para realizar la minería de datos y saber cuál es la variable más influyente dentro del proceso. De igual manera se selecciona cuál será el algoritmo evaluador. En este caso se eligió BestFirst. Figura 4.16 Interfaz Selección Atributos BestFirst en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En este caso la variable que nos recomienda es Casado, entonces seleccionamos Casado y por teoría nos debe decir que Sexo es la variable más influyente. 68

78 Figura 4.17 Interfaz Selección Atributos BestFirst II en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Donde dice que las variables finales son la 3 y la 5, o sea, Coche y Sexo, donde la más relevante es la 2, por lo tanto es Sexo. Visualización El modo visualización como su nombre lo dice, muestra gráficamente la distribución de todos los atributos mostrando gráficas de sus dimensiones. En las que va representando en los ejes todas las posibles combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones de una forma gráfica. 69

79 Figura 4.18 Interfaz Visualizar en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En conclusión se puede decir que WEKA tiene diversos algoritmos para el análisis de los datos, en este caso en el preprocess se realizó la discretización de nuestras variables: sueldo, casado, coche, hijos, sexo para que así los de tipo numérico fueran valores discretos y con esto poder proseguir con los siguientes algoritmos como son los árboles que dependiendo de la variable que nos interese nos muestra diferente información basada en los patrones. Ó como en el cluster en donde aplica el algoritmo a diferente número de registros y con esto obtiene diferente información para así ver que tanto cambian las tendencias en relación al número de registros que se analizan en el cluster. El algoritmo de asociación es en lo personal de los que más te brindan información útil ya que como vemos en la Fig WEKA nos despliega una serie de reglas de las cuales nosotros podemos ver que variable (y su cantidad del total de registros) se relaciona con que variable, tomando de está última también la cantidad del total de registros. Así como también en la parte final nos dice que tan confiable es la regla, en este caso todas fueron con conf; (1), es decir, con una 70

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red. Comercio electrónico. (e-commerce) Las empresas que ya están utilizando la red para hacer comercio ven como están cambiando las relaciones de la empresa con sus clientes, sus empleados, sus colaboradores

Más detalles

INTRODUCCIÓN CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA.

INTRODUCCIÓN CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA. CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA. Hoy en día las empresas en México quieren ocupar un lugar privilegiado en un mercado cambiante y lleno de retos. Por esa razón necesitan crear nuevas estrategias

Más detalles

Destino Perú. En la búsqueda de nuevas oportunidades. Experiencias de Internacionalización

Destino Perú. En la búsqueda de nuevas oportunidades. Experiencias de Internacionalización Destino Perú En la búsqueda de nuevas oportunidades Experiencias de Internacionalización Presentación: Eduardo Sánchez Director Ejecutivo Presentación: 29-02-12 1 Ingeniería de Software ORGANIZACIÓN ORIENTADA

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS CORPORACIÓN UNIVERSITARIA IBEROAMERICANA TECNOLOGIA EN LOGISTICA INFORMATICA BOGOTA D.C. 2013 INTRODUCCIÓN

Más detalles

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para Empresas en Crecimiento Portfolio SAP BusinessObjects Soluciones SAP para Empresas en Crecimiento Resumen Ejecutivo Inteligencia

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

CAPITAL RIESGO: EL PLAN DE NEGOCIOS

CAPITAL RIESGO: EL PLAN DE NEGOCIOS CAPITAL RIESGO: EL PLAN DE NEGOCIOS Importancia del Plan de Negocios Por: Juan Luis Blanco Modelo Blanco, Ureña & Asociados El plan de negocios o business plan es el conjunto de ideas en las que se fundamenta

Más detalles

MINING SOLUTIONS LIMITADA

MINING SOLUTIONS LIMITADA MINING SOLUTIONS LIMITADA Contenido... 1 Resumen Ejecutivo... 3... 4 Nuestros Servicios... 5 Administración de proyectos... 6 Operación y mantenimiento sobre los Sistema de Manejo de la Información Geológica

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

Sistemas de información

Sistemas de información Sistemas de información Es un conjunto integrado de componentes que almacenan, recolectan y procesan datos, para la entrega de la información, el conocimiento y los productos digitales. Las empresas comerciales

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Presentación Corporativa

Presentación Corporativa SETADIGITAL TECHNOLOGY GROUP LTDA Presentación Corporativa Servicios Especializados de Tecnología Avanzada www.setadigital.com Nosotros SetaDigital Technology Group Ltda (STG) es una compañía informática

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

INTELIGENCIA DE NEGOCIOS

INTELIGENCIA DE NEGOCIOS INTELIGENCIA DE NEGOCIOS A P R O X I M A C I Ó N A U N A E X P E R I E N C I A D E A P L I C A C I Ó N E N I N S T I T U C I O N E S D E L A R E G I Ó N Ing. Patricia Uceda Martos Agenda Introducción Definición

Más detalles

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un INSTRODUCCION Toda organización puede mejorar su manera de trabajar, lo cual significa un incremento de sus clientes y gestionar el riesgo de la mejor manera posible, reduciendo costes y mejorando la calidad

Más detalles

Cómo seleccionar el mejor ERP para su empresa Sumario ejecutivo

Cómo seleccionar el mejor ERP para su empresa Sumario ejecutivo Índice completo de la Guía Índice completo de la Guía 1. Quién debe leer esta guía? 3 2. Qué es un ERP? 7 2.2. Qué es un ERP?... 9 2.3. Cuál es el origen del ERP?... 10 2.4. ERP a medida o paquetizado?...

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

BUSINESS INTELLIGENCE A TRAVÉS

BUSINESS INTELLIGENCE A TRAVÉS 07 de Agosto de 2012 BUSINESS INTELLIGENCE A TRAVÉS DEL COACHING Impartido Por: Andrés Pluma Velázquez No es posible gestionar lo que no se puede medir William Hewlet (HP Company). En este sentido, hay

Más detalles

2.1 Clasificación de los sistemas de Producción.

2.1 Clasificación de los sistemas de Producción. ADMINISTRACION DE OPERACIONES Sesión 2: La Administración de operaciones II Objetivo específico 1: El alumno conocerá la clasificación de los sistemas de producción, los sistemas avanzados de manufactura

Más detalles

SISTEMAS Y MANUALES DE LA CALIDAD

SISTEMAS Y MANUALES DE LA CALIDAD SISTEMAS Y MANUALES DE LA CALIDAD NORMATIVAS SOBRE SISTEMAS DE CALIDAD Introducción La experiencia de algunos sectores industriales que por las características particulares de sus productos tenían necesidad

Más detalles

FUENTES SECUNDARIAS INTERNAS

FUENTES SECUNDARIAS INTERNAS FUENTES SECUNDARIAS INTERNAS Las fuentes secundarias son informaciones que se encuentran ya recogidas en la empresa, aunque no necesariamente con la forma y finalidad que necesita un departamento de marketing.

Más detalles

Diseño dinámico de arquitecturas de información

Diseño dinámico de arquitecturas de información Diseño dinámico de arquitecturas de información CARACTERISTICAS DEL SISTEMA Las organizaciones modernas basan su operación en la gestión del conocimiento, es decir, en el manejo de información que se presenta

Más detalles

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa Código del programa: PEMDE Programa Experto en MANEJO DE DATOS CON EXCEL Modalidad: Virtual Descripción del programa 1 Presentación del programa Justificación Microsoft Excel es la herramienta de manejo

Más detalles

Bechtle Solutions Servicios Profesionales

Bechtle Solutions Servicios Profesionales Soluciones Tecnología Bechtle Solutions Servicios Profesionales Fin del servicio de soporte técnico de Windows Server 2003 No hacer nada puede ser un riesgo BECHTLE Su especialista en informática Ahora

Más detalles

CASOS DE ÉXITO DIST-PLEX MODUART. PARTNER Team Solutions SAS Es una compañía con más de 10 años de experiencia en la implementación de soluciones de

CASOS DE ÉXITO DIST-PLEX MODUART. PARTNER Team Solutions SAS Es una compañía con más de 10 años de experiencia en la implementación de soluciones de PARTNER Team Solutions SAS Es una compañía con más de 10 años de experiencia en la implementación de soluciones de Administración de Relaciones con Clientes (CRM). Reconocida como Microsoft Gold Certified

Más detalles

LA REVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN (S.I.) Introducción PORQUÉ SISTEMAS DE INFORMACIÓN? El Competitivo Entorno de los Negocios

LA REVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN (S.I.) Introducción PORQUÉ SISTEMAS DE INFORMACIÓN? El Competitivo Entorno de los Negocios LA REVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN (S.I.) Introducción Tanto empresas grandes como pequeñas usan Sistemas de Información y Redes para realizar una mayor proporción de sus actividades electrónicamente,

Más detalles

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas 1 INTRODUCCIÓN. Una visión global del proceso de creación de empresas Cuando se analiza desde una perspectiva integral el proceso de

Más detalles

Management del nuevo siglo. James W. Cortada

Management del nuevo siglo. James W. Cortada Management del nuevo siglo James W. Cortada Objetivos de la exposición Parte 1 (cap. 2) Después de estudiar la 1ª parte se debe estar en posibilidad de: 1. Saber qué son las olas de aprendizaje. 2. Cómo

Más detalles

Software de Simulación aplicado a entornos de e-learning

Software de Simulación aplicado a entornos de e-learning Software de Simulación aplicado a entornos de e-learning 2009 Laboratorio de Investigación de Software Universidad Tecnológica Nacional Facultad Regional Córdoba Titulo del Proyecto Software de Simulación

Más detalles

DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES

DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES Técnico Especialista en Instalación y Configuración de CRM: Gestión de Relación con Clientes TITULACIÓN DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES Duración:

Más detalles

Clasificación de los Sistemas de Información

Clasificación de los Sistemas de Información Universidad Nacional Autónoma de México Facultad de Contaduría y Administración Clasificación de los Sistemas de Información Autor: L.I. Alejandro Muñoz Estrada Clasificación de los Sistemas de Información

Más detalles

Servicio de Email Marketing

Servicio de Email Marketing Servicio de Email Marketing Cuando hablamos de Email marketing, es un envío Masivo de correos con permisos realizado por herramientas tecnológicas de correo electrónico, mediante el cual su anuncio estará

Más detalles

Guía de los cursos. Equipo docente:

Guía de los cursos. Equipo docente: Guía de los cursos Equipo docente: Dra. Bertha Patricia Legorreta Cortés Dr. Eduardo Habacúc López Acevedo Introducción Las organizaciones internacionales, las administraciones públicas y privadas así

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Jose Mª Cervera Casanovas

Jose Mª Cervera Casanovas Página 1 de 10 Jose Mª Cervera Casanovas Sesión: PLANIFICACIÓN ESTRATÉGICA 4.1).- LA DIRECCIÓN ESTRATÉGICA 4.1.a).- LOS TRES INTERROGANTES DE LA PLANIFICACIÓN 4.1.b).- LOS TRES ELEMENTOS DE LA PLANIFICACIÓN

Más detalles

e-commerce vs. e-business

e-commerce vs. e-business Formas de interactuar en los negocios e-commerce vs. e-business Día a día debemos sumar nuevas palabras a nuestro extenso vocabulario, y e-commerce y e-business no son la excepción. En esta nota explicamos

Más detalles

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz Quiénes somos SDManalytics es una compañía especializada en el análisis de datos y en el desarrollo de soluciones para

Más detalles

CAPÍTULO 1 PLANTEAMIENTO DEL PROBLEMA

CAPÍTULO 1 PLANTEAMIENTO DEL PROBLEMA CAPÍTULO 1 PLANTEAMIENTO DEL PROBLEMA 1. 1 Planteamiento del Problema Para las empresas estrategia es uno de los temas gerenciales de mayor importancia en el competitivo entorno actual ya que ayuda a definir

Más detalles

Educación y capacitación virtual, algo más que una moda

Educación y capacitación virtual, algo más que una moda Éxito Empresarial Publicación No.12 marzo 2004 Educación y capacitación virtual, algo más que una moda I Introducción Últimamente se ha escuchado la posibilidad de realizar nuestra educación formal y capacitación

Más detalles

Agencia de Marketing Online

Agencia de Marketing Online Agencia de Marketing Online Plan de Negocio Fecha: 2011-09-23 Índice El negocio... 4 Descripción del negocio Historia de la empresa Socios Productos y servicios... 5 Actuales A futuro Mercado... 6 Descripción

Más detalles

Presentación de Pyramid Data Warehouse

Presentación de Pyramid Data Warehouse Presentación de Pyramid Data Warehouse Pyramid Data Warehouse tiene hoy una larga historia, desde 1994 tiempo en el que su primera versión fue liberada, hasta la actual versión 8.00. El incontable tiempo

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

Normas chilenas de la serie ISO 9000

Normas chilenas de la serie ISO 9000 Normas chilenas de la serie ISO 9000 Hernán Pavez G. Director Ejecutivo del Instituto Nacional de Normalización, INN, Matías Cousiño N 64, 6 Piso, Santiago, Chile. RESUMEN: en nuestro país las empresas

Más detalles

CAPÍTULO 1 INTRODUCCIÓN

CAPÍTULO 1 INTRODUCCIÓN CAPÍTULO 1 INTRODUCCIÓN 1.0 INTRODUCCIÓN El desarrollo económico en la actualidad, ha propiciado una gran expansión de los mercados que comienzan a verse saturados de bienes, y el problema fundamental

Más detalles

CAPITULO I 1.1. EL TEMA: MODELO DE PLANIFICACIÓN FINANCIERA PARA INCREMENTAR LA RENTABILIDAD EN EL LARGO PLAZO EN LA

CAPITULO I 1.1. EL TEMA: MODELO DE PLANIFICACIÓN FINANCIERA PARA INCREMENTAR LA RENTABILIDAD EN EL LARGO PLAZO EN LA CAPITULO I 1.1. EL TEMA: MODELO DE PLANIFICACIÓN FINANCIERA PARA INCREMENTAR LA RENTABILIDAD EN EL LARGO PLAZO EN LA FÁBRICA DE CONCENTRADOS LA ORIENTAL 9 1.2. ANÁLISIS DE LA SITUACIÓN PROBLEMÁTICA El

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos ANEXO VI. Mejores prácticas para el éxito de un sistema de información Uno de los problemas de información dentro de las empresas es contar con datos importantes del negocio y que éstos estén aislados

Más detalles

Entre las principales ventajas que aporta la utilización Internet en las gestiones con clientes están las siguientes:

Entre las principales ventajas que aporta la utilización Internet en las gestiones con clientes están las siguientes: Gestión con clientes Los/as clientes, cualquiera que sea el negocio al que se dedica una empresa, exigen cada vez más, son menos tolerantes con las deficiencias de calidad y disponen de menos tiempo. Por

Más detalles

Maestría en Dirección Estratégica en Ingeniería de Software

Maestría en Dirección Estratégica en Ingeniería de Software Maestría en Dirección Estratégica en Ingeniería de Software CEPES CENTRO PANAMERICANO DE ESTUDIOS SUPERIORES Presentación La gestión empresarial tal como se estudia en el siglo XXI es decir, dentro de

Más detalles

El participante puede llevar a cabo el proceso de auto-comparación y sobre esa base reforzar los aspectos menos consistentes.

El participante puede llevar a cabo el proceso de auto-comparación y sobre esa base reforzar los aspectos menos consistentes. Guía de Evaluación Como evaluación de la guía pedagógica se ha elegido una metodología de evaluación cualitativa del nivel de conocimientos del participante. Para ello se ha construido una guía de preguntas

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS Los clientes compran un servicio basandose en el valor que reciben en comparacion con el coste en el que incurren. Por, lo tanto, el objetivo a largo plazo

Más detalles

Ofrezca la nueva tendencia de innovación empresarial con un entorno de red abierta

Ofrezca la nueva tendencia de innovación empresarial con un entorno de red abierta Descripción general de la solución Ofrezca la nueva tendencia de innovación empresarial con un entorno de red abierta Lo que aprenderá A medida que tecnologías como la nube, la movilidad, los medios sociales

Más detalles

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA MOLAP REALIZADO POR: JOSE E. TABOADA RENNA BASE DE DATOS Conjunto de datos estructurados, fiables y homogéneos organizados independientemente en máquina, m accesibles en tiempo real, compatible por usuarios

Más detalles

FASE SEIS ACOMPAÑAMIENTO EN LA GESTIÓN DEL NEGOCIO. I. Metodología. 1. Objetivo de la fase. 2. Descripción de la fase

FASE SEIS ACOMPAÑAMIENTO EN LA GESTIÓN DEL NEGOCIO. I. Metodología. 1. Objetivo de la fase. 2. Descripción de la fase FASE SEIS ACOMPAÑAMIENTO EN LA GESTIÓN DEL NEGOCIO I. Metodología 1. Objetivo de la fase Asegurar que las redes sean capaces de ejecutar el negocio planificado de manera sostenible. 2. Descripción de la

Más detalles

Más Clientes Más Rápido: Marketing Online bien enfocado

Más Clientes Más Rápido: Marketing Online bien enfocado Más Clientes Más Rápido: Marketing Online bien enfocado A continuación describo una propuesta comercial que estimo le interesará ya que tiene el potencial de incrementar su negocio en un período relativamente

Más detalles

Plan de Estudios Maestría en Marketing

Plan de Estudios Maestría en Marketing Plan de Estudios CONTENIDOS 1) Presentación 5) Objetivos 2) Requisitos 6) Cursos Obligatorios 3) Plan de Estudios / Duración 7) Cursos Sugeridos 4) Tabla de Créditos 1) Presentación Su programa de Maestría

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

Capítulo 2. Metodologías de selección de personal

Capítulo 2. Metodologías de selección de personal Capítulo 2. Metodologías de selección de personal 2.1 Introducción La selección de personal es una actividad en la cual toda empresa invierte parte de sus recursos, debido a que es una tarea de vital importancia.

Más detalles

SUPOSICIONES O CERTEZAS?

SUPOSICIONES O CERTEZAS? 22 APORTACIONES RR.HH. SUPOSICIONES O CERTEZAS? HR Analytics, Big Data, y un nuevo mundo de análisis y decisiones para la Gestión Humana. Juan M. Bodenheimer, Prof. Mag. (UBA, Argentina) y Director de

Más detalles

Expertia Formación. Máster MBA Internacional en Administración y Dirección de Empresas

Expertia Formación. Máster MBA Internacional en Administración y Dirección de Empresas Máster MBA Internacional en Administración y Dirección de Empresas Duración: Modalidad : Certificado / título: 1 año Los programas formativos son 100% en modalidad teleformación. No se asiste a clases,

Más detalles

CAPÍTULO 1 Instrumentación Virtual

CAPÍTULO 1 Instrumentación Virtual CAPÍTULO 1 Instrumentación Virtual 1.1 Qué es Instrumentación Virtual? En las últimas décadas se han incrementado de manera considerable las aplicaciones que corren a través de redes debido al surgimiento

Más detalles

Master en Dirección Empresarial (MDE)

Master en Dirección Empresarial (MDE) Master en Dirección Empresarial (MDE) Instituto Europeo de Posgrado http://www.iep.edu.es Escuela de Negocios Madrid Nuestro objetivo es movilizar el conocimiento para solucionar problemas de las empresas

Más detalles

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Introducción Aunque la estrategia de adquisiciones que Oracle ha seguido en los últimos años siempre ha buscado complementar y fortalecer nuestra oferta

Más detalles

La administración de recursos humanos y la descripción de puesto

La administración de recursos humanos y la descripción de puesto La administración de recursos humanos y la descripción de puesto Autor: Alberto Delgado Betancourt Análisis descripción y diseño de cargos 01-2002 Qué importancia tiene la Administración de Recursos Humanos?

Más detalles

asired middleware XML Así-Red Servicios Telemáticos, S.L.L. w w w. a s i r e d. e s

asired middleware XML Así-Red Servicios Telemáticos, S.L.L. w w w. a s i r e d. e s w w w. a s i r e d. e s 1 INDICE Presentación Que nos permiten Sobre que actuan Que hacen Hasta donde alcanzan Arquitectura Tecnología Acceso Beneficios Ventajas Posibilidades A quienes va dirigido Como

Más detalles

1.1 Planteamiento del problema

1.1 Planteamiento del problema 1.1 Planteamiento del problema La calidad en el servicio poco a poco toma una gran importancia en todos los negocios. Por el simple hecho de que los clientes exigen siempre lo mejor. Antes, la oferta era

Más detalles

Syllabus Geomarketing. Master Universitario en Gestión Comercial y Máster en Dirección de Marketing

Syllabus Geomarketing. Master Universitario en Gestión Comercial y Máster en Dirección de Marketing Syllabus Geomarketing Master Universitario en Gestión Comercial y Máster en Dirección de Marketing Curso 2013/2014 Profesor/es: Periodo de impartición: Tipo: Idioma en el que se imparte: 2º semestre OB

Más detalles

Objetivos y Competencias

Objetivos y Competencias Objetivos y Competencias 2.1 Objetivos del ciclo formativo a) Ajustar la configuración lógica del sistema analizando las necesidades y criterios establecidos para configurar y explotar sistemas informáticos.

Más detalles

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos Antecedentes y Fundamentación Un Sistema de Información es un conjunto de componentes que interactúan entre sí, orientado

Más detalles

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008 Última actualización: 01 de Setiembre de 2008 Copyright Artech Consultores S. R. L. 1988-2008. Todos los derechos reservados. Este documento no puede ser reproducido en cualquier medio sin el consentimiento

Más detalles

Tienda Online Responsive Web Design

Tienda Online Responsive Web Design Tienda Online Le gustaría crearse una Tienda Online para vender sus productos o servicios por Internet y entrar en el mundo del ecommerce? Abra su propia Tienda Online con todo lo que necesita para vender

Más detalles

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico TeCS Sistema de ayuda a la gestión del desarrollo de producto cerámico En el origen de todo proyecto de éxito se halla la capacidad de encauzar y estructurar la creatividad TeCS ofrece un entorno de fácil

Más detalles

DE VIDA PARA EL DESARROLLO DE SISTEMAS

DE VIDA PARA EL DESARROLLO DE SISTEMAS MÉTODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS 1. METODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS CICLO DE VIDA CLÁSICO DEL DESARROLLO DE SISTEMAS. El desarrollo de Sistemas, un proceso

Más detalles

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN Tabla de Contenidos LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN... 1 Tabla de Contenidos... 1 General... 2 Uso de los Lineamientos Estándares...

Más detalles

Ventajas del software del SIGOB para las instituciones

Ventajas del software del SIGOB para las instituciones Ventajas del software del SIGOB para las instituciones Podemos afirmar que además de la metodología y los enfoques de trabajo que provee el proyecto, el software, eenn ssi i mi issmoo, resulta un gran

Más detalles

Capítulo 3 Paquetes Auxiliares en la Administración de Redes

Capítulo 3 Paquetes Auxiliares en la Administración de Redes Capítulo 3 Paquetes Auxiliares en la Administración de Redes 3.1 Administración Preventiva de la Red La clave para realizar una administración preventiva es el monitoreo y análisis permanente de las condiciones

Más detalles

NEGOCIO. Industria de TI

NEGOCIO. Industria de TI 4 NEGOCIO Industria de TI La industria de las Tecnologías de la Información (TI) se divide en tres grandes segmentos: Servicios TI: abarca una amplia gama de servicios provistos a las empresas de modo

Más detalles

Grupo Ultrafemme: cuidando al cliente junto con SAP

Grupo Ultrafemme: cuidando al cliente junto con SAP SAP Estudio de la Transformación del Negocio Productos de consumo masivo J. Macêdo Grupo Ultrafemme: cuidando al cliente junto con SAP Grupo Ultrafemme Industria Luxury Retail Productos y Servicios Fragancias,

Más detalles

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa.

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa. asired EIS Integración de Sistemas Explotación de Datos y Business Intelligence. Descripción de producto. 2004 Así-Red Servicios Telemáticos, S.L.L. C/ Progreso, 36, 3º B 36202 Vigo Telf. 986 44 34 91

Más detalles

Copyright Abax Soluciones RIF.: J-29752539-4

Copyright Abax Soluciones RIF.: J-29752539-4 Copyright Abax Soluciones RIF.: J-29752539-4 CONTENIDO Nuestra Empresa Misión Visión Nuestra Solución Áreas de Servicio Consultoría Modernización de TI Mejoramiento de Procesos Desarrollo a la Medida Desarrollo

Más detalles

Qué expectativas tengo? Qué quiero conseguir?

Qué expectativas tengo? Qué quiero conseguir? 1. MOTIVACIÓN. Qué expectativas tengo? Qué quiero conseguir? Crear mi propio empleo Ser mi propio jefe Satisfacción personal Razones económicas Autoestima, reto personal Convertir una afición en trabajo

Más detalles

Construcción de una base de datos

Construcción de una base de datos Semana 11 11 Empecemos! Esta semana estarán a prueba tu disposición, interés y, sobre todo, tu capacidad para resolver situaciones problemáticas, a través del apoyo que brindan las herramientas informáticas.

Más detalles

LOGISTICA D E COMPRAS

LOGISTICA D E COMPRAS LOGISTICA D E COMPRAS 1. - Concepto de compras OBTENER EL (LOS) PRODUCTO(S) O SERVICIO(S) DE LA CALIDAD ADECUADA, CON EL PRECIO JUSTO, EN EL TIEMPO INDICADO Y EN EL LUGAR PRECISO. Muchas empresas manejan

Más detalles

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN INTRANET DE UNA EMPRESA Autor: Burgos González, Sergio. Director: Zaforas de Cabo, Juan. Entidad colaboradora: Colegio de Ingenieros del ICAI. RESUMEN DEL PROYECTO El proyecto consiste en el desarrollo

Más detalles

retos LA ACTUALIDAD LA SOLUCIÓN

retos LA ACTUALIDAD LA SOLUCIÓN retos F U T U R O LA ACTUALIDAD En la actualidad, nos vemos rodeados de retos que hace algunos años veíamos muy lejanos. Nuestros clientes son cada vez más exigentes, demandan una mayor calidad de los

Más detalles

Capitulo 3: Metodología de Investigación.

Capitulo 3: Metodología de Investigación. Capitulo 3: Metodología de Investigación. 3.1 Introducción. Con el propósito de describir el sector económico en el cual se pretende incursionar y ayude para una correcta realización del plan de negocios

Más detalles

Instituto Tecnológico de Durango

Instituto Tecnológico de Durango Instituto Tecnológico de Durango Licenciatura en informática Negocios electrónicos Estrategias de mercadotecnia en la web Armstrong Aramburgo Cristabel Integrantes: Gutiérrez limas Christian Michelle:

Más detalles

Una propuesta de valor para la gran empresa: Atlassian Data Center

Una propuesta de valor para la gran empresa: Atlassian Data Center Artículo de Experto marzo 2015 Mariano Galán Martín Líder tecnológico de Atlassian en atsistemas Una propuesta de empresa: Atlassian Muchas empresas comienzan utilizando JIRA en un pequeño departamento

Más detalles

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación Tema: NEGOCIOS EN INTERNET SUBASTATODO.COM Integrantes: Marianas Arias Peña 1 María Teresa Figueroa 2 José Zambrano

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

ANÁLISIS DAFO COMO HERRAMIENTA ESTRATÉGICA DE ANÁLISIS Y PLANIFICACIÓN TURÍSTICA.

ANÁLISIS DAFO COMO HERRAMIENTA ESTRATÉGICA DE ANÁLISIS Y PLANIFICACIÓN TURÍSTICA. ANÁLISIS DAFO COMO HERRAMIENTA ESTRATÉGICA DE ANÁLISIS Y PLANIFICACIÓN TURÍSTICA. Análisis DAFO El Análisis DAFO (en inglés, SWOT - Strengths, Weaknesses, Opportunities, Threats), es una metodología de

Más detalles

Seguimiento y evaluación

Seguimiento y evaluación Seguimiento y evaluación Por qué es necesario contar con herramientas para el seguimiento y la evaluación? Es la manera en que se puede evaluar la calidad e impacto del trabajo en relación con el plan

Más detalles

CAPÍTULO 1 PROYECTO DE TESIS. Proyecto de Tesis. 1.1 Introducción

CAPÍTULO 1 PROYECTO DE TESIS. Proyecto de Tesis. 1.1 Introducción CAPÍTULO 1 PROYECTO DE TESIS 1.1 Introducción La tesis que a continuación se desarrolla se desprende de un Simulador de Negocios llevado a cabo a lo largo del semestre de primavera 2004, éste es organizado

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles