UNIVERSIDAD VERACRUZANA TESINA. Licenciado en Sistemas Computacionales Administrativos. Mariana Garrido Palomino. M.T.E. María Luisa Velasco Ramírez

Transcripción

1 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

2

3 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Búsqueda de patrones en Bases de Datos y su aplicación en las PYMES TESINA para obtener el Título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Mariana Garrido Palomino Asesor: M.T.E. María Luisa Velasco Ramírez Cuerpo Académico Planeación e Innovación Tecnológica Xalapa-Enríquez, Veracruz Noviembre 2012

4 AGRADECIMIENTOS Todo viaje llega a su fin, y ciertamente, este ha sido largo Me gustaría que estas líneas sirvieran para expresar mi más profundo sincero agradecimiento a todas aquellas personas que me han ayudado a lo largo de este viaje que ha sido la titulación en Sistemas Computacionales Administrativos. A Dios, por acompañarme todos los días. A mis compañeros de clases, porque sin ellos las penas y alegrías no habrían sido iguales. Porque nunca falto el compañero amable que sin pedir nada a cambio te brindaba ayuda. Gracias a mis amigos Isaid, Yasmin, Fernando, Erivan, amigos incondicionales que siempre estuvieron en los momentos que necesité, siempre haciendo equipo de trabajo, los mejores momentos de la licenciatura sin duda los viví junto a ustedes. Gracias a una de mis mejores amigas Ilse Denisse que desde el primer día en la facultad inició una amistad de esas que son para toda la vida, esas

5 noches sin dormir, momentos juntas como edecanes, en el servicio social, nuestros equipos (binas) eran lo mejor, te quiero mucho, eres una gran amiga, siempre podrás contar conmigo. A mis profesores, por ser siempre profesionales con su trabajo. Por sus horas en clases y revisión de exámenes. Por siempre invitarnos a seguir aprendiendo y nunca quedarnos con dudas. A mi directora de tesis, gracias maestra María Luisa Velasco Ramírez por ser mi guía en este tramo final. Por ayudarme en todo lo que ha podido. Por contestar siempre a mis correos con prontitud. Por inspirarme y dirigirme cuando no sabía por dónde ir. A mis sinodales el maestro Guillermo Leonel Sánchez Hernández y el maestro Luis Alejandro Gazca Hernández por sus asertivos comentarios al momento de hacer las revisiones de mi tesina y por siempre sentir el apoyo de su parte. A mis padres, por haber hecho con su esfuerzo desde el día en que nací, el que hoy me haya convertido en quién soy. Por todo el trabajo para brindarme siempre lo mejor. Por sus consejos y regaños. Por ser siempre los primeros en estar ahí cuando he necesitado hablar o cualquier tipo de ayuda. Por

6 recordarme cada día lo mucho que me quieren. Por instigarme día a día también a realizar mis obligaciones, entre ellas este proyecto. A mi hermano por que sé que en muchas ocasiones he sido ejemplo para él y al finalizar este proyecto espero que lo incite a terminar su Ingeniería, gracias por sus consejos y por siempre cuidar de mí. A mis tías: Lorena, Lidia, Lulú, Bety, a cada una de ustedes gracias por el apoyo que recibí de su parte en diferentes momentos de mi vida y que ahora me permiten llegar hasta aquí, por sus consejos, simplemente por el hecho de estar conmigo, muchas gracias. A mis abuelas, porque son un ejemplo de vida y un orgullo tenerlas y dedicarles el esfuerzo de estos 4 años de licenciatura, gracias por el simple hecho de estar en mi vida. Gracias a mi novio Marco porque en estos últimos meses has complementado otra parte de mi vida, siempre dándome ánimo e incitándome a que este trabajo concluyera de la mejor manera, eres un gran amigo, un gran novio en el que confío y al cual amo con todo mi corazón.

7 A mis amigos y familiares, gracias por siempre estar conmigo, por su confianza, su cariño, por siempre alentarme a ser mejor persona y nunca conformarme pero siempre siendo agradecida con lo que me da la vida. Con todo mi cariño, Mariana.

8 ÍNDICE Página RESUMEN... 1 INTRODUCCIÓN... 2 CAPÍTULO I Planteamiento del problema Enunciado del problema Propuesta de solución Justificación de la investigación Delimitaciones Limitaciones de la investigación Alcances de la investigación Objetivos de la investigación General Específicos Metodología CAPÍTULO II Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos Herramientas Comerciales de Análisis de Datos Arquitectura Software para Data Mining Áreas de Aplicación CAPÍTULO III Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos Data Mining y Funciones de Bases de Datos Data Warehouse Data Warehouse y Data Mining V

9 CAPÍTULO IV Introducción Preparación de los Datos Ejecución de WEKA Pre procesado de los datos Clasificación, Agrupamiento, Asociación, Visualización de los Datos Selección de Atributos CAPÍTULO V Instituto Nacional de Investigaciones de la Caña de Azúcar (INICA) Predicción Meteorológica Madrid, Barajas Tasación automática de vehículos, Universidad Politécnica de Velencia Nasa Yuwe, Universidad EAFIT (Escuela de Administración, Finanzas y Tecnología) Colombia Aprendizaje del Código Genético, Laboratorio de Investigación en Inteligencia Artificial (LIDIA), Argentina Predicción de palabras nicho, Universidad Carlos de Madrid CONCLUSIONES FUENTES DE INFORMACIÓN ÍNDICE DE FIGURAS ÍNDICE DE TABLAS VI

10 RESUMEN La presente investigación consiste en un estudio sobre la búsqueda de patrones en bases de datos y cual es su aplicación en las pequeñas y medianas empresas. De acuerdo con Calleja (2010) en la actualidad vivimos en un mundo saturado de información. Contamos con herramientas tecnológicas que ponen al alcance de nuestra mano vastas cantidades de información y datos. La expansión de internet y de los sistemas de información ha revolucionado considerablemente nuestra capacidad de obtener información de una manera fácil y rápida. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido al gran poder de procesamiento de las máquinas. No obstante, con el grado de crecimiento con el que la información es recolectada y almacenada electrónicamente hoy en día en prácticamente todos los campos de comportamiento/desarrollo humano, la extracción de información útil de todos los datos disponibles se está convirtiendo en un creciente reto científico y una necesidad económica masiva (Zaki and Ho 2000). Dentro de este enorme conjunto de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (Data Mining), que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingles) que se encarga 1

11 de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean. 2

12 INTRODUCCIÓN

13 En la actualidad, nos encontramos en un ambiente cada vez más competido, donde las empresas requieren de herramientas sólidas, que las asistan en la toma de decisiones que puedan traer beneficios y mejoras en sus procesos, un ejemplo es el Data Mining en donde se analiza y explora automáticamente en grandes bases de datos para extraer información útil y no evidente que permita la toma oportuna de decisiones así como generar ventajas competitivas. Las PYMES (Pequeñas y Medianas Empresas), son organizaciones que se caracterizan por tener un número reducido de empleados y una facturación media o baja. En el censo económico del INEGI (Instituto Nacional de Estadística Geografía e Informática) del 2004, se establece que existen en México alrededor de 2,726,568 PYMES, las cuales representan aproximadamente el 94% del total de las empresas mexicanas (Diario Oficial de la Federación, 2004). El crecimiento de las PYMES ocurre actualmente entre una fuerte competencia, contracción económica, clientela más inteligente, reducción de márgenes de utilidad y constantes innovaciones tecnológicas. [González, 2006]. De ahí la importancia de que las PYMES tomen decisiones acertadas en el momento que se requieran y antes que su competencia lo haga. Lo anterior supone un enorme reto para las organizaciones, en especial en el manejo de grandes volúmenes de información para conocer el entorno y predecir su evolución. De acuerdo a Guerena (s.f.) las pequeñas y medianas empresas de hoy en día están comenzando a voltear sus ojos hacia tecnologías como sistemas inteligentes, redes neuronales, sistemas expertos, minería de datos, entre otras. Y todas las han llevado a apostar en ellas el todo de su empresa: procesos administrativos, procesos operativos, administración de recursos humanos, etc. La minería de datos se ha transformado en la base de la toma de decisiones en las grandes empresas. Sin embargo, su utilización en las medianas y pequeñas 4

14 empresas ha sido mínima o inexistente. Entre las causas de este fenómeno están bajo en número de expertos en el área, los altos costos de asesoría y del software y, el mayor factor, la falta del conocimiento de los medianos y pequeños empresarios en la existencia de la minería de datos (Guerena, s.f.). La Inteligencia Empresarial (Business Intelligence) es, para el área de tecnologías de la información, una arquitectura y una colección de aplicaciones operacionales integradas, así como de bases de datos que dan soporte a la toma de decisiones y que proveen a las empresas un fácil acceso a sus propios datos (Moss, et.al., 2003). La inteligencia empresarial se compone de varias tecnologías, que son: Almacenes de datos (Datawarehouses) que son: colecciones de datos diseñados para dar soporte a la toma de decisiones, las cuales son integradas, no volátiles, variables en el tiempo y están orientadas a la información [Inmon, 2005]. OLAP (On-Line Analytical Processing) que permite consultas en línea a estructuras multidimensionales, las cuales proporcionan facilidades para manejar y transformar los datos [Hernández, 2005]. Minería de datos (Data Mining) que persigue el descubrimiento automático del conocimiento contenido en la información almacenada de modo ordenado en grandes bases de datos [Pérez, et.al., 2006]. Estas 3 tecnologías, permiten fortalecer las capacidades de las empresas para identificar oportunidades, detectar riesgos y competir más eficaz y eficientemente. Al día de hoy, existen diversas herramientas de software que implementan dichas técnicas, tanto comerciales (Oracle Data Mining, Clementine, SAS Enterprise Miner, Cognos, NadaMind) como de dominio público (Weka y Yale), pero en muchas ocasiones, las empresas no cuentan con los medios económicos para introducirlas en su empresa y por lo tanto no son capaces de utilizar al máximo su 5

15 información, pues no la tienen organizada adecuadamente y carecen de los métodos necesarios para procesarla y analizarla de la mejor manera. Por este motivo las pequeñas y medianas empresas no pueden palpar los beneficios que pueden obtener de estas aplicaciones como: mejor aprovechamiento de sus fuentes de información, mayor disponibilidad de recursos humanos y tecnológicos, fortalecimiento de las capacidades analíticas y de planificación, incremento de ventas, renovado el conocimiento y entendimiento de las necesidades y perfiles de sus clientes, lo que mejora las relaciones con los mismos. Es necesario un cambio de paradigma que nos permita llevar los beneficios que ofrecen las técnicas avanzadas de computación inteligente, como data mining (minería de datos), text mining (minerías de texto), ontologías de dominio específico y técnicas de optimización y aprendizaje dirigido a las Pymes. Debemos tomar en cuenta que muchas de las Pymes no cuentan con: personal especializado en TI; ni un presupuesto que les permita desembolsar grandes cifras de dinero, a cambio de un sistema integral de inteligencia de negocio, que puede obtener si realiza la contratación de una consultoría especializada; ni el pago del licenciamiento de una plataforma integral de inteligencia de negocio, en donde las interfaces se encuentren orientadas al usuario final; ni una robusta plataforma de hardware, que se requiere (en la mayoría de los casos) para implantar sistemas integrales. La incursión de tecnología analítica en la operación y seguimiento de los procesos de las Pymes, marca un gran punto de diferenciación en las empresas, para que estas puedan subsistir y crecer en un mercado tan competitivo. 6

16 CAPÍTULO I.

17 1.1 Planteamiento del problema Hoy en día las empresas se desarrollan en un ambiente de constantes cambios, es por eso la importancia de analizar los diferentes factores que se manifiestan alrededor de ellas. Es interesante conocer estos cambios debido a que las empresas deben estar conscientes de que sus competidores están constantemente buscando estrategias para generar ventaja competitiva. La relevancia aquí es que las empresas deben estar alertas y hacer un análisis estratégico de su entorno. En la actualidad, las PYMES en México atraviesan una problemática tanto interna como externa que ha provocado que bajen su productividad y que carezcan de una estabilidad en el mercado. La interna siendo la carencia de organización, retrasos tecnológicos, falta de capacitación del personal, y la escasez de recursos financieros: y la externa se refiere a la falta de acceso al financiamiento, tasas de intereses no competitivas, y una política fiscal no promotora del desarrollo. (Kauffman, 2001). Se ha notado que un punto clave es la administración interna, muchas veces no se le da la importancia necesaria y se ve reflejado en los resultados. Crear una ventaja competitiva no es cosa fácil de lograr y tomar en cuenta estos aspectos es vital para la sobrevivencia de la organización, es por esto que una opción de ventaja competitiva es el análisis de los datos que se manejan en la misma para así obtener información que nos sea de utilidad en la toma de decisiones. Los factores internos se refieren a los problemas provenientes por la gestión del conocimiento; en cuanto a lo específico es necesario analizar la industria o sector donde se encuentra la empresa, por ejemplo el grado de madurez o de 8

18 concentración. En cuanto a factores externos, éstos se reconocen como las variables macroeconómicas, aquellas que monitorean cómo está la situación económica, política, social y cultural del medio en que se está desenvolviendo la empresa. Según Kauffman (2001), PYMES carecen de sistemas de planeación, organización, administración y control eficiente, también de tecnologías propias de la gestión y desarrollo de sus actividades productivas. Se puede decir entonces que las PYMES no aprovechan la información que les proporcionan los datos almacenados debido al desconocimiento del uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.2 Enunciado del problema Las PYMES no aprovechan la información y el conocimiento que les proporcionan los datos almacenados debido al desconocimiento en el uso de herramientas que les faciliten su análisis a través de la búsqueda de patrones. 1.3 Propuesta de solución Dar a conocer a las PYMES las diferentes herramientas que se pueden utilizar para el análisis de los patrones de bases de datos, en este caso en particular el de la herramienta WEKA, para que así dentro de la organización interna de las mismas se lleve a cabo el procesamiento de los datos y con esto se obtenga información que le sea de utilidad a la empresa y pueda tomar decisiones acertadas en los diferentes procesos que tiene la empresa. 9

19 Como parte del proyecto de investigación Desarrollo de una plataforma tecnológica que permita fortalecer la cadena de valor de las MPYMES de la región Xalapa a través del cual se pretende efectuar una aportación de tipo empírica, que sirva para fortalecer mediante la innovación la cadena de valor de una microempresa. Esta aportación consta de un impacto conceptual, por medio de la revisión sistemática de herramientas de análisis de datos y su aplicación en las MPYMES o PYMES en general. 1.4 Justificación de la investigación Es importante que en la actualidad las PYMES en México hagan un cambio en su enfoque administrativo, ya que se encuentran en un arduo ambiente de negocios donde sobreviven únicamente las mejores. La gran capacidad de almacenamiento de las bases de datos permite recolectar grandes cantidades de datos, cuyo análisis resulta útil para generar conocimiento en una organización, el conocimiento al que se da mayor importancia es aquél que procede del interior de la misma, proveniente de su equipo de personas, así como de sus clientes. Pero, cómo lograr que una PYME genere conocimiento?, por ello es importante el presente trabajo de investigación. Cómo proveerle a la PYME el conocimiento necesario para permitirle competir de manera directa dentro del nicho de mercado en el que se encuentra. Es por eso que se deben implementar nuevas estrategias en la organización para la generación de una ventaja competitiva. Las empresas en general necesitan adaptarse a los cambios del entorno y no confiarse, en el caso de las PYMES sería importante detectar sus fortalezas y debilidades para poder aprovechar mejor que sabe hacer y las oportunidades que el mercado le esta ofreciendo. 10

20 1.5 Delimitaciones Espacio: La investigación se limitará a la Facultad de Contaduría, Administración, Sistemas y Gestión. Tiempo: Un periodo de 10 meses (Febrero Noviembre 2012). Población: Empresas que se encuentran registradas en el SUME de la Facultad de Contaduría, Administración, Sistemas y Gestión. Muestra: Las pruebas a realizar se harán con los datos de las empresas del SUME. 1.6 Limitaciones de la investigación La investigación se limitará a las pruebas de los datos de las empresas que nos brinden apoyo para el procesamiento de la información con fines de muestra y ejemplo que se presentarán en este trabajo de experiencia recepcional. Ya que para la mayoría de las empresas el tipo de datos e información que manejan son de carácter confidencial, por lo que no les es posible darnos acceso a sus bases de datos. 1.7 Alcances de la investigación Se pretende estudiar el uso de herramientas para el análisis de datos, así como la aplicación el KDD para detectar las ventajas y oportunidades que proporciona disponer de información que genere conocimiento en las pequeñas y medianas empresas. 11

21 1.8 Objetivos de la investigación General Analizar la búsqueda de patrones en Bases de Datos y su aplicación en las pequeñas y medianas empresas con el apoyo del uso de la herramienta WEKA Específicos Describir el proceso de KDD. Describir Minería de Datos (Data Mining), tecnologías de apoyo y áreas de aplicación. Analizar la arquitectura software para Data Mining. Describir las tendencias de la Minería de Datos. Analizar Data Mining y funciones de base de datos. Describir el almacenamiento de datos. Describir las herramientas comerciales de análisis de datos. Describir las técnicas de análisis de datos en WEKA. 12

22 1.9 Metodología Búsqueda en bases de datos, libros, revistas especializadas, bases de datos, bibliotecas virtuales. Selección de la información más relevante para la realización de esta investigación. Comprensión de los temas que serán abordados, retroalimentando los conocimientos adquiridos dentro de la investigación. Descripción y estudio de la herramienta WEKA para el análisis de datos. Conclusiones que se irán dando a lo largo de la realización del documento. 13

23 CAPÍTULO II. MINERÍA DE DATOS Y KDD

24 2.1 Descubrimiento de Conocimiento en Bases de Datos (KDD) y Minería de Datos KDD Siempre se ha dicho que la información es poder. El ser humano siempre ha intentado conocer e investigar a fondo todo aquello que le rodeaba para sacar el máximo partido a sus posibilidades de progreso y éxito, y para ello, disponer de información exclusiva y relevante, siempre ha sido de ayuda. Han existido muchos nombres para la Minería de Datos o disciplinas similares. Entre ellos se encuentra el Data Fishing, Data Discovery, y, más recientemente, Knowledge Discovery in DataBases (KDD). A pesar de que para muchos. KDD y la minería de datos son sinónimos, KDD es un proceso que incluye a la minería de datos como uno de sus pasos (Calleja, 2010). KDD es el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos. KDD se ha definido como el proceso no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, y finalmente comprensibles Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones (Molina y García, 2006). Los datos recogen un conjunto de hechos de una base de datos y los patrones son expresiones que describen un subconjunto de los datos. KDD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el sistema y potencialmente útiles. 15

25 Se han de definir medidas cuantitativas para los patrones obtenidos. Se debe establecer alguna medida de interés que considere la validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simplemente, registrar la información conseguida y suministrársela a quien esté interesado. Figura 2.1 Esquema del proceso de KDD 1 Fuente: Molina y García, 2006 La utilidad de aplicaciones futuras en KDD es de largo alcance. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. El proceso de KDD se inicia con la identificación de los datos. Para ello hay que imaginar qué datos se necesitan, dónde se pueden encontrar y cómo conseguirlos. Una vez que se dispone de datos, se deben seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan, poniéndolos en un formato adecuado. Una vez que se tiene los datos adecuados se procese a la Minería de Datos, un proceso en el que se seleccionarán las herramientas y técnicas adecuadas para lograr los objetivos pretendidos y tras este proceso llega el análisis de resultados, con lo que se obtiene el conocimiento pretendido. 16

26 Figura 2.2 Metodología para el KDD. Fuente: Cantera, 2011 KDD es un proceso interactivo e iterativo, que involucra numerosos pasos e incluye muchas decisiones que deben ser tomadas por el usuario, y se estructura en las siguientes etapas: (Molina y García, 2006). 1. Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final. 2. Creación del conjunto de datos: consiste en la selección del conjunto de datos, o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento. 3. Limpieza y procesamiento de los datos: se compone de las operaciones, tales como: recolección de la información necesaria sobre la cuales va a realizar el procesos, decidir las estrategias sobre la forma en que se van a manejar los campos de los datos disponibles, estimación del tiempo de la información y sus posibles cambios. 4. Reducción de los datos y proyección: encontrar las características más significativas para representar los datos, dependiendo del objetivo del proceso. 5. Elegir la tarea de Minería de Datos: decidir el objetivo del proceso del KDD. 17

27 6. Elección del algoritmo de Minería de Datos: selección del método a ser utilizado para buscar patrones en los datos. 7. Minería de Datos: Consiste en la búsqueda de los patrones de interés en una determinada forma de representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o árboles, regresión, agrupación, etc. 8. Interpretación de los patrones encontrados. 9. Consolidación del conocimiento descubierto. Minería de Datos Se pueden encontrar decenas de definiciones a este concepto. La Minería de Datos consiste en la aplicación de técnicas en grandes volúmenes de datos para descubrir información útil, aplicable y no trivial. Esta definición, aplicada a un entorno más empresarial podría reconstruirse como el conjunto de métodos, que junto con un profundo conocimiento del negocio, están orientados a identificar, en grandes volúmenes de datos, relaciones y tendencias ocultas hasta el momento (Creus, 2006). Minería de Datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes bases de datos. Podemos decir, que la minería de datos es un proceso dentro de un proceso que lo engloba todo, el KDD. En este paso, la Minería de Datos se encarga de buscar relaciones y patrones entre toda la cantidad de información disponible. 18

28 Muchos de los métodos con los que cuenta la minería de datos se basan en diferentes técnicas de varios campos, como el aprendizaje de máquinas, reconocimiento de patrones y estadística, en este último encontramos los algoritmos de clasificación y regresión entre otros. Las principales características y objetivos de la Minería de Datos según Vallejos (2006) son: Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet El entorno de la minería de datos suele tener una arquitectura clienteservidor. Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultando por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rápidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. 19

29 Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos produce cinco tipos de información: Asociaciones, Secuencias, Clasificaciones, Agrupamientos, Pronósticos. Los mineros de datos usan varias herramientas y técnicas. Un esquema del proceso lo podemos encontrar en el propuesto por Fayyad (1996). Este esquema consta de cinco pasos para obtener el conocimiento que queremos extraer de los datos que tenemos. 1. Selección de datos. Extraemos de una base de datos o cualquier otra colección de datos, aquellos campos y atributos que concuerdan con el objetivo que buscamos. 2. Pre-procesado. En este paso, efectuaremos la limpieza de los datos, como por ejemplo, rellenar campos vacíos o atributos inútiles. 3. Transformación. En este paso, la información se convertirá a otros nuevos formatos si es necesario. 4. Minería. El núcleo del proceso, aquí se identifican los patrones y las relaciones entre los datos. 5. Interpretación y evaluación. El usuario debe interactuar con los resultados para tomar las acciones pertinentes en caso de ser válidos y útiles. 20

30 2.2 Herramientas Comerciales de Análisis de Datos Knowledge Seeker de Angoss Software International, Toronto, Canadá Herramienta interactiva de clasificación basada en los algoritmos de árboles de decisión que se ejecuta sobre plataformas Windows y UNIX. Tiene una representación flexible a través de árboles de decisión, a su vez provee características para permitir la identificación de la relevancia de los resultados en los negocios. El API permite usar los resultados del análisis en aplicaciones personalizadas (Molina y García, 2006). DataCruncher de DataMind, San Mateo, CA, USA Herramienta de Data Mining para clasificación y clustering basada en Tecnología de Agentes de Redes (ATN Agent Network Technology). La aplicación servidor se ejecuta sobre UNIX y Windows NT, la aplicación cliente en todas las plataformas Windows.Puede ser utilizada para la clasificación, predicción y clustering no supervisado. Los resultados son versátiles y permiten una minuciosa valoración de los modelos y de sus resultados (Molina y García, 2006). Intelligent Miner de IBM, Armonk, NY, USA Intelligent Miner es un conjunto de estadísticas, procesamiento y minería de datos, sus funciones se pueden utilizar para analizar grandes bases de datos. También proporciona herramientas de visualización para la visualización e interpretación de los resultados de la minería, el servidor software se ejecuta en AIX, AS/400, OS/390 y los sistemas Sun Solaris, AIX, OS/2 y los sistemas operativos de Windows. Algunas de sus características son la ampliación de las asociaciones, clasificación, clustering y predicción, funciones estadísticas, exportación e importación de bases mineras en todos los sistemas operativos, explotación del DB2 Parallel Edition y DB2 Universal Database Enterprise Extended Edition, Secuencias repetibles, 21

31 programas para todas las plataformas de servidores (Cabena, Hyun Hee Choi, Il Soo Kim, Shuichi Otsuka, Reinschmidt, Saarenvirta, 2009). Clamentine de Integral Solutions, Basingstoks, UK Herramienta con un entorno de trabajo que soporta todo el proceso de data mining. Ofrece árboles de decisión, redes de neuronas, generación de reglas de asociación y características de visualización. Se ejecuta cobre VMS, UNIX o Windows NT (Molina y García, 2006). Soporta diversas fuentes de datos (ASCII, XLS, SPSS, SAS u ODBC), posee distintas herramientas de minería de datos como: correlación, reglas de asociación, patrones secuenciales, agrupación/segmentación/conglomerado, clasificación, manipulación de datos, combinación, visualización, exportación de modelos en distintos lenguajes, exportación de datos integrada a otros programas, generación de informes y gestión de proyectos (Hernández, 2006). Alice de Isoft SA, Gif sur Yvette, Francia. Es una herramienta para Data Mining interactivo basada en tecnología de árboles de decisión. Se ejecuta sobre plataformas Windows. Su representación es interactiva y permite guiar el análisis, tiene la opción de generar gráficos para proveer una visión general de los datos en todas las etapas del proceso de Data Mining (Molina y García, 2006). Decision Series, de NeoVista Software Cupertino CA, USA. Es una herramienta para múltiples operaciones de Data Mining para el desarrollo de modelos basados en servidores. Proporciona algoritmos de redes de neuronas, árboles y reglas de inducción, clustering y análisis de asociaciones. Trabaja sobre sistemas UNIX mono o multi-procesadores de HP y Sun. Accede sólo a ficheros 22

32 planos, aunque posiblemente las últimas versiones ya trabajarán contra bases de datos relacionales (Molina y García, 2006). Pilot Discovery Server de Pilot Software, Cambridge ME, USA. Es una herramienta para la clasificación y predicción, basada en la tecnología de árboles de decisión CART. Trabaja sobre UNIX y Windows NT. Es importante exponer que es solamente indicada para clientes de los programas para soporte a la toma de decisiones de Pilot y solo cubre un específico sector del espectro del data mining y simplemente trabaja con datos almacenados en bases de datos relacionales. (Molina y García, 2006).. El producto de la minería de datos primero diseñado para ejecutivos de ventas y mercadotecnia (Gale Group, 1996). SAS Solution for Data Mining de SAS Institute, Cary, NC, USA. Según Molina (2006) SAS Solution es un gran número de herramientas de selección, exploración y análisis de datos para entornos cliente-servidor. Las opciones de Data Mining incluyen: aplicaciones de redes de neuronas, de árboles de decisión y herramientas de estadística además de aplicaciones portables para un gran número de entornos PC, UNIX y mainframes. SAS ofrece Data Warehouse y análisis de datos así como conjuntos extensibles de herramientas de manipulación y visualización de datos. SAS tiene una gran experiencia en herramientas estadísticas y de análisis de datos (Molina, García, 2006). MineSet, de Silicon Graphics, Mountain View, CA, USA Es un paquete de herramientas para Data Mining y visualización que proporciona algoritmos para la generación de reglas para clasificación y asociaciones. Trabaja sobre plataformas SGI bajo IRIS. Ofrece herramientas de visualización para los 23

33 datos y los modelos generados, soporta muchas operaciones de Data Mining, el gestor de herramientas actúa como un punto central de control y permite el acceso y transformación de los datos. La arquitectura de MineSet está compuesta por un cliente que es el administrador y el que permite las visualizaciones, el servidor que procesa los datos y los algoritmos de minería (modelos) y por último la fuente de datos que está conformada por las bases de datos (Ron Kovahavi, 1998). SPSS, de SPSS, Chicago IL, USA SPSS (Statistical Product and Service Solutions) es un conjunto de potentes herramientas de tratamiento de datos y análisis estadístico. Funciona mediante menús desplegables y cuadros de diálogo que facilitan el trabajo (Castañeda, Cabrera, Navarro, Wietse de Vries, 2010). Syllogic Data Mining Tool, de Syllogic, Houten, The Netherlands Es una herramienta con entorno de trabajo multi-estratégico con interface visual. Soporta análisis de árboles de decisión, clasificación k-vecino más próximo, y análisis de clustering y asociaciones por k-means. Trabaja cobre Windows NT y en estaciones UNIX con uno o varios procesadores. La interface visual permite a los usuarios construir proyectos de data mining enlazando objetos. La versión está optimizada para entornos masivamente paralelos y validos para grandes bases de datos. La empresa también ofrece un gran número de servicios de consultoría en las áreas de Data Warehousing y Data Mining (Molina et. 2006). Darwin de Thinking Machines, Bedford MA, USA. Darwin es una aplicación de minería de datos escalable que encuentra relaciones sutiles y con frecuencia difíciles de alcanzar entre los miles de millones de piezas 24

34 de datos y utiliza esta información nueva para ayudar a resolver una variedad de problemas de negocio, de los desafíos de marketing para gestión de la calidad con la eficiencia de fabricación. Es capaz de extraer el más grande de los almacenes de datos, debido a su diseño de procesamiento paralelo. Funciona en un amplia gama de arquitecturas de hardware, incluyendo estaciones de trabajo independientes y en red, SMPS, y racimos de cada uno. Accede a cualquier base de datos relacional a través de su extremo frontal compatible con ODBC, incluyendo Informix, Oracle y Sybase (Gale Group, 1996). 2.3 Arquitectura Software para Data Mining A continuación se muestra una pirámide que presenta la estructura de cómo las diferentes tecnologías encajan entre si. Figura 2.3 Pirámide de Data Mining Fuente: Molina y García, 2006 En el nivel más bajo se encuentra las comunicaciones y sistemas. A continuación aparece el soporte del middleware. Esto va seguido por la gestión de las bases de datos y el Data Warehouse. Después aparecen las diferentes tecnologías de Data Mining. Finalmente, se tienen los sistemas de apoyo a la toma de decisiones que usan los resultados de Data Mining y ayudan a que los usuarios tomen las 25

35 decisiones eficazmente. Estos usuarios pueden ser administradores, analistas, programadores, y cualquier otro usuario del sistema de información. Figura 2.4 Arquitectura de Data Mining Fuente: Molina y García, 2006 En la figura 2.4 se integran múltiples bases de datos a través de algún middleware y como consecuencia forman un Data Warehouse que se explora a continuación. Los componentes de Data Mining también se integran en este escenario para aplicar Data Mining a las bases de datos directamente. Figura 2.5 Visión en tres dimensiones de Data Mining Fuente: Molina y García,

36 La figura 2.5 muestra una vista tridimensional de las tecnologías de Data Mining. En el centro se encuentra la tecnología para la integración. Ésta es la tecnología del middleware tal como la gestión distribuida orientada al objeto y también la tecnología web para la integración y acceso a través de la web. Arquitectura Funcional A continuación se describen los componentes funcionales de Data Mining. Un SGBD con una arquitectura en la que la herramienta de Data Mining es uno de los módulos del SGBD será un SGBD Mining. Éste se puede organizar de varias maneras. Figura 2.6 Data Mining como parte del procesador de consultas Fuente: Molina y García, 2006 En la figura 2.6 se considera Data Mining como una extensión del procesador de consultas. Es decir, podrían extenderse los módulos del procesador de consultas como el optimizador de consultas para ocuparse de Data Mining. Arquitectura del Sistema Una arquitectura del sistema consiste en componentes como los middleware y otros componentes del sistema como el sistema de bases de datos y el sistema de data warehouse para data mining (Molina, García, 2006). 27

37 Los middleware podrían basarse en diferentes tecnologías. Un sistema middleware muy popular es el que se basa en una arquitectura cliente-servidor. La mayoría de los vendedores de sistemas de bases de datos han migrado a una arquitectura llamada cliente-servidor. Así múltiples clientes acceden a los diferentes servidores de las bases de datos a través de alguna red (Molina y García, 2006). 2.4 Áreas de Aplicación En este punto se presentan las principales áreas y sectores empresariales en las que se puede aplicar la minería de datos. Marketing De acuerdo con García (2006) actualmente con la generación de los puntos de venta sistematizados y conectados a un ordenador central, y el constante uso de las tarjetas de créditos se genera gran cantidad de información que hay que analizar. Con ello se puede emplear la minería de datos para: Identificar patrones de compra de los clientes: Determinar cómo compran, a partir de sus principales características, conocer el grado de interés sobre tipos de productos, si compran determinados productos en determinados momentos. Segmentación de clientes: Consiste en la agrupación de los clientes con características similares, por ejemplo demográficas. Es una importante herramienta en la estrategia de marketing que permite realizar ofertas acordes a diferentes tipos de comportamiento de los consumidores. 28

38 Predecir respuestas a campañas mailing: Las campañas mailing o también llamado marketing consiste en enviar a sus clientes un correo electrónico con las novedades de su empresa, información, promociones y descuentos. ( Qué es Mailing?, s.f.). Cabe mencionar que estas campañas son caras y pueden llegar a ser molestas para los clientes a los que no le interesan el tipo de producto promocionado por lo que es importante limitarlas a los individuos con una alta probabilidad de interesarse por el producto. Análisis de cestas de la compra: Consiste en descubrir relaciones entre productos, esto es, determinar qué productos suelen comprarse junto con otros, con el fin de distribuirlos adecuadamente. Compañías de Seguros En el sector de las compañías de seguros y la salud privada, se pueden emplear las técnicas de minería de datos, por ejemplo para (Rodríguez, 2011): Cálculo de primas Captación de nuevos clientes Fidelización de clientes Desarrollo de nuevas líneas de productos Creación de informes de riesgo geográfico Detección de siniestros fraudulentos Banca En el sector bancario la información que puede almacenarse es, además de las cuentas de los clientes, la relativa a la utilización de tarjetas de crédito, que puede 29

39 permitir conocer hábitos y patrones de comportamiento de los usuarios. Esta información puede aplicarse para: Detectar patrones de uso fraudulento de tarjetas de crédito. Identificar clientes leales: Es importante para las compañías de cualquier sector mantener a los clientes. Y es que hay estudios que demuestran que es cuatro veces más caros obtener nuevos clientes que mantener los existentes. Predecir clientes con probabilidad de cambiar su afiliación. Determinar gasto en tarjeta de crédito por grupos. Encontrar correlaciones entre indicadores financieros. Identificar reglas de mercado de valores a partir de históricos. Telecomunicaciones En el sector de las telecomunicaciones se puede almacenar información interesante sobre las llamadas realizadas, tal como el destino, la duración, la fecha en que se realiza la llamada, por ejemplo para (Molina, García, 2006): Detección de fraude telefónico: Mediante por ejemplo el agrupamiento o clustering se pueden detectar patrones en los datos que permitan detectar fraudes. 30

40 Medicina En el campo médico se almacena gran cantidad de información, sobre los pacientes, tal como enfermedades pasadas, tratamientos impuestos, pruebas realizadas, evolución, etc. Se pueden emplear técnicas de minería de datos con esta información, por ejemplo, para: Identificación de terapias médicas satisfactorias para diferentes enfermedades. Asociación de síntomas y clasificación diferencial de patologías. Estudio de factores de riesgo para la salud en distintas patologías. Segmentación de pacientes para una atención más inteligente según su grupo. Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos. Identificación de terapias médicas y tratamientos erróneos para determinadas enfermedades. Industria farmacéutica En el sector químico y farmacéutico se almacenan gran cantidad de información (Molina y García, 2006): 31

41 Bases de datos de dominio público conteniendo información sobre estructuras y propiedades de componentes químicos. Resultados de universidades y laboratorios publicadas en revistas técnicas. Datos generados en la realización de los experimentos. Datos propios de la empresa. Biología Con el almacenamiento de toda la información que está generado en bases de datos accesibles por Internet, el siguiente reto consiste en descubrir cómo funcionan nuestros genes y su influencia en la salud. Existen nuevas tecnologías que están posibilitando el desarrollo de una nueva biología que permite extraer conocimiento biomédicos a partir de bases de datos experimentales en el entorno de un ordenador básicamente mediante técnicas de minería de datos y visualización. Estos trabajos forman parte de los desarrollos de la Bioinformática (Molina y García, 2006). En la Empresa Una empresa en posesión de bases de datos de calidad y tamaño suficiente puede emplear Data Mining para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar (Garrido, Latorre, 2010): Predicción automática de comportamientos. Predicción automática de tendencias. 32

42 Descubrimiento automático de comportamientos desconocidos anteriormente. Finanzas Según Baltazar (2010) algunas de las aplicaciones del Data Mining en el campo financiero son algunas de las siguientes: Estudio de mercados, productos, de clientes, de préstamos. Estudio de medidas antifraude. Sistemas de comprobación de transacciones En la Gestión de Recursos Humanos Las NTIC (Nuevas Tecnologías de Información y Comunicaciones) indujeron la amplitud del objeto de las GRH (Gestión de Recursos Humanos) al objeto de la gestión del conocimiento. El tratamiento del capital intelectual es inmanente hoy a los e-rrhh o e-grh (expresión electrónica o digitalizada del sistema de GRH, así como los distintos procesos o actividades clave que lo integran). Y junto el tratamiento del mismo exige dominio de esas NTIC: redes, internet, intranet, e- mail, e-business, e-learning, etc. (Cuesta, Alcaide y López, 2009). Actualmente existe la necesidad de desarrollar y aplicar sistemas de e-rrhh en las empresas, en búsqueda de aumento de productividad del trabajo, donde es imprescindible la integración de amiento del capital humano y el concepciones y técnicas sobre el tratamiento del capital humano y el capital intelectual, con concepciones técnicas comprendidas en las NTIC, destacando su nexo con la actual GRH los Data Warehouses y Data Mining (Cuesta et al, 2009). 33

43 En Internet Con el e-bussines al aplicar la búsqueda en perfiles de clientes, publicidad dirigida y fraudes. Lo vemos muy comúnmente en los buscadores inteligentes al hacer generación de jerarquías y búsquedas en las bases de conocimiento web así como en la gestión de tráfico de la red controlando la eficiencia y errores (Gutiérrez, 2001). 34

44 CAPÍTULO III. MINERÍA DE DATOS Y ALMACENAMIENTO DE DATOS

45 3.1 Arquitectura, Modelado, Diseño y Aspectos de Administración de Datos La principal razón por la que la minería de datos se ha hecho tan popular es debido a que ahora con los sistemas de bases de datos se puede representar, almacenar y recuperar los datos, y reforzar características como la integridad y seguridad (Molina y García, 2006). Ahora que se tiene los datos guardados en las bases de datos y quizás normalizados y estructurados hay varias formas de hacer Data Mining. Un enfoque es reforzar un SGBD con una herramienta de Data Mining. Se puede comprar un SGBD comercial y una herramienta de Data Mining comercial que tenga construidas las interfaces para el SGBD y se puede aplicar la herramienta a los datos administrados por el SGBD (Molina y García, 2006). El otro enfoque es una integración fuerte del SGBD con las herramientas de Data Mining. El núcleo de la base de datos tiene las herramientas de Data Mining incorporadas dentro de él. Se puede decir que este tipo de SGBD es un Mining SGBD. Según esto las diferentes funciones del SGBD como el procesamiento de consultas y la gestión del almacenamiento son influenciadas por las técnicas de Data Mining. En general, la agregación de una herramienta de Data Mining influirá sobre las diferentes funciones del SGBD como: el procesamiento de consultas, la gestión del almacenamiento, la gestión de transacciones, la gestión de meta data (diccionario de datos), la gestión de la seguridad y de la integridad. 36

46 El tipo de modelado de los datos usado puede tener algún impacto en Data Mining. Muchos de los datos que serán utilizados se guardan en bases de datos relacionales. Sin embargo, actualmente cada vez más se guardan los datos en bases de datos no relacionales tales como bases de datos multimedia. El diseño de la base de datos juega un papel fundamental en la aplicación de Data Mining. La administración de las bases de datos también resulta influida por la realización de Data Mining. 3.2 Data Mining y Funciones de Bases de Datos En el caso de integración fuerte entre el SGBD y Data Mining hay un enérgico impacto sobre las funciones del sistema de bases de datos. Estrechamente relacionado con la optimización de consultas está la eficiencia de las estructuras de almacenamiento, índices y métodos de acceso (Molina y García, 2006). En el caso de gestión de transacciones, la realización de Data Mining puede tener poco impacto, puesto que Data Mining se hace normalmente en los datos de apoyo a la toma de decisiones y no en los datos transaccionales. La seguridad, integridad, calidad de datos y tolerancia a fallos son influidas por Data Mining. En el caso de seguridad, Data Mining podría suponer una amenaza importante para la seguridad y privacidad. Data Mining tiene muchas aplicaciones en el descubrimiento de la intrusión y análisis de amenazas a las bases de datos. Se puede usar Data Mining para descubrir modelos de intrusiones y amenazas. Ésta es un área emergente y se llama información de confianza. 37

47 En el caso de calidad e integridad de los datos, se podrían aplicar las técnicas de Data Mining para descubrir datos malos y mejorar la calidad de los datos. Data Mining también puede usarse para analizar la seguridad de los datos para varios sistemas. Existen algunos retos que superar antes de que la minería de datos se convierta en una tecnología de masas. En los aspectos metodológicos sería útil la existencia de una API Standard de forma que los desarrolladores puedan integrar sin dificultad los resultados de diversos algoritmos de minería. La escalabilidad de la minería de datos hacia grandes volúmenes es y será una de las tendencias futuras ya que el volumen de la información tiende a crecer de manera exponencial (Riquelme, Ruiz y Gilbert. 2006). 3.3 Data Warehouse Un Data Warehouse es un tipo especial de base de datos. Data Warehouse se define como un almacén de datos orientado a un tema, integrado, no volátil y variante en el tiempo que soporta decisiones de administración. Los Data Warehouses surgieron por dos razones: primero, la necesidad de proporcionar una fuente única de datos limpia y consistente para propósitos de apoyo para la toma de decisiones; segundo, la necesidad de hacerlo sin afectar a los sistemas operacionales (Pérez, 2006). El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas y brindar una visión integrada de dicha información, 38

48 especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización (Mendez, Britos y García, 2003). Las cargas de trabajo del Data Warehouse están destinadas para el apoyo a la toma de decisiones y por lo tanto, tienen consultas intensivas; así mismo, los propios Data Warehouses suelen ser bastante grandes (a menudo mayores que 500 GB y con una tasa de crecimiento de hasta el 50% anual). Por consecuencia es difícil, perfeccionar el rendimiento. Contribuyen a este problema (Molina y García, 2006): a) Los errores de diseño de la base de datos. b) El uso ineficiente de los operadores relacionales. c) La debilidad en la implementación del modelo relacional de DBMS. d) La falta de escalabilidad del propio DBMS. e) Los errores de diseño arquitectónico que limitan la capacidad e imposibilitan la escalabilidad de la plataforma. La estructura adoptada por el almacén de datos se debe realizar de tal modo que satisfaga las necesidades de la empresa, dicha elección es clave en la efectividad del Data Warehouse. Existen tres formas básicas de estructura de almacén (Méndez et.al 2003): 1. Data Warehouse central. Consta de un solo nivel con un solo almacén que soporta los requerimientos de información de toda la empresa. 2. Data Warehouse distribuido. Estructura de un solo nivel que particiona para distribuirlo a nivel departamental. 3. Data Warehouse de dos niveles. Combinación de las anteriores que soporta requerimientos de información tanto a nivel empresarial como departamental. 39

49 Los costos de implementar un Data Warehouse a grandes rasgos son el costo de costo de construcción y el costo de mantenimiento y operación una vez construido. El costo de construcción se refiere a los recursos humanos, el tiempo y la tecnología empleada. Dentro de los costos de operación y mantenimiento está el costo de evolución, de crecimiento, el producido por los cambios (Britos, 2003). El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar los procesos empresariales, operacionales y de toma de decisiones, para que esto suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos: impacto en la gente, impactos en los procesos empresariales y de toma de decisiones (Méndez et. al 2003). 40

50 ESTRUCTURA DE UN DATA WAREHOUSE Los Data Warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el Data Warehouse. Figura 3.1 Estructura de los datos en un Data Warehouse Fuente: Cesares,

51 En la figura, se muestran los diferentes componentes del Data Warehouse y son (Cesares, 2006): Detalle de datos actuales. Reflejan las ocurrencias más recientes, es voluminoso ya que se almacena al más bajo nivel de granularidad. Detalle de datos antiguos. Son aquellos que se almacenan sobre alguna forma de almacenamiento masivo, no es frecuente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Datos ligeramente resumidos. Son los que provienen de bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel casi siempre se almacena en disco. Datos completamente resumidos. Estos datos son compactos y fácilmente accesibles. A veces se encuentran en el ambiente de Data Warehouse y en otros, fuera del límite de la tecnología que ampara al Data Warehouse. Meta data. El componente final del Data Warehouse es el de la meta data. Es usada como un directorio para ayudar al analista a ubicar los contenidos del Data Warehouse, es una guía para la trazabilidad de los datos, cómo se transforma y del ambiente operacional así como también es una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los ligeramente resumidos y éstos, con los datos completamente resumidos. 42

52 APLICACIONES DE LOS DATA WAREHOUSE La explotación del Data Warehouse puede realizarse mediante diversas técnicas: Query & Reporting, On-line analytical processing (OLAP), Executive Information System (EIS), Decision Support Systems (DSS), Visualización de la información, Data Mining, etc. Se llaman sistemas OLAP a aquellos sistemas que deben soportar requerimientos complejos de análisis, analizar datos desde diferentes perspectivas y soportar anpalisis complejos contra un volumen ingente de datos. La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos mediante navegación del usuario por los mismos de modo asistido. Existen dos arquitecturas diferentes para los sistemas OLAP: OLAP multidimensional (MD-OLAP) y OLAP relacionales (ROLAP). La arquitectura MD-OLAP requiere unos cálculos intensivos de compilación. Lee de datos pre compilados, y tiene capacidades limitadas de crear agregaciones dinámicamente o de hallar ratios que no se hayan pre calculado y almacenado previamente. La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales (Molina y García. 2006). 43

53 DATA MARTS Se puede definir como un almacén de datos especializado, orientado a un tema, integrado, volátil y variante en el tiempo para apoyar un subconjunto específico de decisiones de administración (Pérez, 2006). Hay tres enfoques principales para la creación de un Data Mart (Molina y García. 2006): 1. Los datos pueden ser simplemente extraídos del Data Warehouse. 2. Un Data Mart puede ser creado de forma independiente. 3. Primero el Data Mart, se crean conforme van siendo necesarios. Un aspecto importante en el diseño de Data Marts es la granularidad de la base de datos. Donde la granularidad se refiere al nivel más bajo de agregación de datos que se mantendrá en la base de datos (Molina y García, 2006). 3.4 Data Warehouse y Data Mining Una vez que se ha definido que es Data Mining y Data Warehouse se pueden definir sus principales características, cuál es la relación que existe entre ellos, su importancia y en que se diferencian. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos orientados al almacenamiento, extracción y análisis de datos. Data Mining es la extracción de información oculta y predecible de grandes bases de datos. Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo es extraer conocimiento útil a partir de la información contenida en las bases de datos. Las herramientas de Data Mining sirven para predecir tendencias y comportamientos, de esta manera permiten a las 44

54 organizaciones tomar decisiones proactivas para adaptarse rápidamente a los cambios del mercado obteniendo así ventajas (Mendez et al. 2003) Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas por consultas en un sistema tradicional. La potencialidad de estas herramientas reside en la capacidad de explorar las bases de datos en busca de patrones ocultos, encontrando información predecible que para un experto serían casi imposible debido al gran volumen de información. El origen de la información que utilizan los algoritmos de Data Mining, por lo general, son datos históricos que se encuentran almacenados en un Data Warehouse. El Data Warehouse dota a las organizaciones de memoria y el Data Mining de inteligencia. (Britos, 2003). Data Warehouse almacena los datos de las bases de datos heterogéneas para que los usuarios consulten sólo un único aspecto. El Data Warehouse en general no intenta extraer la información de los datos almacenados. Data Warehouse estructura y organiza los datos para soportar funciones de administración, Data Mining intenta extraer la información útil, así como predecir las tendencias de los datos (Molina y García, 2006.) La mejor forma de aplicar las técnicas de Data Mining es que éstas se encuentren totalmente integradas con el Data Warehouse ya que esto permite que los cambios originados en las bases de datos operacionales sean replicados al Data Warehouse y puedan ser analizados y monitoreados mediante las técnicas de Data Mining (Mendez et. al 2003). Por qué Data Warehouse y Data Mining? La respuesta es por que se tiene mayor poder de procesamiento y sofisticación del sistema, demanda de mejora del 45

55 acceso a los datos, la necesidad de información para la toma de decisiones y la recopilación de información tiene alto coste (Royo, 2000). Esencialmente, un Data Warehouse organiza los datos eficazmente para realizar Data Mining sobre ellos. Entonces, es esencial la pregunta Es imprescindible tener un Data Warehouse para hacer Data Mining? La respuesta es no. Podría utilizarse un buen SGBD para gestionar una base de datos transaccionales. Por lo tanto, los datos no pueden ser actuales, y los resultados obtenidos desde Data Mining tampoco lo serán. Si se necesita información actualizada, Data Mining entonces se podría hacer Data Mining sobre una base de datos administrada por un SGBD que también tenga características de procesamiento de transacciones (Molina y García. 2006). 46

56 CAPÍTULO IV. TÉCNICAS DE ANÁLISIS DE DATOS EN WEKA

57 4.1 Introducción WEKA es el acrónimo de Waikato Enviroment for Knowledge Analysis, es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente provenientes del aprendizaje automático, sobre cualquier conjunto de datos de usuario. Para ello únicamente se requiere que los datos a analizar se almacenen con un cierto formato, conocido como ARFF (Atribute-Relation File Format). WEKA se distribuye como software de libre distribución desarrollado en Java. Está constituido por una serie de paquetes de código abierto con diferentes técnicas de pre procesado, clasificación agrupamiento, asociación, y visualización, así como facilidades para su aplicación y análisis de prestaciones cuando son aplicadas los datos de entrada seleccionados. Estos paquetes pueden ser integrados en cualquier proyecto de análisis de datos, e incluso pueden extenderse con contribuciones de los usuarios que desarrollen nuevos algoritmos. Con el objeto de facilitar su uso por un mayor número de usuarios, WEKA además incluye una interfaz gráfica de usuario para acceder y configurar las diferentes herramientas integradas ( Análisis de Datos en WEKA, s.f). 4.2 Preparación de los Datos Los datos de entrada a la herramienta, sobre los que operarán las técnicas implementadas, deben estar codificados en un formato específico, denominado Atribute-Relation File Format (extensión arff ). La herramienta permite cargar los datos en tres soportes: fichero de texto, acceso a una base de datos y acceso a 48

58 través de internet sobre una dirección URL de un servidor web. En nuestro caso trabajaremos con ficheros de texto. Los datos deben estar dispuestos en el fichero de la forma siguiente: cada instancia en una fila, y con los atributos separados por comas. El formato de un fichero arff sigue la estructura siguiente (Molina y García. 2006): 1. Cabecera. Se define el nombre de la relación. Su formato es el <NOMBRE_RELACION> Donde < NOMBRE_RELACION> es de tipo String. Si dicho nombre contiene algún espacio será necesario expresarlo entrecomillado. 2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán nuestro archivo junto a su tipo. La sintaxis es la <nombre-del-atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. WEKA acepta diversos tipos, estos son: a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entrecomillada. La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidads de tiempo: dd Día MM Mes yyyy Año HH Horas mm Minutos ss Segundos d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente. 49

59 e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Muestra de Datos Se declaran los datos que componen la relación separando entre comas los atributos y con saltos de línea las 4,3.2 Aunque éste es el modo completo es posible definir los datos de una forma abreviada (sparse data). Si tenemos una muestra en la que hay muchos datos que sean 0 podemos expresar los datos prescindiendo de los elementos que son nulos, rodeando cada una de las filas entre llaves y situando delante de cada uno de los datos el número de atributo. En el caso de que algún dato sea desconocido se expresará con un símbolo de interrogación (? ). Es posible añadir comentarios con el símbolo %, que indicará que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero (Morate, s.f.). 4.3 Ejecución de WEKA WEKA se distribuye como un fichero ejecutable comprimido de java (fichero jar ), que se invoca directamente sobre la máquina virtual de JVM. La herramienta se invoca desde el intérprete de Java, en el caso de usar entorno Windows, bastaría una ventana de comandos para invocar al intérprete Java. 50

60 Una vez invocada, aparece la ventana de entrada a la interfaz gráfica que nos ofrece cuatro opciones posibles de trabajo (Molina y García. 2006): Figura 4.1 Interfaz principal WEKA Fuente: WEKA 3.6.6, 2012 Explorer: es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. El explorador permite tareas de (García, s.f.): 1. Pre procesado de los datos y aplicación de filtros. 2. Clasificación 3. Clustering. 4. Búsqueda de Asociaciones 5. Selección de atributos 6. Visualización de datos 51

61 Experimenter: esta opción permite definir experimentos más cómprelos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados. KnowledgeFlow: esta opción es una novedad de WEKA que permite llevar a cabo las mismas acciones del Explorer, con una configuración totalmente gráfica, inspirada en herramientas de tipo data-flow para seleccionar componentes y conectarlos en un proyecto de minería de datos, desde que se cargan los datos, se aplican algoritmos de tratamiento y análisis, hasta el tipo de evaluación deseada ( Tutorial WEKA, s.f.) Simple CLI: es una abreviación de Simple Client, la interfaz Command-line Interfaz es simplemente una ventana de comandos java para ejecutar las clases de WEKA. La primera distribución de WEKA no disponía de interfaz gráfica y las clases de sus paquetes se podían ejecutar desde la línea de comandos pasando los argumentos adecuados ( Tutorial WEKA, s.f.) 4.4 Pre procesado de los datos El primer paso para comenzar a trabajar con el explorador es definir el origen de los datos. WEKA soporta diferentes fuentes que coinciden con los botones que están debajo de las pestañas superiores. Las diferentes posibilidades son las siguientes: Open File Al pulsar sobre este botón aparecerá una ventana de selección de fichero. Aunque el formato por defecto de WEKA es el arff eso no significa que sea el único que admita, para ello tiene interpretadores de otros formatos. Estos son (Morate, s.f.): 52

62 Figura 4.2 Interfaz OpenFile WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 CSV. Archivos separados por comas o tabuladores. La primera línea contiene los atributos. C4.5. Archivos codificados según el formato C4.5. Unos datos codificados según este formato estarían agrupados de tal manera que en un fichero.names estarían los nombres de los atributos y en el fichero.data estarían los datos en sí. WEKA cuando lee ficheros codificados según el formato C4.5 asume que ambos ficheros (el de definición de atributos y el de datos) están en el mismo directorio, por lo que sólo es necesario especificar uno de los dos. Instancias Serializadas. WEKA internamente almacena cada muestra de los datos como una instancia de la clase instance. Esta clase es serializable 53

63 por lo que estos objetos pueden ser volcados directamente sobre un fichero y también cargados a uno. Para cargar un archivo arff simplemente debemos buscar la ruta donde se encuentra el fichero y seleccionarlo. Si dicho fichero no tiene extensión arff, al abrirlo WEKA intentará interpretarlo, si no lo consigue aparecerá un mensaje de error. Pulsando en Use converter nos dará la opción de usar un interpretador de ficheros de los tipos ya expuestos. Open URL Con este botón se abrirá una ventana que nos permitirá introducir una dirección en la que se definirá dónde se encuentra el fichero. El tratamiento de los ficheros (restricciones de formato, etc.) es el mismo que en el apartado anterior. Figura 4.3 Interfaz OpenURL WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

64 Open DB Con este botón se nos da la posibilidad de obtener los datos de una base de datos. Para configurarla lo primero es definir la url por la cual es accesible la base de datos, la contraseña para acceder, el nombre de usuario, la consulta que queremos realizar y si queremos o no usar el modo de datos abreviado. Figura 4.4 Interfaz OpenDB WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

65 4.5 Clasificación, Agrupamiento, Asociación, Visualización de los Datos Clasificación En este modo podremos clasificar por varios métodos los datos ya cargados. Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto. Brinda facilidades para aplicar esquemas de clasificación, entrenar modelos y evaluar su precisión. Agrupamiento La tercera pestaña, llamada Cluster, accedemos a la sección dedicada a clustering. El funcionamiento es muy similar a clasificación: se elije un método de clustering, se selecciona las opciones pertinentes y empieza el funcionamiento. Una opción propia de este apartado es la posibilidad de ver de una froma gráfica la asignación de las muestras clusters. Esto se puede conseguir activando la opción Store cluster for evaluation, ejecutando el experimento y seguidamente, en la lista de resultados, pulsando el botón secundario sobre el experimento en cuestión y marcando la opción Visualize cluster assignments con esto obtendremos una ventana similar a las del modo explorador para mostrar gráficas en el que nos mostrará el clustering realizado. Asociación La cuarta pestaña muestra la ventana que nos permite aplicar métodos orientados a buscar asociaciones entre datos. Es importante reseñar que estos métodos sólo funcionan con datos nominales. Éste es sin duda el apartado más sencillo y más simple de manejar, carente de opciones, basta con seleccionar un método, configurarlo y verlo funcionar. 56

66 Visualización El modo visualización es un modo que muestra gráficamente la distribución de todos los atributos mostrando gráficas en dos dimensiones, en las que va representando en los ejes todos los posibles pares de combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones entre los atributos en una forma gráfica. Pulsando doble clic sobre cualquier gráfica se nos mostrará en una ventana nueva con la interfaz para gráficas ya explicado. Las opciones que ofrece este modo se activan mediante las barras deslizantes. 4.6 Selección de Atributos La selección de atributos nos permite acceder al área de atributos. El objetivo de estos métodos es identificar, mediante un conjunto de datos que poseen unos ciertos atributos, aquellos atributos que tienen más peso a la hora de determinar su los datos son de una clase u otra. Para empezar un método de selección de atributos lo primero es seleccionar el método de evaluación de atributos (Attribute evaluator). Este método será el encargado de evaluar cada uno de los casos a los que se le enfrente y dotar a casa atributo de un peso específico. El funcionamiento para seleccionar este método es el mismo que con los otros métodos en WEKA. El siguiente paso será elegir el método de búsqueda que será el encargado de generar el espacio de pruebas. El funcionamiento es el mismo al caso anterior. Una vez seleccionado el método de evaluación y el de generación del espacio de pruebas sólo falta elegir el método de prueba, el atributo que representa la clasificación conocida. Una vez acabado el experimento tenemos la opción 57

67 Visualize Reduced Data, que nos mostrará los datos habiendo tomado los mejores atributos en una ventana como la del modo Visualización. Ejemplo 1: Los datos que se procesaron en WEKA para efectos de prueba y ejemplificación fueron los 'Sueldo ' Casado Coche Hijos Sexo 10000,Sí,No,0,H 20000,No,Sí,1,M 15000,Sí,Sí,2,H 30000,Sí,Sí,1,M 10000,Sí,Sí,3,H 40000,No,Sí,0,M 25000,No,No,0,H 20000,No,Sí,0,M 20000,Sí,Sí,3,H 30000,Sí,Sí,2,H 50000,No,No,0,M 8000,Sí,Sí,2,H 20000,No,No,0,M 10000,No,Sí,0,H 8000,No,Sí,0,H Para un mejor entendimiento a continuación se explica en la tabla el nombre del atributo, el tipo y la descripción de cada uno. 58

68 Atributo Tipo Descripción Sueldo Numérico Cantidad monetaria que gana cada empleado. Casado Nominal Si el empleado es o no casado. Coche Nominal Si el empleado tiene o no automóvil. Hijos Numérico Cantidad de hijos de cada empleado. Sexo Nominal Si el empleado es H (hombre) o M (mujer). Tabla 4.1 Descripción de atributos de empleados.arff Fuente: Elaboración propia, Posteriormente, en la se encuentran los datos que se analizaron en WEKA. Cargar registros y filtrado de datos Figura 4.5 Carga de registros WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

69 1 2 3 Figura 4.6 Registro atributo sueldo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Al seleccionar el archivo arff y abrirlo se nos habilitan todas las opciones de la parte inferior. En la parte izquierda señalada con el número 1 muestra los diferentes atributos, dependiendo del atributo seleccionado en la parte derecha señalado con el número 2 se observa la cantidad de registros que tiene ese determinado valor y en la parte señalada con el número 3 se ve gráficamente ese mismo proceso. 60

70 Figura 4.7 Registro atributo casado en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura4.8 Registro atributo coche en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

71 Figura 4.9 Registro atributo hijos en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Figura 4.10 Registro atributo sexo en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

72 Entonces se percibe que en la Fig. 4.6 en el atributo sueldo el mínimo es de 8000 y el máximo es de 50000, en la Fig. 4.7 están casados 7 empleados y 8 no, en la Fig. 4.8 vemos que 4 empleados no tienen coche y 11 sí poseen uno, en la Fig. 4.9 observamos que el mínimo de hijos es 0 y el máximo de hijos por empleado es 3 y por último en la Fig notamos que 9 son hombres y 6 son mujeres. WEKA permite seleccionar atributos para removerlos totalmente del proceso de minería de datos y nos permite también hacer un filtrado de estos atributos. En el botón Choose aparecen diferentes filtros que tiene WEKA en el cual hay unos que han sido supervisados y aceptados por WEKA y otros que aún están en proceso de revisión. Figura 4.11 Selección de filtro en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

73 Clasificador de árbol y ejecución Figura 4.12 Selección de clasificador en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En la segunda pestaña Classify primero se debe dar clic en el botón Choose y elegir un clasificador, en nuestro caso elegimos el J48 que es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos más utilizado. Se trata de un refinamiento y podrá conseguir una probabilidad de acierto ligeramente superior al del anterior clasificador. El parámetro más importante que debemos tener en cuenta es el factor de confianza, que influye en el tamaño y capacidad de predicción del árbol construido (García y Álvarez, s.f.). Primero se tienen que fijar en los datos que nos da la matriz de confusión para ver si se puede o no tomar en cuenta los resultados obtenidos, en este caso obtuvimos: 64

74 === Confusion Matrix === a b <-- classified as 8 1 a = H 0 6 b = M La cual dice que 8 son correctos y 0 incorrectos y en la b 6 son correctos y 1 incorrecto, con esto podemos ver que es confiable y se puede tomar en cuenta. Al visualizar el árbol obtenemos lo siguiente: Figura 4.13 Árbol derivado del clasificador J-48 en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Se observa que el número de hojas es 3 y el tamaño del árbol es de 5 el cual nos dice que si el sueldo es menor o igual a entonces son empleados hombres y si el sueldo es mayor a y tienen menor o igual a 1 hijo son empleadas mujeres, si tienen mayor a 1 hijo son empleados hombres. 65

75 Cluster Esta opción es muy parecida a la de clasificación, con la diferencia de que con cluster se parten los datos en diferentes subdivisiones para así arrojar un análisis de manera independiente, también se debe seleccionar un algoritmo para realizar el cluster, el más eficiente y preciso es el SimpleKMeans, debido a que un aspecto importante es que el clustering basado en probabilidades (Talavera, Gaudioso, 2004), es una aproximación trabajando con tipos de datos continuos y discretos. Por este motivo se decidió por este tipo de cluster. Figura 4.14 Interfaz Cluster SimpleKMeans en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 De donde se puede decir que hizo 3 iteraciones, en la primera lo hizo utilizando todos los datos de la base de datos, donde el sueldo que predomina es , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son hombres. En la 2da iteración utilizó 9 tuplas de las cuales el sueldo que predomina es de , la mayoría no están casados, sí tienen coche, tienen en promedio hijos y la mayoría son mujeres. En la 66

76 última iteración sólo utilizaron 6 tuplas, el sueldo que predominó fue de 15500, a mayoría si están casados, sí tienen coche, tienen 2 hijos en promedio y la mayoría son hombres. Asociación La opción de asociación permite ver la información oculta, detrás de toda la información de los registros ingresados. Primero seleccionamos el algoritmo de asociación, en este caso será el A priori, el cual sólo busca reglas entre atributos simbólicos, por lo cual todos los atributos numéricos deberían ser discretizados previamente (García y Álvarez, s.f.). Figura 4.15 Interfaz Asociación A priori en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6,

77 Selección de atributos Selección atributos determina cuáles son los atributos más importantes para realizar la minería de datos y saber cuál es la variable más influyente dentro del proceso. De igual manera se selecciona cuál será el algoritmo evaluador. En este caso se eligió BestFirst. Figura 4.16 Interfaz Selección Atributos BestFirst en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En este caso la variable que nos recomienda es Casado, entonces seleccionamos Casado y por teoría nos debe decir que Sexo es la variable más influyente. 68

78 Figura 4.17 Interfaz Selección Atributos BestFirst II en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 Donde dice que las variables finales son la 3 y la 5, o sea, Coche y Sexo, donde la más relevante es la 2, por lo tanto es Sexo. Visualización El modo visualización como su nombre lo dice, muestra gráficamente la distribución de todos los atributos mostrando gráficas de sus dimensiones. En las que va representando en los ejes todas las posibles combinaciones de los atributos. Este modo nos permite ver correlaciones y asociaciones de una forma gráfica. 69

79 Figura 4.18 Interfaz Visualizar en WEKA Fuente: Elaboración propia utilizando WEKA 3.6.6, 2012 En conclusión se puede decir que WEKA tiene diversos algoritmos para el análisis de los datos, en este caso en el preprocess se realizó la discretización de nuestras variables: sueldo, casado, coche, hijos, sexo para que así los de tipo numérico fueran valores discretos y con esto poder proseguir con los siguientes algoritmos como son los árboles que dependiendo de la variable que nos interese nos muestra diferente información basada en los patrones. Ó como en el cluster en donde aplica el algoritmo a diferente número de registros y con esto obtiene diferente información para así ver que tanto cambian las tendencias en relación al número de registros que se analizan en el cluster. El algoritmo de asociación es en lo personal de los que más te brindan información útil ya que como vemos en la Fig WEKA nos despliega una serie de reglas de las cuales nosotros podemos ver que variable (y su cantidad del total de registros) se relaciona con que variable, tomando de está última también la cantidad del total de registros. Así como también en la parte final nos dice que tan confiable es la regla, en este caso todas fueron con conf; (1), es decir, con una 70