UNIVERSIDAD AUTONOMA METROPOLITANA

Documentos relacionados

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

SÍNTESIS Y PERSPECTIVAS

AHORRACOM SOLUCIONES AVANZADAS S.L. Avda. de la Industria 13, Oficina Alcobendas, Madrid.

OBJETIVOS GENERALES DE LA EMPRESA

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Portafolio de Servicios y Productos

0 PENSANDO A TRAVÉS DEL JUEGO.

Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas

Elementos requeridos para crearlos (ejemplo: el compilador)

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

activuspaper Text Mining and BI Abstract

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Guía de los cursos. Equipo docente:

Más Clientes Más Rápido: Marketing Online bien enfocado

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Tecnologías de Información y Comunicación II CLASE 10

Colegio Colsubsidio Torquigua IED

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

POLITICA DE PRIVACIDAD.

Qué necesito saber para tener mi sitio web en Internet?

Mediante la aplicación de la metodología a los datos disponibles para este estudio, esta

DE VIDA PARA EL DESARROLLO DE SISTEMAS

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

ANEXO Nº1 FORMATO DE ARCHIVOS PLANOS. ARCHIVO 1 Materia: DETALLE DE FLUJOS DE INGRESOS Y EGRESOS DE CADA BANDA TEMPORAL Periodicidad: Quincenal.

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

La perspectiva humana tiene mucha importancia en la gestión empresarial

Cómo sistematizar una experiencia?

BUSINESS INTELLIGENCE A TRAVÉS

TERMINOS DE USO DE LOS SITIOS WEB PROPIEDAD DE COMERCIALIZADORA SIETE S.A. DE C.V

Seguimiento y evaluación

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Conoce los Tipos de Hosting que Existen y Elige el Mejor para tus Necesidades

e-commerce vs. e-business

Master en Gestion de la Calidad

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Unidad 1. Fundamentos en Gestión de Riesgos

MANUAL DE USUARIOS DEL SISTEMA MESA DE SOPORTE PARA SOLICITAR SERVICIOS A GERENCIA DE INFORMATICA

Dónde podemos encontrar su origen? El origen de las constelaciones encuentra en Bert Hellinger que las desarrolló en los años 80.

Parte I: Introducción

MINING SOLUTIONS LIMITADA

Arquitectura de sistema de alta disponibilidad

POLÍTICA DE PRIVACIDAD PARA APLICACIONES MÓVILES GRUPOCOPESA. 1. información que se obtiene la aplicación y su utilización

I N T E R P R E T A T I V O

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Tesina. Considerada también un texto recepcional, la tesina es un informe científico breve y original con

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Préstamo Tipo Costo Financiero Total (CFT). Préstamos Generales Tasas, Montos y Condiciones de otorgamiento.

Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable

Guía Práctica para el Diseño de Proyectos Sociales

COMUNICADO Nro /11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de Tarjetas de Crédito

CENTENARIA Y BENEMÈRITA ESCUELA NORMAL DEL ESTADO DE QUERETARO ANDRES BALVANERA UNIDAD JALPAN SEMINARIO DE ANALISIS Y TRABAJO DOCENTE

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción.

Máster en Management Inteligente. Saque todo el beneficio de su negocio desarrollando aquello que no se ve: el potencial de sus colaboradores.

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Las nuevas tecnologías contribuyen de forma esencial para que esta comunicación sea efectiva, fluida y útil.

FAQ Parking PPC de SEDO. NicLine

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

INTRODUCCIÓN CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA.

CAPITULO I: PLANTEAMIENTO DEL PROBLEMA

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

VICERRECTORÍA DE ADMINISTRACIÓN Y ASUNTOS ECONÓMICOS DIRECCIÓN DE DESARROLLO DE PERSONAS. Estructura de Cargos y Competencias Institucionales

Capítulo 9. Archivos de sintaxis

Servicio de Marketing

Usos de los Mapas Conceptuales en Educación

MANUAL COPIAS DE SEGURIDAD

Procesos Críticos en el Desarrollo de Software

Ventajas del software del SIGOB para las instituciones

Taller: Planificación Estratégica. Centro de Iniciativas Comunitarias y Base de Fe

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib

Certificación. Contenidos 1. Implantación del SGSI. 2. Auditoría y certificación. 3. La entidad de certificación. 4.

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Proyecto Scratch:

ENSEÑANZAS DE GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS

Reestructurando la vida después del divorcio

CAPITULO I. Introducción. En la actualidad, las empresas están tomando un papel activo en cuanto al uso de sistemas y

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

Introducción a la Firma Electrónica en MIDAS

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

El almacén de indicadores de proceso de negocio en ejecución

Titulo del Elemento. Soluciones Innovadoras para el Éxito de su Negocio

Administración del conocimiento y aprendizaje organizacional.

PREGUNTAS FRECUENTES DE ACL SCRIPTHUB

El modelo de ciclo de vida cascada, captura algunos principios básicos:

Transcripción:

UNIVERSIDAD AUTONOMA METROPOLITANA APLICACIONES DE REGLAS DE ASOCIACIÓN PARA WEB MINING TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACION PRESENTA: ING. JOSE GUADALUPE MEJIA VEGA EN LA UNIVERSIDAD AUTONOMA METROPOLITANA UNIDAD AZCAPOTZALCO DIRIGIDA POR: DR. ENRIQUE POULAIN GARCIA JOSE MEJIA 2002 UNIVERSIDAD AUTONOMA METROPOLITANA DICIEMBRE 2002 TODOS LOS DERECHOS RESERVADOS. ESTA OBRA NO PUEDE SER REPRODUCIDA EN PARTES O EN SU TOTALIDAD POR MEDIO DE FOTOCOPIADORA U OTROS MEDIOS SIN EL PERMISO EXPRESO DEL AUTOR

RESUMEN El crecimiento explosivo de Internet y particularmente de la World Wide Web (WWW), ha hecho cada vez más necesario para las instituciones y empresas utilizar herramientas automatizadas para encontrar, extraer, filtrar y evaluar los recursos de información disponibles. La minería de datos (data mining) ha sido definida como una metodología para la identificación de patrones no triviales validos, nuevos, comprensibles y potencialmente útiles posibles de extraer de un conjunto enorme de datos. Los factores antes mencionados dan lugar a la necesidad de crear sistemas inteligentes, que puedan hacer búsquedas o minería en la Web para obtener conocimiento. El Web mining (minería de datos de la Web) puede definirse como el descubrimiento y análisis de información útil que se puede obtener de la WWW. El presente trabajo tiene como finalidad minar un campo del repositorio de datos que contiene los localizadores uniformes de recursos (URL s o direcciones electrónicas) de los sitios buscados y utilizados por los usuarios de un servidor de Red, estos sitios son analizados y se diseña un algoritmo de búsqueda para asociar los atributos que caracterizan a los empleados de una institución o empresa (estado civil, sexo, nivel, profesión,,,,) a dichos URL`s con la finalidad de encontrar reglas asociadas a alguna característica de búsqueda en la Web, en particular en este caso se presenta la utilización de sitios asociados a la pornografía. Para ello, se analiza el URL mediante búsqueda de patrones dentro del mismo campo. Es decir por medio de las reglas de asociación, que es una técnica de la minería de datos que asocia la pornografía mediante un conjunto de palabras: diccionario, a las variables socioeconómicas de un conjunto de individuos y por otra se determinan los usuarios que visitan sitios Web pornográficos.

NOMBRE: JOSE GUADALUPE MEJIA VEGA GRADO: MAESTRO EN CIENCIAS DE LA CONPUTACION TITULO DE LA TESIS: APLICACIONES DE REGLAS DE ASOCIACION PARA WEBMINING JURADO: M.C. ROBERTO FLORES RODRIGUEZ PRESIDENTE DR. ANA LILIA LAUREANO CRUCES SECRETARIO DR ENRIQUE GRABRIEL POULAIN GARCIA VOCAL FECHA DE APROBACION: 15 de enero del 2003

Queridos jóvenes estudiantes: Les escribo esta carta con el fin de transmitirles un poco de mi experiencia de vida, buscando que contribuya a su formación, a su manera de pensar y de vivir, a su equilibrio emocional, a su sentido de responsabilidad para con ustedes y para con los demás, a su madurez y, sobre todo, a su felicidad producto de un ser y que hacer cotidiano. Son ustedes privilegiados dentro de la sociedad por la razón más importante, su propio valor. El éxito no es hacer bien o muy bien las cosas y tener el reconocimiento de los demás. No es una opinión exterior, es un estado interior. Es la armonía del alma y de sus emociones, que necesita del amor, la familia, la amistad, la autenticidad, la integridad. El ser tan destacado como ustedes significa un privilegio, pero entraña también muchos riesgos que puedan afectar valores muy superiores al éxito profesional, económico, social o político. La fortaleza y el equilibrio emocional están en la vida interior, y en evitar aquellos sentimientos que corroen el alma, la envidia, los celos, la soberbia, la lujuria, el egoísmo, la venganza, la avaricia, la pereza y que son venenos que se ingieren poco a poco. Cuando den, no esperen recibir, queda aroma en la mano que da rosas, no permitan que sentimientos y opiniones negativas dominen su ánimo. El daño emocional no viene de terceros, se fragua y se desarrolla dentro de nosotros. No confundan los valores, ni menosprecien sus principios. El camino de la vida es muy largo, pero se transita muy rápido. Vivan el presente intensa y plenamente, que el pasado no sea un lastre y el futuro sea un estímulo. Cada quien forja su destino y puede influir sobre su realidad, pero no la ignoren. Lo que más vale en la vida no cuesta y cuesta mucho: el amor, la amistad, la naturaleza y lo que sobre ella ha logrado el hombre de formas, colores, sonidos, olores, que percibimos con nuestros sentidos, pero sólo si los tenemos despiertos. Vivan sin miedos y sin culpas; los miedos son los peores sentimientos del hombre, lo debilitan, inhiben su acción y lo deprimen, y las culpas son un lastre enorme en nuestro pensar, al actuar y en la vida. Hacen difícil el presente y obstruyen el futuro. Para combatirlos seamos sensatos, aceptémonos como somos, nuestras realidades, nuestros gozos y nuestras penas. La ocupación desplaza a la preocupación y los problemas al enfrentarlos desaparecen, así los problemas deben hacernos más fuertes, de los fracasos aprender y hacer de los éxitos estímulos callados. Actúen siempre como les dicte su conciencia pues a ésta nunca se le engaña, así los miedos y las culpas serán mínimas. No se encierren, ni arruinen su vida, vívanla con la inteligencia, el alma y

los sentidos despiertos y alerta; debemos conocer sus manifestaciones y educarnos para apreciarlas y disfrutarlas. El trabajo bien hecho no es sólo una responsabilidad con la sociedad, es también una necesidad emocional. Al final nos vamos sin nada, sólo dejamos nuestras obras, familia, amigos, y quizá la influencia, por las ideas que en ellos hayamos dejado. Con mis mejores deseos. Carlos Slim Helú. 25 de agosto de 1996

AGRADECIMIENTOS Muchas personas han influido en mi camino dentro de la universidad en el periodo transcurrido desde que obtuve el título de licenciado hasta llegar a optar por el grado de maestro; afortunadamente, la mayoría de ellas lo han hecho bien. Espero no omitir a ninguna de ellas en estos agradecimientos, y si alguna se me escapa le ruego sea tolerante a mis fallos. En primer lugar quiero expresar mi agradecimiento al Instituto Mexicano del Petróleo, donde me inicie en el mundo de la investigación y la docencia y que me ha animado constantemente en mi camino. Quiero citar aquí al M.C. Roberto Flores, Jefe del Departamento de soporte técnico, quien siempre ha mostrado apoyo y me ha depositado su confianza. Igualmente, quiero manifestar mi agradecimiento al director de este trabajo, Dr. Enrique Poulain García, quien con su asesoramiento científico, sus consejos en la dirección, su estima y el empuje que siempre me ha transmitido ha hecho posible esta memoria de investigación, al igual que ha hecho posible otras muchos proyectos aún más complejos dentro de esta universidad. No puedo dejar de nombrar a los compañeros de Tecnología Informática que han estado en el proyecto desde un principio, con los cuales he tenido unas excelentes relaciones, hemos compartido diversos proyectos y me han apoyado en todos mis pasos; especialmente Ing. Felipe Beltran, Ing. Edel Angel, y al Ing. Alfredo Raymundo; también quiero nombrar al Lic. Alejandro Romero quien me dio la oportunidad de desarrollarme como administrador de base de datos. Quiero además agradecer el trato recibido por el resto de compañeros del departamento y por una larga lista de personas dentro de la comunidad Institucional. Un párrafo adicional a todos los compañeros de sistemas, empezando por mis compañeros Lic. Salvador Velazco, Ing. Roberto Nicolás, Ing. Ismael Ruiz, Lic. Anabel Ceballos, Lic. Martha Melchor, Lic. Alfonso Suarez... Todos ellos expertos en base de datos, la lista es casi interminable, a parte de variable (incrementalmente), por lo cual no puedo nombrar personalmente; dense todos por agradecidos al leer esto. Quedo al servicio de todos ustedes y animo a todos los que tienen que defender sus tesis en un futuro no lejano. Reflejo aquí la cordialidad recibida, con un cariño especial para el Ing. Roberto Nicolás y para los futuros maestros, que tanto me han ayudado y animado, en la revisión del algoritmo minero y además han deseado el buen fin de este trabajo, casi tanto como el del suyo propio.

DEDICATORIA A mi Mamá, Papá y a mis hermanos, por todo el amor y fortaleza que me han dado, porque cada uno de ustedes forma parte de lo que soy, esta tesis es una superación no solo personal sino también familiar, sin ustedes jamás lo hubiera logrado. A mis amigos, por su inmenso cariño y apoyo, por estar conmigo en todo momento. A mis compañeros de trabajo, aquellos que desean siempre lo mejor para mí. A Janet, Teresa y Karen, que tantas alegrías me dan y a las que a veces no dedico el cariño y la paciencia que merecen. A mi amigo y compañero Roberto Nicolás por compartir sus conocimientos, por su gran ayuda y apoyo. Gracias a el he terminado este trabajo A mi asesor de tesis Profesor Enrique Poulain García por su dedicación y tiempo. Al Instituto Mexicano del Petróleo y la UAM-A por darme la oportunidad de aprender en estas dos grandes Instituciones.

ESTRUCTURA DE LA MEMORIA El presente trabajo consta de seis capítulos, bibliografía general y anexos. En capitulo I se presentan los antecedentes de la minería de datos, se proporciona el panorama general de cómo surge a partir de los almacenes de datos o data warehouse (DW) y de la tecnología OLTP (On Line Transaction Process), así como también se enfatiza el crecimiento explosivo de Internet. El capitulo II muestra la justificación (motivación) del presente trabajo de investigación, se aborda el tema de minería de datos desde el punto de vista de almacenamiento masivo de información y alto costo que conlleva el análisis de la información. El capitulo III se dan los objetivos generales y particulares del presente trabajo, se acentúa en la búsqueda de patrones dentro de un conjunto enorme de datos, con una metodología que permita hacer minería de datos: técnica de reglas de asociación. En el IV capitulo se proporciona la metodología, la preparación del archivo para el minado y se hace la descripción del proceso de extracción, transformación y transportación de los datos. También se muestra un diagrama entidad-relación del repositorio y se presentan las preguntas más comunes que el webmining pretende responder. El capitulo V describe que son las reglas de asociación, se mencionan algunas aplicaciones de las mismas y se explica el algoritmo Apriori-i mediante un ejemplo, se abordan los contenidos de la pornografía en la Internet, que es el caso de aplicación del algoritmo y se muestran las gráficas de las reglas de asociación más importantes encontradas en esta investigación y una tabla de elementos de patrones de pornografía. Los posibles riesgos, tanto éticos como profesionales por el uso de la minería de datos se muestran en el capitulo VI, se puede dañar moralmente o invadir la privacidad e integridad de las personas, se presenta un caso real, así como las consideraciones que se deben de tomar en cuenta para no caer en problemas éticos o legales. Finalmente, se incluyen conclusiones de la presente investigación, a continuación se dan las referencias, en su mayoría son de las revistas de IEEE y ELSEVIER. El anexo A muestra la estructura del archivo que se mina en esta investigación y se proporciona el código de los scripts utilizados en el proceso de extracción, transformación y transportación de los datos. El anexo B muestra los recursos requeridos y disponibles para este proyecto.

INTRODUCCION En la actualidad se cuenta con una gran variedad de herramientas para coleccionar enormes cantidades de datos, muchos de ellos han sido continuamente almacenados en bases de datos, las cuales crean una inminente necesidad y grandes oportunidades para encontrar conocimiento que puede estar inmerso en ese gran conjunto de datos y que no es visible a simple vista. Las reglas de asociación es una de las técnicas de la minería de datos la cual tiene como objetivo encontrar reglas fuertes o correlación entre datos. Las reglas descubiertas pueden ayudar a realizar un análisis de los datos mas detallados y analizar los eventos que se encuentran dentro de ellos, por ejemplo: administración de negocios, toma de decisiones, análisis de ventas o la bolsa de valores. En esta tesis se propone y desarrolla una aproximación de lo que son las reglas de asociación, las cuales tienen su origen en la tecnología OLAP (on line analytical process), para ello se emplea una metodología que propone la construcción del repositorio de datos (extracción, transformación y transportación de los datos) para posteriormente implementar un algoritmo asociativo que nos proporciona reglas fuertes basadas en los parámetros frecuencia (support) y confianza (conffidence), nuestro estudio muestra que esta aproximación presenta grandes ventajas en términos de flexibilidad y eficiencia.

INDICE INTRODUCCION 1 ANTECEDENTES 5 2 JUSTIFICACION 8 3 OBJETIVOS GENERALES Y PARTICULARES 13 4 METODOLOGIA 14 4.1 FASE I 15 4.1.1 PROCESAMIENTO Y EXTRACCION DE DATOS 15 4.1.2 TRANSFORMACION DE DATOS 20 4.1.3 TRANSPORTACION DE DATOS 20 4.2 FASE II 22 4.2.1 MINERIA DE DATOS PARA EL WEB 22 4.2.2 VISION GLOBAL 24 4.2.3 EJEMPLO DE SESION DE UN SITIO WEB 26 4.2.4 INTERACTIVIDAD DESDE EL PRINCIPIO 26 4.2.5 ESTADO SOLIDO 27 4.2.6 CONJUNTO DE DATOS 29 5 ASOCIACION DE LA INFORMACION 31 5.1 DESCUBRIENDO REGLAS DE ASOCIACION 34 5.2 APLICACIONES DE LAS REGLAS DE ASOCIACION 38 5.3 ALGORITMO A PRIORI 41 1

5.4 LA PORNOGRAFIA EN EL INTERNET 50 6 LA PRIVACIDAD DE LOS DATOS 72 6.1 DATOS DE CLIENTES, PRIVACIDAD Y MINERIA DE DATOS 72 6.2 PRIVACIDAD Y MINERIA DE DATOS 72 6.3 DIRECTRICES PARA LA PRIVACIDAD 73 6.4 INFORMACION ANONIMA Y NO ANONIMA 74 6.5 DATOS DETALLADOS Y AGRGADOS 74 6.6 INFORMACION PARA OBJETIVO O PARA MEDICION 75 6.7 FUENTES COMBINADAS 75 6.8 ASUNTOS LEGALES ASOCIADOS CON MINERIA DE DATOS 76 CONCLUSIONES 78 REFERENCIAS 79 ANEXO A 81 ANEXO B 88 2

INDICE DE FIGURAS FIGURA 4.1 DIAGRAMA ENTIDAD RELACION 21 FIGURA 5.1 MATRIZ MIF Y EL VECTOR STE 44 FIGURA 5.2 MATRIZ MIF DSPUES DE EJECUTAR EL MIF 45 FIGURA 5.3 ASOCIACION DEL CAMPO ESTADO CIVIL 55 FIGURA 5.4 ASOCIACION DEL CAMPO SEXO 56 FIGURA 5.5 ASOCIACION DEL CAMPO FECHA 56 FIGURA 5.6 ASOCIACION DEL CAMPO FECHA POR DIA 58 FIGURA 5.7 ASOCIACION DEL CAMPO POR DIA DE LA SEMANA 59 FIGURA 5.8 ASOCIACION DEL CAMPO TABULADOR 60 FIGURA 5.9 ASOCIACION DEL CAMPO TABULADOR Y PUESTO 61 FIGURA 5.10 ASOCIACION DEL CAMPO EDIFICIO 62 FIGURA 5.11 ASOCIACION DEL CAMPO CONTENIDO 63 FIGURA 5.12 ASOCIACION DEL CAMPO CODIGO 64 FIGURA 5.13 ASOCIACION DEL CAMPO TIPO DE EMPLEADO 65 FIGURA 5.14 SITIOS PORNOGRAFICOS CON SUPPORT MAYOR A 11000 66 FIGURA 5.15 ASOCIACION DEL CAMPO ESTADO 67 FIGURA 5.16 ASOCIACION DEL CAMPO ZONA 68 3

TABLA 4.1 INDICE DE TABLAS RESUMEN DE TRANSACCIONES DE SERVIDORES PROXY 22 TABLA 4.2 ACCIONES DE UNA SESION WEB 28 TABLA 5.1 CONJUNTO DE TRANSACCIONES ALMACENADAS EN D 42 TABLA 5.2 ITEMS FRECUENTES, IF 42 TABLA 5.3 ITEMS ORDENADOS SEGÚN IF 43 TABLA 5.4 TABLA 5.5 TABLA 5.6 TABLA 5.7 TABLA 5.8 TABLA 5.9 TABLA 5.10 SOPORTE CALCULADO DEL PATRON CONDICIONAL I SOPORTE CALCULADO DEL PATRON CONDICIONAL F SOPORTE CALCULADO DEL PATRON CONDICIONAL A SOPORTE CALCULADO DEL PATRON CONDICIONAL DA SOPORTE CALCULADO DEL PATRON CONDICIONAL CDA SOPORTE CALCULADO DEL PATRON CONDICIONAL D PASO A PASO LAS OPERACIONES PRINCIPALES DEL ALGORITMO 45 46 46 47 47 48 49 TABLA 5.11 PATRONES DE PORNOGRAFIA MAS COMUNES 53 TABLA 5.12 TABLA DE CORRELACIÓN ENTRE LOS PATRONES DE PORNOGRAFÍA 71 4

TITULO APLICACIONES DE REGLAS DE ASOCIACIÓN PARA WEB MINING 1 ANTECEDENTES El crecimiento explosivo de Internet y particularmente de la World Wide Web, ha hecho cada vez más necesario para las empresas utilizar herramientas automatizadas para encontrar, extraer, filtrar y evaluar los recursos de información disponibles. Unido a ello y con la transformación de la Web, como la herramienta primaria para el acceso a cualquier tipo de información, se hace indispensable para las empresas que basan su negocio en Internet poder rastrear y analizar modelos de acceso de usuarios con el fin de cumplir sus objetivos y sus metas. En los últimos años se ha desarrollado un enorme crecimiento en la capacidad de generación y almacenamiento de información, debido a la creciente automatización de procesos, en general, y a los avances tecnológicos en la capacidad de almacenamiento de la información. Conjuntamente, las herramientas de software también han desarrollado un fuerte crecimiento, el proceso de descubrir conocimiento o como es conocida, la minería de datos (data mining) ha sido definida como la identificación de patrones no triviales validos, nuevos, comprensibles y potencialmente útiles de un conjunto enorme de datos definidos así en las ref. [1, 2]. Los factores antes mencionados dan lugar a la necesidad de crear sistemas inteligentes, tanto del lado cliente y del servidor, que puedan hacer búsquedas o minería en la Web para obtener conocimiento. Web mining (minería del Web) puede definirse como el descubrimiento y análisis de información útil en la World Wide Web (WWW). Existen varias técnicas para hacer minería de datos, como son las reglas de asociación ref. [3], reglas de extracción, clustering ref. [4], algoritmos genéticos y redes neuronales ref. [5]. Cada una de ellas se aplica con menor o mayor grado de dificultad a las bases de datos relacionales, en que se ha visto que la primera técnica mencionada es más exitosa que las demás, debido a que su aplicación es inmediata en un lenguaje de cuarta generación, por otra parte, tiene la limitante de ser estrictamente predictiva y no de búsqueda. En el caso de la aplicación de inteligencia artificial es más complejo aterrizar o encontrar un camino que lleve a algoritmos de búsqueda inteligentes debido a que no existe una completa conexión entre las bases de datos relacionales y la inteligencia artificial. La minería de datos es una área nueva de investigación de las ciencias computacionales. Intenta trasladar los objetivos y las tareas propias de la minería 5

de datos al dominio de las bases de datos o en general, al dominio de la información que no esta estructurada para poder encontrar conocimiento en ella. Debido a su reciente desarrollo es recomendable para entender la minería de datos, hacer énfasis en sus dos principales antecedentes: El concepto de Data warehouse y las herramientas OLAP (On Line Analitical Process) como lo plantea la ref. [6]. Un almacén de datos o Data warehouse (DW) es una enorme colección de datos provenientes de sistemas operacionales o mejor conocidos como OLTP (On Line Transaction Process), seleccionados y transformados para facilitar el proceso de análisis de información ref. [7]. Algunas de las características de los llamados Data warehouses son: los datos están separados de los sistemas operacionales (sistemas transaccionales), los datos son transformados lógicamente antes de estar dentro del Data Warehouse, los cuales solo contienen un resumen del sistema operacional ya que estos permiten hacer análisis rápidos y visualizar la información desde varias perspectivas. Los Data warehouses no son un requisito indispensable para hacer minería de datos, pero sientan las bases para poder efectuar una buena minería de datos, como lo detalla la ref. [6]. Por otra parte las herramientas OLTP permiten hacer estructuras correlaciónales o o arreglos tridimensionales llamados cubos de información de los atributos de nuestras entidades, las ref. [8, 9] explican los modelos mas usado, pero estas herramientas no son inteligentes y generan una minería de datos menos robusta, para ello se necesita de un operador para tomar decisiones en el minado de datos. Debido al desarrollo de la tecnología actual, resulta sencillo coleccionar grandes volúmenes de información. Con el uso de almacenes de datos de gran capacidad y densidad, lectura óptica, códigos de barras, las entidades públicas o empresas pueden fácilmente coleccionar información a partir de cada una de las transacciones. Por ejemplo, cuál es el conjunto de artículos que un cliente compra? Un concepto similar es el estado de cuenta mensual de una tarjeta de crédito. En él se describe un conjunto de artículos que el tarjeta-habiente adquirió en ese mes. De igual manera, gobiernos, instituciones públicas y privadas, están en la posibilidad de conjuntar millones y millones de datos de actividades individuales que contienen información altamente detallada sobre montos, fechas, horas, lugares, productos y servicios. Esta información cruda es tan voluminosa que resulta inútil, pues no aporta conocimiento o fundamento para apoyar la toma de decisiones. El resumen de datos para la toma de decisiones es el campo tradicional de la estadística. Por ejemplo, la comparación del valor promedio de la canasta de compra del fin de semana, con el valor promedio entre semana, puede ser un elemento de información para la gestión de una entidad publica, empresa o negocio y puede 6

usarse como base para una política de ofertas o para establecer algunas bases de trabajo como horarios de apertura. Resulta de gran importancia traducir estos grandes volúmenes de datos en información útil. Desde tiempo, es claro que sólo las computadoras pueden manipular rápidamente la inmensa masa de datos y producir reportes que apoyan la toma de decisiones. Sin embargo, los resúmenes estadísticos no son lo único oculto en el mar de datos. La identificación de patrones comunes, asociaciones, reglas generales y nuevo conocimiento es hoy en día de gran interés. Una regla que nos dice que el 80% de los médicos varones tarjeta-habientes compra artículos para dama en la ultima semana de abril o la primera de mayo, puede ser muy útil para orientar y dirigir la publicidad que se incorpora en su estado de cuenta, sin tener que imprimir publicidad sobrante o enviarla a otros tarjetahabientes que no exhiben ese comportamiento. Por eso la minería de datos revela patrones o asociaciones que usualmente son desconocidas, por ello se le ha llamado también descubrimiento de Conocimiento (Knowledge Discovery). 7

2 JUSTIFICACION Utilizando la técnica de la minería de datos que es una área relativamente nueva y que se encarga básicamente, como su nombre lo indica, de excavar los datos con el objetivo de encontrar en ello información que parece interesante y que no es evidente ni fácil de entender a simple vista, este trabajo de tesis pretende alcanzar un conocimiento básico aplicado como lo es trabajo reportado en la ref. [4]. Varios han sido los enfoques aplicados para enfrentar este problema. El análisis matemático y el análisis estadístico proporcionan buenos resultados en la solución del problema, pero estos enfoques tienen como meta la prueba de hipótesis predefinidas y no la búsqueda de patrones no predefinidos en diferentes escenarios de análisis. La minería de datos es un nuevo enfoque que los especialistas en base de datos y/o inteligencia artificial proponen como una solución al problema de adquirir y utilizar la información de las organizaciones buscando patrones de comportamiento para apoyar la toma de decisiones. La minería de datos permite desarrollar y seleccionar una estrategia para construir y aplicar un algoritmo de búsqueda en un proceso complejo para descubrir conocimiento en bases de datos. La minería de Datos o Data Mining es una tecnología nueva concebida a finales de los años 90's, que haciendo uso de las herramientas de ese momento se pudiera lograr el objetivo de encontrar algún conocimiento oculto (patrón, asociación, regla de comportamiento) dentro de las bases de datos para ayudar en la toma de decisiones. Esta tecnología surge principalmente de tres factores: 1) El abaratamiento en los costos de almacenamiento y procesamiento de información (equipos de cómputo y discos duros cada vez más grandes y de precio mas bajo). 2) El desarrollo de nuevas tecnologías, métodos y programas para manejar la información. 3) La cultura de la informatización del procesamiento de datos, que en la actualidad se esta empezando a conocer como la infoera. Se denomina minería de datos (data mining) al análisis de archivos y bitácoras de transacciones con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones que pueden ser útiles para la toma de decisiones. Los seres humanos poseen habilidades extremadamente sofisticadas para detectar patrones y descubrir tendencias. Por tal motivo, una imagen dice más que mil palabras y 8

una gráfica o una tabulación permite, de una mirada, identificar tendencias en el tiempo o relaciones entre dos mediciones de un fenómeno. Por otro lado, no es claro que nuestras habilidades puedan realizar, con la misma eficiencia, la tarea de analizar los miles de millones de datos almacenados electrónicamente al monitorear las transacciones comerciales de una base de datos. Así pues, Data Mining es una solución a muchos de los procesos actuales en los cuales se manejan volúmenes de datos cada vez mayores, de forma tal que nos resulta muy difícil percibir algunas características o anomalías de comportamientos basados solo en el estudio de las bases de datos. De manera más profunda, Data Mining está compuesta por una serie de técnicas (traducidas en algoritmos), la mayoría proveniente de la inteligencia artificial, pero aplicados a las bases de datos. Sin confundirse con un sistema experto, está tecnología se basa mas bien en las orientaciones de los expertos para ver la mejor manera de procesar y encontrar correlaciones, patrones en los datos, en este punto se tienen que considerar los elementos de las bases de datos, minería de datos y algunos elementos de sistemas expertos, de otra manera puede resultar en un modelado erróneo de los datos. El proceso que conlleva la minería de datos comienza desde definir objetivos, es decir cual es el problema en cuestión. Posteriormente una etapa de preprocesamiento de datos, para quitar ruido y prepararlos de forma adecuada al algoritmo. Existe la etapa llamada de Data Mining, en la cual se introducen los datos para el algoritmo y finalmente una etapa de post-procesamiento que consiste en eliminar conocimientos, que muchas veces resultan obvios y solo dejar aquellos que verdaderamente puede servir para una toma de decisión. Descubrir patrones o relaciones útiles en una colección de datos ha recibido tradicionalmente muchos nombres. El término data mining llegó incluso a ser muy desprestigiado en estadística, pues representaba masajear suficientemente los datos hasta que los mismos confirmasen lo que uno quería postular. En este sentido, la minería de datos es un proceso que invierte la dinámica del método científico. En el método científico, primero se formula la hipótesis y luego se diseña el experimento para coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables controladas y cuáles experimentales), se obtiene un nuevo conocimiento. En la minería de datos, se coleccionan los datos y esperamos que de ellos emerjan hipótesis. Queremos que los datos describan o indiquen por qué son como son. La más inocente mirada a los datos por un humano, puede inspirarle una hipótesis. Se debe recordar que los seres humanos tenemos grandes habilidades de generalización e identificación de patrones. Entonces, validar una hipótesis inspirada por los datos en los datos mismos que sea numéricamente significativa, pero que experimentalmente puede no ser necesariamente válida o puede ser incompleta. De ahí que la minería de datos debe presentar un enfoque 9

exploratorio y no necesariamente confirmativo. Por esto, usar la minería de datos para confirmar nuestras hipótesis puede ser peligroso, pues estamos haciendo se puede estar realizando una inferencia poco válida. Afortunadamente, las técnicas de validación desarrolladas a lo largo de los años 80 en el campo del Aprendizaje Automático, hacen posible que las inferencias de la Minería de Datos pueden ser validadas para obtener patrones o asociaciones reales y ciertas y no sólo reflejos de un manipuleo de los datos. El campo del Descubrimiento de Conocimiento en Bases de Datos, denominado en inglés Knowledge Discovery in Data Bases, usualmente abreviado KDD en los congresos y en la prensa, es la convergencia del Aprendizaje Automático, la Estadística, el Reconocimiento de Patrones, la Inteligencia Artificial, las Bases de Datos, la Visualización de Datos, los Sistemas para el Apoyo a la Toma de Decisiones, la Recuperación de Información, y otros muchos campos. Parece, que sólo hasta ahora, existe un nivel de madurez en todas estas áreas, para que sea posible extraer los más bellos diamantes del conocimiento a partir de los datos. Las Bases de Datos proporcionan la infraestructura necesaria para almacenar, recuperar y manipular datos. La construcción y mantenimiento de un almacén de Datos (Data Warehouse) es una actividad que ha cobrado mucha popularidad en estos últimos años. A pesar de que un almacén de Datos es una Base de Datos, su modo de operar y sus aplicaciones son distintos al de una aplicación de Base de Datos para soportar transacciones y la actividad de negocio en línea [10]. Típicamente, el Data Warehouse (DW) almacena y resume información sobre transacciones cotidianas a lo largo del tiempo. Puede que contenga información que ya no es posible reproducir del sistema para la operación cotidiana, es información arcaica pero útil por su crónica histórica del funcionamiento operacional del sistema de información, las ref. [11] [12] hacen una explicación más exhaustiva de los DW. Las consultas al almacén no son tan sistemáticas como las transacciones y usualmente demandan más recursos de cómputo. Resulta incluso conveniente separar los equipos y sistemas de la operación cotidiana de transacciones en línea del Almacén de Datos. El Almacén de Datos hace viable la revisión y el análisis de su información para el apoyo a las decisiones ejecutivas. Un enfoque que ha cobrado fuerza es el Análisis en Línea (en inglés, denominado On-Line Analytical Processing, o OLAP) la ref. [8] hace un análisis del impacto de dicha tecnología. Las herramientas OLAP ofrecen un mayor poderío para revisar, graficar y visualizar información multidimensional, en características temporales, espaciales o propias, pero aunado a que los lenguajes restringidos y estructurados como SQL no son suficientes para el carácter explorador de esta tecnología. La consulta enunciada con SQL es motivada por la asociatividad de cada uno de los campos que se van a minar, que en si son las aplicaciones y los reportes generados de una base de datos en línea, suponen que esta es la información necesaria para la administración cotidiana de la actividad de negocio y que sólo de manera esporádica se requiere de otra información. 10

El análisis de datos almacenados en un Data warehouse tiene un carácter altamente exploratorio. El usuario está en busca de nueva información, de nuevos patrones que le sugieran relaciones entre diferentes aspectos conmensurables de su actividad cotidiana. Si el usuario sabe esas asociaciones, no necesita el análisis de los datos. Las herramientas actuales del OLAP, requieren todavía de una alta participación de un usuario humano, pues son interactivas y requieren la guía de un experto. Sin embargo, se espera que en el futuro la búsqueda de patrones sea más automatizada, simplemente porque los volúmenes de información por analizar crecen mucho más que los recursos humanos para analizarlos. A pesar de que el Descubrimiento de Conocimiento tiene sus inicios en el Aprendizaje Automático o la Estadística, hay ciertas componentes que lo hacen diferente. En particular, el objetivo fundamental es encontrar conocimiento útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos eficientes, debido a las crecientes órdenes de magnitud en los datos. Al mismo tiempo hay un profundo interés por presentar los resultados de manera visual o al menos de manera que su interpretación pueda ser muy clara. Otro aspecto es que la interacción humano-máquina debe ser flexible, dinámica y colaborativa. El resultado de la exploración, en principio, debe ser interesante y su calidad no debe ser afectada por los mayores volúmenes de datos o por el ruido en los datos. En este sentido, los algoritmos de descubrimiento de información deben ser altamente robustos. Desdichadamente, como ya se mencionó, las técnicas de análisis de la información no tienen un desarrollo equivalente, por lo que existe una necesidad de una nueva generación de técnicas y herramientas computacionales que puedan asistir a quien toma decisiones en el análisis automático e inteligente de grandes volúmenes de información. Encontrar conocimiento útil en grandes cantidades de datos es el objetivo principal del área de descubrimiento de conocimiento en bases de datos. No cabe duda de que el valor táctico o estratégico de los grandes almacenes de datos está en proporción directa con la capacidad de analizarlos. Dada la gran gama de hipótesis plausibles que se ajustan a los datos, el problema computacional representa un reto poco enfrentado. Sin embargo, estas nuevas condiciones abren un nuevo mundo de oportunidades a la investigación y al desarrollo de nueva tecnología. El objetivo de este trabajo y del documento es proponer y realizar una investigación en el campo de la minería de datos para aplicarlo a una base de datos relacional construida a partir de la información general que se registra en servidores Web, la aplicación que se propone es especifica para un campo dado pero la metodología que se propone es general y puede ser transferida para diferentes propósitos de búsqueda de patrones en muchos y diferentes campos del conocimiento. 11