Minería de Datos. Fundamentos, Técnicas y Aplicaciones. Ramiro Aguilar Quispe

Documentos relacionados
"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Aprendizaje Computacional. Eduardo Morales y Jesús González

MINERIA DE DATOS Y Descubrimiento del Conocimiento

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

forma de entrenar a la nuerona en su aprendizaje.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

1.1. Introducción y conceptos básicos

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Elementos requeridos para crearlos (ejemplo: el compilador)

Un filtro general de respuesta al impulso finita con n etapas, cada una con un retardo independiente d i y ganancia a i.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) SYLLABO

ETSIINGENIO 2009 DIBUJO DE GRAFOS MEDIANTE ALGORITMOS GENÉTICOS

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

Visión global del KDD

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Parte I: Introducción

Unidad 1. Fundamentos en Gestión de Riesgos

Objetivos Generales. Objetivos específicos. Que el estudiante:

Data Mining Técnicas y herramientas

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

INTELIGENCIA DE NEGOCIO (MASTER UNIVERSITARIO EN INGENIERÍA INFORMÁTICA)

SISTEMAS INTELIGENTES

Trabajo final de Ingeniería

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

Base de datos II Facultad de Ingeniería. Escuela de computación.

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Taxonomía de los principales temas de I A Por: Luis Guillermo Restrepo Rivas

Algoritmos Genéticos. Introduccion a la Robótica Inteligente

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

I SEMANA ELECTRONICA REDES NEURONALES

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

Fundamentos del diseño 3ª edición (2002)

Redes de Kohonen y la Determinación Genética de las Clases

CLASIFICACIÓN NO SUPERVISADA

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

RESUMEN CUADRO DE MANDO

EL MODELO DE DATOS RASTER

1. DATOS DE LA ASIGNATURA

UN ENTORNO A MEDIDA PARA EL DISEÑO Y LA SIMULACIÓN DE MAQUINARIA POR COMPUTADOR

MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL PROGRAMA DE LA ASIGNATURA BASE DE DATOS ESPECIALIDAD INFORMÁTICA.

Finanzas e Investigación de Mercados"

Aprendizaje Automatizado

Portafolio de Servicios y Productos

Describir una metodología sistemática de análisis de los procesos organizacionales y cómo estos pueden ser apoyados por las TI.

El Proceso Unificado de Desarrollo de Software

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Tópicos Avanzados de Análisis y Diseño INGENIERIA DE SOFTWARE ING. MA. MARGARITA LABASTIDA ROLDÁN

Redes Neuronales Artificiales y sus Aplicaciones


Analizar, desarrollar y programar modelos matemáticos, estadísticos y de simulación.

Sistemas de Información Geográficos (SIG o GIS)

TOMA DE DECISIONES II

Capítulo 12: Indexación y asociación

Tema 2. Espacios Vectoriales Introducción

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Minería de Datos. Vallejos, Sofia

VISION ARTIFICIAL APOYADA EN SISTEMAS HÍBRIDOS NEURO-SIMBÓLICOS

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

INGENIERIA EN INGENIERÍA EN SISTEMAS COMPUTACIONALES CLAVE MATERIA OBJETIVO

by Tim Tran:

ANÁLISIS DE DATOS NO NUMERICOS

TEMA 1 Sistemas de información

SIMULACIÓN DE SISTEMAS (I. ELÉCTRICA/I. ELECTRÓNICA)

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

3.1 JUSTIFICACION E IMPORTANCIA DEL PRESENTE TRABAJO DE

Tema 7. Introducción al reconocimiento de objetos

Tecnologías de Información y Comunicación II CLASE 10

ORIENTACIONES SIMCE TIC

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

CONSULTA EN BASES DE DATOS

PRIMAVERA RISK ANALYSIS

IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN

MÁQUINA DE VECTORES DE SOPORTE

SÍNTESIS Y PERSPECTIVAS

Las Matemáticas En Ingeniería

INGENIERÍA DEL SOFTWARE

Unidades temáticas de Ingeniería del Software. Fases del proceso de desarrollo 4ª edición (2008)

IMPACTO DEL DESARROLLO TECNOLOGICO EN LA AUDITORIA

UNIVERSIDAD AUTÓNOMA DE TAMAULIPAS UNIDAD ACADÉMICA MULTIDISCIPLINARIA REYNOSA-RODHE SIMULACIÓN DE SISTEMAS

TÓPICOS AVANZADOS DE BASES DE DATOS

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Probabilidades y Estadística (Computación) Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Ana M. Bianco y Elena J.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Transcripción:

Minería de Datos Fundamentos, Técnicas y Aplicaciones Ramiro Aguilar Quispe

c Ramiro Aguilar Quispe, 2002. Carrera de Informática Facultad de Ciencias Puras y Naturales Universidad Mayor de San Andrés, Bolivia Departamento de Informática y Automática Facultad de Ciencias Universidad de Salamanca, España Imprime: Reprografía Signo C/ Serranos, 31 37008 Salamanca, España. I.S.B.N.: 84-932864-6-X Está permitida la reproducción parcial o total de esta obra siempre que sea con fines educativos no comerciales y se citen a la fuente y al autor. ii

iii A Jelena

iv

Tabla de Contenidos Tabla de Contenidos Lista de Tablas Lista de Figuras Resumen Agradecimientos v xv xvii xxv xxvii I FUNDAMENTOS DE MINERÍA DE DATOS 1 1 Contexto de la Minería de Datos 3 1.1 Aprendizaje Automático... 3 1.2 Necesidad de la Minería de Datos...... 5 1.3 Qué es la Minería de Datos?.... 6 1.3.1 Minería de Datos como Proceso Dual... 6 1.3.2 Minería de Datos como Núcleo... 7 1.3.3 Concepto de Minería de Datos... 7 1.4 Qué no es la Minería de Datos?...... 8 1.4.1 Sistemas de Ayuda a la Dirección... 8 1.4.2 Sistemas de Procesamiento Analítico en Línea... 9 1.4.3 Consulta e Informe...... 10 1.5 Qué puede hacer la Minería de Datos?...... 10 1.5.1 Predicción... 12 v

1.5.2 Clasificación... 13 1.5.3 Estimación... 13 1.5.4 Agrupamiento... 14 1.5.5 Análisis de Asociación... 14 1.5.6 Descripción y Visualización... 14 1.6 El Contexto de Negocio de la Minería de Datos..... 15 1.6.1 Minería de Datos como Herramienta de Investigación... 15 1.6.2 Minería de Datos para Procesos...... 16 1.6.3 Minería de Datos para Mercadeo..... 16 1.6.4 Minería de Datos para Administración de Relaciones de Consumo...... 17 1.7 El Contexto Técnico de la Minería de Datos... 17 1.7.1 Minería de Datos y Aprendizaje Automático...... 18 1.7.2 Minería de Datos y Estadística...... 18 1.7.3 Minería de Datos y Toma de Decisiones..... 19 1.7.4 Minería de Datos y Tecnología de Cómputo... 19 1.8 El Contexto Social de la Minería de Datos.... 19 1.9 Aplicaciones y Tendencias..... 20 1.9.1 Minería de Datos Distribuida... 20 1.9.2 Minería de Datos Multimedia... 21 1.9.3 Minería de Datos Web... 21 1.9.4 Minería de Datos: Seguridad y Confidencialidad.... 21 2 Descubrimiento de Conocimiento en Bases de Datos 23 2.1 Inteligencia de Negocio... 23 2.1.1 Conceptos...... 23 2.1.2 Alcance de la Inteligencia de Negocio... 24 2.1.3 Niveles de Manejo de Información... 25 2.1.4 Del Análisis Multidimensional al Descubrimiento de Conocimiento..... 25 2.1.5 Operaciones Básicas del Análisis Multidimensional... 27 2.2 Proceso de Descubrimiento de Conocimiento... 28 2.2.1 Determinación de Objetivos.... 30 2.2.2 Preparación de Datos... 31 2.2.3 Transformación de Datos..... 33 vi

2.2.4 Minería de Datos... 34 2.2.5 Análisis de Resultados.... 35 2.2.6 Asimilamiento de Conocimiento... 40 2.3 Vista Previa de las Técnicas de Minería de Datos..... 41 2.3.1 Métodos Estadísticos..... 42 2.3.2 Árboles de Inducción... 43 2.3.3 Redes Neuronales Artificiales.... 43 2.3.4 Agrupamiento o Segmentación... 44 2.3.5 Análisis de Asociación... 44 2.3.6 Algoritmos Genéticos.... 44 2.3.7 Lógica Borrosa.... 45 2.3.8 Series Temporales...... 45 II DE LA ESTADÍSTICA AL APRENDIZAJE AUTOMÁ- TICO 47 3 Regresión y Estimación 49 3.1 Conceptos... 49 3.2 El Problema de Regresión... 49 3.2.1 Coeficiente de Determinación de la Regresión... 51 3.3 Regresión Lineal... 52 3.3.1 Proceso de Regresión Lineal..... 52 3.3.2 Regresión de Y sobre X... 52 3.3.3 Regresión de X sobre Y... 54 3.3.4 Ejemplo inicial.... 54 3.3.5 Propiedades de la Regresión Lineal..... 55 3.3.6 Otro ejemplo..... 57 3.4 Regresión Lineal Múltiple...... 58 3.4.1 Determinación de los Coeficientes...... 58 3.5 Regresión Logística...... 59 3.5.1 Asociación entre variables binomiales.... 59 3.5.2 Modelo de Regresión Logística Simple... 60 vii

4 Aprendizaje Bayesiano 63 4.1 Introducción... 63 4.1.1 Teorema de Bayes..... 63 4.2 Variables Continuas y Ruido... 64 4.3 Aprendizaje Probabilístico..... 65 4.4 Principio de Longitud de Descripción Mínima...... 66 4.5 Clasificador Bayesiano Óptimo...... 67 4.6 Clasificador Bayesiano Naive... 67 4.7 Estimación de Probabilidades... 68 4.8 Redes Bayesianas...... 68 4.8.1 Propagación de Probabilidades...... 70 4.8.2 Propagación en Árboles...... 71 4.8.3 Propagación en Poliárboles.... 73 4.8.4 Propagación en Redes Multiconectadas..... 73 4.9 Redes Bayesianas en Minería de Datos...... 74 4.10 Aprendizaje Paramétrico...... 75 4.10.1 Funcionamiento... 75 4.10.2 Variables no Observadas...... 76 4.11 Aprendizaje Estructural...... 78 4.11.1 Árboles... 78 4.11.2 Poliárboles..... 79 4.11.3 Redes Multiconectadas... 80 4.11.4 Mejora Estructural..... 82 III TÉCNICAS DE MINERÍA DE DATOS 83 5 Árboles de Decisión 85 5.1 Qué esunárbol de Decisión?... 85 5.1.1 Representación Gráfica de un Árbol de Decisión... 85 5.1.2 Expresividad de un Árbol de Decisión... 86 5.2 Inducción de Árboles de Decisión a partir de Ejemplos..... 87 5.2.1 Tarea recomendada para la Inducción... 88 5.2.2 Selección del tipo de clasificador y aplicaciones comunes. 89 5.3 Bucle básico.... 90 5.3.1 Entropía... 90 viii

5.3.2 Ganancia de información... 91 5.3.3 Reducción de incertidumbre..... 94 5.4 Arboles de Decisión dentro del Aprendizaje Automático..... 97 5.4.1 Algoritmo ID3.... 98 5.4.2 Algoritmo ID3 Normalizado..... 100 5.4.3 Algoritmos Incrementales...... 100 5.4.4 Algoritmos ID5 e ID5R...101 5.5 Otros Temas de Estudio...103 5.5.1 Sobreajuste ( overfitting )..... 103 5.5.2 Poda ( prunning )......105 5.5.3 Atributos de valores continuos...105 5.5.4 Medidas alternativas en la selección de atributos..... 106 5.5.5 Atributos con valores perdidos...107 5.5.6 Atributos con pesos diferentes.... 107 5.5.7 Algoritmo C4.5....108 5.6 Otros Algoritmos Desarrollados...108 5.6.1 Algoritmo C4.5 Oblicuo...108 5.6.2 Algoritmo C5.0....109 5.7 Redes Neuronales equivalentes a Árboles de Decisión...109 6 Redes Neuronales Artificiales 111 6.1 Introducción...111 6.2 Componentes de las Redes Neuronales Artificiales..... 112 6.2.1 Funciones de Activación...114 6.2.2 Arquitecturas de RNAs...114 6.2.3 Paradigmas de Aprendizaje..... 115 6.3 Entrenamiento de una Unidad Procesadora.... 116 6.3.1 Geometría del funcionamiento de una UPU.... 116 6.3.2 Método del gradiente descendente..... 117 6.3.3 Procedimiento de Widrow-Hoff...118 6.3.4 Procedimiento delta generalizado...... 119 6.4 Redes Neuronales Multicapa..... 119 6.4.1 Método de retropropagación...120 6.4.2 Cambio de Pesos en las Capas de la Red......120 6.4.3 Inicialización y criterio de parada......122 ix

6.4.4 Algoritmo de Aprendizaje..... 122 6.4.5 Generalización, precisión y sobreajuste...... 123 7 Agrupamiento 125 7.1 Qué es el agrupamiento?..... 125 7.2 Reconocimiento Estadístico de Patrones y Redes Neuronales... 127 7.3 Mapas Auto-organizados...... 128 7.3.1 Arquitectura de la red...129 7.3.2 Aprendizaje con la Ecuación Trivial...131 7.3.3 Aprendizaje con la Ecuación Simple...132 7.3.4 Modelos de Vecindarios Neuronales...133 7.3.5 Inicialización y Condición de Parada...135 7.3.6 Algoritmo de Agrupamiento...136 7.4 Cuantificación Vectorial...... 137 7.4.1 Representantes de Clase...... 137 7.4.2 Diversas Actualizaciones...... 137 7.4.3 Algunos Resultados.... 140 7.5 Red Neuronal de Topología Flexible...141 7.5.1 Categorización Adaptativa.... 141 7.5.2 Plasticidad Neuronal en el cerebro.... 142 7.5.3 Red Neuronal de Topología Flexible...142 7.5.4 Funcionamiento...143 8 Análisis de Asociación 147 8.1 Reglas de Asociación...147 8.1.1 Forma de las Regla.....147 8.1.2 Coherencia de una Regla..... 148 8.1.3 Primera Aproximación...148 8.1.4 Descubrimiento de Asociaciones...... 152 8.2 Descubrimiento de Patrones Secuenciales..... 153 8.2.1 Funcionamiento...154 8.3 De las Reglas de Asociación a las Correlaciones..... 157 8.3.1 Implicaciones Negativas...... 157 8.3.2 Reglas de Correlación...158 x

IV TÉCNICAS HÍBRIDAS 161 9 Sistemas de Lógica Borrosa 163 9.1 Conjuntos Borrosos......163 9.1.1 Grado de Pertenencia.... 163 9.1.2 Propiedades de los Conjuntos Borrosos...164 9.2 Sistemas Borrosos...... 166 9.2.1 Variables Linguísticas....166 9.2.2 Enborronamiento...167 9.2.3 Motor de Inferencia..... 168 9.2.4 Modificadores Linguísticos...... 169 9.2.5 Operadores T-Norma y S-Norma...... 171 9.2.6 Base de Reglas....172 9.2.7 Desemborronado...173 9.3 Entrenamiento de Sistemas de Lógica Borrosa...174 9.3.1 Caracterización del Conjunto de Entrenamiento...... 174 9.3.2 Entrenamiento con Universos Fijos..... 175 9.3.3 Entrenamiento con Universos Variables...... 176 10 Algoritmos Evolutivos 179 10.1 Computación Evolutiva...179 10.2 Algoritmos Genéticos..... 180 10.2.1 Metáfora Natural...180 10.2.2 Algoritmo Genético Simple..... 183 10.2.3 Implementación de un Algoritmo Genético..... 184 10.2.4 Proceso de Selección...185 10.2.5 Proceso de Cruzamiento...187 10.2.6 Proceso de Mutación...189 10.2.7 Proceso de Selección de Sobrevivientes...190 10.3 Estrategias Evolutivas.... 191 10.3.1 Representación...191 10.3.2 Estrategias Evolutivas Simples...191 10.3.3 Estrategias Evolutivas Compuestas..... 192 10.3.4 Estrategias Evolutivas Avanzadas...... 193 10.4 Sistemas Clasificadores.... 195 10.5 Programación Genética...197 xi

10.6 Hardware Evolutivo.... 197 10.7 Algoritmos Genéticos en el aprendizaje de Redes Neuronales Artificiales...199 10.7.1 Redes Neuronales Artificiales en el Reconocimiento de Patrones.... 200 10.7.2 Algoritmos Genéticos para el Aprendizaje: Cromosoma y Función Objetivo......201 10.7.3 Proceso de Evolución...202 10.7.4 Algunas Conclusiones y Recomendaciones.... 204 V APLICACIONES 207 11 Gestión de Proyectos Software 209 11.1 Pautas para la Simbiosis entre la Minería de Datos y la Lógica Borrosa...209 11.2 Descripción de la Base de Datos.....210 11.3 Minería de Datos......214 11.3.1 Agrupamiento...214 11.3.2 Reglas de Asociación...218 11.3.3 Árboles de Decisión...220 11.4 Sistema Clasificador Borroso...225 11.4.1 Variables de Entrada.... 225 11.4.2 Variable de Salida..... 226 11.4.3 Reglas Borrosas...227 11.4.4 Funciones de Transferencia.... 229 11.4.5 Resultados del Sistema Clasificador Borroso...232 11.5 Conclusiones.... 233 12 Proyectos Biológicos de Gran Escala 235 12.1 Genoma Humano......235 12.1.1 Genoma Humano Descifrado...235 12.1.2 Coincidencia de Resultados.... 235 12.2 Secuenciación del Genoma Humano.... 236 12.2.1 Qué es el Genoma?....236 12.2.2 Genes....237 xii

12.2.3 Polimorfismos Nucleótidos Simples..... 237 12.2.4 Desafíos Futuros...239 12.3 Bioinformática.... 239 12.3.1 Secuenciación del Cromosoma 22...... 241 12.4 Minería de Datos...250 12.4.1 Descubrimiento de Patrones Secuenciales..... 250 12.4.2 Reglas de Asociación...257 12.4.3 Trabajos Futuros...257 Bibliografía 259 A Teminología del Aprendizaje Automático 267 xiii

xiv

Lista de Tablas 2.1 Jerarquía de elementos de dependencia....... 26 5.1 Ejemplos con atributos multivariados.... 92 5.2 Ejemplos con atributos binarios....... 95 8.1 Conjunto de datos.......149 8.2 Conjunto de reglas de asociación de mayor confianza....... 151 8.3 Conjunto de datos etiquetado mediante la reglas de correlación generadas.......152 8.4 Transacciones de compra de artículos....155 8.5 Porcentajes de compra de los artículos té (t) y café (c)...... 158 9.1 Grados de pertenencia de las edades de personas respecto de los conjuntos borrosos: bebés, jóvenes, adultos y viejos.... 165 9.2 Conjunto de entrenamiento donde cada fila representa una instancia, caso o ejemplo para el accionar de un sistema de lógica borrosa.....175 11.1 Parámetros o atributos de la Base de Datos....210 11.2 Valores de los representantes de clase para los proyectos buenos, regulares y malos usando la distancia Euclideana....214 xv

11.3 Valores de los representantes de clase para los proyectos buenos, regulares y malos usando la distancia de Manhattan..... 216 11.4 Conjunto de reglas de asociación entre los atributos ASIMDY y TIEMPO.......219 11.5 Reglas borrosas de clasificación....228 12.1 Aminoácidos que representan el código genético.....239 12.2 Número de millones de bp s (Mbp), genes etiquetados y componentes no localizados por cromosoma.......240 12.3 Conteo de tripletas localizadas por el árbol de secuencias para las cien mil bp s.......256 12.4 Reglas de asociación para las tripletas válidas por el árbol de secuencias (θ >1500).... 257 xvi

Lista de Figuras 1.1 Ingeniería del Aprendizaje de Datos..... 3 1.2 Un sistema de Inteligencia Artificial..... 4 1.3 La minería de datos como proceso dual entre análisis y síntesis sobre los datos..... 7 1.4 El proceso de minería de datos como núcleo para adquirir conocimiento.... 8 1.5 Posicionamiento de las Técnicas de la Inteligencia Corporativa.. 11 2.1 Estratos de la Inteligencia de Negocio.... 24 2.2 Niveles del manejo de la información.... 26 2.3 Estructura organizacional de una comercial descrita jerárquicamente en la Tabla 2.1..... 27 2.4 Visualización Multidimensional de los datos.... 28 2.5 Etapas del Proceso de Descubrimiento de Conocimiento en Bases de Datos.... 30 2.6 Visualización del histograma de datos.... 32 2.7 Visualización del diagrama de sectores....... 33 2.8 Ejemplo de visualización de las medidas estadísticas usando MineSet para IRIX de Silicon Graphics.... 34 xvii

2.9 Visualización de dispersión o scatterplots usando MineSet para IRIX de Silicon Graphics...... 35 2.10 Estimación del error de clasificación con la técnica Holdout.. 37 2.11 Validación cruzada del aprendizaje para estimar el error en el clasificador...... 38 2.12 Curva de esfuerzo al clasificar correctamente una cantidad de registros....... 39 2.13 Curva promedio del error aprendizaje en función del número de registros....... 40 2.14 Representación de la confusión provocada por los errores de clasificación.... 41 2.15 Curva ROI que representa la precisión en función de la pérdida. 42 3.1 Aproximación de la curva a los puntos de observación... 50 3.2 Aproximación de la superficie f a los puntos de observación... 51 3.3 Regresión de Y sobre X.... 53 3.4 Regresión de X sobre Y.... 54 3.5 Función Sigmoidal Logística.... 61 4.1 Red Bayesiana de tres variables binarias..... 69 4.2 Grafo acíclico donde el evento E en independiente del conjunto de eventos {A, C, D, F, G}.... 70 5.1 Un árbol de decisión con tres niveles, seis nodos y nueve hojas.. 86 5.2 Definición de la función clasificadora para un árbol de decisión binario.... 87 5.3 Árbol de decisión con atributos (nodos) de valores multivaluados. 89 5.4 Gráfico de la función Entropía de rango p(x), x [0, 1].... 91 5.5 Árbol de decisión generado para los ejemplos de la tabla 5.1... 94 xviii

5.6 Representación multidimensional de los ejemplos de la tabla 5.2 96 5.7 Arbol de decisión generado para los ejemplos de la tabla 5.2... 97 5.8 Determinando cuándo empieza el sobreajuste [70]..... 104 5.9 Árbol de decisión de nodos con valores binarios y Red Neuronal equivalente.......109 5.10 Árbol de decisión multivariado y Red Neuronal equivalente.... 110 6.1 Red Neuronal de ocho nodos y cinco unidades procesadoras... 113 6.2 Esquema de una neurona o unidad procesadora...... 113 6.3 Taxonomía de las redes neuronales [9].... 115 6.4 Geometría de una UPU.... 117 6.5 Red neuronal de una capa de entrada y L capas de unidades procesadoras......120 7.1 Distribución de patrones (puntos) no etiquetados..... 125 7.2 Jerarquía de grupos en un conjunto de elementos (puntos).... 126 7.3 Partición jerárquica de grupos en forma de árbol....127 7.4 Agrupamiento por distancia Euclidea, a) pequeña distancia entre grupos y pequeña distancia dentro de los grupos, b) mucha distancia dentro de los grupos y pequeña distancia entre los grupos; y, c) mucha distancia entre los grupos y pequeña distancia dentro de los grupos.....128 7.5 Arquitectura de la red neuronal de Kohonen....129 7.6 Función de energía tipo sombrero mejicano : variación de los pesos en función de la distancia entre las neuronas de salida... 130 7.7 Función de retroalimentación lateral simple....133 7.8 Función de retroalimentación lateral exponencial..... 134 xix

7.9 Interpretación geométrica de la variante LVQ2.1. El punto X se proyecta en la línea conectada m = y m....139 7.10 Aplicaciones de LVQ en la compresión de imágenes. a) Imagen original de 865 Kb; b) Imagen comprimida con LVQ a 74 Kb; c) Imagen comprimida con GVQ a 56 Kb.....140 7.11 Agrupamiento de dígitos escritos a mano (distribución aleatoria de ejemplos).....141 7.12 Agrupamiento de dígitos escritos a mano (agrupaciones por similitudes)......142 7.13 Esquema del cambio de sinapsis entre las neuronas.......143 7.14 Arquitectura de la red neuronal de topología flexible...... 144 8.1 Visualización de reglas de asociación en los datos de la tabla 8.1 150 8.2 Identificación de reglas de asociación de mayor confianza para los datos de la tabla 8.1......151 8.3 Identificación de transacciones y conteo de apariciones.....154 8.4 Combinación de transacciones en cantidad mayor a 2 y combinación de transacciones de cuatro atributos....... 155 8.5 Base de datos con transacciones de compras ordenados por cliente......156 8.6 Combinación de transacciones y descubrimiento de patrones secuenciales......156 9.1 Representación de las funciones de pertenencia de los conjuntos borrosos bebé, jóven, adulto y viejo para la variable linguística edad....166 9.2 Representación de las funciones de pertenencia de la intersección de los conjuntos borrosos jóvenes y viejos....167 xx

9.3 Representación de las funciones de pertenencia de la unión de los conjuntos borrosos jóvenes y viejos....168 9.4 Sistema de Lógica Borrosa...... 169 9.5 Representación de las funciones de pertenencia de la variable linguística temperatura....170 9.6 Enborronamiento del valor de las entradas reales o concretas... 170 9.7 Extracción de salidas por el Motor de Inferencia Borroso..... 171 9.8 Desemborronado de las variables de salida borrosa....173 10.1 Técnicas de la Computación Evolutiva....... 180 10.2 Diagrama de flujo de procesos del algoritmo genético....... 182 10.3 Selección por ruleta de 2 individuos progenitores a partir de una población de 4 individuos.......186 10.4 Selección por muestreo estocástico universal de 2 individuos a partir de una población de 4 individuos.......187 10.5 Proceso de cruzamiento de cromosomas de 8 genes en un punto c =5...188 10.6 Proceso de cruzamiento de cromosomas de 8 genes en dos puntos c 1 =2yc 2 =6....188 10.7 Proceso de cruzamiento uniforme formando un descendiente a partir de 2 progenitores que obedecen el criterio de copia según una máscara de cruce.....189 10.8 Proceso de mutación del gen número 4 de un cromosoma de 8 genes......190 10.9 Proceso de mutación estructural de un cromosoma de 8 genes.. 191 10.10 Estructura general de un Sistema Clasificador....... 196 10.11 Esquema de robot insecto de hardware evolutivo...... 198 xxi

10.12 Dinámica de optimización cuando la solución converge y se halla el óptimo global.......199 10.13 Presencia de óptimos locales en superficies heterogneas.....200 10.14 Esquema de la aplicación de RNAs en el aprendizaje de coberturas de terreno en imágenes satelitales...... 201 10.15 Comportamiento del error promedio utilizando Backpropagation en el problema de aprendizaje de coberturas de terreno en imágenes satelitales....... 202 10.16 Esquema de cruzamiento de los individuos Wij uw jk u y Wv ij W jk v que soportan el problema de aprendizaje de coberturas de terreno en imágenes satelitales....204 10.17 Comportamiento del error promedio utilizando Algoritmos Genéticos en el problema de aprendizaje de coberturas de terreno en imágenes satelitales....... 205 11.1 Distribución de proyectos...... 211 11.2 El proyecto número 267 se desarrolló con mucho tiempo y aunque no representó mucho esfuerzo logró alta calidad..... 212 11.3 Otros puntos de vista de la distribución de proyectos...... 213 11.4 Agrupamiento o generación de valores representantes de clase con el criterio de la distancia Euclideana (proyecto BUENO=1, REGULAR=2 y MALO=3)....215 11.5 Generación de valores representantes de clase (proyecto BUENO=2, REGULAR=1 y MALO=3) usando el criterio de la distancia de Manhattan....217 11.6 Reglas de asociación generadas de la BDs inicial..... 218 11.7 Esquema de clasificación con las reglas de asociación....219 11.8 Árbol de decisión para clasificar a los proyectos en tres grupos.. 221 xxii

11.9 Curva de aprendizaje del árbol de decisión...222 11.10 Curva de esfuerzo para los proyectos buenos....222 11.11 Curva de retorno acumulado de coste para la clasificación de los proyectos buenos.......223 11.12 Árbol de opciones para clasificar a los proyectos en tres grupos. 224 11.13 Representación de las funciones de pertenencia µ Eb, µ Em y µ Ea para la variable linguística esfuerzo.... 226 11.14 Representación de las funciones de pertenencia µ M, µ R y µ B para la variable linguística tipo de proyecto.......227 11.15 Función de transferencia Proyecto vs. Esfuerzo, (a) tiempo corto y calidad baja; (b) tiempo corto y calidad media; y, (c) tiempo corto y calidad alta......229 11.16 Función de transferencia Proyecto vs. Esfuerzo, (a) tiempo medio y calidad baja; (b) tiempo medio y calidad media; y, (c) tiempo medio y calidad alta.....230 11.17 Función de transferencia Proyecto vs. Esfuerzo Estableciendo constante tiempo largo y (a) calidad baja, (b) calidad media y, (c) calidad alta.... 231 11.18 Visualización de proyectos clasificados con el sistema borroso.. 232 12.1 Los cromosomas de la especie humana....... 236 12.2 Bases nucleótidas que forman pares por enlaces de hidrógeno... 238 12.3 Interpretación de los componentes de la doble hélice de la cadena de ADN....242 12.4 Aminoácidos conformantes del Código Genético...... 243 12.5 Modelamiento de los cromosomas en función del número de bp s. Evaluación de la secuenciación por el Consorcio Público hasta diciembre de 2001.......244 xxiii

12.6 Mapeo de SNPs y genes en la porción de 20.0 Mbp - 20.1 Mbp del cromosoma humano 22 [66]......245 12.7 Mapeo de la secuencia de genes del cromosoma 22, porción 33.2 Mbp - 34.2 Mbp (NCBI)......246 12.8 Mapeo de la secuencia de genes del cromosoma 22, porción 33.2 Mbp - 34.2 Mbp (EBI). Debe apreciar la cantidad de genes y marcas detectadas en 1 Mbp...247 12.9 Mapeo de la secuencia de genes del cromosoma 22, porción 33.2 Mbp - 33.3 Mbp (NCBI). En 1 Mbp, se han detectado cuatro genes APOL3, APOL4, APOL2 y APOL1.... 248 12.10 Mapeo de la secuencia de genes del cromosoma 22, porción 33.2 Mbp - 33.3 Mbp (EBI). En el anterior intervalo (1 Mbp) se detecta y confirma el gen APOL3, pero no se detectan otros genes lo cual demuestra el carácter diferenciador de los dos visualizadores (en estas visualizaciones Ensembl maneja más bp s que Entrez lo que amplia el rango de búsqueda de genes, de modo que para Ensembl los genes APOL4, APOL2 y APOL1 estarán en el siguiente intervalo)......249 12.11 Generación del árbol de secuencias. i) CC T ycc G; ii) CCT G y CCG G....251 12.12 Generación y conteo de secuencias de longitud 3.....252 12.13 Árbol de secuencias generado.......253 12.14 Generación y conteo de secuencias de longitud 3.....254 12.15 Reglas de asociación de los codones del árbol de secuencias.... 258 xxiv

Resumen En este trabajo se realiza el análisis y la descripción de las técnicas de la minería de datos y se detallan las aplicaciones realizadas para problemas reales. La obra está dividida en doce capítulos estructurados en cinco partes. La primera parte compuesta de dos capítulos, expresa el entorno o contexto de la minería de datos donde se resalta la diferencia de su implantación como proceso o como visión dentro del paradigma de investigación en el área del aprendizaje automático. La segunda parte marca el inicio de la explicación de las técnicas y se hace énfasis en los principios estadísticos elementales con la intensión de mostrar que el camino empieza en la matemática y la estadística y continúa hacia el enfoque del aprendizaje automático; esta parte tiene dos capítulos. La tercera parte compuesta de cuatro capítulos, especifica los fundamentos, propiedades y puntualizaciones de las técnicas clásicas de la minería de datos; se describen las técnicas supervisadas plasmadas en la Inducción de Árboles y las Redes Neuronales Artificiales y, las técnicas de descubrimiento de conocimiento: Agrupamiento y Análisis de Asociación. La cuarta parte, compuesta de dos capítulos, engloba otras técnicas denominadas híbridas, que amplían la disponibilidad de opciones para el minero de datos. La quinta parte de la obra se orienta a mostrar la aplicación de las técnicas a problemas reales; en dos capítulos se propone el modo de uso e implementación del método tratando de generar espectativas por la eficacia y eficiencia de los algoritmos, sin embargo, se concluye que la aplicación de las técnicas de minería de datos pueden brindar buenas soluciones así como algunas incógnitas. xxv

xxvi

Agradecimientos No hay algo más penoso en la vida que la impotencia de sólo dar gracias por el bien recibido (Anónimo) Deseo expresar mis agradecimientos a todas las personas que de alguna manera han colaborado para la realización de este trabajo. En particular, agradezco a María Moreno por sus observaciones y por la iniciativa para aplicar el método dentro del contexto de la minería de datos. Agradezco a las personas e instituciones que brindaron datos reales sobre los cuales se desarrollaron las aplicaciones, en particular, a Isabel Ramos de la Universidad de Sevilla por los datos sobre los proyectos de software. Gracias a Juan Manuel Corchado por la colaboración en la gestión de este libro, a los profesores del Departamento de Informática y Automática de la Universidad de Salamanca por sus observaciones y opiniones y a los compañeros de trabajo del doctorado. Ramiro Aguilar Quispe Salamanca, España Noviembre, 2002 xxvii

Notación H: Conjunto de hipótesis h: Hipótesis Ξ: Conjunto de ejemplos de entrenamiento X: Ejemplo, instancia (x 1,x 2,..., x N ) X (K) : x 1,x 2,..., x K E: Entropía G() Ganancia de Información R: Reducción de incertidumbre T : Árbol de decisión : Producto de matrices ˆ1: Vector columna unitario W n m : Matriz de pesos de n filas por m columnas. xxviii

Parte I FUNDAMENTOS DE MINERÍA DE DATOS 1

Capítulo 1 Contexto de la Minería de Datos 1.1 Aprendizaje Automático Los zoólogos, psicólogos y otros estudian el aprendizaje en animales y el hombre. El aprendizaje automático (AA) estudia el aprendizaje en las máquinas. Ciertamente, las técnicas del aprendizaje automático derivan de los esfuerzos de los psicólogos que tratan de precisar sus teorías trazando la ruta del aprendizaje animal y humano hacia los modelos computacionales. Así pues, el AA se considera como un marco de trabajo que integra los métodos y técnicas para lograr conocimiento: a partir de un conjunto de datos, se realiza el proceso de aprendizaje automático el cual adquiere el conocimiento que luego puede expresar (ver Fig. 1.1). Datos Aprendizaje Automático Conocimiento Figura 1.1: Ingeniería del Aprendizaje de Datos. 3

4 1.1. Aprendizaje Automático Usualmente, el AA provoca cambios en los sistemas que realizan tareas asociadas con Inteligencia Artificial (IA). Algunas tareas involucran, reconocimiento, clasificación, planificación, control robótico y predicción. Aquellos sistemas en los que se quiere observar mayor autonomía deben producir esos cambios en tiempo real. Estos sistemas llamados agentes perciben y modelan su entorno y calculan acciones apropiadas quizás anticipando sus efectos. Los cambios que ocurren tienen que ver con la estructuración de la base subyacente de su conocimiento. En la Fig. 1.2 se puede apreciar la arquitectura de un agente típico en IA. Señales de sensores Objetivos Percepción Modelo Planificación y Razonamiento Cálculo de la Acción Acciones Figura 1.2: Un sistema de Inteligencia Artificial. Pero, por qué y para qué lograr el aprendizaje en las máquinas? Algunas razones ingenieriles son: Algunas tareas no pueden ser definidas excepto por ejemplos; esto es, se pueden disponer de pares entrada y salida pero no se puede explicar una relación concisa entre ellas. Entonces, sería interesante disponer de Minería de Datos. Fundamentos, Técnicas y Aplicaciones

1. Contexto de la Minería de Datos 5 máquinas que ajusten sus estructuras internas aprendiendo enormes cantidades de ejemplos y posteriormente emitan una salida coherente a la vez que generen una función aproximada con la relación implícita de los ejemplos. Es posible la existencia de enormes cantidades de estructuras de datos con importantes relaciones y correlaciones. Los métodos de AA se usan para extraer esas relaciones (minería de datos). Típicamente, el diseñador humano produce máquinas que deben trabajar en los entornos en los cuales son usados. Sería interesante que la mejora de estas máquinas se haga de forma automática en base a la experiencia. Generalmente, la cantidad disponible de conocimiento sobre ciertas tareas es dificil de codificar explícitamente por los humanos. Las máquinas pueden aprender gradualmente ese conocimiento. Los entornos cambian en el tiempo. Las máquinas pueden adaptarse a estos cambios reduciendo la constante necesidad de rediseño. 1.2 Necesidad de la Minería de Datos Aunque en la década de los sesenta la mayoría de las técnicas de Inteligencia Artificial (IA) fue imposible demostrarlas por el rendimiento de los computadores, hoy se puede observar que el poder operacional de las mismas mejoró tanto, que resolver problemas o demostrar teoremas o conceptos son sólo algunas de las tareas habituales que se realizan. En la década de los ochenta, a partir de la invención del computador de escritorio, hemos visto que la mejora en rendimiento de estas máquinas se produce muy aceleráramente: se decía que la velocidad de los procesadores se duplicaba cada dos años. No cabe duda, que la evolución se acelera. La historia demuestra que en 1906, Stanley, Francis y Freelan a bordo de su aeroplano Stanley Steamer lograron romper el record mundial de velocidad en el aire volando a 122 millas/hora (superando la antigua marca de 15 millas/hora), sin embargo, a finales de 1969 los astronautas del programa de la NASA Apollo, volaron a una velocidad cercana a 25000 millas/h, es decir 223 veces más rápido. También, la historia nos dice que a principios del siglo XX, muchas empresas, en promedio, podían almacenar su información en 10 Minería de Datos. Fundamentos, Técnicas y Aplicaciones