OPTIMIZACIÓN DE REDES BAYESIANAS BASADO EN TÉCNICAS DE APRENDIZAJE POR INDUCCIÓN FACULTAD DE INGENIERÍ A UNIVERSIDAD DE BUENOS AIRES

Documentos relacionados
Problemas donde intervienen dos o más variables numéricas

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Reconciliación de datos experimentales. MI5022 Análisis y simulación de procesos mineralúgicos

1. Lección 7 - Rentas - Valoración (Continuación)

Dicha tabla adopta la forma del diagrama de árbol del dibujo. En éste, a cada uno de los sucesos A y A c se les ha asociado los sucesos B y B c.

Modelos triangular y parabólico

EXPERIMENTACIÓN COMERCIAL(I)

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

EL MÉTODO DE DIFERENCIAS FINITAS POR GUILLERMO HERNÁNDEZ GARCÍA

Tema 4: Variables aleatorias

Relaciones entre variables

Métodos específicos de generación de diversas distribuciones discretas

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

12-16 de Noviembre de Francisco Javier Burgos Fernández

Tema 1.3_A La media y la desviación estándar

Guía de Electrodinámica

UNA FORMA GRÁFICA DE ENSEÑANZA: APLICACIÓN AL DUOPOLIO DE. Dpto. de Métodos Cuantitativos e Informáticos. Universidad Politécnica de Cartagena.

Optimización de Redes Bayesianas basado en Técnicas de Aprendizaje por Inducción

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Análisis de Weibull. StatFolio de Muestra: Weibull analysis.sgp

4. PROBABILIDAD CONDICIONAL

INTRODUCCIÓN. Técnicas estadísticas

Trabajo Especial 2: Cadenas de Markov y modelo PageRank

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA Y LA MODA TEMA 17: LA MEDIANA Y LA MODA

Fugacidad. Mezcla de gases ideales

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

Modelos unifactoriales de efectos aleatorizados

Vida Util, características de la Fiabilidad e Inviabilidad y distribuciones teóricas en el terreno de la fiabilidad

Teoría de Modelos y Simulación Enrique Eduardo Tarifa Facultad de Ingeniería - Universidad Nacional de Jujuy. Generación de Números Aleatorios

Capitalización y descuento simple

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

Cifrado de imágenes usando autómatas celulares con memoria

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

TERMODINÁMICA DEL EQUILIBRIO CAPÍTULO V. EQUILIBRIO DE REACCIÓN QUÍMICA

TEMA 6 AMPLIFICADORES OPERACIONALES

Regresión Lineal Simple y Correlación

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2011 INSTITUTO NACIONAL DE ESTADÍSTICAS

Correlación y regresión lineal simple

Variable aleatoria: definiciones básicas

Condiciones Generales TestQual 2013

LECTURA 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) LA MEDIA ARITMÉTICA TEMA 15: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

Unidad 3 PLANIFICACIÓN DE TIEMPOS, PROGRAMACIÓN DE RECURSOS Y ESTIMACIÓN DE COSTOS DE LA EJECUCIÓN Y MANTENIMIENTO DE LOS STI

FUNDAMENTOS QUIMICOS DE LA INGENIERIA

Efectos fijos o aleatorios: test de especificación

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

TEMA 8: PRÉSTAMOS ÍNDICE

CAPÍTULO IV: MODELOS MATEMÁTICOS Y MODELOS EN RED

CESMA BUSINESS SCHOOL

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

8 MECANICA Y FLUIDOS: Calorimetría

GANTT, PERT y CPM INDICE

DELTA MASTER FORMACIÓN UNIVERSITARIA C/ Gral. Ampudia, 16 Teléf.: MADRID

3. VARIABLES ALEATORIAS.

MÉTODOS PARA PROBAR NUMEROS

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

Tema 1: Análisis de datos unidimensionales

REGRESION LINEAL SIMPLE

TERMODINÁMICA AVANZADA

Profesor: Rafael Caballero Roldán

Vectores VECTORES 1.- Magnitudes Escalares y Magnitudes Vectoriales. Las Magnitudes Escalares: Las Magnitudes Vectoriales:

MATEMÁTICAS para estudiantes de primer curso de facultades y escuelas técnicas

Descripción de una variable

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

La adopción y uso de las TICs en las Microempresas Chilenas

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

REGRESION Y CORRELACION

INSTITUTO DE FÍSICA FACULTAD DE INGENIERÍA

LECTURA N 06: MEDIDAS DE TENDENCIA CENTRAL (PARTE I) TEMA 14: MEDIDAS ESTADISTICAS: DEFINICION Y CLASIFICACION

Pregunta Hoy está nublado, cuál es la probabilidad de que mañana continúe nublado? cuál es la probabilidad de que está nublado pasado mañana?

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

MODELOS DE ELECCIÓN BINARIA

CAPÍTULO 3 METODOLOGÍA. En el siguiente capítulo se presenta al inicio, definiciones de algunos conceptos actuariales

Análisis Matemático en la Economía: Optimización y Programación. Augusto Rufasto

Diseño y Análisis de Experimentos en el SPSS 1

TEMA 4. TRABAJO Y ENERGIA.

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

Reconocimiento de Imágenes Empleando Redes de Regresión General y la Técnica TVS

Equilibrio termodinámico entre fases fluidas

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

Tema 8 - Estadística - Matemáticas CCSSI 1º Bachillerato 1

ALN - SVD. Definición SVD. Definición SVD (Cont.) 29/05/2013. CeCal In. Co. Facultad de Ingeniería Universidad de la República.

TEMA 1: PROBABILIDAD

CAPÍTULO 7 ESTIMACIÓN DE PARÁMETROS

XII. Uso de la Estimación de la Distribución de Probabilidad para Muestras Pequeñas y de la Simulación en la Inferencia de Carteras de Seguros.

Economía de la Empresa: Financiación

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias

Análisis de ruido en detectores ópticos.

Consideremos un sólido rígido sometido a un sistema de fuerzas en equilibrío, es decir

Departamento Administrativo Nacional de Estadística

T. 9 El modelo de regresión lineal

Introducción al riesgo de crédito

Estimación del consumo del consumo diario de gas a partir de lecturas periódicas de medidores

Transcripción:

OTIMIZACIÓN DE REDES BAYESIANAS BASADO EN TÉCNICAS DE ARENDIZAJE OR INDUCCIÓN TESIS DE GRADO EN INGENIERÍA INFORMÁTICA FACULTAD DE INGENIERÍ A UNIVERSIDAD DE BUENOS AIRES TESISTA: Sr. ablo Ezequel FELGAER DIRECTORES: rof. Dr. Ramón GARCÍA-MARTÍNEZ rof. M. Ing. aola BRITOS Laboratoro de Sstemas Intelgentes FEBRERO 2005

OTIMIZACIÓN DE REDES BAYESIANAS BASADO EN TÉCNICAS DE ARENDIZAJE OR INDUCCIÓN TESIS DE GRADO EN INGENIERÍA INFORMÁTICA Laboratoro de Sstemas Intelgentes FACULTAD DE INGENIERÍ A UNIVERSIDAD DE BUENOS AIRES Sr. ablo Ezequel Felgaer Tessta rof. Dr. Ramón García-Martínez Drector FEBRERO 2005

Resumen Una red bayesana es un grafo acíclco drgdo en el que cada nodo representa una varable y cada arco una dependenca probablístca; son utlzadas para proveer : una forma compacta de representar el conocmento y métodos flexbles de razonamento. El obtener una red bayesana a partr de datos es un proceso de aprendzaje que se dvde en dos etapas: el aprendzaje estructural y el aprendzaje paramétrco. En este trabajo se defne un método de aprendzaje automátco que optmza las redes bayesanas aplcadas a clasfcacón medante la utlzacón de un método de aprendzaje híbrdo que combna las ventajas de las técncas de nduccón de los árboles de decsón TDIDT - C4.5 con las de las redes bayesanas. alabras clave : Redes bayesanas. Aprendzaje por nduccón. Clasfcacón. Sstemas ntelgentes híbrdos. Abstract A bayesan network s a drected acyclc graph n whch each node represents a varable and each arc a probablstc dependency; they are used to provde: a compact form to represent the knowledge and flexble methods of reasonng. Obtanng a bayesan network from data s a learnng process that s dvded n two steps: structural learnng and parametrc learnng. In ths paper we defne an automatc learnng method that optmzes the bayesan networks appled to classfcaton usng a hybrd method of learnng that combnes the advantages of the nducton technques of the decson trees TDIDT - C4.5 wth those of the bayesan networks. Keywords : Bayesan networks. Inducton learnng. Classfcaton. Hybrd ntellgent systems.

Índce 1. Introduccón... 1 2. Estado del arte... 5 2.1. Introduccón... 5 2.2. Redes bayesanas... 7 2.2.1. Defncón formal de las redes bayesanas... 8 2.2.2. Representacón del conocmento...11 2.2.3. Independenca condconal...12 2.2.4. Inferenca...15 2.2.5. El aprendzaje en las redes bayesanas...28 2.2.6. Ventajas de las redes bayesanas...36 2.3. Árboles de decsón TDIDT...39 2.3.1. Característcas de los árboles de decsón...39 2.3.2. Construccón de los árboles de decsón...39 2.3.3. Descrpcón general de los algortmos...44 2.3.4. resentacón de los resultados...53 2.4. Marco de la tess...54 3. Descrpcón del problema...55 4. Solucón propuesta...57 4.1. Datos de entrada...57 4.2. Sstema ntegrador...58 4.3. Otros abordajes...60 5. rueba expermental...61 5.1. Descrpcón de los domnos...61 5.1.1. Cáncer...62 5.1.2. Cardología...63 5.1.3. Dengue...64 5.1.4. Hongos...66 5.2. Metodología utlzada...67 5.3. Análss estadístco de los resultados...69 Índce ablo Felgaer

5.3.1. rueba de hpótess estadístcas...69 5.3.2. El test de Wlcoxon para la comparacón de muestras apareadas...71 5.3.3. Aplcacón del test a los resultados...74 5.4. Resultados...75 5.4.1. Cáncer...75 5.4.2. Cardología...77 5.4.3. Dengue...80 5.4.4. Hongos...82 6. Conclusones...85 Referencas...87 A. Casos de uso...95 A.1. Menú Archvo...95 A.2. Menú Red...96 A.3. Menú Nodo...97 A.4. Menú Herramentas...98 A.5. Menú Confguracón...99 A.6. Menú Ayuda... 100 B. Gestón de confguracón... 103 B.1. Identfcacón de la confguracón... 103 B.2. Control de confguracón... 103 B.3. Generacón de nformes de estado... 105 C. Lote de prueba... 107 C.1. lan de pruebas... 107 C.2. Documento de dseño de la prueba... 109 C.3. Especfcacón de los casos de prueba... 110 C.4. Especfcacón del procedmento de prueba... 112 C.5. Informe de los casos de prueba ejecutados... 113 C.6. Informe de la prueba... 115 C.7. Anexo con documentacón de las pruebas realzadas... 116 D. Manual del usuaro... 125 D.1. Introduccón... 125 ablo Felgaer Índce

D.2. Estructuracón del sstema... 125 D.2.1. Menú de opcones... 126 D.2.2. Barra de herramentas... 127 D.2.3. Lsta de nodos... 128 D.2.4. Área de vsualzacón... 128 D.2.5. Barra de estado... 129 D.3. Abrr una red bayesana... 129 D.4. Guardar una red bayesana... 130 D.5. Mnería de datos... 130 D.6. Trabajar con una red bayesana... 134 D.6.1. Instancar nodos... 134 D.6.2. Informacón de la red... 135 D.6.3. Vsualzacón de la red... 137 D.7. Archvos externos... 140 D.7.1. Archvos de redes... 140 D.7.2. Archvos de datos... 143 Índce de fguras Fgura 2.1: Ejemplo de red bayesana...13 Fgura 2.2: Ejemplo de red bayesana...14 Fgura 2.3: The dog barkng problem....22 Fgura 2.4: The dog barkng problem Instancacón del nodo d...25 Fgura 2.5: The dog barkng problem Estado ncal...26 Fgura 2.6: The dog barkng problem Instancacón del nodo h...26 Fgura 2.7: The dog barkng problem Instancacón de los nodos h y f...27 Fgura 2.8 The dog barkng problem Instancacón de los nodos h, f y d...28 Fgura 2.9: Tpos de conexones en un grafo drgdo: a dvergentes, b secuencales y c convergentes...33 Fgura 4.1: Esquema de obtencón de redes bayesanas completas...58 Índce ablo Felgaer

Fgura 4.2: Esquema de obtencón de redes bayesanas C4.5...59 Fgura 4.3: Esquema del proceso de verfcacón del poder predctvo....60 Fgura A.1: Casos de uso Archvo....96 Fgura A.2: Casos de uso Red....97 Fgura A.3: Casos de uso Nodo...98 Fgura A.4: Casos de uso Herramentas....98 Fgura A.5: Casos de uso Confguracón.... 100 Fgura A.6: Casos de uso Ayuda.... 101 Fgura C.1: Abrr una red bayesana 01... 116 Fgura C.2: Ver la tabla de probabldades totales de una red bayesana 04... 117 Fgura C.3: Ordenar la red bayesana en la pantalla 05... 117 Fgura C.4: Instancar un nodo de una red bayesana 06... 118 Fgura C.5: Instancar un nodo de una red bayesana 07... 118 Fgura C.6: Desnstancar un nodo de una red bayesana 08... 119 Fgura C.7: Ver la tabla de probabldades condconales de un nodo de una red bayesana 09... 119 Fgura C.8: Ver la tabla de probabldades totales de un nodo de una red bayesana 10. 120 Fgura C.9: Ver las propedades de un nodo de una red bayesana 11... 120 Fgura C.10: roceso de Mnería de Datos 12... 121 Fgura C.11: Ocultar la barra de estado 13... 121 Fgura C.12: Ocultar la barra de herramentas 15... 122 Fgura C.13; Mostrar los nodos de una red bayesana por nombres 17... 122 Fgura C.14: Mostrar los nodos de una red bayesana por probabldades 18... 123 Fgura C.15: Mostrar los nodos de una red bayesana en los dferentes tamaños posbles 19... 123 Fgura C.16: Ver las referencas respecto a los colores y las formas que se vsualzan en el sstema 20... 124 Fgura D.1: Estructuracón del sstema... 125 Fgura D.2: Abrr una red bayesana... 129 Fgura D.3: Mnería de datos resentacón.... 130 Fgura D.4: Mnería de datos Selecconar archvo.... 131 v ablo Felgaer Índce

Fgura D.5: Mnería de datos Selecconar archvo.... 131 Fgura D.6: Mnería de datos Selecconar nodos raíz.... 132 Fgura D.7: Mnería de datos Selecconar relacones y restrccones... 133 Fgura D.8: Mnería de datos Realzando mnería de datos.... 133 Fgura D.9: Mnería de datos Defnr drecconaldad de las relacones.... 134 Fgura D.10: Instancacón de varables... 135 Fgura D.11: robabldades totales de la red.... 135 Fgura D.12: robabldades condc onales de un nodo.... 136 Fgura D.13: robabldades totales de un nodo.... 136 Fgura D.14: ropedades de un nodo... 136 Fgura D.15: Vsualzacón por Número.... 137 Fgura D.16 Vsualzacón por Nombre.... 138 Fgura D.17: Vsualzacón por robabldad tamaño grande.... 138 Fgura D.18: Vsualzacón por robabldad tamaño pequeño.... 139 Fgura D.19: Referencas de formas y colores del sstema... 139 Índce de gráfcos Gráfco 5.1: Gráfco del poder predctvo para la base de datos Cáncer...75 Gráfco 5.2: Gráfco del poder predctvo para la base de datos Cardología....78 Gráfco 5.3: Gráfco del poder predc tvo para la base de datos Dengue....80 Gráfco 5.4: Gráfco del poder predctvo para la base de datos Hongos....83 Índce ablo Felgaer v

1. Introduccón Una red bayesana es un grafo acíclco drgdo en el que cada nodo representa una varable y cada arco una dependenca probablístca; son utlzadas para proveer: una forma compacta de representar el conocmento y métodos flexbles de razonamento. El obtener una red bayesana a partr de datos es un proceso de aprendzaje que se dvde en dos etapas: el aprendzaje estructural y el aprendzaje paramétrco. En este trabajo se defne un método de aprendzaje automátco que optmza las redes bayesanas aplcadas a clasfcacón medante la utlzacón de un método de aprendzaje híbrdo que combna las ventajas de las técncas de nduccón de los árboles de decsón TDIDT - C4.5 con las de las redes bayesanas. anexos. Esta tess se encuentra estructurada a lo largo de 6 capítulos prncpales y 4 capítulos El capítulo 2 descrbe el estado actual de los campos de estudo relaconados con esta tess. En la seccón 2.1 se presenta una ntroduccón general a la mnería de datos, la seccón 2.2 presenta los conceptos y teorías mportantes relatvas a las redes bayesanas y a lo largo de la seccón 2.3 se presentan los árboles de decsón. En la seccón 2.4 se presenta el marco de nvestgacón en el cual se desarrolló la presente tess. En el capítulo 3 se presenta el contexto de nue stro problema de nterés. En el capítulo 4 se presentan todos los aspectos relatvos de la solucón propuesta. En la seccón 4.1 se descrben las característcas que deben cumplr los datos de entrada que serán analzados y en la seccón 4.2 se presenta la estructura del sstema ntegrador utlzado. La seccón 4.3 presenta antecedentes de otros abordajes para soluconar problemas smlares. En el capítulo 5 se descrben las pruebas que se realzaron para evaluar la efectvdad de la solucón propuesta y se presentan los resultados obtendos. En la seccón 5.1 se realza Introduccón ablo Felgaer 1

una descrpcón de los domnos analzados, en la seccón 5.2 se presenta la metodología utlzada para llevar a cabo las pruebas expermentales, la seccón 5.3 descrbe la teoría en la que se basa el análss estadístco de los resultados y, por últmo, en la seccón 5.4 se exponen los resultados obtendos. En el capítulo 6 se presentan las conclusones extraídas a partr de la nvestgacón realzada y de los resultados obtendos. sstema. El anexo A descrbe los casos de uso analzados para llevar adelante el desarrollo del El anexo B presenta la gestón de confguracón realzada para llevar a cabo el control de cambos y modfcacones al sstema. La seccón B.1 presenta las caracter ístcas prncpales relatvas al desarrollo del sstema, la seccón B.2 ndca la metodología utlzada para llevar a cabo las correccones de errores y gestón de cambos y, por últmo, la seccón B.3 muestra la generacón de los nformes de estado relatvos al desarrollo del sstema. El anexo C descrbe las pruebas realzadas para valdar el correcto funconamento del sstema. En la seccón C.1 se presenta el plan de pruebas, la seccón C.2 descrbe el dseño de las pruebas, en la seccón C.3 se presentan la especfcacón de los casos de prueba a valdar, en la seccón C.4 se muestra el procedmento de prueba para llevar a cabo dcho control, la seccón C.5 ndca los resultados obtendos para cada una de las pruebas ejecutadas, en la seccón C.6 se presenta el nforme fnal con las conclusones obtendas respecto al funconamento del sstema y, por últmo, la seccón C.7 presenta documentacón anexa relatva a las pruebas realzadas. En el anexo D se presenta el manual de usuaro correspondente al sstema de Mnería de Datos medante Redes Bayesanas desarrollado. La seccón D.1 presenta una ntroduccón, la seccón D.2 descrbe la estructura general del sstema, la seccón D.3 explca la operatora para abrr redes bayesanas, la seccón D.4 defne la forma de guardar las redes, la seccón D.5 presenta la herramenta de mnería de datos, la seccón D.6 expone 2 ablo Felgaer Introduccón

la manera de manpular las redes bayesanas a través del sstema y, fnalmente, la seccón D.7 presenta los formatos de archvo de entrada y salda con los que el sstema nteractúa. Tambén se presenta como anexo a este trabajo, un CD-ROM contenendo el códgo fuente del sstema desarrollado y las bases de datos de pruebas utlzadas. Introduccón ablo Felgaer 3

2. Estado del arte 2.1. Introduccón El aprendzaje puede ser defndo como cualquer proceso a través del cual un sstema mejora su efcenca [Smon, 1983]. La habldad de aprender es consderada como una característca central de los sstemas ntelgentes [Frtz et al., 1989; García-Martínez & Borrajo, 2000] y es por esto que se ha nvertdo esfuerzo y dedcacón en la nvestgacón y el desarrollo de esta área. El desarrollo de los sstemas basados en conocmentos motvó la nvestgacón en el área del aprendzaje con el fn de automatzar el proceso de adquscón de conocmentos el cual se consdera uno de los problemas prncpales en la construccón de estos sstemas. Un aspecto mportante en el aprendzaje nductvo es el de obtener un modelo que represente el domno de conocmento y que sea accesble para el usuaro ; en partcular resulta mportante obtener la nformacón de dependenca entre las varables nvolucradas en el fenómeno en los sstemas donde se desea predecr el comportamento de algunas varables desconocdas basados en otras conocdas; una representacón del conocmento que es capaz de capturar esta nformacón sobre las dependencas entre las varables son las redes bayesanas [Cowell et al., 1990; Ramon & Sebastan, 1999]. Se denomna Mnería de Datos al conjunto de técncas y herr amentas aplcadas al proceso no trval de extraer y presentar conocmento mplícto, prevamente desconocdo, potencalmente útl y humanamente comprensble, a partr de grandes conjuntos de datos, con objeto de predecr de forma automatzada tendencas y comportamentos y descrbr de forma automatzada modelos prevamente desconocdos [atetsk-shapro et al., 1991; Chen et al., 1996; Mannla, 1997]. El térmno Mnería de Datos Intelgente [Evangelos & Han, 1996; Mchalsk et al., 1998] refere específcamente a la aplcacón de métodos de aprendzaje automátco [Mchalsk et al., 1983; Holshemer & Sebes, 1991] para descubrr y enumerar patrones presentes en los datos; para estos se desarrollaron un gran número de métodos de análss de datos basados en la estadístca [Mchalsk et al., 1982]. En la medda Estado del arte ablo Felgaer 5

en que se ncrementaba la cantdad de nformacón almacenada en las bases de datos, estos métodos empezaron a enfrentar problemas de efcenca y escalabldad y es aquí donde aparece el concepto de mnería de datos. Una de las dferencas entre al análss de datos tradconal y la mnería de datos es que el prmero supone que las hpótess ya están construdas y valdadas contra los datos, mentras que el segundo supone que los patrones e hpótess son automátcamente extraídos de los datos [Hernández Orallo, 2000]. Las tareas de la mnería de datos se pueden clasfcar en dos categorías: mnería de datos descrptva y mnería de datos predctva [atetsk-shapro et al., 1996; Han, 1999]. Una red bayesana es un grafo acíclco drgdo en el que cada nodo representa una varable y cada arco una dependenca probablístca en la cual se especfca la probabldad condconal de cada varable dados sus padres; la varable a la que apunta el arco es dependente causa-efecto de la que está en el orgen de éste. La topología o estructura de la red nos da nformacón sobre las dependencas probablístcas entre las varables pero tambén sobre las ndependencas condconales de una varable o conjunto de varables dada otra u otras varables; dchas ndependencas smplfcan la representacón del conocmento menos parámetros y el razonamento propagacón de las probabldades. El obtener una red bayesana a partr de datos es un proceso de aprendzaje que se dvde en dos etapas: el aprendzaje estructural y el aprendzaje paramétrco [earl, 1988]. La prmera de ellas consste en obtener la estructura de la red bayesana, es decr, las relacones de dependenca e ndependenca entre las varables nvolucradas. La segunda etapa tene como fnaldad obtener las probabldades a pror y condconales requerdas a partr de una estructura dada. Estas redes [earl, 1988] son utlzadas en dversas áreas de aplcacón como por ejemplo en medcna [Benlnch et al., 1989], cenca [Bckmore, 1994; Breese & Blake, 1995] y economía [Ezawa & Schuermann, 1995]. Las msmas proveen una forma compacta de representar el conocmento y métodos flexbles de razonamento basados en las teorías probablístcas capaces de predecr el valor de varables no observadas y explcar las observadas. Entre las característcas que poseen las redes bayesanas se puede destacar que permten aprender sobre relacones de dependenca y causaldad, permten combnar 6 ablo Felgaer Estado del arte

conocmento con datos [Heckerman et al., 1995; Díaz & Corchado, 1999] y pueden manejar bases de datos ncompletas [Heckerman, 1995; Heckerman & Chckerng, 1996; Ramon & Sebastan, 1996]. 2.2. Redes bayesanas Las redes bayesanas o probablístcas se fundamentan en la teoría de la probabldad y combnan la potenca del teorema de Bayes con la expresvdad semántca de los grafos drgdos; las msmas permten representar un modelo causal por medo de una representacón gráfca de las ndependencas / dependencas entre las varables que forman parte del domno de aplcacón [earl, 1988]. Una red bayesana es un grafo acíclco drgdo las unones entre los nodos tenen defndas una dreccón en el que los nodos representan varables aleatoras y las flechas representan nfluencas causales; el que un nodo sea padre de otro mplca que es causa drecta del msmo. Se puede nterpretar a una red bayesana de dos formas: 1. Dstrbucón de probabldad: Representa la dstrbucón de la probabldad conjunta de las varables representadas en la red. 2. Base de reglas: Cada arco representa un conjunto de reglas que asocan a las varables nvolucradas. Dchas reglas están cuantfcadas por las probabldades respectvas. A contnuacón se descrbrán los fundamentos teórcos de las redes bayesanas y dstntos algortmos de propagacón. Estado del arte ablo Felgaer 7

2.2.1. Defncón formal de las redes bayesanas Una red bayesana es un grafo acíclco drgdo en el que los nodos representan varables aleatoras que pueden ser contnuas o dscretas; en las sguentes defncones se utlzarán letras mayúsculas para denotar los nodos X y las correspondentes letras mnúsculas para desgnar sus posbles estados x. Los estados que puede tener una varable deben cumplr con dos propedades: 1. Ser mutuamente excluyentes, es decr, un nodo sólo puede encontrarse en uno de sus estados en un momento dado. 2. Ser un conjunto exhaustvo, es decr, un nodo no puede tener nngún valor fuera de ese conjunto. A contnuacón se ndcan algunas defncones y notacones propas de la termnología de las redes bayesanas: Nodo Un nodo X es una varable aleatora que puede tener varos estados probabldad de que el nodo x = X = x. x. La X este en el estado x se denotará como Arco Es la unón entre dos nodos y representa la dependenca entre dos varables del modelo. Un arco queda defndo por un par ordenado de nodos X, Y. adre El nodo X es un padre del nodo Y, s exste un arco X, Y entre los dos nodos. 8 ablo Felgaer Estado del arte

Estado del arte ablo Felgaer 9 Hjo El nodo Y es un hjo del nodo X, s exste un arco, Y X entre los dos nodos. robabldad conjunta Dado un conjunto de varables },,, { Z Y X K, la probabldad conjunta especfca la probabldad de cada combnacón posble de estados de cada varable k j z y x k j,,,,,, K K, de manera que se cumple que: 1,,,,, = k j k j z y x K K robabldad condconal Dadas dos varables X e Y, la probabldad de que ocurra j y dado que ocurró el evento x es la probabldad condconal de Y dado X y se denota como y j x. La probabldad condconal por defncón es:, j j x x y x y =, dado 0 > x Análogamente, s se ntercamba el orden de las varables:, j j j y x y y x = A partr de las dos fórmulas anterores se obtene: j j j x y x y x y = esta expresón se conoce como el Teorema de Bayes que en su forma más general es: = j j j j j j y y x y x y x y al denomnador se lo conoce como el Teorema de la robabldad Total.

En las redes bayesanas el conjunto de valores que componen la probabldad condconal de un hjo dados sus padres, se representa en las llamadas tablas de probabldad condconal. Independenca Dos varables X e Y son ndependentes s la ocurrenca de una no tene que ver con la ocurrenca de la otra. or defncón se cumple que Y es ndependente de X s y sólo s: y j, x = y j x, j Esto mplca que: y j x = y j, j x y j = x, j Observacón Es la determnacón del estado de un nodo X = x a partr de un dato obtendo en el exteror del modelo. Evdenca Es el conjunto de observacones e = { X = x, Y = y, K, Z = z} en un momento dado. robabldad a pror Es la probabldad de una varable en ausenca de evdenca. robabldad a posteror Es la probabldad de una varable condconada a la exstenca de una determnada evdenca ; la probabldad a posteror de X cuando se dspone de la evdenca e se calcula como X e. 10 ablo Felgaer Estado del arte

2.2.2. Representacón del conocmento Una red bayesana representa relacones causales en el domno del conocmento a través de una estructura gráfca y las tablas de probabldad condconal entre los nodos, por lo tanto el conocmento que representa la red está compuesto por los sguentes elementos: 1. Un conjunto de nodos { X } que representan cada una de las varables del modelo. Cada una de ellas tene un conjunto exhaustvo de estados { x } mutuamente excluyentes. 2. Un conjunto de enlaces o arcos X, X entre aquellos nodos que tenen una j relacón causal. De esta manera todas las relacones están explíctamente representadas en el grafo. 3. Una tabla de probabldad condconal asocada a cada nodo X ndcando la probabldad de sus estados para cada combnacón de los estados de sus padres. S un nodo no tene padres se ndcan sus probabldades a pror. La estructura de una red bayesana se puede determnar de la sguente manera: 1. Se asgna un vértce o nodo a cada varable X y se ndca de qué otros vértces es una causa drecta; a ese conjunto de vértces causa del nodo X se lo denota como el conjunto π X y se lo llamará padres de X. 2. Se une cada padre con sus hjos con flechas que parten de los padres y llegan a los hjos. 3. A cada varable X se le asgna una matrz x π X que estma la probabldad condconal de un evento X = x dada una combnacón de valores de los X π. Una vez que se ha dseñado la estructura de la red y se han especfcado todas la s tablas de probabldad condconal se está en condcones de conocer la probabldad de una determnada varable dependendo del estado de cualquer combnacón del resto de Estado del arte ablo Felgaer 11

varables de la red; para ello se debe calcular la probabldad a posteror de cada varable condconada a la evdenca; estas probabldades a posteror se podrán obtener de forma nmedata a partr de la probabldad conjunta de todas las varables x, x, K, x. A 1 2 contnuacón se ndca cómo este proceso se ve smplfcado al aplcar la propedad de ndependenca condconal que permte obtener la probabldad conjunta a partr de las probabldades condco nales de cada nodo en funcón de sus padres. 2.2.3. Independenca condconal Como se ndcó anterormente la topología o estructura de una red bayesana no sólo representa explíctamente dependencas probablístcas entre varables, sno que tambén descrbe mplíctamente las ndependencas condconales exstentes entre ellas. La sguente defncón muestra las condcones que deben darse para que dos varables sean condconalmente ndependentes: Una varable X es condconalmente ndependente de otra Y dada una tercer varable Z, s el conocer Z hace que X e Y sean ndependentes. Es decr, s conozco Z, Y no tene nfluenca en X. Esto es: X Y, Z = X Z Esta defncón se traduce a que cada varable es ndependente de todos aquellos nodos que no son sus descendentes una vez que se conocen sus propos nodos padres; a lo largo de este trabajo se utlzarán las palabras nodos y varables como snónmos. Gráfcamente se verfca en los casos en que los nodos X e Y están separados por Z en el grafo. Esto mplca que todos los camnos para r de X a Y pasarán necesaramente por Z [earl, 1988]. or ejemplo, en la red bayesana de la fgura 2.1, {E} es condconalmente ndependente de { A, C, D, F, G} dado {B}; con lo cual E A, B, C, D, F, G = E B ; esto se conoce como Separacón-D. 12 ablo Felgaer Estado del arte

A B C D E F G Fgura 2.1: Ejemp lo de red bayesana. En una red bayesana todas las relacones de ndependenca condconal representadas en el grafo corresponden a relacones de ndependenca en la dstrbucón de probabldad. S enumeramos los nodos de una red bayesana, X, X, 1 2 K X, de manera que se cumpla que cada nodo aparece en la secuenca antes que cualquera de sus hjos, dcha red representa el sguente aserto de ndependenca: Cada varable X es condconalmente ndependente de las varables del conjunto { 1 2 X 1 X, X, K, } conocdos los valores de sus padres. Otra manera de expresarlo es: Conocendo los padres de predecesores. X, éste se hace ndependente del resto de sus La regla de la cadena [earl, 1988] sostene que la probabldad conjunta puede ser calculada como: n 1, x 2, K, x n = xt x1, x2, xt 1 t= 1 x K Estado del arte ablo Felgaer 13

Los asertos de ndependenca condconal junto con las tablas de probabldad condconal nos permten obtener la tabla de probabldad conjunta de todas las varables a partr de las tablas de probabldad condconal de cada varable en funcón de sus padres; de esta forma, aplcando la regla de la cadena conjuntamente con la propedad de ndependenca condconal se obtene: n n 1, x 2, K, xn = xt x1, x 2, Kx t 1 = xt x t t= 1 t= 1 x π El sguente ejemplo muestra el proceso para calcular la probabldad conjunta de varas varables conocda la estructura gráfca de la red y sus respectvas probabldades condconales en funcón de sus padres: h e s r d w g Fgura 2.2: Ejemplo de red bayesana. La fgura 2.2 representa una red bayesana que contene el conjunto de nodo s { d, e, h, r, s, w, g} ; s se elge una ordenacón de los nodos de manera que se cumpla que todo nodo aparece antes que sus hjos se obtene, por ejemplo, el conjunto { h, e, r, s, d, w, g} ; aplcando la regla de la cadena y que cada nodo es ndependente de sus predecesores conocdos sus padres se obtene que: 14 ablo Felgaer Estado del arte

Estado del arte ablo Felgaer 15,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, s g s w s d e h s e r e h g w d s r e h w d s r e h g g w d s r e h d s r e h w s r e h d r e h s e h r h e h g w d s r e h = = = K K La expresón anteror calcula la probabldad conjunta de todos los nodos que componen la red a partr de las probabldades condconales de cada nodo en funcón de sus nodos padres. Dchas ndependencas condconales son mportantes porque smplfcan la representacón del conocmento menos parámetros y el proceso de razonamento o nferenca propagacón de probabldades. 2.2.4. Inferenca 2.2.4.1. Introduccón La nferenca es el proceso de ntroducr nuevas observacones y calcular las nuevas probabldades que tendrán el resto de las varables; por lo tanto dcho proceso consste en calcular las probabldades a posteror y Y X = de un conjunto de varables X después de obtener un conjunto de observacones y Y = donde Y es la lsta de varables observadas e y es la lsta correspondente a los valores observados. El fundamento matemátco en el que se basan las redes probablístcas para llevar a cabo la nferenca es el Teorema de Bayes que como se ndcó en la seccón 2.2.1 se expresa como: = = j j j j j j j j y y x y x y x y x y x y Las probabldades a posteror, y Y X =, se pueden obtener a partr de la probabldad margnal Y X que a su vez puede obtenerse de la probabldad conjunta,,, 2 1 x x x K sumando los valores para todas las varables que no pertenezcan al conjunto Y X. En la práctca, esto no es vable por el tempo necesaro para llevarlo a cabo ya que ncrementar el número de nodos de la red aumentaría exponencalmente el número de

sumas necesaras; por este motvo se han desarrollado varos algortmos de propagacón que se ctan a contnuacón. 2.2.4.2. Algortmos de propagacón Una de las ventajas de dsponer de una estructura gráfca de las relacones entre las varables es que se puede utlzar esta nformacón para reducr el número de operacones necesaras para obtener las probabldades a posteror. Exsten varos métodos computaconales que aprovechan la estructura gráfca para propagar los efectos que las observacones del mundo real tenen sobre el resto de las varables de la red; las dferencas entre ellos se basan prncpalmente en la precsón de los resultados y en el consumo de recursos durante el tempo de ejecucón. Los algortmos de propagacón se dvden ncalmente en exactos o aproxmados según cómo calculen los valores de las probabldades. Los métodos exactos calculan los valores por medo del teorema de Bayes mentras que los métodos aproxmados utlzan técncas teratvas de muestreo en las que los valores se aproxmarán más o menos a los exactos dependendo del punto en que se detenga el proceso. Los algortmos de propagacón dependen del tpo de estructura de la red bayesana, exstendo las sguentes tres topologías de red : Árboles seccón 2.2.4.2.1, olárboles seccón 2.2.4.2.2, y Redes multconectadas seccón 2.2.4.2.3. 2.2.4.2.1. ropagacón en árboles Cada nodo corresponde a una varable dscreta A = A, A, K, A } con su respectva { 1 2 n matrz de probabldad condconal B A = B j A. Dada certa evdenca E 16 ablo Felgaer Estado del arte

Estado del arte ablo Felgaer 17 representada por la nstancacón de certas varables la probabldad posteror de cualquer varable B es, por el teorema de Bayes: E B B E E B = ya que la estructura de la red es un árbol, el nodo B la separa en dos subárboles; de esta manera podemos dvdr la evdenca en dos grupos: E : Datos en el árbol que cuya raíz es B. + E : Datos en el resto del árbol. Entonces:, E B B E E E B + = pero dado que ambos son ndependentes, se aplca nuevamente Bayes y se obtene: B E E B E B + =α donde α es una constante de normalzacón. Esto separa la evdenca para actualzar la probabldad de B ; además se observa que no se requere de la probabldad a pror excepto en el caso de la raíz donde dado que dcho nodo no posee padres se tene que: A E A = + ara smplfcar el desarrollo se defnen los sguentes térmnos: + = = E B B B E B π λ

Entonces: B E = απ B λ B Debdo a que por la propedad de ndependenca condconal seccón 2.2.3 los hjos son condconalmente ndependentes dado el padre: = Ek B = λ B λ B k k k donde E K corresponde a la evdenca que provene del hjo k de B denotado por S k. Condconando cada térmno en la ecua cón anteror respecto de todos los posbles valores de cada nodo hjo se obtene: k k λ B = Ek B, S j S j B k j Dado que B es condconalmente ndependente de la evdenca bajo cada hjo dado éste y usando la defncón de λ : k k λ B = S j B λ S j k j En forma análoga se obtene una ecuacón para π ; prmero se la condcona sobre todos los posbles valores del padre: π + + B = B E, Aj Aj E j Luego podemos elmnar + E del prmer térmno dada ndependenca condconal. El segundo térmno representa la probabldad posteror de A sn contar la evdenca del subárbol de B, por lo que podemos expresarla usando la ecuacón para B j E y la descomposcón de λ. B Aj απ Aj k Aj π B = λ j k 18 ablo Felgaer Estado del arte

donde k ncluye a todos los hjos de A excepto B. Medante estas ecuacones se ntegra un algortmo de propagacón de probabldades en árboles donde cada nodo guarda los valores de los vectores π y λ así como las matrces de probabldad ; la propagacón se hace por un mecansmo de paso de mensajes en donde cada nodo envía los mensajes correspondentes a su padre e hjos: Mensaje al padre nodo B a su padre A : λ B A = B j A λ B j j Mensaje a los hjos nodo B a su hjo π k S k : B = απ B λ B j l k l j Al nstancarse certos nodos, éstos envían mensajes a sus padres e hjos y se propagan hasta llegar a la raíz u hojas o hasta encontrar un nodo nstancado; así que la propagacón se hace en un solo paso en un tempo proporconal al dámetro de la red. Esto se puede hacer en forma teratva nstancando certas varables y propagando su efecto y luego nstancando otras varables y propagando la nueva nformacón combnando ambas evdencas. 2.2.4.2.2. ropagacón en polárboles Un polárbol es una red en la que un nodo puede tener varos padres pero sn exstr múltples trayectoras entre nodos red conectada en forma senclla SCG. El algortmo de propagacón es muy smlar al de árboles; la prncpal dferenca es que se requere de la probabldad conjunta de cada nodo dado todos sus padres: B A, K, A 1 n Estado del arte ablo Felgaer 19

En forma análoga al ncso anteror podemos deducr una expresón de la probabldad en un nodo cualquera B en térmnos de sus padres e hjos: + + B E = α B E1, K, En E1 B L Em B A partr de esta ecuacón se puede tambén obtener un mecansmo de propagacón local smlar al de árboles con el msmo orden de complejdad. 2.2.4.2.3. ropagacón en redes multconectadas Una red multconectada es un grafo no conectado en forma senclla, es decr, en el que hay múltples trayectoras entre nodos MCG; en este tpo de red probablístca los métodos anterores ya no aplcan pero exsten otras técncas alternatvas que se detallan a contnuacón: Condconamento: Al nstancar una varable de la red, ésta bloquea las trayectoras de propagacón lo cual mplca que s se asumen valores para un grupo selecconado de varables, es posble descomponer la gráfca en un conjunto de SCG; este método consste en realzar el proceso de propagacón de la evdenca para cada valor posble de dchas varables y luego promedar las probabldades ponderadas. Smulacón estocástca: Se asgnan valores aleatoros a las varables no nstancadas, se calcula la dstrbucón de probabldad y se obtenen valores de cada varable dando una muestra; se repte el procedmento para obtener un número aprecable de muestras y en base al número de ocurrencas de cada valor se determna la probabldad de dcha varable. Agrupamento: El método de agrupamento consste en transformar la estructura de la red para obtener un árbol medante agrupacón de nodos usando la teoría de grafos [Laurtzen, 1988]. ara ello se parte de la gráfca orgnal y se sguen los sguentes pasos: 1. Se trangularza el grafo agregando los arcos adconales necesaros. 20 ablo Felgaer Estado del arte

2. Se dentfcan todos los conjuntos de nodos totalmente conectados clques. 3. Se ordenan los clques de forma que todos los nodos comunes estén en un solo clque anteror su padre. 4. Se construye un nuevo grafo en que cada clque es un nodo formando un árbol de clques. ara la propagacón de probabldades se utlza este árbol de macro nodos clques obtenendo la probabldad conjunta de cada claque, a partr de la cual se puede obtener la probabldad ndvdual de cada varable en el clque. En general, la propagacón en una red probablístca con una estructura compleja es un problema de complejdad N-duro [Cooper, 1990]; sn embargo en muchas aplcacones práctcas la estructura de la red no es tan compleja y los tempos de propagacón son razonables. 2.2.4.2.4. Ejemplo de propagacón A contnuacón se procederá a mostrar un ejemplo de aplcacón del proceso de propagacón de probabldades a través del algortmo de paso de mensajes para redes smplemente conectadas que de descrbó anterormente. ara ello se utlzará una red llamada The dog barkng problem fgura 2.3 que consttuye uno de los ejemplos más utlzados al momento de analzar las redes bayesanas; el msmo fue publcado orgnalmente por Charnak [Charnak, 1991]. Estado del arte ablo Felgaer 21

b f d l h Fgura 2.3: The dog barkng problem. Todas las varables nvolucradas son bnaras y en la sguente tabla se descrben las probabldades a pror y condconales de las varables del domno : f b l f l!f d f,b d f,!b d!f,b d!f,!b h d h!d S 0.15 0.01 0.60 0.05 0.99 0.90 0.97 0.30 0.70 0.01 No 0.85 0.99 0.40 0.95 0.01 0.10 0.03 0.70 0.30 0.99 Tabla 2.1: robabldades condconales de la red The dog barkng problem ropagacón ncal 1. Todos los mensajes λ y π de cada nodo son ncalzados en 1. 2. Las probabldades de los estados de los nodos raíz son datos ver tabla 2.1. 3. A contnuacón se esta en condcones de calcular las probabldades de los estados de cada uno de los nodos que son hjos drectos de los nodos raíz a partr de las matrces de probabldad condconal. Esto lo logramos propagando los mensajes π. 22 ablo Felgaer Estado del arte

Estado del arte ablo Felgaer 23 La fórmula matemátca para el mensaje π es: ara un padre: mensaje π a c en el estado con el padre p. j j j p p c ara múltples padres: mensaje π a c en el estado con los padres n a,,k. z k j z k j z k j n b a n b a c,,,,,, K L K 4. Luego la probabldad para cada estado de los nodos es smplemente la suma normalzada de los mensajes π. En este ejemplo la probabldad ncal de que el nodo l se encuentre en el estado : 2 2 1 1 f f l f f l Normalzado l + = La probabldad ncal de que el nodo d se encuentre en el estado :,,,, 2 2 2 2 1 2 1 2 2 1 2 1 1 1 1 1 b f b f d b f b f d b f b f d b f b f d Normalzado d + + + + = 5. A contnuacón se repte el proceso desde el paso 3 propagando haca abajo por toda la red de la msma manera hasta que todos los nodos hayan sdo calculados Una vez que se realzó la propagacón ncal, la red bayesana se encuentra en condcones de recbr nuevas observacones y recalcular las probabldades del resto de las varables en funcón de dchos valores.

Instancacón de nodos Cuando un nodo es nstancado en alguno de sus valores: 1. A la evdenca lambda para dcho estado se le asgna el valor 1. 2. A la probabldad para dcho estado se le asgna el valor 1. 3. A la probabldad para cada uno de los estados restantes se les asgna el valor 0. 4. Los mensajes λ y π son envados haca sus padres e hjos respectvamente. Los mensajes π son análogos a los expuestos en el proceso de propagacón ncal. La fórmula matemátca para el mensaje λ es: ara un padre: mensaje λ a p en el estado k desde el hjo c. j c p λ c j k j Observar que λ c corresponde a la evdenca λ para el estado j del nodo c. En j los casos en que sean nodos nstancados, el valor será gual a 1 para el estado nstancado y 0 para el resto de ellos. ara múltples padres: mensaje λ a p en el estado k desde el hjo c. k p c p, a1, K, n λ c j j k j Observar que p corresponde a la evdenca π para el estado k del nodo p. En k los casos en que sean nodos nstancados, el valor será gual a 1 para el estado nstancado y 0 para el resto de ellos. 24 ablo Felgaer Estado del arte

5. La propagacón de los mensajes contnúa como se ndca en el paso 4 de manera recursva respetando las sguentes reglas. ropagacón de mensajes Los mensajes π no pueden propagarse a través de nodos nstancados. b f π λ d π l h Fgura 2.4: The dog barkng problem Instancacón del nodo d or ejemplo se tene la red con el nodo d nstancado fgura 2.4 y luego se nstanca el nodo b. Esta últma nstancacón propagará un mensaje π haca el nodo d pero no haca h n a nnguno de sus otros hjos, s los tuvera. Los mensajes λ no son bloqueados por los nodos nstancados como se vo anterormente. Sn embargo son bloqueados por nodos convergentes que no tenen evdenca lambda. or ejemplo s el nodo d o un hjo de este no estuveran nstancados entonces no se envaría nngún mensaje λ al nodo f. Estado del arte ablo Felgaer 25

Ejemplo de propagacón completa 1. Incalmente se propagan todos los mensajes π para ncalzar la red fgura 2.5. b f π π d π l π h Fgura 2.5: The dog barkng problem Estado ncal No se envían mensajes λ haca los nodos d, b o f debdo a que se encuentran bloqueados por la falta de evdenca λ. 2. A contnuacón se procede a nstancar el nodo h fgura 2.6. b f λ λ d π l λ h Fgura 2.6: The dog barkng problem Instancacón del nodo h 26 ablo Felgaer Estado del arte

Un mensaje λ es envado del nodo h al nodo d. La probabldad a posteror del nodo d es recalculada a partr de la nueva evdenca. Se envían mensaje a todas las relacones del nodo d excepto de nuevo al nodo h. Los nodos b y f recalculan sus probabldades. El nodo f envía un mensaje π al nodo l pero nada devuelta al nodo d. El nodo l recalcula su probabldad. 3. Ahora se procede a nstancar el nodo f fgura 2.7. b f λ π d π l π h Fgura 2.7: The dog barkng problem Instancacón de los nodos h y f El nodo f envía mensajes π a los nodos d y l. Los nodos d y l recalculan sus probabldades. Dado que el nodo d tene evdenca λ provenente del nodo h envía un mensaje λ haca el nodo b como así tambén un mensaje π al nodo h. Como el nodo h se encuentra nstancado no modfca su estado. El nodo b recalcula su probabldad basado en el mensaje recbdo del nodo d. Estado del arte ablo Felgaer 27

4. Fnalmente se nstanca el nodo d fgura 2.8. b f λ λ d l π h Fgura 2.8 The dog barkng problem Instancacón de los nodos h, f y d Mensajes λ son envados a los nodos b y f mentras que un mensaje π se envía al nodo h. Los nodos f y h se mantenen sn modfcacones pero el nodo b recalcula su probabldad. Dado que el nodo f se encuentra nstancado, éste no envía nngún mensaje π al nodo l. 2.2.5. El aprendzaje en las redes bayesanas El aprendzaje es una de las característcas que defnen a los sstemas basados en ntelgenca artfcal porque sendo estrctos se puede afrmar que sn aprendzaje no hay ntelgenca; es dfícl defnr el térmno aprendzaje, pero la mayoría de las autordades en el campo concden en que es una de las característcas de los sstemas adaptatvos que son capaces de mejorar su comportamento en funcón de su experenca pasada, por ejemplo al resolver problemas smlares [Smon, 1983]. El aprendzaje suele ser mprescndble en aquellos sstemas que deben trabajar en entornos desconocdos o zonas de proceso poco frecuentes donde la adquscón de conocmento de los expertos en una 28 ablo Felgaer Estado del arte

tarea dfícl o ncluso mposble; los sstemas de aprendzaje son capaces de generar nuevo conocmento y de ajustar el conocmento exstente. El aprendzaje en la redes bayesanas consste en defnr la red probablístca a partr de datos almacenados en bases de datos en lugar de obtener el conocmento del experto. Este tpo de aprendzaje ofrece la posbldad de nducr la estructura gráfca de la red a partr de los datos observados y de defnr las relacones entre los nodos basándose tambén en dchos casos; según earl [earl, 1988] a estas dos fases se las puede denomnar respectvamente aprendzaje estructural y aprendzaje paramétrco. A contnuacón se resume cada una de estas dos fases: Aprendzaje estructural: obtene la estructura de la red bayesana a partr de bases de datos, es decr, las relacones de dependenca e ndependenca entre las varables nvolucradas. Las técncas de aprendzaje estructural dependen del tpo de estructura o topología de la red árboles, polárboles o redes multconectadas. Otra alternatva es combnar conocmento subjetvo del experto con aprendzaje, para lo cual se parte de la estructura dada por el experto y se la valda y mejora utlzando datos estadístcos. Aprendzaje paramétrco: dada una estructura y las bases de datos, obtene las probabldades a pror y condconales requerdas. Uno de los prncpales trabajos en el campo del aprendzaje de redes bayesanas en el de Herkovts y Copper [Herskovts & Copper, 1991]; el requsto prncpal para poder realzar la tarea de aprendzaje de redes bayesanas a partr de datos es dsponer de bases de datos muy extensas en las que esté especfcado el valor de cada varable en cada uno de los casos. El aprendzaje en redes bayesanas a partr de bases de datos ncompletas generalmente consste en nferr de alguna manera los datos ausentes para completar la base de datos; nvestgacones al respecto [Ramon & Sebastan, 1997] estman los límtes del conjunto de datos ausentes y obtenen un únco punto de estmacón que es modfcado con Estado del arte ablo Felgaer 29

dferentes pesos dependendo del patrón que supuestamente sguen dchos datos; fnalmente se construye una base de datos completa y se procede como se ndcó anterormente. 2.2.5.1. Aprendzaje paramétrco El aprendzaje paramétrco consste en encontrar los parámetros asocados a una estructura dada de una red bayesana. Dchos parámetros conssten en las probabldades a pror de los nodos raíz y las probabldades condconales de las demás varables dados sus padres; s se conocen todas las varables es fácl obtener las probabldades requerdas ya que las probabldades prevas corresponden a las margnales de los nodos raíz y las condconales se obtenen de las conjuntas de cada nodo con sus padres. ara que se actualcen las probabldades con cada caso observado, éstas se pueden representar como razones enteras y actualzarse con cada observacón; en el caso de un árbol las fórmulas para modfcar las probabldades correspondentes son: robabldades prevas: A = a + 1 A = a s + 1 s + 1 ; = k ; k robabldades condconales: B A = b + 1 j B A = b j B A = b j j j j a + 1 a a + 1 ; = k ; = k ; k y y j = l j l donde: s corresponde al número de casos totales,, j los índces de las varables, y k, l los índces de las varables observadas. 30 ablo Felgaer Estado del arte

El algortmo anteror supone que las probabldades tenen un valor precso, es decr que no hay ncertdumbre en las probabldades. Un enfoque más adecuado, pero un poco más complejo, es utlzar una dstrbucón de probabldad para las probabldades; normalmente se utlza para el caso de varables bnaras la dstrbucón Beta y para varables mutvaluadas su generalzacón que es la dstrbucón Drchlet [Neapoltan, 1990]. ara fnes práctcos se utlza como estmado de la probabldad el valor medo de las dstrbucones, el cual corresponde aproxmadamente al que se obtene en el algortmo anteror. 2.2.5.1.1. Varables no observadas En algunos casos exsten varables que son mportantes para el modelo pero para las cuales no se tenen datos; éstas se conocen como nodos no observables o esconddos. S algunos nodos no son observables, se pueden estmar de acuerdo a los observables y en base a ello actualzar las probabldades; para ello se aplca el sguente algortmo: 1. Instancar todas las varables observables. 2. ropagar su efecto y obtener las probabldades posterores de las no observables. 3. ara las varables no observables, asumr el valor con probabldad mayor como observado. 4. Actualzar las probabldades prevas y condconales de acuerdo a las formulas anterores. 5. Repetr 1 a 4 para cada observacón. El algortmo anteror es la forma más smple de realzar aprendzaje de nodos esconddos. 2.2.5.2. Aprendzaje estructural 2.2.5.2.1. Árboles El método para aprendzaje estructural de árboles se basa en el algortmo desarrollado por Chow y Lu [Chow & Lu, 1968] para aproxmar una dstrbucón de probabldad por Estado del arte ablo Felgaer 31

un producto de probabldades de segundo orden lo que corresponde a un árbol; la probabldad conjunta de n varables se puede representar como: n 1, X 2,, X n = X X j = 1 X K donde X j es la causa o padre de X. Se plantea el problema de aprender la estructura de la red bayesana a partr de datos como uno de optmzacón y lo que se desea es obtener la estructura en forma de árbol que más se aproxme a la dstrbucón real para lo cual se utlza una medda de la dferenca de nformacón entre la dstrbucón real y la aproxmada *: * * I, = X log X X x Entonces el objetvo es mnmzar I ; para ello se defne una dferenca en funcón de la nformacón mutua entre pares de varables que se defne como: I X, X j = X, X j log X, X j X X j x Chow [Chow, 1968] demuestra que la dferenca de nformacón es una funcón del negatvo de la suma de las nformacones mutuas pesos de todos los pares de varables que consttuyen el árbol, por lo que encontrar el árbol más próxmo equvale a encontrar el árbol con mayor peso. Basado en lo anteror, el algortmo para determnar la red bayesana óptma a partr de datos es el sguente: 1. Calcular la nformacón mutua entre todos los pares de varables nn-1/2. 2. Ordenar las nformacones mutuas de mayor a menor. 3. Selecconar la rama de mayor valor como árbol ncal. 4. Agregar la sguente rama mentras no forme un cclo, s es así, desechar. 5. Repetr 4 hasta que se cubran todas las varables n-1ramas. 32 ablo Felgaer Estado del arte

Dcho algortmo no provee la drecconaldad de los arcos, por lo que esta se puede asgnar en forma arbtrara o utlzando semántca externa experto. 2.2.5.2.2. olárboles Rebane y earl [Rebane & earl, 1989] extenderon el algortmo de Chow y Lu para polárboles; para ello parten del esqueleto estructura sn dreccones obtendo con el algortmo anteror y determnan las dreccón de los arcos utlzando pruebas de dependenca entre trpletas de varables; de esta forma se obtene una red bayesana en forma de polárbol, en cuyo caso la probabldad conjunta es: n X = X X, X, K, X = 1 j1 j2 jm donde { X j1, X j 2, K, X jm } es el conjunto de padres de la varable X. El algortmo de Rebane y earl se basa en probar las relacones de dependenca entre todas las trpletas de varables en el esqueleto. Dadas tres varables exsten tres casos posbles: Arcos dvergentes fgura 2.9-a, Arcos secuencales fgura 2.9-b, y Arcos convergentes fgura 2.9-c. C A B A B A B C C a b c Fgura 2.9: Tpos de conexones en un grafo drgdo: a dvergentes, b secuencales y c convergentes Estado del arte ablo Felgaer 33

Los prmeros dos casos arcos dvergentes y secuencales son ndstngubles, pero el tercero arcos convergentes es dferente, ya que las dos varables padre son margnalmente ndependentes. Entonces el algortmo consste en: 1. Obtener el esqueleto utlzando el algortmo de Chow y Lu. 2. Recorrer la red hasta encontrar una trpleta de nodos que sean convergentes tercer caso nodo multpadre. 3. A partr de un nodo multpadre determnar las dreccones de los arcos utlzando la prueba de trpletas hasta donde sea posble base causal. 4. Repetr 2 a 3 hasta que ya no se puedan descubrr más dreccones. 5. S quedan arcos sn drecconar utlzar semántca externa para obtener su dreccón. El algortmo está restrngdo a polárboles y no garantza obtener todas las dreccones; desde el punto de vsta práctco un problema es que generalmente no se obtene ndependenca absoluta nformacón mutua cero por lo que habría que consderar una cota empírca. 2.2.5.2.3. Redes multconectadas Al gual que en propagacón, el caso de una red multconectada es el más dfícl para aprendzaje estructural; una alternatva [Sucar & érez-brto, 1995] es plantear el problema nuevamente como uno de optmzacón buscando encontrar la estructura que de un rendmento deseable con el mínmo número de arcos, para lo cual se parte del algortmo de Chow-Lu para obtener un árbol ncal y se van agregando arcos hasta llegar al rendmento deseado o al máxmo número permsble ; el algortmo es el sguente: 1. Obtener una estructura de árbol ncal medante el algortmo de Chow-Lu. 2. Hacer la varable hpótess el nodo raíz y a partr de éste determnar la drecconaldad de los arcos. 3. roducr un ordenamento de los nodos, X,, X } { 1 2 n árbol de acuerdo a la nformacón mutua entre varables. 4. robar la capacdad predctva del sstema: a S es satsfactora termnar. X K a partr de la raíz y sguendo el 34 ablo Felgaer Estado del arte

b Sno, agregar un arco y regresar a 4. Selecconar el arco de mayor nformacón mutua basando su dreccón en el ordenamento anteror, de forma que su nodo ncal sea anteror al nodo fnal. El algortmo asume una varable hpótess sstemas predctvos por lo que la dreccón de los arcos es arbtrara y no refleja necesaramente causaldad; esta es una área de nvestgacón actual en redes bayesanas y exsten varas propuestas para aprendzaje estructural en redes multconectadas. Las técncas automátcas para aprendzaje estructural de redes bayesanas multconectadas conssten en dos aspectos prncpales: 1. Una medda de para evaluar que tan buena es cada estructura respecto a los datos. 2. Un método de búsqueda que genere dferentes es tructuras hasta encontrar la óptma de acuerdo a la medda selecconada. Exsten varas meddas de evaluar, entre las cuales se destacan las dos más utlzadas: Medda bayesana : estma la probabldad de la estructura dado los datos y se la trata de maxmzar. Longtud de descrpcón mínma MDL: estma la longtud tamaño en bts requerda para representar la probabldad conjunta con certa estructura; esta se compone de dos partes: 1. Representacón de la estructura. 2. Representacón del error de la estructura respecto a los datos. Aunque ambas meddas son semejantes, la segunda es un poco mejor ya que tende a preferr estructuras más smples. El encontrar la estructura óptma es dfícl ya que el espaco de búsqueda es muy grande; por ejemplo hay más de 10 40 dferentes estructuras para 10 varables. or esto se utlzan estrategas de búsqueda heurístcas que encuentran una solucón aceptable pero, Estado del arte ablo Felgaer 35

generalmente, no óptma; otra alternatva es combnar los métodos automátcos con conocmento de expertos. 2.2.5.2.4. Mejora estructural La mejora estructural combna el conocmento de expertos con datos para encontrar la estructura de una red bayesana; un enfoque [Sucar, 1993] consste en ncar con una estructura prelmnar propuesta por un experto y utlzar datos para valdarla y mejorarla para lo cual asume que se tene una estructura de tpo multárbol o bosque coleccón de árboles en donde se tenen una sere de subárboles, es decr, un nodo con varos hjos; en cada subárbol los nodos hjo son ndependentes dado el padre, entonces la técnca consste en valdar dcha ndependenca con los datos y modfcar la estructura s no se cumple, medante los sguentes pasos: 1 Valdar la estructura de cada subárbol de la red bayesana: a Calcular la correlacón entre cada par de nodos dado el padre: Baja: es razonable asumr ndependenca, así que la estructura no se modfca. Alta: no son ndependentes, modfcar la estructura utlzando una de las sguentes estrategas: 1 Elmnacón de nodo. 2 Combnacón de nodos. 3 Creacón de nodo. Otra alternatva es obtener una estructura ncal a partr de los datos por ejemplo, un árbol y luego utlzar conocmento del experto para alterar la estructura; reptendo este proceso en forma teratva. 2.2.6. Ventajas de las redes bayesanas El hecho de que las redes bayesanas consttuyan una mezcla de técncas estadístcas y modelos gráfcos les provee un sere de mportantes ventajas. En prmer lugar, el hecho de que las redes guarden nformacón sobre las dependencas e ndependencas exstentes 36 ablo Felgaer Estado del arte

entre las varables nvolucradas les permten manejar stuacones donde exsta ncertdumbre; por otro lado la presentacón gráfca de la red faclta la nterpretacón y obtencón de conclusones sobre el domno en estudo por parte de la gente que lo analza; tambén, debdo a que estas redes combnan relacones causales con lógca probablístca, permte combnar conocmento experto con datos dcho conocmento experto generalmente vene dado en forma de relacones de causaldad. Las redes bayesanas permten defnr modelos y utlzarlos tanto para hacer razonamento de dagnóstco pues obtenen las causas más probables dado un conjunto de síntomas, como para hacer razonamento predctvo obtenendo la probabldad de presentar un certo síntoma suponendo que exste una causa conocda. Una de las característcas de las redes bayesanas es que un msmo nodo puede ser fuente de nformacón u objeto de predccón dependendo de cuál sea la evdenca dsponble. A contnuacón se muestran cuáles son las característcas de estos dos tpos de nferenca utlzando una red bayesana: redccón S se supone que es certo un hecho del mundo real que está representado en la red como un nodo padre, la red puede deducr cuáles serán sus efectos; para ello se debe ntroducr esta hpótess en el nodo correspondente y propagar esta nformacón haca el resto de los nodos. Este modo de razonamento es de tpo predctvo y está regdo por una nferenca deductva donde el conocmento se puede expresar de la forma s a entonces b y se cumple que el hecho conocdo es a y el hecho deducdo es b. Interpretacón de datos Las msmas relacones representadas en la red en forma causal permten hacer nferencas abductvas donde conocdos los síntomas se puede saber cuáles son sus posbles causas. El conocmento es el msmo que en el caso anteror: s a entonces b pero ahora el hecho conocdo es b y el hecho abducdo es es posble a ; este Estado del arte ablo Felgaer 37

modo de razonamento es el que permte la nterpretacón de las causas que generan determnados fenómenos. Como se ndcó anterormente en este capítulo, las redes probablístcas permten ejecutar smulacones efectuando hpótess sobre cualquera de los datos e ncluso consderando gnoranca en alguna de las varables de entrada. En el caso de los smuladores matemátcos sólo es posble establecer hpótess sobre los datos de partda que son ntroducdos en el modelo como las condcones ncales y además es mprescndble que se ntroduzcan todas las varables de entrada del modelo para poder resolver las ecuacones. S un nodo de la red representa una varable correspondente a la presenca de una anomalía, se puede dagnostcar que ésta se encuentra presente cuando su probabldad excede un certo umbral; con la llegada de nuevas evdencas, la probabldad puede cruzar el umbral varas veces dependendo de que las nuevas evdencas ratfquen o descarten la presenca de esa anomalía; esto sgnfca que cada nueva observacón puede aumentar o dsmnur la estmacón de una hpótess; por esta propedad de las redes bayesanas se puede afrmar que efectúan un razonamento no monótono basado en la probabldad y no en la lógca. El sguente ejemplo pretende clarfcar en qué consste el razonamento no monótono y permte aprecar que este tpo de razonamento es mprescndble en muchos domnos de aplcacón: Se supone que el síntoma febre puede ser causado por dos enfermedades dstntas catarro e nfeccón ntestnal. S observamos que un pacente tenen febre puede ser que tenga catarro o nfeccón ntestnal con unas certas probabldades, pero s por otro lado encontramos algún sgno ejemplo: darrea que nos ratfque en la dea de que padece de nfeccón ntestnal, está claro que s multáneamente debe dsmnur la probabldad de que el pacente tenga catarro. 38 ablo Felgaer Estado del arte

2.3. Árboles de decsón TDIDT La famla de los Top Down Inducton Trees TDIDT pertenece a los métodos nductvos del aprendzaje automátco que aprenden a partr de ejemplo s preclasfcados; en mnería de datos, las msmas se utlzan para modelar las clasfcacones en los datos medante árboles de decsón. 2.3.1. Característcas de los árboles de decsón Los árboles de decsón representan una estructura de datos que organza efcazmente los descrptores; dchos árboles son construdos de forma tal que en cada nodo se realza una prueba sobre el valor de los descrptores y de acuerdo con la respuesta se va descendendo en las ramas hasta llegar al fnal del camno donde se enc uentra el valor del clasfcador. Se puede analzar un árbol de decsón como una caja negra en funcón de cuyos parámetros descrptores se obtene un certo valor del clasfcador; tambén puede analzarse como una dsyuncón de conjuncones donde cada camno desde la raíz hasta las hojas representa una conjuncón y todos los camnos son alternatvos, es decr, son dsyuncones. 2.3.2. Construccón de los árboles de decsón Los árboles TDIDT, a los cuales pertenecen los generados por el ID3 y por el C4.5, se construyen a partr del método de Hunt [Hunt et al., 1966]. El esqueleto de este método para construr un árbol de decsón a partr de un conjunto T de datos de entrenamento se detalla a contnuacón; sean las clases C, C, K, C } exsten tres posbldades: { 1 2 k 1. T contene uno o más casos, todos pertenecentes a una únca clase C j : El árbol de decsón para T es una hoja dentfcando la clase 2. T no contene nngún caso: C j. Estado del arte ablo Felgaer 39

El árbol de decsón es una hoja, pero la clase asocada debe ser determnada por nformacón que no pertenece a T. or ejemplo, una hoja puede escogerse de acuerdo a conocmentos de base del domno, como ser la clase mayortara. 3. T contene casos pertenecentes a varas clases: En este caso, la dea es refnar T en subconjuntos de casos que tendan o parezcan tender haca una coleccón de casos pertenecentes a una únca clase. Se elge una prueba basada en una únca varable que tene uno o más resultados mutuamente excluyentes { O1, O2, K, On} y T se partcona en los subconjuntos T 1, T2, K, Tn donde T contene todos los casos de T que tenen el resultado O para la prueba elegda. El árbol de decsón para T consste en un nodo de decsón dentfcando la prueba con una rama para cada resultado posble. El mecansmo de construccón del árbol se aplca recursvamente a cada subconjunto de datos de entrenamentos para que la -ésma rama lleve al árbol de decsón construdo por el subconjunto T de datos de entrenamento. 2.3.2.1. Cálculo de la gananca de nformacón En los casos en los que el conjunto T contene ejemplos pertenecentes a dstntas clases se realza una prueba sobre las dstntas varables y se realza una partcón según la mejor varable. ara encontrar la mejor varable se utlza la teoría de la nformacón que sostene que la nformacón se maxmza cuando la entropía se mnmza la entropía determna la azarosdad o desestructuracón de un conjunto. S se supone que se tene n ejemplos postvos y negatvos, la entropía del subconjunto como: H S + + = p log p p p S, H S puede calcularse donde + p es la probabldad de que un ejemplo tomado al azar de probabldad puede calcularse como: S sea postvo. Esta p + + n = n + n + 40 ablo Felgaer Estado del arte

+ sendo n la cantdad de ejemplos postvos de S y n la cantdad de ejemplos negatvos. La probabldad p se calcula en forma análoga a? p +, reemplazando la cantdad de ejemplos postvos por la cantdad de ejemplos negatvos, y vceversa. Generalzando la expresón anteror para cua lquer tpo de ejemplos, obtenemos la fórmula general de la entropía: H S = n = 1 p log p En todos los cálculos relaconados con la entropía, defnmos 0 log 0 = 0. S la varable at dvde el conjunto S en los subconjuntos S, = 1,2, K, n, entonces, la entropía total del sstema de subconjuntos será: H S, at = n = 1 S H S donde H S es la entropía del subconjunto S y S es la probabldad de que un ejemplo pertenezca a subconjuntos, como: S ; puede calcularse, utlzando los tamaños relatvos de los S = S S La gananca en nformacón puede calcularse como la dsmnucón en entropía. Es decr: I S, at = H S H S, at donde H S es el valor de la entropía a pror antes de realzar la subdvsón y H S, at es el valor de la entropía del sstema de subconjuntos generados por la partcón según at. Estado del arte ablo Felgaer 41

2.3.2.2. oda de los árboles generados Exsten varas razones para la poda de los árboles generados por los métodos de TDIDT [Mchalsk et al., 1998]; entre ellas podemos nombrar la sobre-generalzacón, la evaluacón de varables poco mportantes o sgnfcatvas y el gran tamaño del árbol obtendo. En el prmer caso, un árbol puede haber sdo construdo a partr de ejemplos con rudo, con lo cual algunas ramas del árbol pueden ser engañosas; en cuanto a la evaluacón de varables no relevantes, éstas deben podarse ya que sólo agregan nveles en el árbol y no contrbuyen a la gananca de nformacón. or últmo, s el árbol obtendo es demasado profundo o demasado frondoso se dfculta la nterpretacón por parte del usuaro, con lo cual hubera sdo lo msmo utlzar un método de caja negra. Exsten dos enfoques para podar los árboles: la pre-poda preprunnng y la post-poda postprunnng. En el prmer caso se detene el crecmento del árbol cuando la gananca de nformacón producda al dvdr un conjunto no supera un umbral determnado; en la postpoda se podan algunas ramas una vez que se ha termnado de construr el árbol. El prmer enfoque tene la ventaja de que no se perde tempo en construr una estructura que luego será smplfcada en el árbol fnal; el método típco en estos casos es buscar la mejor manera de partr el subconjunto y evaluar la partcón desde el punto de vsta estadístco medante la teoría de la gananca de nformacón, reduccón de errores, etc. S esta evaluacón es menor que un límte predetermnado la dvsón se descarta y el árbol para el subconjunto es smplemente la hoja más apropada; sn embargo este tpo de método tene la contra de que no es fácl detener un partconamento en el momento adecuado; un límte muy alto puede termnar con la partcón antes de que los benefcos de partcones subsguentes parezcan evdentes mentras que un límte demasado bajo resulta en una smplfcacón demasado leve. El segundo enfoque utlzado por el ID3 y el C4.5 procede a la smplfcacón una vez construdo el árbol según los crteros propos de cada uno de los algortmos. 42 ablo Felgaer Estado del arte

2.3.2.3. El rncpo de longtud de descrpcón mínma El prncpo de longtud de descrpcón mínma MDL [Joachms et al., 1995; Mtchell, 2000; Qunlan, 1993d; Qunlan, 1995; Qunlan & Cameron-Jones, 1995] sostene que la mejor teoría para un conjunto de datos es aquella que mnmza el tamaño de la teoría y la cantdad de nformacón necesara para especfcar las excepcones; desde el punto de vsta del aprendzaje automátco esto sgnfca que dado un conjunto de nstancas un sstema de aprendzaje nfere una teoría a partr de ellas; supóngase una analogía con el campo de las comuncacones: la teoría con las excepcones debe ser transmtda por un canal perfecto. El MDL sostene que la mejor generalzacón es aquella que requere la menor cantdad de bts para transmtr la generalzacón junto con los ejemplos a partr de la cual fue generada. Esto evta las teorías que satsfacen los datos al extremo sobre-ajuste ya que los ejemplos se transmten tambén, y las teorías demasado extensas serán penalzadas. or otro lado, tambén se puede transmtr la teoría nula que no ayuda en lo más mínmo al transmtr los ejemplos. Entonces, pueden trans mtrse tanto las teorías smples como aquellas muy complejas y el MDL provee una forma de medr la performance de los algortmos basándose en los datos de entrenamento úncamente. Esta parece ser la solucón deal al problema de medr la performance. Veamos cómo se aplca el prncpo MDL. Supongamos que un sstema de aprendzaje genera una teoría T, basada en un conjunto de entrenamento E, y requere una certa cantdad de bts L [ T ] para codfcar la teoría. Dada la teoría, el conjunto de entrenamento puede codfcarse en una cantdad L [ E / T ] de bts. L [ E / T ] está dada por la funcón de gananca de nformacón sumando todos los membros del conjunto de entrenamento. La longtud de descrpcón total de la teoría es L [ E] L[ E / T ] MDL recomenda la teoría T que mnmza esta suma. +. El prncpo Hay que recordar que los algortmos de la famla TDIDT realzan una búsqueda en el espaco de hpótess posbles consttudo por todos los árboles de decsón posbles. Su sesgo nductvo, sguendo el prncpo de la Afetadora de Occam, es una preferenca sobre los árboles pequeños frente a los árboles más profundos y frondosos. Estado del arte ablo Felgaer 43

2.3.3. Descrpcón general de los algortmos El algortmo prncpal de los sstemas de la famla TDIDT, a la cual pertenecen el ID3 y su descendente el C4.5, es el proceso de generacón de un árbol de decsón ncal a partr de un conjunto de datos de entrenamento. La dea orgnal está basada en un trabajo de Hoveland y Hunt de los años 50 culmnado en el lbro Experments n Inducton [Hunt et al., 1966] que descrbe varos expermentos con varas mplementacones de sstemas de aprendzaje de conceptos Concept Learnng Systems CLS. 2.3.3.1. Dvsón de los datos El método dvde y renarás realza en cada paso una partcón de los datos del nodo según una prueba realzada sobre la mejor varable. Cualquer prueba que dvda a T en una manera no trval tal que al menos dos subconjuntos dstntos { T } no estén vacíos, eventualmente resultará en una partcón de subconjuntos de una únca clase aún cuando la mayoría de los subconjuntos contengan un solo ejemplo. Sn embargo el proceso de construccón del árbol no apunta meramente a encontrar cualquer partcón de este tpo sno a encontrar un árbol que revele una estructura del domno y, por lo tanto, tenga poder predctvo. ara ello se necesta un número mportante de casos en cada hoja o, dcho de otra manera, la partcón debe tener la menor cantdad de clases posbles. En el caso deal se busca elegr en cada paso la prueba que genere el árbol más pequeño; es decr, se busca un árbol de decsón compacto que sea consstente con los datos de entrenamento. ara ello se pueden explorar todos los árboles posbles y elegr el más smple pero desafortunadamente un número exponencal de árboles debería ser analzado. El problema de encontrar el árbol de decsón más pequeño consstente con un conjunto de entrenamento es de complejdad N-completa. La mayoría de los métodos de construccón de árboles de decsón ncluyendo el C4.5 y el ID3 no permten volver a estados anterores, es decr, son algortmos golosos sn vuelta atrás. Una vez que se ha escogdo una prueba para partconar el conjunto actual, típcamente basándose en la maxmzacón de alguna medda local de progreso, la partcón 44 ablo Felgaer Estado del arte

se concreta y las consecuencas de una eleccón alternatva no se exploran. or este motvo la eleccón debe ser ben realzada. 2.3.3.1.1. Eleccón del crtero de dvsón ara realzar la dvsón de los datos en cada paso, Qunlan propone la utlzacón de los métodos de la teoría de la nformacón. En un prncpo el ID3 utlzaba la gananca como crtero de dvsón, sn embargo a partr de numerosas pruebas se descubró que este crtero no era efectvo en todos los casos y se obtenían mejores resultados s se normalzaba el crtero en cada paso, por lo tanto comenzó a utlzarse la proporcón de gananca de nformacón con mayor éxto ; a contnuacón se presentan ambos crteros. 2.3.3.1.1.1. Crtero de gananca La defncón de gananca se presenta de la sguente forma: supongamos que tenemos una prueba posble con n resultados que partconan al conjunto T de entrenamento en los subconjuntos T, T, 2, T dvsones subsguentes de los subconjuntos 1 K n. S la prueba se realza sn explorar las T, la únca nformacón dsponble para evaluar la partcón es la dstrbucón de clases en T y sus subconjuntos. Consderemos una medda smlar luego de que T ha sdo partconado de acuerdo a los n resultados de la prueba X. La nformacón esperada entropía puede determnarse como la suma ponderada de los subconjuntos, de la sguente manera: H T, X = n = 1 T T xh T La cantdad I T, X = H T H T, X mde la nformacón ganada al partr T de acuerdo a la prueba X. El crtero de gananca entonces seleccona la prueba que maxmce la gananca de nformacón, es decr, antes de partconar los datos en cada nodo se calcula la gananca que resultaría de partconar el conjunto de datos según cada uno de las varables posbles y se realza la partcón que resulta en la mayor gananca. Estado del arte ablo Felgaer 45

2.3.3.1.1.2. Crtero de proporcón de gananca El crtero de gananca tene un defecto muy sero y es que presenta una tendenca muy fuerte a favorecer las pruebas con muchos resultados. Analcemos una prueba sobre una varable que sea la clave prmara de un conjunto de datos en la cual obtendremos un únco subconjunto para cada caso y para cada subconjunto tendremos I T, X = 0 ; entonces la gananca de nformacón será máxma. Desde el punto de vsta de la predccón este tpo de dvsón no es útl. Esta tendenca nherente al crtero de gananca puede corregrse medante una suerte de normalzacón en la cual se ajusta la gananca aparente atrbuble a pruebas con muchos resultados. Consderemos el contendo de nformacón de un mensaje correspondente a los resultados de las pruebas. or analogía a la defncón de la I S tenemos: I _ dvsón X = n = 1 T T T x log 2 T Esto representa la nformacón potencal generada al dvdr T en n subconjuntos, mentras que la gananca de nformacón mde la nformacón relevante a una clasfcacón que nace de la msma dvsón. Entonces: I T, X proporcón _ de _ gananca X = I _ dvsón X expresa la proporcón útl de nformacón generada en la partcón. S la partcón es cas trval, la nformacón de la dvsón será pequeña y esta proporcón se volverá nestable. ara evtar este fenómeno el crtero de proporcón de gananca seleccona una prueba que maxmce la expresón anteror sujeta a la restrccón de que la nformacón de la dvsón sea grande, al menos tan grande como la gananca promedo sobre todas las pruebas realzadas. 46 ablo Felgaer Estado del arte

2.3.3.2. Construccón de árboles 2.3.3.2.1. ID3 El algortmo ID3 dseñado en 1993 por J. Ross Qunlan [Qunlan, 1993a, Qunlan, 1993b] toma objetos de una clase conocda y los descrbe en térmnos de una coleccón fja de propedades o de varables producendo un árbol de decsón sobre estas varables que clasfca correctamente todos los objetos [Qunlan, 1993b]. Hay certas cualdades que dferencan a este algortmo de otros sstemas generales de nferenca. La prmera se basa en la forma en que el esfuerzo requerdo para realzar una tarea de nduccón crece con la dfcultad de la tarea. El ID3 fue dseñado específcamente para trabajar con masas de objetos y el tempo requerdo para procesar los datos crece sólo lnealmente con la dfcultad como producto de: La cantdad de objetos presentados como ejemplos. La cantdad de varables dadas para descrbr estos objetos. La complejdad del concepto a ser desarrollado meddo por la cantdad de nodos en el árbol de decsón. Esta lnealdad se consgue a costa del poder descrptvo ya que los conceptos desarrollados por el ID3 sólo toman la forma de árboles de decsón basados en las varables dadas y este lenguaje es mucho más restrctvo que la lógca de prmer orden o la lógca multvaluada en la cual otros sstemas expresan sus conceptos [Qunlan, 1993b]. El ID3 fue presentado como descendente del CLS creado por Hunt y, como contrapartda de su antecesor, es un mecansmo mucho más smple para el descubrmento de una coleccón de objetos pertenecentes a dos o más clases. Cada objeto debe estar descrto en térmnos de un conjunto fjo de varables, cada una de las cuales cuenta con su conjunto de posbles valores. or ejemplo la varable humedad puede tener los valores {alta, baja} y la varable clma los valores {soleado, nublado, lluvoso}. Estado del arte ablo Felgaer 47

Una regla de clasfcacón en la forma de un árbol de decsón puede construrse para cualquer conjunto C de varables de esta forma [Qunlan, 1993b]: S C está vacío, entonces se lo asoca arbtraramente a cualquera de las clases. SC contene los representantes de varas clases, se seleccona una varable y se partcona C en conjuntos dsjuntos C, C, 2, C 1 K n, donde C contene aquellos membros de C que tenen el valor para la varable selecconada. Cada una de estos subconjuntos se maneja con la msma estratega. El resultado es un árbol en el cual cada hoja contene un nombre de clase y cada nodo nteror especfca una varable para ser testeada con una rama correspondente al valor de la varable. 2.3.3.2.1.1. Descrpcón del ID3 El objetvo del ID3 es crear una descrpcón efcente de un conjunto de datos medante la utlzacón de un árbol de decsón. Dados datos consstentes, es decr, sn contradccón entre ellos, el árbol resultante descrbrá el conjunto de entrada a la perfeccón. Además, el árbol puede ser utlzado para predecr los valores de nuevos datos asumendo sempre que el conjunto de datos sobre el cual se trabaja es representatvo de la totaldad de los datos. Dados: Un conjunto de datos. Un conjunto de descrptores de cada dato. Un clasfcador/conjunto de clasfcadores para cada objeto. Se desea obtener un árbol de decsón smple basándose en la entropía, donde los nodos pueden ser: 48 ablo Felgaer Estado del arte

Nodos ntermedos : en donde se encuentran los descrptores escogdos según el crtero de entropía que determnan cuál rama es la que debe tomarse. Hojas: estos nodos determnan el valor del clasfcador. Este procedmento de formacón de reglas funconará sempre dado que no exsten dos objetos pertenecentes a dstntas clases pero con déntco valor para cada uno de sus varables; s este caso llegara a presentarse, las varables son nadecuadas para el proceso de clasfcacón. Hay dos conceptos mportantes a tener en cuenta en el algortmo ID3 [Blurock, 1996]: la entropía y el árbol de decsón. La entropía se utlza para encontrar el parámetro más sgnfcatvo en la caracterzacón de un clasfcador. El árbol de decsón es un medo efcente e ntutvo para organzar los descrptores que pueden ser utlzados con funcones predctvas. 2.3.3.2.1.2. Algortmo ID3 A contnuacón se presenta el algortmo del método ID3 para la construccón de árboles de decsón en funcón de un conjunto de datos prevamente clasfcados. Funcón ID3 R: conjunto de atrbutos no clasfcadores, C: atrbuto clasfcador, S: conjunto de entrenamento devuelve un árbol de decsón; Comenzo S S es tá vacío, Devolver un únco nodo con Valor Falla; S todos los regstros de S tenen el msmo valor para el atrbuto clasfcador, Devolver un únco nodo con dcho valor; S R está vacío, entonces Devolver un únco nodo con el valor más frecuente del atrbuto clasfcador en los regstros de S [Nota: habrá errores, es decr, regstros que no estarán ben clasfcados en este caso]; S R no está vacío, entonces D atrbuto con mayor GanancaD,S entre los atrbutos de R; Sean {d j j=1,2,.., m} los valores del atrbuto D; Sean {S j j=1,2,.., m} los subconjuntos de S correspondentes a los valores de d j respectvamente; Estado del arte ablo Felgaer 49

Fn Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d 1, d 2,.., d m que van respectvamente a los árboles ID3R-{D}, C, S1, ID3R-{D}, C, S2,.., ID3R-{D}, C, Sm; 2.3.3.2.1.3. oda de los árboles de decsón La poda de los árboles de decsón se realza con el objetvo de que éstos sean más comprensbles lo cual mplca que tengan menos nveles y/o sean menos frondosos. La poda aplcada en el ID3 se realza una vez que el árbol ha sdo generado y es un mecansmo bastante smple: s de un nodo nacen muchas ramas las cuales termnan todas en la msma clase, entonces se reemplaza dcho nodo por una hoja con la clase común, caso contraro se analzan todos los nodos hjos. 2.3.3.2.1.4. Lmtacones al ID3 El ID3 puede aplcarse a cualquer conjunto de datos sempre y cuando las varables sean dscretas. Este sstema no cuenta con la facldad de trabajar con varables contnuas ya que analza la entropía sobre cada uno de los valores de una varable, por lo tanto tomaría cada valor de una varable contnua ndvdualmente en el cálculo de la entropía lo cual no es útl en muchos de los domnos. Cuando se trabaja con varables contnuas, generalmente se pensa en rangos de valores y no en valores partculares. Exsten varas maneras de soluconar este problema del ID3 como la agrupacón de valores presentada en [Gallon et al., 1993] o la dscretzacón de los msmos explcada en [Blurock, 1996; Qunlan, 1993d]. El C4.5 resolvó el problema de los atrbutos contnuos medante la dscretzacón. 2.3.3.2.2. C4.5 El C4.5 se basa en el ID3, por lo tanto, la estructura prncpal de ambos métodos es la msma. El C4.5 construye un árbol de decsón medante el algortmo dvde y renarás y evalúa la nformacón en cada caso utlzando los crteros de entropía y gananca o 50 ablo Felgaer Estado del arte

proporcón de gananca, según sea el caso. A contnuacón, se explcarán las característcas partculares de este método que lo dferencan de su antecesor. 2.3.3.2.2.1. Algortmo C4.5 El algortmo del método C4.5 para la construccón de árboles de decsón a grandes rasgos muy smlar al del ID3. Varía en la manera en que realza las pruebas sobre las varables, tal como se detalla en las seccones sguentes. Funcón C4.5 R: conjunto de atrbutos no clasfcadores, C: atrbuto clasfcador, S: conjunto de entrenamento devuelve un árbol de decsón; Comenzo S S está vacío, Devolver un únco nodo con Valor Falla; S todos los regstros de S tenen el msmo valor para el atrbuto clasfcador, Devolver un únco nodo con dcho valor; S R está vacío, entonces Devolver un únco nodo con el valor más frecuente del atrbuto clasfcador en los regstros de S [Nota: habrá errores, es decr, regstros que no estarán ben clasfcados en este caso]; S R no está vacío, entonces D atrbuto con mayor roporcón de GanancaD,S entre los atrbutos de R; Sean {d j j=1,2,.., m} los valores del atrbuto D; Sean {Sj j=1,2,.., m} los subconjuntos de S correspo ndentes a los valores de dj respectvamente; Devolver un árbol con la raíz nombrada como D y con los arcos nombrados d1, d 2,.., d m que van respectvamente a los árboles C4.5R-{D}, C, S1, C4.5R-{D}, C, S2,.., C4.5R-{D}, C, Sm; Fn 2.3.3.2.2.2. Característcas partculares del C4.5 En cada nodo, el sstema debe decdr cuál prueba escoge para dvdr los datos. Los tres tpos de pruebas posbles propuestas por el C4.5 son [Qunlan, 1993d]: 1. La prueba estándar para las varables dscretas con un resultado y una rama para cada valor posble de la varable. Estado del arte ablo Felgaer 51

2. Una prueba más compleja, basada en una varable dscreta, en donde los valores posbles son asgnados a un número varable de grupos con un resultado posble para cada grupo en lugar de para cada valor. 3. S una varable A tene valores numércos contnuos se realza una prueba bnara con resultados A Z y A > Z para lo cual debe determnarse el valor límte Z. Todas estas pruebas se evalúan de la msma manera, mrando el resultado de la proporcón de gananca o alternatvamente el de la gananca resultante de la dvsón que producen. Ha sdo útl agregar una restrccón adconal: para cualquer dvsón, al menos dos de los subconjuntos T deben contener un número razonable de casos. Esta restrccón que evta las subdvsones cas trvales es tenda en cuenta solamente cuando el conjunto T es pequeño. 2.3.3.2.2.3. oda de los árboles de decsón El método recursvo de partconamento para construr los árboles de decsón descrpto anterormente subdvdrá el conjunto de entrenamento hasta que la partcón contenga casos de una únca clase o hasta que la prueba no ofrezca mejora alguna. Esto da como resultado, generalmente, un árbol muy complejo que sobre-ajusta los datos al nferr una estructura mayor que la requerda por los casos de entrenamento [Mtchell, 2000; Qunlan, 1995]. Además, el árbol ncal generalmente es extremadame nte complejo y tene una proporcón de errores superor a la de un árbol más smple. Mentras que el aumento en complejdad se comprende a smple vsta, la mayor proporcón de errores puede ser más dfícl de vsualzar. ara entender este problema supongamos que tenemos un conjunto de datos con dos clases donde una proporcón p 0. 5 de los casos pertenecen a la clase mayortara. S un clasfcador asgna todos los casos con valores ndetermnados a la clase mayortara, la proporcón esperada de error es claramente 1 p. S en cambo el clasfcador asgna un caso a la clase mayortara con probabldad p y a la otra clase con probabldad proporcón esperada de error es la suma de: 1 p, su 52 ablo Felgaer Estado del arte

La probabldad de que un caso pertenecente a la clase mayortara sea asgnado a la otra clase, p 1 p. La probabldad de que un caso pertenecente a la otra clase sea asgnado a la clase mayortara, 1 p p. que da como resultado 2 p1 p. Como p es al menos 0.5, esto es generalmente superor a 1 p, entonces el segundo clasfcador tendrá una mayor proporcón de errores. Un árbol de decsón complejo tene una gran smltud con este segundo tpo de clasfcador. Los casos no se relaconan a una clase, entonces, el árbol manda cada caso al azar a alguna de las hojas. Un árbol de decsón no se smplfca borrando todo el árbol a favor de una rama sno que se elmnan las partes del árbol que no contrbuyen a la exacttud de la clasfcacón para los nuevos casos, producendo un árbol menos complejo y por lo tanto más comprensble. 2.3.4. resentacón de los resultados Tanto el ID3 como el C4.5 generan un clasfcador de la forma de un árbol de decsón cuya estructura es [Qunlan 1993d]: Una hoja ndcando una clase, o Un nodo de decsón que especfca alguna prueba a ser realzada sobre un únco atrbuto con una rama y subárbol para cada valor posble de la prueba. El árbol de decsón generado por el C4.5 cuenta con varas característcas partculares, entre ellas cada hoja tene asocados dos números que ndcan el número de casos de entrenamentos cubertos por cada hoja y la cantdad de ellos clasfcados erróneamente por la hoja; es en certa manera un estmador del éxto del árbol sobre los casos de entrenamento. El ID3 en cambo no clasfca erróneamente a los datos de Estado del arte ablo Felgaer 53

entrenamento, con lo cual no son necesaros este tpo de ndcadores; es por ello que este algortmo, a dferenca del C4.5, corre el resgo de caer en sobre-ajuste. 2.4. Marco de la tess Esta tess se desarrolla en el marco de los proyectos Mnería de Datos basada en Sstemas Intelgentes UBACYT 2003 códgo I605 Res.HCS N 1022/03 y Explotacón de Informacón basada en Sstemas Intelgentes UBACYT 2004-2007 códgo I050 Res.HCS N 2706/04 que artculan una línea de trabajo en el área de sstemas de aprendzaje automátco ncada en el año 1993 con el estudo de aprendzaje basado en formacón y ponderacón de teorías [García-Martínez, 1993; 1995; 1997; García-Martínez y Borrajo, 2000; García-Martínez et al., 2003] y sus aplcacones a la explotacón de nformacón en problemas abertos de las cencas aplcadas [erchnsky y García- Martínez, 2000; erchnsky et al., 2000; 2001; 2003a; 2003b] y de la ndustra [Grosser et al., 2005]. 54 ablo Felgaer Estado del arte

3. Descrpcón del problema Las redes bayesanas están dseñadas para hallar las relacones de dependenca e ndependenca entre todas las varables que conforman el domno de estudo; esto permte realzar predccones sobre el comportamento de cualquera de las varables desconocdas a partr de los valores de las otras varables conocdas; esto presupone que cualquer varable de la base de datos puede comportarse como ncógnta o como evdenca según el caso. Exsten muchas tareas práctcas que pueden reducrse a problemas de clasfcacón: dagnóstco médco y reconocmento de patrones son sólo dos ejemplos de ellas; este tpo de tareas tenen la fnaldad de asgnar objetos a categorías o clases determnadas según sus propedades Las redes bayesanas pueden realzar la tarea de clasfcacón, la cual es un caso partcular de la tarea de predccón, que se caracterza por tener una sola de las varables de la base de datos clasfcador que se desea predecr mentras que todas las otras son los datos propos del caso que se desea clasfcar; pueden exstr una gran cantdad de varables en la base de datos, algunas de las cuales estarán drectamente relaconadas con la varable clasfcadora que se quere predecr pero tambén pueden exstr otras varables que no lo estén. Al utlzar redes bayesanas en la tarea de clasfcacón, éstas se ven afectadas por una sere de nconvenentes. En prmer lugar los grafos correspondentes a las redes bayesanas contenen un nodo por cada varable que compone el domno de aplcacón aún cuando dcha varable no repercuta de manera drecta sobre la tarea de clasfcacón; de este modo los grafos obtendos pueden presentar un grado de complejdad nnecesaro que dfculte la representacón e nterpretacón del conocmento así como tambén la efcenca del proceso de nferenca. or otro lado, las capacdades predctvas de las redes bayesanas están orentadas a pronostcar el valor de cualquera de las varables pertenecentes al domno de aplcacón en lugar de ntentar maxmzar el poder clasfcatoro. Descrpcón del problema ablo Felgaer 55

En este contexto, el objetvo que se plantea este trabajo consste en encontrar un método de aprendzaje automátco para favorecer la optmzacón de las redes bayesanas, en partcular las de tpo polárbol, aplcadas a problemas de clasfcacón. 56 ablo Felgaer Descrpcón del problema

4. Solucón propuesta ara soluconar los problemas de las redes bayesanas aplcadas a la tarea de clasfcacón ver capítulo 3, lo que se propone en este trabajo es utlzar un método de aprendzaje híbrdo que combne las ventajas de las técncas de nduccón de los árboles de decsón TDIDT C4.5 con las de las redes bayesanas. Este método de aprendzaje híbrdo consste de dos etapas prncpales: preseleccón de nodos y construccón de la red. En la prmer fase se elge, a partr de todas las varables del domno, un subconjunto de nodos con la fnaldad de generar la red bayesana para la tarea partcular de clasfcacón y de esta forma optmzar la performance y mejorar la capacdad predctva de la red; dchos nodos son selecconados a partr de los árboles de decsón obtendos medante las técncas de nduccón TDIDT C4.5. En la segunda fase se construye la red bayesana a partr del subconjunto de varables selecconado en la etapa preva aplcando el método de aprendzaje para polárboles expuesto en la seccón 2.2.5. 4.1. Datos de entrada Dado que no todas las tareas de clasfcacón son apropadas para el enfoque nductvo que se presenta en este trabajo, a contnuacón se detallan los requermentos prncpales que deben cumplr los domnos a ser analzados medante la metodología propuesta: Descrpcones de atrbuto-valor: los datos a ser analzados deben poder expresarse como un archvo plano, es decr, toda la nformacón de un objeto o caso debe poder expresarse en térmnos de una coleccón fja de varables o atrbutos. Cada atrbuto puede ser dscreto o numérco pero los atrbutos utlzados para descrbr un caso no pueden varar de un caso a otro; esto restrnge los domnos de aplcacón en los cuales los objetos tenen nherentemente atrbutos varables. Clases predefndas : las categorías a las cuales se asgnan los casos deben estar establecdas de antemano. Esto sgnfca que los algortmos se aplcan sobre un conjunto de datos de entrenamento prevamente clasfcados del tpo Solucón propuesta ablo Felgaer 57

{valor_atrbuto 1, valor_atrbuto 2,..., valor_atrbuto n, clase k }. En la termnología del aprendzaje automátco esto se conoce como aprendzaje supervsado, en contraposcón al aprendzaje no supervsado en el cual la agrupacón de casos se encuentra medante y durante el análss. Clases dscretas y dsjuntas : las clases a las cuales se asgnan los casos deben ser totalmente dsjuntas; un caso pertenece o no pertenece a una clase pero no puede pertenecer a dos clases a la vez. Además deben exstr muchos más casos que clases para que el modelo generado sea váldo en el domno analzado. Datos sufcentes: los patrones generados por la generalzacón nductva no serán váldos s no se los pueden dstngur de las casualdades. Como esta dferencacón se basa generalmente en pruebas estadístcas deben exstr casos sufcentes para que dchas pruebas sean efectvas. La cantdad de datos requerdos está afectada por factores como la cantdad de propedades y clases, y la complejdad del modelo de clasfcacón; a medda que estos se ncrementan se necestan más datos para construr un modelo confable. 4.2. Sstema ntegrador ara estudar la solucón propuesta es este trabajo se desarrolló un sstema de Mnería de Datos utlzando Redes Bayesanas ver Anexo D el cual se acopló a un programa preexstente que realza la nduccón de árboles de decsón TDIDT C4.5 [Servente & García-Martínez, 2002]. A contnuacón se presentan los esquemas que lustran la metodología de obtencón de las redes bayesanas completas y de las redes bayesanas preprocesadas C4.5. Datos de entrenamento Aprendzaje estructural Estructura de la red bayesana Aprendzaje paramétrco Red bayesana Completa Fgura 4.1: Esquema de obtencón de redes bayesanas completas 58 ablo Felgaer Solucón propuesta

Datos de entrenamento Generador árboles de decsón Árbol de decsón C4.5 reseleccón de varables Varables preselecconadas Datos de entrenamento Aprendzaje estructural Estructura de la red bayesana Aprendzaje paramétrco Red bayesana C4.5 Varables preselecconadas Fgura 4.2: Esquema de obtencón de redes bayesanas C4.5 En la fgura 4.1 se observa el proceso medante el cual se obtenen las redes bayesanas completas a partr de los datos de entrenamentos. Esto se logra medante el uso del sstema de Mnería de Datos utlzando Redes Bayesanas cuyos componentes prncpales son los procesos de aprendzaje estructural y aprendzaje paramétrco. La fgura 4.2 descrbe el proceso de obtencón de las redes bayesanas C4.5 donde se puede observar la etapa de preseleccón de varables. Los datos de entrenamento son ntroducdos al programa generador de árboles de decsón y una vez obtendo el árbol se procede a la preseleccón; ésta consste en armar un subconjunto que ncluya solamente a las varables del domno que conforman el árbol nducdo. Luego se procede a la obtencón de la red bayesana C4.5 de forma análoga a como se presentó en la fgura 4.1 pero trabajando exclusvamente con el conjunto de varables preselecconado anterormente. Una vez obtendas las dos versones de las redes bayesanas del domno en estudo se procede a la verfcacón del poder predctvo de las msmas. Como se observa en la fgura 4.3 el proceso de verfcacón se nutre de la red bayesana que se desea verfcar y del conjunto de datos de valdacón; a partr de esta nformacón se procesa y se obtene un reporte detallado sobre el poder predctvo de la red nvestgada. Solucón propuesta ablo Felgaer 59

Datos de valdacón Red bayesana roceso verfcador Reporte del poder predctvo Fgura 4.3: Esquema del proceso de verfcacón del poder predctvo. 4.3. Otros abordajes Exsten antecedentes de otros trabajos que encaran el problema de optmzar dferentes tpos de redes bayesanas aplcadas a la tarea de clasfcacón. Langley y Sage [1994] propuseron un método para optmzar redes bayesanas de tpo nave. El método defne una etapa de preseleccón de varables donde se evalúa el grado de correlacón entre las msmas. Sngh y rovan propuseron dos métodos para optmzar redes bayesanas de tpo multconectadas. El K2-AS [Sngh & rovan, 1995a] defne una etapa de preseleccón de varables donde se evalúa la capacdad predctva de la red al ncorporar cada atrbuto. El Info-AS [Sngh & rovan, 1995b] defne una etapa de preseleccón de varables basada en las métrcas de nformacón: gananca, proporcón de gananca [Qunlan, 1986] y medda de dstanca [López de Mantaras, 1991]. El manejo de las redes bayesanas se realza medante el sstema HUGIN [Andersen et al., 1989] y se utlza el algortmo de aprendzaje estructural K2 [Cooper & Herskovts, 1992]. En este trabajo se propone un método para optmzar redes bayesanas de tpo polárbol. El método defne una etapa de preseleccón de varables basada en árboles de decsón TDIDT C4.5 [Qunlan, 1993d]. El manejo de las redes bayesanas se realza medante un sstema desarrollado como parte de esta tess y se utlza el algortmo de aprendzaje estructural de Rebane y earl [1989]. 60 ablo Felgaer Solucón propuesta

5. rueba expermental 5.1. Descrpcón de los domnos ara realzar la comparacón de los resultados obtendos al aplcar las redes bayesanas completas RB-Completa y las redes bayesanas preprocesadas con algortmos de nduccón C4.5 RB-C4.5 se utlzaron las bases de datos Cáncer, Cardología y Hongos obtendas del Irvng Repostory of Machne Learnng databases de la Unversdad de Calforna [Murphy & Aha] y la base de datos Dengue que se obtuvo de la Facultad de Cencas Exactas y Naturales de la Unversdad de Buenos Ares [Carbajo et al., 2003]. Dado que los tpos de problemas en que se enfoca el presente trabajo son de clasfcacón, todas las bases de datos utlzadas se componen de dversas varables de entrada y una sola de salda varable clasfcadora; esta últma puede tomar uno sólo de sus valores por cada caso esto sgnfca que las clases deben ser mutuamente excluyentes. or otro lado, el domn o de valores de cada una de las varables que componen las bases de datos son dscretos y en los casos en que son contnuos se encuentran dscretzados y representados medante rangos. La Tabla 5.1 resume dchas bases de datos en térmnos de cantdad de casos, clases, varables excluyendo las clases, así como tambén la cantdad de varables resultantes del preprocesamento a través del algortmo de nduccón C4.5. Base de Datos Varables Varables C4.5 Clases Casos control Casos contraste Casos totales Cáncer 9 6 2 500 199 699 Cardología 6 4 2 64 31 95 Dengue 11 5 4 1.414 707 2.121 Hongos 22 6 2 5.416 2.708 8.124 Tabla 5.1: Descrpcón de las bases de datos. rueba expermental ablo Felgaer 61

Donde la columna: Base de Datos ndca el nombre descrptvo del conjunto de datos correspondente. Varables ndca la cantdad de varables que posee la base de datos orgnal. Varables C4.5 muestra la cantdad de varables que posee la base de datos luego de preprocesarla medante el algortmo C4.5 ambas columnas excluyen a la varable clasfcadora. Clases ndca cuantos valores puede tomar la varable clasfcadora. Casos control representa la cantdad de regstros que abarcan las bases de datos de control. Casos contraste representa la cantdad de regstros que abarcan las bases de datos de contraste. Casos totales representa la cantdad de regstros que abarcan las bases de datos de totales. A contnuacón se procederá a descrbr con mayor nvel de detalle cada una de las bases de datos utlzadas. ara cada una de ellas se descrbe su domno, las varables que las componen con sus correspondentes valores posbles y las dstrbucones de las clases tanto en el conjunto de casos de control como así tambén en el de contraste. 5.1.1. Cáncer a Descrpcón Esta base de datos de cáncer fue obtenda de la Unversty of Wsconsn Hosptals, Madson del Dr. Wllam H. Wolberg. La msma posee regstros de 699 casos donde para cada uno de ellos se relevaron el valor de 9 varables y s el tumor encontrado resultó ser bengno o malgno. 62 ablo Felgaer rueba expermental

b Varables Varable Valores Clump thckness 1 10 Unformty of cell sze 1 10 Unformty of cell shape 1 10 Margnal adheson 1 10 Sngle epthelal cell sze 1 10 Bare nucle 1 10 Bland chromatn 1 10 Normal nucleol 1 10 Mtoses 1 10 Clase Bengno, Malgno Tabla 5.2: Varables de la base de datos Cáncer. c Cantdad de regstros y dstrbucón de las clases Clase Bengno Malgno Total Casos control 328 172 500 Casos contraste 130 69 199 Total 458 241 699 Tabla 5.3: Dstrbucón de las clases de la base de datos Cáncer. 5.1.2. Cardología a Descrpcón Los ejemplos planteados en este caso corresponden a la patología Infarto Agudo de Mocardo [Montalvett, 1995]. En este caso, todos los ejemplos responden a personas de sexo masculno, entre 40 y 50 años, fumadores, con dspldema e hpertens ón arteral presente. ueden obtenerse dos dagnóstcos de los ejemplos planteados: S es un nfarto agudo de mocardo o No no es un nfarto agudo de mocardo. Aunque en medcna es rueba expermental ablo Felgaer 63

dfícl realzar un dagnóstco con una cantdad de varables reducdas, se determnó que las varables planteadas en estos ejemplos alcanzaban para realzar un dagnóstco prelmnar de gran ayuda al experto. b Varables Varable Dolor de pecho de angor Irradacón del angor Duracón del angor Angor en relacón Antgüedad del angor Respuesta vasodlatadora Clase Valores Típco, Atípco, Ausente S, No Menos de 30 mnutos, Más de 30 mnutos Con esfuerzo, En reposo Recente, Más de un mes ostva, Negatva S, No Tabla 5.4: Varables de la base de datos Cardología. c Cantdad de regstros y dstrbucón de las clases Clase S No Total Casos control 18 46 64 Casos contraste 9 22 31 Total 27 68 95 Tabla 5.5: Dstrbucón de las clases de la base de datos Cardología. 5.1.3. Dengue a Descrpcón En 1996 los prmeros estudos sobre A. aegypt el vector transmsor del Dengue en la Cudad de Buenos Ares mostraron que se encontraba en toda la cudad y que había dferencas en su abundanca entre el centro de la cudad y la perfera. A partr de 1998 64 ablo Felgaer rueba expermental

comenzó un muestreo exhaustvo medante ovtrampas 1 y búsqueda de larvas en domclos de la cudad con el objetvo de dlucdar en mayor detalle la heterogenedad espacal y temporal de su dstrbucón. La dsponbldad de capas de nformacón de la cudad muy detalladas sobre demografía y urbanzacón permteron relevar la dstrbucón del vector y el ambente. b Varables Varable Valores Coherenca S, No Industras [0..50], 50..150], 150..450], [>500] Verde [0..1], 1..25], 25..50], [>50] Casas [0..5], 5..10], 10..20], [>20] Gente [0..80], 80..160], 160..320], [>320] Departamentos [0..10], 10..30], 30..60], [>60] TM 0, 2, 5 T 1, 2, 5, 6 Alttud [0..10], 10..20], [>20] Avendas [0..30], 30..90], 90..270], [>270] Estacón Verano, rmavera, Otoño, Inverno ostvdad 0, 1, 2, 3 Tabla 5.6: Varables de la base de datos Dengue. c Cantdad de regstros y dstrbucón de las clases ostvdad 0 1 2 3 Total Casos control 844 195 112 263 1.414 Casos contraste 410 107 47 143 707 Total 1.254 302 159 406 2.121 Tabla 5.7: Dstrbucón de las clases de la base de datos Dengue. 1 Trampas donde el mosquto transmsor del Dengue deposta sus huevos. rueba expermental ablo Felgaer 65

5.1.4. Hongos a Descrpcón Esta base de datos ncluye las descrpcones de muestras hpotétcas de 23 especes de hongos de las famlas Agarcus y Lepota. Cada espece es dentfcada como apta para ser ngerda, absolutamente venenosa, o de ngestón dudosa y certamente no recomendable. Esta últma clase fue combnada con la venenosa. La guía de donde se obtuveron los datos explca que no exste una regla smple para determnar s un hongo es ngerble o no. b Varables Varable Forma sombrero Superfce sombrero Color sombrero Magulladuras Olor Tpo membrana Espacado membrana Tamaño membrana Color membrana Forma tronco Raíz tronco Superfce tronco arrba anllo Superfce tronco debajo anllo Color tronco arrba anllo Color tronco debajo anllo Tpo velo Color velo Cantdad anllos Tpo anllo Valores Acampanada, Cónca, Convexa, Chata, Abotonada, Hundda Fbrosa, Ranurada, Escamosa, Suave Marrón, el, Canela, Grs, Verde, Rosa, Voleta, Rojo, Blanco, Amarllo S, No Almendra, Anís, Creosota, escado, Hedondo, Mohoso, Nnguno, unzante, Especoso Adherda, Descendente, Lbre, Muescada Cercano, oblado, Dstante Ancha, Fna Negra, Marrón, el, Chocolate, Grs, Verde, Naranja, Rosa, Voleta, Roja, Blanca, Amarlla Abultada, Cónca Bulbosa, Agarrotada, Copa, Igual, Rzomorfa, Arrazada Fbrosa, Escamosa, Sedosa, Suave, Fbrosa, Escamosa, Sedosa, Suave Marrón, el, Canela, Grs, Naranja, Rosa, Rojo, Blanco, Amarllo Marrón, el, Canela, Grs, Naranja, Rosa, Rojo, Blanco, Amarllo arcal, Unversal Marrón, Naranja, Blanco, Amarllo Nnguno, Uno, Dos Tejdo, Evanescente, Resplandecente, Grande, Nnguno, endente, Cuberto, Zonal 66 ablo Felgaer rueba expermental

Varable Color esporas oblacón Hábtat Clase Valores Negro, Marrón, el, Chocolate, Verde, Naranja, Voleta, Blanca, Amarllo Abundante, Agrupada, Numerosa, Dspersa, Varos, Soltara astos, Hojas, raderas, Camnos, Urbano, Basura, Bosque Ingerble, Venenoso Tabla 5.8: Varables de la base de datos Hongos. c Cantdad de regstros y dstrbucón de las clases Clase Ingerble Venenoso Total Casos control 2.805 2.611 5.416 Casos contraste 1.403 1.305 2.708 Total 4.208 3.916 8.124 Tabla 5.9: Dstrbucón de las clases de la base de datos Hongos. 5.2. Metodología utlzada La metodología utlzada para llevar a cabo los expermentos con cada una de las bases de datos evaluadas se detalla a contnuacón. 1. Dvdr la base de datos en dos. Una de control o entrenamento aproxmadamente 2/3 de la base total y otra de contraste o valdacón con los datos restantes 2. rocesar la base de datos de control medante el algortmo de nduccón C4.5 para obtener el subconjunto de varables que conformarán la red bayesana C4.5 3. Repetr para el 10%, 20%,, 100% de los datos de la base de control 3.1. Repetr 30 veces, por cada repetcón 3.1.1. Tomar al azar el X% de la base de datos de control según el porcentaje que corresponda a la teracón 3.1.2. Medante ese subconjunto de casos de la base de control, realzar el aprendzaje estructural y paramétrco de las redes bayesanas Completa y C4.5 3.1.3. Evaluar el poder predctvo de ambas redes utlzando la base de datos de contraste 3.2. Calcular el poder predctvo promedo a partr de las 30 teracones rueba expermental ablo Felgaer 67

4. Grafcar el poder predctvo de ambas redes Completa y C4.5 en funcón de los casos de entrenamento El paso 1 del algortmo hace referenca a la dvsón de la base de datos en la de control y la de contraste. En la mayoría de los casos las bases de datos obtendas de los repostoros antes ctados ya se encontraban dvddas. ara la preseleccón de varables medante algortmos de nduccón C4.5 del paso 2, se ntrodujeron a un sstema generador de árboles de decsón TDIDT cada una de las bases de datos de control. A partr de ahí, se obtuveron los árboles de decsón que representan cada uno de los domnos analzados. Las varables que componen dcha representacón pasaron a conformar el subconjunto de varables que fueron tendas en cuenta para el aprendzaje de las redes bayesanas preprocesadas. A contnuacón 3 se nca un bucle que tera dez veces; en cada una de estas teracones se procesó el 10%, 20%,, 100% de la base de datos de control para el aprendzaje estructural y paramétrco de las redes. De esta forma se pudo analzar no sólo la dferenca en la capacdad predctva de las dstntas redes obtendas sno tambén cómo evoluconó dcha capacdad en la medda en que se aprendó con mayor cantdad de casos. La estructura repettva del paso 3.1 tene como objetvo mnmzar los resultados casuales que no se corresponden con la realdad del modelo en estudo. Se logra mnmzar este efecto tomando dferentes muestras de datos y fnalmente promedando los valores obtendos. En los pasos 3.1.x se realza el aprendzaje estructural y paramétrco de las redes bayesanas completas y C4.5 partendo de un subconjunto de los casos de control dsponbles ambas redes se obtenen a partr del msmo subconjunto de datos. Una vez logrado esto se procede a evaluar la capacdad predctva de las redes medante los casos de contraste. ara ello se recorre esta base y por cada caso se nstancan todas las varables de 68 ablo Felgaer rueba expermental

entrada y se analza s la clase nferda por la red se corresponde con la ndcada en el archvo. Dado que la red bayesana no hace clasfcacones excluyentes es decr que predce para cada valor de la clase cual es su probabldad de ocurrenca se consdera como la clase nferda a la que tene asocado el mayor valor de probabldad. La capacdad predctva corresponde al porcentaje de casos clasfcados correctamente respecto al total de casos evaluados. En el punto 3.2 se establece cual es el poder predctvo de la red smplemente promedando los valores obtendos a través de todas las teracones realzadas. Fnalmente, en el paso 4 se procede a grafcar el poder predctvo promedo de ambas redes bayesanas en funcón de la cantdad de casos de entrenamento consderados. 5.3. Análss estadístco de los resultados A contnuacón se detalla el análss estadístco que se aplcó sobre los resultados expermentales obtendos en este trabajo y que avalan las afrmacones y conclusones realzadas. Las nocones teórcas de probabldad y estadístca fueron extraídas prncpalmente de Canavos [Canavos, 1984]. 5.3.1. rueba de hpótess estadístcas En todas las ramas de la cenca, cuando un nvestgador hace una afrmacón con respecto a un fenómeno que puede estar basada en su ntucón, o en algún desarrollo teórco que parece demostrarla, debe luego probar la msma medante la realzacón de expermentos. La expermentacón consste en armar un ambente de prueba en el que ocurra el fenómeno o buscarlo en el ambente real y tomar medcones de las varables nvolucradas. Luego, se realzan análss estadístcos de los resultados para determnar s los msmos confrman la afrmacón realzada. rueba expermental ablo Felgaer 69

Una hpótess estadístca es una afrmacón con respecto a una característca desconocda de una poblacón de nterés. La esenca de probar una hpótess estadístca es el decdr s la afrmacón se encuentra apoyada por la evdenca expermental que se obtene a través de una muestra aleatora. Supóngase, por ejemplo, que unos fabrcantes de tubos de luz marca ACME están tenendo problemas en el mercado debdo a algunos casos de mala caldad de sus productos. ara recuperar su prestgo hacen la sguente afrmacón: El promedo de vda útl de los tubos de luz marca ACME es de 500 horas. Y encargan a una frma ndependente que haga una sere de expermentos para contrastar esta afrmacón con esta otra: El promedo de vda útl de los tubos de luz marca ACME es menor a 500 horas. A la afrmacón promedo = 500 se la llama hpótess nula, y se escrbe como: H 0 : promedo = 500 A la afrmacón promedo < 500 se la llama hpótess alternatva, y se escrbe como: H 1 : promedo < 500 La hpótess nula debe consderarse verdadera a menos que exsta sufcente evdenca en su contra. Es decr, se rechazará la afrmacón de que la vda útl promedo es de 500 horas sólo s la evdenca expermental se encuentra muy en contra de ésta afrmacón. En caso contraro, no se podrá rechazar la afrmacón basándose en la evdenca expermental. Debe notarse que no poder rechazar la afrmacón no es lo msmo que aceptarla. El caso es análogo al de un juco donde hay un sospechoso acusado de un crmen: s la evdenca es sufcente se lo declarará culpable. De lo contraro se drá que la evdenca no alcanza para demostrar su culpabldad. Exsten entonces dos posbles decsones con respecto a la hpótess nula: rechazarla ó no poder rechazarla. A su vez la hpótess nula puede ser verdadera o falsa. Esto deja cuatro posbles escenaros: 70 ablo Felgaer rueba expermental

Cuando H 0 es verdadera Cuando H 0 Rechazar H 0 error Tpo I No poder es verdadera rechazar H 0 Cuando H 0 Cuando H 0 es falsa es falsa error Tpo II Se denomna α la probabldad de cometer un error de tpo I y β a la probabldad de cometer un error de tpo II. Los valores de α y β son nterdependentes. ara cada expermento, al dsmnur uno de ellos aumenta el otro. El error de tpo I se consdera más grave que el de tpo II volvendo a la analogía con el juco, se prefere dejar r a un culpable y no condenar a un nocente por lo que el procedmento segudo habtualmente consste en fjar un valor pequeño para α por ejemplo, 5% y luego tratar de mnmzar β lo más que se pueda. 5.3.2. El test de Wlcoxon para la comparacón de muestras apareadas 5.3.2.1. Introduccón Exsten numerosos métodos para la prueba de hpótess estadístcas. El hecho de que cada uno de ellos pueda aplcarse a una stuacón en partcular depende de los sguentes factores: La cantdad de medcones realzadas. La naturaleza de los valores a analzar s son valores en un ntervalo numérco, s son categorías cualtatvas, s son del tpo SI / NO, etc.. El grado de dependenca exstente entre las medcones. rueba expermental ablo Felgaer 71

Los expermentos realzados para comparar las redes bayesanas completas con las redes bayesanas preprocesadas con C4.5 son un caso que se denomna de muestras apareadas en el cual se mden varables numércas. ara estos casos el test de Wlcoxon es el más apropado [Canavos, 1984]. El térmno muestras apareadas se refere a que las medcones realzadas no son ndependentes sno que son tomadas de a pares. Esto hace que lo que deba analzarse sean las dferencas que exsten en cada par de valores, que es precsamente lo que hace el test de Wlcoxon. 5.3.2.2. Descrpcón del test Los expermentos para comparar la caldad de predccón de los dos tpos de redes obtendas se realzan de la sguente forma: 1. Se toman N muestras de datos. 2. Se realzar el proceso de aprendzaje estructural y paramétrco de las redes con ambos algortmos. 3. Se mde el porcentaje de predccón para cada una de las redes. Luego de la realzacón de los expermentos se confeccona una tabla que tene la sguente forma ejemplo para 4 muestras: Muestra Algortmo 1 Algortmo 2 Dferenca 1-2 Rankng Rankng con sgno 1 0,79 0,80-0,01 1-1 2 0,46 0,51-0,05 4-4 3 0,91 0,87 0,04 3 3 4 0,23 0,25-0,02 2-2 Tabla 5.10: Ejemplo de tabla para aplcar el test de Wlcoxon. Como se ve, los valores pueden tener grandes varacones de muestra a muestra pero lo que mporta es la dferenca entre los valores de cada algortmo para cada muestra ya que eso es lo que ndcará el mejor o peor rendmento de cada uno. 72 ablo Felgaer rueba expermental

La hpótess nula que es puesta a prueba es que el promedo de los valores es gual para los dos algortmos es decr, que la capacdad predctva de ambas redes obtendas es equvalente. Se plantean dos hpótess alternatvas: una de ellas afrma que el promedo de los valores es mayor para el algortmo 1 y la otra que el promedo de los valores es mayor para el algortmo 2. La metodología del test es la sguente: Se calculan las dferencas de los valores para cada muestra. Luego se asgna a cada dferenca un valor en un rankng de menor a mayor en base a su valor absoluto. or últmo a cada valor del rankng se le asgna el sgno de la dferenca que le do orgen. Se denomna T + a la suma de los valores postvos y T a la suma de los negatvos. S no hubera dferencas entre los algortmos es de esperar que T + resulte gual a T en valor absoluto. ara muestras lo sufcentemente grandes, la varable T + puede aproxmarse por medo de una dstrbucón normal con meda E T + y varanza Var T +, donde: E T + = N N + 1 4 Var T + = N N + 12N + 1 24 Luego, s se defne la transformacón: zt + = T + E T+ Var T + la varable zt + tene una dstrbucón normal estándar meda gual a 0 y varanza gual a 1. El valor del parámetro α determna los límtes mínmo y máxmo para el valor rueba expermental ablo Felgaer 73

observado de zt + más allá de los cuales se rechaza la hpótess nula. S el valor de zt + es superor al límte máxmo se aceptará la hpótess alternatva de que el promedo de valores para el algortmo 1 es mayor que para el algortmo 2. S el valor de zt + es nferor al límte mínmo se aceptará la hpótess alternatva de que el promedo de valores para el algortmo 2 es mayor que para el algortmo 1. 5.3.3. Aplcacón del test a los resultados En el caso de los expermentos realzados en este trabajo se utlzaron dez medcones de la capacdad predctva de la red para cada una de las dos redes que se desean comparar por lo que N = 10. El valor de α utlzado es de 5%, α = 0. 05. Esto quere decr que en los casos en que rechacemos la hpótess nula y aceptemos alguna de las hpótess alternatva s, el test nos dará un 95% de confanza. Tenendo N y α quedan defndos los límtes mínmo y máxmo para zt +, que son respectvamente -1,645 y 1,645. A partr N tambén se puede calcular el valor de E T + y de Var T + medante las fórmulas antes ctadas. N N + 1 1010 + 1 E T + = = = 27,5 4 4 N N + 12N + 1 1010 + 12x10 + 1 Var T + = = = 96,25 24 24 con lo cual la aplcacón del test de Wlcoxon se reduce al armado de las tablas, calcular el valor de zt + y compararlo contra los límtes. T + E T + T + 27,5 zt + = = Var T + 9,81 En la sguente seccón de resultados, para cada uno de los domnos en los que se realzaron expermentos, se aplca el test de Wlcoxon para verfcar y avalar las conclusones obtendas. 74 ablo Felgaer rueba expermental

5.4. Resultados A contnuacón se presentarán los resultados expermentales que surgen de aplcar la metodología prevamente ctada a cada una de las bases de datos de prueba. 5.4.1. Cáncer Cáncer. A contnuacón se presentan los resultados obtendos sobre el domno de datos 5.4.1.1. Gráfco Gráfco del poder predctvo de las RB-Completa y RB-C4.5 en funcón de la cantdad de casos de aprendzaje para el domno Cáncer. Cáncer 84,00% 82,00% 80,00% 78,00% redccón 76,00% 74,00% 72,00% 70,00% 68,00% 66,00% 50 100 150 200 250 300 350 400 450 500 Casos RB-Completa RB-C4.5 Gráfco 5.1: Gráfco del poder predctvo para la base de datos Cáncer. rueba expermental ablo Felgaer 75

Regstros Completo C4.5 Casos OK Mal redccón Casos OK Mal redccón 10% 50 150 49 67,00% 50 163 37 74,00% 20% 100 135 64 67,84% 100 148 52 74,12% 30% 150 134 66 67,09% 150 150 49 75,25% 40% 200 141 58 70,73% 200 160 39 80,53% 50% 250 138 61 69,35% 250 160 39 80,53% 60% 300 141 58 70,73% 300 161 38 80,78% 70% 350 143 56 71,86% 350 164 35 82,29% 80% 400 143 56 71,73% 400 164 35 82,54% 90% 450 142 58 71,11% 450 164 35 82,41% 100% 500 143 56 71,86% 500 164 35 82,41% Tabla 5.11: Tabla del poder predctvo para la base de datos Cáncer. 5.4.1.2. Test de Wlcoxon Muestra Red Completa Red C4.5 Dferenca Rankng Rankng con sgno 1 67,00% 74,00% -7,00% 2-2 2 67,84% 74,12% -6,28% 1-1 3 67,09% 75,25% -8,17% 3-3 4 70,73% 80,53% -9,80% 4-4 5 69,35% 80,53% -11,18% 9-9 6 70,73% 80,78% -10,05% 5-5 7 71,86% 82,29% -10,43% 6-6 8 71,73% 82,54% -10,80% 8-8 9 71,11% 82,41% -11,31% 10-10 10 71,86% 82,41% -10,55% 7-7 Tabla 5.12: Tabla de aplcacón del test de Wlcoxon para la base de datos Cáncer. De la tabla surge que T+ = 0 y que T- = 55 con lo cual zt+ = -2,8. or lo tanto debe rechazarse la hpótess nula y aceptarse la hpótess alternatva que sostene que los valores para el algortmo híbrdo RB-C4.5 son mayores que para el algortmo puro RB- Completa. 76 ablo Felgaer rueba expermental

5.4.1.3. Análss Como puede observarse en el gráfco 5.1 domno Cáncer el poder predctvo de la RB-C4.5 es superor al de la RB-Completa a lo largo de todos sus puntos esta afrmacón es avalada al aplcar el test de Wlcoxon. Asmsmo, se puede observar como dcha capacdad predctva se ve ncrementada, cas sempre, en la medda que se toman mayor cantdad de casos de entrenamento para generar las redes. Fnalmente, se observa que a partr de los 350 casos de entrenamento el poder predctvo de las redes tene a establzarse alcanzando su punto máxmo. 5.4.2. Cardología A contnuacón se presentan los resultados obtendos sobre el domno de datos Cardología. 5.4.2.1. Gráfco Gráfco del poder predctvo de las RB-Completa y RB-C4.5 en funcón de la cantdad de casos de aprendzaje para el domno Cardología. rueba expermental ablo Felgaer 77

Cardología 95,00% 90,00% 85,00% redccón 80,00% 75,00% 70,00% 65,00% 60,00% 6 12 18 24 30 36 42 48 54 60 Casos RB-Completa RB-C4.5 Gráfco 5.2: Gráfco del poder predctvo para la base de datos Cardología. Regstros Completo C4.5 Casos OK Mal redccón Casos OK Mal redccón 10% 6 20 11 64,27% 6 21 10 66,61% 20% 12 24 7 76,45% 12 25 6 79,60% 30% 19 26 5 83,31% 19 27 4 86,05% 40% 25 27 4 87,90% 25 28 3 90,32% 50% 32 28 3 90,89% 32 29 3 91,94% 60% 38 28 3 90,97% 38 29 2 92,66% 70% 44 29 2 92,18% 44 29 2 93,39% 80% 51 29 2 92,98% 51 29 2 93,47% 90% 57 29 2 93,79% 57 29 2 94,11% 100% 64 29 2 93,55% 64 29 2 93,55% Tabla 5.13: Tabla del poder predctvo para la base de datos Cardología. 78 ablo Felgaer rueba expermental

5.4.2.2. Test de Wlcoxon Muestra Red Completa Red C4.5 Dferenca Rankng Rankng con sgno 1 64,27% 66,61% -2,34% 6-6 2 76,45% 79,60% -3,15% 9-9 3 83,31% 86,05% -2,74% 8-8 4 87,90% 90,32% -2,42% 7-7 5 90,89% 91,94% -1,05% 3-3 6 90,97% 92,66% -1,69% 5-5 7 92,18% 93,39% -1,21% 4-4 8 92,98% 93,47% -0,48% 2-2 9 93,79% 94,11% -0,32% 1-1 10 93,55% 93,55% 0,00% Tabla 5.14: Tabla de aplcacón del test de Wlcoxon para la base de datos Cardología. De la tabla surge que T+ = 0 y que T- = 45 con lo cual zt+ = -1,8. or lo tanto debe rechazarse la hpótess nula y aceptarse la hpótess alternatva que sostene que los valores para el algortmo híbrdo RB-C4.5 son mayores que para el algortmo puro RB- Completa. 5.4.2.3. Análss Al analzar el gráfco 5.2 correspondente a la base de datos Cardología tambén se puede observar una mejora por parte de la RB-C4.5 respecto de la RB-Completa. S ben las dferencas entre los valores obtendos con ambas redes son menores que en el caso anteror, el algortmo híbrdo presenta una mejor aproxmacón a la realdad que el otro. Cabe destacar que en este caso el nvel de mejora va dsmnuyendo a medda que el conjunto de casos utlzados para el apre ndzaje se ncrementa. rueba expermental ablo Felgaer 79

5.4.3. Dengue Dengue. A contnuacón se presentan los resultados obtendos sobre el domno de datos 5.4.3.1. Gráfco Gráfco del poder predctvo de las RB-Completa y RB-C4.5 en funcón de la cantdad de casos de aprendzaje para el domno Dengue. Dengue 71,00% 69,00% 67,00% redccón 65,00% 63,00% 61,00% 59,00% 57,00% 141 282 423 564 705 846 987 1128 1269 1410 Casos RB-Completa RB-C4.5 Gráfco 5.3: Gráfco del poder predctvo para la base de datos Dengue. Regstros Completo C4.5 Casos OK Mal redccón Casos OK Mal redccón 10% 141 417 290 58,00% 141 484 224 68,00% 20% 282 412 295 58,40% 282 493 214 68,30% 30% 424 413 294 59,00% 424 493 214 68,40% 40% 565 410 297 58,70% 565 494 213 68,70% 80 ablo Felgaer rueba expermental

Regstros Completo C4.5 Casos OK Mal redccón Casos OK Mal redccón 50% 707 410 297 60,00% 707 494 213 68,60% 60% 848 410 297 60,50% 848 493 214 68,80% 70% 989 410 297 61,00% 989 494 213 68,90% 80% 1131 410 297 60,70% 1131 494 213 69,00% 90% 1272 410 297 61,00% 1272 494 213 69,50% 100% 1414 410 297 61,30% 1414 494 213 69,87% Tabla 5.15: Tabla del poder predctvo para la base de datos Dengue. 5.4.3.2. Test de Wlcoxon Muestra Red Completa Red C4.5 Dferenca Rankng Rankng con sgno 1 58,00% 68,00% -10,00% 9,5-9,5 2 58,40% 68,30% -9,90% 8-8 3 59,00% 68,40% -9,40% 7-7 4 58,70% 68,70% -10,00% 9,5-9,5 5 60,00% 68,60% -8,60% 6-6 6 60,50% 68,80% -8,30% 2-2 7 61,00% 68,90% -7,90% 1-1 8 60,70% 69,00% -8,30% 3,5-3,5 9 61,00% 69,50% -8,50% 3,5-3,5 10 61,30% 69,87% -8,57% 5-5 Tabla 5.16: Tabla de aplcacón del test de Wlcoxon para la base de datos Dengue. De la tabla surge que T+ = 0 y que T- = 55 con lo cual zt+ = -2,8. or lo tanto debe rechazarse la hpótess nula y aceptarse la hpótess alternatva que sostene que los valores para el algortmo híbrdo RB-C4.5 son mayores que para el algortmo puro RB- Completa. rueba expermental ablo Felgaer 81

5.4.3.3. Análss ara la base de datos de Dengue correspondente al gráfco 5.3 se observa una mejoría en el poder predctvo de la red obtenda medante al método propuesto. Como puede observarse en el gráfco y sus respectvas tablas de valores, la RB-C4.5 logra realzar la clasfcacón de los casos con una precsón entre 8% y 10% mayor que la obtenda medante la otra red. 5.4.4. Hongos Hongos. A contnuacón se presentan los resultados obtendos sobre el domno de datos 5.4.4.1. Gráfco Gráfco del poder predctvo de las RB-Completa y RB-C4.5 en funcón de la cantdad de casos de aprendzaje para el domno Hongos. 82 ablo Felgaer rueba expermental

Hongos 98,60% 98,40% 98,20% redccón 98,00% 97,80% 97,60% 97,40% 97,20% 541 1082 1623 2164 2705 3246 3787 4328 4869 5410 Casos RB-Completa RB-C4.5 Gráfco 5.4: Gráfco del poder predctvo para la base de datos Hongos. Regstros Completo C4.5 Casos OK Mal redccón Casos OK Mal redccón 10% 541 2636 72 97,33% 541 2646 63 97,69% 20% 1083 2638 70 97,42% 1083 2648 60 97,78% 30% 1624 2640 68 97,49% 1624 2655 53 98,03% 40% 2166 2641 67 97,51% 2166 2656 52 98,07% 50% 2708 2641 67 97,52% 2708 2658 50 98,15% 60% 3249 2641 67 97,54% 3249 2659 49 98,19% 70% 3791 2642 66 97,58% 3791 2665 43 98,40% 80% 4332 2643 65 97,59% 4332 2662 46 98,29% 90% 4874 2643 65 97,60% 4874 2662 46 98,29% 100% 5416 2643 65 97,60% 5416 2668 40 98,52% Tabla 5.17: Tabla del poder predctvo para la base de datos Hongos. rueba expermental ablo Felgaer 83

5.4.4.2. Test de Wlcoxon Muestra Red Completa Red C4.5 Dferenca Rankng Rankng con sgno 1 97,33% 97,69% -0,36% 2-2 2 97,42% 97,78% -0,35% 1-1 3 97,49% 98,03% -0,54% 3-3 4 97,51% 98,07% -0,56% 4-4 5 97,52% 98,15% -0,64% 5-5 6 97,54% 98,19% -0,65% 6-6 7 97,58% 98,40% -0,82% 9-9 8 97,59% 98,29% -0,69% 7,5-7,5 9 97,60% 98,29% -0,69% 7,5-7,5 10 97,60% 98,52% -0,92% 10-10 Tabla 5.18: Tabla de aplcacón del test de Wlcoxon para la base de datos Hongos. De la tabla surge que T+ = 0 y que T- = 55 con lo cual zt+ = -2,8. or lo tanto debe rechazarse la hpótess nula y aceptarse la hpótess alternatva que sostene que los valores para el algortmo híbrdo RB-C4.5 son mayores que para el algortmo puro RB- Completa. 5.4.4.3. Análss Al evaluar los resultados obtendos con las bases de datos de Hongos gráfco 5.4 se afanzan las afrmacones ctadas referentes a la mejora que produce el preprocesamento de las varables de la red aplcadas a los problemas de clasfcacón. En este caso tambén, el poder predctvo se ve ncrementado. 84 ablo Felgaer rueba expermental

6. Conclusones Como se puede observar todas las gráfcas que representan el poder predctvo en funcón de la cantdad de casos de entrenamento son crecentes. Este fenómeno se da ndependentemente del domno de datos utlzado y del método evaluado RB-Completa o RB-C4.5. Del análss de los resultados obtendos en la expermentacón podemos conclur que el método híbrdo de aprendzaje propuesto en esta tess RB-C4.5 genera una mejora en el poder predctvo de la red respecto a la obtenda sn realzar el preprocesamento de las varables RB-Completa. En otro aspecto, las RB-C4.5 poseen una cantdad de varables menor o a lo sumo gual que las RB-Completa; esta reduccón de la cantdad de varables nvolucradas produce una smplfcacón en la conceptualzacón del domno analzado, la cual trae aparejado dos mportantes ventajas; por un lado, facltan la representacón e nterpretacón del conocmento elmnando parámetros que no repercuten de manera drecta sobre el objetvo buscado tarea de clasfcacón. or el otro lado, smplfca y optmza la tarea de razonamento propagacón de las probabldades lo cual conlleva a la mejora de los tempos de procesamento. En suma, basándonos en los resultados expermentales obtendos conclumos que el método híbrdo de aprendzaje propuesto en este trabajo optmza las confguracones de las redes bayesanas de tpo polárbol aplcadas a tareas de clasfcacón. Conclusones ablo Felgaer 85

Referencas Andersen, S.K., Olesen, K.G., Jensen, F. 1989. HUGIN a Shell for Buldng Belef Unverses for Expert Systems. In roc. IJCAI, pages 1080-1085. Benlch, I.A., Suermondt, H.J., Chavez, R.M., Cooper, G.F. 1989. The ALARM montorng system: A case study wth two probablstc nference technques for belef networks. In proceedngs of the 2nd European Conference on Artfcal Intellgence n Medcne. Bckmore, Tmothy W. 1994. Real-Tme Sensor Data Valdaton. NASA Contractor Report 195295, Natonal Aeronautcs and Space Admnstraton. Blurock, Eduard S. 1996. The ID3 Algorthm. Research Insttute for Symbolc Computaton, Austra. Breese, John S., Blake, Russ 1995. Automatng Computer Bottleneck Detecton wth Belef Nets. roceedngs of the Conference on Uncertanty n Artfcal Intellgence, Morgan Kaufmann, San Francsco, CA, pp 36-45. Canavos, G.C. 1984. robabldad y Estadístca, Aplcacones y Métodos. Mc.Graw-Hll. Carbajo, A., Curto, S., Schwegmann, N. 2003. Dstrbucón espaco-temporal de Aedes aegypt Dptera: Culcdae. Su relacón con el ambente urbano y el resgo de transmsón del vrus dengue en la Cudad de Buenos Ares. Departamento de Ecología, Genétca y Evolucón. Facultad de Cencas Exactas y Naturales. Unversdad de Buenos Ares. Chen, M., Han, J., Yu,. 1996. Data mnng: An overvew from database perspectve. IEEE Transactons on Knowledge and Data Eng. Referencas ablo Felgaer 87

Cooper, G.F., Herskovts, E. 1992. A Bayesan Method for the Inducton of robablstc Networks from Data. In Machne Learnng 9, pages 54-62, Kluwer. Cowell, R., Dawd, A., Laurtzen, S., Spegelhalter, D. 1990. robablstc Networks and Expert Systems. Sprnger, New York, NY. Daz, F., Corchado, J.M. 1999. Rough sets bases learnng for bayesan networks. Internatonal workshop on objetve bayesan methodology, Valenca, Span. Díez Vegas, F.J. 1994. Sstema experto bayesano para ecocardografía. Tess doctoral, Unversdad Naconal de Educacón a Dstanca. Evangelos, S., Han, J. 1996. roceedngs of the Second Internatonal Conference on Knowledge Dscovery and Data Mnng. ortland, EE.UU. Ezawa, Kazuo J., Schuermann, Tl 1995. Fraud/Uncollectble Debt Detecton Usng a Bayesan Network Based Learnng System: A Rare Bnary Outcome wth Mxed Data Structures. roceedngs of the Conference on Uncertanty n Artfcal Intellgence, Morgan Kaufmann, San Francsco, CA, pp 157-166. Felgaer,., Brtos,., Scre, J., Servetto, A., García-Martínez, R., erchnsky, G. 2003. Optmzacón de redes bayesanas basado en técncas de aprendzaje por nduccón. IX Congreso Argentno de Cencas de la Computacón. La lata. Octubre 6 al 10. Frtz, W., García-Martínez, R., Rama, A., Blanqué, J., Adobatt, R., Sarno, M. 1989. The Autonomous Intellgent System. Robotcs and Autonomous Systems. Elsever Scence ublshers. Holanda. Volumen 5. Número 2. ágnas 109-125. Gallon, R., Clar, D., Sabharwal, C., Bond, W.E. 1993. Dynamc ID3: A Symbolc Learnng Algorthm for Many-Valued Attrbute Domans. Engneerng Educaton Center, Unversty of Mssour-Rolla, St. Lus, EE.UU. 88 ablo Felgaer Referencas

García-Martínez, R. 1993. Aprendzaje Automátco basado en Método Heurístco de Formacón y onderacón de Teorías. Revsta Tecnología. Brasl. Volumen 15. Número 1-2. ágnas 159-182. García-Martínez, R. 1995. Aprendzaje Automátco. Encclopeda Iberoamercana de squatría. Volumen II Ed. G. Vdal, R. Alarcón & F. Lolas. ágnas 824-828. Edtoral Médca anamerca. ISBN 950-06-2311-0. García-Martínez, R. 1997. Sstemas Autónomos. Aprendzaje Automátco. 170 págnas. Edtoral Nueva Lbrería. ISBN 950-9088-84-6. García-Martínez, R., Borrajo, D. 2000. An Integrated Approach of Learnng, lannng and Executng. Journal of Intellgent and Robotc Systems. Volumen 29, Número 1, ágnas 47-78. Kluwer Academc ress. García-Martínez, R., Servente, M., asqun, D. 2003. Sstemas Intelgentes. 347 págnas. Edtoral Nueva Lbrería. ISBN 987-1104-05-7. Gowans, M. 2001. Bayesan Network Toolkt. Department of Computng, Imperal College. Grosser, H., Brtos,., García-Martínez, R. 2005. Detectng Fraud n Moble Telephony Usng Neural Networks. Lecture Notes n Artfcal Intellgence. Volumen 3533, ágnas 613-615. Han, J. 1999. Data Mnng. Urban and Dasgupta eds., Encyclopeda of Dstrbuted Computng, Kluwer Academc ublshers. Referencas ablo Felgaer 89

Harrs, N., Segelhalter, D.J., Bull, K., Frankln, R.C.G. 1990. Crtczng Condtonal robabltes n Belef Networks. SCAMC 90, roceedngs of the 4 th Annual Symposum on Computer Applcatons n Medcal Care. p. 805-809. Heckerman, D., Chckerng, M., Geger, D. 1995. Learnng bayesan networks, the combnaton of knowledge and statstcal data. Machne learnng 20: 197-243 Heckerman, D. 1995. A tutoral on learnng bayesan networks. Techncal report MSR- TR-95-06, Mcrosoft research, Redmond, WA. Heckerman, D.E., Geger, D., Chckerng, D. 1995. Learnng Bayesan networks: The combnaton of knowledge and statstcal data. Machne Learnng, vol. 20, pp. 197-243. Heckerman, D., Chckerng, M. 1996. Effcent approxmaton for the margnal lkelhood of ncomplete data gven a bayesan network. Techncal report MSR-TR-96-08, Mcrosoft Research, Mcrosoft Corporaton. Hernández Orallo, J. 2000. Extraccón automátca de conocmento de bases de datos e ngenería de software. rogramacón declaratva e ngenería de la programacón. Herskovts, E.H., Copper, G.F. 1991. Algorthms for Bayesan belef-networks percomputaton. Meth. Inf. Med., 30:81-9. Holshemer, M., Sebes, A. 1991. Data Mnng: The Search for Knowledge n Databases. Report CS-R9406, ISSN 0169-118X, Amersterdam, The Netherlands. Hunt, E.B., Marn, J., Stone,.J. 1966. Experments n Inducton. New York, Academc ress, EE.UU. Joachms, T., Fretag, D., Mtchell, T. 1995. Web Watcher: A Tour Gude for the World Wde Web. School of Computer Scence, Carnege Mellon Unversty, EE.UU. 90 ablo Felgaer Referencas

López de Mantaras, R. 1991. A dstance-based attrbute selecton measure for decson tree nducton. Machne Learnng, 6, 81-92. Murphy,.M., Aha, D.W. UCI Repostory of Machne Learnng databases. Machnereadable data repostory, Department of Informaton and Computer Scence, Unversty of Calforna, Irvne. Langley,., Sage, S. 1994. Inducton of selectve Bayesan classfers. In roc. Conf. On Uncertanly n AI, pages 399-406. Morgan Kaufmann. Laurtzen, S.L., Spegelhalter, D.J. 1988. Local computatons wth probabltes on graphcal structures and ther applcatons to expert systems. Journal of the Royal Statstcal Socety, seres B; 502:157-224. Mannla, H. 1997. Methods and problems n data mnng. In roc. of Internatonal Conference on Database Theory, Delph, Greece. Mchalsk, R.S., Baskn, A.B., Spackman, K.A. 1982. A Logc-Based Approach to Conceptual Database Analyss. Sxth Annual Symposum on Computer Applcatons on Medcal Care, George Washngton Unversty, Medcal Center, Washngton, DC, EE.UU. Mchalsk, R.S., Carbonell, J.G., Mtchell, T.M. 1983. Machne learnng I: An AI Approach. Morgan Kaufmann, Los Altos, CA. Mchalsk, R.S., Bratko, I., Kubat, M. 1998. Machne Learnng and Data Mnng, Methods and Applcatons. John Wley & Sons Ltd, West Sussex, England. Mtchell, T. 2000. Decson Trees. Cornell Unversty, EE.UU. Referencas ablo Felgaer 91

Montalvett, M. 1995. Sstemas de adquscón automátca de conocmentos. Tess de grado en ngenería de computacón. Unversdad Católca de Santago del Estero, Argentna. earl, J. 1988. robablstc reasonng n ntellgent systems: networks of plausble nference. San Mateo, Calforna: Morgan Kaufmann. erchnsky, G., García-Martínez, R. 2000. A Data Mnng Approach to Computatonal Taxonomy. roceedngs del Workshop de Investgadores en Cencas de la Computacón. ágnas 107-110. Edtado por Departamento de ublcacones de la Facultad de Informátca. Unversdad Naconal de La lata. Mayo. erchnsky, G., García-Martínez, R., roto, A. 2000. Knowledge Dscovery Based on Computatonal Taxonomy And Intellgent Data Mnng. CD del VI Congreso Argentno de Cencas de la Computacón. \cacc2k\cacc\sp\s-039\is-039.htm. Ushuaa. Octubre 2 al 6. erchnsky, G., García-Martínez, R., roto, A., Sevetto, A, Gross, D. 2001. Data Mnng: Supervsed and Non-Supervsed Intellgent Knowledge Dscovery. roceedngs del II Workshop de Investgadores en Cenc as de la Computacón. Mayo. Edtado por Unversdad Naconal de San Lus en el CD Wcc2001:\Wccflash\Areas\IngSoft\Datamnng.pdf erchnsky, G., Servetto, A., García-Martínez, R., Orellana, R., lastno, A. 2003a. Taxomc Evdence Applyng Algorthms of Intellgent Data Mnnng Asterod Famles. roceedngs de la Internatonal Conference on Computer Scence, Software Engneerng, Informaton Technology, e-bussnes & Applcatons. ág. 308-315. Río de Janero Brasl. ISBN 0-9742059-3-7. erchnsky, G., Servente, M., Servetto, A., García-Martínez, R., Orellana, R., lastno, A. 2003b. Taxonomc Evdence and Robustness of the Classfcaton Applyng 92 ablo Felgaer Referencas

Intellgent Data Mnng. roceedngs del VIII Congreso Argentno de Cencas de la Computacón. ág. 1797-1808. atetsk-shapro, G., Frawley, W.J., Matheus, C.J. 1991. Knowledge dscovery n databases: an overvew. AAAI-MIT ress, Menlo ark, Calforna. atetsky-shapro, G., Fayyad, U.M., Smyth,. 1996. From data mnng to knowledge dscovery. AAAI ress/mit ress, CA. Qunlan, J.R. 1986. Inducton of decson trees. Machne Learnng, 1, 81-106. Qunlan, J.R. 1993a. The effect of nose on concept learnng. En R.S. Mchalsk, J.G. Carbonell, & T.M. Mtchells Eds. Machne learnng, the artfcal ntellgence approach. Morgan Kaufmann, Vol. I, Capítulo 6, págnas 149-167. San Mateo, CA: Morgan Kaufmann, EE.UU. Qunlan, J.R. 1993b. Learnng effcent Classfcaton rocedures and Ther Applcaton to Chess Games. En R.S. Mchalsk, J.G. Carbonell, & T.M. Mtchells Eds. Machne learnng, the artfcal ntellgence approach. Morgan Kaufmann, Vol. II, Capítulo 15, págnas 463-482, EE.UU. Qunlan, J.R. 1993c. Combnng nstance-based and model-based learnng. Basser department of computer scence, Unversty of scence, Australa. Qunlan, J.R. 1993d. C4.5: rograms for machne learnng. Morgan Kaufmann publshers, San Mateo, Calforna, EE.UU. Qunlan, J.R. 1995. MDL and categorcal theores. Basser department of computer scence, Unversty of scence, Australa. Referencas ablo Felgaer 93

Qunlan, J.R., Cameron-Jones, R.M. 1995. Oversearchng and layered search n emprcal learnng. Basser department of computer scence, Unversty of scence, Australa. Ramon, M., Sebastan,. 1996. Learnng bayesan networks from ncomplete databases. Techncal report KMI-TR-43, Knowledge Meda Insttute, The Open Unversty. Ramon, M., Sebastan,. 1997. Effcent arameter Learnng n Bayesan Networks from Incomplete Databases. Report KMI-TR-41, January 1997, Knowledge Meda Insttute, The Open Unversty. Ramon, M., Sebastan,. 1999. Bayesan methods n Intellgent Data Analyss. An Introduccton. ages 129-166. hysca Verlag, Hedelberg. Servente, M., García-Martínez, R. 2002. Algortmos TDIDT Aplcados a la Mnería Intelgente. Revsta del Insttuto Tecnológco de Buenos Ares. Volumen 26. ágnas 39-57. Smon, H.A. 1983. Why should machnes learn?. Machne Learnng, Mchalsk et al. eds. alo Alto CA: Toga. Sngh, M., rovan, G. 1995a. A Comparson of Inducton Algorthms for Selectve and non-selectve Bayesan Classfers. In roceedngs of the 12 th Internatonal Conference on Machne Learnng, 497-505. Morgan Kaufmann. Sngh, M., rovan, G. 1995b. Effcent Learnng of Selectve Bayesan Network Classfers. Unversty of ennsylvana. Spegelhalter, D.J., Laurtzen, S.L. 1990. Sequental updatng of condtonal probabltes on drected graphs structures. Networks, 20, pp. 579-605. 94 ablo Felgaer Referencas

A. Casos de uso A contnuacón se presentan los casos de uso [Booch, Jacobson & Rumbaugh, 2000] obtendos durante el análss del software a construr. Los msmos corresponden a la nteraccón de los usuaros con el sstema de redes bayesanas. En cada uno de estos casos de uso el usuaro nca una accón a partr de la seleccón de opcones del menú del sstema. A.1. Menú Archvo El menú Archvo contene las opcones relaconadas con los archvos externos al sstema. Al selecconar la opcón Nueva, en caso de haber una red cargada se descarga y se vuelve al estado ncal. La opcón Abrr abre una red bayesana en el sstema. Al elegr Guardar se guardan las modfcacones sobre la red bayesana aberta. Con Guardar como se guarda la red bayesana aberta con otro nombre de archvo. Fnalmente la opcón Salr cerra el sstema. Casos de uso ablo Felgaer 95

Menú: Archvo Nueva Menú: Archvo Abrr Menú: Archvo Guardar Usuaro Menú: Archvo Guardar como Menú: Archvo Salr Fgura A.1: Casos de uso Archvo. A.2. Menú Red El menú Red contene las opcones relaconadas con la red bayesana aberta en el sstema. La opcón robabldades muestra una tabla con las probabldades totales de los nodos de la red. La opcón Ordenar realza un ordenamento automátco de los nodos de la red en la pantalla. 96 ablo Felgaer Casos de uso

Menú: Red robabldades Menú: Red Ordenar Usuaro Fgura A.2: Casos de uso Red. A.3. Menú Nodo El menú Nodo contene las opcones relaconadas con el nodo selecconado de la red bayesana aberta. Al presonar Instancar Estado <X> se nstanca el nodo en el estado ndcado. Al presonar Instancar Nnguno se desnstanca el nodo. La opcón robabldades Condconales muestra una tabla con las probabldades condconales. robabldades Totales muestra una tabla con las probabldades totales. Fnalmente, ropedades muestra nformacón relatva al nodo selecconado Casos de uso ablo Felgaer 97

Menú: Nodo Instancar Estado <X> Menú: Nodo Instancar Nnguno Menú: Nodo robabldades condconales Usuaro Menú: Nodo robabldades totales Menú: Nodo ropedades Fgura A.3: Casos de uso Nodo. A.4. Menú Herramentas El menú Herramentas contene las opcones relaconadas con herramentas de valor agregado. En partcular, Mnería de Datos obtene la red bayesana a partr de datos. Menú: Herramentas Mnería de datos Usuaro Fgura A.4: Casos de uso Herramentas. 98 ablo Felgaer Casos de uso

A.5. Menú Confguracón El menú Confguracón contene las opcones relatvas a la nterfaz gráfca del sstema. La opcón Barra de Herramentas muestra u oculta la barra de herramentas. Barra de Estado muestra u oculta la barra de estado. La opcón Mostrar nodos por permte vsualzar gráfcamente a los nodos por Números muestra a los nodos por número, Nombres muestra a los nodos por nombre o robabldades muestra a los nodos con los estados y las probabldades. La opcón Zoom permte mostrar a los nodos en dferentes tamaños sólo en formato robabldades ; ellos son Tamaño grande o Tamaño chco. Casos de uso ablo Felgaer 99

Menú: Confguracón Barra de herramentas Menú: Confguracón Barra de estado Menú: Confguracón Mostrar nodos por Números Menú: Confguracón Mostrar por Nombres Usuaro Menú: Confguracón Mostrar por robabldades Menú: Confguracón Zoom Tamaño grande Menú: Confguracón Zoom Tamaño chco Fgura A.5: Casos de uso Confguracón. A.6. Menú Ayuda El menú de Ayuda contene las opcones relatvas a la ayuda. Referencas muestra el sgnfcado de las formas y colores dentro del sstema. Acerca de muestra nformacón sobre el sstema. 100 ablo Felgaer Casos de uso

Menú: Ayuda Referencas Menú: Ayuda Acerca de Usuaro Fgura A.6: Casos de uso Ayuda. Casos de uso ablo Felgaer 101

B. Gestón de confguracón B.1. Identfcacón de la confguracón Nombre de la aplcacón: Mnería de Datos medante Redes Bayesanas. Objetvo de la aplcacón: Obtener redes bayesanas a partr de bases de datos y permtr la manpulacón de las msmas para realzar predccones de varables no observadas a partr de otras observadas. Cclo de vda del software : Modelo en cascada. Fases del cclo de vda: 1. Relevamento de necesdades Capítulo 2 y Capítulo 3. 2. Análss y dseño Capítulo 2 y Capítulo 4. 3. Codfcacón Ver CD-ROM. 4. rueba y ajuste Anexo C. 5. Implementacón Anexo D. 6. Mantenmento Anexo B. Líneas bases establecdas : ara el desarrollo del presente trabajo se han acotado las líneas base como los elementos de confguracón defndos. En este caso el crtero es que dado que es una sola persona el tessta quen realza la documentacón del proyecto y la programacón se ha defndo una sola línea base para todo el proceso de desarrollo y programacón Línea base ntegral. B.2. Control de confguracón cambos: A contnuacón se presenta la metodología utlzada para realzar el control de Gestón de confguracón ablo Felgaer 103

Generacón de una solctud de cambo Ante el requermento de un cambo funconal o la deteccón de un error se realza un reporte del problema donde se detallan las cuestones a soluconar. Ingreso de la solctud a la base de datos de cambos Una vez efectuado el reporte se lo archva de manera de que quede asentada la solctud. Análss de la solctud de cambo Cada uno de los reportes es analzado y se decde s se rechaza o se acepta el cambo. Evaluacón de la solctud de cambo S se decde la aceptacón de la solctud de cambo se debe realzar la evaluacón técnca de la msma emtendo un nforme en donde se exprese el esfuerzo requerdo para satsfacer el peddo, las repercusones que dcho cambo genera en otros elementos y el costo estmado. Generacón de la orden de cambo El nforme generado durante la evaluacón de la solctud de cambo se analza y se le asgna una prordad. Realzacón del cambo Se realza el cambo, se regstra y se realza el control de la modfcacón. rueba e mplementacón del cambo Se certfca que el cambo funcona correctamente y se procede a su mplementacón a través de la modfcacó n de manuales y documentos que deban reflejar el cambo. 104 ablo Felgaer Gestón de confguracón

B.3. Generacón de nformes de estado A contnuacón se detallan algunos de los nformes que componen la Gestón de Confguracón y los datos relevantes de cada uno de ellos. Regstro de solctude s de cambo Sstema Mnería de Datos medante Redes Bayesanas Fecha dd/mm/aaaa Resultado de la evaluacón Aceptado Rechazado Nº Sol. 0001 Cambo solctado Se detectó un problema al vsualzar la tabla de probabldades condconales de una varable con muchos padres ya que a veces el ancho de dcha tabla supera los límtes de la pantalla Solucón propuesta ara evtar este nconvenente, se propone que en los casos en que el ancho de la tabla de probabldades supere los límtes de la pantalla se adecue el tamaño de la msma a una medda coherente con las dmensones del montor y se muestre una barra de scroll horzontal análogamente a como esta programado para el alto de la tabla. Elementos del producto software afectados por el cambo Esta modfcacón mpacta drectamente en el códgo fuente del sstema. Sstema Mnería de Datos medante Redes Bayesanas Fecha dd/mm/aaaa Resultado de la evaluacón Aceptado Rechazado Nº Sol 0002 Cambo solctado Se solcta agregarle al sstema una nueva funconaldad para facltar la tarea de expermentacón en funcón de la metodología propuesta en la tess seccón 5.2, Solucón propuesta ara facltar la prueba expermental, se propone desarrollar una nueva opcón que permta procesar de manera paralela dos bases de datos la Completa y la C4.5 e tere de manera automátca tomando el 10%, 20%,, 100% de la base de datos tal cual está estpulado en la metodología propuesta seccón 5.2 y genere dos archvos planos de salda con el porcentaje de predctvdad obtendo en cada una de las teracones realzadas. Elementos del producto software afectados por el cambo Esta modfcacón mpacta drectamente en el códgo fuente del sstema. Gestón de confguracón ablo Felgaer 105

Informe de estado de cambos Sstema Mnería de Datos medante Redes Bayesanas Fecha dd/mm/aaaa Fecha desde dd/mm/aaaa Fecha hasta dd/mm/aaaa Nº Sol. Fecha Descrpcón Estado 0001 dd/mm/aaaa Agregar una scrollbar horzontal en tabla de probabldades condconales. endente 0002 dd/mm/aaaa roceso automátco para realzar la prueba expermental. Fnalzado 106 ablo Felgaer Gestón de confguracón

C. Lote de prueba C.1. lan de pruebas Objetvo de la prueba Determnar las fallas en el sstema de Mnería de Datos medante Redes Bayesanas. Objetos a probar Abrr una red bayesana. Guardar una red bayesana. Guardar una red bayesana con otro nombre. Ver la tabla de probabldades totales de una red bayesana. Ordenar la red bayesana en la pantalla. Instancar un nodo de una red bayesana. Desnstancar un nodo de una red bayesana. Ver la tabla de probabldades condconales de un nodo de una red bayesana. Ver la tabla de probabldades totales de un nodo de una red bayesana. Ver las propedades de un nodo de una red bayesana. roceso de mnería de datos para la obtencón de una red bayesana. Mostrar y ocultar la barra de estado. Mostrar y ocultar la barra de herramentas. Mostrar los nodos de una red bayesana en los dferentes formatos posbles. Mostrar los nodos de una red bayesana en los dferentes tamaños posbles. Ver las referencas respecto a los colores y las formas que se vsualzan en el sstema. Salr del sstema. Característcas a probar Funconaldad de cada uno de los objetos a probar sobre una plataforma Mcrosoft Wndows X. Lote de prueba ablo Felgaer 107

Característcas a no probar No se tendrá en cuenta otra plataforma que no sea Mcrosoft Wndows X así como tampoco la velocdad en las operacones realzadas por el sstema. Cantdad de casos de prueba El lote de prueba utlzado se compone de 21 casos. Método de prueba a utlzar Se utlzará el método de advnacón de errores. Recursos a utlzar Recursos tecnológcos Computadora: C entum 4 de 2GHz, con HDD de 30GB, 256MB de RAM. Impresora: Hewlett ackard DeskJet 930C. Lenguaje de programacón: Mcrosoft Vsual Basc 6.0. rocesador de texto: Mcrosoft Word 2002. Recursos humanos Dado que es una sola persona el tessta quen realza el proyecto, tanto la planfcacón de las pruebas como la programacón han sdo realzadas por la msma persona. roductos a generar durante el proceso de pruebas lan de pruebas seccón C.1.. Documento de dseño de la prueba seccón C.2.. Especfcacón de los casos de prueba seccón C.3.. Especfcacón del procedmento de prueba seccón C.4.. Informe de los casos de prueba ejecutados seccón C.5.. Informe de la prueba seccón C.6.. Anexo con documentacón de las pruebas realzadas seccón C.7.. 108 ablo Felgaer Lote de prueba

C.2. Documento de dseño de la prueba rocedmento de pruebas Las pruebas serán llevadas a cabo de acuerdo a lo descrpto en la seccón C.4 Especfcacón del procedmento de prueba regstrándose las anomalías planteadas. Métodos de prueba a utlzar Se utlzará el método de caja negra, advnacón de errores, para poder así determnar las posbles fallas del sstema en cuanto a la funconaldad. Crteros para la aprobacón de pruebas Los crteros para la aprobacón de las pruebas se realzarán de acuerdo a la sguente tabla: Excelente: cuando el resultado obtendo luego de realzada la prueba es déntco al resultado ctado en la Especfcacón de pruebas. Muy bueno: cuando el resultado obtendo luego de realzada la prueba es parecdo al resultado ctado en la Especfcacón de pruebas. Bueno: cuando el resultado obtendo luego de realzada la prueba no fue el resultado ctado en la Especfcacón de pruebas, pero no ha provocado anomalías en el funconamento del programa. Regular: cuando el resultado obtendo luego de realzada la prueba no fue el resultado ctado en la Especfcacón de pruebas, y ha provocado anomalías en el funconamento del programa. Malo: cuando el resultado obtendo luego de realzada la prueba no fue el resultado ctado en la Especfcacón de pruebas, y ha provocado anomalías en el funconamento del programa tales como la salda del sstema o colgarse. Lote de prueba ablo Felgaer 109

C.3. Especfcacón de los casos de prueba Ítem Objetvo Accón Entrada Resultado esperado 01 Abrr una red bayesana. Selecconar la opcón Archvo Abrr Archvo: Dogroblem.xml Red bayesana vsualzada en el sstema. 02 Guardar una red bayesana. Selecconar la opcón Archvo Guardar ----- Red bayesana modfcada guardada en el archvo. 03 Guardar una red bayesana con otro nombre. Selecconar la opcón Archvo Guardar como Archvo: Dogroblem2.xml Red bayesana modfcada guardada en el nuevo archvo. 04 Ver la tabla de probabldades totales de una red bayesana. Selecconar la opcón Red robabldades ----- Tabla con las probabldades de todos los estados de cada varable. 05 Ordenar la red bayesana en la pantalla. Selecconar la opcón Red Ordenar ----- Red bayesana dstrbuda en la pantalla de manera clara. 06 Instancar un nodo de una red bayesana. Selecconar la opcón Nodo Instancar Estado <X> Nodo: Dog out Estado: True robabldades de los estados de cada nodo actualzadas según nueva evdenca. 07 Instancar un nodo de una red bayesana. Selecconar la opcón Nodo Instancar Estado <X> Nodo: Lghts on Estado: False robabldades de los estados de cada nodo actualzadas según nueva evdenca. 08 Desnstancar un nodo de una red bayesana. Selecconar la opcón Nodo Instancar Nnguno Nodo: Dog out Estado: True robabldades de los estados de cada nodo actualzadas según nueva evdenca. 09 Ver la tabla de probabldades condconales de un nodo de una red bayesana. Selecconar la opcón Nodo robabldades Condconales Nodo Dog out Tabla con las probabldades condconales del nodo selecconado. 10 Ver la tabla de probabldades totales de un nodo de una red bayesana. Selecconar la opcón Nodo robabldades Totales Nodo: Dog out Tabla con las probabldades totales del nodo selecconado. 11 Ver las propedades de un nodo de una red bayesana. Selecconar la opcón Nodo ropedades Nodo: Dog out Tabla con las propedades del nodo selecconado. 110 ablo Felgaer Lote de prueba

Ítem Objetvo Accón Entrada Resultado esperado 12 13 14 15 16 17 18 19 20 roceso de mnería de datos para la obtencón de una red bayesana. Ocultar la barra de estado. Mostrar la barra de estado. Ocultar la barra de herramentas. Mostrar la barra de herramentas. Mostrar los nodos de una red bayesana en el formato Nombres. Mostrar los nodos de una red bayesana en el formato robabldades. Mostrar los nodos de una red bayesana en el tamaño pequeño. Ver las referencas respecto a los colores y las formas que se vsualzan en el sstema. 21 Salr del sstema. Selecconar la opcón Herramentas Mnería de Datos Selecconar la opcón Confguracón Barra de Estado Selecconar la opcón Confguracón Barra de Estado Selecconar la opcón Confguracón Barra de Herramentas Selecconar la opcón Confguracón Barra de Herramentas Selecconar la opcón Confguracón Mostrar nodo por Nombres Selecconar la opcón Confguracón Mostrar nodo por robabldades Selecconar la opcón Confguracón Zoom Tamaño chco Selecconar la opcón Ayuda Referencas Selecconar la opcón Archvo Salr Archvo: MendelGenetc.txt ----- ----- ----- ----- ----- ----- ----- ----- Red bayesana vsualzada en el sstema. Barra de Estado oculta. Barra de Estado vsble. Barra de Herramentas oculta. Barra de Herramentas vsble. Red bayesana vsualzada por nombres. Red bayesana vsualzada por probabldades. Red bayesana vsualzada en tamaño chco. Tabla de referencas en la pantalla. ----- Abandonar el sstema. Lote de prueba ablo Felgaer 111

C.4. Especfcacón del procedmento de prueba Ítem Accón Entrada Resultado esperado 01 Selecconar la opcón Archvo Abrr 02 03 04 Selecconar la opcón Archvo Guardar Selecconar la opcón Archvo Guardar como Selecconar la opcón Red robabldades Archvo: Dogroblem.xml ----- Archvo: Dogroblem2.xml ----- 05 Selecconar la opcón Red Ordenar ----- 06 07 08 09 10 11 12 Selecconar la opcón Nodo Instancar Estado <X> Selecconar la opcón Nodo Instancar Estado <X> Selecconar la opcón Nodo Instancar Nnguno Selecconar la opcón Nodo robabldades Condconales Selecconar la opcón Nodo robabldades Totales Selecconar la opcón Nodo ropedades Selecconar la opcón Herramentas Mnería de Datos Nodo: Dog out Estado: True Nodo: Lghts on Estado: False Nodo: Dog out Estado: True Nodo Dog out Nodo: Dog out Nodo: Dog out Archvo: MendelGenetc.txt Red bayesana vsualzada en el sstema. Red bayesana modfcada guardada en el archvo. Red bayesana modfcada guardada en el nuevo archvo. Tabla con las probabldades de todos los estados de cada varable. Red bayesana dstrbuda en la pantalla de manera clara. robabldades de los estados de cada nodo actualzadas según nueva evdenca. robabldades de los estados de cada nodo actualzadas según nueva evdenca. robabldades de los estados de cada nodo actualzadas según nueva evdenca. Tabla con las probabldades condconales del nodo selecconado. Tabla con las probabldades totales del nodo selecconado. Tabla con las propedades del nodo selecconado. Red bayesana vsualzada en el sstema. 112 ablo Felgaer Lote de prueba

Ítem Accón Entrada Resultado esperado 13 14 15 16 17 18 19 20 Selecconar la opcón Confguracón Barra de Estado Selecconar la opcón Confguracón Barra de Estado Selecconar la opcón Confguracón Barra de Herramentas Selecconar la opcón Confguracón Barra de Herramentas Selecconar la opcón Confguracón Mostrar nodo por Nombres Selecconar la opcón Confguracón Mostrar nodo por robabldades Selecconar la opcón Confguracón Zoom Tamaño chco Selecconar la opcón Ayuda Referencas ----- ----- ----- ----- ----- ----- ----- ----- Barra de Estado oculta. Barra de Estado vsble. Barra de Herramentas oculta. Barra de Herramentas vsble. Red bayesana vsualzada por nombres. Red bayesana vsualzada por probabldades. Red bayesana vsualzada en tamaño chco. Tabla de referencas en la pantalla. 21 Selecconar la opcón Archvo Salr ----- Abandonar el sstema. C.5. Informe de los casos de prueba ejecutados Ítem Accón Entrada Resultado esperado Resultado obtendo 01 02 03 04 05 Selecconar la opcón Archvo Abrr Selecconar la opcón Archvo Guardar Selecconar la opcón Archvo Guardar como Selecconar la opcón Red robabldades Selecconar la opcón Red Ordenar Archvo: Dogroblem.xml ----- Archvo: Dogroblem2.xml ----- ----- Red bayesana vsualzada en el sstema. Red bayesana modfcada guardada en el archvo. Red bayesana modfcada guardada en el nuevo archvo. Tabla con las probabldades de todos los estados de cada varable. Red bayesana dstrbuda en la pantalla de manera clara. Excelente. Excelente. Excelente. Excelente. Excelente. Lote de prueba ablo Felgaer 113

Ítem Accón Entrada Resultado esperado Resultado obtendo 06 Selecconar la opcón Nodo Instancar Estado <X> Nodo: Dog out Estado: True robabldades de los estados de cada nodo actualzadas según nueva evdenca. Bueno. Se detectó un problema vsual ya que el puntero del mouse queda en estado pensando hasta que se desplaza fuera del área del nodo nstancado. 07 Selecconar la opcón Nodo Instancar Estado <X> Nodo: Lghts on Estado: False robabldades de los estados de cada nodo actualzadas según nueva evdenca. Bueno. Se detectó un problema vsual ya que el puntero del mouse queda en estado pensando hasta que se desplaza fuera del área del nodo nstancado. 08 Selecconar la opcón Nodo Instancar Nnguno Nodo: Dog out Estado: True robabldades de los estados de cada nodo actualzadas según nueva evdenca. Bueno. Se detectó un problema vsual ya que el puntero del mouse queda en estado pensando hasta que se desplaza fuera del área del nodo nstancado. 09 Selecconar la opcón Nodo robabldades Condconales Nodo Dog out Tabla con las probabldades condconales del nodo selecconado. Regular. Se detectó un problema cuando la varable consultada tene muchos padres ya que a veces el ancho de la tabla de probabldades supera los límtes de la pantalla. 10 Selecconar la opcón Nodo robabldades Totales Nodo: Dog out Tabla con las probabldades totales del nodo selecconado. Excelente. 11 Selecconar la opcón Nodo ropedades Nodo: Dog out Tabla con las propedades del nodo selecconado. Excelente. 12 Selecconar la opcón Herramentas Mnería de Datos Archvo: MendelGenetc.txt Red bayesana vsualzada en el sstema. Excelente. 13 Selecconar la opcón Confguracón Barra de Estado ----- Barra de Estado oculta. Excelente. 14 Selecconar la opcón Confguracón Barra de Estado ----- Barra de Estado vsble. Excelente. 15 Selecconar la opcón Confguracón Barra de Herramentas ----- Barra de Herramentas oculta. Excelente. 114 ablo Felgaer Lote de prueba

Ítem Accón Entrada Resultado esperado Resultado obtendo 16 17 18 19 20 21 Selecconar la opcón Confguracón Barra de Herramentas Selecconar la opcón Confguracón Mostrar nodo por Nombres Selecconar la opcón Confguracón Mostrar nodo por robabldades Selecconar la opcón Confguracón Zoom Tamaño chco Selecconar la opcón Ayuda Referencas Selecconar la opcón Archvo Salr ----- ----- ----- ----- ----- ----- Barra de Herramentas vsble. Red bayesana vsualzada por nombres. Red bayesana vsualzada por probabldades. Red bayesana vsualzada en tamaño chco. Tabla de referencas en la pantalla. Abandonar el sstema. Excelente. Excelente. Excelente. Excelente. Excelente. Regular. Cuando se sale del programa hacendo clck en la X de la ventana, el sstema no solcta confrmar s realmente se desea salr del sstema n s se desean guardar los cambos realzados sobre la red bayesana aberta. C.6. Informe de la prueba Comentaro de la prueba El sstema funconó de manera correcta en la mayoría de las oportundades de acuerdo a los casos de prueba analzados. Se detectaron algunas falencas, en su mayoría relaconadas con la nterfaz gráfca del sstema, las cuales fueron corregdas una vez dentfcadas. Tanto las nterfaces de usuaro como los procesos nternos del sstema responden adecuadamente en funcón de los requermentos mpuestos. Lote de prueba ablo Felgaer 115

Recomendacones Se recomenda dar por cumplmentada la fase de prueba y a contnuacón se adjunta la documentacón que constata las pruebas realzadas. C.7. Anexo con documentacón de las pruebas realzadas Fgura C.1: Abrr una red bayesana 01 116 ablo Felgaer Lote de prueba

Fgura C.2: Ver la tabla de probabldades totales de una red bayesana 04 Fgura C.3: Ordenar la red bayesana en la pantalla 05 Lote de prueba ablo Felgaer 117

Fgura C.4: Instancar un nodo de una red bayesana 06 Fgura C.5: Instancar un nodo de una red bayesana 07 118 ablo Felgaer Lote de prueba

Fgura C.6: Desnstancar un nodo de una red bayesana 08 Fgura C.7: Ver la tabla de probabldades condconales de un nodo de una red bayesana 09 Lote de prueba ablo Felgaer 119

Fgura C.8: Ver la tabla de probabldades totales de un nodo de una red bayesana 10 Fgura C.9: Ver las propedades de un nodo de una red bayesana 11 120 ablo Felgaer Lote de prueba

Fgura C.10: roceso de Mnería de Datos 12 Fgura C.11: Ocultar la barra de estado 13 Lote de prueba ablo Felgaer 121

Fgura C.12: Ocultar la barra de herramentas 15 Fgura C.13; Mostrar los nodos de una red bayesana por nombres 17 122 ablo Felgaer Lote de prueba

Fgura C.14: Mostrar los nodos de una red bayesana por probabldades 18 Fgura C.15: Mostrar los nodos de una red bayesana en los dferentes tamaños posbles 19 Lote de prueba ablo Felgaer 123

Fgura C.16: Ver las referencas respecto a los colores y las formas que se vsualzan en el sstema 20 124 ablo Felgaer Lote de prueba

D. Manual del usuaro D.1. Introduccón A lo largo de esta seccón, se descrbrán las característcas y funconaldades más mportantes del Sstema de Mnería de Datos medante Redes Bayesanas desarrollado. D.2. Estructuracón del sstema En la fgura D.1 se presenta una magen del sstema en su estado ncal; todas las pantallas del sstema se encuentran estructuradas de manera unforme para facltar su comprensón y utlzacón. Fgura D.1: Estructuracón del sstema. Manual del usuaro ablo Felgaer 125

Como puede observarse en la fgura D.1 la nterfaz gráfca del sstema se encuentra estructurada en cnco áreas: 1. Menú de opcones. 2. Barra de herramentas. 3. Lsta de nodos. 4. Área de vsualzacón. 5. Barra de estado. A contnuacón se expondrá una descrpcón más detallada de cada una de estas áreas. D.2.1. Menú de opcones El menú de opcones está compuesto por todas accones que se pueden realzar medante el sstema; dchas accones se encuentran organzadas en forma de árbol y se enumeran a contnuacón acompañadas por una breve descrpcón de su funconaldad. 1. Archvo: opcones relaconadas con los archvos externos al sstema. 1.1. Nueva: en caso de haber una red cargada, se descarga y se vuelve al estado ncal. 1.2. Abrr: abre una red bayesana en el sstema. 1.3. Guardar: guarda las modfcacones sobre la red bayesana aberta. 1.4. Guardar como : guarda la red bayesana aberta con otro nombre de archvo. 1.5. Salr: cerra el sstema. 2. Red: opcones relaconadas con la red bayesana aberta en el sstema. 2.1. robabldades: muestra tabla con las probabldades totales de los nodos de la red. 2.2. Ordenar: realza un ordenamento automátco de los nodos de la red en la pantalla. 3. Nodo: opcones relaconadas con el nodo selecconado de la red bayesana aberta. 3.1. Instancar: nstanca o desnstanca el nodo. 3.1.1. Estado <X>: lo nstanca en el estado <X>. 3.1.2. Nnguno: lo desnstanca. 3.2. robabldades Condconales: muestra tabla con las probabldades condconales. 3.3. robabldades Totales: muestra tabla con las probabldades totales. 3.4. ropedades: muestra nformacón relatva al nodo selecconado 126 ablo Felgaer Manual del usuaro

4. Herramentas: opcones relaconadas con herramentas de valor agregado. 4.1. Mnería de Datos: obtene la red bayesana a partr de datos. 5. Confguracón: opcones relatvas a la nterfaz gráfca del sstema. 5.1. Barra de Herramentas: muestra u oculta la barra de herramentas. 5.2. Barra de Estado: muestra u oculta la barra de estado. 5.3. Mostrar nodos por : muestra a los nodos en dferentes formatos. 5.3.1. Números: muestra a los nodos por número. 5.3.2. Nombres: muestra a los nodos por nombre. 5.3.3. robabldades: muestra a los nodos con los estados y las probabldades. 5.4. Zoom : muestra a los nodos en dferentes tamaños sólo en formato robabldades. 5.4.1. Tamaño grande : muestra a los nodos es tamaño grande. 5.4.2. Tamaño chco: muestra a los nodos en tamaño chco. 6. Ayuda : opcones relatvas a la ayuda. 6.1. Referencas: muestra el sgnfcado de las formas y colores dentro del sstema. 6.2. Acerca de : muestra nformacón sobre el sstema. D.2.2. Barra de herramentas La barra de herramentas provee un acceso rápdo y sencllo con un sólo clck a la mayoría de las opcones que se encuentran en el menú antes ctado; a contnuacón se presentan los íconos de la barra de herramentas y las equvalencas con las opcones del menú correspondentes. 1. Archvo 1.1. Nueva 1. Archvo 1.2. Abrr 1. Archvo 1.3. Guardar 2. Red 2.1. robabldades 2. Red 2.2. Ordenar 3. Nodo 3.1. Instancar 3. Nodo 3.2. robabldades Condconales 3. Nodo 3.3. robabldades Totales 3. Nodo 3.4. ropedades 4. Herramentas 4.1. Mnería de Datos Manual del usuaro ablo Felgaer 127

5. Confguracón 5.1. Barra de Herramentas 5. Confguracón 5.2. Barra de Estado 5. Confguracón 5.3. Mostrar nodos por 5. Confguracón 5.4. Zoom 5.4.1. Tamaño grande 5. Confguracón 5.4. Zoom 5.4.2. Tamaño chco 6. Ayuda 6.1. Referencas 1. Archvo 1.5. Salr D.2.3. Lsta de nodos En esta área de la pantalla se presenta una lsta ordenada de todos los nodos correspondentes a la red bayesana aberta en el sstema; se muestra el nombre de las varables y el número correspondente asgnado por el sstema este número dentfca de forma unívoca a cada nodo de la red bayesana. A través de esta lsta se puede selecconar cualquera de los nodos hacendo clck sobre él; tambén se puede vsualzar el conjunto de estados del nodo selecconado así como tambén las probabldades totales asocadas a cada uno de ellos y s hay algún estado nstancado. D.2.4. Área de vsualzacón En esta área de la pantalla se vsualza una representacón gráfca de la red bayesana aberta; las relacones entre los nodos de la red se representan meda nte flechas en cuyo orgen se encuentra el nodo padre y apunta en dreccón al nodo hjo. Los nodos se representan medante dferentes formas y colores ndcando el estado en que se encuentran ver seccón D.6.3, pueden ser selecconados hacendo doble clck sobre ellos y, cuando se están vsualzando en formato robabldades ver seccón D.6.3, se puede nstancar smplemente hacendo clck sobre el estado deseado; hacendo clck con el botón derecho del mouse sobre un nodo de la red se desplega un menú de tpo pop-up con las opcones correspondentes al menú de Nodos detallado anterormente ver seccón D.2.1. La dsposcón de los nodos en la pantalla puede ser manpulada realzando drag and drop. 128 ablo Felgaer Manual del usuaro

D.2.5. Barra de estado La barra de estado provee nformacón sobre las accones que está tomando el sstema a cada momento; en su parte derecha tene nformacón general como la fecha y la hora mentras que la parte zquerda de la barra tene un semáforo que ndca s el sstema se encuentra procesando o s está lsto para recbr nuevas petcones; estos estados quedan representados por la luz roja o verde respectvamente y al lado del semáforo se muestra la descrpcón del estado del sstema. D.3. Abrr una red bayesana Este sstema ha sdo dseñado para trabajar con redes bayesanas almacenadas en archvos con formato.xml ver seccón D.7.1. La opcón para abrr este tpo de archvos se nvoca a través del menú Archvo Abrr o medante el cono de la barra de herramentas equvalente; una vez selecconada esta opcón se presenta la ventana de seleccón del archvo fgura D.2 y al elegr un archvo con formato váldo la red es vsualzada en la pantalla. Fgura D.2: Abrr una red bayesana. Manual del usuaro ablo Felgaer 129

D.4. Guardar una red bayesana La opcón para guardar redes bayesanas se nvoca a través del menú Archvo Guardar o medante el cono de la barra de herramentas correspondente; una vez selecconada esta opcón se presenta un mensaje para confrmar que realmente se deseen guardar las modfcacones en el archvo; la opcón Archvo Guardar como permte almacenar la red bayesana aberta en un archvo.xml con nombre dferente. D.5. Mnería de datos La opcón de Mnería de datos del menú Herramentas permte obtener redes bayesanas a partr de datos. Al selecconar esta opcón se muestra la pantalla de presentacón expuesta en la fgura D.3; en esta pantalla se presenta la herramenta de mnería de datos y se resume su funconaldad. Esta utldad está estructurada en varos pasos secuencales y en cada uno de ellos se van completando los requstos necesaros para llevar a cabo la tarea. Fgura D.3: Mnería de datos resentacón. Lo prmero que se necesta de fnr para llevar a cabo la mnería de datos es el archvo que contene los datos; este sstema está preparado para trabajar con archvos de texto que cumplen un formato específco ver seccón D.7.2. En la fgura D.4 se presenta la pantalla que solcta selecconar el archvo que contene la fuente de datos. 130 ablo Felgaer Manual del usuaro

Fgura D.4: Mnería de datos Selecconar archvo. Esta pantalla permte ngresar en forma drecta la ruta del archvo a procesar o, hacendo clck en el botón que se encuentra a la derecha del campo de texto, se presenta una ventana de navegacón a partr de la cual se puede selecconar el archvo fgura D.5. Fgura D.5: Mnería de datos Selecconar archvo. Una vez selecconado el archvo de datos, el sstema verfca que el formato sea el correcto y s todo está en orden se debe realzar el ngreso de nformacón externa que el sstema tendrá en cuenta al momento de realzar el aprendzaje de la red bayesana; esta nformacón externa corresponde a conocmentos a pror que se tengan sobre el domno de datos que se está utlzando. La prmera nformacón que se debe ngresar es relatva a Manual del usuaro ablo Felgaer 131

los nodos raíz de la red bayesana que se está nfrendo; esto sgnfca qué nodos son totalmente ndependente fgura D.6. Fgura D.6: Mnería de datos Selecconar nodos raíz. Una vez defndos los nodos raíz, el sguente paso permte defnr relacones y/o restrccones en forma explícta fgura D.7; para ello se deberá selecconar de las lstas correspondentes el nodo padre y el nodo hjo y a contnuacón hacer clck sobre el botón que ndca s lo que se desea especfcar es una relacón >> o una restrccón ><; estas reglas se verán reflejadas en la red bayesana obtenda al fnal de este proceso. S se desea elmnar una o más de las reglas mpuestas basta con selecconarla de la lsta de Relacones y Restrccones que aparece en la parte nferor de la pantalla y presonar la tecla Delete. El sstema advertrá al usuaro s ntenta establecer reglas contradctoras por ejemplo una relacón y una restrccón entre el msmo par de varables o s medante las relacones ndcadas establece un camno cíclco que vole la propedad de grafo acíclco drgdo que poseen las redes utlzadas por este sstema. or últmo cabe menconar que dado que las redes son grafos drgdos, no exste smetría en las relacones n en las restrccones es decr que A>>B es dstnto a B>>A y que A><B es dstnto a B><A. 132 ablo Felgaer Manual del usuaro

Fgura D.7: Mnería de datos Selecconar relacones y restrccones. Una vez ntroducda toda esta nformacón el sstema estará en condc ones de come nzar el proceso de aprendzaje fgura D.8; este proceso comenza con el cálculo de las métrcas de las relacones entre todas las varables que determnará cuales de ellas tenen mayor preponderanca sobre las otras luego de lo cual se establecerá la topología de la red aprendzaje estructural. Fgura D.8: Mnería de datos Realzando mnería de datos. En este punto el sstema presentará una ventana dentfcando todas las relacones nferdas fgura D.9 y permtrá al usuaro alterar la drecconaldad de las msmas en caso de desearlo; una vez aceptado esto, el proceso culmnará realzando el aprendzaje paramétrco y efectuando la propagacón ncal de probabldades. Al termnar, la red Manual del usuaro ablo Felgaer 133

bayesana aprendda a partr del archvo de datos se vsualzará en la pantalla y estará lsta para analzarla, manpularla y guardarla en un archvo. Fgura D.9: Mnería de datos Defnr drecconaldad de las relacones. D.6. Trabajar con una red bayesana D.6.1. Instancar nodos Una vez que se dspone de una red bayesana cargada en el sstema se puede proceder a la nstancacón de varables para analzar el comportamento de la msma. Exsten varas alternatvas para llevar a cabo el proceso de nstancacón; uno de ellos consste en selecconar el nodo correspondente a la varable que se desee nstancar y realzarlo desde el menú Nodo Instancar o desde el botón de la barra de herramentas equvalente; dentro de esta opcón del menú se mostrarán todos los estados que posee el nodo selecconado y tambén la opcón Nnguno en caso de que lo que se desee sea desnstancarlo. Otra forma de realzar esta tarea consste en hacer clck derecho sobre el nodo de la red y selecconar el estado a nstancar de la lsta expuesta en el menú desplegado. Fnalmente, en caso de que la forma de vsualzacón de la red sea robabldades se podrá nstancar una varable smplemente hacendo clck sobre el estado elegdo fgura D.10. Al nstancar cualquera de las varables, automátcamente se procede a recalcular todas las probabldades de la red y este resultado es presentado 134 ablo Felgaer Manual del usuaro

nstantáneamente en la pantalla. Los estados nstancados se presentan en color rojo y, obvamente, con el 100% de probabldad de ocurrenca. Fgura D.10: Instancacón de varables D.6.2. Informacón de la red Una vez que se tene una red bayesana aberta en el sstema, éste permte nteractuar y obtener una sere de nformacones relaconadas con ella. Selecconando la opcón robabldades del menú Red se desplegará una ventana contenendo una tabla con todas las varables de la red bayesana aberta y la probabldad total de cada uno de los estados fgura D.11. Fgura D.11: robabldades totales de la red. Manual del usuaro ablo Felgaer 135

S lo que se desea obtener es la tabla de probabldades condconales de un nodo en partcular, se puede lograr selecconándolo y accedendo a la opcón robabldades Condconales del menú Nodo o accedendo a la msma opcón del menú contextual presonando el botón derecho del mouse sobre dcho nodo fgura D.12. Fgura D.12: robabldades condconales de un nodo. Las probabldades totales de un nodo se obtenen de manera smlar a través de la opcón robabldades Totales del menú Nodo fgura D.13. Fgura D.13: robabldades totales de un nodo. Las propedades de un nodo ndcan el nombre, número nterno asgnado, s se encuentra selecconado, s es un nodo raíz u hoja de la red y la lsta de estado que componen el domno de valores que puede asumr; se puede acceder a esta nformacón a través de la opcón ropedades del menú Nodo fgura D.14. Fgura D.14: ropedades de un nodo. 136 ablo Felgaer Manual del usuaro

D.6.3. Vsualzacón de la red El sstema permte varos formatos de vsualzacón gráfca de la red bayesana ; cada uno de estos formatos dfere en la nformacón que se muestra en la representacón gráfca del nodo y el tamaño que utlza para hacerlo; esta vsualzacón puede ser selecconada a través de la opcón Confguracón Ver nodos por. El formato más compacto pero que menos nformacón presenta es por Números fgura D.15; aquí se presentan los nodos en forma de círculos contenendo el número de nodo asgnado por el sstema. En caso de que el nodo se encuentre nstancado se presenta con forma de un cuadrado con las arstas redondeadas. Fgura D.15: Vsualzacón por Número. La confguracón por Nombre encuadra a cada una de las varables dentro de elpses y en caso de encontrarse nstancada se presenta en forma de rectángulo fgura D.16. Manual del usuaro ablo Felgaer 137

Fgura D.16 Vsualzacón por Nombre. La vsualzacón por robabldad es sn duda la que más nformacón revela ya que presenta el nombre de la varable acompañada por la lsta de todos sus estados, las probabldades asocadas a cada uno de ellos y tambén se destacan los estados nstancados fgura D.17. Fgura D.17: Vsualzacón por robabldad tamaño grande. Este formato de vsualzacón se puede presentar en dos tamaños predetermnados: grande o pequeño, y estas dmensones se varían medante la opcón Confguracón 138 ablo Felgaer Manual del usuaro

Zoom. En la fgura D.17 se muestra el tamaño grande de vsualzacón mentras que en la fgura D.18 se presenta la red en tamaño reducdo. Fgura D.18: Vsualzacón por robabldad tamaño pequeño. Los sgnfcados de las dferentes formas y colores con que se muestran las redes bayesanas pueden ser consultados en el menú Ayuda Referencas fgura D.19; allí se puede observar como se dferencan los nodos ns tancados de los que no lo están así como tambén se dstnguen medante un códgo de colores el nodo selecconado y sus predecesores y sucesores nmedatos. Fgura D.19: Referencas de formas y colores del sstema. Manual del usuaro ablo Felgaer 139