Tema 6. Clasificadores Bayesianos

Documentos relacionados
UNIDAD 2.- PROBABILIDAD CONDICIONADA

SESIÓN DE APRENDIZAJE

Una inecuación lineal con 2 incógnitas puede tener uno de los siguientes aspectos:

INSTRUCCIONES GENERALES Y VALORACIÓN

Incertidumbres. Tipos de instrumentos. Algunas formas de expresar las incertidumbres

TEORIA DE JUEGOS COOPERATIVOS VERSUS TEORIA DE LA EVIDENCIA

Calor específico Calorimetría

ANÁLISIS DE LOS INTERCAMBIADORES DE CALOR. Mg. Amancio R. Rojas Flores

A'' D'' C'' B'' A' C' Figura 1. Verdadera Magnitud de ángulos de rectas.

CALIBRACIÓN DEL PATRÓN NACIONAL DE FLUJO DE GAS TIPO PISTÓN

8 Redistribución de los Momentos

Modulo de Desigualdades e Inecuaciones. 3º Medio

SIMULACIÓN MODULAR INTRODUCCIÓN A CHEMCAD 6.1

CÁLCULO DE LA RESISTENCIA A TRACCIÓN DEL HORMIGÓN A PARTIR DE LOS VALORES DE RESISTENCIA A COMPRESIÓN.

10 PROYECCIÓN DEMANDA DE VIAJES

R. Alzate Universidad Industrial de Santander Bucaramanga, marzo de 2012

Tema 6: Semejanza en el Plano.

Diseño e Implementación de Controladores Digitales Basados en Procesadores Digitales De Señales

Se le presentará a los alumnos el siguiente juego. Se llevaran cuatro fichas como estas.

20 Losas en dos direcciones - Método del Pórtico Equivalente

Gesdocal Micrómetros de exteriores (1 de 8)

Departamento de Ciencias e Ingeniería de la Computación Lenguajes Formales y Autómatas

Hidráulica de canales

Núcleo e Imagen de una Transformación Lineal

Determinación de Módulos de Young

NOTAS SOBRE LOS MÉTODOS DE INTEGRACIÓN

2.1. CONSTANTE DE EQUILIBRIO. LEY DE ACCIÓN DE MASAS. Si tenemos un proceso químico expresado de forma general como: c C (g) + d D (g)

Para aprender Termodinámica resolviendo problemas

ECUACIONES DIFERENCIALES ORDINARIAS DE SEGUNDO

Matemáticas III Andalucía-Tech. Integrales múltiples

TEXTURAS DE MOVIMIENTO: CAMPOS MARKOVIANOS MIXTOS Y SEGMENTACION

2.4 Transformaciones de funciones

Tema 15: Combinación de clasificadores

4. Mecánica de banco y 4º medio Programa de Estudio

Hexágono. Los polígonos de cuatro lados, como rectángulos y cuadrados, se llaman cuadriláteros. Los cuadriláteros tienen propiedades especiales.

Facultad de Ciencias Exactas Y Naturales FRECUENCIAS DE VIBRACIÓN DE UNA BARRA CON ÁREA SECCIONAL COSENO

1. INTRODUCCIÓN A LAS ESTRUCTURAS ALGEBRAICAS

LEY DE SENOS. Ya hemos visto como resolver triángulos rectángulos ahora veremos todas las técnicas para resolver triángulos generales.

Fernando Martínez García 1 y Sonia Navarro Gómez 2

Solución: Observamos que los números de la sucesión se pueden escribir de la siguiente L de esta manera la suma de los primeros

Física II Grado en Ingeniería de Organización Industrial Primer Curso. Departamento de Física Aplicada III Universidad de Sevilla

CAPÍTULO 5 MODELOS PARA VALORAR EL DISEÑO Y LA CREATIVIDAD

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2010 QUÍMICA TEMA 5: EQUILIBRIO QUÍMICO

2. Consolidación y desconsolidación de contenedores

INCOTERMS 2010 DEFINICIÓN FUNCIONES CLASIFICACIÓN

Capítulo 6 Acciones de control

ANEJO 1: Instrumental de laboratorio utilizado en la práctica

Probabilidad y estadística

1. Funciones matriciales. Matriz exponencial

U.T.N. F.R.Ro DEPTO. DE INGENIERÍA QUIMICA CATEDRA DE INTEGRACIÓN III PAG. 1

Tema 3. TRABAJO Y ENERGÍA

Integración de formas diferenciales

SECCIÓN 2: CÁLCULO DEL GOLPE DE ARIETE

2. Técnicas, procesos y equipos de laboratorio

MANUAL DE PRÁCTICAS DE LABORATORIO DE HIDRÁULICA

Equivalencia de los enunciados del Segundo. Trabajo perdido en una máquina térmica real. Ingeniería Industrial Dpto. Física Aplicada III

4. Conformación de la calzada

Espectro de emisión en la desintegración del 137

2. Dibujo e interpretación de planos de montaje

Optimising a two-echelon capacity-constrained material requirement manufacturing system using a linear programming model

e REVISTA/No. 04/diciembre 04

Análisis de correspondencias

Integración de conocimiento en un dominio específico para categorización multietiqueta

2 E E mv v v 1,21 10 m s v 9,54 10 m s C 1 2 EXT EXT EXT EXT. 1,31W 5,44 10 W 6, W 3, J 2,387 ev 19 EXT W 6,624 10

Graficación de ecuaciones paramétricas

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2011 QUÍMICA TEMA 5: EQUILIBRIO QUÍMICO

Cuadernos del CIMBAGE Nº8 (2006)

11 Efectos de la esbeltez

13 Mediciones en fibras ópticas.

Aplicación de los incentivos fiscales a la inversión en I+D en las empresas españolas

4. Mecanizado con máquinas de control numérico computacional

OPCIÓN PROBLEMAS 1 OPCIÓN PROBLEMAS 2

PRESIDENTE DE LA REPÚBLICA Rafael Correa Delgado MINISTRO DE EDUCACIÓN Augusto Espinosa Andrade VICEMINISTRO DE EDUCACIÓN Freddy Peñafiel Larrea

CAPÍTULO V: CLASIFICACIÓN DE SECCIONES 5.1. INTRODUCCIÓN

Sistema experto para el tratamiento de aguas residuales (SECTRARES) Expert system for wastewater treatment (SECTRARES)

Pruebas de Acceso a las Universidades de Castilla y León

DISEÑO DE PERFILES AERODINÁMICOS

Aprendizaje Automatizado

Un paralelogramo es un cuadrilátero con sus lados opuestos paralelos. Los paralelogramos gozan de las siguientes propiedades PROPIEDAD 1

Tema 4. Relatividad especial

Tema 2: Elección bajo incertidumbre

FRANQUICIAS ESTOCÁSTICAS

Radiobiología Revista electrónica

LINEAS DE TRANSMISIÓN: ANÁLISIS CIRCUITAL Y TRANSITORIO

Formulación del problema de la ruta más corta en programación lineal

Grafos. AMD Grado en Ingeniería Informática. AMD Grado en Ingeniería Informática (UM) Grafos 1 / 30

2. Generalidades sobre receptores

5. ESTRUCTURA DE LA TIERRA Y ANOMALÍAS DE LA GRAVEDAD.

Mecanismos y Elementos de Máquinas. Cálculo de uniones soldadas. Sexta edición Prof. Pablo Ringegni

Prácticas de Introducción al uso de Computadores Curso MICROSOFT WORD. Barra de títulos

TEMA 5: INTERPOLACION NUMERICA

ANALISIS PRELIMINAR DE TRANSFERENCIA DE CALOR EN UNA ESTUFA LORENA PRELIMINARY ANALYSIS OF HEAT TRANSFER ON LORENA STOVE

Modelación del flujo en una compuerta a través de las pérdidas de energía relativas de un salto hidráulico sumergido.

Diseño y Construcción de un Robot Seguidor de Línea Controlado por el PIC16F84A

Capítulo 2. El valor de la resistencia de la NTC es uno, con independencia del modelo mediante el cual se describa. Por lo tanto,

Tema 8. Muestreo. Indice

2. CARGA Y DESCARGA DE UN CONDENSADOR

Resuelve los ejercicios de Probabilidad de dos ó más eventos

TEMA 10: EQUILIBRIO QUÍMICO

Transcripción:

Tema 6. Clasifiadores Bayesianos Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Cienias de la Computaión e Inteligenia Artifiial Universidad del País Vaso Euskal Herriko Unibertsitatea 6.1 Introduión Tal y omo hemos visto en temas anteriores, el problema de lasifiaión supervisada onsiste en asignar un vetor x = (x 1,..., x n ) R n a una de las r 0 lases de la variable C. La lase verdadera se denota por y toma valores en {1, 2,..., r 0 }. Se puede ontemplar el lasifiador omo una funión γ que asigna etiquetas a observaiones. Es deir: γ : (x 1,..., x n ) {1, 2,..., r 0 } Existe una matriz de osto os(r, s) on r, s = 1,..., r 0 en la ual se refleja el osto asoiado a las lasifiaiones inorretas. En onreto os(r, s) india el osto de lasifiar un elemento de la lase r omo de la lase s. En el aso espeial de la funión de pérdida 0/1, se tiene: { 1 si r s (r, s) = 0 si r = s Subyaente a las observaiones suponemos la existenia de una distribuión de probabilidad onjunta: p(x 1,..., x n, ) = p( x 1,..., x n )p(x 1,..., x n ) = p(x 1,..., x n )p() la ual es desonoida. El objetivo es onstruir un lasifiador que minimiza el oste total de los errores ometidos, y esto se onsigue (Duda y Hart, 1973) por medio del lasifiador de Bayes: γ(x) = arg mín k r 0 =1 os(k, )p( x 1,..., x n ) En el aso de que la funión de pérdida sea la 0/1, el lasifiador de Bayes se onvierte en asignar al ejemplo x = (x 1,..., x n ) la lase on mayor probabilidad a posteriori. Es deir: γ(x) = arg máx p( x 1,..., x n ) En la prátia la funión de distribuión onjunta p(x 1,..., x n, ) es desonoida, y puede ser estimada a partir de una muestra aleatoria simple { (x (1), (1) ),..., (x (N), (N) ) } extraida de diha funión de distribuión onjunta. 6.2 Naïve Bayes El paradigma lasifiatorio en el que se utiliza el teorema de Bayes en onjunión on la hipótesis de independenia ondiional de las variables preditoras dada la 1

lase se onoe bajo diversos nombres que inluyen los de idiota Bayes (Ohmann y ol. 1988), naïve Bayes (Kononenko, 1990), simple Bayes (Gammerman y Thather, 1991) y Bayes independiente (Todd y Stamper, 1994). A pesar de tener una larga tradiión en la omunidad de reonoimiento de patrones (Duda y Hart, 1973) el lasifiador naïve Bayes aparee por primera vez en la literatura del aprendizaje automátio a finales de los ohenta (Cestnik y ol. (1987)) on el objetivo de omparar su apaidad preditiva on la de métodos más sofistiados. De manera gradual los investigadores de esta omunidad de aprendizaje automátio se han dado uenta de su potenialidad y robustez en problemas de lasifiaión supervisada. En esta seión se va a efetuar una revisión del paradigma naïve Bayes, el ual debe su nombre a las hipótesis tan simplifiadoras independenia ondiional de las variables preditoras dada la variable lase sobre las que se onstruye diho lasifiador. Partiremos del paradigma lásio de diagnóstio para, una vez omprobado que neesita de la estimaión de un número de parámetros ingente, ir simplifiando paulatinamente las hipótesis sobre las que se onstruye hasta llegar al modelo naïve Bayes. Veremos a ontinuaión un resultado teório que nos servirá para entender mejor las araterístias del lasifiador naïve Bayes. 6.2.1 Del Paradigma Clásio de Diagnóstio al Clasifiador Naïve Bayes Vamos a omenzar reordando el teorema de Bayes on una formulaión de suesos, para posteriormente formularlo en términos de variables aleatorias. Una vez visto el teorema de Bayes, se presenta el paradigma lásio de diagnóstio, viéndose la neesidad de ir simplifiando las premisas sobre las que se onstruye en aras de obtener paradigmas que puedan ser de apliaión para la resoluión de problemas reales. El ontenido de este apartado resulta ser una adaptaión del material que Díez y Nell (1998) dedian al mismo. Teorema 6.1 (Bayes, 1764) 1 Sean A y B dos suesos aleatorios uyas probabilidades se denotan por p(a) y p(b) respetivamente, verifiándose que p(b) > 0. Supongamos onoidas las probabilidades a priori de los suesos A y B, es deir, p(a) y p(b), así omo la probabilidad ondiionada del sueso B dado el sueso A, es deir p(b A). La probabilidad a posteriori del sueso A onoido que se verifia el sueso B, es deir p(a B), puede alularse a partir de la siguiente fórmula: p(a B) = p(a, B) p(b) = p(a)p(b A) p(b) = p(a)p(b A) A p(a )p(b A ) La formulaión del teorema de Bayes puede efetuarse también para variables aleatorias, tanto unidimensionales omo multidimensionales. 1 Thomas Bayes (1702 1761) fue uno de los seis primeros reverendos protestantes ordenados en Inglaterra. Comenzó omo ayudante de su padre hasta que en 1720 fuera nombrado pastor en Kent. Abandonó los hábitos en 1752. Sus ontrovertidas teorías fueron aeptadas por Laplae, y posteriormente uestionadas por Boole. Bayes fué elegido miembro de la Royal Soiety of London en 1742. 2

Comenzando por la formulaión para dos variables aleatorias unidimensionales que denotamos por X e Y, tenemos que: p(y = y X = x) = p(y = y)p(x = x Y = y) y p(y = y )p(x = x Y = y ) El teorema de Bayes tambien puede ser expresado por medio de una notaión que usa el número de omponentes de ada una de las variables multidimensionales anteriores X e Y, de la siguiente manera: = p(y = y X = x) = p(y 1 = y 1,..., Y m = y m X 1 = x 1,..., X n = x n ) p(y 1 = y 1,..., Y m = y m )p(x 1 = x 1,..., X n = x n Y 1 = y 1,..., Y m = y m ) y p(x 1,...,y 1 = x m 1,..., X n = x n Y 1 = y 1,..., Y m = y m)p(y 1 = y 1,..., Y m = y m) En el problema de lasifiaión supervisada reflejado en la Tabla 6.1, tenemos que Y = C es una variable unidimensional, mientras que X = (X 1,..., X n ) es una variable n-dimensional. X 1... X n Y (x (1), y (1) ) x (1) 1... x (1) n y (1) (x (2), y (2) ) x (2) 1... x (2) n y (2)...... (x (N), y (N) ) x (N) 1... x n (N) y (N) Tabla 6.1: Problema de lasifiaión supervisada. Vamos a plantear la formulaión lásia de un problema de diagnóstio utilizando una terminología habitual en mediina. Es evidente que la terminología puede trasladarse a otras ramas de la ienia y de la ténia, en partiular a la ingeniería. La terminología a usar inluye términos omo: hallazgo, on el ual nos referimos a la determinaión del valor de una variable preditora X r. Así por ejemplo x r (valor de la variable X r ) puede estar representando la existenia de vómitos en un determinado enfermo; evidenia, denota el onjunto de todos los hallazgos para un determinado individuo. Es deir x = (x 1,..., x n ) puede estar denotando (si n = 4) que el individuo en uestión es joven, hombre, presenta vómitos y además no tiene anteedentes familiares; diagnóstio, denota el valor que toman las m variables aleatorias Y 1,..., Y m, ada una de las uales se refiere a una enfermedad; probabilidad a priori del diagnóstio, p(y) o p(y 1 = y 1,..., Y m = y m ), se refiere a la probabilidad de un diagnóstio onreto, uando no se onoe nada aera de los hallazgos, es deir, uando se aree de evidenia; probabilidad a posteriori de un diagnóstio, p(y x) o p(y 1 = y 1,..., Y m = y m X 1 = x 1,..., X n = x n ), es deir, la probabilidad de un diagnóstio onreto uando se onoen n hallazgos (evidenia). 3

En el planteamiento lásio del diagnóstio (véase Tabla 6.2) se supone que los m diagnóstios posibles son no exluyentes, es deir, pueden ourrir a la vez, siendo ada uno de ellos diotómio. Para fijar ideas en relaión on el ámbito médio, podemos pensar que ada uno de los m posibles diagnóstios no exluyentes se relaiona on una enfermedad, pudiendo tomar dos valores: 0 (no existenia) y 1 (existenia). Por lo que se refiere a los n hallazgos o síntomas, se representarán por medio de las n variables aleatorias X 1,..., X n y también asumiremos que ada variable preditora es diotómia, on valores 0 y 1. El valor 0 en la variable X i india la ausenia del i-ésimo hallazgo o síntoma mientras que el valor 1 india la presenia del hallazgo o síntoma orrespondiente. X 1... X n Y 1... Y m (x (1), y (1) ) x (1) 1... x (1) n y (1) 1... y m (1) (x (2), y (2) ) x (2) 1... x (2) n y (2) 1... y m (2)......... (x (N), y (N) ) x (N) 1... x n (N) y (N) 1... y m (N) Tabla 6.2: Problema lásio de diagnóstio. El problema del diagnóstio onsiste en enontrar el diagnóstio más probable a posteriori, una vez onoido el valor de la evidenia. En notaión matemátia el diagnóstio óptimo, (y 1,..., y m) será aquel que verifique: (y 1,..., y m) = arg máx (y 1,...,y m) p(y 1 = y 1,..., Y m = y m X 1 = x 1,..., X n = x n ) Apliando el teorema de Bayes para alular p(y 1 = y 1,..., Y m = y m X 1 = x 1,..., X n = x n ), obtenemos: = p(y 1 = y 1,..., Y m = y m X 1 = x 1,..., X n = x n ) p(y 1 = y 1,..., Y m = y m )p(x 1 = x 1,..., X n = x n Y 1 = y 1,..., Y m = y m ) y p(y 1,...,y 1 = y m 1,..., Y m = y m)p(x 1 = x 1,..., X n = x n Y 1 = y 1,..., Y m = y m) Veamos a ontinuaión el número de parámetros que se deben estimar para poder espeifiar el paradigma anterior y de esa forma obtener el valor de (y 1,..., y m). Es importante tener en uenta que la estimaión de ada uno de los parámetros anteriores se deberá efetuar a partir del fihero de N asos, reflejado en la Tabla 6.2. Para estimar p(y 1 = y 1,..., Y m = y m ), y teniendo en uenta que ada variable Y i es diotómia, neesitaremos un total de 2 m 1 parámetros. De igual forma, por ada una de las distribuiones de probabilidad ondiionadas, p(x 1 = x 1,..., X n = x n Y 1 = y 1,..., Y m = y m ), se neesitan estimar 2 n 1 parámetros. Al tener un total de 2 m de tales distribuiones de probabilidad ondiionadas, debemos estimar (2 n 1)2 m parámetros. Es deir, que el número total de parámetros neesarios para determinar un modelo onreto del paradigma lásio de diagnóstio es: 2 m 1 + 2 m (2 n 1). Para haernos una idea del número de parámetros a estimar podemos onsultar la Tabla 6.3, en la ual vemos de manera aproximada el número de parámetros a estimar para distintos valores de m (número de enfermedades) y n (número de hallazgos). 4

m n parámetros 3 10 8 10 3 5 20 33 10 6 10 50 11 10 17 Tabla 6.3: Número de parámetros a estimar, en funión de m (número de enfermedades) y n (número de síntomas), en el paradigma lásio de diagnóstio. Ante la imposibilidad de poder estimar el elevado número de parámetros que se neesitan en el paradigma lásio de diagnóstio, en lo que sigue se simplifiarán las premisas sobre las que se ha onstruído diho paradigma. En primer lugar vamos a onsiderar que los diagnóstios son exluyentes, es deir, que dos diagnóstios no pueden darse al unísono. Esto trae omo onseuenia que en lugar de onsiderar el diagnóstio omo una variable aleatoria m dimensional, este aso pueda verse omo una únia variable aleatoria unidimensional siguiendo una distribuión polinomial on m valores posibles. Vamos a denotar por X 1,..., X n a las n variables preditorias. Supongamos que todas ellas sean binarias. Denotamos por C la variable de diagnóstio, que suponemos puede tomar m posibles valores. La Tabla 6.1 refleja la situaión anterior. La búsqueda del diagnóstio más probable a posteriori,, una vez onoidos los síntomas de un determinado paiente, x = (x 1,..., x n ), puede plantearse omo la búsqueda del estado de la variable C on mayor probabilidad a posteriori. Es deir = arg máx p(c = X 1 = x 1,..., X n = x n ) El álulo de p(c = X 1 = x 1,..., X n = x n ) puede llevarse a abo utilizando el teorema de Bayes, y ya que el objetivo es alular el estado de C,, on mayor probabilidad a posteriori, no es neesario alular el denominador del teorema de Bayes. Es deir, p(c = X 1 = x 1,..., X n = x n ) p(c = )p(x 1 = x 1,..., X n = x n C = ) Por tanto, en el paradigma en el que los distintos diagnóstios son exluyentes, y onsiderando que el número de posibles diagnóstios es m, y que ada variable preditoria X i es diotómia, tenemos que el número de parámetros a estimar es (m 1) + m(2 n 1), de los uales: m 1 se refiere a las probabilidades a priori de la variable C; m(2 n 1) se relaionan on las probabilidades ondiionadas de ada posible ombinaión de las variables preditoras dado ada posible valor de la variable C. La Tabla 6.4 nos da una idea del número de parámetros a estimar para distintos valores de m y n. Vemos de nuevo que el número de parámetros a estimar sigue siendo elevado, de ahí que neesitamos imponer suposiiones más restritivas para que los paradigmas 5

m n parámetros 3 10 3 10 3 5 20 5 10 6 10 50 11 10 15 Tabla 6.4: Número de parámetros a estimar, en funión de m (número de enfermedades) y n (número de síntomas), en el paradigma lásio de diagnóstio on diagnóstios exluyentes. puedan onvertirse en modelos implementables. Vamos finalmente a introduir el paradigma naïve Bayes: diagnóstios exluyentes y hallazgos ondiionalmente independientes dado el diagnóstio. El paradigma naïve Bayes se basa en dos premisas estableidas sobre las variables preditoras (hallazgos, síntomas) y la variable a predeir (diagnóstio). Dihas premisas son: los diagnóstios son exluyentes, es deir, la variable C a predeir toma uno de sus m posibles valores: 1,..., m ; los hallazgos son ondiionalmente independientes dado el diagnóstio, es deir, que si uno onoe el valor de la variable diagnóstio, el onoimiento del valor de ualquiera de los hallazgos es irrelevante para el resto de los hallazgos. Esta ondiión se expresa matemátiamente por medio de la fórmula: n p(x 1 = x 1,..., X n = x n C = ) = p(x i = x i C = ) (1) ya que por medio de la regla de la adena se obtiene: p(x 1 = x 1,..., X n = x n C = ) = p(x 1 = x 1 X 2 = x 2,..., X n = x n, C = ) p(x 2 = x 2 X 3 = x 3,..., X n = x n, C = )... p(x n = x n C = ) Por otra parte teniendo en uenta la independenia ondiional entre las variables preditoras dada la variable lase, se tiene que: p(x i = x i X i+1 = x i+1,..., X n = x n, C = ) = p(x i = x i C = ) para todo i = 1,..., n. De ahí que se verifique la euaión 1. Por tanto, en el paradigma naïve Bayes, la búsqueda del diagnóstio más probable,, una vez onoidos los síntomas (x 1,..., x n ) de un determinado paiente, se redue a: = arg máx p(c = X 1 = x 1,..., X n = x n ) = arg máx p(c = ) n p(x i = x i C = ) 6

Suponiendo que todas las variables preditoras son diotómias, el número de parámetros neesarios para espeifiar un modelo naïve Bayes resulta ser (m 1)+mn, ya que se neesitan (m 1) parámetros para espeifiar la probabilidad a priori de la variable C; para ada variable preditora X i se neesitan m parámetros para determinar las distribuiones de probabilidad ondiionadas. Con los números reflejados en la Tabla 6.5, nos podemos haer una idea del número de parámetros neesarios en funión del número de posibles diagnóstios y del número de síntomas neesarios para espeifiar el paradigma naïve Bayes. m n parámetros 3 10 32 5 20 104 10 50 509 Tabla 6.5: Número de parámetros a estimar en el paradigma naïve Bayes en funión del número de diagnóstios posibles (m) y del número de síntomas (n). En el aso de que las n variables preditoras X 1,..., X n sean ontinuas, se tiene que el paradigma naïve Bayes se onvierte en busar el valor de la variable C, que denotamos por, que maximiza la probabilidad a posteriori de la variable C, dada la evidenia expresada omo una instaniaión de las variables X 1,..., X n, esto es, x = (x 1,..., x n ). Es deir, el paradigma naïve Bayes on variables ontinuas trata de enontrar verifiando: = arg máx p(c = X 1 = x 1,..., X n = x n ) n = arg máx p(c = ) f Xi C=(x i ) donde f Xi C=(x i ) denota, para todo i = 1,..., n, la funión de densidad de la variable X i ondiionada a que el valor del diagnóstio sea. Suele ser habitual utilizar una variable aleatoria normal (para ada valor de C) para modelar el omportamiento de la variable X i. Es deir, para todo, y para todo i {1,..., n}, asumimos f Xi C=(x i ) N (x i ; µ i, (σ i ) 2 ) En tal aso el paradigma naïve Bayes obtiene, omo: [ n 1 1 2 = arg máx p(c = ) e 2πσ i x i µ «2 ] i σ i En este aso el número de parámetros a estimar es (m 1) + 2nm: 7

m 1 en relaión on las probabilidades a priori p(c = ); 2nm en relaión on las funiones de densidad ondiionadas. Finalmente puede ourrir que algunos de los hallazgos se reojan en variables disretas mientras que otros hallazgos sean ontinuos. En tal aso hablaremos del paradigma naïve Bayes on variables preditoras ontinuas y disretas. Supongamos que de las n variables preditoras, n 1 de ellas, X 1,..., X n1, sean disretas, mientras que el resto n n 1 = n 2, Y 1,..., Y n2, sean ontinuas. En prinipio al apliar diretamente la fórmula del paradigma naïve Bayes orrespondiente a esta situaión se obtiene: n 1 n 2 p( x 1,..., x n1, y 1,..., y n2 ) p() p(x i ) f(y j ) Esta expresión puede propiiar el oneder una mayor importania a las variables ontinuas, ya que mientras que p(x i ) verifia 0 p(x i ) 1, puede ourrir que f(y j ) > 1. Con objeto de evitar esta situaión, proponemos la normalizaión de la aportaión de las variables ontinuas, dividiendo ada uno de los fatores orrespondientes por el máx yj f(y j ). Obtenemos por tanto: n 1 n 2 f(y j ) p( x 1,..., x n1, y 1,..., y n2 ) p() p(x i ) máx yj f(y j ) En el aso en que las funiones de densidad de las variables ontinuas ondiionadas a ada posible valor de la variable lase sigan distribuiones normales, es deir si Y j C = N (y j ; µ j, (σ j) 2 ), se tiene que f(y j ) máx yj f(y j ) = 1 2πσj e 1 2 1 2πσj e 1 2 yj µ «2 j σ j µ j µ j y la fórmula 2 se expresa de la manera siguiente: σ j j=1 «2 = e 1 2 n 1 n 2 p( x 1,..., x n1, y 1,..., y n2 ) p() p(x i ) j=1 yj µ «2 j j=1 σ j e 1 2 yj µ «2 j La Figura 6.1 refleja la estrutura gráfia de un modelo naïve Bayes. 6.2.2 Resultados Teórios σ j (2) Minsky (1961) demuestra que si las variables aleatorias preditoras, al igual que la variable lase, son binarias, la superfiie de deisión que se deriva de un modelo naïve Bayes es un hiperplano. Definiion 6.1 En un problema de deisión binario on dos posibles deisiones (d 1 frente a d 2 ), una funión de deisión es una funión ontinua r : R n R 8

C X 1 X X... X 2 3 n Figura 6.1: Estrutura gráfia de un modelo naïve Bayes. verifiando que si r(x) > 0 (r(x) < 0) se prefiere d 1 a d 2 (d 2 a d 1 ). La funión r(x) = 0 define una superfiie de deisión. Teorema 6.2 (Minsky, 1961). Las superfiies de deisión de un lasifiador naïve Bayes on variables preditoras binarias son hiperplanos. Demostraión: En el modelo naïve Bayes la probabilidad a posteriori de la lase dado el vetor de variables preditoras x = (x 1,..., x i,..., x n ) viene dada por: p() n p( x 1,..., x n ) = p(x i ) (3) p(x 1,..., x n ) Esribiendo p(x i ) de la siguiente manera: [ p(xi = 1 C = ) p(x i ) = p(x i = 0 C = ) p(x i = 0 C = ) on x i = 0, 1, sustituyendo en la euaión 3 y tomando logaritmos, se tiene: [ ] p() n log p( x 1,..., x n ) = log p(x i = 0 C = ) p(x 1,..., x n ) n [ ] p(xi = 1 C = ) + x i log p(x i = 0 C = ) Denotando por w 0 = log [p() n p(x i = 0 C = )] y por ( ) p(xi = 1 C = ) w i = log p(x i = 0 C = ) se obtiene log p( x 1,..., x n ) = w 0 + ] xi n x i w i log p(x 1,..., x n ) Teniendo en uenta que la variable lase C es diotómia on posibles valores 0 y 1, podemos definir la funión de deisión siguiente: r 01 (x 1,..., x n ) = log p( 0 x 1,..., x n ) log p( 1 x 1,..., x n ) ( n ) = (w 00 w 10 ) + (w 0i w 1i )x i De ahí que las superfiies de deisión sean hiperplanos. 9

6.3 Seminaïve Bayes Kononenko (1991) introdue el denominado seminaïve Bayesian lassifier. En el mismo se trata de evitar las estritas premisas sobre las que se onstruye el paradigma naïve Bayes por medio de la onsideraión de nuevas variables en las uales no neesariamente tenga que apareer el produto artesiano de dos variables, sino tan sólo aquellos valores de diho produto artesiano que verifiquen una determinada ondiión que surge al onsiderar el onepto de independenia junto on el de la fiabilidad en la estimaión de las probabilidades ondiionadas, uestión esta última que es resuelta a partir del teorema de Chebyshev. Pazzani (1996) introdue el onepto de induión onstrutiva on el que a partir del produto artesiano entre variables y usando el algoritmo voraz BSEJ (ver párrafo siguiente) de una manera de envoltura, desarrolla modelos de lasifiadores naïve Bayes así omo K-NN. Se trata del trabajo iniial que sirvió de base al famoso trabajo posterior del mismo autor. Pazzani (1997) presenta una aproximaión en la que de manera voraz se va onstruyendo un modelo naïve Bayes en el que se detetan aquellas variables irrelevantes así omo aquellas variables dependientes entre sí. Cuando se detetan variables dependientes, se rea una nueva variable a partir del produto artesiano de las mismas. El algoritmo está guiado por un sore que resulta ser la validaión honesta por medio de un 10-fold ross validation (o por medio de un leave one out dependiendo del tamaño de la base de datos) del porentaje de bien lasifiados. Se presentan dos algoritmos voraes, uno haia adelante denominado FSSJ (Forward Sequential Seletion and Joining) y otro haia atrás BSEJ (Bakward Sequential Elimination and Joining), uyos pseudoódigos pueden onsultarse en Figura 6.2 y Figura 6.4 respetivamente. Tal y omo puede verse en la Figura 6.2 el algoritmo FSSJ efetúa una modelizaión voraz haia adelante guiado por la estimaión del porentaje de asos bien lasifiados. Comienza onsiderando omo modelo iniial la regla simple que onsiste en lasifiar todos los ejemplos, independientemente de sus araterístias, omo perteneientes a la lase más numerosa. A ontinuaión, mientras se vaya mejorando la estimaión del porentaje de bien lasifiados, se va efetuando en ada paso la mejor opión entre inluir en el modelo una variable de las que todavía no formaban parte del mismo, u obtener una nueva variable omo produto artesiano entre alguna de las variables (o supervariables 2 ) ya inluidas en el modelo y la que se aaba de inluir. La Figura 6.3 presenta un ejemplo de apliaión del algoritmo FSSJ. El algoritmo BSEJ (Bakward Sequential Elimination and Joining) atúa de manera dual al FSSJ, tal y omo puede apreiarse en el pseudoódigo de la Figura 6.4. 2 La denominaión supervariable hae alusión a la variable resultante del produto artesiano entre dos o más variables originales. 10

Paso 1. Iniializar el onjunto de variables a utilizar a vaío. Clasifiar todos los ejemplos omo perteneientes a la lase más freuente Paso 2. Repetir en ada paso la mejor opión entre: (a) Considerar ada variable que no está en el modelo omo una nueva variable a inluir en el modelo. Diha variable debe inluirse ondiionalmente independiente de las variables presentes en el modelo, dada la variable lase (b) Juntar ada variable no presente en el modelo on una variable que ya forme parte del mismo Evaluar ada posible opión por medio de la estimaión del porentaje de bien lasifiados Hasta que ninguna opión produza mejoras Figura 6.2 Pseudoódigo del algoritmo FSSJ (Pazzani, 1997). C C C C X Y Z V Y Y,V Z Y,V (a) (b) () (d) Figura 6.3: Ejemplo de apliaión del algoritmo FSSJ. X, Y, Z y V denotan las variables preditoras, C, la variable a lasifiar. La subfigura (a) muestra la situaión iniial, donde el ejemplo se lasifia omo, siendo p( ) = arg máx p(). La subfigura (b) muestra que, después de omparar todos los modelos naïve Bayes on una únia variable preditora, la variable Y ha sido seleionada. La subfigura () muestra el modelo ganador de entre los que tienen omo variables preditoras los siguientes subonjuntos de variables: {Y, X}, {Y, Z}, {Y, V }, {(Y, X)}, {(Y, Z)}, {(Y, V )}. La subfigura (d) india que el mostrado ha resultado venedor entre: {X, (Y, V )}, {Z, (Y, V )}, {(X, Y, V )}, {(Z, Y, V )}. Al no tener ontinuidad el algoritmo india que los modelos {X, Z, (Y, V )}, {(X, Z), (Y, V )}, {Z, (Y, V, X)} son peores al mostrado en la subfigura (d). 6.4 Naïve Bayes Aumentado a Árbol En esta seión vamos a presentar algunos trabajos que onstruyen lasifiadores on estrutura naïve Bayes aumentada a árbol (Tree Augmented Network (TAN)). Para obtener este tipo de estrutura se omienza por una estrutura de árbol on las variables preditoras, para posteriormente onetar la variable lase on ada una de las variables preditoras. La Figura 6.5 ilustra un ejemplo de estrutura naïve Bayes aumentada a árbol. Friedman y ol. (1997) presentan un algoritmo denominado Tree Augmented Network (TAN) el ual onsiste básiamente en una adaptaión del algoritmo de Chow Liu (1968). En diho algoritmo se tiene en uenta la antidad de informaión mutua ondiionada a la variable lase, en lugar de la antidad de informaión mutua en la que se basa el algoritmo de Chow-Liu. La antidad de informaión mutua entre las variables disretas X e Y ondiionada a la variable C se define omo: I(X, Y C) = n m j=1 r=1 w p(x i, y j, r ) log p(x i, y j r ) p(x i r )p(y j r ) 11

Paso 1. Iniializar on el modelo naïve Bayes on todas las variables preditoras Paso 2. Repetir en ada paso la mejor opión entre: (a) Considerar reemplazar dos de las variables usadas por el lasifiador por una nueva variable produto artesiano de ambas (b) Considerar eliminar una variable usada por el lasifiador Evaluar ada posible opión por medio de la estimaión del porentaje de bien lasifiados Hasta que ninguna opión produza mejoras Figura 6.4: Pseudoódigo del algoritmo BSEJ (Pazzani, 1997). C X 1 X X X 2 3 4 Figura 6.5: Ejemplo de estrutura naïve Bayes aumentada a árbol (Tree Augmented Network (TAN)). Tal y omo puede verse en el pseudoódigo de la Figura 6.6, TAN onsta de ino pasos. En el primer paso se alulan las antidades de informaión mutua para ada par de variables (X i, X j ) ondiionadas a la variable C. A ontinuaión se debe onstruir un grafo no dirigido ompleto on n nodos, uno por ada una de las variables preditoras, en el ual el peso de ada arista viene dado por la antidad de informaión mutua entre las dos variables unidas por la arista ondiionada a la variable lase. El algoritmo de Kruskall parte de los n(n 1)/2 pesos obtenidos en el paso anterior para onstruir el árbol expandido de máximo peso de la siguiente manera: 1. Asignar las dos aristas de mayor peso al árbol a onstruir. 2. Examinar la siguiente arista de mayor peso, y añadirla al árbol a no ser que forme un ilo, en uyo aso se desarta y se examina la siguiente arista de mayor peso. 3. Repetir el paso 2 hasta que se hayan seleionado n 1 aristas. Las propiedades teórias de este algoritmo de onstruión de TAN son análogas a las del algoritmo de Chow Liu (1968). Es deir, si los datos han sido generados por una estrutura Tree Augmented Network, el algoritmo TAN es asintótiamente orreto, en el sentido de que si la muestra de asos es sufiientemente grande, reuperará la estrutura que generó el fihero de asos. En la Figura 6.7 se muestra un ejemplo de apliaión del algoritmo. Keogh y Pazzani (1999) proponen un algoritmo voraz que va añadiendo aros a una estrutura naïve Bayes. En ada paso se añade el aro que, manteniendo la ondiión de que en la estrutura final ada variable no tenga más de un padre, mejore en mayor medida el porentaje de bien lasifiados obtenido mediante el mismo. 12

Paso 1. Calular I(X i, X j C) on i < j, i, j = 1,..., n Paso 2. Construir un grafo no dirigido ompleto uyos nodos orresponden a las variables preditoras: X 1,..., X n. Asignar a ada arista onetando las variables X i y X j un peso dado por I(X i, X j C) Paso 3. A partir del grafo ompleto anterior y siguiendo el algoritmo de Kruskall onstruir un árbol expandido de máximo peso Paso 4. Transformar el árbol no dirigido resultante en uno dirigido, esogiendo una variable omo raiz, para a ontinuaión direionar el resto de aristas Paso 5. Construir un modelo TAN añadiendo un nodo etiquetado omo C y posteriormente un aro desde C a ada variable preditora X i Figura 6.6: Pseudoódigo del algoritmo TAN (Friedman y ol. 1997). 6.5 Clasifiadores Bayesianos k Dependientes Sahami (1996) presenta un algoritmo denominado k Dependene Bayesian lassifier (kdb) el ual posibilita atravesar el amplio espetro de dependenias disponibles entre el modelo naïve Bayes y el modelo orrespondiente a una red Bayesiana ompleta ver Seión 6.6. El algoritmo se fundamenta en el onepto de lasifiador Bayesiano k-dependiente, el ual ontiene la estrutura del lasifiador naïve Bayes y permite a ada variable preditora tener un máximo de k variables padres sin ontar a la variable lase. De esta manera, el modelo naïve Bayes se orresponde on un lasifiador Bayesiano 0-dependiente, el modelo TAN sería un lasifiador Bayesiano 1-dependiente y el lasifiador Bayesiano ompleto (en la estrutura no se refleja ninguna independenia) orrespondería a un lasifiador Bayesiano (n 1)- dependiente. El pseudoódigo del algoritmo kdb puede onsultarse en la Figura 6.8. La idea básia del algoritmo onsiste en generalizar el algoritmo propuesto por Friedman y ol. (1997) permitiendo que ada variable tenga un número de padres, sin ontar la variable lase C, aotado por k. El autor omenta una posible mejora del algoritmo flexibilizando la determinaión de k por medio de la obtenión de un umbral de antidad de informaión mutua, el ual debería de ser sobrepasado para que el orrespondiente aro fuese inluido. Se presentan resultados experimentales on ino bases de datos del repositorio UCI así omo on una parte de la base de datos Reuters Text. 6.6 Clasifiadores Bayesianos Basados en Redes Bayesianas Las redes Bayesianas (Jensen, 2001) onstituyen un paradigma de amplio uso dentro de la Inteligenia Artifiial. En las mismas se efetúa basándose en una semántia de independenia ondiional entre tripletas de variables una fatorizaión de la funión de probabilidad onjunta definida sobre la variable aleatoria n dimensional, tal y omo puede verse en la Figura 6.9. Queda fuera del alane de estos apuntes el exponer el uso de las redes Bayesianas omo paradigmas de lasifiaión supervisada, remitiéndosele al letor interesado a 13

X Y X Y X Y Z V Z V Z V W (e) W (f) W (g) X Y X Y X Y Z V Z V Z V W (h) W (i) W (j) X Y C Z V W (k) X Y Z V W (l) Figura 6.7: Ilustraión del algoritmo TAN on ino variables preditoras X, Y, Z, V y W. Se supone que el orden de las antidades de informaión mutuas ondiionadas ha sido: I(X, Z C) > I(Y, V C) > I(X, Y C) > I(Z, V C) > I(X, V C) > I(Z, W C) > I(X, W C) > I(Y, Z C) > I(Y, W C) > I(V, W C). Las subfiguras (a) a (f) orresponden a la apliaión del algoritmo de Kruskall. La subfigura (g) orresponde al Paso 4 del algoritmo TAN y finalmente en la subfigura (h) se realiza el Paso 5 de TAN. El modelo lasifiatorio obtenido es: p( x, y, z, v, w) p()p(x )p(y x, )p(z x, )p(v y, )p(w z, ). la referenia anterior. 14

Paso 1. Para ada variable preditora X i, i = 1,..., n, alular la antidad de informaión mútua on respeto a la lase C, I(X i, C) Paso 2. Para ada par de variables preditoras alular la antidad de informaión mútua ondiionada a la lase, I(X i, X j C), on i j, i, j = 1,..., n Paso 3. Iniializar a vaío la lista de variables usada ℵ Paso 4. Iniializar la red Bayesiana a onstruir, BN, on un únio nodo, el orrespondiente a la variable C Paso 5. Repetir hasta que ℵ inluya a todas las variables del dominio: Paso 5.1. Seleionar de entre las variables que no están en ℵ, aquella X max on mayor antidad de informaión mútua respeto a C, I(X max, C) = máx X ℵ I(X, C) Paso 5.2. Añadir un nodo a BN, X ℵ representando X max Paso 5.3. Añadir un aro de C a X max en BN Paso 5.4. Añadir m = mín( ℵ, k) aros de las m variables distintas X j en ℵ que tengan los mayores valores I(X max, X j C) Paso 5.5. Añadir X max a ℵ Paso 6. Computar las probabilidades ondiionadas neesarias para espeifiar la red Bayesiana BN Figura 6.8: Pseudoódigo del algoritmo kdb (Sahami, 1996). X 1 X 2 X 3 X 4 X 5 p(x 1 = 0) = 0,20 p(x 4 = 0 X 2 = 0, X 3 = 0) = 0,80 p(x 2 = 0 X 1 = 0) = 0,80 p(x 4 = 0 X 2 = 1, X 3 = 0) = 0,80 p(x 2 = 0 X 1 = 1) = 0,80 p(x 4 = 0 X 2 = 0, X 3 = 1) = 0,80 p(x 3 = 0 X 1 = 0) = 0,20 p(x 4 = 0 X 2 = 1, X 3 = 1) = 0,05 p(x 3 = 0 X 1 = 1) = 0,05 p(x 5 = 0 X 3 = 0) = 0,80 p(x 5 = 0 X 3 = 1) = 0,60 Figura 6.9: Fatorizaión de la distribuión de probabilidad onjunta obtenida on la red Bayesiana adjunta. 15

Referenias 1. T. Bayes (1764). Essay towards solving a problem in the dotrine of hanes. The Phylosophial Transations of the Royal Soiety of London. 2. B. Cestnik, I. Kononenko, I. Bratko (1987). ASSISTANT-86: A knowledge eliitation tool for sophistiated users. Progress in Mahine Learning, 31 45, Sigma Press. 3. C. Chow, C. Liu (1968). Approximating disrete probability distributions with dependene trees. IEEE Transations on Information Theory, 14, 462 467. 4. F. J. Díez, E. Nell (1998). Introduión al Razonamiento Aproximado. Departamento de Inteligenia Artifiial. UNED. 5. R. Duda, P. Hart (1973). Pattern Classifiation and Sene Analysis. John Wiley and Sons. 6. N. Friedman, D. Geiger, M. Goldszmidt (1997). Bayesian network lassifiers. Mahine Learning, 29, 131 163. 7. A. Gammerman, A. R. Thather (1991). Bayesian diagnosti probabilities without assuming independene of symptoms. Methods of Information in Mediine, 30, 15 22. 8. F. V. Jensen (2001). Bayesian Networks and Deision Graphs. Springer Verlag. 9. E. J. Keogh. M. Pazzani (1999). Learning augmented Bayesian lassifiers: a omparison of distribution-based and non distribution-based approahes. Proeedings of the 7th International Workshop on Artifiial Intelligene and Statistis, 225 230. 10. I. Kononenko (1990).Comparison of indutive and naïve Bayesian learning approahes to automati knowledge aquisition. Current Trends in Knowledge Aquisition. 11. I. Kononenko (1991). Semi-naïve Bayesian lassifiers. Proeedings of the 6th European Working Session on Learning, 206 219. 12. M. Minsky (1961). Steps toward artifiial intelligene. Transations on Institute of Radio Engineers, 49, 8 30. 13. C. Ohmann, Q. Yang, M. Kunneke, H. Stolzing, K. Thon, W. Lorenz (1988). Bayes theorem and onditional dependene of symptoms: different models applied to data of upper gastrointestinal bleeding. Methods of Information in Mediine, 27, 73 83. 14. M. Pazzani (1996). Construtive indution of artesian produt attributes. Information, Statistis and Indution in Siene, 66 77. 15. M. Pazzani (1997). Searhing for dependenies in Bayesian lassifiers. Learning from Data: Artifiial Intelligene and Statistis V, 239 248, Springer Verlag. 16

16. M. Sahami (1996). Learning limited dependene Bayesian lassifiers. Proeedings of the 2nd International Conferene on Knowledge Disovery and Data Mining, 335 338. 17. B. S. Todd, R. Stamper (1994). The relative auray of a variety of medial diagnosti programs. Methods of Information in Mediine, 33, 402 416. 17