Universidad Veracruzana

Transcripción

1 Universidad Veracruzana Facultad de Física e Inteligencia Artificial BayesN: Un Algoritmo para Aprender Redes Bayesianas Clasificadoras a partir de datos Tesis que para obtener el grado de: Maestro en Inteligencia Artificial Presenta: José Luis Jiménez Andrade Director: Dr. Manuel Martínez Morales Asesor: Dr. Nicandro Cruz Ramírez Xalapa~Enríquez, Ver., 2003

2 A mis padres: Isabel y Tomás. Nunca podré retribuir tanto sacrificio.

3 Agradecimientos A Dios por permitirme existir. A mis padres y hermanos por haberme apoyado y empujado siempre en todo lo que inicie. A mis padrinos, Estela y Daniel por que en verdad han sido siempre mis segundos padres, gracias por su apoyo. A la maestra Carmen García Cuevas, al Dr. Jesús Jiménez Castillo y Manuel Jiménez García, por su amistad, por sus consejos, por que muchas veces me aboné en su casa y por animarme a entrar a la maestría. A mi novia Karla. Muchas gracias por tu apoyo, cariño y comprensión. A mis asesores Dr. Manuel Martínez Morales y Dr. Nicandro Cruz Ramírez por darme la oportunidad de trabajar con ellos. Al Dr. Cesar de la Cruz Laso y al Dr. José Negrete por que gracias a ellos, principalmente, obtuve la condonación de la colegiatura. A mis compañeros, por que de cada uno aprendí algo. A cada uno de las personas que laboran en la maestría, por que me aceptaron en la gran familia que forman.

4 Índice Introducción 1. Redes Bayesianas Sistemas Expertos Clasificación Repaso de Probabilidad Variables Aleatorias Independencia Condicional Grafos Modelos de Dependencia y mapas de Dependencia Aprendizaje de Redes Bayesianas Problemas en el Aprendizaje de Redes Bayesianas Aprendizaje de la Estructura Enfoque Tradicional Aprendizaje a Partir de Datos Algoritmos Basados en Búsquedas Algoritmos Basados en Restricciones Familia de algoritmos bayes Prueba Estadística para la Independencia Marginal 21 y Condicional 3.2 Bayes Bayes BayesN Profundidad Variable Control de Significancia Ajuste de Bonferroni Región de Indiferencia: Ganancia de Información Mínima Sistema de Análisis Bayesiano (BANSY) Módulo de Aprendizaje Módulo de Aprendizaje de Parámetros (Probabilidades) Módulo de Inferencia Módulo de Bondad de Ajuste Módulo de Clasificación Pruebas de desempeño Bases de Datos y Redes de Oro Bondad de Ajuste Algoritmos K Pc (Tetrad) 41

5 5.4 Comparación de la Topología Generada por los Algoritmos 42 con la Red de Oro Tablas de Resultados Topología Discusión Clasificación Hipótesis a Posteriori Máxima Clasificador Naïve-Bayes Redes Bayesianas Clasificadoras Métodos para la Clasificación Resultados del Método de Partición (Holdout) Resultados con el Método de Validación Cruzada(Cross-Validation) Discusión 53 Conclusiones 55 Trabajo Futuro 56 Referencias

6 Introducción Las redes Bayesianas juegan diversos papeles importantes dentro de la Inteligencia Artificial. Uno de ellos es su actuación dentro del manejo de incertidumbre en los sistemas expertos. Otro papel importante lo tienen en lo que se conoce como descubrimiento de conocimiento en bases de datos; las redes Bayesianas permiten encontrar, de una manera consistente, relaciones probabilistas entre variables. Siendo entonces las redes Bayesianas modelos que describen las relaciones (relaciones de independencia/dependencia) entre variables, estas pueden ser aplicadas a casi cualquier tipo de problema. Sin embargo este trabajo se centra en aquellos problemas en los que existe cierta estructura en las relaciones de las variables. En este tipo de problemas hay una variable dependiente (a explicar) y un conjunto de variables independientes o explicativas ). La hipótesis subyacente es que el comportamiento de la variable dependiente puede ser explicada como resultado de la acción de las variables dependientes. Es por ello que se presenta a BayesN como un algoritmo de generación de redes Bayesianas clasificadoras. En la primera parte de este trabajo se presenta un repaso de redes Bayesianas. Posteriormente se describe BayesN, no sin antes explicar a su predecesores: Bayes2 y Bayes5. Finalmente se realiza una valoración de su desempeño comparándolo con algoritmos competitivos con el estado del arte de las redes Bayesianas.

7 Capítulo 1. Redes Bayesianas Por qué Redes Bayesianas?. Para poder contestar esta pregunta, debemos ubicar su uso y su importancia dentro de la Inteligencia Artificial. En este capítulo se expone primeramente la importancia de las redes Bayesianas dentro de la Inteligencia Artificial, Posteriormente se hace un repaso de las herramientas matemáticas básicas para la comprensión de las redes Bayesianas. Finalmente se presenta un serie de axiomas, teoremas y definiciones que respaldan la solidez del algoritmo presentado y en general de la familia de algoritmos Bayes. 1.1 Sistemas Expertos Uno de los primeros éxitos de la Inteligencia Artificial sin lugar a dudas fueron los sistemas expertos: DENDRAL(Feigenbaum y Buchanan, 1978), PROSPECTOR(Duda, Hart y Nilsson, 1976), MYCIN(Shortliffe, 1976). El uso de los sistemas expertos es tan variado que los encontramos en la industria, medicina, educación, e incluso en las ciencias sociales. Ahora bien, qué es un sistema experto, y donde entran las redes bayesianas? Un sistema experto es una programa inteligente de computadora que usa conocimiento y procedimientos de inferencia para resolver problemas que son lo suficientemente difíciles para requerir cierta pericia humana para su solución. El conocimiento de un sistema experto se basa en hechos y heurísticas (Feigenbaum, 1979). Otra definición es la dada por Nikolopoulos (Nikolopoulos, 1997): Un sistema experto o sistema basado en conocimiento utiliza conocimiento ganado a través de razonamiento y heurísticas para resolver problemas complejos e intratables del mundo real, con un alto grado de confiabilidad. Cabe mencionar que un sistema experto debería ser capaz de proveer explicaciones acerca de las decisiones tomadas y además trabajar con datos incompletos o bajo incertidumbre. Inicialmente se intentaron sistemas que resolvieran problemas generales como el GPS (General Problem Solver) (Newell & Simon, 1963), sin embargo se vio que este tipo de sistemas no tenían una aplicación muy, además, para muchos problemas no se proveían soluciones completas; esto causó que se cambiara 1

8 enfoque; desarrollando así sistemas especializados aplicados a varios dominios. De aquí podemos decir algo más de un sistema experto: Un sistema experto resuelve problemas en un dominio especifico (Nikolopoulos, 1997). Se habla de una primera y segunda generación de sistemas expertos. La principal diferencia entre las dos generaciones se encuentra en la etapa de construcción de la base de conocimiento. Existen técnicas para la extracción del conocimiento a partir de un experto humano, sin embargo este proceso resulta bastante tedioso y difícil. En la segunda generación de sistemas expertos, este proceso es visto como una actividad de modelado. Es por eso que ahora se están desarrollando sistemas más flexibles que sean capaces de construir inductivamente estructuras de conocimiento; técnicas del subcampo de la IA llamado aprendizaje automático (Machine Learning) están siendo utilizadas para automatizar este proceso de generación de la base de conocimiento. Es aquí donde encontramos una parte de la importancia de este trabajo; aprendizaje de redes bayesianas, como una técnica automatizada para la adquisición del conocimiento de un dominio específico. Los sistemas expertos iniciales usaban el enfoque simbólico, por lo que usaban lógica para la representación del conocimiento, así como para razonamiento y deducción. Se vio que en dominios muy complejos del mundo real, el conocimiento humano y su proceso mismo de razonamiento no podían ser modelados usando lógica clásica y sus técnicas de inferencia. En muchos problemas del mundo real la incertidumbre está presente y puede manifestarse como información incompleta, imprecisión e información vaga. Como resultado se han desarrollado varias teorías para el manejo de incertidumbre; la mayoría son cuantitativas, se basan en la introducción de esquemas en los que se introduce una medida numérica que cuantifica la incertidumbre. Entre las diferentes teorías se pueden mencionar las siguientes: el enfoque Bayesiano, que se basa en el uso de probabilidades condicionales y el teorema de bayes; factores de certeza, que utiliza reglas con un factor de confianza asociado; teoría de la evidencia de Dempster-Shafer, lógica difusa y las redes bayesianas (Nikolopoulos, 1997). 1.2 Clasificación Uno de los dominios mas investigados en el campo de aprendizaje automático ha sido el problema de clasificación. Un sistema experto es repetidamente confrontado a clasificar sus experiencias. Por ejemplo, un médico al encontrar ciertos síntomas en un paciente, diagnostica un enfermedad específica. A continuación se describe esta tarea. La tarea de clasificar consiste en etiquetar casos a partir de un conjunto de características (Friedman 1997). Esta tarea ha sido abordada con diferentes 2

9 enfoques, entre ellos podemos mencionar los árboles de decisión, redes neuronales y Naïve-Bayes (Friedman, 1997). Este último se considera bastante efectivo, en el sentido de que es competitivo con el estado del arte de los clasificadores; a pesar de la hipótesis tan fuerte que hace al considerar que los atributos son condicionalmente independientes dada la variable clase. Esta restricción hace que en ciertos casos Naïve-Bayes tenga un desempeño ligeramente menor, sobre todo en aquellos casos en los que los atributos están bastante correlacionados.(friedman, 1997). En el capítulo 4 veremos que la red Bayesiana construida por el algoritmo propuesto mejora en buena medida a este clasificador y que además son al menos tan buenas clasificadoras como aquellas generadas con algoritmos como el PC (Spirtes et al. 1990), K2 (Cooper & Herskovits, 1992) y Bayes9(Cruz-Ramírez, 2001). Hasta ahora hemos hablado de la importancia de las redes bayesianas, pero qué es una red Bayesiana?. Las redes bayesianas están basadas, básicamente en dos cosas: teoría de la probabilidad y la teoría de grafos. Es por eso que si queremos entender qué es una red bayesiana, es necesario conocer los principios básicos en los que se fundamentan la probabilidad, y algunas nociones acerca de los grafos. 1.3 Repaso de Probabilidad Usando el enfoque Bayesiano(Pearl 2001), la interpretación de probabilidad es que éstas, codifican grados de creencia asignados a proposiciones. Por ejemplo, A = Hoy lloverá, es una proposición que tiene dos valores posibles: verdadero(v) o falso(f). La probabilidad de que A sea verdadera se expresa como: P(A = v), se usan letras minúsculas para denotar que la proposición esta tomando cualquier valor de sus valores posibles. Ej. P(A = a), quiere decir que A toma a a, donde a representa cualquier valor posible de A. La mayoría de las veces se cambia P(A = a) simplemente por P(A), para simplificar las cosas. Estas medidas de creencia obedecen a los axiomas básicos del calculo de probabilidad: Sea V un conjunto de proposiciones, en la que X 1, X 2,..., X i,... X n son proposiciones A1. 0 P ( X ) 1 (1.3.1) i A2. P( ) = 1 X i i A3. P X X ) = P( X ) + P( X ) si X y X son ( i j i j i j (1.3.2) (1.3.3) 3

10 mutuamente excluyentes. proposiciones X y X. i j X X i j 1 denota la disyunción de las El tercer axioma establece que la creencia asignada a un conjunto de eventos o proposiciones, es la suma de las creencias asignadas a los mismos. Dado que la probabilidad de cualquier evento A se puede expresar como la unión de eventos ( A B) ( A B), entonces podemos calcular la probabilidad de A como: P ( A) = P( A, B) + P( A, B), (1.3.4) donde P ( A, B) es una forma corta de expresar P( A B). En forma general, si B toma n valores, entonces podemos escribir P(A) como: n P ( A) = P( A, B i ), siempre que Bi forme una partición (1.3.5) i La expresión anterior es conocida como la ley de la probabilidad total. Realizar esta operación es lo que comúnmente se llama marginalizar sobre B, y el resultado es la probabilidad de A, a la que se llama probabilidad marginal. Del A2 (ecuación 1.3.2), se puede deducir que a una proposición y a su negación, se le deba asignar una probabilidad de uno. P( A) + P( A) = 1 (1.3.6) Una de las expresiones básicas en el formalismo Bayesiano son la probabilidades condicionales, por ejemplo P( A B), que quiere decir: la creencia(o probabilidad) de A bajo el supuesto de que conocemos a B con absoluta certeza. Normalmente la probabilidad condicional se define en términos de la probabilidad conjunta de la forma siguiente: P( A, B) P ( A B) =, (1.3.7) P( B) Sin embargo, los filósofos Bayesianos ven de una forma más básica a las relaciones condicionales que a las relaciones conjuntas, i.e., consideran que son más compatibles con la organización del conocimiento humano (Pearl 1998, 2001, otra refencia). Desde este punto de vista, B es el contexto o marco de referencia; así A B es el evento A en el contexto B. (Pearl 2001). De esta forma el 1 Los símbolos,,, denotan los conectivos lógicos y, o, no e implica, respectivamente. 4

11 conocimiento empírico siempre será codificado como probabilidades condicionales, mientras que la creencia de eventos conjuntos será calculada a partir del producto P ( A, B) = P( A B) P( B), (1.3.8) De la ecuación (1.3.5), y utilizamos también la ecuación (1.3.8) podemos calcular la probabilidad P(A) a partir de: P ( A) = P( A Bi ) P( B i ), i (1.3.9) que también se puede ver como una marginalización sobre B. Ahora bien, si queremos calcular la probabilidad de A en contexto más generalizado, digamos en un contexto K, entonces podemos rescribir la ecuación (1.3.9) como: P( A K) = P( A Bi, K) P( Bi K) (1.3.10) en realidad se podría ver la ecuación como un caso especial de esta ecuación. La generalización de la ecuación (1.3.8) es un resultado muy importante, y se conoce como la regla de la cadena o del producto, establece que si tenemos un conjunto de n eventos, E E,...,, entonces la probabilidad conjunta P( E1, E2,..., En ) condicionales: 1, 2 E n pude escribirse como un producto de n probabilidades P( E1, E2,..., En ) = P( En En 1,..., E2, E2 )... P( E2 E1) P( E1). (1.3.11) este producto se puede derivar aplicando la formula (1.3.8) repetidamente en un orden conveniente. La formula más importante en el razonamiento Bayesiano es la llamada regla de Bayes: P( e H ) P( H ) P ( H e) = P( e) (1.3.12) La cual establece que la creencia para una hipótesis H sobre una evidencia e puede calcularse multiplicando nuestra creencia previa P(H) por la probabilidad de que e suceda dado que H ocurre, i.e. P(e H). El denominador juega un papel normalizador, que puede ser calculado al considerar que P(H e) y P( H e) suman la unidad. 5

12 Podría decirse que la ecuación (1.3.12) es una tautología proveniente de la definición de probabilidades condicionales, P( A, B) P ( A B) = y P( B) P( A, B) P ( B A) = (1.3.13) P( A) Su importancia radica, sin embargo, en que funciona como una regla de actualización de creencias en respuesta a evidencia. Además, que expresa P(H e) en términos de cantidades que normalmente pueden se obtenidas directamente de la experiencia, cuando esta cantidad resulta difícil de determinar. Para completar esta breve introducción, debemos discutir la noción de modelo probabilista. Un modelo probabilista es una codificación de la información, que nos permite calcular la probabilidad de cada oración bien formada S de acuerdo a los axiomas (1.1)-(1.3). Si consideramos un conjunto de proposiciones atómicas A, B, C,..., el conjunto de oraciones bien formadas consiste de todas las fórmulas boleanas que involucran a estas proposiciones, por ejemplo S = (A B) C. El método tradicional para especificar un modelo probabilista es emplear una función de distribución conjunta, la cual es una función que asigna pesos no negativos a cada evento elemental en un lenguaje (donde un evento elemental es la conjunción de las proposiciones o sus negaciónes), tal que se cumplen A1-A3. Por ejemplo, si tenemos tres proposiciones atómicas, A, B y C, entonces la función de distribución conjunta debe asignar un peso no negativo a las ocho combinaciones (A B C), (A B C),..., ( A B C)- tal que los ocho pesos suman 1. El conjunto de eventos elementales es lo que en textos de probabilidad se le llama espacio muestral. Las funciones de distribución conjunta representa de forma completa un modelo probabilista. Sin embargo, en la practica éstas raramente son especificadas explícitamente. En el análisis de variables aleatorias continuas, las funciones de distribución están dadas por expresiones algebraicas tales como aquellas que describen distribuciones normales o exponenciales; para variables discretas, métodos indirectos de representación han sido desarrollados donde la distribución completa es inferida a partir de relaciones locales entre grupos pequeños de variables. Es aquí donde podemos mencionar otra gran importancia de las redes bayesianas, que caen entre las representaciones desarrolladas para un modelo probabilista. 1.4 Variables Aleatorias 6

13 Entendemos por una variable un atributo o medida que puede tomar uno de diferentes posibles resultados, o valores, de un dominio específico. Si tenemos las creencias (i.e. probabilidades) de los valores posibles que la variable puede tomar, entonces llamaremos a esa variable una variable aleatoria. Por ejemplo el color de la camisa que me pondré mañana es una variable aleatoria llamada color, y sus valores que puede tomar vienen del dominio{roja, verde,...}. Es decir una variable aleatoria discreta es una función real definida sobre un conjunto discreto dado, obedeciendo los axiomas A1-A3. En este trabajo sólo usaremos conjuntos finitos de variables, donde cada variable X V (V conjunto finito de variables) puede tomar valores de un dominio finito D x con elementos mutuamente exclusivos y exhaustivos. Usaremos letras mayúsculas (e.g. X, Y, Z) para los nombres de las variables aleatorias y letras minúsculas (x,y,z) para valores específicos tomados por la variable correspondiente. Por ejemplo, si X es el color de mi camisa, entonces x designará algún color escogido de algún elemento de D x. Otra consideración a tomar es que no haremos distinción en la notación para variables y conjunto de variables, porque un conjunto de variables es esencialmente una variable compuesta, cuyo dominio es el producto cartesiano de los dominios de las variables. Así, si Z es un conjunto formado por {X,Y} entonces z tomará valores por pares {x,y} tal que x D x e y D y. Usaremos constantemente la abreviación P(x) para las probabilidades P(X = x), x D x. De igual forma, si Z es un conjunto {X,Y}, entonces P(z) quiere decir P(Z = z), lo que a su vez indica P(X = x, Y = y), con x D x e y D y. En adelante cuando digamos variable, entenderemos que se trata de variable aleatoria discreta. 1.5 Independencia Condicional Definición (Independencia Condicional) (Pearl 2001) Sea V = {V 1, V 2,...} un conjunto finito de variables. Sea P(.) una función de probabilidad conjunta sobre las variables en V, y sea X, Y, Z tres subconjuntos de variables cualquiera en V. Los conjuntos X y Y son condicionalmente independientes dado Z si: P ( x y, z) = p( x z) siempre que p( y, z) > 0 (1.5.1) En palabras, conocer Y no provee información adicional acerca de X, una vez que conocemos a Z. La notación para representar la independencia condicional es la siguiente: 7

14 ( X Y Z ) P ( x y, z) = P( x z) Esto para todos los valores x,y, z tal que P(y, z) > 0. Alternativamente, ( X Y Z ) P ( x, y z) = P( x z) P( y z) (1.5.2) (1.5.3) Ahora bien, si no condicionamos con ninguna variable, entonces estaremos hablando de independencia marginal (no condicional), la cual se denota como ( X Y φ), y se define como: ( X Y φ) P ( x y) = P( x) (1.5.4) Siguiendo con la misma notación, presentamos las propiedades fundamentales de la relación de independencia condicional. Simetría: ( X Y Z ) ( Y X Z ). Descomposición: ( X YW Z ) ( X Y Z ) & ( X W Z ). Unión débil: ( X YW Z ) ( X Y WZ ). Contracción: ( X Y Z ) & ( X W ZY ) ( X YW Z ). Intersección: ( X W ZY ) & ( X ZW ) ( X YW Z ). (La propiedad de intersección se cumple en distribuciones de probabilidad estrictamente positivas). La prueba de estas propiedades puede derivarse a partir de los axiomas básicos de la probabilidad y de la ecuación (1.5.2). Estas propiedades fueron propuestas por Pearl y Paz (1988) para caracterizar las relaciones entre grafos y relevancia informacional. Es decir estas propiedades de la independencia condicional probabilista se pueden postular como axiomas para caracterizar relaciones de independencia condicional en general, como interpretaciones especificas en el dominio de la probabilidad, en el domino de los grafos o el dominio del conocimiento. A continuación se describe la interpretación intuitiva de los axiomas dada por Pearl (2001). El axioma de simetría establece que, en cualquier estado de conocimiento Z, si Y no nos dice nada nuevo acerca de X, entonces X no nos dice nada nuevo acerca de Y. El axioma de descomposición dice que si dos evidencias combinadas son juzgadas como irrelevantes, entonces cada evidencia separada es también irrelevante. La unión débil establece que si agregamos información irrelevante W no ayuda a información irrelevante Y a convertirse relevante para X. 8

15 El axioma de contracción establece que si juzgamos W como irrelevante para X después de conocer alguna información irrelevante Y, entonces W debe haber sido irrelevante antes de que aprendiéramos Y. La unión débil y la contracción indican que información irrelevante no altera el estatus de relevancia de otras proposiciones en el sistema, lo que era relevante permanece relevante y lo que era irrelevante permanece irrelevante. El axioma de intersección establece que si Y es irrelevante para X cuando conocemos W y si W es irrelevante para X cuando conocemos Y, entonces ni W ni Y (ni la combinación) es relevante para X. 1.6 Grafos Un grafo es un conjunto V de vértices (nodos) y un conjunto E de flechas (arcos) que conectan algún par de vértices. Los vértices en nuestros grafos corresponden a variables aleatorias y los arcos denotan cierta relación entre el par de variables. Cada arco en el grafo puede ser dirigido o no dirigido. La figura muestra un grafo con arcos dirigidos. Si todos los arcos en un grafo son dirigidos, entonces tenemos un grafo dirigido. Un camino en el grafo es una secuencia de arcos (e.g. ((W,Z),(Z,Y),(Y,X)) en la figura 1.6.1), tal que cada arco inicia con el vértice que termina en el arco anterior. Si cada arco en el camino es una flecha que apunta del primer vértice al segundo, entonces es una camino directo, de lo contrario no lo será. En forma más general podemos llamarle camino de adyacencia, lo cual aplica tanto para caminos directo, como no directos. W Z X Y Fig Grafo dirigido Hacemos uso de la terminología familiar, para denotar varias relaciones en los grafos. Por ejemplo en la figura 1.6.1, Y tiene dos padres (X y Z), tres ancestros (X, Z y W), y no tiene hijos, mientras que X no tiene padres y tiene un hijo (Y). Una familia en un grafo es un conjunto de nodos que contiene a un nodo y todos sus padres Pearl (2001). Por ejemplo, {W}, {Z, W}, {X}, y {Y, Z, X} son las familias de la figura Un nodo se llama raíz si no tiene padres y se llama hoja si no tiene hijos. Un grafo dirigido tiene al menos una raíz y una hoja. 9

16 Un grafo que tiene todos los arcos dirigidos y que no tiene ciclos, i.e. que no tiene caminos directos que te lleven de una variable a ella misma, se llama grafo acíclico dirigido (GAD). 1.7 Modelos de Dependencia y Mapas de Dependencia Sea U un conjunto finito de variables y sea X, Y y Z tres subconjuntos disjuntos en U. Sea M un modelo de dependencia, es decir, un regla que asigna un valor de verdad a predicados de la forma ( X Y Z) M, o en otras palabras determina un subconjunto I de tripletas ( X Y Z ) para las cuales se cumple la aseveración X es independiente de Y dado Z. Cualquier distribución de probabilidad P es un modelo de dependencia, porque para cada tripleta (X,Z,Y) podemos probar la validez de ( X Y Z ) usando la ecuación (1.5.2). Definición Mapa de dependencia.(pearl, 1988) Un grafo G es un mapa de dependencia (o mapa-d) de M si existe una correspondencia uno a uno entre los elementos de U y los nodos V de G, tal que para todos los subconjuntos disjuntos X, Y, Z de elementos tenemos que: ( X ) Y Z) M ( X Y Z G (1.7.1)) Similarmente, G es un mapa de independencia (o Mapa-I) de M si: ( X Y Z) ( X Y Z) M G (1.7.2) Se dice que G es un mapa perfecto de M si es tanto un Mapa-D y un Mapa-I Un mapa-d garantiza que si encontramos dos vértices conectados, estos son verdaderamente dependientes en M, pero puede presentar dos variables como independientes que en M son dependientes. Inversamente, un mapa-i garantiza que dos vértices separados corresponden a variables independientes en M, pero no garantiza que las variables que aparecen conectadas sean en realidad dependientes. Definición Mapa-I mínimo. (Pearl, 1988) Un grafo es un mapa-i mínimo de un modelo de dependencia M si borrando cualquier arco de G hace que G deje de ser un mapa-i. Llamamos a este grafo una red de Markov de M. Definition Cobija de Markov. (Pearl, 1988) Una cobija de Markov BL(α) de un elemento α U es cualquier subconjunto S de elementos para los cuales ( α U S α S) con α U (1.7.3) 10

17 Un conjunto se llama límite de Markov de α, denotado por B(α) si éste es la cobija de Markov mínima de α, i.e., ninguno de sus subconjuntos propios satisface la ecuación (1.7.3). El límite B(α) se interpreta como el conjunto más pequeño de elementos que protegen a α de la influencia del resto de los elementos, incluyendo sus descendientes. Definición d-separación. (Pearl, 1988) Si X, Y y Z son tres conjuntos disjuntos de nodos en un DAG, entonces, se dice que Z d-separa X de Y, si a través de cada camino entre un nodo en X y un nodo en Y hay un nodo w que satisface alguna de las siguientes condiciones: 1) w tiene arcos que apuntan a el y ninguno de sus descendientes pertenece a Z. 2) w tiene arcos que salen de el y w esta en Z En la figura se muestra un GAD. Si por ejemplo X = {2}, Y = {3} y Z = {1}, entonces vemos que X y Y están d-separadas por Z. Se dice que el camino esta bloqueado por 1 Z; también, si Z = {4}, el camino esta bloqueado por 4, ya que todos sus descendientes están fuera de Z. X y Y no están d-separados por Z = {1, 5}, ya que al conocer la consecuencia 5, hace que 2 y 3 se vuelvan dependientes Fig Grafo acíclico dirigido (DAG) Definición (Pearl, 1988) Un DAG D es un mapa-i de un modelo de dependencia si cada condición d-separación en D corresponde a una relación de independencia en M. ( X ) Y Z) D ( X Y Z M (1.8.1) 11

18 un DAG es un mapa-i mínimo de M si ninguno de sus arcos puede ser borrado sin que D deje de ser un mapa-i. Definición (Pearl, 1988) Dada una distribución de probabilidad P en un conjunto de variables U, un DAG es un mapa-i mínimo de P. D = ( U, E) se llama red Bayesiana si y solo si D En palabras podemos decir que una red bayesiana es un grafo acíclico dirigido que refleja las relaciones de independencias/dependencias contenidas en un modelo, descrito por una distribución de probabilidad. Otra cuestión que no se ha mencionado y que es en demasía importante, es que la red Bayesiana contiene en cada vértice las probabilidades condicionales de los valores posibles de la variable dados los padres (en el caso de un nodo raíz se tienen las probabilidades marginales). Si por ejemplo tenemos variables binarias (i.e. el dominio es de dos valores), y una variable tiene dos padres, entonces en el nodo se almacenará una tabla con 2*2*(2-1) = 4 probabilidades(esto por que la suma de probabilidades debe ser uno). En el caso de un nodo raíz solo se guardaran dos probabilidades que son las probabilidades marginales de cada valor. Definición (Pearl, 1988) Sea M un modelo de dependencia definido en un conjunto U = X, X,..., X } de elementos, y sea d un ordenamiento { 1 2 n ( X 1, X 2,..., X i,...) de los elementos de U. El límite estrato(boundary strata) de M relativo a d es un conjunto ordenado de subconjuntos de U, ( B1, B2,... Bi,...), tal que cada Bi es un límite de Markov de X i con respecto a el conjunto U X, X,..., X }, i.e. Bi es un conjunto mínimo que satisface B y ( i) = { 1 2 i 1 ( X i U ( i) Bi i B ). El DAG creado designando cada B como padres del vértice Xi es un Mapa-I mínimo de M. i i U (i) La definición anterior es muy importante para el algoritmo presentado en este trabajo, ya que, al trabajar bajo el esquema de tal definición, se garantiza que la red obtenida será un Mapa-I mínimo del modelo, i.e. una red Bayesiana. Definición Padres Markovianos. Sea V = { X 1,..., X n } un conjunto ordenado de variables, y sea P la distribución de probabilidad de estas variables. Un conjunto Π se llama Padres Markovianos de Xj si es el conjunto mínimo de j predecesores que X j que mantiene a X j independiente del resto de los predecesores. En otras palabras, Π es cualquier subconjunto de {X 1,...,X j-1 } que satisface: j P( X j π j ) = P( X j X 1,..., X j 1 ) (1.8.2) 12

19 y ningún subconjunto propio de PA j satisface la ecuación (1.8.2) De la ecuación (1.3.11) podemos ver que la probabilidad conjunta de un conjunto de variables la podemos expresar como un producto de probabilidades condicionales, ahora bien, si tomamos en cuenta la definición 1.8.5, claramente vemos que si la distribución satisface tal definición, entonces ésta se puede descomponer como sigue: P ( x 1,..., xn ) = P( x i π i ) (1.8.3) i por ejemplo el DAG presentado en la fig induce la siguiente descomposición P ( x1, x2, x3, x4, x5 ) = P( x1 ) P( x2 x1 ) P( x3 x1) P( P( x4 x2, x3) P( x5 x4 ) (1.8.4) Como ya mencionamos anteriormente, la red guarda en cada uno de sus nodos una tabla de probabilidades condicionales. Estas probabilidades son las que se necesitan en la ecuación (1.8.4) para poder calcular la probabilidad conjunta. De aquí que la red bayesiana guarda en sus vértices toda la distribución conjunta de probabilidad de las variables en cuestión. Esta es otra de las grandes virtudes de una red bayesiana, el hecho de poder almacenar en forma muy económica la distribución conjunta de las variables. 13

20 Capítulo 2. Aprendizaje de Redes Bayesianas 2.1 Problemas en el Aprendizaje de Redes Bayesianas Hasta ahora hemos descrito y definido lo que es una red bayesiana, así como sus usos dentro de los sistemas expertos. En este capítulo se describen los problemas típicos involucrados en el aprendizaje de las redes Bayesianas. Básicamente podemos decir que los subproblemas relacionados con el aprendizaje de redes bayesianas son los siguientes (Cruz-Ramírez, 2001): Aprendizaje de la estructura Aprendizaje de los parámetros Propagación de probabilidades (o propagación de evidencia) Determinación de valores faltantes Descubrimiento o determinación de variables ocultas Aprendizaje de la estructura. Consiste en la determinación de la topología de la red, es decir, la construcción del grafo que contenga las relaciones independencia/dependencia entre las variables. Básicamente hay dos enfoques: el enfoque tradicional que consiste en aprender la red bayesiana a partir del conocimiento de un experto, y el enfoque automático, utilizando técnicas que caen dentro de minería de datos o KDD. Aprendizaje de los parámetros de la red. Determinada la topología, es posible entonces calcular las probabilidades asociadas a cada nodo, marginales o condicionales, dependiendo si se trata de un nodo raíz o no. Al cálculo de estas probabilidades se le llama aprendizaje de los parámetros. El aprendizaje de los parámetros puede realizarse a partir de un experto, a partir de los datos o incluso combinando los dos enfoques. La obtención de las probabilidades a partir del conocimiento de un experto puede resultar demasiado laborioso, por lo que se han formalizado diferentes métodos para la determinación de las probabilidades condicionales a partir de datos, incluyendo variables continuas y discretas (Neapolitan, 2003). En nuestro caso no trataremos este problema, ya que no es el objetivo de este trabajo. Sin embargo, sí utilizamos el aprendizaje de los parámetros, por que en la sección de clasificación necesitamos hacer inferencia y para ello es necesario tener las probabilidades condicionales de la red. Para calcular las probabilidades usamos el principio de máxima verosimilitud, (Neapolitan, 2003). Consiste en tomar las probabilidades como las frecuencias relativas. 14

21 Propagación de probabilidades (inferencia). Esta es la parte más aplicada de las redes Bayesianas. Dado que se conoce el valor de alguna(s) variable(s) podemos actualizar las probabilidades del resto de las variables; esto comúnmente se llama propagación de probabilidades, propagación de evidencia o inferencia. En el caso de tener dos variables es directo el asunto, ya que solo tenemos que aplicar la regla de bayes. En el caso de tener que propagar hacia varias variables que no son descendientes o ancestros directos la cuestión se complica bastante. Se han desarrollado diversos algoritmos para la inferencia en redes bayesianas con una sola raíz (árboles) y para redes bayesianas generales 2. En el caso de árboles y poliárboles, Nilsson (Nilsson, 1998) describe tres métodos para realizar inferencia que son: top-down (en el caso de tener evidencia arriba), bottom-up (en el caso de tener evidencia abajo) y explaining away (en el caso de tener evidencia tanto arriba como abajo). Estos métodos utilizan la regla de bayes (ecuación ) y la ley de la probabilidad total (ecuación 1.3.5). El algoritmo más renombrado en redes bayesianas para realizar inferencia es el desarrollado por Pearl (Pearl, 1998) y que se llama paso de mensajes. En términos generales consiste en propagar la evidencia hacia los vecinos y de estos a sus vecinos y así sucesivamente. El presente trabajo tampoco se centra en estas cuestiones, por lo que no se discute con mayor detalle cada uno de los algoritmos mencionados. La mayor parte de la inferencia realizada es bastante simple, sobre todo en las redes generadas por bayes-n, ya que consiste en revisar las tablas de probabilidades condicionales almacenadas en el nodo, para realizar clasificación. Fue necesario implementar un algoritmo de inferencia general, pero no se trata del algoritmo de Pearl (Pearl, 1998), se trata de uno descrito por Nilsson (Nilsson, 1998) y que él llama método general. Dado que se usa para las pruebas realizadas en este trabajo, será descrito en el capítulo 5. Determinación de datos faltantes. El problema de datos faltantes se presenta frecuentemente, y es que hay veces que por alguna razón no es posible obtener el valor de alguna variable. El problema de determinar que valor es el más probable de que suceda en esa instancia es lo que se llama determinación de datos faltantes, o valores faltantes.(cruz-ramírez, 2001). Determinación de variables ocultas. En muchas ocasiones es posible que no se hayan determinado algunas variables que eran importantes para la explicación del fenómeno bajo estudio, y es notado que existe un influencia en los datos que no es percibida fácilmente, entonces es posible postular la existencia de alguna o algunas variables ocultas como responsables de explicar esta producción anormal de los datos(cruz-ramírez., 2001). 2 Redes Bayesianas no restringidas a una sola raíz y un solo camino entre cualquiera de dos nodos (árboles) o restringidas a un solo camino entre dos nodos cualquiera (poliárboles). (Nilsson, 1998). O redes restringidas como la red Naïve-Bayes (Langley, et. al., 1992). 15

22 2.2 Aprendizaje de la Estructura Básicamente existen tres enfoques para de determinar la topología de una red Bayesiana: de forma manual o tradicional, de forma automática y el enfoque Bayesiano que puede ser visto como una combinación de los dos anteriores (Cruz-Ramírez, 2001) Enfoque Tradicional. En el enfoque tradicional, la estructura de una red bayesiana es dada generalmente por el experto humano ayudado por el ingeniero del conocimiento. Aunque ésta es una tarea bastante difícil y tardada, la construcción de la estructura realizada de esta forma puede pensarse como la determinación de las relaciones entre las variables de una manera causal. Esto significa que si dos variables están conectadas, se piensa que la primera es la causa de la segunda, representando esta relación con una flecha que va de la primera variable a la segunda. Este proceso se puede hacer de manera recurrente; para cada par de variables el experto necesita determinar si una variable es causa de la otra. Pearl y Heckerman (Heckerman 1997; Heckerman 1998; Pearl 2000) señalan que si una red es construida de esta forma, entonces la red incorpora conocimiento causal. Probablemente este proceso resulte bastante difícil, sin embargo si lo combinamos con datos estadísticos, entonces las redes construidas de esta forma pueden ser más consistentes (Cruz-Ramírez, 2001) Aprendizaje a Partir de Datos Este enfoque ha sido el más explorado durante los últimos años, y existe una gran variedad de algoritmos para la obtención del estructura de la red bayesiana a partir de datos (Cheng, 1998; Cooper & HersKovits, 1992; Pearl, 1988; Spirtes et al., 1991). La motivación de este enfoque surge, obviamente, para evitar el enfoque tradicional en el que se extraía el conocimiento del experto. Con este enfoque el tiempo de ingeniería del conocimiento se reduce considerablemente, al determinar la estructura de manera automática. El aprendizaje de redes bayesianas a partir de datos se divide en dos: métodos basados en búsquedas y métodos basados en restricciones Algoritmos Basados en Búsquedas La determinación de la estructura de la red es vista como un problema de selección del modelo, en este caso probabilista. Los estadísticos, que comúnmente trabajan con este tipo de problemas, usan dos enfoques para resolver este problema: selección del modelo y selección del modelo promedio (Selecting Model averaging), el primero consiste en seleccionar un solo modelo bueno de entre todos los posibles modelos, y usarlo como si fuera el modelo correcto, el segundo enfoque consiste en seleccionar un número manejable de 16

23 modelos buenos de entre todos los modelos posibles y pretender que estos modelos son exhaustivos (Heckerman 1995). A partir de lo anterior surgen varias cuestiones, entre ellas; proveen estos enfoques resultados apropiados cuando son aplicados al aprendizaje de la estructura de una red bayesiana?, si es así, Cómo buscamos buenos modelos?, cómo decidimos si un modelo es o no bueno?. La pregunta de si el modelo es apropiado es un poco difícil de contestar; sin embargo algunos investigadores han demostrado que la selección de un simple modelo a menudo da predicciones bastante exactas (Cooper & Herskovits, 1992, Heckerman et al., 1995). Para la búsqueda del modelo, existen diferentes enfoques de optimización, como los algoritmos genéticos (Larrañaga ) o algoritmos Greedy (Cooper & Herskovits ). Ahora bien, para saber que tan bueno es el modelo, se han desarrollado diferentes criterios para evaluar el modelo (en este caso la estructura de la red bayesiana aprendida), llamándose, en general, criterios de bondad de ajuste. Entre ellos figuran: método de calificación Bayesiano (Cooper & Herskovits, 1992; Heckerman, 1994; Ramoni y Sebastián, 1996), métodos basados en entropía (Herskovits, 1991), método de evaluación MDL (minimum description length) (Susuki, 1996; Lam and Bacchus, 1994; Bouckaert, 1994) y método de evaluación MML(minimum message length) (Wallace, 1996). En general, el problema de la selección del modelo consiste en encontrar un modelo que, basado en datos, incluya una aproximación de la distribución de frecuencias relativas de dichos datos (i.e. distribución de probabilidad), pero que además sea un modelo de dimensiones razonables; tal y como lo dice la siguiente definición. Definición (Neapolitan, 2003) Sea U conjunto de variables y sea D la base de datos sobre U y sea N el número de casos en D. Sea S un criterio de evaluación sobre alguna clase de modelo de las variables en U. Sea P la distribución de probabilidad conjunta de las variables determinada a partir de D. Y sean M 1 y M 2 dos modelos a evaluar. 1. Para N suficientemente grande, si M 1 incluye a P y M 2 no, entonces score ( D, M 1) > score( D, M 2 ) 2. Para N suficientemente grande, si M 1 y M 2 incluyen a P y M 1 tiene dimensión menor que M 2 score ( D, M 1) > score( D, M 2 ) 17

24 La idea central del enfoque de búsquedas radica en encontrar el modelo mas parsimonioso que describa de mejor manera la distribución de probabilidad de los datos, basándose en algún criterio como el de S definido por Neapolitan. Cuando se trata de pocas variables podemos realizar una búsqueda exhaustiva, es decir evaluar cada posible estructura y escoger la mejor, de acuerdo el criterio de evaluación. Sin embargo, cuando el número de variables no es pequeño se vuelve intratable, computacionalmente hablando, una búsqueda exhaustiva. Robinson (Robinson, 1977) demostró que el número de GADs para n variables esta dado por la siguiente función recursiva: n n i+ 1 i( n i) f ( n) = ( 1) 2 f ( n i) i= 1 i n > 2 ( ) f ( 0) = 1 f ( 1) = 1 solo para darse una idea, f(2) = 3, f(3) = 25, f(5) = 29,000 y f(10) = 4.2 x Es claro que el número de GADs posibles es enorme. Ya mencionábamos que se han desarrollado diferentes algoritmos para este enfoque. Uno de los principales problemas encontrados en este tipo de métodos es la cantidad tan grande de posibles estructuras; es por ello que se han desarrollado diferentes heurísticas para no explorar todo el espacio de búsqueda, entre ellos figuran los algoritmos genéticos (Larragaña) y algoritmos greedy como el K2 (Cooper & Herskovits, 1992) Algoritmos Basados en Restricciones Este tipo de algoritmos asumen lo siguiente: dado un conjunto de independencias condicionales en una distribución de probabilidad, hay que encontrar el GAD que contenga todas y solamente estas independencias condicionales (Neapolitan, 2003). Entonces, la clave de estos algoritmos es determinar las relaciones de independencia (marginal o condicional) 3, contenidas implícitamente en los datos, con alguna medida de independencia condicional. Una medida comúnmente usada para probar independencia marginal e independencia condicional es la información mutua y la información mutua condicional(shannon & Weaver, 1949, Pearl, 1988), respectivamente. Si contáramos con un ordenamiento de las variables, y el límite de Markov (definición 1.7.3) de cada variable podríamos construir la topología de la red dirigiendo arcos desde los elementos del límite de Markov hasta la variable en cuestión. Si solo 3 En adelante cuando escribamos independencia se entenderá que nos referimos a cualquiera de las dos, marginal o condicional 18

25 contáramos con el ordenamiento, de las variables, entonces tendríamos que determinar de alguna forma el conjunto mínimo de variables que separa a cada variable de sus predecesores que no son padres, i.e. el límite de Markov. La forma en que la mayoría algoritmos resuelven el problema de determinar el conjunto de padres Markovianos, es llevando a cabo muchas pruebas de Independencia condicional. El hecho de tener el ordenamiento de las variables como un conocimiento a priori, es visto como una desventaja en los algoritmos de construcción de redes bayesianas, ya que en dominios muy complejos donde hay muchas variables y sus relaciones no son muy claras ni para el experto humano, no es posible contar o determinar de manera adecuada el ordenamiento de las variables[ Referencia ]. Es por eso que algunos autores han ideado algoritmos más generales que prescindan de un ordenamiento. Solo por mencionar algunos, (Spirtes et al., 1990; Spirtes and Glymour, 1991; Martínez-Morales, 1995; Cheng, 1998). Existen algunos otros algoritmos que tampoco reciben un ordenamiento, pero casi siempre construyen un grafo acíclico parcialmente orientado (pgad. i.e., pattern GAD)(Heckerman 1997; Friedman and Goldszmidt 1998). Ejemplo de este tipo es el Bayes9 (Cruz-Ramírez, 2001). Estos dos enfoques para el aprendizaje de redes Bayesianas a partir de datos son los más usados, aunque se ha sugerido un enfoque híbrido(cruz- Ramírez, 2001), es decir, combinar algún algoritmo de restricciones con uno de búsquedas para tratar de aprovechar las ventajas de los dos enfoques y evadir las desventajas de los mismos que en breve se tratará. Hemos hablado de los enfoques e incluso de una posible combinación de los dos para aprovechar las ventajas y evadir las desventajas de los enfoques, pero cuáles son las ventajas y cuales son las desventajas de ambos enfoques?. La principal ventaja de los algoritmos basados en restricciones es su velocidad, en redes no tan densas. Otra ventaja es que cuando se trata de bases de datos muy grandes, las pruebas de independencia se realizan con mayor confiabilidad. Pero resulta que en caso contrario, es decir cuando el volumen de datos es pequeño, la confiabilidad de las pruebas no es buena; en otras palabras, debido a que este tipo de algoritmos necesitan realizar pruebas de independencia condicional, es necesario que el volumen de datos sea lo suficientemente grande, sobre todo cuando el orden del conjunto condicionante es grande. Otra desventaja surge con la necesidad de especificar un umbral para llevar a cabo la prueba de independencia. Una de las ventajas de los algoritmos basados en búsquedas es la no necesidad de especificar un umbral. Otra ventaja es que incluyen implícitamente el principio de la navaja de Occam (Cruz-Ramírez, 2001), i.e., las métricas usadas por estos algoritmos favorecen modelos simples(recordemos que el principio de 19

26 la navaja de Occam sugiere que el mejor modelo es aquel que, además de explicar los datos, es el más simple). Entre las desventajas, ya mencionábamos anteriormente que se encuentra la intratabilidad computacional del problema (espacio de búsqueda enorme). Esta desventaja ha sido evadida por algunos autores introduciendo heurísticas e incluso asumiendo que existe un orden en el conjunto de variables(cooper & Herskovits, 1992), como ya explicábamos antes. 20

27 Familia de Algoritmos Bayes Capítulo 3. Existen diversos problemas en la investigación científica en los que hay una estructura particular en las relaciones entre las variables bajo consideración. En los problemas de este tipo hay una variable dependiente o respuesta, y un conjunto de variables independientes o explicativas (por ejemplo en diseño experimental, modelos de regresión, diagnóstico médico, predicción, problemas de clasificación, entre otros). La hipótesis subyacente es que el comportamiento de la variable dependiente puede ser explicada como resultado de la acción de las variables dependientes. En este capitulo presentamos la familia de algoritmos Bayes, que abordan el problema anterior(con excepción de Bayes9). Describimos la filosofía detrás de esta familia de algoritmos y la evolución que han sufrido para intentar resolver ciertos problemas encontrados en ellos. Esta familia de algoritmos son del tipo basados en restricciones y se han venido desarrollando desde hace ya algunos años (Martínez-Morales, 1995; Cruz- Ramírez, 1997; Cruz-Ramírez, 2001). 3.1 Prueba Estadística para la Independencia Marginal y Condicional Como ya mencionábamos en el capítulo anterior, los algoritmos basados en restricciones tratan de reflejar las independencias condicionales de la variables en la base datos en la estructura de la red Bayesiana, para lo cual es necesario llevar a cabo una serie de pruebas de independencia. Las pruebas realizadas por Bayes-N y en general por la familia de algoritmos Bayes, están basadas en medidas de información definidas en el campo de la teoría de la información como información mutua e información mutua condicional (Kullback, 1959; Quinlan, 1993; Martínez-Morales, 1995). A continuación se exponen el conjunto de ecuaciones que definen entropía, entropía condicional, información mutua e información mutua condicional. Sean X, Y variables aleatorias discretas, y sean x, y valores específicos para X, Y respectivamente. Sea Z un conjunto de variables aleatorias y sea z una combinación específica de las variables. denota la suma sobre todos los x valores de X. Definición 3.1.1(Shannon, 1948). Entropía. H ( X ) p( x)log p( x) = x donde p(x) es la probabilidad P(X=x) (3.1.1) 21

28 Definición (Shannon, 1948). Entropía condicional de X dado Y. H ( X / Y ) = p( x, y) log p( x / y) x y (3.1.2) Definición (Kullback, 1959; Quinlan, 1993; Martínez-Morales, 1995). Información mutua (ganancia de información) p( x, y) I ( X, Y ) = H ( X ) H ( X / Y ) = p( x, y) log (3.1.3) p( x) p( y x, y ) Definición (Kullback, 1959; Quinlan, 1993; Martínez-Morales, 1995). Información mutua condicional. I( X, Y Z) = H ( X / Z) H ( X / Z, Y ) = p( x, y, z)log p( x, y z) x, y, z p( x z) p( y z) (3.1.4) La entropía es interpretada como el grado de incertidumbre de una variable. Si por ejemplo una variable toma dos valores con una probabilidad de 0.5 para cada valor, entonces se dice que la variable es muy incierta, y de hecho se encuentra en la situación de máxima entropía, y por lo tanto, de incertidumbre(shannon, 1948). La entropía condicional es interpretada como el grado de incertidumbre que tiene una variable dado que conocemos otra. En otras palabras, que tan incierta permanece la variable X dado que conocemos otra variable Y. Si combinamos la entropía y la entropía condicional, entonces podemos encontrar la ganancia de información. Esta se define como la diferencia de la entropía menos la entropía condicional. Analicemos esta ecuación. H(X) define el grado de incertidumbre de X y H(X Y) define el grado de incertidumbre que tiene X dado que conocemos a Y, entonces, si H(X) es igual a H(X Y) entonces Y no está haciendo que X sea menos incierta; i.e. Y no proporciona información acerca de X; Por lo que I(X,Y) es igual a cero. (Notemos que H ( X ) H ( X Y ) ). A esta medida se le llama ganancia de información precisamente porque eso es lo que refleja al restar las entropías (entropía y entropía condicional). Ahora bien, dado que I(X,Y) = I(Y,X) a esta cantidad se le ha llamado información mutua. De aquí en adelante usaremos este término. La ecuación define la ganancia de información condicional. La cual podemos entenderla más o menos así: supongamos que conocemos la entropía de X dado Z y ahora introducimos una nueva variable Y y calculamos la entropía condicional de X dado Z y Y. Si restamos estas dos entropías condicionales lo que 22