edes Bayesianas:Introducción Eliminan algunos de los problemas asociados al razonamiento probabilístico Desarrolladas a finales de los 70 (Pearl), se convirtieron durante los 90 en un esquema general de representación de la incertidumbre Una ed Bayesiana (B) proporciona una forma compacta y modular de representar la distribución conjunta de varias variables aleatorias Una B consta de: Una parte cualitativa que describe las relaciones entre las distintas variables Una parte cuantitativa que describe la fuerza de dicas relaciones mediante probabilidades condicionadas
edes Bayesianas: Inferencia, Decisión y prendizaje En una B, la información proporcionada por una o más variables que se observan (evidencia) se propaga por la red y actualiza nuestra creencia acerca de las variables no observadas. este proceso se le llama inferencia. Es posible aprender las probabilidades condicionales que describen las relaciones entre las variables a partir de los datos. Incluso es posible aprender la estructura completa de la red a partir de datos completos o con algunos de sus valores desconocidos. Las B pueden utilizarse para tomar decisiones óptimas introduciendo posibles acciones y la utilidad de sus resultados
edes Bayesianas en la Prensa Cnet.com ttp://news.com.com/2009-00-984695.tml
edes Bayesianas: Utilización lgunas aplicaciones de B en empresas Microsoft Intel HP nswer Wizard (Office) Diagnóstico de problemas de usuario (laddin) Home Healt en la red de Microsoft (MSN) Nokia Nasa Diagnóstico de fallos de procesadores Diagnóstico de problemas de impresora Diagnóstico de redes celulares Sistema de ayuda a la decisión en misiones espaciales
ed Bayesiana:Ejemplo Diagnóstico de Problemas de Impresión (Heckerman)
ed Bayesiana:Ejemplo Diagnóstico de Problemas en redes celulares para Nokia (Barco y otros)
ed Bayesiana:Ejemplo Visión de alto nivel del sistema de B para Excel Vista parcial de la red para inferir si el usuario tiene dificultades Vista parcial de la red para inferir si el usuario tiene dificultades con Excel (Heckerman)
edes Bayesianas: lgunas Herramientas Norsys Programa: Netica Descarga de: ttp://www.norsys.com/netica.tml Microsoft MSBNx Descarga de: ttp://researc.microsoft.com/adapt/msbnx/
Qué es un ed Bayesiana (B)? Una B es un grafo dirigido en el que cada nodo contiene información probabilística. Para determinar una B ace falta: Un conjunto de variables aleatorias que forman los nodos de la red. Las variables pueden ser discretas o continuas Un conjunto de enlaces dirigidos (arcos) que conectan parejas de nodos. Si ay un arco del nodo X al Y se dice que X es el padre de Y. El significado intuitivo de un arco desde el nodo X al Y es que X tiene una influencia directa en Y Cada nodo X i tiene una distribución de probabilidad condicional: P(X i Padres (X i )) que mide el efecto de los padres de ese nodo. El grafo no tiene ciclos dirigidos (y por tanto es un grafo dirigido acíclico o DG)
ed Bayesiana: Significado Los arcos en una B proporciona una forma de codificar relaciones de independencia Estas relaciones se pueden especificar como: Dada una B con nodos X, X 2,... X n. Si Padres(X i ) son los padres de X i y NoDescendientes(X i ) los nodos que no son descendientes de X i. Padre Entonces para cada variable X i se tiene que X i es independiente de sus No Descendientes dados sus Padres. Esto lo expresamos como Ind(X i ; NoDescendientes(X i ) Pa(X i )) Descendiente X i No descendiente
Ejemplos de Independencias Para la B del ejemplo: y L son dependientes: Si ay un robo es más probable suene la alarma, lo que ace más probable que que reciba una llamada. Si recibo una llamada se incrementa la probabilidad de que aya sonado la alarma y por tanto de que me ayan robado. y L son independientes si se conoce Si ay un robo ya no es más probable que suene la alarma ( ya se sabe si suena o no) Si recibo una llamada ya no se incrementa la probabilidad de que suene la alarma ( ya se sabe si suena o no) Terremoto Noticia radio obo larma Llamada L es independiente de sus no-descendientes T,,N, dados sus padres
Ejemplos de Independencias Para la B del ejemplo: N y son dependientes: Si oigo en la radio que a abido un terremoto es más probable que éste aya ocurrido, lo que ace más probable que que suene la alarma. Si suena la alarma se incrementa la probabilidad de que aya ocurrido un terremoto y por tanto de que oiga la noticia en la radio. N y son independientes si se conoce T Si oigo en la radio que a abido un terremoto ya no es más probable que éste aya ocurrido. (ya se sabe si a ocurrido o no). Si suena la alarma ya no se incrementa la probabilidad de que aya ocurrido un terremoto ( ya se sabe si ocurrió) Terremoto Noticia radio obo larma Llamada N es independiente de sus no-descendientes,,l dados sus padres T
Ejemplos de Independencias Para la B del ejemplo: T y son dependientes si se conoce Si suena la alarma y ocurre una de las causas (terremoto) me creo menos la otra (robo) Si suena la alarma y ocurre una de las causas (robo) me creo menos la otra (terremoto) este efecto se le llama eliminación de explicaciones T y son independientes: Si desconozco si suena la alarma y ocurre una de las causas (terremoto) no ay razón para creer menos la otra (robo) Si desconozco si suena la alarma y ocurre una de las causas (robo) no ay razón para creer menos la otra (terremoto) Terremoto Noticia radio obo larma Llamada T es independiente de sus no-descendientes dados sus padres (ninguno).
Transmisión de información en la red Un camino del grafo puede estar: ctivo si pasa información por el. Bloqueado: si no pasa Nodo con evidencia (observado) Causa Intermedia Causa Común Efecto Común T T T N L L N T L T L L
Teorema de Factorización Dada la codificación de independencias de una B Ejemplo P(X,...,Xn) P(Xi Pa(Xi)) Teorema de Factorización: P(L,,N,T,) P() P(T) P(N T) P(,T) P(L ) i Terremoto obo Noticia radio larma Llamada
Factorización:Consecuencias Se puede describir P utilizando probabilidades condicionales locales Si G es un grafo disperso, es decir el número de padres de cada variable está acotado: Pa(X i ) k con k un número pequeño se obtiene: epresentación compacta El número de parámetros para describir la función de distribución conjunta es lineal en el número n de variables aleatorias o(n) Nótese que el número de parámetros requerido en general es de orden o(2 n ) epresentación modular ñadir una nueva variable no obliga a actualizar todos los parámetros de la representación
Construcción de B Un algoritmo de construcción de B Elegir un grupo de variables X,,X n que describen un dominio Fijar un orden en X,,X n (por ejemplo de las causas a los efectos) Mientras aya variables Elegir la siguiente variable X i y añadir un nodo para ella Selecionar Padres(X i ) como el conjunto mínimo de {X,,X i- }, de forma que Ind(X i ; {X,,X i- } - Pa i Pa i ) La red resultante depende del orden: Orden:T,,, L, N Orden: L, N,, T, T T N L N L
La elección de la ordenación y la causalidad La elección de la ordenación puede tener un impacto drástico en la complejidad de la ed Bayesiana. Heurística para construir la B: Construir la B utilizando la ordenación causal entre las variables Justificación Generalmente se puede asumir que los grafos generados a partir de relaciones causales cumplen las condiciones de independencia
Inferencia en edes Bayesianas Inferencia: Se pretende allar la distribución de probabilidad de determinadas variables de interés dados los valores de otras variables que se observan. Principales tipos de Inferencia Diagnóstico Predicción Intercausal T L L P(robo llama) P(llama robo) P(robo alarma, terremoto)
Inferencia en edes Bayesianas De manera formal Supondremos que: La red bayesiana está formada por las variables: { X,, X n } Las variables de interés son X I { X,, X i } Las variables observadas (con evidencia) son: X O { X i+,, X j } Los valores que toman dicas variables (evidencia) son e{ e i+,, e j } El resto de variables son X { X j+,, X n } El problema a resolver es: Calcular: P( X I X P(X,X 2 O,...,X, X P(X e) i+ i e P( XI, XO e) P( X e) i+ i+,x e O i+ 2 i+,x e i+ 2 i+ 2 e i+ 2,...,X j,...,x e j ) j e j )
lgoritmos de inferencia Los diversos algoritmos propuestos se pueden dividir en: lgoritmos exactos Calcular de forma exacta la inferencia solicitada. La complejidad de resolver de forma exacta el problema general de inferencia en edes Bayesianas es NP-duro. Tipos Para redes específicas:» Árboles (Pearl), (Complejidad lineal)» Poliárboles (Kim, Pearl), (Complejidad lineal) Para redes generales» Eliminación de Variables, Árbol de uniones (Lauritzen y Spiegelalter) lgoritmos aproximados Se basan calcular de forma aproximada la inferencia solicitada simulando la distribución de la red bayesiana. proximar una distribución con una tolerancia dada es también NP-duro. lgunos algoritmos Muestreo lógico (Henrion) Ponderación de la verosimilitud (Fung y Cang)
lgoritmo de Inferencia por Eliminación de Variables El problema es calcular: P( X I X O e) P( XI, XO e) P( X e) El numerador es igual a: P( X X j+ I,X, X j+ 2 O,...,X e) P(X,X n 2 X El denominador es igual a: P( X X,X 2 O e) P(X,X,...,X i 2 X I P( X i O,...,X, X P( X i I, X,...,X, X I i+, X O e,x i+ ei+,xi+ 2 ei+ 2,...,Xj O e) e i+,x i+ 2 Por tanto, si se tiene el numerador el denominador se puede calcular a partir de éste. ) e i+ 2,...,X j e e,x j ) j j+,x j+ 2,...,X n )
Eliminación de Variables: Cálculo del numerador El problema aora es calcular: P( X X j+ I,X, X j+ 2 O,...,X e) P(X,X Idea General: n Para realizar de forma eficiente la suma anterior: Paso Usar el teorema de factorización para factorizar la distribución conjunta: Paso 2 Fijar las variables observadas a sus valores de evidencia Paso 3 2 X P( X,...,X, X i I, X O e,x ) i+ ei+,xi+ 2 ei+ 2,...,Xj e,x Eliminar de forma iterativa del sumatorio las variables que no son de interés ni de evidencia j j+,x j+ 2,...,X P(X,X2,...,X i, Xi+, Xi+ 2,...,X j,xj+,x j+ 2,...,Xn) P(X i,pa(xi)) i n )
Eliminación de variables: Ejemplo con evidencia La red de la Escarca Watson ccidente Calculemos P(w ) Factorización: P(E)P(W E)P(H E) P(E)P(W E)P( E) P(W,) P(W ) Escarca Holmes ccidente Sustitución de la evidencia Eliminamos E Normalizamos e 0.7 e 0.8 0.2 E e 0.3 E e 0. 0.9 E g P(E) E (W) E P(W E) g E (W) w w w w e 0.8 0. 0.2 0.9 0.7 x 0.8 x 0.8+0.3 x 0. x 0. 0.45 0.7 x 0.2 x 0.8+0.3 x 0.9 x 0. 0.39 P(E)P(W E)P( E) w w 0.77 0.23 W P(H E) e Normalizamos H
Eliminación de variables: Ejemplo sin evidencia La red de la Escarca Watson ccidente Escarca Calculemos P(W) Factorización: Holmes ccidente P(E)P(W E)P(H E) Eliminamos H P(E)P(W E)g H (E) P(E) w e 0.7 e 0.8 0.2 E e 0.3 E e 0. 0.9 E H H (E) P(H E) P(W E) w e 0.8 + 0.2.0 g E e 0. + 0.9.0 W g H (E) P(H E) e e 0.8 0. H 0.2 0.9 P(W) Eliminamos E g E (W) gh(e)p(e)p(w E) E w w.0 x 0.7 x 0.8+.0 x 0.3 x 0. 0.59.0 x 0.7 x 0.2+.0 x 0.3 x 0.9 0.4
Un Ejemplo más Complejo La ed sia Visita a asia Fumador Tuberculosis Cancer Pulmón normalidad en peco Bronquitis ayos X Disnea* *DisneaDificultad para respirar
Eliminación de variables: Ejemplo con evidencia Ejemplo: calcular P(C v,f,d) Como siempre calculamos P(C,v,f,d) y normalizamos Escribimos la factorización: P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) y sustituimos la evidencia Vcierto,Fcierto,Dcierto P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( )P(d,B) tenemos por tanto que eliminar:,t,,b (puesto que V,F,D están fijos) Proceso de eliminación: P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( Eliminamos )P(d,B) P(v)P(f) ()P(T v)p(c f)p(b f)p( T,C)P(d,B) () P( ) T V C D F B
Eliminación de variables: Ejemplo con evidencia Proceso de eliminación: continuación Eliminando: T,,B T V C D F B P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( )P(d,B) P(v)P(f) ()P(T v)p(c f)p(b f)p( T,C)P(d,B) Eliminamos T T T (,C) P(T v)p( T,C) P(v)P(f) () T (,C)P(C f)p(b f)p(d,b) P(v)P(f) Eliminamos (C,B)P(C f)p(b f) Eliminamos B Normalización (C,B) r()t (,C)P(d,B) b (C) B(C,B)P(B f) B P(v)P(f)P(C f)b (C) P(C v,f,d)
Eliminación de variables: Ejemplo sin evidencia Ejemplo: Calcular P(D) Eliminaremos: V,F,,T,C,,B plicando el teorema de factorización: P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) Eliminamos V V (T)P(F)P(C F)P(B F)P( T,C)P( )P(D,B) V V T (T) (T) F F (, C) Eliminamos F (C,B)P( T,C)P( )P(D,B) (C,B) F (C,B) Eliminamos ()P( T,C)P(D,B) Eliminamos T ()P(D,B) F F (C,B) P(C F)P(B F)P(F ) V V (T) P(T V)P(V) T V C D () P( ) T (,C) v(t)p( T,C) T F B
Eliminación de variables: Ejemplo con evidencia Ejemplo: Calcular P(D) Eliminaremos V,F,,T,C,,B Proceso de eliminación (continuación) P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) V (T)P(F)P(C F)P(B F)P( T,C)P( )P(D,B) (T) (C,B)P( T,C)P( )P(D,B) V V T C (T) F (, C) (,B) (D,B) P(D) F (C,B) F (C,B) Eliminamos C ()P( T,C)P(D,B) ()P(D Eliminamos Eliminamos B ()P(D,B),B) (D,B) C(,B) ()P(D,B) P(D) T V C (,B) T(, C)F (C,B) C B C D F B (B,D)
Complejidad del lgoritmo de Eliminación Estudiemos la complejidad: En cada paso se calcula: X (Y, KY Entonces: k ) x ' X (X,Y, KY (X,Y, KY f (X,Y Para cada valor de Y, Y 2,..Y k acemos Val(X) sumas, por tanto el número total de sumas es Val(X) Val(Y )... Val(Y k ) Para cada valor de X,Y, Y 2,..Y k acemos m multiplicaciones, por tanto el número total de de multiplicaciones es de m Val(X) Val(Y )... Val(Y k ) Por tanto: la complejidad es exponencial en el número de variables de los factores intermedios k ), Es necesario buscar buenos ordenes de eliminación de variables para reducir el tamaño de los factores intermedios. Sin embargo, el problema de buscar la ordenación óptima tiene también complejidad exponencial, por lo que se emplean diversas eurísticas. ' X k ) m i i i, KY il i )
esumen Las redes bayesianas permiten modelar la incertidumbre de forma probabilística incluso cuando el número de variables es elevado. Se basan en utilizar la noción de independencia para generar una representación compacta y modular de la distribución probabilística de las variables. La tarea fundamental en edes Bayesianas es la inferencia: conocer la distribución de unas variables cuando se observan otras. El problema general de inferencia en edes Bayesianas es NP-duro. Existen diversos algoritmos para resolver el problema de inferencia: exactos y aproximados.