Redes Bayesianas:Introducción

Documentos relacionados
REDES BAYESIANAS. O Redes de creencias

Bases Formales de la Computación: Redes de Bayes (segunda parte)

Teoría de probabilidades

Métodos de Inteligencia Artificial

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

SIMULACION. Urna 1. s(x) h(x) Urna 2. s(x) Dado. Urna /6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Dado 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6

Razonamiento probabilístico y redes bayesianas

Inteligencia Artificial II Razonamiento Bayesiano

Inteligencia Artificial II (Curso ) Ejercicios propuestos del tema 3

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Métodos de Inteligencia Artificial

Manejo de Incertidumbre

Inferencia Exacta: Ejemplo

Redes Bayesianas. Manuel Valenzuela-Rendón. Centro de Sistemas Inteligentes Tecnológico de Monterrey, Campus Monterrey.

Extensiones de los Modelos Gráficos (2010/2011)

Métodos de Inteligencia Artificial

Incertidumbre y conocimiento

Redes bayesianas temporales para reconocimiento de escenarios

Matemáticas Aplicadas a las Ciencias Sociales II. Comisión Permanente

Tema 8: Introducción a las Redes Bayesianas

TEMA 2: ÁLGEBRA 1. TEOREMA DEL RESTO Y APLICACIONES

Curso de Inteligencia Artificial

PLANES CURRICULARES GRADO9º/ 01 PERIODO

Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre.

Una pregunta pendiente

Dr. Francisco Javier Tapia Moreno. Octubre 14 de 2015.

ÁRBOLES CRISTIAN ALFREDO MUÑOZ ÁLVAREZ JUAN DAVID LONDOÑO CASTRO JUAN PABLO CHACÓN PEÑA EDUARDO GONZALES

Arboles de decisión. Area de Computación e Inteligencia Artificial

PROBABILIDAD Y ESTADÍSTICA

Notación de probabilidad

Desarrollo e impacto de la Estadística Bayesiana

Distribuciones de probabilidad

Clasificación Bayesiana

Probabilidad, Variables aleatorias y Distribuciones

RAZONAMIENTO APROXIMADO

Sesión 2: Teoría de Probabilidad

Límite de funciones. Por otra parte se dice que una función es discontínua si para algún (os) valor (es) de x no existe valor de y.

Inteligencia Artificial Razonamiento probabilístico

Tema 2. Fundamentos Teóricos de la. programación dinámica Teorema de Optimalidad de Mitten

4.2 Reducción de orden

Matemáticas Aplicadas a las Ciencias Sociales II. Comisión Permanente

Sesión 2: Teoría de Probabilidad

Universidad Mariano Gálvez Estadística y probabilidad para Ingeniería Sección B. UNIDAD 2 PROBABILIDAD

Breve introducción a la Investigación de Operaciones

Tema 3: Análisis de datos bivariantes

Arboles de decisión. Area de Computación e Inteligencia Artificial

Factorizaci ón de árboles de probabilidad y sus aplicaciones p.1/13

CÁLCULO DIFERENCIAL E INTEGRAL I EVALUACIÓN DE RECUPERACIÓN E0900

Sistemas Expertos basados en probabilidad (2011/2012)

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

CONTRASTE DE HIPÓTESIS

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

5 DISTRIBUCIONES BINOMIAL Y DE POISSON

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

2 de mar de 2004 Codificación de imágenes y v ideo

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

Sistemas Expertos basados en probabilidad (2010/2011)

Técnicas Cuantitativas para el Management y los Negocios I

Tema 3 Algebra. Ecuaciones. Sistemas de ecuaciones: Inecuaciones Índice

Tema 4. Probabilidad Condicionada

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

T1. Distribuciones de probabilidad discretas

Tema 3: Expresiones algebraicas

Búsqueda de soluciones

Sesión 14: Redes de Decisión

Pulse para añadir texto

Razonamiento bajo incertidumbre

TEMA 5. Probabilidad

1. Los números reales. 2. Representación. 3. Densidad de los números racionales. 4. Propiedades de los números reales

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

Procesos estocásticos Cadenas de Márkov

Distribución conjunta de variables aleatorias

Cuáles son las características aleatorias de la nueva variable?

No se permiten libros ni apuntes. Ejercicio 1 Ejercicio 2 Ejercicio 3 Ejercicio 4 TOTAL NOTA

Tema 3: Expresiones algebraicas

Carrera: Ingeniería Civil CIM 0531

PRINCIPIOS ESTADÍSTICOS APLICADOS EN CONTROL DE CALIDAD

Este material es de uso exclusivo para clase de algoritmos y estructura de datos, la información de este documento fue tomada textualmente de varios

Capítulo 3. Polinomios

Incertidumbre. Dr. Jesús Antonio González Bernal

sobre un intervalo si para todo de se tiene que. Teorema 1 Sean y dos primitivas de la función en. Entonces,

Complejidad computacional (Análisis de Algoritmos)

Matemáticas B 4º E.S.O. Polinomios y fracciones algebraicas. 1. x 5x 2 6 5

POLINOMIOS Y DIVISIÓN DE POLINOMIOS MATEMÁTICAS 3º ESO

Método simplex para redes (representaciones gráficas) Cálculo del flujo de un árbol de expansión

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Fundamentos matemáticos. Tema 1 Números reales. Polinomios

Formulando con modelos lineales enteros

Clase 4 Funciones polinomiales y racionales

Filogenias. Charles Darwin (1859)

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

Es una ecuación polinómica de grado uno con una o varias incógnitas. Por ejemplo, son ecuaciones lineales: 2x 3y 4z

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

CONTRASTE DE HIPÓTESIS

Juan Carlos Colonia DISTRIBUCIONES MUESTRALES

UNIDAD 1: NÚMEROS NATURALES OBJETIVOS

Aprendizaje Automatizado

Unidad IV. Una variable aleatoria X es continua si su función de distribución es una función continua.

Transcripción:

edes Bayesianas:Introducción Eliminan algunos de los problemas asociados al razonamiento probabilístico Desarrolladas a finales de los 70 (Pearl), se convirtieron durante los 90 en un esquema general de representación de la incertidumbre Una ed Bayesiana (B) proporciona una forma compacta y modular de representar la distribución conjunta de varias variables aleatorias Una B consta de: Una parte cualitativa que describe las relaciones entre las distintas variables Una parte cuantitativa que describe la fuerza de dicas relaciones mediante probabilidades condicionadas

edes Bayesianas: Inferencia, Decisión y prendizaje En una B, la información proporcionada por una o más variables que se observan (evidencia) se propaga por la red y actualiza nuestra creencia acerca de las variables no observadas. este proceso se le llama inferencia. Es posible aprender las probabilidades condicionales que describen las relaciones entre las variables a partir de los datos. Incluso es posible aprender la estructura completa de la red a partir de datos completos o con algunos de sus valores desconocidos. Las B pueden utilizarse para tomar decisiones óptimas introduciendo posibles acciones y la utilidad de sus resultados

edes Bayesianas en la Prensa Cnet.com ttp://news.com.com/2009-00-984695.tml

edes Bayesianas: Utilización lgunas aplicaciones de B en empresas Microsoft Intel HP nswer Wizard (Office) Diagnóstico de problemas de usuario (laddin) Home Healt en la red de Microsoft (MSN) Nokia Nasa Diagnóstico de fallos de procesadores Diagnóstico de problemas de impresora Diagnóstico de redes celulares Sistema de ayuda a la decisión en misiones espaciales

ed Bayesiana:Ejemplo Diagnóstico de Problemas de Impresión (Heckerman)

ed Bayesiana:Ejemplo Diagnóstico de Problemas en redes celulares para Nokia (Barco y otros)

ed Bayesiana:Ejemplo Visión de alto nivel del sistema de B para Excel Vista parcial de la red para inferir si el usuario tiene dificultades Vista parcial de la red para inferir si el usuario tiene dificultades con Excel (Heckerman)

edes Bayesianas: lgunas Herramientas Norsys Programa: Netica Descarga de: ttp://www.norsys.com/netica.tml Microsoft MSBNx Descarga de: ttp://researc.microsoft.com/adapt/msbnx/

Qué es un ed Bayesiana (B)? Una B es un grafo dirigido en el que cada nodo contiene información probabilística. Para determinar una B ace falta: Un conjunto de variables aleatorias que forman los nodos de la red. Las variables pueden ser discretas o continuas Un conjunto de enlaces dirigidos (arcos) que conectan parejas de nodos. Si ay un arco del nodo X al Y se dice que X es el padre de Y. El significado intuitivo de un arco desde el nodo X al Y es que X tiene una influencia directa en Y Cada nodo X i tiene una distribución de probabilidad condicional: P(X i Padres (X i )) que mide el efecto de los padres de ese nodo. El grafo no tiene ciclos dirigidos (y por tanto es un grafo dirigido acíclico o DG)

ed Bayesiana: Significado Los arcos en una B proporciona una forma de codificar relaciones de independencia Estas relaciones se pueden especificar como: Dada una B con nodos X, X 2,... X n. Si Padres(X i ) son los padres de X i y NoDescendientes(X i ) los nodos que no son descendientes de X i. Padre Entonces para cada variable X i se tiene que X i es independiente de sus No Descendientes dados sus Padres. Esto lo expresamos como Ind(X i ; NoDescendientes(X i ) Pa(X i )) Descendiente X i No descendiente

Ejemplos de Independencias Para la B del ejemplo: y L son dependientes: Si ay un robo es más probable suene la alarma, lo que ace más probable que que reciba una llamada. Si recibo una llamada se incrementa la probabilidad de que aya sonado la alarma y por tanto de que me ayan robado. y L son independientes si se conoce Si ay un robo ya no es más probable que suene la alarma ( ya se sabe si suena o no) Si recibo una llamada ya no se incrementa la probabilidad de que suene la alarma ( ya se sabe si suena o no) Terremoto Noticia radio obo larma Llamada L es independiente de sus no-descendientes T,,N, dados sus padres

Ejemplos de Independencias Para la B del ejemplo: N y son dependientes: Si oigo en la radio que a abido un terremoto es más probable que éste aya ocurrido, lo que ace más probable que que suene la alarma. Si suena la alarma se incrementa la probabilidad de que aya ocurrido un terremoto y por tanto de que oiga la noticia en la radio. N y son independientes si se conoce T Si oigo en la radio que a abido un terremoto ya no es más probable que éste aya ocurrido. (ya se sabe si a ocurrido o no). Si suena la alarma ya no se incrementa la probabilidad de que aya ocurrido un terremoto ( ya se sabe si ocurrió) Terremoto Noticia radio obo larma Llamada N es independiente de sus no-descendientes,,l dados sus padres T

Ejemplos de Independencias Para la B del ejemplo: T y son dependientes si se conoce Si suena la alarma y ocurre una de las causas (terremoto) me creo menos la otra (robo) Si suena la alarma y ocurre una de las causas (robo) me creo menos la otra (terremoto) este efecto se le llama eliminación de explicaciones T y son independientes: Si desconozco si suena la alarma y ocurre una de las causas (terremoto) no ay razón para creer menos la otra (robo) Si desconozco si suena la alarma y ocurre una de las causas (robo) no ay razón para creer menos la otra (terremoto) Terremoto Noticia radio obo larma Llamada T es independiente de sus no-descendientes dados sus padres (ninguno).

Transmisión de información en la red Un camino del grafo puede estar: ctivo si pasa información por el. Bloqueado: si no pasa Nodo con evidencia (observado) Causa Intermedia Causa Común Efecto Común T T T N L L N T L T L L

Teorema de Factorización Dada la codificación de independencias de una B Ejemplo P(X,...,Xn) P(Xi Pa(Xi)) Teorema de Factorización: P(L,,N,T,) P() P(T) P(N T) P(,T) P(L ) i Terremoto obo Noticia radio larma Llamada

Factorización:Consecuencias Se puede describir P utilizando probabilidades condicionales locales Si G es un grafo disperso, es decir el número de padres de cada variable está acotado: Pa(X i ) k con k un número pequeño se obtiene: epresentación compacta El número de parámetros para describir la función de distribución conjunta es lineal en el número n de variables aleatorias o(n) Nótese que el número de parámetros requerido en general es de orden o(2 n ) epresentación modular ñadir una nueva variable no obliga a actualizar todos los parámetros de la representación

Construcción de B Un algoritmo de construcción de B Elegir un grupo de variables X,,X n que describen un dominio Fijar un orden en X,,X n (por ejemplo de las causas a los efectos) Mientras aya variables Elegir la siguiente variable X i y añadir un nodo para ella Selecionar Padres(X i ) como el conjunto mínimo de {X,,X i- }, de forma que Ind(X i ; {X,,X i- } - Pa i Pa i ) La red resultante depende del orden: Orden:T,,, L, N Orden: L, N,, T, T T N L N L

La elección de la ordenación y la causalidad La elección de la ordenación puede tener un impacto drástico en la complejidad de la ed Bayesiana. Heurística para construir la B: Construir la B utilizando la ordenación causal entre las variables Justificación Generalmente se puede asumir que los grafos generados a partir de relaciones causales cumplen las condiciones de independencia

Inferencia en edes Bayesianas Inferencia: Se pretende allar la distribución de probabilidad de determinadas variables de interés dados los valores de otras variables que se observan. Principales tipos de Inferencia Diagnóstico Predicción Intercausal T L L P(robo llama) P(llama robo) P(robo alarma, terremoto)

Inferencia en edes Bayesianas De manera formal Supondremos que: La red bayesiana está formada por las variables: { X,, X n } Las variables de interés son X I { X,, X i } Las variables observadas (con evidencia) son: X O { X i+,, X j } Los valores que toman dicas variables (evidencia) son e{ e i+,, e j } El resto de variables son X { X j+,, X n } El problema a resolver es: Calcular: P( X I X P(X,X 2 O,...,X, X P(X e) i+ i e P( XI, XO e) P( X e) i+ i+,x e O i+ 2 i+,x e i+ 2 i+ 2 e i+ 2,...,X j,...,x e j ) j e j )

lgoritmos de inferencia Los diversos algoritmos propuestos se pueden dividir en: lgoritmos exactos Calcular de forma exacta la inferencia solicitada. La complejidad de resolver de forma exacta el problema general de inferencia en edes Bayesianas es NP-duro. Tipos Para redes específicas:» Árboles (Pearl), (Complejidad lineal)» Poliárboles (Kim, Pearl), (Complejidad lineal) Para redes generales» Eliminación de Variables, Árbol de uniones (Lauritzen y Spiegelalter) lgoritmos aproximados Se basan calcular de forma aproximada la inferencia solicitada simulando la distribución de la red bayesiana. proximar una distribución con una tolerancia dada es también NP-duro. lgunos algoritmos Muestreo lógico (Henrion) Ponderación de la verosimilitud (Fung y Cang)

lgoritmo de Inferencia por Eliminación de Variables El problema es calcular: P( X I X O e) P( XI, XO e) P( X e) El numerador es igual a: P( X X j+ I,X, X j+ 2 O,...,X e) P(X,X n 2 X El denominador es igual a: P( X X,X 2 O e) P(X,X,...,X i 2 X I P( X i O,...,X, X P( X i I, X,...,X, X I i+, X O e,x i+ ei+,xi+ 2 ei+ 2,...,Xj O e) e i+,x i+ 2 Por tanto, si se tiene el numerador el denominador se puede calcular a partir de éste. ) e i+ 2,...,X j e e,x j ) j j+,x j+ 2,...,X n )

Eliminación de Variables: Cálculo del numerador El problema aora es calcular: P( X X j+ I,X, X j+ 2 O,...,X e) P(X,X Idea General: n Para realizar de forma eficiente la suma anterior: Paso Usar el teorema de factorización para factorizar la distribución conjunta: Paso 2 Fijar las variables observadas a sus valores de evidencia Paso 3 2 X P( X,...,X, X i I, X O e,x ) i+ ei+,xi+ 2 ei+ 2,...,Xj e,x Eliminar de forma iterativa del sumatorio las variables que no son de interés ni de evidencia j j+,x j+ 2,...,X P(X,X2,...,X i, Xi+, Xi+ 2,...,X j,xj+,x j+ 2,...,Xn) P(X i,pa(xi)) i n )

Eliminación de variables: Ejemplo con evidencia La red de la Escarca Watson ccidente Calculemos P(w ) Factorización: P(E)P(W E)P(H E) P(E)P(W E)P( E) P(W,) P(W ) Escarca Holmes ccidente Sustitución de la evidencia Eliminamos E Normalizamos e 0.7 e 0.8 0.2 E e 0.3 E e 0. 0.9 E g P(E) E (W) E P(W E) g E (W) w w w w e 0.8 0. 0.2 0.9 0.7 x 0.8 x 0.8+0.3 x 0. x 0. 0.45 0.7 x 0.2 x 0.8+0.3 x 0.9 x 0. 0.39 P(E)P(W E)P( E) w w 0.77 0.23 W P(H E) e Normalizamos H

Eliminación de variables: Ejemplo sin evidencia La red de la Escarca Watson ccidente Escarca Calculemos P(W) Factorización: Holmes ccidente P(E)P(W E)P(H E) Eliminamos H P(E)P(W E)g H (E) P(E) w e 0.7 e 0.8 0.2 E e 0.3 E e 0. 0.9 E H H (E) P(H E) P(W E) w e 0.8 + 0.2.0 g E e 0. + 0.9.0 W g H (E) P(H E) e e 0.8 0. H 0.2 0.9 P(W) Eliminamos E g E (W) gh(e)p(e)p(w E) E w w.0 x 0.7 x 0.8+.0 x 0.3 x 0. 0.59.0 x 0.7 x 0.2+.0 x 0.3 x 0.9 0.4

Un Ejemplo más Complejo La ed sia Visita a asia Fumador Tuberculosis Cancer Pulmón normalidad en peco Bronquitis ayos X Disnea* *DisneaDificultad para respirar

Eliminación de variables: Ejemplo con evidencia Ejemplo: calcular P(C v,f,d) Como siempre calculamos P(C,v,f,d) y normalizamos Escribimos la factorización: P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) y sustituimos la evidencia Vcierto,Fcierto,Dcierto P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( )P(d,B) tenemos por tanto que eliminar:,t,,b (puesto que V,F,D están fijos) Proceso de eliminación: P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( Eliminamos )P(d,B) P(v)P(f) ()P(T v)p(c f)p(b f)p( T,C)P(d,B) () P( ) T V C D F B

Eliminación de variables: Ejemplo con evidencia Proceso de eliminación: continuación Eliminando: T,,B T V C D F B P(v)P(f)P(T v)p(c f)p(b f)p( T,C)P( )P(d,B) P(v)P(f) ()P(T v)p(c f)p(b f)p( T,C)P(d,B) Eliminamos T T T (,C) P(T v)p( T,C) P(v)P(f) () T (,C)P(C f)p(b f)p(d,b) P(v)P(f) Eliminamos (C,B)P(C f)p(b f) Eliminamos B Normalización (C,B) r()t (,C)P(d,B) b (C) B(C,B)P(B f) B P(v)P(f)P(C f)b (C) P(C v,f,d)

Eliminación de variables: Ejemplo sin evidencia Ejemplo: Calcular P(D) Eliminaremos: V,F,,T,C,,B plicando el teorema de factorización: P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) Eliminamos V V (T)P(F)P(C F)P(B F)P( T,C)P( )P(D,B) V V T (T) (T) F F (, C) Eliminamos F (C,B)P( T,C)P( )P(D,B) (C,B) F (C,B) Eliminamos ()P( T,C)P(D,B) Eliminamos T ()P(D,B) F F (C,B) P(C F)P(B F)P(F ) V V (T) P(T V)P(V) T V C D () P( ) T (,C) v(t)p( T,C) T F B

Eliminación de variables: Ejemplo con evidencia Ejemplo: Calcular P(D) Eliminaremos V,F,,T,C,,B Proceso de eliminación (continuación) P(V)P(F)P(T V)P(C F)P(B F)P( T,C)P( )P(D,B) V (T)P(F)P(C F)P(B F)P( T,C)P( )P(D,B) (T) (C,B)P( T,C)P( )P(D,B) V V T C (T) F (, C) (,B) (D,B) P(D) F (C,B) F (C,B) Eliminamos C ()P( T,C)P(D,B) ()P(D Eliminamos Eliminamos B ()P(D,B),B) (D,B) C(,B) ()P(D,B) P(D) T V C (,B) T(, C)F (C,B) C B C D F B (B,D)

Complejidad del lgoritmo de Eliminación Estudiemos la complejidad: En cada paso se calcula: X (Y, KY Entonces: k ) x ' X (X,Y, KY (X,Y, KY f (X,Y Para cada valor de Y, Y 2,..Y k acemos Val(X) sumas, por tanto el número total de sumas es Val(X) Val(Y )... Val(Y k ) Para cada valor de X,Y, Y 2,..Y k acemos m multiplicaciones, por tanto el número total de de multiplicaciones es de m Val(X) Val(Y )... Val(Y k ) Por tanto: la complejidad es exponencial en el número de variables de los factores intermedios k ), Es necesario buscar buenos ordenes de eliminación de variables para reducir el tamaño de los factores intermedios. Sin embargo, el problema de buscar la ordenación óptima tiene también complejidad exponencial, por lo que se emplean diversas eurísticas. ' X k ) m i i i, KY il i )

esumen Las redes bayesianas permiten modelar la incertidumbre de forma probabilística incluso cuando el número de variables es elevado. Se basan en utilizar la noción de independencia para generar una representación compacta y modular de la distribución probabilística de las variables. La tarea fundamental en edes Bayesianas es la inferencia: conocer la distribución de unas variables cuando se observan otras. El problema general de inferencia en edes Bayesianas es NP-duro. Existen diversos algoritmos para resolver el problema de inferencia: exactos y aproximados.