Inteligencia Artificial Incertidumbre

Documentos relacionados
CI5438. Inteligencia Artificial II Clase 9: Incertidumbre Cap 13 Ru. Cap 13 Russel & Norvig

Incertidumbre y conocimiento

Inteligencia Artificial II

Incertidumbre. Dr. Jesús Antonio González Bernal

Tema 7: Razonamiento con incertidumbre

Repaso de funciones exponenciales y logarítmicas. Review of exponential and logarithmic functions

Razonamiento probabilístico y Redes Bayesianas

Redes Bayesianas. Manuel Valenzuela-Rendón. Centro de Sistemas Inteligentes Tecnológico de Monterrey, Campus Monterrey.

Inteligencia Artificial Razonamiento probabilístico

Clase 1: Simulación de variables aleatorias *

UNIT 2 DIVISIBILITY 1.- MULTIPLES AND FACTORS Concept of multiple Concept of factor

Pregunta 1 Suponga que una muestra de 35 observaciones es obtenida de una población con media y varianza. Entonces la se calcula como.

Razonamiento probabilístico y Redes Bayesianas

74 Prime Time. conjetura Suposición acerca de un patrón o relación, basada en observaciones.

CONTROLADORA PARA PIXELS CONPIX

El Jardín de la Memoria (El adepto de la Reina nº 2) (Spanish Edition)

Cómo leer La Ciencia para Todos. Géneros discursivos (Spanish Edition)

Adjectives; Demonstrative

Soluciones Olimpiadas Matemáticas del Nivel Superior Programa de Matemática, DEPR Abril 2015

Level 1 Spanish, 2016

Module 3: Multi-Digit Multiplication and Division (Trimester 2: 43 Days)

Cantemos Las Posadas - Contiene Villancicos, Cánticos para Pedir la Piñata, Letanía y todo para la Temporada Navideña. (Corazón Renovado)

Matemáticas Muestra Cuadernillo de Examen

Los números. 0 cero 1 uno / un 2 dos 3 tres 4 cuatro. 6 seis 7 siete 8 ocho 9 nueve 10 diez 5 cinco

Oraciones poderosas, resultados sobrenaturales: Cómo orar como Moisés, Elías, Ana, y otros héroes de la Biblia (Spanish Edition)

Cómo Enamorar a Alguien: Basado en la Psicología del Amor (Colección de Psicología del Amor de 2KnowMySelf y AdoroLeer) (Spanish Edition)

Funciones con Valores Escalares: Geometría, Límites y Continuidad

Cómo Enamorar a Alguien: Basado en la Psicología del Amor (Colección de Psicología del Amor de 2KnowMySelf y AdoroLeer) (Spanish Edition)

IE12_ CONSOLIDACIÓN Y DESARROLLO DE NUEVAS TÉCNICAS DE EVALUACIÓN INTENSIVAS ON-LINE YA IMPLEMENTADAS POR EL GIE E4

Hipótesis. Teoria del Aprendizaje Computacional

El Sentido de las Escripturas: Verdades Profundas de la Biblia Clarificadas Por un Curso de Milagros (Spanish Edition)

Mónica Pérez de las Heras. Click here if your download doesn"t start automatically

ELE530: Estimation. Fernando Pérez-Cruz. Princeton University and University Carlos III in Madrid. March 25 th, 2009

Fun with infinitives

Android Studio Curso Basico: Aprenda paso a paso (Spanish Edition)

Francisca, yo te amo (Viento Joven) (Spanish Edition)

Using Gustar to Express Likes and Dislikes

Programación lineal Optimización de procesos químicos DIQUIMA-ETSII

Enfermos de Poder: La Salud de los Presidentes y Sus Consecuencias (Spanish Edition)

FUNCIONES: Repaso Functions: A Review

El lenguaje de la pasion (Spanish Edition)

Level 1 Spanish, 2013

Los nombres originales de los territorios, sitios y accidentes geograficos de Colombia (Spanish Edition)

Curso de Inteligencia Artificial

UNIT 9.- INTRODUCTION TO HYPOTHESIS TESTING.

statutes, etc. Costa Rica. Laws Click here if your download doesn"t start automatically

Might. Área Lectura y Escritura. In order to understand the use of the modal verb might we will check some examples:

GRADE 3 MCCSC VOCABULARY. Marking Period 3

Alena Markertz. Click here if your download doesn"t start automatically

7 Secretos para ser millonario (Spanish Edition)

Sabes cuanto deja tu negocio?: Completa guia Pymes y emprendedores (Spanish Edition)

FORMAT B1 SPEAKING EXAM

2) What information can we readily get from a line in slope intercept form? When is it helpful to have an equation in standard form?

Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre.

Spanish 4 Semester 2 Grammar Review

Level 1 Spanish, 2014

Cómo crear una mente: El secreto del pensamiento humano (Spanish Edition)

Sesión 2: Teoría de Probabilidad

Los miserables de Victor Hugo (Guía de lectura): Resumen y análsis completo (Spanish Edition)

Una vida con propósito - Devocional para niños (Spanish Edition)

Synergy Spanish Solutions. Día de San Valentín Audio Lessons

Unit 8: Maximum Likelihood for Location-Scale Distributions

Uncertainty Systems Ia-4002 Fuzzy sets and basic operations

Vivir en la luz., libro de trabajo

Operaciones y procesos en los servicios de bar y cafeteria (Spanish Edition)

El sistema juridico: Introduccion al derecho (Coleccion de textos juridicos de la Pontificia Universidad Catolica del Peru) (Spanish Edition)

Algoritmos y Estructuras de Datos

BEGINNING BAND PRACTICE JOURNAL #3 Also available online

100 mitos de la historia de México 2 (Spanish Edition)

ASI HABLO ZARATUSTRA UN LIBRO PARA TODOS Y PARA NADIE SPANISH EDITION

Matemáticas Muestra Cuadernillo de Examen

PROBLEMAS PARA LA CLASE DEL 20 DE FEBRERO DEL 2008

b. Cuál es la razón principal por la que escogió esta respuesta?

Grado 3 Vocabulario/ Representación Vocabulario Descripción Representación

Programación lineal. Optimización de procesos químicos

ENERGíA DE FUTURO: LA SALUD EN TUS MANOS CON LA ENERGíA BI QUIX D'FU (SPANISH EDITION) BY SALVADOR LIZANA BARBA

París en el siglo XX (Spanish Edition)

Teoría general del proyecto. Vol. I: Dirección de proyectos (Síntesis ingeniería. Ingeniería industrial) (Spanish Edition)

Robert T. Kiyosaki. Click here if your download doesn"t start automatically

La dieta de la muerte: soy anoréxica y esta es mi historia (Spanish Edition)

Cuando las palabras duelen: La sabia respuesta del líder ante la critica (Spanish Edition)

x + y + z = 1 x + 2y + mz = 2 x + 4y + m 2 z = k (a) We use Gausian elimination to transform the augmented matrix of the system

Preguntas Capítulo Entero. 3. Crear un ejemplo debiendo dinero para comparar dos números negativos.

Senales de Los Apostoles: Observaciones Sobre El Pentecostalismo Antiguo y Nuevo / Signs of the Apostles (Spanish Edition)

Unit 8: Maximum Likelihood for Location-Scale Distributions. Ramón V. León

Matemáticas Discretas Probabilidad

Derechos reservados AVL, JADD, AJBG, queda prohibida su reproducción total y/o parcial.

Tendencias educativas oficiales en México

Métodos Estadísticos de la Ingeniería Tema 5: Cálculo de Probabilidades Grupo B

Carrera: INGENIERIA ZOOTECNISTA E S T A D I S T I C A

A ser feliz tambien se aprende (Spanish Edition)

CÁLCULO DE PROBABILIDADES

Homilética Bíblica: Naturaleza y análisis de la predicación (Spanish Edition)

Historia del Monasterio de San Benito el Real de Valladolid (Spanish Edition)

Bienestar docente y pensamiento emocional (Educación emocional) (Spanish Edition)

A limit theorem for random games

Deterministic Finite Automata And Regular Languages

Transcripción:

Inteligencia Artificial Incertidumbre Primavera 2007 profesor: Luigi Ceccaroni

Comportamiento bajo incertidumbre Casi nunca se pueden hacer las asignaciones epistemológicas de que las proposiciones son ciertas, falsas o desconocidas. En la práctica, los programas tienen que saber actuar en situaciones de incertidumbre: usando una teoría del mundo simple pero errónea, que no tiene en cuenta la incertidumbre y que funciona la mayoría de las veces; manejando el conocimiento incierto y la utilidad de manera racional: Lo correcto a realizar (la decisión racional) depende tanto de la importancia relativa de los distintos objetivos como de la verosimilitud y el grado con el cual se conseguirán.

Manipulación del conocimiento incierto Ejemplo de regla para diagnóstico usando lógica de predicados de primer orden: p Síntoma(p, Dolor-de-muelas) Enfermedad(p, Caries) Esta regla es errónea y, para hacerla cierta, hay que añadir una lista de causas: p Síntoma(p, Dolor-de-muelas) Enfermedad(p, Caries) Enfermedad(p, Dolor-de-muelas) Enfermedad(p, Absceso) Usar la lógica de predicados de primer orden en un dominio como el diagnóstico falla por tres razones principales: 1. Pereza: poner en una lista el conjunto completo de antecedentes y consecuentes que se necesitan para asegurar una regla sin excepciones tiene demasiado trabajo. 2. Ignorancia teórica: la ciencia no tiene una teoría completa para el dominio. 3. Ignorancia práctica: incluso si se conocen todas las reglas, pudiera haber incertidumbre sobre un paciente particular, ya sea porque no se hayan realizado todos los chequeos necesarios o porque no puedan realizarse.

Manipulación del conocimiento incierto En realidad, la conexión entre dolor de muelas y caries no es exactamente una consecuencia lógica en ninguna dirección. En dominios sentenciosos, el conocimiento de un agente proporciona sólo un grado de creencia en las oraciones. La herramienta para tratar con grados de creencia es la teoría de la probabilidad, que asigna a cada oración un grado numérico entre 0 y 1. La probabilidad proporciona una manera de resumir la incertidumbre que se deriva de nuestra pereza e ignorancia.

Manipulación del conocimiento incierto La creencia puede provenir de datos estadísticos o de reglas generales o de una combinación de fuentes de indicios. Asignar probabilidad 0 a una oración determinada corresponde a una creencia inequívoca de que la oración es falsa. Asignar una probabilidad de 1 corresponde a una creencia rotunda de que la oración es cierta. Las probabilidades entre 0 y 1 corresponden a grados intermedios de creencia en la veracidad de la oración.

Manipulación del conocimiento incierto La oración en sí misma es de hecho o verdadera o falsa. El grado de creencia es diferente del grado de veracidad. Una probabilidad de 0.8 no significa 80% verdadero sino una expectativa muy fuerte (del 80%) de que algo sea verdadero. La teoría de la probabilidad cumple la misma obligación ontológica que la lógica: los hechos del mundo o son verdaderos o no. Los grados de veracidad son la materia de la lógica borrosa.

Manipulación del conocimiento incierto En lógica, una oración tal como El paciente tiene una caries es verdadera o falsa. En teoría de la probabilidad, la oración La probabilidad de que el paciente tiene una caries es 0.8 hace referencia a creencias de un agente, no directamente al mundo. Estas creencias dependen de las percepciones que el agente ha recibido hasta el momento. Estas percepciones constituyen la evidencia sobre la que se basan las probabilidades. Por ejemplo: Un agente saca una carta de un mazo barajado. Antes de mirar la carta, el agente asignaría una probabilidad de 1/52 de que se trata del as de picas. Después de mirar la carta, la probabilidad para la misma proposición debería ser 0 o 1.

Manipulación del conocimiento incierto Una asignación de probabilidad a una proposición es análogo a decir si una oración lógica determinada está producida por la base de conocimiento, más que si es o no cierta. Todas las oraciones deben así indicar la evidencia con respecto a la cual se está calculando la probabilidad. Cuando un agente recibe nuevas percepciones/evidencias, sus valoraciones de probabilidad se actualizan. Antes de que la evidencia se obtenga, se habla de probabilidad a priori o incondicional. Después de obtener la evidencia, se habla de probabilidad a posteriori o condicional.

Notación básica con probabilidades Proposiciones Los grados de creencia se aplican siempre a las proposiciones, afirmaciones de que tal o cual es el caso. El elemento básico del lenguaje es la variable aleatoria, que puede pensarse como algo que se refiere a una parte del mundo cuyo estado es desconocido inicialmente. Por ejemplo, Caries podría referirse a si mi muela del juicio inferior izquierda tiene una caries. Cada variable aleatoria tiene un dominio de posibles valores que puede tomar. 9

Proposiciones Como con las variables PSR, las variables aleatorias (VAs) están típicamente divididas en tres clases, dependiendo del tipo de dominio: Las VAs booleanas, tal como Caries, tienen el dominio <cierto, falso>. Las VAs discretas, que incluyen las VAs booleanas como un caso especial, toman valores en un dominio contable. Las VAs continuas toman sus valores de los números reales. 10

Sucesos atómicos Un suceso atómico es una especificación completa del estado del mundo. Es la asignación de valores particulares de todas las variables que componen el mundo. Ejemplo: Si mi mundo consta sólo de las variables booleanas Caries y Dolor-de-muelas, entonces hay exactamente cuatro sucesos atómicos. La proposición Caries = falso Dolor-de-muelas = cierto es uno de tales sucesos. 11

Probabilidad a priori La probabilidad a priori o incondicional asociada a una proposición a es el grado de creencia que se le otorga en ausencia de cualquier otra información. Se escribe como P(a). Ejemplo: P(Caries = cierto) = 0.1 o P(caries) = 0.1 Es importante recordar que P(a) puede usarse sólo cuando no hay otra información. 12

Probabilidad a priori Para hablar de las probabilidades de todos los valores posibles de una VA: Usaremos una expresión como P(Tiempo), que denota un vector de valores que corresponden a las probabilidades de cada estado individual del tiempo. P(Tiempo) = <0.7, 0.2, 0.08, 0.02> (normalizado, i.e., suma 1) (El dominio de Tiempo es <soleado, lluvioso, nuboso, nevado>) Esta expresión define una distribución de probabilidad a priori para la VA Tiempo. 13

Probabilidad a priori Expresiones como P(Tiempo, Caries) se usan para indicar las probabilidades de todas las combinaciones de los valores de un conjunto de VAs. En este caso se hablaría de distribución de probabilidad conjunta de Tiempo y Caries. Todas las preguntas sobre un dominio se pueden contestar con la distribución conjunta. 14

Probabilidad a priori La distribución de probabilidad conjunta para un conjunto de VAs proporciona la probabilidad de casa suceso atómico que involucre esas VAs. P(Tiempo, Caries) = una matriz 4 2 de valores de probabilidad: Tiempo = soleado lluvioso nuboso nevado Caries = cierto 0.144 0.02 0.016 0.02 Caries = falso 0.576 0.08 0.064 0.08

Los axiomas de la probabilidad 0 P(a) 1 P(cierto) = 1 P(falso) = 0 P(a b) = P(a) + P(b) - P(a b) 16

Conditional probability Conditional or posterior probabilities: e.g., P(cavity toothache) = 0.8 i.e., given that toothache is all I know (Notation for conditional distributions: P(Cavity Toothache) = 2-element vector of 2-element vectors) If we know more, e.g., cavity is also given, then we have P(cavity toothache, cavity) = 1 (trivial) New evidence may be irrelevant, allowing simplification, e.g., P(cavity toothache, sunny) = P(cavity toothache) = 0.8 This kind of inference, sanctioned by domain knowledge, is crucial.

Conditional probability Definition of conditional probability: P(a b) = P(a b) / P(b) if P(b) > 0 Product rule gives an alternative formulation: P(a b) = P(a b) P(b) = P(b a) P(a) A general version holds for whole distributions, e.g., P(Weather,Cavity) = P(Weather Cavity) P(Cavity) (View as a set of 4 2 equations, not matrix multiplication) Chain rule is derived by successive application of product rule: P(X 1,,X n ) = P(X 1,...,X n-1 ) P(X n X 1,...,X n-1 ) = P(X 1,...,X n-2 ) P(X n-1 X 1,...,X n-2 ) P(X n X 1,...,X n-1 ) = = π i= 1 n P(X i X 1,,X i-1 )

Inference by enumeration A simple method for probabilistic inference uses observed evidence for computation of posterior probabilities. Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω φ P(ω)

Inference by enumeration Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω φ P(ω) P(toothache) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2

Inference by enumeration Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω φ P(ω) P(toothache cavity) = 0.108 + 0.012 + 0.016 + 0.064 + 0.072 + 0.008 = 0.28

Inference by enumeration Start with the joint probability distribution: Conditional probabilities: P( cavity toothache) = P( cavity toothache) P(toothache) = 0.016+0.064 0.108 + 0.012 + 0.016 + 0.064 = 0.4

Normalization Denominator can be viewed as a normalization constant α P(Cavity toothache) = α, P(Cavity,toothache) = α, [P(Cavity,toothache,catch) + P(Cavity,toothache, catch)] = α, [<0.108,0.016> + <0.012,0.064>] = α, <0.12,0.08> = <0.6,0.4> General idea: compute distribution on query variable by fixing evidence variables and summing over hidden variables

Inference by enumeration Typically, we are interested in: the posterior joint distribution of the query variables X given specific values e for the evidence variables E. Let the hidden variables be Y Then the required summation of joint entries is done by summing out the hidden variables: P(X E = e) = αp(x,e = e) = ασ y P(X,E = e, Y = y) X, E and Y together exhaust the set of random variables. Obvious problems: Worst-case time complexity O(d n ) where d is the largest arity and n is the number of variables Space complexity O(d n ) to store the joint distribution How to define the probabilities for O(d n ) entries, when variables can be millions?

Independence A and B are independent iff P(A B) = P(A) or P(B A) = P(B) or P(A, B) = P(A) P(B) P(Toothache, Catch, Cavity, Weather) = P(Toothache, Catch, Cavity) P(Weather) 32 entries reduced to 12; for n independent biased coins, O(2 n ) O (n) Absolute independence powerful but rare Dentistry is a large field with hundreds of variables, none of which are independent. What to do?

Conditional independence P(Toothache, Cavity, Catch) has 2 3 1 (because the numbers must sum to 1) = 7 independent entries If I have a cavity, the probability that the probe catches in it doesn't depend on whether I have a toothache: P(catch toothache, cavity) = P(catch cavity) The same independence holds if I haven't got a cavity: P(catch toothache, cavity) = P(catch cavity) Catch is conditionally independent of Toothache given Cavity: P(Catch Toothache,Cavity) = P(Catch Cavity) Equivalent statements: P(Toothache Catch, Cavity) = P(Toothache Cavity) P(Toothache, Catch Cavity) = P(Toothache Cavity) P(Catch Cavity)

Conditional independence Full joint distribution using chain rule: P(Toothache, Catch, Cavity) = P(Toothache Catch, Cavity) P(Catch, Cavity) = P(Toothache Catch, Cavity) P(Catch Cavity) P(Cavity) = P(Toothache Cavity) P(Catch Cavity) P(Cavity) I.e., 2 + 2 + 1 = 5 independent numbers In most cases, the use of conditional independence reduces the size of the representation of the joint distribution from exponential in n to linear in n. Conditional independence is our most basic and robust form of knowledge about uncertain environments.

Bayes' Rule Product rule P(a b) = P(a b) P(b) = P(b a) P(a) Bayes' rule: P(a b) = P(b a) P(a) / P(b) or in distribution form P(Y X) = P(X Y) P(Y) / P(X) = αp(x Y) P(Y) Useful for assessing diagnostic probability from causal probability: P(Cause Effect) = P(Effect Cause) P(Cause) / P(Effect) E.g., let M be meningitis, S be stiff neck: P(m s) = P(s m) P(m) / P(s) = 0.8 0.0001 / 0.1 = 0.0008 Note: posterior probability of meningitis still very small!

Bayes' Rule and conditional independence P(Cavity toothache catch) = αp(toothache catch Cavity) P(Cavity) = αp(toothache Cavity) P(catch Cavity) P(Cavity) This is an example of a naïve Bayes model: P(Cause,Effect 1,,Effect n ) = P(Cause) π i P(Effect i Cause) Total number of parameters (the size of the representation) is linear in n.

Summary Probability is a rigorous formalism for uncertain knowledge. Joint probability distribution specifies probability of every atomic event. Queries can be answered by summing over atomic events. For nontrivial domains, we must find a way to reduce the joint size. Independence and conditional independence provide the tools.