Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre.

Documentos relacionados
Sistemas Expertos basados en probabilidad (2010/2011)

Unidad Temática 2 Probabilidad

Probabilidad es una manera de indicar la posibilidad de ocurrencia de un evento futuro

Métodos Estadísticos Capítulo II

CAPÍTULO 1. Axioma 1 (Normalización): p(m) = 1.

CAPÍTULO 1. INTRODUCCIÓN

Unidad II: Fundamentos de la teoría de probabilidad

Probabilidad y Estadística

ALGEBRA y ALGEBRA LINEAL. Primer Semestre CAPITULO I LOGICA Y CONJUNTOS.

Teoría de la Probabilidad Tema 2: Teorema de Extensión

Estadís3ca y Métodos Numéricos Tema 2. Probabilidad

Introducción a la Probabilidad

Teoría de Probabilidad

TEMA 2 EXPERIMENTOS ALEATORIOS Y CÁLCULO DE PROBABILIDADES

Tema 3: Cálculo de Probabilidades Unidad 1: Introducción y Concepto

Teoría de probabilidades

4.12 Ciertos teoremas fundamentales del cálculo de probabilidades

Álgebra Lineal VII: Independencia Lineal.

Teorema de Bayes. mientras que B tiene una tasa de defectos del 4%.

Estadística Aplicada

Tema 4. Probabilidad Condicionada

Tema 3: Cálculo de Probabilidades. Métodos Estadísticos

Dr. Francisco Javier Tapia Moreno. Octubre 14 de 2015.

Análisis de Datos y Métodos Cuantitativos para la Toma de Decisiones 7ma versión MGM

La función, definida para toda, es periódica si existe un número positivo tal que

UNIVERSIDAD DE COSTA RICA XS0111 Estadística Introductoria I Prof. Olman Ramírez Moreira

Tema 6: Teoría Semántica

Probabilidad y Estadística

Formulación del problema de la ruta más corta en programación lineal

3.Si A y B son incompatibles, es decir A B = entonces:

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA 5)

Inducción Matemática Conjuntos Funciones. Matemática Discreta. Agustín G. Bonifacio UNSL. Repaso de Inducción, Conjuntos y Funciones

Probabilidad 2º curso de Bachillerato Ciencias Sociales

ESTADÍSTICA INFERENCIAL

PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Son los experimentos de los que podemos predecir el resultado antes de que se realicen.

Conjuntos. () April 4, / 32

y esto para qué sirve?

Tema 8: Aplicaciones. Ecuaciones en. diferencias: modelos en tiempo discreto. 1 Modelo de crecimiento exponencial. 2 Sucesión de Fibonacci

Ejercicios sobre probabilidades y entropías

Es aquel formado por todos los elementos involucrados en el problema.

3.Si A y B son incompatibles, es decir A B = entonces:

CAPÍTULO 2. SOLUCIÓN DE ECUACIONES DE UNA VARIABLE

1. Introducción Experimento aleatorio. Sucesos y espacio muestral 2

Tema 5 Algunas distribuciones importantes

TEMA 3: Probabilidad. Modelos. Probabilidad

Estadística y sus aplicaciones en Ciencias Sociales 1. Introducción a la probabilidad

Semana02[1/23] Conjuntos. 9 de marzo de Conjuntos

Son los experimentos de los que podemos predecir el resultado antes de que se realicen.

Son los experimentos de los que podemos predecir el resultado antes de que se realicen.

520142: ALGEBRA y ALGEBRA LINEAL

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

Teoría de la decisión

Unidad Temática 3: Probabilidad y Variables Aleatorias

BLOQUE 4. CÁLCULO DIFERENCIAL DE FUNCIONES REALES DE UNA VARIABLE

Tema 2. Introducción a la Estadística Bayesiana

Límites y continuidad. Cálculo 1

Conceptos. Experimento Aleatorio: Es un fenómeno en el que interviene el azar, es decir no se puede predecir el resultado.

Tema 3: Cálculo de Probabilidades Unidad 2: Variables Aleatorias

Límites de funciones de varias variables.

John Venn Matemático y filósofo británico creador de los diagramas de Venn

CÁLCULO DE PROBABILIDADES

Introducción a la Teoría de la Información

Cálculo I (Grado en Ingeniería Informática) Problemas adicionales resueltos

Probabilidad Condicional

Ms. C. Marco Vinicio Rodríguez

Unidad 1: Probabilidad

Conceptos Básicos de Inferencia

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Asignaturas antecedentes y subsecuentes

Tema 4 Probabilidad condicionada: teoremas básicos. Independencia de sucesos

Tema 3: Sistemas de ecuaciones lineales

Coordinación de Matemática I (MAT021) 1 er Semestre de 2013 Semana 1: Lunes 11 Viernes 16 de Marzo. Contenidos

2. Probabilidad y. variable aleatoria. Curso Estadística Probabilidad. Probabilidad y variable aleatoria

Probabilidad. Generalidades

Variables aleatorias

Definición axiomática de probabilidad

(DOCUMENTO DE TRABAJO ELABORADO A PARTIR DE RECURSOS ENCONTRADOS EN LA WEB: AULAFACIL 1 Y VADENUMEROS 2 )

Probabilidad y Estadística

Tema 2: Espacios Vectoriales

Probabilidad 3/1/2010. EVSC 5020: Bioestadística. Qué es probabilidad? Prof. Rafael R. Canales-Pastrana. EVSC 5020: Bioestadística

Tema 9: Contraste de hipótesis.

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Tema 9: Probabilidad: Definiciones

Probabilidad. Si lanzamos una moneda no sabemos de antemano si saldrá cara o cruz. Teoría de probabilidades

Unidad 2: Ecuaciones, inecuaciones y sistemas.

Espacios vectoriales

Una proposición es una afirmación que debe ser cierta o falsa (aunque no lo sepamos).

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

MMAF: Espacios normados y espacios de Banach

Axiomática de la Teoría de Probabilidades

Autovalores y autovectores Diagonalización y formas canónicas

CONJUNTOS Y SISTEMAS NUMÉRICOS

Tiempo completo Tiempo parcial Total Mujeres Hombres Total

Teoremas de Convergencia

2.3 PROPIEDADES DE LA PROBABILIDAD

Algebra lineal y conjuntos convexos

CAPÍTULO IV CONCEPTOS BÁSICOS DE PROBABILIDAD

Espacios Topológicos 1. Punto de Acumulación. Al conjunto de puntos de acumulación de A se le denomina el conjunto derivado de A (A a Notación).

Ejercicios de redes bayesianas

Transcripción:

SISTEMAS EXPERTOS BASADOS EN PROBABILIDAD En las aplicaciones, la incertidumbre es lo común y no la excepción. Por ejemplo, una pregunta típica en diagnóstico médico es: dado que el paciente presenta unos síntomas, cuál de las enfermedades posibles es la que tiene el paciente? Esta situación implica incertidumbre puesto que: Los hechos o datos pueden no ser conocidos con exactitud. Por ejemplo, un paciente puede no estar seguro de haber tenido fiebre. Hay incertidumbre en la información asociada a cada paciente (subjetividad, imprecisión, errores, datos ausentes, etc.). El conocimiento no es determinista. Las relaciones entre las enfermedades y los síntomas no son deterministas, puesto que un mismo conjunto de síntomas puede estar asociado a diferentes enfermedades. Por ello, son necesarios los sistemas expertos que traten situaciones de incertidumbre. 1

SISTEMAS EXPERTOS BASADOS EN PROBABILIDAD Inicialmente, se eligió la probabilidad como medida para tratar la incertidumbre, pero se encontraron problemas, debidos al uso incorrecto de las hipótesis de independencia, utilizadas para reducir la complejidad. Consecuentemente, surgieron medidas alternativas a la probabilidad (factores de certeza, credibilidades, plausibilidades, necesidades o posibilidades). Lindley La única descripción satisfactoria de la incertidumbre es la probabilidad. Esto quiere decir que toda afirmación incierta debe estar en forma de una probabilidad, que varias incertidumbres deben ser combinadas usando las reglas de la probabilidad, y que el cálculo de probabilidades es adecuado para manejar situaciones que implican incertidumbre. En particular, las descripciones alternativas de la incertidumbre son innecesarias. 2

PROBABILIDAD Definición 1 Medida de Probabilidad. Una función p que proyecta los subconjuntos A S en el intervalo [0, 1] se llama medida de probabilidad si satisface los siguientes axiomas: Axioma 1 (Normalización): p(s) = 1. Axioma 2 (Aditividad): Para cualquier sucesión infinita, A 1, A 2,..., de subconjuntos disjuntos de S, se cumple la igualdad p i=1 A i = i=1 p (A i). (1) El Axioma 1 establece que, independientemente de nuestro grado de certeza, ocurrirá un elemento del conjunto universal S (es decir, el conjunto S es exhaustivo). El Axioma 2 es una fórmula de agregación que se usa para calcular la probabilidad de la unión de subconjuntos disjuntos. Establece que la incertidumbre de un cierto subconjunto es la suma de las incertidumbres de sus partes (disjuntas). Nótese que esta propiedad también se cumple para sucesiones finitas. 3

PROPIEDADES DE LA PROBABILIDAD Propiedad 1 (Normalización): p(φ) = 0. Propiedad 2 (Monotonicidad): Si A B S, entonces p(a) p(b). Propiedad 3 (Continuidad-Consistencia): Para toda sucesión creciente A 1 A 2... o decreciente A 1 A 2... de subconjuntos de S se tiene lim p(a i) = p(lim A i ). i i Propiedad 4(Inclusión-Exclusión) : p(a B) = p(a) + p(b) p(a B). (2) La Propiedad 1 establece que la evidencia asociada a una ausencia completa de información es cero. La Propiedad 2 muestra que la evidencia de la pertenencia de un elemento a un conjunto debe ser al menos la evidencia de cualquiera de sus subconjuntos. La Propiedad 3 puede ser considerada como una propiedad de continuidad. La Propiedad 4 establece que p(a), p(b), p(a B) y p(a B) están relacionadas. 4

PROBABILIDAD CONDICIONAL E INDEPENDENCIA Definición 2 Probabilidad condicional. La probabilidad condicional de X dado Y = y viene dada por p(x = x Y = y) = p(x y) = p(x,y) p(y). (3) Definición 3 Independencia de dos variables. Se dice que X es independiente de Y si y solamente si p(x y) = p(x), (4) para todos los valores posibles x e y de X e Y ; en otro caso, X se dice dependiente de Y. Si X es independiente de Y, resulta p(x,y)/p(y) = p(x), que implica p(x,y) = p(x)p(y). (5) que es una definición alternativa de independencia, pero menos intuitiva. 5

DEPENDENCIA E INDEPENDENCIA CONDICIONAL Definición 4 Dependencia e independencia condicional. Sean X, Y y Z tres conjuntos disjuntos, entonces X se dice condicionalmente independiente de Y dado Z, si y sólo si p(x z,y) = p(x z), (6) En otro caso X e Y se dicen condicionalmente dependientes dado Z. Cuando X e Y son condicionalmente independientes dado Z, se escribe I(X, Y Z). Similarmente, cuando X e Y son condicionalmente dependientes dado Z, se escribe D(X,Y Z). La definición de independencia condicional lleva en sí la idea de que una vez que es conocida Z, el conocimiento de Y no altera la probabilidad de X. Es decir, si Z ya es conocida, el conocimiento de Y no añade información alguna sobre X. Una definición alternativa, pero equivalente, de independencia condicional es p(x, y z) = p(x z)p(y z). (7) 6

TEOREMA DE BAYES El teorema de Bayes afirma que: p(e i s 1,...,s k ) = p(s 1,...,s k e i )p(e i ) e i p(s 1,...,s k e i )p(e i ). (8) La probabilidad p(e i ) se llama probabilidad marginal, prior, a priori o inicial de la enfermedad E = e i puesto que puede ser obtenida antes de conocer los síntomas. La probabilidad p(e i s 1,...,s k ) es la probabilidad posterior, a posteriori o condicional de la enfermedad E = e i, puesto que se calcula después de conocer los síntomas S 1 = s 1,...,S k = s k. La probabilidad p(s 1,...,s k e i ) se conoce por el nombre de verosimilitud de que un paciente con la enfermedad E = e i tenga los síntomas S 1 = s 1,...,S k = s k. Por ello, se puede utilizar el teorema de Bayes para actualizar la probabilidad. 7

ADENOCARCINOMA GASTRICO Adenocarcinoma gástrico 10 25 Dolor 220 Pérdida peso 12 9 95 5 4 76 25 220 95 31 10 50 113 Vómitos Probabilidad a priori : 440 de 1,000 pacientes vomitan: p(v) = 0.44. Verosimilitud: El 50% de los pacientes con la enfermedad vomitan: p(v g) = 350/700 = 0.5, mientras que sólo 30% de los pacientes sin la enfermedad vomitan: p(v ḡ) = 0.3. Verosimilitud: El 45% de los pacientes con la enfermedad vomitan y pierden peso, p(v, p g) = card(v, p, g)/card(g) = 315/700 = 0.45, mientras que sólo el 12% de los que no tienen la enfermedad vomitan y pierden peso, p(v, p ḡ) 0.12. 8

ADENOCARCINOMA GASTRICO Síntomas: vómitos y pérdida de peso: Probabilidad inicial: p(g) = 0.7. Tras observar que V = v: p(g v) = = p(g)p(v g) p(g)p(v g) + p(ḡ)p(v ḡ) 0.7 0.5 (0.7 0.5) + (0.3 0.3) = 0.795. Tras observar que V = v y P = p: p(g v, p) = o también: p(g v, p) = = = p(g)p(v, p g) p(g)p(v, p g) + p(ḡ)p(v, p ḡ) 0.7 0.45 (0.7 0.45) + (0.3 0.12) = 0.9. p(g v)p(p g, v) p(g v)p(p g, v) + p(ḡ v)p(p ḡ, v) 0.795 0.9 (0.795 0.9) + (0.205 0.389) = 0.9, 9

TIPOS DE ERRORES En un caso de diagnóstico médico, por ejemplo, los posibles errores son: Error de Tipo I: Un paciente no tiene la enfermedad pero el doctor concluye que la tiene. Error de Tipo II: Un paciente tiene la enfermedad pero el doctor concluye que no. Decisión Estado de la naturaleza médica Sí Sí Decisión correcta No Decisión incorrecta (Tipo II) Decisión Estado de la naturaleza médica No Sí Decisión incorrecta (Tipo I) No Decisión correcta Las consecuencias de un error pueden ser mucho más graves que las consecuencias del otro. Por ejemplo, si la enfermedad sospechada es cáncer, se puede argüir que el error de Tipo II es más serio que el error de Tipo I. 10

REGLAS GENERALIZADAS Implicación fuerte (θ = 1): En la lógica clásica: Si A es cierta, entonces B es cierta, se puede decir que A implica B con probabilidad 1. Esto se ilustra en la Figura (a). Implicación débil (0 < θ < 1): La regla anterior puede ser vista en un sentido generalizado cuando A implica B sólo en algunas ocasiones. En este caso, se dice que A implica B con probabilidad p(b = cierto A = cierto) (Figura (b)). No implicación (θ = 0): El caso en que A no implica B puede considerarse como que A implica B con probabilidad 0. Esto se ilustra en la Figura (c). A B A B A B (a) p(b A) = 1 (b) 0 < p(b A) < 1 (c) p(b A) = 0 11

SINTOMAS Y ENFERMEDADES Gripe E1 Artritis E2 Tuberculosis E3 E5 Neumonía Adenoma E4 S1 Pérdida peso Vómitos S2 S3 Dolor 12

DIAGRAMA CONJUNTO SINTOMAS Y ENFERMEDADES Gripe E1 S1 Pérdida peso S2 Vómitos Artritis E2 E3 Tuberculosis S3 Dolor E5 Neumonía E4 Adenoma Enfermedad Síntomas Paciente E S 1 S 2 S 3 1 e 5 1 1 1 2 e 2 1 0 1 3 e 3 1 1 0 4 e 5 0 0 1 5 e 3 0 1 0 6 e 1 1 1 0 7 e 1 1 1 1 8 e 3 1 0 0 13

MODELOS El modelo más general posible se basa en especificar directamente la función de probabilidad conjunta; es decir, asignar un valor numérico (parámetro) a cada una de las posibles combinaciones de valores de las variables. Desgraciadamente, la especificación directa de la función de probabilidad conjunta implica un gran número de parámetros. Por tanto se usan los siguientes modelos simplificados: 1. MSD: El Modelo de Síntomas Dependientes. 2. MSI: El Modelo de Síntomas Independientes. 3. MSRI: El Modelo de Síntomas Relevantes Independientes. 4. MSRD: El Modelo de Síntomas Relevantes Dependientes. 14

MODELO DE SINTOMAS INDEPENDIENTES Debido a la complicación del modelo DSM, es necesario simplificar. Una simplificación posible consiste en suponer que los síntomas son condicionalmente independientes dada la enfermedad, lo que conduce al modelo ISM, en la que los síntomas no están ligados (independencia). d 1 d 2 dm S1 S 2 S 3 S 4 S n-1 S n Con esta hipótesis resulta: por lo que p(s 1,...,s n d i ) = n j=1 p(s j d i ). (9) p(d i s 1,...,s n )= p(d i)p(s 1,...,s n d i ) p(s 1,...,s n ) p(d i ) n p(s j d i ) j=1 = p(d i ) n p(s 1,...,s n ) p(s j d i ). (10) j=1 15

MODELO DE SINTOMAS INDEPENDIENTES La ecuación anterior muestra que la probabilidad inicial de la enfermedad d i es p(d i ), y que tras conocer el síntoma s j, es proporcional a p(s j d i ). Nótese que cada síntoma conduce a un nuevo factor y que p(s 1,...,s n ) es una constante de normalización, que no necesita calcularse. Los parámetros necesarios para la base de conocimiento del modelo ISM son Las probabilidades marginales p(d i ), para todos los valores posibles de la enfermedad D. Las probabilidades condicionales p(s j d i ), para todos los valores posibles de los síntomas S j y la enfermedad D. Por ello, con esta hipótesis se reduce considerablemente el número de parámetros. Con m enfermedades posibles y n síntomas binarios, el número total de parámetros es m(n + 1) 1. 16

MODELO DE SINTOMAS RELEVANTES INDEPENDIENTES Se puede conseguir una redución aún mayor del número de parámetros si para cada valor e i de la enfermedad E se seleccionan algunos síntomas relevantes S 1,...,S r y los restantes síntomas se suponen independientes para ese valor de E. d 1 d 2 d m S1 S 2 S 3 S 4 S n-1 S n Supóngase que S 1,...,S ri son relevantes para la enfermedad e i y que los restantes síntomas S ri +1,...,S n son irrelevantes. Se supone p j = p(s j e i ) idéntica para todos los síntomas que son irrelevantes para la enfermedad e i. Entonces: p(e i s 1,...,s n ) = p(e i)p(s 1,...,s n e i ) = = p(e i ) r i p(s j e i ) j=1 p(e i ) r i n p(s 1,...,s n ) p(s j e i ) j=r i +1 p(s 1,...,s n ) p(s j e i ) j=1 p(s 1,...,s n ) n p j j=r i +1 p(e i ) r i p(s n j e i ) p j, j=1 j=r i +1 17

NODELO DE SINTOMAS RELEVANTES DEPENDIENTES Es necesario almacenar las probabilidades siguientes en la base de conocimiento del MSRI: Las probabilidades marginales p(e i ), para todos los valores posibles de la enfermedad E. Las probabilidades condicionales p(s j e i ), para cada valor posible de E y cada uno de sus correspondientes síntomas relevantes. Las probabilidades p j, para cada valor posible de E que tiene al menos un síntoma irrelevante. Por ello, si se tienen m posibles enfermedades y n síntomas binarios, el número de parámetros en el MSRI es m 1 + n a + m i=1 r i, (11) donde r i es el número de síntomas relevantes para la enfermedad e i y a es el número de síntomas que son relevantes para todas las enfermedades. 18

NODELO DE SINTOMAS RELEVANTES DEPENDIENTES Aunque el MSRI reduce el número de parámetros, desgraciadamente, es poco realista, ya que los síntomas suelen producirse en grupos o síndromes. Por ello, es poco razonable suponer que los síntomas relevantes son independientes. d 1 d 2 dm S1 S 2 S 3 S 4 S n-1 S n Supóngase que S 1,...,S ri son relevantes para la enfermedad e i y que los restantes síntomas S ri +1,...,S n son irrelevantes. Entonces: p(e i s 1,...,s n ) = p(e i )p(s 1,...,s ri e i ) p(s 1,...,s n ) p(e i )p(s 1,...,s ri e i ) = p(s 1,...,s n ) p(e i )p(s 1,...,s ri e i ) n p(s j e i ) j=r i +1 n j=r i +1 p j n p j. j=r i +1 19

COMPARACION DE VARIOS MODELOS Para este modelo, es necesario almacenar las siguientes probabilidades en la base de datos: Las probabilidades marginales p(e i ), para todos las posibles valores de la enfermedad E. Las probabilidades p(s 1,...,s ri e i ), para todos los posibles valores de la enfermedad E y sus síntomas relevantes S 1,...,S ri. Las probabilidades p j, para cada valor posible de E que tenga al menos un síntoma irrelevante. (Como en el MSRI, esto implica que p j = p(s j e i ) coincide para todos los síntomas irrelevantes para e i.) En consecuencia, para m enfermedades binarias y n síntomas binarios, el número total de parámetros en el MSRD es m 1 + n a + m i=1 (2r i 1) = n 1 a + m i=1 2r i. 20

COMPARACION DE VARIOS MODELOS La Tabla muestra una comparación de los números de parámetros requeridos para especificar los diferentes modelos en el caso de m = 100 enfermedades binarias, n = 200 síntomas binarios, y r = 10 síntomas relevantes por enfermedad. Número de parámetros Modelo Fórmula Valor DSM m2 n 1 > 10 62 ISM m(n + 1) 1 20,099 IRSM m(r + 1) + n 1 1,299 DRSM m2 r + n 1 102,599 En el DRSM el número de parámetros se reduce notablemente comparado con el DSM, aunque el modelo es todavía realista por considerar dependencias entre los síntomas relevantes para cada enfermedad. Una reducción extra se consigue dividiendo el conjunto de síntomas relevantes en bloques, que son independientes entre sí. 21

ILUSTRACION PROBABILIDAD CONDICIONADA 0 20 Dolor 50 Cáncer = 100 Pérdida Peso 30 30 0 20 850 Sano = 900 P (Cáncer) = 100 / 1000 =0.1 P (Cáncer / Dolor) = P (Cáncer y Dolor) P (Dolor) = 70 / 100 = 0.7 P (Cáncer / Dolor y Pérdida Peso) = = P (Cáncer, Dolor y Pérdida Peso) P (Dolor y Pérdida Peso) = 50 / 50 = 1 22