Aprendizaje Maquinal

Transcripción

1 Aprizaje Maquinal Universidad Autónoma Metropolitana Unidad Iztapalapa Asesor: René MacKinney Romero División: CBI Licenciatura en Computación Alumno(s) Moza Marín Chenny Mayrit Espinosa Sánchez Hugo Fecha de realización: Trimestres 03-I y 03-P Noviembre 2004

2

3 INDICE GENERAL 1. INTRODUCCION 2 2. HERRAMIENTAS DE APRENDIZAJE TEOREMA DE BAYES FORMA EMPIRICA ENTROPIA ALGORITMOS DE APRENDIZAJE APRENDIZAJE DE EJEMPLOS ESPACIO DE VERSIONES REPRESENTACION PROGRAMACION LOGICA INDUCTIVA (IPL) ENTORNO TEORICO DEFINICION SEMANTICA DE IPL BUSQUEDA DE HIPOTESIS RESOLUCION INVERSION DE RESOLUCION EL OPERADOR w E INVERSION DE PREDICADOS APRENDIZAJE DE ORDEN SUPERIOR LOGICA PROPOSICIONAL LOGICA DE PREDICADOS DE PRIMER ORDEN RAZONAMIENTO EN LOGICA: REGLAS DE INFERENCIA 49 A. APENDICE 51 A.1 EJEMPLO DE PLAYTENNIS EN PROGOL 51 A.2 EJEMPLO DE TREN DESARROLLADO EN PROGOL 52 A.3 DESORDEN m 58

4 Capítulo 1 Introducción La Inteligencia Articial (IA) inicio en 1943 cuando Warren McCulloch y Walter Pitts propusieron un modelo de neurona del cerebro humano y animal. Estas neuronas nerviosas abstractas proporcionaron una representación simbólica de la actividad cerebral. Más adelante, Norbert Wiener elaboró estas ideas junto con otras, dentro del mismo campo, que se llamó cibernética. Los primeros investigadores de esta innovadora ciencia, tomaron como base la neurona formalizada de McCulloch y postulaban que : El cerebro es un solucionador inteligente de problemas, de modo que imitemos al cerebro. Se comenzó a considerar el pensamiento humano como una coordinación de tareas simples relacionadas entre sí mediante símbolos. Se llegaría a la realización de lo que ellos consideraban como los fundamentos de la solución inteligente de problemas, pero lo difícil aún no empezaba, unir entre sí estas actividades simples. Por lo tanto podemos decir a grandes rasgos que la Inteligencia Articial es una ciencia que intenta la creación de programas para máquinas que imiten el comportamiento y la comprensión humana, que sean capaces de aprer, reconocer y pensar, aunque esto último está por verse, ya que, realmente, ¾qué signica pensar? y ¾en qué consiste el pensamiento? Durante muchos años se ha puesto cada vez mas énfasis en temas de la inteligencia articial y sistemas expertos asi como en lenguajes poco conocidos como LIPS y PROLOG. La Inteligencia Articial es una de las ramas de la informática que ha sido capaz de cumplir con muchas de las esperanzas y las predicciones iniciales. 2

5 CAPÍTULO 1. INTRODUCCIÓN 3 Se comenzó por desarrollar algoritmos capaces de resolver problemas especícos, se interesó en aplicar la Lógica Matemática en la resolución de dichos problemas. De esta manera podemos ver que el entimiento de algún lenguaje natural, reconocimiento de imágenes, encontrar la mejor manera de resolver un problema de matemáticas, encontrar la ruta óptima para llegar a una objetivo especíco, etc., son parte del razonamiento humano, y que hasta ahora el hombre ha deseado poder imitarla desarrollando la Inteligencia Articial. ¾Qué es el aprizaje? [Sim83], dene el aprizaje como cambios en el sistema que se adapta de tal manera que permite llevar a cabo la misma tarea de un modo más eciente. El aprizaje esta relacionado con el conocimiento. Puede denirse como el proceso mediante el cual un ente adquiere conocimiento. Este conocimiento puede ser suministrado por otro ente denominado profesor o puede adquirirse sin la ayuda del mismo. El aprizaje es un proceso inteligente, repetitivo y ecaz. Es interesante porque permite: resolver problemas cambiantes. detectar y corregir conocimiento que se ha introducido inicialmente y es incorrecto. resolver problemas en entornos inaccesibles. resolver problemas desconocidos: por ejemplo, reconocer patrones, aún cuando no sabemos cuáles estamos buscando. Inteligencia Articial y Aprizaje En la IA se pueden observar a grandes rasgos, dos enfoques diferentes: La concepción de IA como el intento de desarrollar una tecnología capaz de suministrar al ordenador capacidades de razonamiento o discernimiento similares, o aparentemente similares a las de la inteligencia humana. La concepción de IA como investigación relativa a los mecanismos de inteligencia humana (por extensión, relativa a la vida y al universo), que emplea a la computadora como herramienta de simulación para la validación de teorías.

6 CAPÍTULO 1. INTRODUCCIÓN 4 El primer enfoque es por lo general el más práctico, se centra en los resultados obtenidos, es decir en su utilidad, y no tanto en el método. En este enfoque se encuadran, por ejemplo, los Sistemas Expertos. El segundo enfoque está orientado a la creación de un sistema articial que sea capaz de realizar los procesos cognitivos humanos. Desde este punto de vista no es tan importante la utilidad del sistema creado (qué hace), como lo es método empleado (cómo lo hace). Como aspectos fundamentales de este enfoque se pueden señalar el aprizaje y la adaptabilidad. Ambos presentan gran dicultad para ser incluidos en un sistema cognitivo articial. [KR01] dice que el aprizaje es una área clave para el desarrollo de la sociedad. El aprizaje maquinal es una área de investigación que ha tratado de emular las actividades del aprizaje humano con sistemas computacionales. Esto lo ha llevado a ser un área importante de investigación por los últimos 20 años. El aprizaje maquinal se encuentra en la intersección de varios campos del conocimiento utilizando la computación, como es el caso de la inteligencia articial, la probabilidad y estadística, teoría de la información, sicología y losofía. La meta principal del aprizaje maquinal es lograr emular las habilidades cognitivas de los humanos con un sistema computacional. Entre ellas se encuentra la habilidad para generalizar reglas a partir de ejemplos especí- co, así como el abstraer características de una serie de objetos y determinar cuales son los más importantes. El aprizaje maquinal se ha enfocado a los aspectos simples del aprizaje con lo que se han logrado construir diversos sistemas computacionales capaces de formar reglas y abstraer conceptos.[nil96] Los más importantes son aquellos basados en un lenguaje atributo-valor para representar ejemplos y reglas que se construyen en base a operaciones elementales. Esto permite construir sistemas que son ecientes, pero que no pueden manejar datos completos. Las soluciones obtenidas por estos sistemas resultan muchas veces ser demasiado complejas para su comprensión por los usuarios del sistema. El presente trabajo de investigación esta organizado como se describe a continuación: El capitulo 2 nos presenta una breve introduccion del Teorema de Bayes así como su aplicación para resolver un ejemplo muy conocido llamado playtennis. También nos presenta una forma rápida y conable de obtener reglas, etiquetada como Forma Empírica. Finalmente se dá una introducción a la Entropía y En la sección 4 se da una introducción al tema de Aprizaje de Ejemplos, cuyo mayor característica consiste en dividir ejemplos en Positivos y Negativos. La sección 5 presenta el tema de Espacio de versiones. La sección 6 se realiza una representación de la sección ante-

7 CAPÍTULO 1. INTRODUCCIÓN 5 rior. Sección 7 contiene información sobre el Algorítmo de eliminación de candidatos. El capitulo 3 contiene toda la información referente a la Programación de Inducción Lógica. La última parte, el capitulo 4, se tratará el El aprizaje de Orden superior, la lógica proposicional es parte importante, así como reglas de inferencia.

8 Capítulo 2 Herramientas de Aprizaje A-V 2.1. Teorema de Bayes El razonamiento bayesiano proporciona un enfoque probabilístico a la inferencia. Está basado en la suposición de que el grado de interés está gobernado por distribuciones de probabilidad y que se pueden tomar decisiones óptimas razonando sobre éstas probabilidades junto con los datos obtenidos. Éste enfoque está sio utilizado en muchos campos de investigación, de los que cabe destacar la robótica móvil y la visión computacional. En éste capitulo queremos presentar una de las herramientas utilizadas en el desarrollo de éste proyecto de investigación: el Teorema de Bayes. A menudo surgen problemas en los cuales estamos interesados en determinar la mejor hipótesis h, dados los datos que se han observado D. La forma correcta de expresar ésto es buscar la hipótesis h más probable, dados los datos observados D más un conocimiento inicial sobre las probabilidades a priori de h. El teorema de Bayes proporciona un método directo para calcular dichas probabilidades.[bur03] El teorema de Bayes se dene con la siguiente ecuación: donde, y, P (h D) = P (h) P (D h) P (D) P (D) = P (h)p (D h) 6

9 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 7 P (h) es el conocimiento inicial que se tiene a cerca de la hipótesis h. Se suele denominar la probabilidad a priori de h. P (D) se dene de forma similar, pero esta vez sobre los datos D. P (D h) denota la probabilidad de observar los datos D, dado que tenemos la hipótesis h. Se denomina verosimilitud. P (h D) es la probabilidad a posteriori que tiene la hipótesis h, dados los datos observados D. En la mayoría de los problemas donde se plantea la inferencia bayesiana, se parte de un conjunto de hipótesis H y se trata de encontrar la hipótesis más probable h H. De esta forma, a dicha hipótesis más probable se le suele denominar hipótesis máxima a posteriori o MAP por sus siglas en ingles. El Teorema o Regla de Bayes nos brinda un método para contestar algunas preguntas muy importantes. En su esencia, ésta regla nos indica cuál información es necesaria tener y el método para invertir la condición cuando calculamos una probabilidad condicional: si h y D son eventos y conocemos P (h D), P (D), entonces podemos calcular P (D h). La necesidad de calcular este último valor a partir de la información disponible es imprescindible para enter las consecuencias de algunas de nuestras decisiones.[tay02] Ejemplo 2.1 Diagnóstico médico: El diagnóstico consiste en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y las enfermedades no están ligados de un modo biunívoco. Llamemos E al conjunto de enfermedades y E i a sus elementos: E 1 tubercolosis pulmonar; E 2 cáncer del pulmón; E 3 bronquitis obstructiva; etc. y S i a los síntomas y síndromes asociados con las mismas: S 1 tos; S 2 estado febril; S 3 hemotisis; etc. La información accesible en los libros de patología, o en un archivo de historias clínicas es probabilística. Por ejemplo, para E 1 algunos (digamos el 20 %) tienen hemotisis; muchos (80 %) tienen tos; etc. y lo mismo para las demás enfermedades. En términos de probabilidad condicionada ésta información sería para E 1 : P (S 3 E 1 ) = 0,2; P (S 1 E 1 ) = 0,8, etc. Para diagnosticar la tuberculosis se evalúan los síntomas que presenta el paciente P (E i S i ) donde se puede usar el Teorema de Bayes, supoineindo que las enfermedades forman una partición (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el síntoma) y se conocen sus prevalencias. Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en poblaciones en las que las prevalencias fueran diferentes.

10 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 8 Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnósticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de cierto valor, digamos 120 mg/l. Para evalúar la prueba se somete a la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento y a una serie de individuos no diabéticos. Los resultados se pueden representar en una tabla de doble entrada. Patrón de Oro NE E Prueba - a b r + c d s t u Si la prueba fuera perfecta b = C = 0, lo que desgraciadamente nunca ocurre. Se denomina coeciente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada p(+ NE), se denomina coeciente falso-negativo (CFN) al coeciente b/u, y es una estimación de la probabilidad condicionada p(- E). Estos dos coecientes cuantican los dos errores que la prueba puede cometer y caracterizan a la misma. Cuando la prueba se usa con nes diagnósticos interesa calcular es P(E +) y/o p(ne -). Como E y NE son una partición, usando el Teorema de Bayes y p(e +) = p(+ E)p(E) p(+ E) + p(+ NE)p(NE) p(ne ) = p( N E)p(N E p( E) + p( NE)p(NE) Nótese que ambas depen de la prevalencia de la enfermedad. Una prueba diagnóstica para la diabetes tiene un CFP de 4 % y un CFN de 5 %. Si la prevalencia de la diabetes en la población donde se usa es del 7 % ¾cuál es la probabilidad de que sea diabético un individuo en que la prueba dé positiva? y ¾de que no lo sea uno en el que dé negativo?

11 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 9 Outlook Sunny Overcast Rain Temperature Hot Mild Cool Humidity High Normal Low Wind Strong Medium Weak Cuadro 2.1: Valores para jugar tenis p(+ NE) = 0,04 p( NE) = 0,96 p( E) = 0,05 p(+ E) = 0,095 p(e) = 0,07 p(ne) = 0,93 y p(e +) = 0,95 0,97 0,95 0,07 + 0,04 0,93 = 0,641 0,96 0,93 p(ne ) = 0,05 0,07 + 0,96 0,93 = 0,996 Es decir existe un 64.1 % de quien de positivo sea diabético y un 93 % de probabilidad de que no sea quien da negativo en la prueba. Ejemplo 2.2 A continuación utilizaremos el Teorema de Bayes, obeservando que tan útil puede ser si es enfocado sobre objetivos muy especícos (Atributo-Valor). El ejemplo es el siguiente: Tenemos ciertas reglas para saber si se puede jugar tenis o no se puede jugar. Los ejemplos incluyen el clima previsto, temperatura, humedad y viento como se observa en el cuadro 2.1. La tarea es aprer a usar ésta información y así saber cuando es apropiado jugar tenis. Representación Los tipos atómicos para el ejemplo son los siguientes: Tipo Outlook=Sunny Overcast Rain Tipo Temperature=Hot Mild Cool Tipo Humidity=High Normal Low Tipo wind=strong Medium Weak Cada ejemplo está representado por una tupla de atributos.

12 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 10 Tennis=(Outlook,Temperature, Humidity, Wind) Los ejemplos son: playtennis (Overcast, Hot, High, Weak) = Yes playtennis (Rain, Mild, High, Weak) = Yes playtennis (Rain, Cool, Normal, Weak) = Yes playtennis (Overcast, Cool, Normal, Strong) = Yes playtennis (Sunny, Cool, Normal, Weak) = yes playtennis (Rain, Mild, Normal, Weak) = yes playtennis (Sunny, Mild, Normal, Strong) = yes playtennis (Overcast, Mild, High, Strong) = yes playtennis (Overcast, Hot, Normal, Weak) = yes playtennis (Sunny, Hot, High, Weak) = No playtennis (Sunny, Hot, High, Strong) = No playtennis (Rain, Cool, Normal, Strong) = No playtennis (Sunny, Mild, High, Weak) = No playtennis (Rain, Mild, High, Strong) = No Con la ayuda del Teorema de Bayes obtremos ciertas reglas que nos permiten saber si mediante las condiciones del clima que conocemos, se puede jugar tenis y en base a los resultados crear un árbol de decisión. Se realizó el analisis para cada uno de los Tipos que se presentan en el ejemplo, pero en consideración de los resultados, sólo se presentan los datos analizados del tipo Outlook. Se calculan las probabilidades para los atributos del tipo Outlook: P (sunny juego) = P (sunny)p (juego sunny) P (juego)

13 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 11 P (juego) =P (sunny) P (juego sunny) + P (overcast) P (juego overcast) + P (rain) P (juego rain) =( 5 14 ) ( 2 14 ) + ( 4 14 ) ( 4 14 ) + ( 5 14 ) ( 3 14 ) = = P (sunny) = 5 14 P (juego sunny) = 2 14 P (sunny juego) =( 5 14 ) = P (overcast juego) = P (overcast) P (juego overcast) P (juego) P (overcast) = 4 14 P (juego overcast) = 4 14 P (overcast juego) = ( 4 14 ) ( 4 14 ) = P (rain juego) = P (rain)p (juego rain) P (juego)

14 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 12 P (rain) = 5 14 P (juego rain) = P (rain juego) = = De los resultados obtenidos se selecciona el atributo con la mayor probabilidad (que en éstos cálculos resultó Overcast), por lo tanto Overcast será el atributo con mayor peso para la obtención de nuestras reglas. Se separan los ejemplos que tienen el atributo Overcast de los que no lo tienen. En éste primer cálculo no será necesario, ya que todos los ejemplos que tienen a dicho atributo siempre juegan tenis. El árbol de decisión se inicializa como se muestra en la gura 2.1. Overcast 1,4,8,9 Si 2,3,5,6,7,11,12,13,14 No Figura 2.1: Árbol de decisión Nuevamente se realizan los cálculos para los atributos restantes: P (sunny juego) = P (sunny) P (juego sunny) P (juego) P (juego) =P (sunny) P (juego sunny) + P (rain) P (juego rain) =( 5 10 ) ( 2 10 ) + ( 5 10 ) ( 3 10 ) = =

15 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 13 P (sunny juego) = ( 5 10 ) ( 2 10 ) ( ) = P (rain juego) = P (rain) P (juego rain) P (juego) P (rain juego) = ( 5 10 ) ( 3 10 ) ( ) = De igual forma se selecciona al atributo con mayor probabilidad, en éste caso es Rain, por tal razón serán eliminados los ejemplos donde aparezca éste atributo y se hace una selección de los ejemplos que juegan tenis de los que no juegan. Entonces el árbol de decisión será modicado quedando como se muestra en la gura 2.2. Overcast Si sesi juega Rain No 2,3,6,12,14 Si 5,7,11,13 No Figura 2.2: Árbol de decisión (fase 2) En ésta parte de elaboración del Árbol de decisión, no es posible construir en forma denitiva las reglas que deciden cuándo jugar, por el hecho que todavía existen ejemplos que permiten jugar dentro del conjunto que no lo

16 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 14 permite, como se muestra en la gura 2.2. Por tanto, se continúa con el análisis. P (juego) =P (hot) P (juego hot) + P (mild) P (juego mild)+ P (cool) P (juego cool) =0 + ( 3 5 ) (2 5 ) + (2 5 ) (1 5 ) = 8 25 P (hot juego) = 0 P (mild) P (juego mild) P (mild juego) = P (juego) P (mild juego) = ( 3 5 ) ( 2 5 ) ( 8 25 ) = 6 8 El atributo que tiene la probabilidad más alta es mild, el árbol de decisión queda como se muestra en la gura 2.3 Los cálculos se realizan hasta que todos los ejemplos estén en dos conjuntos diferentes, un conjunto que contenga los ejemplos que juegan y otro que contiene los que no juegan. Una vez realizado todos los cálculos, el árbol de decisión nalmente queda como se muestra en la gura 2.4. Se debe notar que en la gura se utiliza V y F (verdadero y falso) para referirnos cuando el atributo esta o no. Cuando las tuplas estén totalmente separadas, se puede concluir que nuestras reglas ya pueden ser obtenidas, tal como se había planteado. If (outlook == overcast) then Se juega If (outlook == rain) then If (temperature == mild) then If (Humidity == high) then

17 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 15 Overcast Si sesi juega Rain No Mild Si 5,7,11,13 No 2,6,14 Si 3,12 No Figura 2.3: Árbol de decisión (Tercera fase). Overcast Si V Rain F Mild V Mild F High V Cool F High V Cool F Weak VF Si Weak V Si VF No Si V High F Si VF No Si VF No No Figura 2.4: Árbol de decisión (Fase nal.)

18 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 16 If (Wind == weak) then Se juega No se juega If (temperature == cool) then If(Humedity == weak) then Se juega No se juega If(temperature == mild) then If (Humedity == high) then Se juega No se juega If (temperature ==cool) then Se juega If (Humedity == high) then If(Wind == weak) then No se juega No se juega 2.2. Forma Empírica Una vez entido el concepto del teorema y resuelto el ejercicio, se propone otra forma de obtener reglas, de manera más rápida y que a su vez sean las menos posibles y sobre todo que sigan generando resultados conables. De todo el conjunto de posibilidades, se separan los ejemplos que permiten jugar tenis de los que no lo permiten. Nuestra prioridad será el conjunto que decide no jugar, ya que como se observa, será más sencillo obtener las reglas buscadas, pues el tamaño del conjunto es menor.

19 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 17 No se juega Se juega High 4 3 Sunny 3 2 Strong 3 3 Mild 2 4 Hot 2 2 Rain 2 3 Weak 2 6 Cool 1 3 Normal 1 6 Cuadro 2.2: Resultados para un atributo. playtennis (Overcast, Hot, High, Weak) = Yes playtennis (Rain, Mild, High, Weak) = Yes playtennis (Rain, Cool, Normal, Weak) = Yes playtennis (Overcast, Cool, Normal, Strong) = Yes playtennis (Sunny, Cool, Normal, Weak) = yes playtennis (Rain, Mild, Normal, Weak) = yes playtennis (Sunny, Mild, Normal, Strong) = yes playtennis (Overcast, Mild, High, Strong) = yes playtennis (Overcast, Hot, Normal, Weak) = yes playtennis (Sunny, Hot, High, Weak) = No playtennis (Sunny, Hot, High, Strong) = No playtennis (Rain, Cool, Normal, Strong) = No playtennis (Sunny, Mild, High, Weak) = No playtennis (Rain, Mild, High, Strong) = No El ánalisis se realiza para un atributo. Se contabiliza el número de apariciones de cada atributo perteneciente al conjunto de prioridad, y se ordenan en forma descente. Se repite el paso anterior para el conjunto que sí decide jugar y serán comparados con el conjunto de prioridad. Si no aparece en ninguna ocasión, entonces, se dirá que es muy conable representar nuestras reglas con un sólo atributo, aunque éste no es el caso.(como se puede observar en el cuadro 2.2) Si se generan las reglas sobre un atributo, no se puede garantizar que sean válidas para todos los posibles ejemplos (todo el conjunto que involucran los

20 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 18 que sí juegan y los que no), además se puede ver en el cuadro 2.2 que casi todos los atributos que aparecen están muy equilibrados, es decir, tienen casi la misma probabilidad de aparecer en ambos conjuntos y por ésta razón los resultados obtenidos serían contradictorios. Ejemplo 2.3 Tomamos el atributo High para mostrar lo antes mencionado. Al generar una regla a través de una tupla con un atributo ((?,?, High,?)): If (humidity == High) then No se juega Se obtiene información que no es conable, pues el atributo aparece en ambos conjuntos, sio inconsistentes nuestras reglas. Cuando se analiza para dos atributos (pero los dos tienen que aparecer en la tupla seleccionada) tríamos la siguiente tabla: No se juega Se juega Sunny - Hot 2 0 Sunny - High 3 0 Sunny - Weak 2 1 Sunny - Mild 1 1 Sunny - Strong 1 1 Hot - High 2 1 Hot - Weak 1 2 Hot - Strong 1 0 Rain - Cool 1 1 Rain - Normal 1 2 Rain - Strong 2 0 Rain - Mild 1 2 Rain - High 1 1 Cool - Normal 1 3 Cool - Strong 1 1 Mild - High 2 2 Mild - Weak 1 2 Mild - Strong 1 2 High - Weak 2 2 High - Strong 3 1

21 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 19 Se puede apreciar en la tabla que se tienen pares de atributos que aparecen hasta en un 75 % en el conjunto de los que se juega, comparándolo con el otro conjunto. Por lo que algunas de las reglas quedan estructuradas de la siguiente forma: If( Humidity == High) then If( Outlook == Sunny) then No se juega Else If ( Wind == Strong ) then If (Outlook == Rain) Then No se juega Como se puede observar, algunas de éstas reglas satisfacen a todo el conjunto de tuplas que no permiten jugar, pero también hay pares se atributos que aparecen en ambos conjuntos y satisfacen a las tuplas que si permiten jugar. Lo cual indica que todavía no es seguro la utilización de las reglas bajo éste esquema y los resultados obtenidos no son en su totalidad conables. Ésta etapa sería por el momento la más conable para obtener reglas. If( Humidity == High) then If( Wind == Strong) then No se juega Else If ( Outlook == Sunny ) then If (Wind == Weak) Then No se juega. A continuación, el análisis se realiza para tuplas con tres atributos, obtenio la siguiente tabla:

22 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 20 No se juega Se juega Sunny - Hot - High 2 0 Sunny - High - Weak 1 0 Sunny - Hot - Weak 1 0 Hot - High - Weak 1 1 Sunny - Hot -Strong 1 0 Sunny - High - Strong 1 0 Hot - High - Strong 1 0 Sunny - Mild - High 1 0 Sunny -Mild - Weak 1 0 Mild - High - Weakl 1 1 Rain - Cool - Normal 1 1 Rain - Cool - Strong 1 0 Rain - Normal - Strong 1 0 Cool - Normal - Strong 1 0 Rain - Mild - High 1 1 Rain - Mild - Strong 1 0 Rain - High - Strong 1 0 Mild - High - Strong 1 1 Estudiando el número de apariciones de las ternas, resulta que también es ineciente (como lo era para un sólo atributo), pues es cierto que se vuelve menos probable el repetir una terna de éste tipo, pero también hay que observar que la diferencia de aparición en ambos conjuntos es muy grande (observando que la tupla ya es muy especíca), por otro lado sí resulta más conable crear nuestras reglas con estas tuplas. If( Humidity == High) then If(Wind == Weak) then If( Outlook == Sunny) then No se juega Else If ( Wind == Strong ) then If (Outlook == Rain) Then If (Temperature == Cool) then No se juega Else if (temperature == Mild) then No se juega

23 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V Entropía La Teoría de la Información se desarrolla en términos de probabilidades, ya que la información tiene una naturaleza aleatoria (si supiésemos de antemano la información, ¾para qué la querríamos?). Por supuesto, en la realidad no disponemos a priori de las probabilidades necesarias, por lo que habrá que estimarlas de los datos existentes. El proceso de aparición de un símbolo se puede describir mediante los siguientes pasos: Antes de la aparición del símbolo: estado de incertidumbre, desconocimiento del símbolo que aparecerán. En la aparición del símbolo: sorpresa, debida a la aparición de un símbolo no esperado. Tras la aparición del símbolo: aumento en la información que tenemos ya que no tenemos la incertidumbre anterior. Podemos ver, por tanto, que el concepto de información está estrechamente ligado con las ideas de incertidumbre y probabilidad de aparición. Información de un símbolo. Como hemos visto, a mayor probabilidad de aparición de un símbolo menor, mayor es la información que aporta dicho símbolo. De ésta manera se dene la información que aporta un símbolo en función de su probabilidad de aparición. Aunque la base del logaritmo se puede tomar arbitrariamente, se suele tomar base 2. De este modo, la información de un símbolo se mide en bits. La información de un símbolo tiene las siguientes propiedades: I(S i ) 0, ya que la probabilidad siempre está comprida entre 0 y 1. Ésta propiedad nos dice que un símbolo podrá aportar mucha, poca o ninguna información, pero nunca supondrá una pérdida de información. I(S i ) = 0 p i = 1. Como habíamos visto antes, si sabemos de antemano que símbolo va a aparecer, éste no aporta ninguna información nueva. I(S i ) < I(S j ) para p i > p j, es decir, a mayor probabilidad de aparición, mayor información.

24 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 22 I(S i S j ) = I(S i )+I(S j ). Ésto quiere decir, que la información aportada por un símbolo que es la concatenación de otros dos, es la suma de las informaciones de ambos símbolos. Si consideramos que un símbolo S i tiene una probabilidad de aparición muy pequeña, estamos armando que la información que aporta es muy grande, pero debido a que su aparición es muy esporádica, la información que aporta la fuente con el conjunto de todos los símbolos no es tan grande. De hecho, veremos que la información de una fuente está acotada. Por ahora nos conformaremos con ver que la información que aporta un símbolo en medida está acotado, ya que depe de su frecuencia de aparición. A continuación se ve representada la función p(s) I(S) = p(s) log 2 1 p(s) cuando la probabilidad varía de 0 a 1. Concretamente, la función tiene un máximo en p(s) = e 1. La información que entregue la fuente será el valor medio de las informaciones que entregue cada símbolo individualmente cada vez que aparezcan. Éste parámetro se llama Entropía de la fuente, y se puede expresar como k 1 H(S) = E[I(S K )] = p i I(S i ) donde E( ) es la esperanza matemática. Como podemos ver la entropía es la suma de un número nito de términos como el analizado anteriormente, por lo que también está acotada. La entropía de una fuente tiene las siguientes propiedades: 0 H(S) log 2 (K), es decir, que la entropía de una fuente no es negativa y está acotada superiormente. Ésto quiere decir que la fuente no puede suponer una pérdida de información, así como tampoco puede entregar una cantidad de información ilimitada (para un número de símbolos limitado). H(S) = 0 p i = 1 para algún i. En éste caso el resto de las probabilidades serán nulas. No habrá sorpresa y por tanto la entropía será también nula. H(S) = log 2 (K) p i = 1 K i. Cuando todos los símbolos sean equiprobables, la incertidumbre sobre lo que va a ocurrir será máxima, y por tanto nos encontraremos en el límite superior de la entropía. Se mide en bits/símbolo. i=0

25 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 23 Para comparar la entropía de fuentes con diferente número de símbolos, podemos denir una entropía normalizada como H(S) = H(S) log 2 (K) de manera que 0 < H(S) 1. Es como si estuviésemos normalizando en número de símbolos a 2 (número mínimos de símbolos). En resumen la Entropía (H) Es el mínimo teórico para codicar. H(i) = P i log 2 ( 1 P i ). (2.1) Ejemplo 2.4 Ejemplo informal. Los mensajes Hola, Bien, Adios y Mal se envian con las siguientes frecuencias. Mensaje Frecuencia Hola 1 4 Bien 1 4 Adios 5 16 Mal 3 16 Al calcular su entropía tenemos que: H = 1 4 log(4) log(4) log(16 5 ) log(16 3 ) = 1,9772 Entonces, para representar la información para éste caso necesitamos 2 bits por mensaje. Es decir, podemos utilizar la siguiente codicación P('Hola')= 00 P('Bien')= 01 P('Adios')= 10 P('Mal')= 11 Retomando el ejemplo de playtennis visto anteriormente, se determina la entropía para cada uno de los atributos de la siguiente forma:

26 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 24 Dado el conjunto S = <Overcast, Hot, High, Weak>, <Rain, Mild, High, Weak>, <Rain, Cool, Normal, Weak>, <Overcast, Cool, Normal, Strong>, <Sunny, Cool, Normal, Weak>, <Rain, Mild, Normal, Weak>, <Sunny, Mild, Normal, Strong>, <Overcast, Mild, High, Strong>, <Overcast, Hot, Normal, Weak>, <Sunny, Hot, High, Weak>, <Sunny, Hot, High, Strong>, <Rain, Cool, Normal, Strong>, <Sunny, Mild, High, Weak>, <Rain, Mild, High, Strong> Para una mejor comprensión del ejemplo, el conjunto S es separado en dos subconjuntos, el primero es denominado como Positivo y contiene los ejemplos donde sí se juega, y el segundo es denominado Negativo y contiene los ejemplos donde no se juega. El subconjunto Positivo queda determinado de la forma siguiente: playtennis (Overcast, Hot, High, Weak) = Yes playtennis (Rain, Mild, High, Weak) = Yes playtennis (Rain, Cool, Normal, Weak) = Yes playtennis (Overcast, Cool, Normal, Strong) = Yes playtennis (Sunny, Cool, Normal, Weak) = yes playtennis (Rain, Mild, Normal, Weak) = yes playtennis (Sunny, Mild, Normal, Strong) = yes playtennis (Overcast, Mild, High, Strong) = yes playtennis (Overcast, Hot, Normal, Weak) = yes El subconjunto Negativo contiene los siguientes elementos: playtennis (Sunny, Hot, High, Weak) = No playtennis (Sunny, Hot, High, Strong) = No playtennis (Rain, Cool, Normal, Strong) = No playtennis (Sunny, Mild, High, Weak) = No playtennis (Rain, Mild, High, Strong) = No Una vez formados los subconjuntos y con la ayuda de la ecuación 2.1 se procede a calcular la entropía para cada atributo.

27 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 25 Overcast Contiene (4,0) No(5,5) contiene Figura 2.5: Overcast Se presenta en forma detallada la obtención de las Entropías para algunos atributos en una primera iteración. La gura 2.5 ilustra la forma en cómo serán tratados los atributos para el cálculo de la entropía, para Overcast se realiza un conteo de la apariciones del atributo en el subconjunto Positivo (+) sio el resultado 4, y las apariciones en el subconjunto Negativo (-) es 0, formando la dupla (4,0). El resultado (5,5) se conforma de los elementos que aparecen en el subconjunto Positivo y no contienen a Overcast, (éstos son 5), y los elementos que aparecen en el subconjunto Negativo (-) y no contienen a Overcast (son 5). La operación para obtener la entropía del atributo Overcast Positivo (+) es H(O)+ = (1) log(1) = 0, ahora la operación se hace para el Overcast Negativo (-): H(O) = 5 10 log(2) + 5 log(2) = 0,5 + 0,5 = 1 10 después de obtener la entropía, el resultado es normalizado: = 10 14, como se puede ver la normalización se hace con base a el número de elementos que tienen al atributo Overcast entre el número total del conjunto, y esta normalización se aplica para todas las entropías que se cálculen. El atributo con menor entropía es el que tiene mayor orden, entonces es el que nos proporciona más información. Rain (3,2) Contiene 5 4 No (6,3) contiene 9 4 Figura 2.6: Rain

28 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 26 H(R)+ =( 3 5 ) log(5 3 ) log(5 5 ) =0, ,52877 =0, = 0,34676 H(R) = 6 9 log(9 6 ) log(9 9 ) = 0, ,52832 =0, =0, Sunny (2,3) Contiene 5 14 No (7,2) contiene 9 14 Figura 2.7: Sunny H(S)+ =( 3 5 ) log(5 3 )+ 2 5 log(5 2 ) =0, ,52877 =0, = 0,34676 H(S) = 7 9 log(9 7 )+ 2 9 log(9 2 ) =0, ,42822 =0, =0, La siguiente operación realiza el cálculo de la entropía total. H(S) = 9 14 log(14 9 ) log(14 5 ) = 0,94027 Los resultados completos se presentan en las siguientes líneas y son obtenidos a través del programa desorden.m ver Apéndice A.3.

29 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 27 Iteracion= 1 H+ H- Overcast Rain Sunny Hot Mild Cool High Normal Weak Strong G(S) = H(S) H(A) G(S) = H(S)-H(O) = G(S) = H(S)-H(R) = G(S) = H(S)-H(S) = G(S) = H(S)-H(H) = G(S) = H(S)-H(M) = G(S) = H(S)-H(C) = G(S) = H(S)-H(H) = G(S) = H(S)-H(N) = G(S) = H(S)-H(W) = G(S) = H(S)-H(S) = La mayor entropia es: Estos son los resultados nales para cada elemento del conjunto S en una primera iteración, sio Overcast el de menor entropía, lo que signica que es el atributo con mayor orden en el conjunto S. Por lo tanto éste atributo es eliminado del conjunto S, y se repiten los cálculos para los atributos restantes.

30 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 28 El conjunto S queda de la siguiente forma Los resultados que el programa arroja son: <Rain, Mild, High, Weak>, <Rain, Cool, Normal, Weak>, <Sunny, Cool, Normal, Weak>, <Rain, Mild, Normal, Weak>, <Sunny, Mild, Normal, Strong>, <Sunny, Hot, High, Weak>, <Sunny, Hot, High, Strong>, <Rain, Cool, Normal, Strong>, <Sunny, Mild, High, Weak>, <Rain, Mild, High, Strong> Iteracion= 2 H+ H- Overcast 0 0 Rain Sunny Hot Mild Cool High Normal Weak Strong La mayor entropia es: G(S) = H(S) H(A) G(S) = H(S)-H(O) = G(S) = H(S)-H(R) = G(S) = H(S)-H(S) = G(S) = H(S)-H(H) = G(S) = H(S)-H(M) = G(S) = H(S)-H(C) = G(S) = H(S)-H(H) = G(S) = H(S)-H(N) = G(S) = H(S)-H(W) = G(S) = H(S)-H(S) =

31 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 29 De los resultados, el atributo con el mayor desorden es High y por tanto queda excluido del conjunto S. {<Rain, Cool, Normal, Weak>, <Sunny, Cool, Normal, Weak>, Entonces S = <Rain, Mild, Normal, Weak>, <Sunny, Mild, Normal, Strong>, <Rain, Cool, Normal, Strong>} Los cálculos se realizan hasta que ya no haya una diferencia signicativa entre los resultados, es decir, el desorden entre los elementos del conjunto es mínima. Iteracion= 3 H+ H- Overcast 0 0 Rain Sunny Hot 0 0 Mild Cool High 0 0 Normal 0 0 Weak Strong G(S) = H(S) H(A) G(S) = H(S)-H(O) = G(S) = H(S)-H(R) = G(S) = H(S)-H(S) = G(S) = H(S)-H(H) = G(S) = H(S)-H(M) = G(S) = H(S)-H(C) = G(S) = H(S)-H(H) = G(S) = H(S)-H(N) = G(S) = H(S)-H(W) = G(S) = H(S)-H(S) = La mayor entropia es: Como se observa en los resultados de la iteración 3, el atributo con mayor entropía es Weak y al eliminarlo del conjunto S, éste queda con sólo dos elementos que son:

32 CAPÍTULO 2. HERRAMIENTAS DE APRENDIZAJE A-V 30 S ={<Sunny, Mild, Normal, Strong>, <Rain, Cool, Normal, Strong>} La siguiente iteración no se realiza, ya que la entropía es cero y no obtenemos información alguna. La mayor entropia es: G(S) = H(S) H(A)

33 Capítulo 3 Algoritmos de Aprizaje 3.1. Aprizaje de Ejemplos El aprizaje de ejemplos estudia cómo conseguir la denición de una categoría a partir de ejemplos positivos y negativos de ésa categoría. El aprizaje de ejemplos estudia cómo inferir automáticamente una función general sobre el conjunto de ejemplos que tomen valores booleanos y caracterice los ejemplos conocidos. f : Ejemplo (0, 1) Utilizamos nuevamente el ejemplo de playtennis: playtennis (Overcast, Hot, High, Weak) = Yes playtennis (Rain, Mild, High, Weak) = Yes playtennis (Sunny, Hot, High, Weak) = No playtennis (Overcast, Hot, Normal, Weak) = yes ¾Cómo representar un día? Pares atributo-valor Seleccion de atributos: Outlook, Temperature, Humidity, Strong. Selección de valores: - Tipo Outlook =sunny Overcast Rain - Tipo Temperature = Hot Mild Cool - Tipo Humidity = High Normal Low - Tipo Wind = Strong Medium Weak 31

34 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 32 Algunas posibles representaciones son: Cada regla puede estar con... un valor especíco (es decir, Humidity = High) cualquier valor (es decir, Humidity =?) no se permite ningún valor (es decir, Humidity = ) Como entradas tenemos Un universo o conjunto de instancias X (días posibles, cada uno descrito por los atributos Outlook, Temperature, Humidity, Wind) Una función de clasicación denida sobre X desconocida: c : X Clasif donde Clasif es el conjunto posible de clasicaciones que tiene una instancia. En nuestro ejemplo podemos considerar: Clasif = {Si, No} o Clasif = {0, 1} Un conjunto de entrenamiento (conocido): D = {(X 1, c(x 1 )), (X 2, c(x 2 )),..., (X n, c(x n ))} formado por pares (X i, c(x i )) donde X i X y c(x i ) es la clasicación de la instancia X i por la función c. Meta del aprizaje: Una función objetivo h : X Clasif tal que si (X i, c(x i )) D entonces h(x i ) = c(x i ) La Hipótesis del Aprizaje Inductivo. Cualquier hipótesis que aproxime la función objetivo sobre un conjunto sucientemente grande de ejemplos de entrenamiento, también aproximará la función objetivo sobre el resto de los ejemplos. (ver gura 3.1)

35 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 33 Figura 3.1: Instancia, Hipótesis y General-Especíco 1. Inicializa h para la hipótesis más especíca en H 2. Para cada instancia positiva x Para cada atributo la regla a i en h Si la regla a i que pertenece a h es satisfacida por x entonces no se encuentra. Otro remplaza a i que pertenece a h por la siguiente regla más general que es satisfacida por x Algoritmo 3.1: Algoritmo Encuentra - S

36 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 34 Figura 3.2: Búsqueda de Espacios de Hipótesis por Encuentra - S 3.2. Espacio de Versiones. Una hipótesis h es consistente con el conjunto de entrenamiento D del concepto objetivo c sí y sólo si φ h (X) = c(x), para cada ejemplo de entrenamiento (X, c(x)) de D. Decimos que los datos son consistentes si todos los ejemplos estan bien clasicados Consistente(h, D) ( (X, c(x)) D)φ h (X) = c(x) donde φ h es la función objetivo asociada a la hipótesis h. Nota: En lo que sigue, identicamos h como φ h. El espacio de versiones V S H,D correspondiente al espacio de hipótesis H y el conjunto de entrenamiento D es el subconjunto de H consistente con el conjunto de entrenamiento D. V S H,D {h H Consistente(h, D)}

37 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 35 El espacio de versiones es el conjunto de todas las posibles soluciones al problema de aprizaje. Ejemplo 3.1 Utilizamos el ejemplo de playtennis nuevamente. playtennis (Overcast, Hot, High, Weak) = Yes playtennis (Rain, Mild, High, Weak) = Yes playtennis (Sunny, Hot, High, Weak) = No playtennis (Overcast, Hot, Normal, Weak) = yes Espacios de versiones: (Sunny, Mild,?, Strong) (Sunny,?,?, Strong) (Sunny, Mild,?,?) (?, Mild,?, Strong) (Sunny,?,?,?) (?, Mild,?,?) A continuación se presenta el algoritmo para encontrar el espacio de versiones de un problema de aprizaje.[t.m97] 1. Inicializa Espacio-de-versiones como una lista contenio todas las hipótesis de H. 2. Para cada ejemplo de entrenamiento (x, c(x)) : Elimina de Espacio-de-versiones todas las hipótesis h paras las que h(x) c(x) 3. Salida: lista de hipotesis en Espacio-de-versiones. Algoritmo 3.2: Algoritmo Enumera-Elimina A continuación se presenta un ejemplo de espacio de versiones Representación Sea H un conjunto de hipótesis, menor o igual el orden de generalidad. Se dice que g H es un elemento de máxima generalidad de H si g H(g < g ) Se dice que s H es un elemento de máxima especicidad de H si s H(s < s)

38 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 36 Figura 3.3: Ejemplo Espacio de Versiones La Cota General, G, de un espacio de hipótesis H respecto de un conjunto de entrenamiento D es el conjunto de los elementos de máxima generalidad de H consistente con D. G = {g H consistente(g, D) ( g H)[(g < g )) consistente(g, D)]} La Cota Especíca, S, es un espacio de hipótesis H respecto de un conjunto de entrenamiento D es el conjunto de los elementos de máxima especicidad de H consistentes con D. S = {s H consistente(s, D) ( s H)[(s > s ) Consistente(s, D)]} Teorema 3.1 Representación del espacio de versiones: Sea X un conjunto arbitrario de instancias y sea H un conjunto de hipótesis de valores booleanos denido sobre X. Sea c : X (1, 0) una función de clasicación denida sobre X y D = (x i, c(x i ) i I ) un conjunto de entrenamiento. Sean G y S las cotas general y especíca, responsable del espacio de hipótesis H respecto de un conjunto de entrenamiento D. Entonces V S H,D = h H ( S)( g G)(g h s) Sea H un espacio de versiones y h H h H es una generalización mínima de h, vericando la propiedad P si h > h, h verica la propiedad P y no existe h H vericando la propiedad P cumplio h < h < h.

39 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 37 h H es una especialización mínima de h vericando la propiedad P si - h > h, h verica la propiedad P y no existe h H vericando la propiedad P cumplio h < h < h. Algoritmo Eliminación de Candidatos. Inicio: Dados H y D - G El conjunto de elementos de máxima generalidad de H - S El conjunto de elementos de máxima especicidad de H Para cada ejemplo d del conjunto de entrenamiento D, Si d es un ejemplo positivo Elimina de G cualquier hipótesis inconsistente con d Para cada hipótesis s de S que no sea consistente con d Elimina s de S Añade a S todas las generalizaciones mínimas h de s tales que 1 h sea consistente con d 2 Algún elemento de G es más general que h Elimina de S cualquier hipótesis más general que otra hipótesis de S Si d es un ejemplo negativo Elimina de S cualquier hipótesis inconsistente con d Para cada hipótesis g de G que no sea consistente con d Elimina g de G Añade a G todas las especializaciones mínimas h de g tales que 1 h sea consistente con d 2 Algún elemento de S es más especíco que h Elimina de G cualquier hipótesis menos general que otra hipótesis de G Algoritmo 3.3: Algoritmo de eliminación de candidatos Si el conjunto de entrenamiento es sucientemente grande, ¾Podemos garantizar que el espacio de versiones contiene como único elemento la función de clasicación?

40 CAPÍTULO 3. ALGORITMOS DE APRENDIZAJE 38 Figura 3.4: Ejemplo de Trace Figura 3.5: Espacio de Versiones Sí, si se verica que: No hay errores en la clasicación de los ejemplos de entrenamiento La hipótesis correcta está en el espacio de hipótesis. ¾Cúal es el siguiente ejemplo de prueba?

41 Capítulo 4 Programación Lógica Inductiva (ILP) ¾Qué es la programación lógica inductiva? Aprizaje maquinal en primer orden lógico o programación lógica. - Representación de conocimientos expresivos y declarativos. - Uso de conocimientos previos. Teoría basada en computación. Teoría de aprizaje y computación lógica. ¾Por qué se necesita la programación lógica inductiva? Por la limitaciones del aprizaje de atributo valor (o proposicional/aprizaje booleano). Algunos problemas no pueden, elegantemente, ser descritos usando representaciones atributo valor. ¾Cuando aplicar ILP? Cuando es imposible representar elegantemente los problemas en la forma atributo valor. Cuando se tiene un número variable de objetos en ejemplos. ¾Cuál es la diferencia entre AVL-ILP? Representación. 39

42 CAPÍTULO 4. PROGRAMACIÓN LÓGICA INDUCTIVA (ILP) 40 Estructura en la búsqueda del espacio más complejo. Se siguen esencialmente los mismos algoritmos. Algunos sistemas AVL pueden en principio mejorar la calidad para ILP. La mayor parte de los sistemas ineren: Reglas clasicatorias. Árboles de decisión. Redes con pesos asociados. Problemas Representación restringida: inadecuados en las áreas que requieren de conocimiento relacional(e.g., razonamiento temporal y/o espacial, planicación, lenguaje natural, razonamiento cualitativo, etc) Conocimiento del dominio: son incapaces de incorporar conocimiento (utilizan un conjunto jo de atributos) Vocabulario: no pueden inventar nuevo vocabulario con conocimiento insuciente del dominio. ILP combina Los resultados experimentales y métodos inductivos del aprizaje computacional. El poder de representación y formalismo de la lógica de primer orden. Involucra el aprizaje de programas lógicos a partir de ejemplos. Los ejemplos (normalmente átomos aterrizados) pueden ser positivos (se consideran verdaderos por el usuario) y negativos (se consideran falsos). Un programa lógico P se dice completo con respecto a Σ para todos los ejemplos σ P, σ Σ. Un programa lógico P se dice consistente con respecto a Σ para ningún ejemplo σ P, σ Σ.

43 CAPÍTULO 4. PROGRAMACIÓN LÓGICA INDUCTIVA (ILP) Entorno Teórico Para llevar a cabo el aprizaje tenemos un conjunto de ejemplos positivos ξ +. un conjunto de ejemplos negativos ξ. un programa lógico consistente, K, es decir que no existe ξ K +. El objetivo es encontrar un programa lógico H tal que H K sea completo y consistente: K H ξ + y K H ξ K normalmente se reere a conocimiento del dominio o conocimiento a priori. Un sistema de aprizaje es: correcto sí y sólo si nos produce un programa que sea completo y consistente. completo sí y sólo cuando no encuentra H, entonces no existe un programa H dentro del espacio de búsqueda que sea completo y consistente Denición semántica de ILP Satisfacibilidad previa: K E =. Satisfacibilidad posterior (correcto o consistente) K H E = Necesidad previa: K = E + Suciencia posterior(completo): K H = E + En la mayoría de los casos, se limita al caso de cláusulas denidas. Ésto es mucho más fácil, porque una teoría de cláusulas denidas tiene un modelo de Herbrand mínimo único M + (T ) y todas las fórmulas lógicas son verdaderas o falsas.[cus] Satisfacibilidad previa: e E son falsos en M + (T ) Satisfacibilidad posterior (correcto o consistente) e E son falsos en M + (T H) Necesidad previa: algunos e E + son falsos en M + (T ) Suciencia posterior(completo): e E + son verdaderos en M + (T H)

44 CAPÍTULO 4. PROGRAMACIÓN LÓGICA INDUCTIVA (ILP) Búsqueda de Hipótesis. El espacio de hipótesis H es el conjunto de todas las hipótesis {H 1, H 2,..., H n }, que el algoritmo de aprizaje está diseñado a producir. El espacio, normalmente se trata de restringir el aprizaje, y está caracterizado principalmente por el lenguaje de hipótesis. La búsqueda puede hacerse: de especíco a general. de general a especíco. en ambos sentidos. Cada hipótesis predice que un cierto conjunto de ejemplos (aquellos que satisfacen su denición candidata), son ejemplos del predicado meta. A éstos ejemplos también se les llama la extensión del predicado. Las condiciones por las cuales una hipótesis puede ser inconsistente con algún ejemplo son: Un ejemplo negativo que es verdadero es un negativo falso para la hipótesis. Un ejemplo positivo que es falso es un positivo falso para la hipótesis. Desde un esquema de la lógica, podemos caracterizar el aprizaje inductivo como un proceso de eliminación gradual de hipótesis que sean inconsistentes con los ejemplos. Con un negativo falso, la extensión de la hipótesis debe aumentarse para incluirlo(generalización). Con un positivo falso, la extensión de la hipótesis debe reducirse para excluirlo(especialización). Desde éste punto de vista, generalización y especialización son operaciones que cambian la extensión de una hipótesis Resolución La resolución sólo sirve para fórmulas en forma de cláusulas. Por ejemplo tenemos la prueba de refutación. Para probar P Q, hacer W = P { Q} y probar que W es insatisfacible.

45 CAPÍTULO 4. PROGRAMACIÓN LÓGICA INDUCTIVA (ILP) 43 Ejemplo 4.1 Sean C 1 y C 2 dos cláusulas con literales L 1 y L 2 (donde L 1 y L 2 con complementarias). La resolución de C 1 y C 2 produce: y donde (eliminando literales redundantes) C = C 1 C 2 C 1 = C 1 {L 1 } C 2 = C 2 {L 2 } Para la lógica de primer orden: substitución y unicación Denición 4.1 Una substitución σ es un conjunto nito de la forma: {t 1 /x 1,..., t n /x n }, donde las x i s son variables diferentes y las t i s son términos de diferentes a las x i s. Denición 4.2 Una expresión es un término, una literal, una conjunción o disyunción de literales. Una substitución (σ) se puede aplicar a una expresión(e), denotado como : Eσ, generando una nueva expresión (una instancia de E). Denición 4.3 Una substitución σ es un unicador de un conjunto de expresiones {E 1,..., E m } si E 1σ = = E mσ. Denición 4.4 Un unicador θ, es el unicador más general (mgu)de un conjunto de expresiones E, si para cada unicador σ de E, existe una substitución λ tal que σ = θλ. Para hacer resolución en lógica de primer orden tenemos que comparar si dos literales complementarias unican. El algoritmo de unicación construye un mgu de un conjunto de expresiones. Sean C 1 y C 2 dos cláusulas con literales L 1 y L 2 respectivamente. Si L 1 y L 2 tienen un mgu σ, el resolvente de C 1 y C 2 es la cláusula: (C 1σ {L 1σ }) (C 2σ {L 2σ }). El algoritmo de unicación no es determinista (se puede seleccionar las cláusulas de varias formas). Existen diferentes estrategias de resolución como son semántica, lineal, SLD.