Generalización como búsqueda. El problema de aprendizaje por generalización puede verse como un problema de búsqueda:



Documentos relacionados
Inteligencia Artificial II. Razonamiento con ontologías

BASE DE DATOS RELACIONALES

Base de datos relacional

2.2 Transformada de Laplace y Transformada Definiciones Transformada de Laplace

UNIDAD 3 ASPECTOS ASOCIADOS CON BASES DE DATOS. Diseno Físico de Bases de Datos Objetivo. 2.2 Visión General del Procesamiento de Consultas

Ross desea ordenar una pizza, de cuántas opciones diferentes puede seleccionar Ross la pizza con sus complementos?

Colegio Alexander von Humboldt - Lima. Tema: La enseñanza de la matemática está en un proceso de cambio

Una investigación australiana reveló que posiblemente la disminución

CAPITULO V PLANIFICACIÓN Y GESTIÓN DEL PROYECTO

Modelos y Bases de Datos

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

LÍMITES Y CONTINUIDAD

TALLER No. 1 Capitulo 1: Conceptos Básicos de Bases de datos

INDICADORES. PROBLEMAS ASOCIADOS A SU SELECCIÓN PARA MEDIR SUSTENTABILIDAD Y EFICIENCIA AMBIENTAL

Guía breve para la. Versión abreviada del Manual para la. evaluación de desempeño y potencial

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

Unidad 5. Modelo de objetos del dominio del problema. Trimestre 10-I. Universidad Autonomía Metropolitana. Unidad 5

CAPITULO VI ESTRATEGIAS DE OUTSOURCING

Declaración de Principios Adoptados por la Conferencia Internacional sobre Principios de Catalogación París, Octubre de 1961

ENSEÑA A TU HIJO HABILIDADES SOCIALES Y A SOLUCIONAR SUS PROBLEMAS

4 Integridad de datos relacional: llaves candidatas y temas relacionados.

MITOS Y REALIDADES SOBRE LOS SISTEMAS DE CALIDAD

Estrategias de producto y precio

Convocatoria 2014 Fundación para la Prevención de Riesgos Laborales AT-0116/2014. Pilares de Gestión para la Prevención de Riesgos Laborales

Teoría formal de la normalización de esquemas relacionales. Definición formal de las tres primeras Formas Normales

LABORATORIO Nº 3 PRÁCTICA DE FUNCIONES EN MICROSOFT EXCEL

MANUAL DE USUARIO SECTOR PRIVADO (RESUMEN)

Clasificador (Classifier) Aprendizaje Automatizado. Atributos. Clases. Conceptos. conceptos.

PAUTAS PRÁCTICAS DE MODIFICACIÓN DE CONDUCTA EN NIÑOS CON TDAH

IAP ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

Gestión de Riesgos - Introducción

UNIDAD DIDACTICA 1: SISTEMAS GESTORES DE BASES DE DATOS

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Capitulo 4. Polinomios

16.36: Ingeniería de sistemas de comunicación. Clase 15: ProtocolosARQ. Eytan Modiano

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Operación de Microsoft Excel. Guía del Usuario Página 79. Centro de Capacitación en Informática

Organización como función administrativa Resumen para Administración y Gestión Profesor: Gonzalo V.

Autor: José Miguel Marcos Costoso Diplomado en magisterio de Educación Física. Universidad de Almería. Técnico Deportivo en Fútbol Nivel 1 F.A.

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

MODELOS DE RECUPERACION

Índice Introducción Números Polinomios Funciones y su Representación. Curso 0: Matemáticas y sus Aplicaciones Tema 1. Números, Polinomios y Funciones

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

ESQUEMAS DE SISTEMAS VOIP CON ALTA DISPONIBILIDAD Y ALTO RENDIMIENTO

TEMA 8.- DISEÑO TEORICO DE BASES DE DATOS RELACIONALES. 1. TEORÍA DE LAS DEPENDENCIAS FUNCIONALES

6.1. Conoce la papelera

Participación de los Padres/Familias

Apuntes de Matemática Discreta 1. Conjuntos y Subconjuntos

TEMA 1. Introducción

Modelos y Bases de Datos

Importador Universal - Operaciones

TEMA 3: EN QUÉ CONSISTE?

PRC-DTI-006 Administración de Roles de los Sistemas de Información de la DTI Procedimiento Dirección de TI - COSEVI

CAPITULO 1 INTRODUCCIÓN. Puesta en Evidencia de un circulo virtuoso creado por los SRI entre los Mercados Financieros y las Empresas

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

PRINCIPIOS Y ESTRATEGIAS DE GESTIÓN AMBIENTAL_ PERIODO ACADÉMICO I (16-01) PERACA 288 GUÍA - EVALUACIÓN INTERMEDIA FASE IV _COMPROBACIÓN

GRUPOS DE ESPECIAL INTERÉS DENTRO DE LA SER (GEISER)

CAPACITACION PROFESIONAL PARA LA ACTIVIDAD DE TRANSPORTE INTERIOR E INTERNACIONAL DE MERCANCIAS

NÚMEROS NATURALES Y NÚMEROS ENTEROS

MANTENIMIENTO Y SOPORTE

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Gestión de Permisos. Documento de Construcción. Copyright 2014 Bizagi

Tutorial Sistema de indicadores Observatorio de la Persona Joven

Aprendizaje automático mediante árboles de decisión

LÍMITES DE FUNCIONES. CONTINUIDAD

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

Inter American Accreditation Cooperation. Grupo de prácticas de auditoría de acreditación Directriz sobre:

MEMORANDO CIRCULAR No CARLOS IVÁN VILLEGAS Presidente POLÍTICA DE TRATAMIENTO DE DATOS PERSONALES

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

Espacios generados, dependencia lineal y bases

de riesgos ambientales

Programa Presupuestos de Sevillana de Informática.

Normalización 1NF 2NF 3NF BCNF 4NF

Introducción al enfoque por ecosistemas

Introducción: Modelos, Escalas y Métricas. Valentin Laime. Calidad de Software

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

Itinerario Formativo en Innovación Docente

Escenas de episodios anteriores

Árbol binario. Elaborado por Ricardo Cárdenas cruz Jeremías Martínez Guadarrama Que es un árbol Introducción

CAPITULO VI EVALUACION DEL DESEMPEÑO

L3 ORGANIZACIÓN DE ARCHIVOS ELECTRÓNICOS

TEMA 1. LA ECONOMÍA: CUESTIONES INTRODUCTORIAS QUÉ ES MACROECONOMÍA Y MICROECONOMÍA?

SITIO WEB DE INTERVENCIÓN PSICOSOCIAL. Un espacio para el intercambio de experiencias prácticas

Guía para la Capacitación en el Servicio y Educación de Preservicio Relativa al DIU

10. La organización de las niñas y de los niños Criterios para la organización de las niñas y de los niños

Diseño Estructurado de Algoritmos

Estrategias Didácticas B-Learning: ÁLGEBRA RELACIONAL

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

Sistemas de evaluación alternativos (experiencia piloto EEES-Derecho-UCA) 1

LOS PERUANOS NO CUENTAN CON LA INFORMACION NUTRICIONAL NECESARIA PARA SEGUIR UNA DIETA SALUDABLE

Certificados para la exportación de dispositivos médicos por David Racine

4. Alcance de un proyecto

Jugamos al Bingo matemático

Solución de No conformidades

REPASO NÚMEROS NATURALES Y NÚMEROS ENTEROS

Análisis y gestión de riesgo

Los números racionales

Programación Lineal Entera

PRESUPUESTO BASE CERO ORGANISMO PÚBLICO DEL SISTEMA NACIONAL DE COORDINACIÓN FISCAL

TRABAJO COOPERATIVO EN ROBOTS

Transcripción:

Generalización como búsqueda El problema de aprendizaje por generalización puede verse como un problema de búsqueda: El lenguaje de generalización corresponde a un espacio de hipótesis (espacio de búsqueda) de posibles soluciones. El lenguaje de instancias corresponde a un espacio de instancias al que pertenecen los ejemplos positivos/negativos de la generalización objetivo. La tarea de aprendizaje consiste en examinar el espacio de hipótesis, sujeto a las restricciones impuestas por las instancias de entrenamiento, para determinar generalizaciones plausibles. InstanciasX Hipótesis H - x 2 h 0 Específico h 1,2 x 1 x 3 h 3,4 - x 4 x 5 h 5 General Para que la búsqueda sea eficaz, se necesita definir un criterio de orden sobre el espacio de hipótesis.

Ordenación Existe una importante estructura de orden inherente al lenguaje de generalización: la que define la relación más general que o su relación inversa más específica que. Definición 1: Sea h j y h k funciones booleanas (hipótesis) definidas sobre X. Entonces h j es igual o más general que h k (escrito h j g h k ) si y sólo si ( x X) [(h k (x)=1) (h j (x)=1)] Definición 2: Una hipótesis h j es más general que una hipótesis h k si el conjunto de todas las instancias asociadas a h k está contenido en el conjunto de todas las instancias asociadas a h j. InstanciasX Hipótesis H Específico x 1 h 3 h 2 x 2 h 1 General La relación g define una estructura de orden parcial en el espacio de hipótesis H. La relación g es importante porque proporciona una base muy útil para organizar la búsqueda a través del espacio de hipótesis H incluso en espacios infinitos de hipótesis sin enumerar explícitamente todas las hipótesis.

Algoritmo Find-S: Ejemplo Vocabulario para el dominio de animales exóticos Origen Á(frica AM(érica) AS(ia) E(uropa) O(ceanía) Clase Mamífero Ave Pez Reptil Alimentación Carnívoro Hervíboro Omnívoro Insectívoro Piscívoro Valor Alto Normal Bajo Situación Peligro Normal Extinguido Desconocida Dominios de definición de los atributos Origen A(frica) A(frica) A(frica) E(uropa) A(frica) Clase Mamífero Reptil Reptil Mamífero Mamífero Alimentación Carnívoro Herbívoro Herbívoro Herbívoro Carnívoro Valor Alto Bajo Alto Bajo Normal Situación Peligro Normal Peligro Peligro Peligro Ejemplo - - Conjunto de entrenamiento En el espacio de hipótesis H cada hipótesis está formada por una conjunción de restricciones sobre los valores de sus atributos. Inicio Se inicializa h a la hipótesis más específica h 0 = (,,,, ) Primer ejemplo (A, M, C, A, P; ) h 1 = (A, M, C, A, P) Segundo ejemplo (A, R, H, B, N; -) h 2 = h 1 = (A, M, C, A, P) Tercer ejemplo (A, R, H, A, P; ) h 3 = (A, x2, x3, A, P) Cuarto ejemplo (E, M, H, B, P; -) h 4 = h 3 = (A, x2, x3, A, P) Quinto ejemplo (A, M, C, N, P; ) h 5 = (A, x2, x3, x4, P) Concepto aprendido: Animales africanos en peligro de extinción

Algoritmo Find-S: Ejemplo (Cont.) InstanciasX Hipótesis H - x 2 h 0 Específico h 1,2 x 1 x 3 h 3,4 - x 4 x 5 h 5 General x1 = (A, M, C, A, P, ) x2 = (A, R, H, B, N, -) x3 = (A, R, H, A, P, ) x4 = (E, M, H, B, P, -) x5 = (A, M, C, N, P, ) h 0 = (,,,, ) h1 = (A, M, C, A, P) h2 = (A, M, C, A, P) h3 = (A, x2, x3, A, P) h4 = (A, x2, x3, A, P) h5 = (A, x2, x3, x4, P)

Inconvenientes del algoritmo Find-S La hipótesis de salida del algoritmo no garantiza la unicidad La hipótesis de salida del algoritmo siempre es la más específica El algoritmo Find-S es muy sensible al ruido. El algoritmo Find-S falla cuando en el espacio de hipótesis elegido existen varias hipótesis específicas, consistentes y maximales

Algoritmo Eliminación de Candidatos : Ejemplo Inicio S 0 ={(,,,, )} G 0 ={(x1, x2, x3, x4, x5)} Primer ejemplo, d = (A,M,C,A,P,) G 0 es consistente con d G 1 =G 0 {(x1, x2, x3, x4, x5)}. s 01 S 0 es inconsistente con d, se elimina de S y se añaden todas las generalizaciones minimales de s 01 para contener a d S 1 ={(A, M, C, A, P)} Se cumple que g 11 es más general que s 11 y, además, no aplica [2.1.3]. Segundo ejemplo, d = (A,R,H,B,N,-) S 1 es consistente con d S 2 =S 1 ={(A, M, C, A, P)}. g 11 G 1 es inconsistente con d. Se elimina de G y se hacen todas las especializaciones minimales de g 11 que sean consistentes con d. Puesto que d es un contraejemplo, el conjunto de hipótesis que no incluyen el contraejemplo son: ( A R H B N) = A R H B N = = no A o no R o no H o no B o no N La especialización minimal de g 11 es: G 2 ={(no A, x2, x3, x4, x5), (x1, no R, x3, x4, x5), (x1, x2, no H, x4, x5), (x1, x2, x3, no B, x5), (x1, x2, x3, x4, no N)} Para todo h G 2, algún miembro de S 2 debe ser más específico que h: G 2 ={(x1, M, x3, x4, x5), (x1, x2, C, x4, x5), (x1, x2, x3, A, x5), (x1, x2, x3, x4, P)}

Tercer ejemplo, d = (A,R,H,A,P,) Como {(x1, M, x3, x4, x5), (x1, x2, C, x4, x5)} G 2 son inconsistentes con d, se eliminan de G G 3 ={ (x1, x2, x3, A, x5), (x1, x2, x3, x4, P)} s 21 S 2 es inconsistente con d. Se elimina de S y se añaden todas las generalizaciones minimales de s 21 que contengan a d S 3 ={(A, x2, x3, A, P)} Cualquier hipótesis contenida en G 3 es más general que la obtenida en S 3. Cuarto ejemplo, d = (E,M,H,B,P,-) S 3 es consistente con d S 4 =S 3 ={(A, x2, x3, A, P)}. Qué hipótesis de G 3 son consistentes con d: g 31 = (x1, x2, x3, A, x5) sí lo es. g 32 = (x1, x2, x3, x4, P) no lo es. Se elimina de G y se hacen todas las especializaciones minimales de g 32 que sean consistentes con d: G 4 ={(no E, x2, x3, x4, P), (x1, no M, x3, x4, P), (x1, x2, no H, x4, P), (x1, x2, x3, no B, P)} Por tanto G 4 = g 31 G 4 Para todo h G 4, algún miembro de S 4 tiene que ser más específico que h: G 4 = {(x1, x2, x3, A, x5), (A, x2, x3, x4, P), (x1, x2, x3, A, P)} Finalmente, como g 41 es más general que g 43 G 4 = {(x1, x2, x3, A, x5), (A, x2, x3, x4, P) }

Quinto ejemplo, d = (A,M,C,N,P,) De las hipótesis de G 4 sólo (A, x2, x3, x4, P) es consistente con d: G 5 = G 4 ={(A, x2, x3, x4, P)} s 41 S 4 es inconsistente con d. Se elimina de S y se añaden todas las generalizaciones minimales de s 41 que contengan a d S 5 ={(A, x2, x3, x4, P)} Cualquier hipótesis contenida en G 5 es más general que la obtenida en S 5. Fin del algoritmo Como G = S, el algoritmo finaliza obteniendo como concepto aprendido: Animales (de origen) A-fricano en (situación) P-eligro de extinción Comparativa en cuanto al tiempo de cálculo y costes máximos de almacenamiento de los algoritmos Find-S y Eliminación de candidatos Estrategia Tiempo Espacio de almacenamiento Find-S O(spn s 2 p) O(s n) Espacio de Versiones O(sg (p n) s 2 p g 2 n) O(s g) p = No. de instancias positivas n = No. de instancias negativas s = tamaño máximo alcanzado por el conjunto S g = tamaño máximo alcanzado por el conjunto G

Limitaciones del algoritmo eliminación-candidatos El espacio de versiones aprendido por el algoritmo converge hacia la hipótesis que describe el concepto objetivo siempre que: [1] No hay errores en el conjunto de ejemplos de entrenamiento. [2] El concepto objetivo buscado pertenece al espacio de hipótesis H. Corolario: Si, dados H y D, el algoritmo converge a un espacio de versiones vacío, entonces la causa es debida al no cumplimiento de las condiciones [1] y/o [2].

Cómo utilizar conceptos parcialmente aprendidos (espacio de versiones) para clasificar nuevos ejemplos Si en el caso anterior sólo existiesen los 4 primeros ejemplos, el algoritmo no aprendería el concepto objetivo. No obstante, existe un conocimiento parcial del concepto igual a su espacio de versiones. S 4 : {(A, x2, x3, A, P)} (x1, x2, x3, A, P) (A, x2, x3, A, x5) (A, x2, x3, x4, P)} G 4 : {(x1, x2, x3, A, x5), Espacio de Versiones [I] [II] [III] Origen A(frica) A(frica) AM(érica) Clase Pez Pez Pez Alimentación Insectívoro Insectívoro Insectívoro Valor Alto Normal Alto Situación Peligro Peligro Normal Ejemplo??? Nuevas instancias de clasificación desconocida La instancia [I], (A, P, I, A, P) D, es clasificada como positiva por todas las hipótesis en el actual espacio de versiones Instancia positiva. La instancia [II], (A, P, I, N, P) D, es clasificada como negativa por todas las hipótesis en el espacio de versiones Instancia negativa. La instancia [III], (AM, P, I, A, N) D, es clasificada como positiva por sólo una hipótesis del espacio de versiones y negativa por las otras cuatro hipótesis restantes. Si se asume que todas las hipótesis en H son igualmente probables a priori, entonces: p = 1/5 instancia positiva p = 4/5 instancia negativa

Formas de suministrar los ejemplos al algoritmo [1] El profesor selecciona previamente el conjunto de entrenamiento. Los ejemplos se suministran secuencialmente al aprendiz. [2] En cada iteración, es el propio aprendiz el que elige la instancia siguiente a procesar. Un oráculo externo establece su clasificación correcta. El aprendiz la procesa. Si se elige la opción [2], la mejor estrategia que debería seguir el aprendiz para aprender con el mínimo número de ejemplos, sería aquella que permita reducir las hipótesis contenidas en el espacio de versiones, en el momento actual, justo a la mitad. El número de instancias necesarias para aprender el concepto objetivo será: log 2 H ini donde H ini es el número de hipótesis totales contenidas en el espacio de hipótesis.