Tema 11: Inducción de Reglas p. 1/1

Documentos relacionados
Tema 9: Inducción de Reglas

Tema 9. Inducción de Reglas

Tema 8: Árboles de Clasificación

D conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.

Inducción de Reglas Proposicionales

Tema 15: Combinación de clasificadores

Tema 2: Algoritmos Genéticos

Tema 1. Heurísticos en Optimización Combinatorial

Tema 12. Selección de Variables

CAPITULO 5. FASE DE VERIFICACION

'type' <nombre conjunto> '=' 'SET OF' <tipo base>


Tema 5. Clasificadores K-NN

APRENDIZAJE DE REGLAS. Eduardo Morales y Jesús González

Inteligencia Artificial e Ingeniería del Conocimiento

Aprendizaje de Reglas

Inducción de Árboles de Decisión ID3, C4.5

Tema 5: Evaluación de Modelos de Clasificación Supervisada p. 1/2

SISTEMAS INTELIGENTES

ARBOLES BINARIOS ORDENADOS. REPRESENTACIÓN Y OPERACIONES

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación

El sintetizador de programas de Cornell

Programación Automática

Eduardo Mosqueira Rey Bertha Guijarro Berdiñas Mariano Cabrero Canosa

Tema 7: Aprendizaje de árboles de decisión

Tema 1. Heurísticos en Optimización Combinatorial

Universidad de Valladolid. Departamento de informática. Campus de Segovia. Estructura de datos Tema 4: Ordenación. Prof. Montserrat Serrano Montero

8- LEX-Expresiones regulares

ALGORITMO ID3. Objetivo

Tema 7: Teoría de la Información Estadística p. 1/16

TÉCNICAS DE CAJA BLANCA

Calidad del Software. Ejercicios Tema 4 Conceptos de pruebas

Aprendizaje Automatizado. Árboles de Clasificación

EJERCICIO 2 (3 PUNTOS) A) Sea el árbol binario AVL de la figura siguiente: B) Dada la estructura de la figura siguiente:

Tema 5: Lógica de orden superior en PVS

Si L es recursivo, entonces es recursivamente numerable

Diseño de algoritmos

= RETURN =3 7-. ELSE K

Tema 8: Árboles de decisión

Arboles de Decisión Representación de los árboles de decisión

Cómo Implementar una Ontología? Prolog Datalog Description Logic

Tema 3. Listas Recursión sobre datos

Tema 8: Teorema de Herbrand. Tableros en lógica de primer orden

Comparación de métodos de aprendizaje sobre el mismo problema

Texto estructurado (ST)

Descubrir los árboles como paradigma de los tipos Recursivos de Datos

Análisis y Diseño de Algoritmos Árboles de Mínima Expansión (Minimum Spanning Trees) DR. JESÚS A. GONZÁLEZ BERNAL CIENCIAS COMPUTACIONALES INAOE

El Nuevo Testamento en Achí de Cubulco de Guatemala, 2da ed. 2009, Wycliffe Bible Translators, Inc.

BD Activas: Motivación

Elemento crítico para la garantía de calidad del software y representa una revisión final de las especificaciones, del diseño y de la codificación.

5.6 Árbol generador de un grafo

Tema 3: Algoritmos para SAT: Tableros y algoritmo DPLL

Examen de Ficheros y bases de datos (cód. 520) Ingeniería Técnica en Informática de Gestión Convocatoria de junio II PARCIAL

Estructuras de Control. Cecilia Curlango Rosas

Metodologías de Desarrollo de Software

Controla el flujo de tokens reconocidos por parte del analizador léxico. 4.2 Introduccion a las gramaticas libres de contexto y arboles de derivacion

Compiladores: Sesión 6. Optimización

Tema 5. Análisis sintáctico ascendente

Inducción de Árboles de Decisión ID3, C4.5

Tema 8: Teorema de Herbrand. Tableros en lógica de primer orden

Diseño de algoritmos

6. Visualizar error, ingrese un numero que no sea cero

Tema: INTÉRPRETE ENSAMPOCO/3

Un módulo coherente sólo debe hacer (idealmente) una cosa. El objetivo que se intenta conseguir es obtener módulos con una alta cohesión.

Conjuntos y expresiones regulares. Propiedades de las expresiones regulares (1) Propiedades de las expresiones regulares (2)

Curso de Programación 1

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

Aprendizaje Automático: Arboles de Decisión.

Departamento de Inteligencia Artificial Facultad de Informática Universidad Politécnica de Madrid

Puede clasificarse en cuatro componentes básicas la eficiencia de un programa:

Estudiemos el siguiente problema, propuesto por Wirth y desarrollado por Dijkstra: Una lista de las primeras secuencias que cumplen es:

Convertir un AFND a un AFD

Inteligencia de Negocios

ALGORITMO: LENGUAJE C++: # include <iostream.h> # include <math.h> int main () Int num 1=0, num =0, d=0; Cout << ingrese primer numero: ;

Tema 5: Macros. Sesión 14: Macros

Algoritmo de Bresenham para Pintar Círculos y Cuádricas en General. Carlos E. Alvarez D

Archivos Indice. Indexación y. Asociación. Conceptos Básicos Indices Ordenados Arboles. Asociación. Docente: Albert A.

Tema 3.- Predicados y sentencias condicionales

Descomposicion en Polígonos Monótonos. comp-420

Universidad de Valladolid. Departamento de informática. Campus de Segovia. Estructura de datos Tema 1: Recursividad. Prof. Montserrat Serrano Montero

Tema 2: Métodos de Deducción para la Lógica Proposicional

3 Propiedades de los conjuntos regulares 3.1 Lema de Bombeo para conjuntos regulares

Tema 2: Métodos de Deducción para la Lógica Proposicional

El Perceptrón Multicapa

PROGRAMACIÓN DECLARATIVA

Localización en subdivisiones

PHP: Lenguaje de programación

Diseño Basado en Componentes Curso 2008 / 09

Apellidos:... Nombre:...

Teoría de la Información Estadística

PUBLICACIÓN DEL ENUNCIADO: Semana del 10 de noviembre de ENTREGA: Clase de laboratorio de la semana del 8 de diciembre de 2003.

Transcripción:

Tema 11: Inducción de Reglas Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco http://www.sc.ehu.es/isg/ Tema 11: Inducción de Reglas p. 1/1

Introducción Inducción de reglas, paradigma: Transparente Fácilmente comprensible y aplicable Mas genérico que los árboles de clasificación Tema 11: Inducción de Reglas p. 2/1

IREP (Fürnkranz y Widner, 1994): Reglas en forma normal disyuntiva Una regla (rule) está constituida por una conjunción de literales R j `X 7 = x 1 7 & `X14 = x 2 14 & `X24 = x 1 24 R j constituida por la intersección de los 3 literales siguientes: `X7 = x 1 7, `X14 = x 2 14 y `X24 = x 1 24 Un conjunto de reglas (rule set) está formado por una disyunción de reglas R 1 or R 2 or... or R k Una regla parcial (partial rule), R par j de una determinada regla R j está constituida por la intersección de un subconjunto de los literales a partir de los cuales se forma R j R par j `X 7 = x 1 7 & `X14 = x 2 14 es una regla parcial de la regla R j definida anteriormente Tema 11: Inducción de Reglas p. 3/1

D conjunto de casos o patrones etiquetados se particiona en dos subconjuntos: D pos conjunto de patrones positivos; D neg conjunto de patrones negativos Cada uno de los subconjuntos anteriores se subdivide en otros dos subconjuntos: D grow pos y D prune pos subconjuntos relacionados respectivamente con la construcción y el podado de las reglas Análogamente D grow neg y D prune neg D = Dpos D neg = (D grow pos D prune pos ) (D grow neg D prune neg ) Dpos D neg = D grow pos D prune pos = D grow neg D prune neg = Tema 11: Inducción de Reglas p. 4/1

Partición del fichero de casos etiquetados de partida D Tema 11: Inducción de Reglas p. 5/1

IREP induce basándose en Dgrow pos y D grow neg el conjunto de reglas (rule set) de manera voraz, escogiéndose en cada paso añadir el mejor literal a la regla parcial partial rule en construcción GrowRule añade de forma repetida a la regla parcial (partial rule) R par el literal que da origen a la regla parcial R par con mayor valor del criterio: v `R par, R par, D grow pos, D grow neg «pos pos = cu» log «2 + log 2 pos + neg pos + neg cu porcentaje de ejemplos positivos en Dgrow pos que siento cubiertos por R par están también cubiertos por R par (regla parcial más específica que R par ) pos número de ejemplos positivos cubiertos por R par en D grow pos neg número de ejemplos negativos cubiertos por R par en D grow neg pos número de ejemplos positivos cubiertos por R par en D grow pos neg número de ejemplos negativos cubiertos por R par en D grow neg Tema 11: Inducción de Reglas p. 6/1

Supongamos que la regla parcial, R par, cubre 90 ejemplos de los cuales 70 son positivos y 20 negativos R m,par especialización mala de R par, con la cual se van a cubrir 50 ejemplos positivos y 20 ejemplos negativos R b,par especialización buena de R par, la cual cubre 70 ejemplos positivos y 10 ejemplos negativos v (R par, R m,par, D grow pos, D grow neg ) [ ( = 50 70 ) ( 70 log2 90 + 50 )] log2 70 v ( ) R par, R b,par, D grow pos, D [ ( grow neg = 70 70 ) ( 70 log2 90 + 70 )] log2 80 El valor del criterio para R b,par es superior al correspondiente al R m,par Tema 11: Inducción de Reglas p. 7/1

El proceso de crecimiento, GrowRule, finaliza cuando no se encuentra ningún literal cuya inclusión en la regla parcial permita que la regla especializada mejore el criterio v (R par, R par, D grow pos, D grow neg ) ) Entonces comienza con el proceso de podado, PruneRule, de dicha regla PruneRule plantea el borrado, de manera secuencial, y empezando por el último literal introducido a la regla en su fase de crecimiento Se van a ir borrando (podando) literales mientras se mejore el criterio v (Rule, D prune pos, D prune neg ), siendo Neg neg v (Rule, D prune pos, D prune neg ) = pos P os + neg con: pos número de ejemplos positivos en Dprune pos cubiertos por la regla Neg número de ejemplos en Dprune neg neg número de ejemplos negativos en Dprune neg cubiertos por la regla Pos número de ejemplos en Dprune pos Tema 11: Inducción de Reglas p. 8/1

Procedure IREP Begin Ruleset= whiled P os = D Grow P os D P rune P os do /* Construir y podar una nueva regla */ Dividir D en D Grow P os D Grow Neg D P rune P os D P rune Neg Rule:=GrowRule(D Grow P os D Grow Neg ) Rule:=PruneRule(Rule, D P rune P os, D P rune Neg ) if la tasa de error de Rule en D P rune P os D P rune Neg > 50 % then return RuleSet else Añadir Rule a RuleSet Borrar ejemplos abiertos por Rule de D endif end while return RuleSet End Tema 11: Inducción de Reglas p. 9/1

RIP P ER (Repeated Incremental Pruning Produce Error Reduction) RIP P ER (Cohen (1995)) mejora de IREP en tres aspectos: 1. Métrica alternativa para la fase de poda R1 cubre 2000 ejemplos positivos en D prune pos y 1000 ejemplos negativos en D prune neg. R 2 cubre 1000 ejemplos positivos en D prune pos y 1 ejemplo negativo en D prune neg IREP va a preferir R1 a R 2, ya que 2000 + (Neg 1000) P os + Neg > 1000 + (Neg 1) P os + Neg y sin embargo es intuitivo que la R 2 es preferible a R 1 RIP P ER basa su poda en el criterio siguiente: v (Rule, D prune pos, D prune neg ) = P os neg P os + neg 2000 1000 3000 < 1000 1 1001 y R 2 se seleccionaría frente a R 1 Tema 11: Inducción de Reglas p. 10/1

RIP P ER (Repeated Incremental Pruning Produce Error Reduction) 2. Incorporación de un heurístico para determinar cuándo parar el proceso de añadir reglas 3. RIP P ER posteriormente a todo el proceso visto para IREP efectúa una búsqueda local para optimizar el conjunto de reglas (rule set) de dos maneras diferentes: Reemplazando una regla Ri que forma parte del rule set { R 1,..., R i 1, R i, R i+1,..., R k } por R i, siempre y cuando el rule set correpondiente tenga un menor error en la clasificación en D prune pos D prune neg Revisar una determinada regla Ri añadiendo literales para que así se consiga un menor error en D prune pos D prune neg Tema 11: Inducción de Reglas p. 11/1