Guía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A)

Documentos relacionados
Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Aux 6. Introducción a la Minería de Datos

Tema 7: Aprendizaje de árboles de decisión

Problemas de programación entera: El método Ramifica y Acota. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Modelos elección discreta y variable dependiente limitada

Tema 8: Árboles de decisión

Análisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez

Aprendizaje Automatizado

Análisis de Datos y Probabilidad Grado 9

Anota aquí tus respuestas para esta sección Distribución Z

CC40A Complejidad de Kolmogorov

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Técnicas de Minería de Datos

Colas deprioridad y heaps

Tema 5. Muestreo y distribuciones muestrales

Inducción de Árboles de Decisión ID3, C4.5

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Tema 8. Fundamentos de Análisis discriminante

Definición 1.1 Sea G = (V, A) un grafo no dirigido. G se denomina árbol si es conexo y no contiene ciclos.

Redes Bayesianas (1) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Aprendizaje Supervisado Árboles de Decisión

Análisis de la Varianza (ANOVA) y Correlación

Aprendizaje Automatizado. Árboles de Clasificación

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Tema 4: Probabilidad y Teoría de Muestras

Modelos de suavizado, aditivos y mixtos

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Métodos Estadísticos Multivariados

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Complejidad computacional. Algoritmos y Estructuras de Datos I. Complejidad computacional. Notación O grande

Árboles. Un grafo no dirigido es un árbol si y sólo si existe una ruta unica simple entre cualquiera dos de sus vértices.

3. Árboles de decisión

CRITERIOS DE SELECCIÓN DE MODELOS

ESTRUCTURA DE DATOS. ABB Arboles de Búsqueda Binaria

Tema 2: Análisis Discriminante

Resolución de ecuaciones no lineales y Método de Bisección

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 6)

Capítulo 8. Árboles. Continuar

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

(d) Puede haber estrategias que funcionan mejor que Minimax si el contrincante es

Preparación de los datos de entrada

Al reemplazar la varianza muestral en la fórmula obtenemos otra expresión de la distribución chi-cuadrada:

Nicolás Rivera. 20 de Marzo de 2012

Árboles AVL. Lección 14

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

Cuadratura de Newton-Cotes

CURSO: ANALISIS ESTADISTICO DE RIESGOS

Intervalos de confianza con STATGRAPHICS

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Reconocimiento de Patrones

Matemáticas Discretas Tc1003 Teoría de Grafos

Tema 7 Intervalos de confianza Hugo S. Salinas

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

b) Use la salida de SPSS para reproducir lo que pueda de los cálculos que hace SPSS. Estadísticos de contraste b TIEMPO

Distribución Chi (o Ji) cuadrada (χ( 2 )

MATRIZ DE ARBOLES DE DECISION

PROGRAMA DE CURSO. Código Nombre MA3402 Estadística Nombre en Inglés Statistics SCT Requisitos. DIM Resultados de Aprendizaje

Distribución normal. Resumen. Estadística Aplicada a la Investigación en Salud Medwave. Año XI, No. 5, Mayo Open Access, Creative Commons.

Teorema Central del Límite (1)

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

INDICE. Prólogo a la Segunda Edición

Distribuciones de Probabilidad.

11.SISTEMAS DE ECUACIONES LINEALES DEFINICIÓN DE ECUACIÓN LINEAL DEFINICIÓN DE SISTEMA LINEAL Y CONJUNTO SOLUCIÓN

Contenido PARTE II: ESTRUCTURAS DE DATOS AVANZADAS

Estructura de datos y algoritmos. Tema V TDA DINÁMICOS NO LINEALES: Árboles: árboles binarios

4. Resolución de indeterminaciones: la regla de L Hôpital.

Guía del Capítulo 3. SISTEMAS DE PARTÍCULAS. A un sistema particulado se le efectúa un análisis por tamizado dando los siguientes resultados:

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

FACULTAD DE CIENCIAS ECONOMICAS LIC. EN ADMINISTRACION CONTADOR PUBLICO ESTADISTICA

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Estructuras de Datos. 8.6 Árboles B. Supongamos que los nodos de un árbol deben ser guardados en un medio de almacenamiento secundario (disco).

Jerarquía de Almacenamiento

Tema 6: Introducción a la Inferencia Bayesiana

DISTRIBUCION JI-CUADRADA (X 2 )

UNIDAD 2. Lenguaje algebraico

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Área Académica: Ingeniería en Computación. Materia: Introducción a la Electrónica Digital

CURSO CERO DE MATEMATICAS. Apuntes elaborados por Domingo Pestana Galván. y José Manuel Rodríguez García

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

Un paquete de problemas de potenciación

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

RELACIÓN DE PROBLEMAS DE CLASE DE PROGRAMACIÓN LINEAL ENTERA

CAPÍTULO. Métodos numéricos

Lección 5. Punto flotante

ESTADÍSTICA INFERENCIAL

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Inteligencia Artificial Técnicas de clasificación

CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE EVALUABLES

Análisis Probit. StatFolio de Ejemplo: probit.sgp

FORMATO BINARIO DE NÚMEROS NEGATIVOS

Índice. Funciones de Maple

Las herramientas básicas de la epidemiología analítica: Medidas de asociación y significación estadística

Muestreo de variables aleatorias

Matemática. Desafío. GUÍA DE EJERCITACIÓN AVANZADA Cálculo de medidas de dispersión y muestreo GUICEN041MT22-A16V1

ECUACIONES.

Transcripción:

Guía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A) 6 de noviembre de 2007 1. Arboles de Decision 1. Investigue las ventajas y desventajas de los árboles de decisión versus los siguientes tipos de modelos: (a) redes Neuronales, (b) redes Bayesianas, (c) discriminantes lineales. 2. En la construcción de un árbol de decisión, diga los tipo de splits se favorecen usando GiniSplit versus Entropía. 3. Dé como ejemplo un conjunto de datos y un split deciente sobre ellos que se obtendría usando tanto GiniSplit como Entropía, debido a que éstos dos criterios favorecen splits con muchos hijos. Investigue dos técnicas para solucionar el problema. 4. Explique el fenómeno de sobreajuste de un árbol de decisión dando un gráco que muestre cómo se comporta el error de un árbol versus su tamaño. 5. Corra J48 (Weka) sobre whether.nominal sin poda y obtenga un modelo. Seleccione un nodo y diga si podarlo o no (sin usar Weka) en base a la técnica de poda basada en estimación del error usando datos de prueba. 6. Sobre el árbol obtenido anteriormente aplique poda usando test de Chicuadrado y poda basada en reglas. 7. Construya un árbol y conjunto de datos en los cuales no se pode un nodo usando poda basada en reducción del error y se pode el nodo usando poda basada en PDM. 8. ¾Qué ventajas tiene la poda basada en reglas sobre poda basada en reducción del error sin transformar a reglas? 9. Dé un ejemplo concreto de un árbol de decisión y datos de prueba para los cuales la poda basada en reglas es ventajosa sobre la poda basada en reducción del error sin reglas. 1

10. Dado un conjunto D de N objetos con un atributo numérico A y un atributo de la clase C, con dos clases. Supongamos que estamos evaluando el GINISPLIT de "splits"binarios de la foma (A v, A > v) y ya sabemos el número de objetos en cada clase. ¾Cuántos contadores y operaciones de incremento de éstos se necesitan para computar los GINISPLITS en una única lectura de D, (1) asumiendo que D está ordenado por A, y (2) asumiendo que D no está ordenado por A? 11. Diga cuánto sería el costo Costo(D M) para (a) un árbol a cuyas hojas están asociado sólo objetos de una única clase, y (b) un árbol cuyas hojas tienen objetos en partes iguales en dos clases. 12. Considere el árbol de la gura 1. Tras aplicar al modelo a un conjunto de datos de poda, obtenemos las siguientes frecuencias de ocurrencia de las clases para las hojas del subárbol bajo el nodo t 1 : Nodo YES NO t 3 20 5 t 4 4 30 t 5 4 20 Muestre cómo quedaría el subárbol bajo t 1 después de aplicar poda basada en reducción del error (use 80 % de nivel de conanza). 13. Para el árbol y datos de poda del ejercicio 11, si conviene podar el nodo t 2 aplicando test de chi-cuadrado con un 95 % de nivel de conanza. 14. Para el árbol y datos de poda del ejercicio 11, considere la regla asociada a la hoja t 4. Diga si conviene o no podar la condición #CHILDREN > 0 de esta regla (use nivel de conanza 80 % para estimar el error). 15. Para el árbol y datos de poda del ejercicio 11, diga si conviene reemplazar el nodo t 1 por una hoja, usando el test de chi-cuadrado con un 95 % de nivel de conanza. 16. Para el árbol y datos de poda del ejercicio 11 diga usando poda basada en el principio de descripción mínima si conviene o no podar el subárbol bajo el nodo t 2. 2. Evaluación de Modelos de Clasicación 1. Si en un experimento de validación cruzada sobre 100 datos con 6 folds se obtienen las siguientes tasas de errores: 0,2, 0,2, 0,3, 0,4, 0,25, 0,7, dé una estimación del error con 90 % de conanza. 2. Usando la estadística t-test, compare el modelo del ejemplo anterior con otro que obtuvo las siguientes tasas de errores (en el mismo experimento de validación cruzada): 0,25, 0,34, 0,1, 0,3, 0,5, 0,7. 2

3. Supongamos que evaluamos un modelo y encontramos r = 300 datos mal clasicados. Estime el error, con nivel de conanza 90 %, si tenemos n = 1000, n = 2000 y n = 3000 datos. ¾Cuántos datos se requieren para tener un error en un rango de 0,1 con nivel de conanza 90 %? Figura 1: Arbol de Decisión 4. Diga las ventajas y desventajas de las siguientes estrategias para evaluar un modelo: hold out, validación cruzada, leave-one-out Holdout. ¾En qué situaciones usaría cada una de ellas?. 5. ¾Por qué es importante contabilizar el costo de los errores en modelos de clasicación? Dé un ejemplo realista. Explique dos técnicas para generar modelos que minimicen el costo de los errores. 3. Resolución de algunos ejercicios Ejercicio 1.12 De la fórmula vista en clases para el estimar el error, el error si podamos un nodo t es el siguiente: R t + Z2 R 2 + Z R2 + Z2 4N 2 t ErrorPodado(t) =, (1) 1 + Z2 3

done, es el número de datos en el nodo t, R t es la frecuencia de datos mal clasicados en el nodo t, y Z es tal que P (X Z) = 1 NivelConfianza 2, donde X distribuye Normal(O, 1). Z se obtiene consultando una tabla de valores z para la distribución normal unitaria. Para NivelConfianza = 80 %, obtenemos Z = 1,28. Si no podamos un nodo t, su error sería: { N Σ ti i Error(t) = Error(t i ) si t es un nodo interior (2) ErrorPodado(t) si t es un nodo hoja donde los t i 's son los nodos hijos de t. Para asegurarnos que el resultado de la poda sea el subárbol de t 1 con menor error, procedemos podando en forma bottom-up. Luego, primero vericamos si podamos el nodo t 2. Para t 2, tenemos 2 =, R t2 = 24 = 0,4 (recordemos que si podamos asignamos la clase mayoritaria al nodo que para t 2 podado sería NO). Aplicando la formula 1 obtenemos ErrorPodado(t 2 ). Ahora, aplicando la formula 2 el error de t 2 si no podamos es Error(t 2 ) = 25 ErrorPodado(t 3) + 34 ErrorPodado(t 4). Luego, podamos t 2 ssi Error(t 2 ) ErrorPodado(t 2 ). El ejercicio se completa calculando los errores y continuando el procedimiento de poda evaluando si podamos el nodo t 1 (en base a si se podó o no el nodo t 2 ). Ejercicio 1.13 Denotemos X la variable binaria que dene el split, donde: { 0 si #CHILDREN = 0 X = 1 si #CHILDREN > 0. Luego usamos el test de chi-cuadrado para decidir si existe dependencia X y la variabl de la clase, para los datos asociados al nodo t 2. La tabla de contingencia entre las dos variable seria: X = 0 X = 1 Total Clase = YES 20 4 24 Clase = NO 5 30 35 Total 25 34 El ejercicio se completa calculando el estimador χ 2 para esta tabla, si este es menor que 3,84 conviene podar el nodo. (3) 4

Ejercicio 1.15 Debemos evaluar si el subárbol completo bajo t 1 es signicativo de acuerdo al estimador chi-cuadrado. Denimos una variable X ahora asociada a los splits combinados del subárbol. 0 si AGE 30 X = 1 si AGE > 30 y #CHILDREN = 0 (4) 2 si AGE > 30 y #CHILDREN > 0. X = 0 X = 1 X = 2 Total Clase = YES 4 20 4 28 Clase = NO 20 5 30 55 Total 24 25 34 83 El ejercicio se completa calculando el estimador χ 2 para esta tabla, si este es menor que 3,84 conviene reemplazar el nodo por una hoja. Ejercicio 1.16 El principo de descripción mínima dice que el costo de un modelo M sobre un conjunto de datos D se dene como: C(M, D) = C(M) + C(D M), donde C(M) es el costo en bits de trasmitir el modelo y C(D M) es el costo en bits de trasmitir los datos codicados usando el modelo. Si el nodo t se poda, el modelo sólo contiene la distribución de probabilidades de las clases asociada al nodo (suponemos que el árbol guarda esta distribución en cada hoja, en lugar de guardar sólo el valor de la clase mayoritaria). Luego, C(M) es el costo de enviar esta distribución y C(D M) es el costo de enviar las clases asumiendo que la codicamos ecientemente usando la distribución de prob. asociada al nodo. Luego, denimos el costo si el nodo se poda: ( ) Nt + m 1 CostoPodado(t) = Entropia(t) + log, (5) m 1 donde es el número de datos en t y m es el número de clases. La entropía del nodo se calcula según se explicó en clases (ver apuntes) (y como se explica arriba representa C(D M)). Como se explicó en clases, la expresión ( ) +m 1 m 1 representa el número posible de distribuciones de probabilidad que puede tener un nodo con elementos y m clases. Este número es equivalente al número de soluciones enteras positivas de la ecuación:,c1 +,c2 +... +,cm =, 5

donde,ci es el número de datos que pertenecen a la clase c i en el nodo t. De la fórmula 5, tenemos el siguiente costo si t 2 se poda: CostoPodado(t) = Entropia(t 2 ) + log ( ) +2 1 2 1 Y tenemos que Luego Entropia(t 2 ) = 35 35 log 24 24 log = 0, 97 CostoPodado(t 2 ) = 0, 97 + log 60 = 63, 13 Ahora debemos estimar el costo de un nodo t si no lo podamos. En este caso debemos incluír el costo en bits de codicar el split del nodo. Luego tenemos Costo(t) = { 1 + log(a) + log(s) + Σ i Costo(t i ) si t es un nodo interior 1 + CostoPodado(t) si t es un nodo hoja (6) donde A es el número de atributos que considera el modelo, S es el número posible de splits que se podrían tener usando el atributo del nodo t, y los t i 's son los nodos hijo de t. El 1 de cada fórmula es el costo de codicar si el nodo es interior u hoja (con este bit codicamos la estructura del árbol). Para el nodo t 2 tenemos A = 3 y S = 10 (consideramos 10 posibles splits, es decir consideramos que la condición de la izquierda de cada split puede ser uno de #CHILDREN = 0, #CHILDREN = 1..., hasta #CHILDREN = 9). Costo(t 2 ) = 1 + log(3) + log(10) + 1 + CostoPodado(t 3 ) + 1 + CostoPodado(t 4 ). Usando la fórmula 5, tenemos que CostoPodado(t 3 ) = 25 0, 72 + log 26 = 22, 70 y tenemos que CostoPodado(t 4 ) = 34 0, 52 + log 35 = 22, 81. Luego Costo(t 2 ) = 1 + 1, 58 + 3, 32 + 1 + 22, 70 + 1 + 22, 81 = 53, 42. Luego Costo(t 2 ) < CostoPodado(t 2 ), entonces no conviene podar t 2. 6