Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Documentos relacionados
Aprendizaje Automatizado. Árboles de Clasificación

Evaluación de modelos para la predicción de la Bolsa

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

JUEGOS. Área de aplicación de los algoritmos heurísticos Juegos bi-personales: oponente hostil

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Aprendizaje Supervisado Árboles de Decisión

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

Aprendizaje Automatizado

Teoría de la decisión

El método main de la clase PruebaArbol, empieza creando una instancia de un objeto Árbol vacío y asigna su referencia a la variable árbol

Análisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Bachillerato Internacional. Matemáticas Nivel Medio. Programa para el curso 1º ( )

(d) Puede haber estrategias que funcionan mejor que Minimax si el contrincante es

ALGORITMO ID3. Objetivo

Tema 7: Aprendizaje de árboles de decisión

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO

Contenido Objetivos División Sintética de Polinomios. Carlos A. Rivera-Morales. Precálculo 2

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

Estadís6ca y Métodos Numéricos Tema 6. Modelos de Regresión

Puntuación Z ESTADÍSTICA APLICADA A LA EDUCACIÓN I. L.A. y M.C.E. Emma Linda Diez Knoth

Tercera práctica de REGRESIÓN.

Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

Contenido Objetivos División Sintética de Polinomios. Carlos A. Rivera-Morales. Precálculo II

Aplicaciones del Análisis estadístico multivariado - Ejercicios Clase EJERCICIOS CLASE 6. Arboles de Regresión

RELACIÓN DE PROBLEMAS DE CLASE DE PROGRAMACIÓN LINEAL ENTERA

Método de cuadrados mínimos

Técnicas de Minería de Datos

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

Expresión decimal. Aproximación y estimación. Notación científica. Polinomios. Divisibilidad de polinomios. Regla de Ruffini.

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Análisis matemático de la función de Nelson y Siegel

Árboles. Un grafo no dirigido es un árbol si y sólo si existe una ruta unica simple entre cualquiera dos de sus vértices.

Multiple Linear Regression

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 2. Descripción Conjunta de Varias Variables

3. Árboles de decisión

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Objetivos. Aprender a construir gráficos p y/o np. Aprender a construir gráficos c y u. Cuando usarlos. Epígrafes

PENDIENTES DE MATEMÁTICAS DE 3º ESO (CURSO )

En ciencias e ingeniería (experimentales) es imprescindible realizar mediciones, que consisten en obtener

Medidas de tendencia central

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

7.- Teorema integral de Fourier. Transformada de Fourier

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Análisis de Datos. Práctica de métodos predicción de en WEKA

Dimensionamiento y Planificación de Redes

4º E.S.O. Matemáticas A

Prueba de Hipótesis. Para dos muestras

Tema Árboles generales. 9.2 Árboles binarios 9.3 Árboles de búsqueda

Unidad 2: Ecuaciones, inecuaciones y sistemas.

Ejercicio 1 (20 puntos)

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

TEMA 10 COMPARAR MEDIAS

CRITERIOS DE SELECCIÓN DE MODELOS

Cómo se usa Data Mining hoy?

Clase adicional 9. Listas enlazadas. Temas. Listas enlazadas Árboles Problemas de la clase adicional Ejercicios de diseño

4º E.S.O Opción A: DEPARTAMENTO DE MATEMÁTICAS

Fase 2. Estudio de mercado: ESTADÍSTICA

ESTADÍSTICA CICLO 6 CAPACITACIÓN 2000

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

Breve introducción a la Investigación de Operaciones

SUBTOTALES EXCEL Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

Relación entre la altura y la distancia del suelo al ombligo

Repaso de estadística básica. Juan D. Barón Santiago de Chile, 8 de abril de 2013

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 10

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Cap. 5 : Distribuciones muestrales

Aux 6. Introducción a la Minería de Datos

Tipos algebraicos y abstractos. Algoritmos y Estructuras de Datos I. Tipos algebraicos

4ta. Práctica. Búsqueda en árbol con contrincante: MiniMax con poda Alfa-Beta. Inteligencia Artificial Prácticas 2004/2005

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Tema1: Introducción a La Estadística 1.1-1

Ejercicio resuelto con tabla de decisión. Tarjetas. Pseudocódigo y diagramas de flujo. (CU00258A)

CONTENIDOS MÍNIMOS MATEMÁTICAS 2º Y 4º E.S.O.

Coeficiente de Correlación

4. Regresión Lineal Simple

UNIDAD 12: ESTADISTICA. OBJETIVOS

Guía docente 2007/2008

Estadística. Análisis de datos.

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Documento de Trabajo. Debo inscribir más de 22 créditos?

Clasificación de los Convertidores DAC

Ejemplo: El problema de la mochila. Algoritmos golosos. Algoritmos y Estructuras de Datos III. Segundo cuatrimestre 2013

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

de 1 a 3 15 Desarrollo de ideas y precisión proposi Conclusión de 0 a 1 de 1 a 3

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Aprendizaje Automático

Fundamentos de Estadística y Simulación Básica

Medidas de dispersión

Lección 10: División de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA

Transcripción:

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL En esta clase se presenta un método de inducción de modelos numéricos de regresión a partir de datos. En el tema de técnicas clásicas se presentó la regresión lineal como técnica muy potente para determinar funciones lineales de manera óptima y con un procedimiento eficiente y escalable. Sin embargo, la limitación clara es la linealidad, aspecto que se ha intentado superar con diferentes aproximaciones. Se presentan aquí las estrategias de inducción de árboles de predicción numérica, distinguiéndose los árboles de regresión, que aproximan la función mediante tramos constantes, y los árboles de modelos, que aproximan con una serie de modelos lineales por tramos. Aquí se presenta el método M5, detallando las fases que lleva a cabo para construir el modelo numérico: Construcción del árbol con heurísticas para determinar cada atributo que mejor divide los datos en un proceso recursivo Construcción de modelos lineales en las hojas y nodos del árbol Poda de los modelos lineales, eliminando atributos no significativos Poda del árbol, eliminando niveles con el objetivo de mejorar la generalización y continuidad del modelo global El proceso constructivo se ilustra con ejemplos y para concluir se presentan aspectos prácticos que aparecen en conjuntos de datos reales: datos incompletos y mezcla de datos numéricos y datos nominales..

Predicción numérica Técnicas de regresión y predicción de datos Jesús García Herrero Universidad Carlos III de Madrid

Muchas veces las clases son contnuas (bolsa, CPU, ) Clásicamente, se ha utilizado la regresión lineal, pero los modelos obtenidos sólo operan con atributos numéricos se impone una dependencia puramente lineal Los árboles de regresión se generan de forma similar a los de decisión, con valores promedio en cada hoja. CART (Breiman 84) M5 (Quinlan, 93) es una variación de CART que genera modelos lineales en las hojas, árbol de modelos, en lugar de valores numéricos. El nuevo heurístico para separar ejemplos no es la entropía de clases, sino la varianza del error en cada hoja

Sí Salario<4? No Sí Salario<4? 7.32 Edad<30? C=0.8*Salario-0.7 No Sí Hijos>2? No Salario<7? Sí Edad<30? No 8.56 10.2 9.3 11.5 C=0.2*Salario + 0.9*Edad-0.3 C=0.4*Salario + 0.2*Edad-0.6 árbol de regresión árbol de modelos

Construcción del árbol Heurística: minimizar la variación interna de los valores de la clase dentro de cada subconjunto Medida concreta: elegir aquel atributo que maximice la reducción de la desviación estándar del error (SDR), con la fórmula: donde: SDR SD(E) E es el conjunto de ejemplos en el nodo a dividir Ej son los ejemplos con valor j del atributo considerado. es el número de ejemplos en cada conjunto SD(C) es la desviación típica de los valores de la clase en C Finalización: pocos ejemplos (2), o poca variación de los valores de clase (5% del valor en el conjunto de instancias original) j E E j SD(E j )

Estimación del error Cálculo de la desviación estándar del error en un conjunto I: donde: n= I e(i) 1 n i I c(i) c(m,i) c(i) es la clase de la instancia i c(m,i) es la clase predicha con el modelo m para la instancia i durante la construcción del árbol, el modelo es el valor medio en cada hoja en la poda, se construye un modelo MC para predecir hay versiones con desviación estándar y otras con suma de módulos

Ejemplo Sí A i < 8.5? No A i =3 C=14 A i =8 C=14.5 A i =11 C=21 A i =9 C=19.5 A i =13 C=20 A i =11 C=21 A i =3 C=14 A i =8 C=14.5 A i =9 C=19.5 A i =13 C=20 SD=2.94 SD(A i )=2/5*0.25+3/5*0.62=0.47

Construcción del árbol Ejemplos con faltas SDR m es el número de instancias sin faltas en ese atributo Atributos nominales m SD(E) E j Un atributo con k valores se transforma en k-1 atributos binarios: se ordenan los valores según el valor de la clase cada atributo binario es un posible punto de separación: 0,1 Ej: Motor = {A, B, C, D}, con clases 10, 11, 8, 7 D vs C, A, B D, C vs A, B D, C, A vs B Todos las decisiones son binarias! E E j SD(E j )

Poda del árbol Primero se obtiene un modelo de regresión lineal para cada uno de los nodos interiores del árbol no podado: a 0 +a 1 x 1 +a 2 x 2 +.+a k x k x 1, x 2,, x k son los atributos que aparecen únicamente en el subárbol que hay por debajo para los atributos nominales, cada atributo sintético binario puede tomar valores {0,1} El subárbol se poda si el error sobre nuevas instancias es inferior con el modelo que con él heurístico: (n+v)/(n-v) n es el número de instancias que alcanzan el nodo v es el número de parámetros en el modelo lineal permite simplificar el modelo quitando atributos

Pseudocódigo M5 M5 (ejemplos) { SD=sd(ejemplos) para cada k-val atributo nom. crear k-1 atributos binarios raiz=nuevo nodo raiz.ejemplos=ejemplos dividir(raiz) podar(raiz) } podar (nodo) { si (nodo.tipo=interior) podar (nodo.hijoizquierdo) podar (nodo.hijoderecho) nodo.modelo=regreslineal(nodo) si errorsubarbol(nodo)>error(nodo) nodo.tipo=hoja } dividir (nodo) { si (size(nodo.ejemplos)<4 o SD(nodo.ejemplos)<0.05*SD) si no nodo.tipo=hoja nodo.tipo=interior para cada atributo para cada posible división calcular SDR nodo.atributo=atributo con máximo SDR dividir (nodo.izquierdo) dividir (nodo.derecho) }

Ejemplo relation elusage (64 ejemplos) attribute average_temperature integer attribute month { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} attribute average_electricity_usage real 73,8,24.828 67,9,24.688 57,10,19.31 43,11,59.706 26,12,99.667 41,1,49.333 38,2,59.375

Ejemplo. Árbol de modelos Pruned training model tree: average_temperature <= 54.5 : average_temperature <= 38.5 : LM1 (12/58.6%) average_temperature > 38.5 : LM2 (16/45.6%) average_temperature > 54.5 : month=9,8,5,10,4,11,3,2,12,1 <= 0.5 : LM3 (8/15%) month=9,8,5,10,4,11,3,2,12,1 > 0.5 : LM4 (19/20.7%) Models at the leaves: LM1: average_electricity_usage = 169-2.74average_temperature LM2: average_electricity_usage = 49.1 + 15.1month=12,1 LM3: average_electricity_usage = 181-2.28average_temperature + 14.5month=7,9,8,5,10,4,11,3,2,12,1 LM4: average_electricity_usage = 25

Ejemplo. Árbol de regresión Pruned training regression tree: average_temperature <= 54.5 : LM1 (28/94.2%) average_temperature > 54.5 : LM2 (27/25.5%) Models at the leaves: Unsmoothed (simple): LM1: average_electricity_usage = 62.3 LM2: average_electricity_usage = 23.5

Ejemplo Árbol de regresión Árbol de modelos === Evaluation === === Summary === === Evaluation === === Summary === Correlation coefficient 0.8155 Mean absolute error 9.6511 Root mean squared error 13.7671 Relative absolute error 48.7555 % Root relative squared error 57.8696 % Total Number of Instances 55 Correlation coefficient 0.9454 Mean absolute error 5.7019 Root mean squared error 7.7566 Relative absolute error 28.8051 % Root relative squared error 32.6045 % Total Number of Instances 55

Suavizado para predicción Suele ser beneficioso evitar las discontinuidades mediante un proceso de suavizado, sobre todo con pocos ejemplos Se construyen modelos para todos los nodos (hojas e internos) El valor en el nodo hoja se filtra hacia atrás hasta el nodo raíz Predicción del valor de un ejemplo de test: se sigue el árbol hasta el modelo en la hoja correspondiente, y se obtiene el valor A continuación, se propaga hacia arriba el valor hasta la raíz: p' np n p: predicción que llega a este nivel p : predicción filtrada, para enviar hacia arriba n: número de ejemplos que alcanzan el nodo inferior k: factor de suavizado kq k