Random Forests. Felipe Parra



Documentos relacionados
Generación de Números Pseudo-Aleatorios

Aula Banca Privada. La importancia de la diversificación

Programación Genética

ÍNDICE DE PRESION ECONÓMICA A LA DEFORESTACIÓN. Nota Metodológica

Capítulo 12: Indexación y asociación

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

ANÁLISIS DE SENSIBILIDAD OBJETIVO DEL ANÁLISIS

MÁQUINAS DE VECTORES DE SOPORTE

Portafolios Eficientes para agentes con perspectiva Pesos

Capítulo 6: Conclusiones

Intervalo para la media (caso general)

ESTIMACIÓN. puntual y por intervalo

de la empresa Al finalizar la unidad, el alumno:

Técnicas Multivariadas Avanzadas

Registro contable de Supuesto 10 Determinación del derivados OTC valor de una prima de opción (2)

Medias Móviles: Señales para invertir en la Bolsa

Análisis y cuantificación del Riesgo

CLASIFICACIÓN NO SUPERVISADA

Sistemas de Generación de Energía Eléctrica HIDROLOGÍA BÁSICA. Universidad Tecnológica De Pereira

CAPÍTULO 1: INTRODUCCIÓN. Todas las personas sabemos que la gran mayoría de las actividades humanas conllevan lo

MODELOS DE INVENTARIO

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS ECONÓMICO DE LOS CONFLICTOS

CAPÍTULO 13 CUESTIONARIO FALSO - VERDADERO

COMERCIALIZACIÓN DIRECTA DE CAFÉ MOLIDO CHIAPANECO A GRECIA: ADMINISTRACIÓN FINANCIERA DEL PROYECTO

EXPERIENCIAS EN LA IMPLEMENTACIÓN DE SISTEMAS DE PLANIFICACIÓN DE RECURSOS EMPRESARIALES (ERP) Ernesto Rivera Pitti Consultor Independiente

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA

Modelo de fuerza deportiva NOTA TÉCNICA

Complejidad - Problemas NP-Completos. Algoritmos y Estructuras de Datos III

ANÁLISIS DISCRIMINANTE

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Capítulo 3. Cómo evaluar un proyecto de inversión.

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

Ampliación de Estructuras de Datos

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA

Puede dar pérdida un Casino?

Conceptos De Motivación Básica

FocalPoint Business Coaching

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

ANALISIS MULTIVARIANTE

Práctica 5. Curso

La importancia de dimensionar correctamente los sistemas de frenado en aerogeneradores residenciales.

De qué se trata la Migración de Tarjeta de Débito? Este reemplazo de Tarjetas de Débito tiene costo?

Aumentando x 10 mis posibilidades de ganar. Las griegas

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Curso Gestión de Portafolios de Inversión de Reservas y Fondos Públicos. Valoración de instrumentos de renta fija

ESTIMACION DE INTERVALOS DE CONFIANZA

Análisis de dominancia usando ruby-statsample. Introducción. Instalación de Ruby y gemas. Windows

Los estados financieros proporcionan a sus usuarios información útil para la toma de decisiones

Matemáticas financieras y criterios de evaluación

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

La Rosa de Sombras de Viento

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

MÁQUINA DE VECTORES DE SOPORTE

Población, Unidad de Análisis, Criterios de Inclusión y Exclusión.

Pronósticos. Pronósticos y gráficos Diapositiva 1

Guía del sitio Evaluación de teamseoblasteo 1

DESCRIPCIÓN DE LA METODOLOGÍA UTILIZADA EN EL PROGRAMA DE CESTAS REDUCIDAS ÓPTIMAS

LAS ENCUESTAS DE PANEL FERNANDO MEDINA CEPAL

Seis Sigma. Nueva filosofía Administrativa.

Experimentos con un solo factor: El análisis de varianza. Jhon Jairo Padilla Aguilar, PhD.

CAPÍTULO 1: INTRODUCCIÓN. El presente capítulo muestra una introducción al problema de Optimizar un Modelo de

Curso Comparabilidad de resultados

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO

PLATAFORMA DE PUBLICIDAD AD SYSTEM COMISION POR RECOMENDACÍON (INDIVIDUAL Y MUNDIAL) *CREDITOS *RANGOS PUBLIPACKS

VI. TASA DE RETORNO REQUERIDA

Tutorial - Parte 2: Scoring

DETERMINACIÓN DEL COEFICIENTE BETA (β) o RIESGO NO DIVERSIFICABLE

FINANZAS: Gestionando para el emprendimiento

MANUFACTURA ESBELTA TPM MANTENIMIENTO PRODUCTIVO TOTAL

Ensayo: Construcción de la Frontera Eficiente de Markowitz mediante el uso de la herramienta SOLVER de Excel y el modelo Matricial.

Análisis de costos proyectado de la plataforma SAP HANA

GESTIÓN DE DEMANDA: SISTEMAS DE TARIFICACIÓN DE SERVICIOS

8. Estimación puntual

PUBLICIDAD INTERNET. es la. puerta. mercado. crecimiento. en el mundo del INTERNET

UN MODELO DE PRONÓSTICO PARA LAS PRIMAS DE SEGUROS DE VIDA Y PERSONAS

TEMA 5 ESTUDIOS CORRELACIONALES.

Comente: Los bancos siempre deberían dar crédito a los proyectos rentables. Falso, hay que evaluar la capacidad de pago.

CAPÍTULO 2: MARCO TEÓRICO. El término inversión significa la asignación de fondos para la adquisición de valores o de

RELACIONES DE RECURRENCIA

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Diseño de un estudio de investigación de mercados

Cómo se usa Data Mining hoy?

MANUAL COPIAS DE SEGURIDAD

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

Detergente Lavad.1 Lavad.2 Lavad.3 Media A B C D Media

RRHH 3er Foro El capital humano es nuestro recurso más importante

CAPITULO I INTRODUCCION Y ANALISIS DEL SISTEMA CNC

Universidad Diego Portales Facultad de Economía y Empresa

4 Pruebas y análisis del software

Por qué es importante la planificación?

ADMINISTRACION FINANCIERA. Parte IV Capítulos 2 Títulos, Carteras de inversión.-

Transcripción:

Applied Mathematics Random Forests Abril 2014 Felipe Parra

Por que Arboles para Clasificación PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Interpretación intuitiva Alto: dispuesto tomar riesgos altos si éstos posibilitan rendimientos Pueden ajustarse a relaciones muy complejas entre los predictores y la altos respuesta Medio: exigiendo más rentabilidad por unidades de riesgo asumido Selección de variables de manera automática Bajo: prefiriendo inversiones menos volátiles y riesgosas, aún si esto Manejan requiere de ceder manera rendimientos muy natural predictores y respuestas categóricas Esta No aversión hay que preocuparse al riesgo no tiene por transformar que ser constante: los predictores puede variar con condiciones de mercado ( risk-on o risk-off ) Bajo costo computacional (en comparación con otros métodos)

Como funcionan En este caso la devianza no se pude definir como el RSS Se define en este caso el cross-entropy Por convención se define log(0)x0=0 A medida que una probabilidad individual tiende a uno o cero el sumando tiende a cero Si el modelo tiene mayor confianza en su predicción el cross-entropy tiende a cero Si una probabilidad tiende a 1/K (el modelo esta perdido) en este caso se esta maximizando la devianza

Como funcionan PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Para cada nodo la predicción final va a estar determinada por la cantidad de observaciones de cada tipo que caen en el nodo Alto: dispuesto a tomar riesgos altos si éstos posibilitan rendimientos Ejemplo: altos Medio: exigiendo más rentabilidad por unidades de riesgo asumido Bajo: prefiriendo inversiones menos volátiles y riesgosas, aún si esto requiere ceder rendimientos Esta aversión al riesgo no tiene que ser constante: puede variar con condiciones de mercado ( risk-on o risk-off )

Como seleccionar el mejor árbol PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Paso 1: Greedy Algorithm Crecer el árbol al máximo, creando una nueva rama a la vez En cada paso se pregunta que partición del árbol genera la mínima devianza Alto: Cada dispuesto partición (decisión) a tomar involucra riesgos un solo altos predictor si éstos posibilitan rendimientos altos Medio: exigiendo más rentabilidad por unidades de riesgo asumido Bajo: prefiriendo inversiones menos volátiles y riesgosas, aún si esto requiere ceder rendimientos Esta aversión al riesgo no tiene que ser constante: puede variar con condiciones de mercado ( risk-on o risk-off )

Como seleccionar el mejor árbol Paso 2: Podar el árbol PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones El árbol del paso 1 es podado buscando el modelo optimo Podría imaginarse como una búsqueda extensiva sobre todos los Alto: posibles dispuesto sub-arboles a tomar tratando riesgos de altos minimizar si éstos una posibilitan combinación rendimientos de altos devianza y complejidad: Medio: exigiendo más rentabilidad por unidades de riesgo asumido Bajo: prefiriendo inversiones menos volátiles y riesgosas, aún si esto requiere Alpha en ceder este rendimientos caso es el parámetro de suavizamiento Mayor alpha implica menor complejidad en nuestro árbol optimo)\ Esta aversión Alpha es al seleccionado riesgo no tiene usando que K-Fold ser constante: Cross Validation puede variar con condiciones Para de cada mercado alpha se intenta ( risk-on minimzar o risk-off ) la devianza

Ahora si, Random Forests Utilizan la tecnica de Bagging (Bootstrap Aggregation) PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Promediando varios estimadores no tan buenos se obtiene un muy buen estimador Considerados Alto: dispuesto el mejor a tomar clasificador riesgos altos Off si éstos the shelf posibilitan rendimientos altos El algoritmo: Para b=1,2,,b Medio: exigiendo más rentabilidad por unidades de riesgo asumido Tomar una muestra con remplazo de n datos Bajo: Crecer prefiriendo el árbol inversiones con la muestra menos de bootstrap volátiles el y máximo riesgosas, posible aún bajo si esto la requiere condición ceder de rendimientos que cada nodo debe contener por lo menos s observaciones La salsa secreta: escoger tan solo m de los p predictores para Esta aversión al riesgo no tiene que ser constante: puede variar con tomar la decisión en cada partición de una nueva rama condiciones de mercado ( risk-on o risk-off ) aleatoriamente. Guardar los B arboles del bootstrap

Algunos comentarios PERFIL DE RIESGO: definir con qué nivel de aversión al riesgo se toman decisiones Para clasificación: democrático Para regresión: promedio Alto: dispuesto a tomar riesgos altos si éstos posibilitan rendimientos altos Por default en R: B=500 Medio: exigiendo más rentabilidad por unidades de riesgo asumido m = parte entera de p/3 para regresión y raíz de p para clasificación Bajo: prefiriendo inversiones menos volátiles y riesgosas, aún si esto requiere ceder rendimientos Lo mejor: no hay necesidad de hacer cross validation para escoger los parametros optimos: Esta aversión al riesgo no tiene que ser constante: puede variar con condiciones random de forest mercado para cada ( risk-on conjunto o de risk-off ) parametros Usar el out-of bag (OOB) sample para probar las capacidades predictivas del

Random Forests vs Boosting Boosting parece dominar al bagging en la mayoria de las aplicaciones La idea del bagging es promediar estimadores ruidosos insesgados para reducir la varianza Ideal en situaciones de varianzas grandes y estimadores insesgados como los arboles Random forests construye arboles decorrelacionados (Produce resultados similares a boosting pero son mas fáciles de entrenar) Los random forests reducen la correlación entre los arboles, sin incrementar mucho la varianza, al escoger las variable de manera aleatoria al crecer el arbol. La correlacion entre los arboles es de 0.05 en general

ahora si lo mejor Muy Fácil de implementar en R! Paquete randomforest Solo se necesitan dos comandos randomforest() tunerf() Escoge m que es el parámetro mas importante

Aplicación Competencia de HFT: http://www.circulumvite.com/home/trading-competition Un proxy del USD/BRL (multiplicado por 2000) tomando los mejores BID y ASK 27 Predictores: Indicadores de mercado Tendencia (suavizamientos) Diferencias en tamaños de BID y ASK Etc., (todos propietary indicators) El objetivo: Clasificar si la tasa de cambio va a aumentar en los próximos 120 milisegundos

Modelo 1 Tomar aleatoriamente 10,000 observaciones como muestra de entrenamiento Entrenar el random forest (escoger el mejor m ) xmat = trainset[,1:27] tunerf(xmat,factor(trainset$change))

Modelo 1 Correr el random forest con el m optimo model2 = randomforest(formula = factor(change) ~., data = trainset, mtry=5) plot(model2) table(testset$change, predict(model2,testset)) 96.4% de las subidas en la tasa de cambio clasificadas de manera correcta! 0 1 0 24006 484 1 681 18181

Sospechoso no?! Donde esta la trampa Tomar la muestra de entrenamiento de manera aleatoria.

Modelo 2 Se entreno el random forest con las primeras 40,000 observaciones 0 1 0 4308 3142 1 2867 3035 0 1 0 4308 3142 1 2867 3035 Esta vez el error es del 48.6%!!! 0 1 0 4308 3142 1 2867 3035

Apague y vamonos?.este Parrita

Modelo 3 Se entrenó el random forest con todas las observaciones de un dia y se aplicó al dia siguiente M=20 suena como grande riesgo de overfitting

Modelo 3 Probar m=3, 5, 10 para ver cual tiene el mejor desempeño fuera de muestra m=10 (38.5% de las subidas bien clasificadas) 0 1 0 16253 10573 1 16250 10169 m=5 (59.9% de las subidas bien clasificadas) 0 1 0 10594 16232 1 10585 15834 m=3 (60.3% de las subidas bien clasificadas) 0 1 0 10594 16232 1 10585 15834

Conclusiones No es la receta de la alquimia pero Tener cuidado con el overfitting Muy facil de implementar en R!

Bibliografía Notas de Clase de Statistical and Machine Learning Methods for Financial Data. Chad Schafer. CMU. 2014 The Elements of Statistical Learning, (2009). Hastie, Tibshirani & Friedman. Springer.