Algoritmos de Modelación (o las máquinas de chorizos) Enrique Martínez-Meyer

Documentos relacionados
Los Buenos y los Malos para las transferencias de nicho ecológico

Qué modelo elegir? BIOCLIM. DOMAIN GARP MaxEnt. Elisa Liras Dpto. Biología Vegetal y Ecología Universidad de Almería

PROYECCIÓN DE LOS MODELOS DE NICHOS ECOLÓGICOS EN TIEMPO Y ESPACIO

Funcionamiento, interfaz y formato de los datos en GARP

Nociones de modelización de nicho ecológico. María Cecilia Londoño. Investigador Titular Laboratorio de Biogeografía Aplicada y Bioacústica.

Andrés Lira-Noriega. Universidad de Kansas

Aprendizaje Automático

Carlos Cuevas-Covarrubias (Mexico): Mutual Principal Components, reduction of dimensionality in statistical classification

Predicción de la distribución potencial del castaño en Galicia mediante modelos de nicho ecológico

Modelos en Ecología del Paisaje

Intensificación en "Lenguajes e Inteligencia Artificial"

Biodiversity and climate change: Impacts and conservation perspectives

Lección n 5. Modelos de distribución n potencial de especies

Interfaz BIOCLIM e Interfaz DOMAIN

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

RECONOCIMIENTO DE PAUTAS

30 oct. SAP Fraud Management. El Camino a la transparencia. La necesidad Gestionar en tiempo real. El medio Una plataforma in-memory

Aplicación de técnicas de Inteligencia Artificial a la predicción del precio de la electricidad RESUMEN DEL PROYECTO. Autor: Marco Tejón, Israel

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

CURSO MODELADO DE NICHOS ECOLÓGICOS Y DISTRIBUCIÓN POTENCIAL DE ESPECIES

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Calculo del tiempo de vida con datos de degradación MC. Manuel Jesús Reyes Méndez (ITCJ) 1, Dr. Manuel A. Rodríguez Medina (ITCJ)

Introducción al Modelado de Nichos Ecológicos y Distribuciones de Especies

Modelos de suavizado, aditivos y mixtos

Curso internacional de capacitación continua en geomática Aplicaciones integradas de SIG utilizando TerrSet

Técnicas de Minería de Datos

motivo de nichos ecológicos Algunas reflexiones sobre tipología de modelos con Enero 2007

MODELOS PREDICTIVOS APLICADOS A LA CONSERVACIÓN DE FLORA AMENAZADA: INVERNADEROS VS. LINARIA NIGRICANS EN EL SURESTE ÁRIDO IBÉRICO

Pontificia Universidad Católica del Ecuador

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Horas teoría-horas prácticas-horas trabajo adicional-horas totales-créditos: Edgar O. Reséndiz Flores

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Análisis de la Capacidad o Aptitud de un proceso ( Capítulo 8 ) Control Estadístico de Calidad

EVOLUCIÓN DE LAS ZONAS DE ALTA BIODIVERSIDAD EN ECUADOR BAJO UN ESCENARIO DE CAMBIO GLOBAL

Hipótesis. Teoria del Aprendizaje Computacional

COMPARACIÓN ENTRE TÉCNICAS DE CONTROL PREDICTIVO NO LINEAL APLICADAS AL CONTROL DE UN GASIFICADOR

240AR022 - Reconocimiento de Formas y Aprendizaje Automático

Interfaz hombre máquina basado en el análisis de los gestos faciales mediante visión artificial

Estimación PLS de modelos SEM, UMA. Modelos de Ecuaciones Estructurales con PLS (Partial Least Squares)

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA DE INVESTIGACIÓN Y POSGRADO

Itinerario: Inteligencia Computacional

Técnicas de inteligencia computacional en predicción de viento en parques eólicos y problemas relacionados

Aprendizaje Automatizado

ÍNDICE. Introducción... Capítulo 1. Inteligencia de negocios y sistemas de información. Informes... 1

Métodos de Inteligencia Artificial

Análisis Espacial aplicando Técnicas de Inteligencia Artificial

What does the polygraph measure?

Minería Multimedia. Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

Sistemas de predicción Aprendizaje automático Data Mining & Machine Learning

Estadística Multivariada Computacional Introducción al Aprendizaje Automático (parte 1)

R for Data Mining Análisis de datos, segmentación y técnicas de predicción con R. web

Diplomado en Estadística Aplicada

Biometeorología en el Grupo de Meteorología de Santander

MINERÍA DE DATOS: PREPROCESAMIENTO Y CLASIFICACIÓN

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

CURSO. Expositor: Daniel Orellana

MODELOS PREDICTIVOS PARA LA DETECCIÓN TEMPRANA Y GESTIÓN DE ACCIDENTES LABORALES Susana Blanco, Walter Rudolph

Modelos de Scoring para Riesgo de Crédito

VIII Jornadas de Usuarios de R

Coordenadas Principales de Matrices de Proximidad (Principal Coordinates of Neighbor Matrices) PCNM

Aux 6. Introducción a la Minería de Datos

Selección de fuentes de datos y calidad de datos

Universidad de Puerto Rico Recinto de Río Piedras Facultad de Ciencias Naturales Departamento de Matemáticas

Data Mining Introduction Convierte Datos en Conocimiento y Aplicalos al Marketing

INTRODUCCION AL DISEÑO EDUCATIVO Andrea Paola Leal Rivero. La Academia al servicio de la Vida

Análisis de datos Categóricos

Op#mización del uso de modelos jerárquicos de distribución de especies en la conservación de plantas

Predictive Analytics Análisis Avanzado. web

Métodos Predictivos en Minería de Datos

DIPLOMADO EN ESTADÍSTICA APLICADA A MARKETING Y FINANZAS 2DA VERSIÓN

MD - Minería de Datos

DISEÑO ROBUSTO Y MODELOS DE REGRESIÓN LOGÍSTICA EN LA MEJORA DE CALIDAD DE SUELA DE POLIURETANO

Analítica e Inteligencia de Negocios (A&BI) Cómo tomamos mejores decisiones?

APLICACIÓN DE MODELOS DE DISTRIBUCIÓN DE ESPECIES A LA CONSERVACIÓN DE LA BIODIVERSIDAD EN EL SURESTE DE LA PENÍNSULA IBÉRICA

Sistemas de información geográfica (SIG): análisis espacial de datos aplicados a las Ciencias Naturales y Sociales.

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

M.C. Mariano Larios G. 3 de diciembre de 2009

ARIS Solution for Governance, Risk & Compliance Management. Ensure Business Compliance

Prospectivas y Aplicaciones del Modelo Hidrológico SWAT: Adaptación del modelo para su uso en la Cuenca Hidrográfica del Canal de Panamá

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN EN COMPETENCIAS PROFESIONALES ASIGNATURA DE ESTADÍSTICA APLICADA

Random Forests. Felipe Parra

Caracterización de Imágenes

MAXIMUM LIKELIHOOD. Jesús A. González y Eduardo Morales

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

Tema 12. Selección de Variables

Aplicación de Apache Spark y su librería MLlib para el desarrollo de sistemas recomendadores

Máquinas de vectores soporte con R

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA

Teoría de cópulas y aplicaciones en simulación de riesgos financieros y en ingeniería civil. Beatriz Gallardo Estévez

Carrera: Ingeniería Civil CIM 0531

TABLA DE CONTENIDO. TABLA DE CONTENIDO...ii ÍNDICE DE FIGURAS... iv ÍNDICE DE TABLAS... v CAPITULO INTRODUCCIÓN MOTIVACIÓN...

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Proyecto de tesis de grado:

Modelación de la distribución de especies y ecosistemas en el tiempo y en el espacio: una revisión de las nuevas herramientas y enfoques disponibles 1

11. FUENTES DE INFORMACIÓN

IDENTIFICACIÓN DE SISTEMAS MÉTODOS POR SUB-ESPACIOS

Dr. Fidel Ulin Montejo M.C. Robert Jeffrey Flowers Jarvis Fecha de elaboración: Agosto 2004 Fecha de última actualización: Julio 2010

Transcripción:

Algoritmos de Modelación (o las máquinas de chorizos) Enrique Martínez-Meyer emm@ib.unam.mx

El proceso del modelado de nichos Step 3 Step 1 Collate GIS database of environmental layers (e.g. temperature, precipitation, soil type) Collate species occurrence data (localities where the species has been observed, and sometimes also localities where the species is known to be absent) Process environmental layers to generate predictor variables that are important in defining species distributions (e.g. maximum daily temperature, frost days, soil water balance) Step 2 Apply modeling algorithm (e.g. Generalized Linear Model, boosted regression tree, genetic algorithm) Model calibration (select suitable parameters, test importance of alternative predictor variables, set threshold for binary prediction) Evaluate predictive performance and significance through additional data collection or data-splitting approach (statistical assessment using test such as AUC or Kappa) Step 4 Map prediction in geographic space Predict species potential distribution in a different region (e.g. for an invasive species) or for a different time period (e.g. under climate change scenarios) If possible, evaluate prediction against observed data, such as occurrence records in an invaded region, or distributional shifts over decades

Existe una gran variedad de algoritmos de modelación en el mercado (entre 20 y 30), así como una serie de plataformas en donde se han implementado BIOdiversity MODelling

Plataformas con múltiples algoritmos Biomod: http://cran.r-project.org/web/packages/biomod2/index.html Dismo: http://cran.r-project.org/web/packages/dismo/index.html OpenModeller: http://openmodeller.sourceforge.net/ ModEco: http://gis.ucmerced.edu/modeco/ Div-GIS: http://www.diva-gis.org

Para tomar una decisión en cuál algoritmo usar, primero hay que saber el tipo de datos que tenemos + + + + + + Presencia/ausencia Sólo presencia (e.g. ANN) (e.g. BIOCLIM) Después hay que saber como funcionan.. Presencia/pseudoausencia (e.g. GARP)

Clasificación de métodos para modelar Algoritmo Ontogenia Tipo de datos de entrada Bioclim, Aquamaps, Envelope Score, SVM, Surface range envelopes Envolturas ambientales Sólo Presencia Euclidiana, Mahalanobis, Manhattan, Chebishev Distancias ambientales Sólo Presencia Regresiones Logit, GLM, GAM, MARS, CART Regresiones y clasificaciones Presencia/ausencia Redes Neuronales (ANN), BRT, Algoritmos genéticos, SVM Inteligencia Artificial Presencia/ausencia GARP Algoritmos Genéticos Presencia/pseudoausencia ENFA, Climate Space Model (PCA), Multiple Discriminant Analysis Estadística multivariada: Estructura de varianzas Presencia/entorno MaxEnt Máxima Entropía Presencia/entorno

Algoritmos que usan datos de solo presencia

Algoritmos BIOCLIM Fue el primer algoritmo de modelado y fue desarrollado en Australia a finales de los 70 s. Es bastante simple pues contruye una caja alrededor de los puntos de presencia en cada variable, resultando en una envoltura ambiental multidimensional rectilinea

BIOCLIM Algoritmos Para evitar el efecto negativo de sobrepredicción provocado por los datos extremos, la envoltura ambiental se puede reducir a diferentes desviaciones estándar Variable y G Variable x

Distancias Ambientales: Euclidiana Algoritmos Calcula la distancia euclidiana multidimensional para identificar los pixeles que pertenecen a una envoltura ambiental esférica Variable y G Variable x

Distancias Ambientales: Mahalanobis Algoritmos Calcula la distancia de Mahalanobis multidimensional para identificar los pixeles que pertenecen a una envoltura ambiental elíptica, dada la correlación entre las variables Variable y G Variable x

Otras Distancias Ambientales Algoritmos Gower / Manhattan (Domain) Chebyshev

Algoritmos Diferencia entre las Distancias Ambientales Euclidiana Mahalanobis Gower Precipitación Temperatura

Algoritmos que usan datos de presencia-ausencia

Modelos Lineales Generalizados (GLM) Algoritmos Es una forma de regresión. Busca una relación estadística entre una variable de respuesta y variables predictoras por medio de una función de enlace. Permite trabajar con distribuciones de distinta naturaleza, así como con datos no lineales y no constantes

Modelos Aditivos Generalizados (GAM) Algoritmos Es una extensión no paramétrica del GLM que es más flexible para identificar y describir relaciones no lineales entre los predictores y la variable de respuesta. Usa una función de suavizado para modelar mejor el comportamiento de los datos. Tiene una función de suavizado que permite modelar mejor la función de distribución de los datos

Boost Regression Trees (BRT) BRT es una técnica que busca mejorar el rendimiento de un modelo único, mediante el ajuste de muchos modelos, los cuales combina para la predicción. Utiliza de forma iterativa árboles de regresión para construir ensambles de árboles Utiliza dos algoritmos: 1. Arboles de regresión (arboles de decisión). 2. Boosting (combina los modelos). Algoritmos 1.5 1.5 1.1 0.2 1 2 2.8 3.5 R 1 R 2

Algoritmos que usan datos de presencia-pseudoausencia

Algoritmos Genetic Algorithm for Rule-set Prediction (GARP) Es un método heurístico de aprendizaje de máquina que usa un algoritmo genético para construir reglas que describen el nicho de la especie con base en el principio de selección natural. Es un meta-algoritmo porque usa métodos de bioclim y regresión logística para construir las reglas iniciales

Support Vector Machine Algoritmos Es un método heurístico de clasificación no lineal que se basa en estadística y teoría de la optimización. Es un método de aprendizaje de máquina que es útil para cuando se tienen sólo datos de presencia o de presencia y ausencia.

Algoritmos que usan datos de presencia-entorno

Ecological Niche Factor Analysis (ENFA) Implementa un análisis de factores para identificar la marginalidad y la especialización de los datos con respecto al área de análisis (M) Marginalidad Algoritmos Precipitación Especialización Temperatura

Climate Space Model Algoritmos Implementa un análisis de componentes principales (PCA)

Máxima Entropía (MaxEnt) Algoritmos Es una técnica de aprendizaje de máquina que combina estadística, máxima entropía y métodos bayesianos, cuyo propósito es estimar distribuciones de probabilidad sujeto a restricciones dadas por la información ambiental.

Density Density Máxima Entropía (MaxEnt) Algoritmos Mapped covariates Sample at locations Probability densities Temperature Presence records Precipitation Background sample Temperature Precipitation (etc) Temperature Precipitation

Algoritmos Bioclim D. Euclidiana D. Mahalanobis D. Gower ENFA Support Vector Machine GARP-BS Red Neuronal (ANN)

Y cuál uso

Hay varios estudios en donde comparan el desempeño de los algoritmos

Qué método es mejor A la fecha no existe un algoritmo que sea mejor que los demás para todos los tipos de datos. Algunos funcionan mejor cuando el número y la calidad de registros es baja y otros son más robustos cuando la calidad de los datos mejora.

Además, su comportamiento es distinto cuando los modelos se transfieren en espacio o tiempo 1 2 3 4 5 6 7 8 9 200 100 0-100 1. ANN1 (SPECIES) 2. ANN2 (SPLUS) 3. BIOCLIM 4. CTA 5. GA 6. GAM 7. GARP 8. GLM 9. DOMAIN

Evaluación de la Incertidumbre Se ha propuesto al ensamble de modelos para reducir la incertidumbre

Es práctica común que la decisión del método de modelación se base en criterios ajenos a los datos; por ejemplo, por moda, por escuela, por dogma de fe, por las (in)habilidades personales. La modelación de nichos y distribuciones no es como una técnica de laboratorio en donde se tienen protocolos, dosis y recetas ya estandarizados, y seguramente no los habrá.

En conclusión La selección del método de modelación es un paso crítico en el proceso Para tomar una decisión es necesario conocer el tipo de datos con los que uno cuenta y el funcionamiento de los algoritmos de modelado Probar el desempeño de más de un método es una buena práctica, pero hay que ser cuidadosos en el proceso de evaluación