Conjunto de datos multivariados Matriz de datos de doble entrada

Documentos relacionados
Ordenación contrastante o directo. Pueden los patrones de la comunidad de aves ser explicados por variables ambientales medidas?

Análisis de agrupamiento (Cluster nmds)

Análisis de Gradiente Ambiental: Ordenación sin contrastar

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación

COMPARACIÓN DE COMUNIDADES ASOCIACIÓN DE ESPECIES. FUNCIONES DE SEMEJANZA. DENDROGRAMAS.

Eigenvalores y eigenvectores

Prof. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada

INDICADORES MULTIVARIADOS DE CAPACIDAD DE PROCESOS. SU EFICIENCIA BAJO DISTRIBUCIONES NORMALES.

Análisis Bioestadístico de datos

Itinerario del Curso. Análisis de Datos Multivariados para Ciencias Ambientales. Semana 1. Lunes 23 de mayo de Miércoles 25 de mayo de 2016

Nota técnica Estratificación multivariada

ADONIS. Implementación del ADONIS en QEco

Universidad Autónoma de Sinaloa

Pruebas estadís,cas para evaluar relaciones

Capítulo 4. Medidas de Proximidad. Proximidades Similaridades: s(a, B) Similitudes: s(a, B) 4.1. VARIABLES CUANTITATIVAS

Tema 2 Datos multivariantes

Coordenadas Principales de Matrices de Proximidad (Principal Coordinates of Neighbor Matrices) PCNM

MDS. MDS (non-metrics MultiDimensional Scaling) 07/12/12. Multidimensional Scaling Ordination

Reducción de la Dimensionalidad en Análisis de Datos. Análisis de Componentes Principales.

UNIVERSIDAD DON BOSCO VICERRECTORÍA DE ESTUDIOS DE POSTGRADO

Métodos cuantitativos de las ciencias sociales aplicados a los estudios urbanos y regionales André Lemelin

ANÁLISIS DE COMPONENTES PRINCIPALES

Tema: Validación de Cuestionarios con SPSS

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

Universidad Diego Portales Facultad de Economía y Negocios. Martes 30 de Marzo, 2010 Slide 1

Discriminación entre grupos

La práctica del análisis de correspondencias

José Ramón Martínez Batlle. Tema 2. Biogeografía ecológica (1). Medición, modelización, interpretación de la biodiversidad

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

PROCESO DE PREPARACIÓN DE DATOS

Repaso de conceptos de álgebra lineal

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

Tema 3 Medidas de dispersión para datos no agrupados

4.2 Análisis correlacional

METODOS DE ANALISIS DE COMUNIDADES VEGETALES

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Estructura de Datos Espaciales. por José Antonio Navarrete Pacheco INTRODUCCIÓN

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

CLUSTERING. Bases de Datos Masivas

ANÁLISIS DISCRIMINANTE

Técnicas Cuantitativas para el Management y los Negocios

INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO RECONOCIMIENTO DE PAUTAS

La regla de Cramer. a 11 x 1 + a 12 x a 1n x n = b 1 a 21 x 1 + a 22 x a 2n x n = b 2... a n1 x 1 + a n2 x

Primer examen parcial Geometría y Álgebra Lineal 1 2 de mayo de 2015 Respuestas y solución

ESTADÍSTICA I. Dr. Favio Murillo García

El Análisis de Correspondencias tiene dos objetivos básicos:

(PCA) Análisis de Componentes Principales

INDICE Capitulo 1. Entorno de Trabajo e SPSS Capitulo 2. Operadores y Funciones. Aplicaciones

Distribuciones bidimensionales. Correlación.

Estadística I Tema 2: Análisis de datos univariantes

Análisis de Componentes Principales (ACP)

Introducción a las técnicas de. Análisis multivariante

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Medidas de distancia y de similitud Jhonny R. Demey, Laura Pla, José L. Vicente-Villardón, Julio A. Di Rienzo, Fernando Casanoves

Capítulo 14. Análisis de datos (II) Investigación de mercados. Prof. Verónica Rosendo Ríos. Verónica Rosendo Ríos. Investigación de mercados

FUNDAMENTOS DE MATEMÁTICAS. ISBN: Depósito Legal: M Número de páginas: 487 Tamaño: 21 x 14,6 cm Precio: 23,93

Relaciones espaciales

Taller de Capacitación 1 - Nivelación SISCA - BPS. Juan José Goyeneche Andrés Castrillejo Junio de 2012

Introducción a las técnicas de Análisis Multivariante

Capítulo 5. Escalado Multidimensional 5.1. ESCALADO MÉTRICO

Ajustes de datos: transformación de datos. Capítulo 9 de McCune y Grace 2002

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Análisis en Componentes Principales

ANÁLISIS DE COMPONENTES PRINCIPALES

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET

TEMA II EL ANÁLISIS PRELIMINAR DE LOS DATOS

LECCIÓN PÚBLICA. Tema 6 Descripción Multivariante de Datos. Profa. María Fátima Dos Santos

Análisis de regresión y correlación lineal

CLASIFICACIÓN PROBLEMA SOLUCIÓN

Estadística Asistencial I. Prof. Rafael Rey

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

La desviación típica y otras medidas de dispersión

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Medidas de dispersión

Conceptos básicos de Geometría

Capítulo 1. Matrices Matrices Ejercicios Suma de matrices Ejercicios

Modelo de Regresión Lineal

Sumario... 5 Prólogo Unidad didáctica 1. Introducción a la psicometría Objetivos de la Unidad... 11

Tema 9. Análisis factorial discriminante

N T E N.. IDO. CAPíTULO 3 TABLAS Y GRÁFICAS: UNA IMAGEN DICE MÁS QUE MIL PALABRAS 78. CAPíTULO I LA IMAGINACiÓN ESTADíSTICA

CLASIFICACIÓN DE LA ESTADÍSTICA

RESUMEN ANÁLISIS CLUSTER

DISCRIMINACIÓN CUADRÁTICA MEDIANTE MATRICES DE COVARIANZAS

PRINCIPIOS DE PSICOMETRÍA

Matemáticas 1º ESO. Contenidos mínimos. BLOQUE 1: Procesos, métodos y actitudes en matemáticas

Análisis de Series de Tiempo

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I Y II CONTENIDOS BACHILLERATO

ANÁLISIS ESPACIAL: CONCEPTOS Y DESAFÍOS

SAN IGNACIO & LA PSU ANALISIS ECONOMÉTRICO PREDICTIVO PSU

, desviación típica de los datos del proceso

GEOESTADÍSTICA APLICADA

ESTADÍSTICA. DISTRIBUCIÓN BIDIMENSIONAL

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

Transcripción:

Conjunto de datos multivariados Matriz de datos de doble entrada Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html Dr. Hui-Yu Wang and Brad Timm - MacGarical et al., 2000. Multivariate Statistic for wildlife and Ecology research

Matriz de datos de doble entrada 1 2 3 4 5 Matriz datos doble entrada 6 Sitios X especie

Representación geométrica Cada sitio puede ser representado por un punto en un espacio p dimensional basado sobre sus valores medidos a lo largo de sus ejes p especies. La colección de puntos forma un nube de datos en este espacio p dimensional La forma y dispersión de esta nube de datos contiene información ecológica

Ensamblaje ecológico 1 2 3 4 5 Cuán similar (o disimilar) es cada sitio entre sí? 6

Ensamblaje ecológico Similitud Es la caracterización del cociente de la cantidad de atributos que dos objetos comparten comparadas con la lista total de atributos entre ellos. P objetos que son idénticos tienen similitud 1 y los que no tienen nada en común, similitud 0. Disimilitud La disimilitud es el complemento de la similitud, y es la caracterización de la cantidad de atributos que dos objetos no comparten comparados a la lista total de atributos entre ellos. La disimilitud puede ser calculada como 1 similitud. Ambos con rango 0-1

Distancia ecológica Distancia es una concepción geométrica de la distancia entre objetos en un espacio dimensional definido por las mediciones sobre los atributos. La medición de proximidad varía entre medidas de distancia

Distancia ecológica versus disimilitud Aunque en la práctica distancia y disimilitud son indistintas, presentan diferentes propiedades. Disimilitudes contienen los extremos [0, 1]. Por ej., unas parcelas no tienen especies en común, entonces no son más disímiles. Las distancias no contienen a los bordes superiores. Por ej., las parcelas que no tienen especies en común tienen distancias que dependen del número y abundancia de especies en las parcelas, por eso es una variable.

La transformación del ensamblaje Matriz original de datos Matriz de disimilitud Espacio disimilitud 6 x 4 6 x 6 La matriz de ensamblaje contiene un coeficiente de ensamblaje para cada par de entidades. Resultado es una matriz de ensamblaje de entidad por entidad

Matriz original de datos Matriz de disimilitud Hay una gran cantidad de medidas de ensamblaje para elegir La elección de un coeficiente depende del tipo de datos, la cuestión ecológica o el tipo de análisis. Cuando la escala de medición es tal que podrían usarse diversos coeficientes, la elección es una preferencia personal. Es una ventaja tratar diferentes medidas y ver los resultados desde un criterio ecológico.

Pla, Casanoves, Di Rienzo, Trelew, 2009

Distancia euclidiana Primero, los datos se estandarizan para remover diferencias debido a la unidad y escala de medición. Pueden ser aplicados a datos de cualquier escala. Tiene verdaderas propiedades métricas y es usado en ordenación de autovector (eigenvector).

A menudo, tiene pobre performance en aplicaciones ecológicas debido a varios problemas: Se asume que las variables están no correlacionadas (no siempre es así). Enfatiza los outliers o valores extremos. Pierde sensibilidad más rápidamente que otras medidas de dist. Cuando la heterogeneidad aumenta. Medida de distancia no proporcional.

Distancia Manhattan o City - block Las mayores medidas de disimilitud ecológicas son del tipo Manhattan. Comparadas a la DE, le dan menos peso a los outliers (no están diferencias al cuadrado). Comparada a DE, retienen la sensibilidad al incrementar la heterogeneidad en el cjto de datos. No es para distancias no proporcionales.

Coeficientes de distancias proporcionales Por ej porcentaje de disimilitud (distancia de Sorensen o dist. De Bray Curtis). Distancia City- Block se mide expresada como proporciones de la máxima distancia posible. Sin embargo, si dos comunidades no comparten especies en común, tienen la máxima disimilitud de uno.

Coeficientes de distancia proporcionales Variaciones en porcentaje de disimilitud Distancia Sorensen a Bray- Curtis Distancia Jaccard Distancia Kulczynski

Coeficientes de distancia proporcionales (DP) DP es comúnmente usado con datos de abundancia de especies, pero pueden ser aplicados a datos de cualquier escala (por ej, datos presencia/ ausencia) Comparado con DE, DP da menos peso a los outliers. Comparado con DE, DP retiene sensibilidad al incrementar la heterogeneidad en los datos. A diferencia de DE y CB, DP es máximo cuando no hay especies compartidas. Pero DP no es métrico por eso no es compatible en muchos análisis (AD, ACC).

Distancia de correlación Uso limitado para datos de comunidad, pero ideal en datos multivariados y relaciones lineales. Se relaciona con coeficientes de correlación.

Distancia de correlación Gral/ sólo útiles cuando la similitud en forma de perfiles en promedio es más importante que el promedio en niveles de perfiles, porque la distancia de correlación es cero cuando 2 perfiles están paralelos, no importa de cuan lejos están unos de otros en los datos en el espacio.

Distancia Mahalanobis Distancia entre grupos. (comúnmente usado en análisis discriminante). Tiene en cuenta las correlaciones entre variables si no hay independencia. DM inversamente pesa la distancia entre grupos de centroides por la varianza, así la distancia es mayor en el caso B que en el caso A, aún aunque los centroides son equidistantes en hiperespacio.

Coeficientes de asociación Aplicado a datos categóricos. Datos binarios (0 ausente-1 presente) Medidas de concordancia entre dos filas representan 2 entidades muestrales. La mayoría de las medidas para datos binarios (presencia/ausencia) Diferentes coeficientes de asociación enfatizan diferentes aspectos de la concordancia entre muestras. a: comunes a j y k b: presentes en k y ausentes en J C: presentes en j y ausentes en k D: atributos ausentes en ambas muestras

Elección de un coeficiente de distancia Disponibilidad de múltiples elecciones, pero no todas, en programas de computación. Compatibilidad: medidas de City Block no es compatible en muchos procedimientos multivariados (AD, ACC). Base teórica: muy pobre, distancia euclidiana vs City Block en espacio de especies. Criterio intuitivo: efectos outliers, sensibilidad con incremento de la heterogeneidad.