Conjunto de datos multivariados Matriz de datos de doble entrada

Conjunto de datos multivariados Matriz de datos de doble entrada Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html Dr. Hui-Yu Wang and Brad Timm - MacGarical et al., 2000. Multivariate Statistic for wildlife and Ecology research

Matriz de datos de doble entrada 1 2 3 4 5 Matriz datos doble entrada 6 Sitios X especie

Representación geométrica Cada sitio puede ser representado por un punto en un espacio p dimensional basado sobre sus valores medidos a lo largo de sus ejes p especies. La colección de puntos forma un nube de datos en este espacio p dimensional La forma y dispersión de esta nube de datos contiene información ecológica

Ensamblaje ecológico 1 2 3 4 5 Cuán similar (o disimilar) es cada sitio entre sí? 6

Ensamblaje ecológico Similitud Es la caracterización del cociente de la cantidad de atributos que dos objetos comparten comparadas con la lista total de atributos entre ellos. P objetos que son idénticos tienen similitud 1 y los que no tienen nada en común, similitud 0. Disimilitud La disimilitud es el complemento de la similitud, y es la caracterización de la cantidad de atributos que dos objetos no comparten comparados a la lista total de atributos entre ellos. La disimilitud puede ser calculada como 1 similitud. Ambos con rango 0-1

Distancia ecológica Distancia es una concepción geométrica de la distancia entre objetos en un espacio dimensional definido por las mediciones sobre los atributos. La medición de proximidad varía entre medidas de distancia

Distancia ecológica versus disimilitud Aunque en la práctica distancia y disimilitud son indistintas, presentan diferentes propiedades. Disimilitudes contienen los extremos [0, 1]. Por ej., unas parcelas no tienen especies en común, entonces no son más disímiles. Las distancias no contienen a los bordes superiores. Por ej., las parcelas que no tienen especies en común tienen distancias que dependen del número y abundancia de especies en las parcelas, por eso es una variable.

La transformación del ensamblaje Matriz original de datos Matriz de disimilitud Espacio disimilitud 6 x 4 6 x 6 La matriz de ensamblaje contiene un coeficiente de ensamblaje para cada par de entidades. Resultado es una matriz de ensamblaje de entidad por entidad

Matriz original de datos Matriz de disimilitud Hay una gran cantidad de medidas de ensamblaje para elegir La elección de un coeficiente depende del tipo de datos, la cuestión ecológica o el tipo de análisis. Cuando la escala de medición es tal que podrían usarse diversos coeficientes, la elección es una preferencia personal. Es una ventaja tratar diferentes medidas y ver los resultados desde un criterio ecológico.

Pla, Casanoves, Di Rienzo, Trelew, 2009

Distancia euclidiana Primero, los datos se estandarizan para remover diferencias debido a la unidad y escala de medición. Pueden ser aplicados a datos de cualquier escala. Tiene verdaderas propiedades métricas y es usado en ordenación de autovector (eigenvector).

A menudo, tiene pobre performance en aplicaciones ecológicas debido a varios problemas: Se asume que las variables están no correlacionadas (no siempre es así). Enfatiza los outliers o valores extremos. Pierde sensibilidad más rápidamente que otras medidas de dist. Cuando la heterogeneidad aumenta. Medida de distancia no proporcional.

Distancia Manhattan o City - block Las mayores medidas de disimilitud ecológicas son del tipo Manhattan. Comparadas a la DE, le dan menos peso a los outliers (no están diferencias al cuadrado). Comparada a DE, retienen la sensibilidad al incrementar la heterogeneidad en el cjto de datos. No es para distancias no proporcionales.

Coeficientes de distancias proporcionales Por ej porcentaje de disimilitud (distancia de Sorensen o dist. De Bray Curtis). Distancia City- Block se mide expresada como proporciones de la máxima distancia posible. Sin embargo, si dos comunidades no comparten especies en común, tienen la máxima disimilitud de uno.

Coeficientes de distancia proporcionales Variaciones en porcentaje de disimilitud Distancia Sorensen a Bray- Curtis Distancia Jaccard Distancia Kulczynski

Coeficientes de distancia proporcionales (DP) DP es comúnmente usado con datos de abundancia de especies, pero pueden ser aplicados a datos de cualquier escala (por ej, datos presencia/ ausencia) Comparado con DE, DP da menos peso a los outliers. Comparado con DE, DP retiene sensibilidad al incrementar la heterogeneidad en los datos. A diferencia de DE y CB, DP es máximo cuando no hay especies compartidas. Pero DP no es métrico por eso no es compatible en muchos análisis (AD, ACC).

Distancia de correlación Uso limitado para datos de comunidad, pero ideal en datos multivariados y relaciones lineales. Se relaciona con coeficientes de correlación.

Distancia de correlación Gral/ sólo útiles cuando la similitud en forma de perfiles en promedio es más importante que el promedio en niveles de perfiles, porque la distancia de correlación es cero cuando 2 perfiles están paralelos, no importa de cuan lejos están unos de otros en los datos en el espacio.

Distancia Mahalanobis Distancia entre grupos. (comúnmente usado en análisis discriminante). Tiene en cuenta las correlaciones entre variables si no hay independencia. DM inversamente pesa la distancia entre grupos de centroides por la varianza, así la distancia es mayor en el caso B que en el caso A, aún aunque los centroides son equidistantes en hiperespacio.

Coeficientes de asociación Aplicado a datos categóricos. Datos binarios (0 ausente-1 presente) Medidas de concordancia entre dos filas representan 2 entidades muestrales. La mayoría de las medidas para datos binarios (presencia/ausencia) Diferentes coeficientes de asociación enfatizan diferentes aspectos de la concordancia entre muestras. a: comunes a j y k b: presentes en k y ausentes en J C: presentes en j y ausentes en k D: atributos ausentes en ambas muestras

Elección de un coeficiente de distancia Disponibilidad de múltiples elecciones, pero no todas, en programas de computación. Compatibilidad: medidas de City Block no es compatible en muchos procedimientos multivariados (AD, ACC). Base teórica: muy pobre, distancia euclidiana vs City Block en espacio de especies. Criterio intuitivo: efectos outliers, sensibilidad con incremento de la heterogeneidad.