Ecología de Paisaje y Regiones Tema 16. Principios de estadística multivariada y su aplicación a ecología del paisaje. Mercedes Rougès 16.1.Principios de estadística multivariada La estadística multivariada se refiere a una serie de técnicas que analizan simultáneamente múltiples medidas de cada individuo u objeto de investigación. En este sentido, el análisis multivariado es una extensión de los análisis univariados (distribución de una sola variable), divariados (que involucran dos variables, como correlación, regresión). El objetivo de los métodos multivariados es reducir los datos a un menor número de variables compuestas o sintéticas que expresen la mayor parte de la información contenida en el set de datos multivariados. Podemos clasificar a los métodos multivariados en dos grandes grupos: 1) Análisis que categorizar o clasifican los objetos de investigación. Aquí encontramos los distintos tipos de análisis de agrupamiento (Cluster Analysis) 2) Análisis que reducen los datos a variables sintéticas (Ordenamientos). Entre estos métodos podemos mencionar: Análisis de componentes principales (PCA), Escalamiento multidimensional no metrico (MDS), Análisis de correspondencia canónica (CCA), Análisis de función discriminante (DFA), 16.2.Análisis de agrupamiento El objetivo de este tipo de análisis es organizar las entidades (e.g., especies, sitios, observaciones) en clases discretas o grupos de manera que la similitud dentro del grupo es maximizada y la similitud entre grupos es minimizada de acuerdo a algún criterio objetivo. Las características de los datos se usan para definir grupos. Los análisis de agrupamiento se pueden clasificar en: Jerárquicos: Se determinan grupos que están compuestos por subgrupos. Hay una jerarquía de niveles. Aglomerativos: Los grupos se forman desde abajo. Comienza uniendo los dos objetos más similares. (Cluster analysis). Divisivos: la clasificación comienza con la división de todo el grupo de datos en dos, que luego se vuelven a dividir y así sucesivamente. No Jerárquicos: El objetivo es formar un número predeterminado de grupos (K). Se define el número de grupos y se acomodan los objetos para minimizar la variabilidad dentro del grupo y maximizar la variabilidad entre los grupos. Muestras 1 2 3 4 5 Especies Transformación Similitud entre muestras 2 4 5 1 3 Agrupamiento de muestras 1
Porcentaje de la información no explicada por el dendrograma 100 75 50 25 0 Una vez que corremos el análisis, obtenemos el dendrograma. El siguiente paso es decidir cuantos grupos debemos considerar. En este ejemplo, podemos definir 3, 5 o 7 grupos dependiendo de donde hagamos el corte. Podemos decidir el número de grupos subjetivamente en base a lo que parece lógico como un buen numero de grupos. Otra alternativa es usar la cantidad de información explicada o incluida en el dendrograma. En este ejemplo, si tomamos el 50% de la variación explicada, consideramos 5 grupos; mientras que si tomamos el 75% de la variación explicada (25% no explicada) tendremos 3 grupos. Un método alternativo y más objetivo es aplicar un Análisis de Especies Indicadoras (Indicador Species Analysis). Este análisis se basa en randomnizaciones en la asignación de las entidades a los grupos y obtiene un valor de p para los distintos números de grupos posibles. El número con el menor p se selecciona como el número más adecuado de grupos. 16.3.Ordenamiento Los métodos de ordenamiento se refieren, literalmente, a organizar los ítems a lo largo de una escala (eje) o de varios ejes. Se usan estos métodos como una manera de resumir gráficamente relaciones complejas, extrayendo uno o unos pocos patrones dominantes de un gran numero de posibles patrones. El proceso de extraer esos ejes se llama ordenación porque es el resultado de colocar objetos a lo largo de un eje o dimensión. Esos análisis son posibles porque hay una cierta correlación entre las variables (en un sentido amplio). Las ordenamientos se usan principalmente en ecología para buscar y describir patrones. Los ordenamientos ayudan a: - seleccionar los factores más importantes de un conjunto de factores hipotéticos. - separar patrones fuertes de patrones débiles - revelar patrones y sugerir posibles procesos. 16.3.1.Reducción de datos Los ordenamientos son una manera de reducir los datos, esto significa resumir un set de datos que contiene muchas variables en un set de menos número de variables (sintéticas) que son combinaciones de las variables originales. En contrate, los métodos de clasificación reducen un set de datos multivariados en clases discretas. Comenzamos generalmente con un set de datos de n entidades y p variables (dimensiones) y, usando algún método de ordenación, intentamos representarlo efectivamente en un número menor de dimensiones (k). Estas nuevas dimensiones son variables sintéticas que resultan de la combinación de las variables originales. n entidades x p variables n entidades x k variables 2
16.3.2.Diagramas de ordenación Típicamente un diagrama de ordenación es un gráfico en dos dimensiones de una variable sintética versus otra variable sintética. Idealmente, la distancia entre los puntos en el diagrama es proporcional a la medida de distancia subyacente en los datos. No se debe ver los puntos como un patrón de regresión; en la mayoría de los métodos de ordenación los ejes, por definición, no están correlacionados. F A Eje 1 C H E B G D Eje 2 El número de ejes o variables sintéticas depende de la fuerza de la señal de los datos en relación al ruido. Cuando hay un solo patrón claro, la decisión sobre cuantos ejes considerar es clara. Sin embargo, cuando hay varios posibles patrones, dos o tres ejes son adecuados para representar los datos. Si intentamos representar los datos en más de tres dimensiones, la interpretación se vuelve confusa. 16.3.3.Confiabilidad del ordenamiento Una vez que obtenemos el ordenamiento, el siguiente paso es examinar si la el patrón observado es mas fuerte que el esperado al azar. El método más común para evaluar la confiabilidad es ver si hay consistencia en los patrones usando otros ordenamientos alternativos. Cuando interpretamos un ordenamiento asumimos que la configuración de los puntos representa una estructura real de los datos. Si alguien repite el estudio para el mismo lugar y tiempo, debería, en teoría, obtener los mismos resultados. En ordenación podemos considerar cuatro fuentes de variación en los resultados de la ordenación. - Error de medición: estos errores incluyen efectos del observador, efectos de estimación, y efectos del instrumento. - Error de muestreo: Cada muestra teóricamente representa a la población de la que proviene. Sesgos en el diseño del muestreo pueden introducir importantes errores en el ordenamiento si los grupos resultantes no son un reflejo de la realidad sino el resultado de un muestreo no al azar o mal diseñado. - Artefacto metodológico: Un método analítico puede introducir un componente de estructura aparente en el ordenamiento que depende del tratamiento que cada método de análisis haga de los datos. Es por lo tanto importante elegir cuidadosamente el método a utilizar en base a la calidad y características de los datos a analizar para reducir este error. - Inconsistencia ecológica: La fuerza de patrón de un ordenamiento proviene de la fuerza de las asociaciones entre especies. Factores ambientales particulares, efectos de eventos históricos y la relación filogenética entre los entidades pueden producir un sesgo importante en los resultados de las ordenaciones. Por ejemplo si en una ordenación especies de la misma familia 3
se agrupan juntas y este patrón nos parece inconsistente con el efecto que esperamos encontrar, debemos sospechar de una influencia fuerte de la historia filogenética de las especies. En este caso debemos incluir un factor de corrección que le quite peso y permita ver el patrón que buscamos, si es que existe luego de la corrección. Tenemos cuatro maneras de identificar y medir los errores en el ordenamiento: - Proporción de la variación explicada. Aun si asumimos que no hay un error de medición ni error de muestreo, la ordenación puede no representar una estructura fuerte. Un ordenamiento intenta obtener una representación en pocas dimensiones de una matriz de muchas dimensiones. Si las variables son independientes entre ellas, entonces la ordenación representara solo una pequeña fracción de los datos. La proporción de la varianza explicada es una buena medida de la fuerza del patrón del ordenamiento. Pero debemos tener en cuanta que un outlier (un valor extremo) puede resultar en un valor alto de la varianza explicada, que por lo tanto no reflejaría la varianza en la mayoría de los datos del ordenamiento. - Fuerza del patrón: Aun si asumimos que no hay un error de medición, no hay un error de muestreo y una porción alta de la varianza está representada, el ordenamiento puede no representar una estructura estable y fuerte. Para evaluar la fuerza del patrón podemos comparar el resultado de nuestra ordenación con un modelo nulo. La hipótesis sería que no hay correlación estructural ente las variables de la matriz de ordenación. - Consistencia: El saber que el patrón observado es mas fuerte que lo esperado por azar no es una medida completamente satisfactoria de la confiabilidad de un ordenamiento. Consistencia es la habilidad de un ordenamiento de producir resultados concordantes a partir de diferentes subgrupos tomados de los datos. Un método `para evaluar la consistencia es el bootstraping. Este metodo usa la matriz de datos originales y toma submuestras con reemplazo y luego calcula el error estándar de las medias de esas submuestras. Cuanto mayor el error estandar menor la consistencia de la ordenación. - Precisión: Este es el aspecto de la confiabilidad más difícil de determinar. El concepto implica saber cual es el verdadero patrón subyacente. La manera de obtener una estimación de la precisión del ordenamiento es calcular un estimador de la máxima probabilidad a partir de submuestras independientes de matrices de datos grandes. 16.3.4.Relación entre las variables y los resultados de ordenación La relación entre las variables y los ordenaciones es el principal método para interpretar los resultados. Se puede relacionar las variables de la matriz usada para el análisis de ordenación o cualquier otra variable medida para el mismo grupo de entidades que están en la ordenación. Las dos maneras mas comunes para relacionar las variables a la ordenación son el solapamiento (overlays) y las correlaciones de cada variable con los ejes. Solapamiento: Este es un método flexible para detectar un patrón de una variable en el ordenamiento porque no se limita a relaciones lineares. Típicamente se solapa una variable por vez asignando símbolos que representan el valor o la magnitud de la variable. Para variables discretas se usan diferentes símbolos para cada categoría (ejemplo de las laderas). Para variables contínuas se usan símbolos cuyo tamaño es proporcional a la magnitud de la variable (ejemplo de humedad) 4
Sito 2 Sitio 2 Sito 2 Sitio 5 Sitio 4 Sitio 5 Sitio 4 4 Sitio 5 Sitio Sitio 1 + Sitio 1 Sitio 3 + Sitio 1 Sitio Variables - Ladera sur + - Ladera norte Variables continuas Humedad Correlaciones: Los coeficientes de correlación entre cada variable y cada eje del ordenamiento permiten determinar la importancia de cada variable en el patrón observado. Si la variable tiene alguna relación linear con los ejes esta se expresa en el coeficiente de correlación. El cuadrado del coeficiente de correlación expresa la proporción de la variación la posición a lo largo de un eje que es explicada por esa variable. Estas correlaciones se usan con propósitos descriptivos, y por lo tanto no se debe asignar un valor de significancia para la hipótesis nula de no relación entre la variable y el eje. Sito 2 Sitio 5 Sitio 4 Variables contínuas Humedad Sitio 1 Sitio 3 Eje I I R = 0.534 Tau = 0.327 Eje I R = 0.031 Tau = 0.0.45 16.4.Tipos de ordenación Sin variable dependiente ni variable independiente 1) Análisis de componentes principales (Principal Components Analisis PCA) 2) Escalamiento multidimensional no métrico (Nonmetric Multidimensional Scaling NMS) Con variable dependiente ni variable independiente 2) Canonical correlation analysis (CA) 3) Canonical Correspondence Analysis (CCA) 4) Discriminant Function Analysis (DFA) 5
16.5.Análisis de componentes principales (PCA) El objetivo es expresar la covariación entre las variables en el menor número de variables sintéticas (componentes). Las covariaciones más fuertes emergen el los primeros ejes y por esto se llamán componentes principales. PCA es una buena técnica para usar cuando hay una relación aproximadamente linear entre las variables. En algunos casos se pueden hacer transformaciones para mejorar esta linearidad. Los datos en ecología en general no presentan relaciones lineares y por lo tanto, el PCA no es el método adecuado para estos datos. PCA interpreta los doble ceros (dos variables con valor cero) como una relación positiva entre las variables y como la ordenación es basa en las correlación, el diagrama no refleja la realidad de los datos. En los casos de muchos ceros en la matriz, la distribución de puntos en el diagrama tiene forma de herradura (horseshoe effect). PCA se aplica bien a datos de comunidades relativamente homogéneas. Cuando corremos un PCA, además del gráfico, obtenemos una tabla con los datos de cada eje. Lo que nos interesa ver en esta tabla es la columna del porcentaje de la varianza explicada para poder evaluar si los dos o tres primeros ejes proveen una buena representación de los datos. 16.6.Escalamiento multidimensional no métrico (NMDS) El objetivo de NMDS es construir un mapa o configuración de las muestras, en un numero especifico de dimensiones, que intenta satisfacer todas las condiciones de la matriz de similitud (o disimilitud) (e.g., si la muestra 1 tiene mayor similitud con la muestra 3 que con la muestra 1 entonces la muestra 1 estara mas cerca de la muestra 3 que de la 2). NMDS es un buen método para usar cuando los datos no son normales o tenemos variables en escalas discontinuas o arbitrarias, por lo tanto funciona bien para datos ecológicos. Este método funciona como una busqueda iterativa de las mejores posiciones de las n entidades de la configuración de k variables. El stress es una medida de la desviación de una relación linear entre la distancia en la matriz original de datos y la distancia en el espacio de ordenamiento.valores de stress < 0.05 indican una muy buena representación de los datos en el gráfico. Un stress de < 01 indica una buena representación; agregar un tercer eje no va a agregar más información al patrón general. Si el estrés > 0.2 el gráfico no es muy confiable. Si el stress es mayor que 0.3, podemos considerar que la distribución de los puntos es casi al azar. En este método se puede usar cualquier índice de similitud. Por el modo en que funciona el análisis, este método permite trabajar con matrices con diferentes abundancias (e.g., especies muy abundantes y especies raras) ya que en el análisis 6
se baja el peso de las especies raras. La representación gráfica se basa en los rangos de similitud entre las entidades. Muestras 1 2 3 4 5 Especies 1 2 3 4 5 Similitud entre muestras Rangos de similitud entre muestras Valor de Stress - medida del ajuste de la regresión Regresión entre similitud (o dismilitud y distancia en el espacio 3 2 4 5 1 Grafico de NMDS Cuando se presentan los resultados de un ordenamiento con NMDS se debe mencionar la medida de similitud usada, el tipo de programa usado (e.g., PCORD) ya que diferentes programas usan diferentes algoritmos para resolver las matrices, el número de dimensiones en la configuración final (número de ejes), la proporción de la variabilidad representada por cada eje basada en los r 2 entre la distancia en el espacio de ordenamiento y la distancia en los datos reales, y una interpretación de la relación entre cada variable y los ejes del ordenamiento (por solapamiento o correlaciones). 16.7. Análisis de correlación canónica (CA) El análisis de correlación canónica es un método multivariado que facilita el estudio de de las relaciones entre grupos de variables dependientes y varias variables independientes. Este método también es conocido como promedios recíprocos (Reciprocal Averaging, RA). En regresión múltiple podemos predecir una sola variable dependiente a partir de un grupo de variables independientes, la correlación canónica predice simultáneamente múltiples variables dependientes a partir de múltiples variables independientes. 7
Variables Dependientes (filas) Variable 1 Variable 2 Variable 3 Variable canónica dependiente Correlación canónica R c Variables independientes (columnas) Variable A Variable B Variable C Variable canónica independiente Por ejemplo, podemos tener una serie de sitios (variables dependientes) y una serie de variables independientes para explicar la variación entre los sitios (e.g., especies). El análisis de correlación canónica hace una ordenación de la matriz original de n filas x p columnas y obtiene un grupo de ejes (k).con los respectivos valores de cada n para esos ejes Luego hace una ordenación de la matriz pero las filas como columnas y las columnas como filas y obtiene una serie de ejes (k) con los respectivos valores de de cada p para esos ejes Canónico se refiere al análisis simultáneo de dos o más matrices de datos. Correlación canónica se refiere a la correlación entre dos matrices de datos. p especies k ejes n sitios n sitios p especies Ordenación de sitios en base a especies n sitios k ejes p especies Canonical Correlation R c Ordenación de especies en base a sitios Como resultado de la correlación canónica tenemos como resultado las variables canónicas que representan las combinaciones lineares de las variables independientes y dependientes, y el indice de correlación canónica R c que representa la relación entre las variables dependientes e independientes. 8
16.8. Analisis de correspondecia canónica El análisis de correspondencia canónica (CCA) restringe la ordenación de una matriz por medio de regresiones lineares múltiples con variables en una segunda matriz; en este sentido este análisis combina los conceptos de ordenación y regresión. Se usa CCA para relacionar por ejemplo una matriz de distribución de especies por sitios y las características ambientales de esos sitios. Un aspecto importante es que el CCA ignora aquella parte de la estructura que no esta relacionada con las variables de la segunda matriz (e.g., variables ambientales). El CCA funciona bien para sets de datos donde las respuestas de las variables son unimodales y donde la importancia de las variables ambientales ha sido medidas (sabemos que hay una correlación). p especies P variables ambientales n sitios n sitios Matriz de sitios y especies Matriz de sitios y variables ambientales Cuando hacemos un análisis de CCA debemos reportar los contenidos y dimensiones de las matrices usadas, el número de ejes considerados y la proporción de la varianza explicada por cada uno, Lo primero que obtenemos es una tabla de la correlación entre las variables de explicación (e.g., ambientales). Las bajas correlaciones entre las variable son Variable 1 Variable 2 Variable 3 Variable 1 1 Variable 2 0.107 1 Variable 3-0.120 0.039 1 Luego obtenemos la tabla de resumen de la estadística de los ejes vemos que la mayor parte de la varianza (14,4%) es explicada por el primer eje. Los ejes 2 y 3 debieran ser ignorados porque solo contribuyen con una muy baja porción de la varianza extra. Eje I Eje II Eje III Eigenvalue 0.636 0.044 0.015 Varianza en los datos de especies % varianza explicada 14.4 1.0 0.4 Varianza expl. Cumulativa 14.4 15.4 15.8 Correlacion Pearson (sp-env) 0.9 0.37 0.213 9
Luego vemos la correlación entre las variables originales y los ejes. En este ejemplo, el eje I que explica la mayor parte de la varianza, se correlaciona fuertemente con la variable 1. Las otras dos variables tienen correlaciones muy débiles. Eje I Eje II Eje III Variable 1-0,799 0.014 0.009 Variable 2 0.033-0.194 0.048 Variable 3 0.003 0.075 0.118 También se obtienen los resúmenes de los scores de los sitios y las especies para los eje obtenidos. En base a estos scores se construye el diagrama de ordenación Scores de los sitios Scores de las especies Eje 1 Eje 2 Eje 3 Eje 1 Eje 2 Eje 3 Sitio 1 0.857 0.213 0.012 Especie 1-0.769 4,211 4,643 Sitio 2 0.423-0.100-0.103 Especie 2-1,608 0,240-2,377 Sitio 3 0.646 0.103-0.024 Especie 3-1,051 1,623 1,862 Sitio 4 0.474-0.238-0.104 Especie 4 1,344 1,817-0.794 Sitio 5-0.107-0.297 0.078 Finalmente tenemos el ordenamiento de los sitios en un espacio ambiental. Las flechas muestran las correlaciones de las variables ambientales Una ventaja de este método es que permite plantear hipótesis ecológicas a priori y testearlas con el análisis. También, al examinar la varianza no explicada se pueden generar nuevas hipótesis. 16.9.Análisis de Función Discriminante (DFA) Es un método para separar un número fijo de grupos. Los grupos son definidos antes del análisis (e.g., machos y hembras). El objetivo es construir un modelo predictivo de las relación entre una variable dependiente categórica y un grupo de variables independientes continuas 10
Y = W1X1 + W2X2 + W3X3 + WnXn Donde X son las variables consideradas en el modelo y W son los pesos relativos de cada variable. La diferencia de DFA con los otros métodos multivariados es que los grupos son predefinidos, y no el resultado del análisis. Usamos DFA para para resumir diferencias entre grupos definidos en cluster analysis, para testear si dos o mas grupos son diferentes (multivariado), y para predecir la asignación a ciertos grupos. Por ejemplo, si tenemos datos sobre medidas de machos y hembras, podemos usar DFA para determinar si hay combinaciones de medidas que nos permitan identificar los sexos de una especie en el campo (en especies sin dimorfismo sexual). Este análisis puede darnos como resultado una función como esta. Sexo = 0.39 long ala + 0.45 ancho del pico. Una vez determinada la función el programa hace un test de cuan buena resulta para discriminar los grupos aplicándola a los grupos predefinidos y nos da un porcentaje de clasificación correcta. Estos porcentajes nos dan una idea de cuan últil son las variables identificadas por el modelo para definir los grupos Predecidos por modelo % clasificado Machos Hembras correctamente Machos 4 15 83 Hembras 2 3 66 6 18 11