Ecología de Paisaje y Regiones Tema 16. Principios de estadística multivariada y su aplicación a ecología del paisaje.

Documentos relacionados
Análisis de agrupamiento (Cluster nmds)

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación

Ordenación contrastante o directo. Pueden los patrones de la comunidad de aves ser explicados por variables ambientales medidas?

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Universidad Autónoma de Sinaloa

METODOS DE ANALISIS DE COMUNIDADES VEGETALES

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Itinerario del Curso. Análisis de Datos Multivariados para Ciencias Ambientales. Semana 1. Lunes 23 de mayo de Miércoles 25 de mayo de 2016

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Tema 12: Introducción a la Estadística.

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Estadística ESTADÍSTICA

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

Caso 17. Análisis multivariante: reducción de datos por componentes principales.

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

Tema 1.- Correlación Lineal

El Análisis de Correspondencias tiene dos objetivos básicos:

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Fundamentos de Estadística y Simulación Básica

TALLER DE ANÁLISIS MULTIVARIABLE TÉCNICA DE COMPONENTES PRINCIPALES SEPTIEMBRE DE 2012

Ideas básicas del diseño experimental

BLOQUE III. ANÁLISIS MULTIVARIANTE

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

INSTITUCIÓN EDUCATIVA JAVIERA LONDOÑO SEVILLA Resolución departamental de aprobación No del 27 de noviembre de 2002 Versión 02

Prácticas de Ecología Curso 3 Práctica 1: Muestreo

Si u y v son vectores cualquiera en W, entonces u + v esta en W. Si c es cualquier numero real y u es cualquier vector en W, entonces cu esta en W.

Ing. MSc. Luis Fernando Restrepo Gómez

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Teorema Central del Límite (1)

Procesamiento de información para medir el aprendizaje estudiantil utilizando el programado Excel recopilados. Los participantes rán en el

CARACTERÍSTICAS GRALES.

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Teoría de la decisión

N T E N.. IDO. CAPíTULO 3 TABLAS Y GRÁFICAS: UNA IMAGEN DICE MÁS QUE MIL PALABRAS 78. CAPíTULO I LA IMAGINACiÓN ESTADíSTICA

ANÁLISIS DE REGRESIÓN

ORGANIZACIÓN Y REPRESENTACIÓN GRÁFICA DE LOS DATOS

ESTADÍSTICA UNIDIMENSIONAL

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Método de cuadrados mínimos

Introducción a la estadística y al análisis de datos

ÍNDICE INTRODUCCIÓN... 21

5.3. Análisis discriminante Cuándo tenemos que utilizar el análisis discriminante

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS

Eigenvalores y eigenvectores

Análisis Exploratorio de Datos. Todos los datos, objeto de un análisis estadístico, son numéricos.

Técnicas de Minería de Datos

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Análisis Bioestadístico de datos

Grado en Finanzas y Contabilidad

Tema: Análisis de valores faltantes con SPSS

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Tema 2. Regresión Lineal

Colegio Decroly Americano Matemática 7th Core, Contenidos I Período

TEMA-1 CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS INTRODUCCIÓN:

ESTADÍSTICA: CONCEPTOS Y CARACTERÍSTICAS

Diseño de la investigación cuantitativa. Oscar Federico Nave Herrera Coordinador del Programa de Asesoría Estadística para Investigación -Digi-

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Capítulo 8. Análisis Discriminante

Análisis de Correspondencias Simple

PLANES CURRICULARES GRADO9º/ 01 PERIODO

SEMINARIO 2. Introducción a la presentación de resultados científicos

INDICE. Introducción Capitulo uno. La idea nace un proyecto de investigación Como se originan las investigaciones? 2 Resumen Conceptos básicos

Dr. Ignacio Tobia González Miembro Tiular SAU Especialista Estadística aplicada a Ciencias de la Salud. UBA

Apuntes de Estadística

Tema 3: Análisis de datos bivariantes

Estadística. Análisis de datos.

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

ESTUDIO DE LA CONFIABILIDAD DE LAS PRUEBAS DE SELECCIÓN UNIVERSITARIA ADMISIÓN 2013

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO

Análisis de Componentes de la Varianza

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

MEDIDAS. Error accidental. Error Sistemático. Cantidad de la magnitud A. Número, MEDIDA. Cantidad de la magnitud A tomada como referencia.

Tema 2: Análisis de datos bivariantes

ÁREAS DE LA ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Gráfico de Control T-Cuadrada Multivariada

TEMA 3: Escalas de medida. Validación de cuestionarios.

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Taller de Capacitación 1 - Nivelación SISCA - BPS. Juan José Goyeneche Andrés Castrillejo Junio de 2012

Regresión polinomial y factores

MINISTERIO DE EDUCACIÓN. Educación Técnica y Profesional. Familia de especialidades: Economía. Programa: Estadística

UNIVERSIDAD ABIERTA PARA ADULTOS (UAPA) Maestría en Dirección Financiera. Asignatura: Método Cuantitativo Empresarial

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Matemáticas Currículum Universal

INGENIERO EN COMPUTACION TEMA 1.2: PRESENTACIÓN GRÁFICA DE DATOS

SILABO POR ASIGNATURA 1. INFORMACION GENERAL [ECONOMIA] ESTADISTICA I - GRUPO: 1 [PRESENCIAL] 2. DESCRIPCION DE LA ASIGNATURA

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

La econometría : una mirada de pájaro

TEMA N 1.- ANÁLISIS DE REGRESIÓN Y MÉTODO DE MÍNIMOS CUADRADOS

Conceptos de Estadística

Practica 1. Análisis de Tablas de Contingencia

Transcripción:

Ecología de Paisaje y Regiones Tema 16. Principios de estadística multivariada y su aplicación a ecología del paisaje. Mercedes Rougès 16.1.Principios de estadística multivariada La estadística multivariada se refiere a una serie de técnicas que analizan simultáneamente múltiples medidas de cada individuo u objeto de investigación. En este sentido, el análisis multivariado es una extensión de los análisis univariados (distribución de una sola variable), divariados (que involucran dos variables, como correlación, regresión). El objetivo de los métodos multivariados es reducir los datos a un menor número de variables compuestas o sintéticas que expresen la mayor parte de la información contenida en el set de datos multivariados. Podemos clasificar a los métodos multivariados en dos grandes grupos: 1) Análisis que categorizar o clasifican los objetos de investigación. Aquí encontramos los distintos tipos de análisis de agrupamiento (Cluster Analysis) 2) Análisis que reducen los datos a variables sintéticas (Ordenamientos). Entre estos métodos podemos mencionar: Análisis de componentes principales (PCA), Escalamiento multidimensional no metrico (MDS), Análisis de correspondencia canónica (CCA), Análisis de función discriminante (DFA), 16.2.Análisis de agrupamiento El objetivo de este tipo de análisis es organizar las entidades (e.g., especies, sitios, observaciones) en clases discretas o grupos de manera que la similitud dentro del grupo es maximizada y la similitud entre grupos es minimizada de acuerdo a algún criterio objetivo. Las características de los datos se usan para definir grupos. Los análisis de agrupamiento se pueden clasificar en: Jerárquicos: Se determinan grupos que están compuestos por subgrupos. Hay una jerarquía de niveles. Aglomerativos: Los grupos se forman desde abajo. Comienza uniendo los dos objetos más similares. (Cluster analysis). Divisivos: la clasificación comienza con la división de todo el grupo de datos en dos, que luego se vuelven a dividir y así sucesivamente. No Jerárquicos: El objetivo es formar un número predeterminado de grupos (K). Se define el número de grupos y se acomodan los objetos para minimizar la variabilidad dentro del grupo y maximizar la variabilidad entre los grupos. Muestras 1 2 3 4 5 Especies Transformación Similitud entre muestras 2 4 5 1 3 Agrupamiento de muestras 1

Porcentaje de la información no explicada por el dendrograma 100 75 50 25 0 Una vez que corremos el análisis, obtenemos el dendrograma. El siguiente paso es decidir cuantos grupos debemos considerar. En este ejemplo, podemos definir 3, 5 o 7 grupos dependiendo de donde hagamos el corte. Podemos decidir el número de grupos subjetivamente en base a lo que parece lógico como un buen numero de grupos. Otra alternativa es usar la cantidad de información explicada o incluida en el dendrograma. En este ejemplo, si tomamos el 50% de la variación explicada, consideramos 5 grupos; mientras que si tomamos el 75% de la variación explicada (25% no explicada) tendremos 3 grupos. Un método alternativo y más objetivo es aplicar un Análisis de Especies Indicadoras (Indicador Species Analysis). Este análisis se basa en randomnizaciones en la asignación de las entidades a los grupos y obtiene un valor de p para los distintos números de grupos posibles. El número con el menor p se selecciona como el número más adecuado de grupos. 16.3.Ordenamiento Los métodos de ordenamiento se refieren, literalmente, a organizar los ítems a lo largo de una escala (eje) o de varios ejes. Se usan estos métodos como una manera de resumir gráficamente relaciones complejas, extrayendo uno o unos pocos patrones dominantes de un gran numero de posibles patrones. El proceso de extraer esos ejes se llama ordenación porque es el resultado de colocar objetos a lo largo de un eje o dimensión. Esos análisis son posibles porque hay una cierta correlación entre las variables (en un sentido amplio). Las ordenamientos se usan principalmente en ecología para buscar y describir patrones. Los ordenamientos ayudan a: - seleccionar los factores más importantes de un conjunto de factores hipotéticos. - separar patrones fuertes de patrones débiles - revelar patrones y sugerir posibles procesos. 16.3.1.Reducción de datos Los ordenamientos son una manera de reducir los datos, esto significa resumir un set de datos que contiene muchas variables en un set de menos número de variables (sintéticas) que son combinaciones de las variables originales. En contrate, los métodos de clasificación reducen un set de datos multivariados en clases discretas. Comenzamos generalmente con un set de datos de n entidades y p variables (dimensiones) y, usando algún método de ordenación, intentamos representarlo efectivamente en un número menor de dimensiones (k). Estas nuevas dimensiones son variables sintéticas que resultan de la combinación de las variables originales. n entidades x p variables n entidades x k variables 2

16.3.2.Diagramas de ordenación Típicamente un diagrama de ordenación es un gráfico en dos dimensiones de una variable sintética versus otra variable sintética. Idealmente, la distancia entre los puntos en el diagrama es proporcional a la medida de distancia subyacente en los datos. No se debe ver los puntos como un patrón de regresión; en la mayoría de los métodos de ordenación los ejes, por definición, no están correlacionados. F A Eje 1 C H E B G D Eje 2 El número de ejes o variables sintéticas depende de la fuerza de la señal de los datos en relación al ruido. Cuando hay un solo patrón claro, la decisión sobre cuantos ejes considerar es clara. Sin embargo, cuando hay varios posibles patrones, dos o tres ejes son adecuados para representar los datos. Si intentamos representar los datos en más de tres dimensiones, la interpretación se vuelve confusa. 16.3.3.Confiabilidad del ordenamiento Una vez que obtenemos el ordenamiento, el siguiente paso es examinar si la el patrón observado es mas fuerte que el esperado al azar. El método más común para evaluar la confiabilidad es ver si hay consistencia en los patrones usando otros ordenamientos alternativos. Cuando interpretamos un ordenamiento asumimos que la configuración de los puntos representa una estructura real de los datos. Si alguien repite el estudio para el mismo lugar y tiempo, debería, en teoría, obtener los mismos resultados. En ordenación podemos considerar cuatro fuentes de variación en los resultados de la ordenación. - Error de medición: estos errores incluyen efectos del observador, efectos de estimación, y efectos del instrumento. - Error de muestreo: Cada muestra teóricamente representa a la población de la que proviene. Sesgos en el diseño del muestreo pueden introducir importantes errores en el ordenamiento si los grupos resultantes no son un reflejo de la realidad sino el resultado de un muestreo no al azar o mal diseñado. - Artefacto metodológico: Un método analítico puede introducir un componente de estructura aparente en el ordenamiento que depende del tratamiento que cada método de análisis haga de los datos. Es por lo tanto importante elegir cuidadosamente el método a utilizar en base a la calidad y características de los datos a analizar para reducir este error. - Inconsistencia ecológica: La fuerza de patrón de un ordenamiento proviene de la fuerza de las asociaciones entre especies. Factores ambientales particulares, efectos de eventos históricos y la relación filogenética entre los entidades pueden producir un sesgo importante en los resultados de las ordenaciones. Por ejemplo si en una ordenación especies de la misma familia 3

se agrupan juntas y este patrón nos parece inconsistente con el efecto que esperamos encontrar, debemos sospechar de una influencia fuerte de la historia filogenética de las especies. En este caso debemos incluir un factor de corrección que le quite peso y permita ver el patrón que buscamos, si es que existe luego de la corrección. Tenemos cuatro maneras de identificar y medir los errores en el ordenamiento: - Proporción de la variación explicada. Aun si asumimos que no hay un error de medición ni error de muestreo, la ordenación puede no representar una estructura fuerte. Un ordenamiento intenta obtener una representación en pocas dimensiones de una matriz de muchas dimensiones. Si las variables son independientes entre ellas, entonces la ordenación representara solo una pequeña fracción de los datos. La proporción de la varianza explicada es una buena medida de la fuerza del patrón del ordenamiento. Pero debemos tener en cuanta que un outlier (un valor extremo) puede resultar en un valor alto de la varianza explicada, que por lo tanto no reflejaría la varianza en la mayoría de los datos del ordenamiento. - Fuerza del patrón: Aun si asumimos que no hay un error de medición, no hay un error de muestreo y una porción alta de la varianza está representada, el ordenamiento puede no representar una estructura estable y fuerte. Para evaluar la fuerza del patrón podemos comparar el resultado de nuestra ordenación con un modelo nulo. La hipótesis sería que no hay correlación estructural ente las variables de la matriz de ordenación. - Consistencia: El saber que el patrón observado es mas fuerte que lo esperado por azar no es una medida completamente satisfactoria de la confiabilidad de un ordenamiento. Consistencia es la habilidad de un ordenamiento de producir resultados concordantes a partir de diferentes subgrupos tomados de los datos. Un método `para evaluar la consistencia es el bootstraping. Este metodo usa la matriz de datos originales y toma submuestras con reemplazo y luego calcula el error estándar de las medias de esas submuestras. Cuanto mayor el error estandar menor la consistencia de la ordenación. - Precisión: Este es el aspecto de la confiabilidad más difícil de determinar. El concepto implica saber cual es el verdadero patrón subyacente. La manera de obtener una estimación de la precisión del ordenamiento es calcular un estimador de la máxima probabilidad a partir de submuestras independientes de matrices de datos grandes. 16.3.4.Relación entre las variables y los resultados de ordenación La relación entre las variables y los ordenaciones es el principal método para interpretar los resultados. Se puede relacionar las variables de la matriz usada para el análisis de ordenación o cualquier otra variable medida para el mismo grupo de entidades que están en la ordenación. Las dos maneras mas comunes para relacionar las variables a la ordenación son el solapamiento (overlays) y las correlaciones de cada variable con los ejes. Solapamiento: Este es un método flexible para detectar un patrón de una variable en el ordenamiento porque no se limita a relaciones lineares. Típicamente se solapa una variable por vez asignando símbolos que representan el valor o la magnitud de la variable. Para variables discretas se usan diferentes símbolos para cada categoría (ejemplo de las laderas). Para variables contínuas se usan símbolos cuyo tamaño es proporcional a la magnitud de la variable (ejemplo de humedad) 4

Sito 2 Sitio 2 Sito 2 Sitio 5 Sitio 4 Sitio 5 Sitio 4 4 Sitio 5 Sitio Sitio 1 + Sitio 1 Sitio 3 + Sitio 1 Sitio Variables - Ladera sur + - Ladera norte Variables continuas Humedad Correlaciones: Los coeficientes de correlación entre cada variable y cada eje del ordenamiento permiten determinar la importancia de cada variable en el patrón observado. Si la variable tiene alguna relación linear con los ejes esta se expresa en el coeficiente de correlación. El cuadrado del coeficiente de correlación expresa la proporción de la variación la posición a lo largo de un eje que es explicada por esa variable. Estas correlaciones se usan con propósitos descriptivos, y por lo tanto no se debe asignar un valor de significancia para la hipótesis nula de no relación entre la variable y el eje. Sito 2 Sitio 5 Sitio 4 Variables contínuas Humedad Sitio 1 Sitio 3 Eje I I R = 0.534 Tau = 0.327 Eje I R = 0.031 Tau = 0.0.45 16.4.Tipos de ordenación Sin variable dependiente ni variable independiente 1) Análisis de componentes principales (Principal Components Analisis PCA) 2) Escalamiento multidimensional no métrico (Nonmetric Multidimensional Scaling NMS) Con variable dependiente ni variable independiente 2) Canonical correlation analysis (CA) 3) Canonical Correspondence Analysis (CCA) 4) Discriminant Function Analysis (DFA) 5

16.5.Análisis de componentes principales (PCA) El objetivo es expresar la covariación entre las variables en el menor número de variables sintéticas (componentes). Las covariaciones más fuertes emergen el los primeros ejes y por esto se llamán componentes principales. PCA es una buena técnica para usar cuando hay una relación aproximadamente linear entre las variables. En algunos casos se pueden hacer transformaciones para mejorar esta linearidad. Los datos en ecología en general no presentan relaciones lineares y por lo tanto, el PCA no es el método adecuado para estos datos. PCA interpreta los doble ceros (dos variables con valor cero) como una relación positiva entre las variables y como la ordenación es basa en las correlación, el diagrama no refleja la realidad de los datos. En los casos de muchos ceros en la matriz, la distribución de puntos en el diagrama tiene forma de herradura (horseshoe effect). PCA se aplica bien a datos de comunidades relativamente homogéneas. Cuando corremos un PCA, además del gráfico, obtenemos una tabla con los datos de cada eje. Lo que nos interesa ver en esta tabla es la columna del porcentaje de la varianza explicada para poder evaluar si los dos o tres primeros ejes proveen una buena representación de los datos. 16.6.Escalamiento multidimensional no métrico (NMDS) El objetivo de NMDS es construir un mapa o configuración de las muestras, en un numero especifico de dimensiones, que intenta satisfacer todas las condiciones de la matriz de similitud (o disimilitud) (e.g., si la muestra 1 tiene mayor similitud con la muestra 3 que con la muestra 1 entonces la muestra 1 estara mas cerca de la muestra 3 que de la 2). NMDS es un buen método para usar cuando los datos no son normales o tenemos variables en escalas discontinuas o arbitrarias, por lo tanto funciona bien para datos ecológicos. Este método funciona como una busqueda iterativa de las mejores posiciones de las n entidades de la configuración de k variables. El stress es una medida de la desviación de una relación linear entre la distancia en la matriz original de datos y la distancia en el espacio de ordenamiento.valores de stress < 0.05 indican una muy buena representación de los datos en el gráfico. Un stress de < 01 indica una buena representación; agregar un tercer eje no va a agregar más información al patrón general. Si el estrés > 0.2 el gráfico no es muy confiable. Si el stress es mayor que 0.3, podemos considerar que la distribución de los puntos es casi al azar. En este método se puede usar cualquier índice de similitud. Por el modo en que funciona el análisis, este método permite trabajar con matrices con diferentes abundancias (e.g., especies muy abundantes y especies raras) ya que en el análisis 6

se baja el peso de las especies raras. La representación gráfica se basa en los rangos de similitud entre las entidades. Muestras 1 2 3 4 5 Especies 1 2 3 4 5 Similitud entre muestras Rangos de similitud entre muestras Valor de Stress - medida del ajuste de la regresión Regresión entre similitud (o dismilitud y distancia en el espacio 3 2 4 5 1 Grafico de NMDS Cuando se presentan los resultados de un ordenamiento con NMDS se debe mencionar la medida de similitud usada, el tipo de programa usado (e.g., PCORD) ya que diferentes programas usan diferentes algoritmos para resolver las matrices, el número de dimensiones en la configuración final (número de ejes), la proporción de la variabilidad representada por cada eje basada en los r 2 entre la distancia en el espacio de ordenamiento y la distancia en los datos reales, y una interpretación de la relación entre cada variable y los ejes del ordenamiento (por solapamiento o correlaciones). 16.7. Análisis de correlación canónica (CA) El análisis de correlación canónica es un método multivariado que facilita el estudio de de las relaciones entre grupos de variables dependientes y varias variables independientes. Este método también es conocido como promedios recíprocos (Reciprocal Averaging, RA). En regresión múltiple podemos predecir una sola variable dependiente a partir de un grupo de variables independientes, la correlación canónica predice simultáneamente múltiples variables dependientes a partir de múltiples variables independientes. 7

Variables Dependientes (filas) Variable 1 Variable 2 Variable 3 Variable canónica dependiente Correlación canónica R c Variables independientes (columnas) Variable A Variable B Variable C Variable canónica independiente Por ejemplo, podemos tener una serie de sitios (variables dependientes) y una serie de variables independientes para explicar la variación entre los sitios (e.g., especies). El análisis de correlación canónica hace una ordenación de la matriz original de n filas x p columnas y obtiene un grupo de ejes (k).con los respectivos valores de cada n para esos ejes Luego hace una ordenación de la matriz pero las filas como columnas y las columnas como filas y obtiene una serie de ejes (k) con los respectivos valores de de cada p para esos ejes Canónico se refiere al análisis simultáneo de dos o más matrices de datos. Correlación canónica se refiere a la correlación entre dos matrices de datos. p especies k ejes n sitios n sitios p especies Ordenación de sitios en base a especies n sitios k ejes p especies Canonical Correlation R c Ordenación de especies en base a sitios Como resultado de la correlación canónica tenemos como resultado las variables canónicas que representan las combinaciones lineares de las variables independientes y dependientes, y el indice de correlación canónica R c que representa la relación entre las variables dependientes e independientes. 8

16.8. Analisis de correspondecia canónica El análisis de correspondencia canónica (CCA) restringe la ordenación de una matriz por medio de regresiones lineares múltiples con variables en una segunda matriz; en este sentido este análisis combina los conceptos de ordenación y regresión. Se usa CCA para relacionar por ejemplo una matriz de distribución de especies por sitios y las características ambientales de esos sitios. Un aspecto importante es que el CCA ignora aquella parte de la estructura que no esta relacionada con las variables de la segunda matriz (e.g., variables ambientales). El CCA funciona bien para sets de datos donde las respuestas de las variables son unimodales y donde la importancia de las variables ambientales ha sido medidas (sabemos que hay una correlación). p especies P variables ambientales n sitios n sitios Matriz de sitios y especies Matriz de sitios y variables ambientales Cuando hacemos un análisis de CCA debemos reportar los contenidos y dimensiones de las matrices usadas, el número de ejes considerados y la proporción de la varianza explicada por cada uno, Lo primero que obtenemos es una tabla de la correlación entre las variables de explicación (e.g., ambientales). Las bajas correlaciones entre las variable son Variable 1 Variable 2 Variable 3 Variable 1 1 Variable 2 0.107 1 Variable 3-0.120 0.039 1 Luego obtenemos la tabla de resumen de la estadística de los ejes vemos que la mayor parte de la varianza (14,4%) es explicada por el primer eje. Los ejes 2 y 3 debieran ser ignorados porque solo contribuyen con una muy baja porción de la varianza extra. Eje I Eje II Eje III Eigenvalue 0.636 0.044 0.015 Varianza en los datos de especies % varianza explicada 14.4 1.0 0.4 Varianza expl. Cumulativa 14.4 15.4 15.8 Correlacion Pearson (sp-env) 0.9 0.37 0.213 9

Luego vemos la correlación entre las variables originales y los ejes. En este ejemplo, el eje I que explica la mayor parte de la varianza, se correlaciona fuertemente con la variable 1. Las otras dos variables tienen correlaciones muy débiles. Eje I Eje II Eje III Variable 1-0,799 0.014 0.009 Variable 2 0.033-0.194 0.048 Variable 3 0.003 0.075 0.118 También se obtienen los resúmenes de los scores de los sitios y las especies para los eje obtenidos. En base a estos scores se construye el diagrama de ordenación Scores de los sitios Scores de las especies Eje 1 Eje 2 Eje 3 Eje 1 Eje 2 Eje 3 Sitio 1 0.857 0.213 0.012 Especie 1-0.769 4,211 4,643 Sitio 2 0.423-0.100-0.103 Especie 2-1,608 0,240-2,377 Sitio 3 0.646 0.103-0.024 Especie 3-1,051 1,623 1,862 Sitio 4 0.474-0.238-0.104 Especie 4 1,344 1,817-0.794 Sitio 5-0.107-0.297 0.078 Finalmente tenemos el ordenamiento de los sitios en un espacio ambiental. Las flechas muestran las correlaciones de las variables ambientales Una ventaja de este método es que permite plantear hipótesis ecológicas a priori y testearlas con el análisis. También, al examinar la varianza no explicada se pueden generar nuevas hipótesis. 16.9.Análisis de Función Discriminante (DFA) Es un método para separar un número fijo de grupos. Los grupos son definidos antes del análisis (e.g., machos y hembras). El objetivo es construir un modelo predictivo de las relación entre una variable dependiente categórica y un grupo de variables independientes continuas 10

Y = W1X1 + W2X2 + W3X3 + WnXn Donde X son las variables consideradas en el modelo y W son los pesos relativos de cada variable. La diferencia de DFA con los otros métodos multivariados es que los grupos son predefinidos, y no el resultado del análisis. Usamos DFA para para resumir diferencias entre grupos definidos en cluster analysis, para testear si dos o mas grupos son diferentes (multivariado), y para predecir la asignación a ciertos grupos. Por ejemplo, si tenemos datos sobre medidas de machos y hembras, podemos usar DFA para determinar si hay combinaciones de medidas que nos permitan identificar los sexos de una especie en el campo (en especies sin dimorfismo sexual). Este análisis puede darnos como resultado una función como esta. Sexo = 0.39 long ala + 0.45 ancho del pico. Una vez determinada la función el programa hace un test de cuan buena resulta para discriminar los grupos aplicándola a los grupos predefinidos y nos da un porcentaje de clasificación correcta. Estos porcentajes nos dan una idea de cuan últil son las variables identificadas por el modelo para definir los grupos Predecidos por modelo % clasificado Machos Hembras correctamente Machos 4 15 83 Hembras 2 3 66 6 18 11