TEST DE MANTEL PARA DATOS FUNCIONALES ESPACIALES

XXV Simposio Internacional de Estadística 2015 Armenia, Colombia, 5, 6, 7 y 8 de Agosto de 2015 TEST DE MANTEL PARA DATOS FUNCIONALES ESPACIALES Ramón Giraldo 1,a, Willian de Jesús Caballero 2,b 1 Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia 2 Departamento de Ciencias Básicas, Decanatura Académica, Escuela Naval de Cadetes Almirante Padilla, Cartagena, Colombia Resumen La estadística para datos funcionales espaciales es un campo emergente en la estadística, que combina los métodos de estadística espacial y el análisis de datos funcionales con el fin de modelar datos funcionales espacialmente correlacionados. Un paso importante en el análisis estadístico de datos espaciales es comprobar la autocorrelación espacial. Existen varias estadísticas propuestas para lograr este objetivo. El test de Mantel resulta ser una de las metodologías ampliamente reconocidas en este contexto. En este trabajo se propone una extensión de esta prueba para el caso donde se tienen datos funcionales espaciales (realizaciones de un campo aleatorio funcional) en lugar de observaciones de un campo aleatorio univariado, y aunque nos centramos en el caso de la geoestadística de datos funcionales donde se observaron datos en una región con continuidad espacial, esta también puede ser aplicada con datos funcionales medidos en un conjunto discreto de áreas o regiones (datos funcionales de área) definiendo una distancia adecuada entre las áreas. Nuestro enfoque considera la misma estadística utilizada en el caso univariante, pero reemplazando la matriz de distancias entre los datos por una matriz de distancia entre funciones. Demostramos, basado en un estudio de simulación, que el test propuesto tiene un buen rendimiento. La metodología se implementa aplicándola a datos de agronomía. Palabras clave: Test de Mantel, Auto-correlación espacial, Datos funcionales espaciales. Abstract Statistics for spatial functional data is an emerging field in statistics, which combines methods of spatial statistics and functional data analysis in order to model spatially correlated functional data. An important step in the statistical analysis of spatial data is to check for spatial autocorrelation. There are various statistics proposed to achieve this goal. The test based on the Mantel statistic is a widely known and used alternative in this context. This paper proposes an extension of this test to the case of spatial functional data. Although we focus particularly on geostatistical functional data, that is functional data observed in a region with spatial continuity, this test can be also applied with functional data measured on a discrete set of areas of a region (areal functional data) by defining properly a distance between the areas. We show, based on a simulation study, that the test proposed has a good performance. An application to agronomic data is used to illustrate the methodology. Key words: Mantel test, Spatial auto-correlation, Spatial functional data. a Profesor asociado. E-mail: rgiraldoh@unal.edu.co b Orientador de Defensa. E-mail: wilcab2001@yahoo.com 1

2 Ramón Giraldo & Willian de Jesús Caballero 1. Introducción Datos funcionales espaciales (SFD) surgen cuando tenemos datos funcionales (curvas o imágenes) ubicados espacialmente en varios sitios de un área o región. Por ejemplo, en agronomía, cuando las curvas de filtración son estimadas en diferentes sitios de una parcela (Rodríguez-Vásquez et al. 2008), en meteorología, cuando las curvas de variación intra-anual de la temperatura o precipitación son registrada en las estaciones meteorológicas de un país (Ramsay & Silverman 2005) o en neurología cuando las señales fmri (functional magnetic resonance imaging) se obtienen en voxels del cerebro (Lindquist 2008). La estadística para SFD (Delicado et al. 2010) se ocupa de la aplicación de métodos para modelamiento de este tipo de datos. Todos los campos de la estadística espacial (patrones de puntuales, datos de área y geoestadística) se han adaptado para el estudio de la SFD. Por ejemplo, en el análisis de patrones puntuales se propuso la función de marca de correlación funcional (Comas et al. 2011), que es una versión equivalente de la función de marca de correlación (Stoyan & Stoyan 1994), en datos área Delicado et al. (2010) muestran el análisis de un conjunto de datos funcionales de área consistente de una población de pirámides para 38 barrios de Barcelona (España), y en el análisis geoestadístico diversos enfoques para kriging de datos funcionales se han dado (Giraldo et al. 2009),2011; (Caballero et al. 2013); (Ignaccolo et al. 2014). En estadística espacial, el test de Mantel (Mantel 1967) ha sido ampliamente utilizado para probar la hipótesis de correlación espacial (Fortin et al. 2002). El test de Mantel, inicialmente propuesto para la detección de agrupación de casos de cáncer bajo interacción espacio-tiempo, es una prueba estadística para la correlación entre dos matrices nxn cuyas entradas son las distancias entre todas las combinaciones por parejas de objetos n (Lichstein 2007). Esto ha sido utilizado comúnmente en ecología para el estudio de las relaciones de especies-medio ambiente (Fortin & Dale 2005) y en la biología para evaluar la importancia de asociación entre dos matrices de distancia fenotípicas o genéticas (Legendre & Fortin 2010). En el contexto espacial se aplica cuando, por un lado, tenemos una matriz de distancias entre las observaciones y por el otro lado, una matriz de distancias geográficas entre sitios. La significancia de la correlación puede ser probada usando una distribución normal o más frecuentemente un test de aleatorización (Dutilleul et al. 2000). En este trabajo, se propone una extensión de la prueba de Mantel para el caso donde se tienen SFD (realizaciones de un campo aleatorio funcional) en lugar de observaciones de un campo aleatorio univariado. Nuestro enfoque considera la misma estadística usada en el caso univariado, pero remplazando la matriz de distancias entre los datos por una matriz de distancias entre funciones. 2. Test de Mantel para datos funcionales espaciales Consideramos el test de Mantel para datos funcionales espaciales como una extensión del test de Mantel para el caso de datos espaciales univariados, en la medida en que se tenga un campo aleatorio funcional (ver definición 2.1). Ferraty & Vieu (2006) definen una variable funcional χ como una variable aleatoria que toma valores en un espacio infinito dimensional (o espacio funcional), una observación χ de χ se llama un dato funcional, y un conjunto de datos funcionales χ 1,..., χ n es la observación de n variables funcionales χ 1,..., χ n con igual distribución que χ. Esta definición ha sido ampliamente usada en la literatura de datos funcionales. Todos los modelos para datos funcionales teniendo en cuenta un conjunto de datos funcionales, como se definió anteriormente, se basan en el supuesto de independencia. Definición 2.1. El conjunto {χ s (t), s D R d, t [a, b] R} es llamado un proceso estocástico espacial funcional o un campo aleatorio funcional, si para cada s D, χ s (t) es una variable funcional (Delicado et al. 2010). Definición 2.2. Sea {χ s (t), s D R d, t [a, b] R} un campo aleatorio funcional. Una realización de este proceso es la observación (χ s1 (t),, χ sn (t)) de n variables funcionales χ s1 (t),, χ sn (t) con (s 1,, s n ) una n-tuple de sitios D. Supuestos

TEST DE MANTEL PARA DATOS FUNCIONALES ESPACIALES 3 1. Asumiremos que los datos funcionales χ si (t), i = 1,, n pertenecen a L 2 (T ) = {f : T R, such that f 2 (t)dt < }. (1) Note que L 2 (T ) es un espacio de Hilbert donde el producto interior y la norma están definidas como f, g = T f(t)g(t)dt, y f = f, f 1/2. 2. El campo aleatorio en la definición 2.1 podría ser estacionario o no-estacionario. En este trabajo se considera solamente la primera opción. 3. Se considera la hipótesis H 0 : No hay auto-correlación espacial del campo aleatorio funcional vs H 1 : Existe auto-correlación espacial del campo aleatorio funcional. 4. Estadística de prueba (Estadística de Mantel para datos funcionales espaciales) M = T n n 1 c ij d ij. (2) i=1 j=2 Siendo los d ij = s i s j las componentes de la matriz D nxn de distancia entre los sitios, y los c ij las componentes de la matriz C nxn de distancias entre los datos funcionales espaciales, y los cuales se determinan por c ij = χ si (t) χ sj (t) = χ si (t), χ sj (t) [ ( = χsi (t) χ sj (t) ) ] 2. (3) T 5. Se valida la significancia estadística de la estadística de Mantel para datos funcionales espaciales mediante un test de permutaciones dado que dicho coeficiente se expresa como suma de productos cruzados de distancias euclidianas las cuales son dependientes, lo que dificulta la determinación de una posible distribución conjuntamente con su valor esperado y varianza. 3. Estudio de Simulación Llevamos a cabo un estudio de simulación de Monte Carlo para estimar la potencia estadística del test de Mantel para datos funcionales espaciales bajo varios niveles de correlación espacial. Simulamos datos funcionales sobre dos grillas regulares, la grilla 1 con 40 sitios equidistantes verticalmente 20m. Seguidamente la grilla 2 con 153 sitios equidistantes verticalmente 10m, adicionalmente, una forma linealizada del modelo de filtración de Kostiakov (Parhi 2014) dada por log(i i (t)) = log(a) + b i log(t). (4) Para llevar a cabo la simulación, tomaremos a como una constante, t [0, 180], y b = (b 1,, b n ) T NMV n (µ, Σ), con µ como vector de medias y Σ como matriz (n n) de covarianzas, donde n = 40 (para simular sobre la grilla 1) o 153 (para simular sobre la grilla 2), respectivamente. Después de la simulación de una realización de los b y la sustitución de estos valores en la ecuación (4), obtenemos una simulación de los log[i i (t)], i = 1,, n sobre la grilla 1 y 2, de acuerdo al caso. Note que C(log(I i (t)), log(i j (t)) = C(log(a) + b i log(t), log(a) + b j log(t)) = (log(t)) 2 C(b i, b j ). (5)

4 Ramón Giraldo & Willian de Jesús Caballero De (5), la covarianza entre las funciones depende de la covarianza del vector aleatorio b. Luego, para simular datos funcionales bajo la hipótesis nula (no correlación espacial) tomamos la matriz de covarianza de b como Σ = σ 2 I. Por otro lado para simular datos funcionales espacialmente correlacionados, tomamos Σ = (σ ij ) n n, con σ ij = σ 2 exp( s i s j /φ), esto es, la función de correlación del campo aleatorio Gaussiano b, sigue un modelo exponencial. En este modelo σ 2 es la varianza y φ es el rango que da el nivel de correlación espacial del proceso (Schabenberger & Gotway 2004). Mientras más grande sea φ, mayor es la correlación espacial. Elegimos φ variando de 20 a 340. Sea Corr(b i, b j ) = ρ(h) = exp( s i s j /φ) la función de correlación. Las mínimas distancias entre los puntos en las grillas 1 y 2 son 10 y 20, Tabla 1: Simulación de las probabilidades de rechazo bajo la hipótesis nula (Σ = σ 2 I) y varios niveles de correlación espacial ( valores φ > 0). φ = 0 corresponde al caso Σ = σ 2 I. Las probabilidades de rechazo reportadas son promedios de 5 estimaciones (repeticiones del proceso de simulación) y cada estimación fue dereminada sobre 1000 corridas de Monte Carlo. Grid 1 Grid 2 φ P(Rej H 0 /φ) φ P(Rej H 0 /φ) φ P(Rej H 0 /φ) φ P(Rej H 0 /φ) 0 0.05 180 0.77 0 0.05 180 0.93 20 0.23 200 0.77 20 0.51 200 0.93 40 0.47 220 0.78 40 0.75 220 0.94 60 0.56 240 0.78 60 0.85 240 0.95 80 0.64 260 0.79 80 0.87 260 0.95 100 0.69 280 0.79 100 0.88 280 0.95 120 0.72 300 0.80 120 0.90 300 0.95 140 0.74 320 0.82 140 0.90 320 0.96 160 0.76 340 0.82 160 0.92 340 0.97 respectivamente. La máxima distancia en ambos casos es de 161,2. La correlación entre puntos varia de 0,37 a 0,94 sobre la grilla 1 (cuando s i s j = 20), de 0,67 a 0,97 sobre la grilla 2 (cuando s i s j = 10), y de 0,0 a 0,62 en ambas configuraciones cuando s i s j = 162. Si φ = 20 existe una baja correlación entre los puntos (próximos a cero cuando s i s j > 80). Por otro lado, si φ = 340 existe una alta correlación entre los puntos (la correlación en todos los casos es mayor que 0,62). Aunque la función de correlación es la misma en ambas configuraciones, en la grilla 2 existen mayores valores de correlaciones, debido a que la distancia mínima entre los puntos es menor. Un estudio sobre la variabilidad espacial de los parámetros del modelo de filtración de Kostiakov fue llevado a cabo por Rodríguez-Vásquez et al. (2008). Estos autores estimaron los parámetros del modelo Kostiakov basados en datos de filtración registrados en cada uno de los 40 sitios en una estación experimental en Colombia llevando a cabo un análisis geoestadístico. Basados en los valores reportados en este estudio, tomamos a = 10, σ 2 = 0.0225, y µ = (0.7,, 0.7) T, respectivamente. El límite del dominio espacial en la grilla 1 corresponde a la grilla de muestreo considerados en el estudio de Rodríguez-Vásquez et al. (2008). La grilla 2 es considerada para tener en cuenta el efecto de aumentar el número de puntos de la malla en la potencia de la prueba. Para cada una de las grillas y cada especificación de la matriz de covarianza Σ realizamos 1000 corridas de Monte Carlo, obteniendo 1.000 realizaciones del campo aleatorio b, el cálculo para cada uno de la estadística de Mantel y el P-valor de la prueba (basado en 999 permutaciones). Así obtenemos 1000 P- valores en cada escenario de simulación (combinación de una grilla y una matriz de covarianza Σ). Basado en esos P-valores y usando un nivel nominal α = 5 % estimamos la probabilidad de rechazar H 0 como 1000 j=1 [P-value j 0.05]/1000. El procedimiento fue repetido 5 veces para cada escenario, obteniendo el mismo número de estimaciones. Se presentan los promedios de estos en la tabla 1. Varios puntos se resaltan de esta tabla. Podemos observar que ambos casos (ambas grillas) la probabilidad de rechazo es igual para el nivel nominal α = 5 % cuando Σ = σ 2 I y la potencia aumenta cuando φ se aparta de cero (cuando crece el nivel de correlación). Este resultado permite concluir que el test es insesgado. Notemos que aunque la estructura de correlación subyacente es la misma, las probabilidades de rechazo

TEST DE MANTEL PARA DATOS FUNCIONALES ESPACIALES 5 son mayores en la grilla 2. La prueba resulta ser en este caso más potente dado que las distancias entre los sitios decrece. Referencias Caballero, W., Giraldo, R. & Mateu, J. (2013), A universal kriging approach for spatial functional data, Stochastic Environmental Research and Risk Assessment 27, 1553 1563. Comas, C., Delicado, P. & Mateu, J. (2011), A second order approach to analyse spatial point patterns with functional marks, Test 20, 503 523. Delicado, P., Giraldo, R., Comas, C. & Mateu, J. (2010), Statistics for spatial func-tional data: some recent contributions, Environmetrics 21, 224 239. Dutilleul, P., Stockwell, J., Frigon, D. & Legendre, P. (2000), The Mantel test versus Pearson s correlation analysis: assessment of the differences for biological and envi-ronmental studies, Journal of Agricultural, Biological, and Environmental Statistics 5(2), 131 150. Ferraty, F. & Vieu, P. (2006), Nonparametric Functional Data Analysis, Springer. Fortin, M. & Dale, M. (2005), Spatial Analysis: A Guide for Ecologist, Cambridge University Press. Fortin, M., Dale, M. & ver Hoef, J. (2002), Spatial analysis in ecology, In El-Shaarawi, A., editor, Encyclopedia of Environmetrics Wiley, Chichester. 4, 2051 2058. Giraldo, R., Delicado, P. & Mateu, J. (2009), Continuous time-varying kriging for spatial prediction of functional data: An environmental application, Journal of Agri-cultural, Biological, and Environmental Statistics 15 (1), 66 82. Ignaccolo, R., Mateu, J. & Giraldo, R. (2014), Kriging with external drift for func-tional data for air quality monitoring, Stochastic Environmental Research and Risk Assessment 28, 1171 1186. Legendre, P. & Fortin, M. (2010), Comparison of the Mantel test and alternative approaches for detecting complex multivariate relationships in the spatial analysis of genetic data, Molecular Ecology Resources 10, 831 844. Lichstein, J. (2007), Multiple regression on distance matrices: a multivariate spatial analysis tool, Plant Ecology 188, 117 131. Lindquist, A. (2008), The satistical analysis of fmri data, Statistical Science 23(4), 439 464. Mantel, N. (1967), The detection of disease clustering and a generalised regression approach, Cancer Research 27, 209 220. Parhi, P. (2014), Another look at kostiakov, modified kostiakov and revised modified kostiakov infiltration models in water resources applications, International Journal of Agricultural Sciences 4(3), 138 142. Ramsay, J. & Silverman, B. (2005), Functional data analysis, Springer. Rodríguez-Vásquez, A., Aristizábal-Castillo, A. & Camacho-Tamayo, J. (2008), Spatial variability of philip and ksotiakov infiltration models in an andic soil, Engenharia Agrcola, Jaboticabal 28, 64 75. Schabenberger, O. & Gotway, C. (2004), Statistical Methods for Spatial Data Analysis, Chapman & Hall. Stoyan, D. & Stoyan, H. (1994), Fractals, Random Shapes, and Point Fields : Methods of Geometrical Statistics, John Wiley & Sons.