Paquete de R: isocir Inferencia ISOtónica con datos CIRculares resolviendo problemas de la Biología Molecular. Sandra Barragán Andrés(1), Cristina Rueda(1), Miguel A. Fernández (1) and Shyamal D. Peddada (2) (1): Departamento de Estadística e Investigación Operativa Universidad de Valladolid (2): National Institute of Environmental Health Sciences (USA) Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 1 / 20
Contenidos 1 Motivación del Problema Biología Molecular y Ciclo Celular 2 Metodología con Ejemplo Planteamiento general del problema Restricciones de ORDEN Problema de ESTIMACIÓN Problema de CONTRASTE 3 Paquete de R: isocir Paquete de R: isocir Funciones del paquete isocir 4 Conclusiones Otras aplicaciones Conclusión Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 2 / 20
Biología Molecular y Ciclo Celular Análisis de Datos Circulares bajo Restricciones La motivación del problema El análisis de expresiones de genes a lo largo del ciclo celular Inferencia Con Restricciones ORDEN: Información Adiccional. Análisis de Datos Circulares bajo Restricciones Métodos Circulares DATOS: Puntos en el Círculo. Paquete de : isocir Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 3 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Biología Molecular: La expresión de un gen Ingredientes: Resultados: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 4 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS PROBLEMAS ESTADÍSTICOS Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS PROBLEMAS ESTADÍSTICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS PROBLEMAS ESTADÍSTICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. PROBLEMAS ESTADÍSTICOS Estimación Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. PROBLEMAS ESTADÍSTICOS Estimación Para un conjunto dado de genes, comprobar si el orden relativo de máximas expresiones se mantiene entre diferentes especies. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. PROBLEMAS ESTADÍSTICOS Estimación Para un conjunto dado de genes, comprobar si el orden relativo de máximas expresiones se mantiene entre diferentes especies. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Biología Molecular y Ciclo Celular Ciclo Celular Un gen es llamado gen del ciclo celular si se expresa cíclicamente a lo largo del ciclo celular. El momento en el que que se expresa con mayor intensidad es llamado la máxima expresión. PROBLEMAS BIOLÓGICOS Determinar la fase del ciclo celular en la que ocurre la máxima expresión de un gen. PROBLEMAS ESTADÍSTICOS Estimación Para un conjunto dado de genes, comprobar si el orden relativo de máximas expresiones se mantiene entre diferentes especies. Contraste Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 5 / 20
Planteamiento general del problema Ejemplo: Planteamiento Dos especies de levaduras: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 6 / 20
Planteamiento general del problema Ejemplo: Planteamiento Dos especies de levaduras: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 6 / 20
Planteamiento general del problema Ejemplo: Planteamiento Dos especies de levaduras: ORDEN DATOS Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 6 / 20
Planteamiento general del problema Metodología: Notación Parámetros circulares 1 : φ 1,..., φ q (φ i : punto que representa en el círculo unidad el momento del ciclo celular en el que ocurre la máxima expressión del gen i). 1 MARDIA, K., and JUPP, P. (2000), Directional Statistics, Chichester: Wiley. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 7 / 20
Planteamiento general del problema Metodología: Notación Parámetros circulares 1 : φ 1,..., φ q (φ i : punto que representa en el círculo unidad el momento del ciclo celular en el que ocurre la máxima expressión del gen i). Sean θ 1,..., θ q las direcciones medias muestrales y r 1,..., r q las longitudes medias resultantes. θ i VM(φ i, κ i ) φ i : dirección media κ i : parámetro de concentración. 1 MARDIA, K., and JUPP, P. (2000), Directional Statistics, Chichester: Wiley. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 7 / 20
Restricciones de ORDEN Metodología: Restricciones de Orden en el Espacio Circular Orden Simple C OS = {φ [0, 2π] q 0 φ 1 φ 2 φ q 2π} Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 8 / 20
Restricciones de ORDEN Metodología: Restricciones de Orden en el Espacio Circular Orden Simple C OS = {φ [0, 2π] q 0 φ 1 φ 2 φ q 2π} Problema con el orden simple en el espacio circular: Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 8 / 20
Restricciones de ORDEN Metodología: Restricciones de Orden en el Espacio Circular Orden Simple C OS = {φ [0, 2π] q 0 φ 1 φ 2 φ q 2π} Problema con el orden simple en el espacio circular: Sin conexión entre φ 1 y φ q Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 8 / 20
Restricciones de ORDEN Metodología: Restricciones de Orden en el Espacio Circular Orden Simple C OS = {φ [0, 2π] q 0 φ 1 φ 2 φ q 2π} Problema con el orden simple en el espacio circular: Sin conexión entre φ 1 y φ q Solución: Orden Isotrópico. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 8 / 20
Restricciones de ORDEN Metodología: Restricciones de Orden en el Espacio Circular Orden Simple C OS = {φ [0, 2π] q 0 φ 1 φ 2 φ q 2π} Problema con el orden simple en el espacio circular: Sin conexión entre φ 1 y φ q Orden Isotrópico C OI = {φ [0, 2π] q φ 1 φ 2... φ q φ 1 } = Solución: Orden Isotrópico. 1 I q C I SO donde C I SO = {0 φ I φ I +1... φ q φ 1... φ I 1 2π} - No depende del punto inicial del círculo - Es de rotación invariante Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 8 / 20
Restricciones de ORDEN Ejemplo: Aplicación a la Biología Molecular Orden Isotrópico Parcial (levadura budding) { } φ 21 C OIP = φ [0, φ11 2π]16 : φ φ 22 12 φ 23 { } φ41 { { } } φ 71 φ61 φ φ 51 φ 42 φ 72 62 φ 73 φ 31 φ 32 φ 33 { φ11 φ 12 } 2 PENG X et al.(2005). Identication of Cell Cycle-Regulated Genes in Fission Yeast. The American Society for Cell Biology, 16, 1026-1042 Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 9 / 20
Restricciones de ORDEN Ejemplo: Aplicación a la Biología Molecular Orden Isotrópico Parcial (levadura budding) { } φ 21 C OIP = φ [0, φ11 2π]16 : φ φ 22 12 φ 23 { } φ41 { { } } φ 71 φ61 φ φ 51 φ 42 φ 72 62 φ 73 Datos (levadura fission) φ 31 φ 32 φ 33 { φ11 φ 12 Experimentos en el ciclo celular de levaduras fission 2 donde se mide la expresión máxima de los genes. Matriz de datos: cirgenes (10 experimentos con 16 genes). } 2 PENG X et al.(2005). Identication of Cell Cycle-Regulated Genes in Fission Yeast. The American Society for Cell Biology, 16, 1026-1042 Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 9 / 20
Problema de ESTIMACIÓN Metodología: Estimador Circular de Regresión Isotónica El CIRE (del inglés: Circular Isotonic Regression Estimator) es el Estimador Máximo Verosimil Restringido de la dirección media (φ) bajo la suposición de un conjunto de orden dado (φ C). CIRE θ = arg mín SCE(α, θ) α C donde SCE es la Suma de Errores Circulares definida por q SCE(φ, θ) = r i (1 cos(θ i φ i )) i=1 3 RUEDA, C., FERNANDEZ, M. and PEDDADA, S. (2009), Estimation of parameters subject to order restrictions on a circle with application to estimation of phase angles of cell-cycle genes, Journal of the American Statistical Association, Vol104,n485; pp 338-347. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 10 / 20
Problema de ESTIMACIÓN Metodología: Estimador Circular de Regresión Isotónica El CIRE (del inglés: Circular Isotonic Regression Estimator) es el Estimador Máximo Verosimil Restringido de la dirección media (φ) bajo la suposición de un conjunto de orden dado (φ C). CIRE θ = arg mín SCE(α, θ) α C donde SCE es la Suma de Errores Circulares definida por q SCE(φ, θ) = r i (1 cos(θ i φ i )) i=1 Rueda et al. (2009) 3 desarrolló un algoritmo que está implementado en la función CIREi del paquete isocir. 3 RUEDA, C., FERNANDEZ, M. and PEDDADA, S. (2009), Estimation of parameters subject to order restrictions on a circle with application to estimation of phase angles of cell-cycle genes, Journal of the American Statistical Association, Vol104,n485; pp 338-347. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 10 / 20
Problema de ESTIMACIÓN Ejemplo: Aplicación a la Biología Molecular ESTIMACIÓN experiment1 <- t(cirgenes[1,]) levelsoip <- c(rep(1,2),rep(2,3),rep(3,3),rep(4,2), rep(5,1),rep(6,2),rep(7,3)) [1] 1 1 2 2 2 3 3 3 4 4 5 6 6 7 7 7 CIREi(experiment1, levels = levelsoip) $cirmeans $SCE [1] 1.059346 $CIRE { θ11 = 6,255 θ 12 = 6,255 { θ 41 = 1,045 θ 42 = 1,085 } θ 21 = 6,261 θ 22 = 6,255 θ 23 = 0,0542 } { θ 51 = 1,085 } θ 31 = 0,0542 θ 32 = 0,0542 θ 33 = 1,045 { θ 61 = 1,288 θ 62 = 4,774 } θ 71 = 5,596 θ 72 = 4,774 θ 73 = 5,209 Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 11 / 20
Problema de CONTRASTE Metodología: Contraste de Hipótesis Fernández et al. (2011) 4 presenta un test condicional para desarrollar algunos test restringidos con hipótesis de orden. H 0 : φ i, i = 1,..., q, sigue un orden isotrópico. H 1 : H 0 no se cumple. 4 FERNANDEZ, M., RUEDA, C. and PEDDADA, S. (2011), A core set of signature cell cycle genes with relative order of time to peak expression conserved across species, Accepted for publication in Nucleic Acids Research. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 12 / 20
Problema de CONTRASTE Metodología: Contraste de Hipótesis Fernández et al. (2011) 4 presenta un test condicional para desarrollar algunos test restringidos con hipótesis de orden. H 0 : φ i, i = 1,..., q, sigue un orden isotrópico. H 1 : H 0 no se cumple. Estadístico Test: kappa conocido T = 2κSCE(θ, θ) kappa desconocido T = 2 κsce(θ, θ) q CT: H 0 se rechaza siempre que T c(m) (m: n o conj. de nivel de { θ). pr(χ 2 p valor = q m t )[1 pr φ 0(C)] (κ conocido) pr(f q m,q 1 t )[1 pr φ 0(C)] (κ desconocido) pr φ 0(C): probabilidad de C en H 0 bajo la igualdad de los parámetros. Implementado en la función CTi del paquete isocir. 4 FERNANDEZ, M., RUEDA, C. and PEDDADA, S. (2011), A core set of signature cell cycle genes with relative order of time to peak expression conserved across species, Accepted for publication in Nucleic Acids Research. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 12 / 20
Problema de CONTRASTE Ejemplo: Aplicación a la Biología Molecular CONTRASTE orden: C OIP orden:? H 0 : φ C OIP. H 1 : H 0 no se cumple. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 13 / 20
Problema de CONTRASTE Ejemplo: Aplicación a la Biología Molecular CONTRASTE orden: C OIP orden:? H 0 : φ C OIP. H 1 : H 0 no se cumple. CTi(experiment1, levels = levelsoip, kappa = 3.958 ) $pvalue [1] 0.2998076 Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 13 / 20
Paquete de R: isocir Paquete de R: isocir Paquete de 5 : isocir Análisis de Datos Circulares bajo Restricciones Inferencia isotónica con datos circulares. package isocir - Dependencias: circular y combinat. Estos paquetes deberán estar instalados en nuestro ordenador antes de cargar isocir. 5 R Development Core Team (2011). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 14 / 20
Paquete de R: isocir Paquete de R: isocir en el CRAN (Versión: 1.0) Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 15 / 20
Funciones del paquete isocir Paquete de R: isocir (Versión: 1.0) Funciones cirmean cirsce mrl cirkappa CIREi CTi Datos datareplic cirdata cirgenes Resumen de los componentes de isocir Argumentos (data) (point1, point2, mrl) (data) (data) (data, levels, isotropic, graphic, stack) (data, levels, kappa) Descripción Datos circulares aleatorios con réplicas Datos circulares aleatorios Datos de genes de experimentos en el ciclo celular. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 16 / 20
Otras aplicaciones Otros campos de aplicación de isocir Ornitología Endocrinología Ciencias de la Tierra Meteorología Físicas Psicología Medicina, Criminología, Análisis de imágenes y mucho más. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 17 / 20
Conclusión Conclusión Datos Circulares + Información Adiccional = isocir (Restricciones de Orden) Estimación CIREi Contraste CTi Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 18 / 20
Referencias Básicas MARDIA, K., and JUPP, P. (2000), Directional Statistics, Chichester: Wiley. ROBERTSON, T.,WRIGHT, F.T. and DYKSTRA, R.L. (1988), Order Restricted Statistical Inference, Wiley, New York. RUEDA, C., FERNANDEZ, M. and SHYAMAL, P. (2009), Estimation of parameters subject to order restrictions on a circle with application to estimation of phase angles of cell-cycle genes, Journal of the American Statistical Association, Vol104,n485; pp 338-347. FERNANDEZ, M., RUEDA, C. and SHYAMAL, P. (2011), A core set of signature cell cycle genes with relative order of time to peak expression conserved across species, Accepted for publication in Nucleic Acids Research. BARRAGAN, SANDRA (2011) isocir: Isotonic Inference for Circular data. R package version 1.0. http://cran.r-project.org/package=isocir. Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 19 / 20
Sandra Barragan (sandraba@eio.uva.es) Paquete de R: isocir 20 / 20