R: una herramienta poco difundida y muy útil para la investigación clínica



Documentos relacionados
Introducción a las redes de computadores

Capítulo 5. Cliente-Servidor.

Acronis License Server. Guía del usuario

CAPITULO IV CONCLUSIONES Y RECOMENDACIONES

Trabajo TICO Unidad 2: Sistemas Operativos. Guillermo Jarne Bueno.

(PHP y APACHE), y el programa de comunicación Skype, para controlar de manera

Nombre del Trabajo: Control ActiveX que garantiza la seguridad de las aplicaciones desarrolladas para windows.

Informática 4º ESO Tema 1: Sistemas Informáticos. Sistemas Operativos (Parte 2)

Capitulo 5. Implementación del sistema MDM

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Sistema de gestión de datos GESTSOFT

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Creative Commons. Según Vercelli (2004) Creative Commons podría traducirse al español como Creatividad Colectiva Compartida Común Comunitaria Abierta.

1 El trabajo expuesto está subvencionado por el proyecto de la URJC PGRAL-2001/14

Informática 1 Grado en Matemáticas

Aplicación para la gestión de prácticas en empresas. Memoria

Practica 1 Instalación del SGBD. Ing. María Elena Reyes Castellanos. Miguel Ángel Garduño Córdova Isaac Méndez Hernández

Prezi: editor de presentaciones

Análisis de aplicación: Virtual Machine Manager

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Internet Information Server

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

App para realizar consultas al Sistema de Información Estadística de Castilla y León

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

Workflows? Sí, cuántos quiere?

Instalación y configuración de Windows SharePoint Services (WSS) 2003

La utilización de las diferentes aplicaciones o servicios de Internet se lleva a cabo respondiendo al llamado modelo cliente-servidor.

PRESENTACIÓN DEL PRODUCTO

Servicio de Informática Vicerrectorado de Tecnologías de la Información y la Comunicación

WINDOWS : TERMINAL SERVER

Utilización del sistema operativo GNU/ Linux en las netbooks

Análisis de aplicación: BlueFish

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

ing Solution La forma más efectiva de llegar a sus clientes.

Guía de Apoyo Project Web Access. (Jefe de Proyectos)

Sistemas de Información Geográficos (SIG o GIS)

MANUAL TÉCNICO DE IMPLEMENTACIÓN PROYECTO SOCIAL COMPUESCUELA. Elaborado por: Julián A. Hernández M.

El Programa estadístico R

Novedades. Introducción. Potencia

Manual de NetBeans y XAMPP

Manual Básico de Helm 4.2 para Usuarios:

Facturación - Software de facturación para profesionales y autónomos.

Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández.

Título: Implementación de un servicio de acceso a Internet por correo electrónico. Navegación total.

Análisis de aplicación: Cortafuegos de la distribución Zentyal

MENSAREX: SISTEMA DE MENSAJERÍA DEL MINREX Gretel García Gómez Ministerio de Relaciones Exteriores Cuba.

E-learning: E-learning:

Instalación de R.

Studium, Campus Virtual de la Universidad de Salamanca.

Actualización de versión a Bizagi 10.x

CONCLUISIONES Y RECOMENDACIONES

GMF Gestor de incidencias

Instituto Politécnico Nacional. Escuela Superior de Turismo

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP

Manual PARA EL ADMINISTRADOR DE LA WEB DE PRÁCTICAS PRE PROFESIONALES Y PASANTÍAS

Práctica1. Introducción a Microsoft Access. Qué es Access?

Sugar en Windows. Creación de una máquina virtual con la imagen de Sugar. Autor. Versión Fecha Setiembre Ubicación

SÍNTESIS Y PERSPECTIVAS

Análisis de aplicación: Cortafuegos de la distribución clearos

Oficina Online. Manual del administrador

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

MATERIAL 2 EXCEL 2007

NSi Output Manager Preguntas frecuentes. Version 3.2

Políticas para Asistencia Remota a Usuarios

Lectura 2: El Sistema Operativo y sus Funciones

Guía de instalación de la carpeta Datos de IslaWin

GUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS

FACULTAD DE INFORMATICA MATERIA: GESTION DE CONTENIDO ELECTRONICO PROFESOR: JONATHAN VEGA ALUMNOS: LUISA ROSERO JAIME CAMACHO DATOS INFORMATIVOS:

Entre los más conocidos editores con interfaz de desarrollo tenemos:

AUD Estudio de Auditoría Verificación del Licenciamiento del Software equipo de MIDEPLAN Decreto Ejecutivo Nº JP

Sistema PYMES Ventas e Inventarios H&S

FUNDAMENTOS DE PROGRAMACION CON C#

Sistema Info-Académicos

Operación Microsoft Access 97

Sistema de SaaS (Software as a Service) para centros educativos

Tema 11 Bases de datos. Fundamentos de Informática

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0


Manual Básico. Writer Impress Calc Base

SCT Software para la calibración de transductores de fuerza. Versión 3.5. Microtest S.A.

1.- Introducción y objetivos

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Elementos requeridos para crearlos (ejemplo: el compilador)

Instrucciones para la instalación de IBM SPSS Data Access Pack para Linux

Descripción Plataforma Cloud del proyecto CloudPYME

El proceso de Instalación de Microsoft SQL Server 2008

TIPOGRAFÍA DIGITAL. Están formadas por lo que se conoce como imagen vectorial. Pueden ser ampliadas o reducidas sin pérdida de calidad al imprimir.

INSTALACIÓ N A3ERP. Informática para empresas INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

TPV VIRTUAL O PASARELA DE PAGOS DE CAJASTUR

Qué es SPIRO? Características

Proyectos de Innovación Docente

Descripción. Este Software cumple los siguientes hitos:

Qué es Google Calendar? Qué se puede hacer en Google Calendar?

Visión General de GXportal. Última actualización: 2009

REGISTRO DE PEDIDOS DE CLIENTES MÓDULO DE TOMA DE PEDIDOS E INTEGRACIÓN CON ERP

TELEX. SISTEMA PARA EL CONTROL DE GASTOS TELEFÓNICOS Anyell Cano Ramos Ministerio de Relaciones Exteriores Cuba RESUMEN

Accede a su DISCO Virtual del mismo modo como lo Hace a su disco duro, a través de:

UNIVERSIDAD DE SALAMANCA

Servicio de Alta, Baja, Modificación y Consulta de usuarios Medusa

Ministerio de Educación Base de datos en la Enseñanza. Glosario

Transcripción:

TÉCNICAS R: una herramienta poco difundida y muy útil para la investigación clínica R: a not much spread and very useful tool for clinical research MayelÍn Mirabal Sosa I, Maytee Robaina García II, Rolando Uranga Piña III I Licenciada en Matemáticas. Asistente. Centro de Investigación y Producción de Vacunas. Instituto "Finlay". Ciudad de La Habana, Cuba. II Especialista de I Grado en Bioestadística. Centro Nacional Coordinador de Ensayos Clínicos. Ciudad de La Habana, Cuba. III Licenciado en Matemáticas. Máster en Estadística. Centro Nacional Coordinador de Ensayos Clínicos. Ciudad de La Habana, Cuba. RESUMEN Con el fin de estimular el uso de R en la investigación clínica y a partir de la experiencia con este software para el procesamiento y análisis de datos, se muestran algunas de sus características y las principales ventajas que ofrece su utilización en el campo de los ensayos clínicos. R es un software libre, flexible y dinámico, con una amplia variedad de técnicas estadísticas que se incorporan rápidamente y hacen posible su aplicación. Permite cómodamente presentar la información correspondiente a los usuarios, a la vez que hace posible registrar el proceso estadístico de forma que la documentación quede disponible a posibles auditorias que avalen los resultados obtenidos del estudio. Palabras clave: R, software estadístico, software libre, ensayos clínicos. ABSTRACT To encourage the use of R in the clinical research and from the experience with this software for data processing and analysis, some of its features and the major advantages offering its use in the clinical trials are showed. R is free, flexible and dynamic software with a wide variety of statistical techniques of fast incorporation and that make possible its application. It allow in a conveniently way to present the corresponding information to users since make easy to register the statistical process making that documentation be available to potential audits supporting the results obtained from study. 302

Key words: R, Statistical software, free software, clinical trials. Es conocida la existencia de una amplia variedad de paquetes estadísticos que se utilizan para el análisis de datos en la investigación clínica. Dentro de los más referenciados se destacan: STATISTICA, S-plus, SAS, SPSS, R y otros. De los software mencionados, excepto R, todos son comerciales; o sea, hay que comprar una licencia y además pagar para su actualización. En Cuba, R es poco conocido y, por tanto, muy poco explotado a pesar de que tiene características que, en nuestra opinión y experiencia, pudieran beneficiar a los usuarios de este tipo de herramienta. Dentro de las investigaciones clínicas, los ensayos clínicos son los estudios que se encuentran sujetos a las más estrictas regulaciones. Si bien el uso de programas estadísticos para el análisis y presentación de los datos recolectados en el curso de esta actividad puede ser diverso, es preferible utilizar herramientas que, además de ser amplias y confiables en la variedad de técnicas estadísticas a utilizar, permitan documentar la manipulación y el procesamiento que se realiza a los datos originales. Lo anterior posibilitará que los resultados que se generen estén disponibles a posibles auditorias. 1,2 En el año 2005, en el marco de la Convención Internacional Informática 2005, se dio a conocer un programa que establece la realización progresiva de cambios en los sistemas de los órganos y organismos del Estado y el Gobierno cubanos hacia la plataforma de software libre. 3 Teniendo en cuenta la migración de las aplicaciones hacia software libre que viene realizándose en Cuba y otras características que se expondrán en el presente trabajo, el uso de R para las investigaciones en diversas áreas de investigación clínica, y en particular para los ensayos clínicos, puede ser una opción muy tentadora. El presente trabajo tiene como objetivo fundamental estimular el uso de R, basado en una breve descripción de las principales ventajas que posee este sistema, así como en las posibilidades que proporciona para el diseño y el análisis de ensayos clínicos. Con este fin se realizó una revisión bibliográfica acerca de las posibilidades que ofrece R para ejecutar análisis estadísticos. Se consultaron textos relevantes en el marco de las regulaciones aplicables a los ensayos clínicos. Se exponen las características fundamentales del trabajo con este software a través de ejemplos tomados de la experiencia en el uso de R en el campo de los ensayos clínicos en vacunas en el Instituto "Finlay". QUÉ ES R? R 4 es un entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas como modernas, que está enmarcado dentro de la plataforma GNU y se distribuye con licencia GNU GPL (del inglés General Public License). 5 Están disponibles versiones de R para Windows de Microsoft, Unix, Linux y MacOS. 6 303

CÓMO SURGE R? En la década de los años 80 fue desarrollado un lenguaje específico para realizar cómputos estadísticos denominado S. Posteriormente se desarrollaron una serie de dialectos a partir de S. Dos de los más conocidos son R y Splus, este último una implementación comercial de S. Por el contrario, R es un lenguaje de código abierto como su original S; de ahí que en la literatura algunas veces aparezca con la denominación GNU S. 7 Muchos usuarios piensan en R como un sistema estadístico. R es más que eso: es un entorno donde una gran variedad de técnicas estadísticas son cada día implementadas. 6 R puede incorporar librerías (rutinas) que contienen, desde técnicas no tan actuales, hasta lo más reciente de las investigaciones en el área de la estadística. R es hoy día probablemente el entorno más usado por las universidades para investigaciones en estadística, lo cual ha garantizado su robustez. La comunidad de R en el mundo es muy amplia y la integran estadísticos de gran renombre (ej. J. Chambers, L. Terney, B. Ripley, D. Bates, etc.). Desde 1997 existe un grupo de personas denominadas The R Core-Development Team, que se ocupan del mantenimiento del sistema. 8 El sitio oficial de este proyecto es: http://www.rproject.org. VENTAJAS DEL USO DE R EN LA INVESTIGACIÓN CLÍNICA R es uno de los entornos que más se está desarrollando hoy día. Tiene alrededor de 13 librerías estadísticas definidas en su paquete base y ofrece un buen número de paquetes de rutinas especializadas, muy actuales dentro de los paquetes recomendados. Muchas otras se pueden descargar e instalar de la página de paquetes de los colaboradores. Con el uso de R se tiene acceso fácil a una amplia variedad de técnicas estadísticas y gráficas. Uno de los atractivos de R es que incluye un lenguaje de programación bien desarrollado, simple y efectivo, que admite condicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas. Este lenguaje es orientado a objetos, muy parecido en su sintaxis a C/C++. Las facilidades de programación incluidas en R son muy amplias, lo que hace más eficiente la implementación de nuevos procedimientos, así como el uso reiterado de funciones existentes. A modo de ejemplo, suponga que ind es un vector de indicadores de clase y se quiere hacer gráficos de una variable (y) sobre otra (x), separados para cada clase. Una posibilidad para realizar lo anterior será: xc <- split(x, ind) # produce lista de vectores dividiendo a x y y yc <- split(y, ind) # de acuerdo con las clases especificadas por ind for (i in 1:length(yc)) { plot(xc[[i]], yc[[i]]); abline(lsfit(xc[[i]], yc[[i]])) 304

} En R es permitido editar todas las funciones y ver su implementación, la que se puede modificar de acuerdo con las necesidades del usuario. Por ejemplo, R provee una función denominada fivenum, la cual calcula cinco valores que describen concisamente un conjunto de datos: son el mínimo, los percentiles 25, 50 y 75 y el valor máximo. Si escribimos en la consola del sistema edit(fivenum), obtendremos en el editor de textos que se tenga predefinido lo siguiente: function (x, na.rm = TRUE) { xna <- is.na(x) if (na.rm) x <- x[!xna] else if (any(xna)) return(rep.int(na, 5)) x <- sort(x) n <- length(x) if (n == 0) rep.int(na, 5) else { n4 <- floor((n + 3)/2)/2 d <- c(1, n4, (n + 1)/2, n + 1 - n4, n) 0.5 * (x[floor(d)] + x[ceiling(d)]) }} Esto puede ser modificado o reutilizado en una nueva función que se desee implementar y que además, por ejemplo, dé como resultado la media y la moda del conjunto de datos. Igualmente se pueden implementar rutinas que posteriormente se cargan al sistema como nuevos paquetes y que pueden ser enviadas a los colaboradores para su revisión y posterior publicación en la página de estos. Otra característica importante y atractiva de R está dada por el hecho de que la salida que proporciona cualquier función se puede manipular convenientemente, pues R guarda estos resultados como objetos. Lo anterior significa que usted puede decidir, de toda la información que genera la ejecución de una función, qué es lo que realmente desea mostrar; si es que quiere mostrar algo o puede tomar una parte de esta salida para ser incorporada a la entrada de otra función. Sin embargo, en SAS, SPSS u otro, se obtendrá de modo inmediato una salida copiosa 305

para cualquier análisis. Esta característica de R facilita la elaboración de los informes finales a los investigadores encargados, pues la salida del procesamiento estadístico puede ser presentada de una forma muy accesible y atractiva para los investigadores biomédicos. Como un ejemplo, supongamos que se quiere comparar la edad (en días) de dos grupos (vacunados y placebos) en un ensayo clínico y solo se desea mostrar el p- valor asociado a la prueba más adecuada. Con la siguiente función se obtendría lo deseado: ShapT1<-shapiro.test(Edad[Grupo==Vacuva]) # verifica normalidad ShapT2<-shapiro.test(Edad[Grupo==Placebo]) HomgVar<-levene.test(Edad,Grupo) # verifica homogeneidad de varianza if((shapt1[[2]]>0.05)&(shapt1[[2]]>0.05)&(homgvar[[3]][1]>0.15)) result <-t.test(edad ~ Grupo, paired=f, var.equal=t) [[3]] else result <-wilcox.test(edad ~ Grupo, paired=f) [[3]] print(result) Note que en el ejemplo anterior solo se visualiza lo que se encuentra guardado en result, que será el p-valor resultante de la aplicación de la prueba t de student si se cumplen los supuestos que posibilitan su uso o de la prueba no paramétrica en otro caso. Con frecuencia, la manipulación de los datos es igual o más laboriosa que el análisis estadístico subsiguiente. El uso adecuado de las facilidades de importación, transformación y presentación de datos que ofrece R puede redundar en drásticas reducciones de trabajo, además de favorecer la legibilidad y presentación de la información. El resultado son salidas autoexplicativas en que los errores son menos probables y de detección mucho más sencilla. Es importante destacar que lo anterior facilita el proceso de documentación de la información, y además contribuye a la rapidez del proceso de procesamiento. Dentro de las librerías que pueden ser incorporados a R hay varias que permiten conectarlo a gestores de bases de datos, en la misma o en otra máquina. Algunos son: RPgSQL (para PostgreSQL), ROracle (para Oracle), RMySQL (para MySQL) y RODBC (para cualquier origen de datos ODBC). 9 A modo de ejemplo, con el paquete RODBC el origen de datos puede ser un fichero local de Microsoft Access, lo que proporciona un modo fácil de importar Access a R. Supongamos se dispone de una base de datos llamada Eventos y en ella una tabla (EEsperados) que describe los eventos adversos esperados al administrar determinada vacuna. Supongamos que esta base de datos se encuentra ubicada en la raíz del disco C: de una máquina Windows. Para importar el contenido de la tabla EEsperados a R, bastará teclear: library(rodbc) Eventos <- odbcconnectaccess("c:\\eventos") 306

Esperados <- sqlquery(eventos,"select * from EEsperados") Note que como lenguaje de interrogación se emplea SQL. La facilidad de realizar una consulta a una base de datos externa, permite tratar ficheros muy grandes de los que sólo se importan las observaciones/variables que interesan. SQL es además una herramienta excelente para seleccionar casos que verifiquen condiciones complejas de expresar en R. Esta herramienta también permite adecuar los datos a la forma de entrada que exija cualquiera de los métodos estadísticos que se desea aplicar. Está claro que R es un entorno poco amigable si no se cuenta con ciertos conocimientos básicos de programación, pero con algo de dedicación. Sobre todo al comienzo de su uso se obtendrán en poco tiempo resultados sorprendentes. Uno de los fundamentales atractivos de R es la amplia variedad de técnicas gráficas que tiene implementado y que facilitan el análisis y presentación de los datos. Estos gráficos pueden ser mostrados en la pantalla o guardados en el disco duro con una diversidad de formatos. Para presentar la información a los investigadores que además pudieran directamente utilizarlos en sus presentaciones, las facilidades de este recurso ofrece ventajas con respecto a los gráficos de otros softwares. La literatura sobre R es muy amplia y es gratis, e incluso muchos manuales se encuentran en idioma español. En el sitio oficial de R se puede acceder a un centenar de manuales, que abarca desde los primero pasos con el sistema hasta lo más complejo y actual. Si bien el ambiente R fue pensado para la estadística, es posible hacer procesamiento de señales. En esta área el lenguaje R compite con MatLab, entre otros. Además, en R se han obtenido extensiones específicas a áreas nuevas, tales como la bioinformática, la geoestadística y los modelos gráficos, entre otros. Se concluye que para el curso de las investigaciones biomédicas cubanas R es una opción que brinda muchas posibilidades, especialmente para las personas apasionadas de la estadística, que además gustan del software libre. La experiencia con este software en ese contexto ha sido satisfactoria y ha estado basada fundamentalmente en: 1. La robustez del lenguaje 2. La constante actualización y la amplia literatura disponible 3. Amplias facilidades de manipulación de bases de datos 4. La obtención de informes con un formato predeterminado y con la información que se desea 5. Las facilidades gráficas 6. Facilidades para la documentación de todo el proceso de manipulación de los datos y procesamiento estadístico REFERENCIAS BIBLIOGRÁFICAS 1. International Conference on Harmonisation. E6(R1): Good Clinical Practice: Consolidated Guideline.Tripartite harmonised ICH guideline. 1996. Disponible en: http://www.ich.org/cache/compo/276-254-1.html (acceso en febrero 2008). 307

2. Robaina M, Uranga R. Software estadístico en los Ensayos Clínicos. Revista Cubana de Informática Médica. 2007; No. 3. Disponible en: http://www.cecam.sld.cu/pages/rcim/revista_14/articulos_htm/ensayosclinicos.htm (acceso en febrero 2008). 3. Bencomo E. Reseña de la Legislación Informática en Cuba. Revista de Derecho Informático. 2007; 102. Disponible en http://www.alfa-redi.org/rdiarticulo.shtml?x=8408 (acceso en Enero de 2008). 4. R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Disponible en http://www.r-project.org 5. The R Foundation for Statistical Computing. R: Regulatory compliance and validation issues. A guidance document for the use of R in regulated clinical trial environments. Disponible en http://www.r-project.org/certificaction (acceso en Enero 2008) 6. Venables WN, Smith DM y el R Development Core Team. An Introduction to R. Version 1.7.0, 2003. 7. Azola C. An Introduction to S and the Hmisc and Design libraries. Disponible en http://hesweb1.med.virginia.edu/biostat/s/splus.html (acceso en Noviembre 2007) 8. Díaz-Uriarte R. Introducción al uso y programación del sistema estadístico R. Disponible en http://bioinfo.cnio.es/~rdiaz (acceso en Enero de 2008) 9. Tusell F. Lectura, manipulación y análisis de datos en R. Disponible en www.et.bs.ehu.es/~etptupaf/pub/papiros/s-demo3.pdf (acceso en Enero de 2008) Recibido: 12 de marzo de 2010 Aprobado: 30 de abril de 2010 Lic. MayelÍn Mirabal Sosa. Centro de Investigación y Producción de Vacunas. Instituto "Finlay". Ciudad de La Habana, Cuba. Email: mmirabal@finlay.edu.cu 308