Reporte de Actividades, Periodo Noviembre de 2010 Septiembre de 2011, D. Bannasch

1 Parte 1: Desarollo de un cuestionario para los jefes de los grupos de Fordecyt II y análisis de las respuestas El cuestionario sirvió principalmente para saber cuál tipo y cuál tamaño de datos son producidos de cada grupo de Fordecyt II y cuales planes hay con respecto a bases de datos en el futuro. Estas informaciones son necesarias entre otros para calcular el espacio adecuado en el servidor para Fordecyt. El cuestionario fue construido en una pagina del internet (http://www.surveymonkey.com). Un Email fue enviado a todos los jefes de los grupos de Fordecyt II con el pedido de contestar al cuestionario (tambien en la pagina del internet). Las respuestas al cuestionario fueron analizados después de que había recibido las respuestas de 11 grupos de Fordecyt II (Fig. 1). El siguiente reporte, que describe los resultados mas importantes, fue creado y enviado en Marzo de 2011 a todos los jefes de Fordecyt II: Resultados del 1er cuestionario a los jefes de los grupos de Fordecyt II Hay resultados de 11 diferentes grupos de Fordecyt II. Tipo de datos: 82 % de los grupos (que participaron en el cuestionario) producen datos cuantitativos y / o datos cualitativos. La mayoridad de los datos son varios tipos de documentos (82 %). 45 % de los grupos producen fotos y 30 % tambien videos. Mas de la mitad de los grupos usa hojas de cálculo para archivar datos y 45 % bases de datos locales (como MS Access). Tamaño de datos: A base de las respuestas se puede calcular que se necesita hasta el final del proyecto en suma 315 GB de memoria en el servidor: 85 GB son el máximo tamaño para archivar todas las fotos que son o seran producidas de los grupos; para videos aproximadamente 145 GB son necesarios y para bases de datos 85 GB.

2 Permisos para tener acceso a los datos: Las respuestas muestran que un regimen estricto es necesario para permitir el acceso a los datos que seran archivados en el servidor de Fordecyt. Aproximadamente 60 % de los grupos quieren dar el permiso para editar datos solo a miembros de su mismo grupo; los otros grupos quieren permitir solo, que otros miembros de su mismo grupo pueden leer los datos. La mayoridad de los grupos (70-80 %) quiere que sus datos son leidos exclusivamente de grupos con cuales hay cooperaciones en Fordecyt. La gran mayoridad (90 %) prefiere que otros grupos de Fordecyt solo tengan la autorización para leer datos. Una minoridad de 36 % permitiria ademas que datos seleccionados pueden ser leidos de investigadores que no son miembros de Fordecyt y tambien de la publicidad; los otros grupos (55-64 %) no quieren permitir ningun acceso a sus datos, ni para investigadores que no son miembros de Fordecyt ni para la publicidad. Planes con respecto a bases de datos: 55 % de los grupos quieren convertir hojas de cálculo en bases de datos y 60 % quieren construir bases de datos de nuevo. 55 % quieren vincular bases de datos ya existentes y 36 % quieren trasferir bases de datos al servidor de Fordecyt. 55 % serian interesados en apoyo con la estructuración de sus datos y mas de 80 % tendrian interes en un curso que muestra como se puede estructurar sus datos en una base de datos como MS Access. La mayoridad de los grupos con interes en la construcción de bases de datos quiere realizar sus planes en los proximos 6 meses.

Fig. 1: 3 Respuesta a la pregunta 8 del cuestionario que debía averiguar qué planes tenía cada grupo de Fordecyt II con respecto a la construcción de base de datos nuevos.

4 Resumen: Aproximadamente 315 GB de memoria son necesarios en el servidor de Fordecyt para archivar todos los datos que seran producidos hasta el final del proyecto en 2012. No obstante, no todos estos datos deben ser archivados en el servidor. Un punto muy importante es ajustar bien el permiso para el acceso a los datos para los diferentes tipos de usuarios del servidor. Algunos grupos quieren realizar bases de datos locales en los proximos 6 meses. Hay interes de una mayoridad de los grupos en un curso que muestra como se puede estructurar sus datos en una base de datos como MS Access. Conclusiones: En el servidor ya fueron reservados más de 315 GB de memoria para archivar datos de Fordecyt II. Vamos a tener dos instancias en el servidor: Una que va a contener un "content management system" (CMS) para archivar documentos y otros datos como fotos, videos o mapas. La otra servirá como servidor de bases de datos de Fordecyt. Con la selección del CMS, el enfoque estará en un CMS que toma los diferentes deseos de los grupos para el acceso a sus datos en consideración. La otra instancia, el servidor de bases de datos de Fordecyt va a permitir la realización de muy diferentes autorizaciones de acceso a las diferentes bases de datos. Es posible dar apoyo en la estructuración de los datos (Contacto: Detlev Bannasch, bannasch@ecosur.mx). Tambien, seria posible dar un curso / taller de MS Access de uno o dos dias.

5 Parte 2: Bases de Datos 1. Situacción al inicio del proyecto y procedimiento para construir bases de datos relacionales Todas las bases de datos del departamento Conservación y restauración de bosques de Chiapas y del herbario de Ecosur, que podrian ser utiles para Fordecyt II, solo existen como bases de datos de MS Access. Estas bases de datos son: Trees 08: Plinian Core Magala: Herbarioenlinea: Valles centrales: Climachiapas: una base de datos de todos los arboles de Chiapas una base de datos de 300 especies de plantas que usa el eschema Plinian Core una base de datos de las plantas del herbario de Ecosur una base de datos de 361 especies de plantas una base de datos con datos de estaciones metereologicos El análisis de las bases de datos mostró que hay bastantes errores e inconsistencias en almenos dos de los bases de datos (Trees 08 y herbarioenlinea). La causa principal de los errores son anotaciones incorrectas (nombres y numeros mal escritos, falta de datos en varios campos, cambio de datos entre diferentes celdas, vinculación de datos con el falso identificador, el mismo identificador existe para diferentes datos y otros mas). Este tipo de error es provocado por la alta redundancia en los datos. En casi todos los bases de datos que fueron investigados, los datos importantes solo existen en una tabla principal. Ademas, ninguna de estas bases de datos tiene una estructura relacional. Una estructura relacional es necesario para reducir profundamente las redundancias en los datos. Así se puede evitar muchos errores que ocurren en la anotación de los datos. Finalmente los datos de una sola una tabla (como lo es la situación de las bases de datos existentes de MS Access) son distribuidos en diferentes tablas que son vinculados via relaciones. La estructura relacional tambien permite la vinculacion de otras bases de datos relacional y la construcción de consultas sofisticadas que incluyen mas de una tabla y / o datos de otros bases de datos. Para construir bases de datos relacionales y para corregir los errores e inconsistencias, todas las bases de datos de MS Access fueron importados en MS SQL Server 2008 R2 (Express Edition), un servidor de bases de datos local que esta instalado en mi ordenador. El

6 programa sirve para identificar y corregir los datos incorrectos semi-automaticamente, para identificar y remover las inconsistencias y para construir nuevas bases de datos relacionales. 2. Corrección de los datos de la base de datos Trees 08 y construcción de una nueva base de datos relacional Trees 2011 que contiene los datos corregidos La base de datos con los datos mas importantes es Trees 08. Por eso el paso mas importante fue la corrección de los datos de Trees 08. Todas las correcciones de los datos y la construcción de nuevas tablas fueron realizados en una nueva base de datos, Trees_08_corr01e3a (Fig. 2). En el proceso de la corrección de los datos (un ejemplo esta mostrado en Fig. 4) fue necesario construir muchas tablas nuevas (Fig. 2). Estas tablas sirvian para (a) analizar los datos de las columnas originales, (b) para corregir los datos dentro de nuevas columnas que tenian una copia de los datos originales y (c) para reducir la redundancia de los datos. Despues de una corrección los datos fueron copiados de nuevo en nuevas tablas. Las tablas anteriores servian como el respaldo. Así, se puede controlar cada paso de la corrección. En este proceso tambien columnas con identificadores unicos fueron introducidas en las tablas nuevas que permite a continuacón vincular diferentes tablas via identificadores iguales. Para detectar los datos inconsistentes y incorrectos y para realizar las correcciones, un montón de consultas fue necesario (Fig. 3) y varias programas (scripts) de SQL y de Perl fueron aplicados (Fig. 5). Datos de las especies y de las referencias correspondientes de la base de datos Tropicos (http://www.tropicos.org/) fueron usados para comparar los datos con los datos de Trees 08 y para corregir los datos en la base de datos Trees_08_corr01e3a. Tambien datos actuales de la lista roja para Mesoamerica fueron descargados de la Pagina de la UICN (http://www.iucnredlist.org/) para vincularlos despues con la lista de especies en Trees_08_corr01e3a (Fig. 6) y para tener la posibilidad compararlos con los datos de la lista roja que estaban archivados en Trees 08. Los datos correctos fueron trasferidos finalmente otra vez en nuevas tablas; estas tablas fueron importadas en una nueva base de datos relacional, Trees 2011_V01 (Fig. 7) que tiene una estructura relacional. Todas las tablas estan vinculadas via relaciones (Fig. 8). Asi se puede consultar datos de todas las tablas de la base de datos. La gran ventaja es que la redundancia de los datos así es evitado casi completamente. Por eso la probabilidad de introducir datos erroneous en las tablas se reduce bastantemente. El proceso de la corrección de los datos de Trees 08 casi esta terminado. En las proximas semanas la base de datos nueva Trees 2011_V01 sera trasferido en el servidor de FORDECYT. Falta la construcción de una interfaz para los usuarios que permite la comprobación de calidad de datos nuevos que deben ser archivados en la base de datos y la presentación de datos seleccionados en mapas.

Fig. 2: 7 En las base de datos que sirve para la corrección de los datos (Trees_08_corr01e3a) de la base de datos original (Trees_08) hay muchas diferentes tablas (una selección de las tablas esta mostrada a la izquierda y derecha). Estas tablas fueron construidas en el proceso de la corrección de diferentes clases de datos como datos de especices (ejemplo: tblc04g_especies_todas_para_correccion, figura a la dercha), de colectores, determinadores (tbl_determinadoresgruposnuevos, figura a la izquierda), confirmadores (tbl_confirmadoresgruposnuevos, figura a la izquierda), herbarios (tbl_herbarios, figura a la dercha) y otros mas.

Fig. 3: 8 Un montón de consultas es necesario para encontrar errores e inconsistencias en los datos de la base de datos Trees 08 (sqlq...) y para corregior y actualizar datos (sqlu...). La ventana Open File muestra una pequeña parte de las consultas.

9 Ejemplo para la corrección de datos: Fig. 4: Los datos de los colectores fueron corregidos y a continuación importados en la tabla tblc01d_colectores. Los datos de la columna ColMiembrosGrupo (los miembros del grupo) fueron impartidos en diferentes columnas (ColColector1, ColColector2,...) via un programa de SQL (Fig. 4). Por encima de la tabla esta una consulta en SQL que sirvio para seleccionar y mostrar los datos relevantes. Las filas 47 y 48 muestran datos identicos que fueron provocadas por la corrección de los datos. El nuevo identificador de la tabla ColGruIDCorr (segunda columna) ya fue corregido. La fila con la ColGruID '56' fue removido mas tarde para eliminar la redundancia de ambos filas.

Fig. 5: 10 Parte del programa de SQL que imparte los nombres de los colectores de tabla tblc01d_colectores en diferentes columnas (ColColector1, ColColector2,...).

11 Fig. 6: Consulta que usa la vinculación entre las tres tablas tbl_reqluminicosafinidadfitgeogrgenerocategoriaiucn1994, tbl_especiesconreferencias y tblc01a_listarojaplantasmesoamerica via el identificador de las especies (EspID) para mostrar las especies de la base de datos de Trees_08_corr01e3a juntos con los datos correspondientes de la lista roja actual (ultimas 5 columnas de la derecha) y los datos de la lista roja que estaban archivados en la base de datos Trees 08 (columna EspCategoriaIUCN1994). La lista roja actual para Mesoamerica fue descargada de la pagina de la UICN y a continación importada en la tabla tblc01a_listarojaplantasmesoamerica.

12 Fig. 7: 30 Tablas fueron importadas de la base de datos Trees_08_corr01e3a en la nueva base de datos relacional Trees2011. Trees_08_corr01e3a sirvio para la corrección de los datos de Trees 08. Las tablas en Trees2011 fueron vinculadas via relaciones.

13 Fig. 8: Las tablas de la nueva base de datos relacional Trees2011 estan vinculadas via relaciones. Así la redundancia de los datos es reducida profundamente.

14 3. Desarrollo de una base de datos relacional para datos metereologicos: Clima_Chiapas_01 La base de datos para datos metereologicos usa tablas de la base de datos climachiapas (MS Access). Todas las tablas fueron importados en el MS SQL Server 2008 R2. Hay dos tablas con los datos relevantes; estas son: tblc01_clima, que contiene todos los datos metereologicos y tblc01_estacionesmet que contiene los datos de las estaciones metereologicas, donde se había producido los datos. Los datos de ambas tablas tenian pocas inconsistencias y errores. Los errores fueron corregidos, despues un identificador unico fue adicionado en las tablas (CliID y EstID, respectivamente) y a continuación las tablas fueron vinculados de manera relacional (Fig. 9). Fig. 9: La base de datos relacional Clima_Chiapas_01. La parte a la derecha muestra las dos tablas principales con sus campos y la estructura relacional.

Detlev Bannasch San Cristóbal de Las Casas 12 de Octubre de 2011 15