MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA COMUNIDAD DE USUARIOS USANDO HADOOP

Tamaño: px
Comenzar la demostración a partir de la página:

Download "MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA COMUNIDAD DE USUARIOS USANDO HADOOP"

Transcripción

1 ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Computación MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA COMUNIDAD DE USUARIOS USANDO HADOOP INFORME DE MATERIA DE GRADUACIÓN Previa a la obtención del Título de: INGENIERO EN COMPUTACIÓN ESPECIALIZACIÓN: SISTEMAS TECNOLÓGICOS Presentada por: BOLÍVAR ALBERTO ELBERT PONTÓN ANDRÉS MARTIN CANTOS RIVADENEIRA Guayaquil - Ecuador 2009

2 II AGRADECIMIENTOS Agradezco a Dios por las bendiciones recibidas, a mis padres, por darme la estabilidad emocional, económica y sentimental; para poder llegar hasta este logro, que definitivamente no hubiese podido ser realidad sin ustedes, a todos mis amigos pasados y presentes; pasados por ayudarme a crecer y madurar como persona y presentes por estar siempre conmigo apoyándome en todo las circunstancias posibles, también son parte de esta alegría.

3 III DEDICATORIA A mí querida familia que siempre me ha apoyado y estimulado. A mi tutor M. Sc. Cristina Abad y a los maestros de la ESPOL por los valiosos conocimientos adquiridos.

4 IV TRIBUNAL DE GRADO M. Sc. Cristina Abad DIRECTOR DE MATERIA M. Sc. Marcelo Loor PROFESOR DELEGADO DEL DECANO

5 V DECLARACIÓN EXPRESA La responsabilidad del contenido de este Trabajo de Graduación, nos corresponde exclusivamente; y el patrimonio intelectual de la misma, a la Escuela Superior Politécnica del Litoral (Reglamento de exámenes y títulos profesionales de la ESPOL) Bolívar Alberto Elbert Pontón Andrés Martin Cantos Rivadeneira

6 VI RESUMEN Los sistemas de recomendaciones cada día se vuelven indispensables para filtrar la gran cantidad de información disponible en la Web. Uno de los objetivos principales de estos sistemas es asistir a los usuarios en sus procesos de búsqueda de información en la Web. En este trabajo se presenta una revisión básica de los aspectos fundamentales relacionados con el diseño, implementación y estructura de un módulo de recomendación para la Wikipedia, utilizando Map/Reduce implementado en el Framework Apache Hadoop para procesar grandes cantidades de información. En la Wikipedia se puede catalogar dos tipos de usuarios, el usuario aportador y el usuario que realiza la consulta, los usuarios suelen aportar a diversas wikis sean estas o no de la misma categoría o contenido. La Wikipedia Usuario Aportador Usuario Consulta WIKI A WIKI B WIKI C Figura 1. Rol de usuarios en la Wikipedia Se creó el módulo de recomendaciones basándose en las wikis a la que han aportado los usuarios. Dada una wiki se consultó que usuarios aportaron a esa wiki, para luego buscar por

7 VII cada usuario a que otras wikis han aportado y de esta manera obtener para esa wiki una lista de posibles wikis a recomendar. Para tratar en lo posible de no perder la consistencia de la información entre la wiki que el usuario consultó y las wikis recomendadas se aplicó el coeficiente de similitud de Jaccard entre la wiki consultada y cada una de las posibles wikis a recomendar. Este coeficiente nos permite obtener un valor que nos indica el porcentaje de similitud que hay entre dos wikis basándose en el número de usuarios que han aportado tanto a una o ambas wikis, al final son presentadas al usuario aquellas wikis que obtuvieron el porcentaje de similitud más elevado. Podemos decir que el resultado de las recomendaciones para una wiki muestra otros tópicos que también gustan a los usuarios que aportaron con dicha wiki, pero que no necesariamente traten sobre la misma temática.

8 VIII INDICE GENERAL AGRADECIMIENTOS... II DEDICATORIA... III TRIBUNAL DE GRADO... IV DECLARACIÓN EXPRESA... V RESUMEN... VI INDICE GENERAL... VIII ABREVIATURAS... XI INDICE DE GRÁFICOS... XII INDICE DE TABLAS... XIII INTRODUCCIÓN ANÁLISIS CONTEXTUAL SOBRE LA WIKIPEDIA OBJETIVOS DEL PROYECTO Objetivo General Objetivos específicos MARCO TEÓRICO HERRAMIENTAS PARA EL PROCESAMIENTO MASIVO Y ESCALABLE DE DATOS MAP/REDUCE [8] HADOOP DISTRIBUTED FILE SYSTEM (HDFS) [8] AMAZON ELASTIC MAPREDUCE... 10

9 IX 3. MATERIALES DATASET SOFTWARE WIKI (MEDIAWIKI) CLOUD HADOOP DISEÑO Y METODOLOGÍA UTILIZADA FILTRADO DE INFORMACIÓN VALORACIÓN DE PÁGINAS A RECOMENDAR COEFICIENTE DE SIMILITUD DE JACCARD SELECCIÓN DE PÁGINAS A RECOMENDAR ALGORITMO UTILIZADO ALGORITMO UTILIZADO PARA EL FILTRADO DE INFORMACIÓN PROCESOS MAP/REDUCE PARA FILTRADO DE INFORMACIÓN ALGORITMO UTILIZADO PARA OBTENER EL COEFICIENTE DE SIMILITUD DE JACCARD PROCESOS MAP/REDUCE PARA OBTENER EL COEFICIENTE DE SIMILITUD DE JACCARD ALGORITMO UTILIZADO PARA SELECCIONAR LAS PÁGINAS A RECOMENDAR PROCESO MAP/REDUCE PARA SELECCIONAR LAS PÁGINAS A RECOMENDAR PRESENTACIÓN DE LOS RESULTADOS HERRAMIENTAS DE DESARROLLO AMBIENTE DE PRUEBAS EJECUTAR TRABAJOS MAP/REDUCE DESDE LA MÁQUINA VIRTUAL... 40

10 X SUBIR UN ARCHIVO AL HDFS EJECUTAR LA CLASE PRINCIPAL EJECUTAR TRABAJOS MAP/REDUCE UTILIZANDO LOS SERVICIO DE AMAZON EC2, S SUBIR ARCHIVOS AL S LEVANTAR UN CLÚSTER DE N NODOS EN EC2 DESDE LA MÁQUINA VIRTUAL Y CONECTARSE AL NODO MAESTRO DESCARGAR ARCHIVOS DEL S3 AL HDFS PRUEBAS EXPERIMENTALES Y RESULTADOS PRUEBAS EN PROCESO DE FILTRADO PRUEBAS EN LA OBTENCIÓN DEL COEFICIENTE DE JACCARD PRUEBAS EN SELECCIÓN DE LAS PÁGINAS A RECOMEDAR RESULTADO FINAL CONCLUSIONES Y RECOMENDACIONES GLOSARIO REFERENCIAS BIBLIOGRÁFICAS... 67

11 XI ABREVIATURAS API JVM SIM XML Application Programming Interface Java Virtual Machine Similitud Extensible Markup Language

12 XII INDICE DE GRÁFICOS Figura 1. Rol de usuarios en la Wikipedia... VI Figura 2. Crecimiento de la Wikipedia (Julio 2001 Mayo 2008) [26]... 1 Figura 3. Estructura de un Sistemas de recomendaciones. [27]... 2 Figura 4. Flujo de datos Map/Reduce con dos tareas reduce, los datos de entrada y la salida se encuentran en el HDFS [28] Figura 5. Formato de los Dumps de Wikipedia Figura 6. Filtrado de información Figura 7. Diagrama de Venn para dos páginas de la Wikipedia con sus usuarios Figura 8. Formato de salida del proceso de valoración de datos Figura 9. Formato de salida final Figura 10. Procesos Map/Reduce para el Filtrado de Información Figura 11. Procesos Map/Reduce para obtener el Coeficiente de similitud de Jaccard Figura 12. Proceso Map/Reduce para seleccionar las páginas a recomendar Figura 13. Interfaz del MediaWiki con la pestaña de recomendaciones Figura 14. Arquitectura final del sistema Figura 15. Ventana que muestra el plugin S3fox en Firefox Figura 16. Resultado de pruebas para el proceso de filtrado Figura 17. Tendencia del número de registros de salida variando el tamaño de la Entrada para el 1 Map/Reduce Figura 18. Resultado de pruebas para la obtención del coeficiente de Jaccard Figura 19. Resultado de pruebas para el proceso de selección de páginas a recomendar... 53

13 XIII INDICE DE TABLAS Tabla 1. Parámetros descriptivos adicionales para las 10 mayores Wikipedias... 5 Tabla 2. Precios de Amazon EC2 y Amazon Elastic MapReduce Actualizados a Septiembre del 2009 [12] Tabla 3. Precios de Amazon s3, actualizados a Septiembre del 2009 [13] Tabla 4. Particiones del nodo maestro Tabla 5. Tiempos del proceso de filtrado Tabla 6. Tamaño de la salida del primer proceso Map/Reduce Tabla 7. Tiempos tomados para la obtención del coeficiente de Jaccard Tabla 8. Tiempos tomados para el proceso de selección de páginas a recomendar... 53

14 1 INTRODUCCIÓN La Wikipedia es actualmente la enciclopedia libre disponible en la Web con mayor aceptación entre los usuarios de todo el mundo. Su popularidad se debe, en parte, a su rápido y constante crecimiento, en cuanto a contenidos se refiere. Figura 2. Crecimiento de la Wikipedia (Julio 2001 Mayo 2008) [26] Así como crece la Wikipedia, también crece la información disponible en otros sitios Web, como Facebook, YouTube, y Flickr. Con un volumen de información que crece de forma desmedida día a día, los centros de datos empiezan a ganar protagonismo junto a los sistemas de recomendaciones para evaluar y filtrar la gran cantidad de información disponible en la Web y guiar a los usuarios a la información que buscan. Para estas empresas lograr hacerlo con un bajo presupuesto sin perder características indispensables como la tolerancia a fallos, alta disponibilidad, recuperación de fallos,

15 2 consistencia en los datos, escalabilidad y seguridad es uno de los problemas a los que se enfrentan día a día. Es aquí donde la plataforma Apache Hadoop [2] entra a ganar mercado, sobre todo en cuanto al uso del paradigma de programación distribuida popularizado por Google llamado Map/Reduce [3], que esta plataforma implementa de manera libre. Al tener herramientas que nos permiten manejar grandes cantidades de información la forma de presentarlas a los usuarios al momento de realizar búsquedas es otra meta de nuestros días, y es aquí donde los sistemas de recomendación juegan un papel crucial. La idea tras ellos es encontrar usuarios con gustos similares a los de otro determinado y recomendar a este cosas que desconoce pero que gustan a aquellos con los que se tiene similitud. Figura 3. Estructura de un Sistemas de recomendaciones. [27] El gráfico de la figura 3 muestra una estructura simple de un sistema de Recomendación adaptado específicamente a nuestro proyecto. El tema central del presente trabajo es brindar una panorámica general del uso y aplicación del paradigma Map/Reduce y de los sistemas de recomendación, así como resultados obtenidos

16 3 empleando el coeficiente de similitud de Jaccard como parte del método de recomendación para generar nuestras salidas. El campo específico de aplicación de estos conceptos es en la generación de recomendaciones para la Wikipedia, en base a las contribuciones de sus usuarios.

17 4 1. ANÁLISIS CONTEXTUAL 1.1. SOBRE LA WIKIPEDIA En la actualidad, la Wikipedia es la enciclopedia libre mas consultada en Internet, la cual cuenta con más de 13,7 millones de artículos redactados por voluntarios de todo el mundo [4].La Tabla 1 presenta el número de ediciones para las 10 mayores Wikipedias [5]. La Fundación Wikimedia [6] periódicamente realiza copias de seguridad de todos los contenidos de las diferentes bases de datos de Wikipedia como: Wikisource, Wikiquote, Wikcionario, etc. A estas copias se las conoce como dumps. Estas copias están disponibles para toda la comunidad de desarrolladores en formato XML, y contienen información sobre el historial de aportaciones de usuarios a las páginas, título, revisiones, texto de la página, id de la página etc.

18 5 Tabla 1. Parámetros descriptivos adicionales para las 10 mayores Wikipedias Al ser la Wikipedia una gran fuente de información estructurada, y al incluir información sobre las aportaciones que los editores de la misma hacen a las diferentes páginas, resulta una fuente de información ideal como base para desarrollar un módulo de recomendaciones en base a aportaciones de usuarios, utilizando técnicas actuales de procesamiento masivo de datos. Dicho módulo puede ser implementado en otras Wikis, con pocas modificaciones y en otros sitios que permitan aportaciones de una gran base de usuarios.

19 OBJETIVOS DEL PROYECTO Objetivo General Desarrollar un módulo de recomendaciones para la Wikipedia basado en las wikis a la que los usuarios aportan, utilizando el paradigma MapReduce y herramientas libres para el procesamiento masivo de datos Objetivos específicos Analizar los dumps de la Wikipedia en español proporcionados por La Fundación Wikimedia utilizando Hadoop. Obtener para cada página de la Wikipedia un conjunto de posibles páginas a recomendar, consultando en que otras páginas escribieron los usuarios aportantes de dicha wiki. Implementar el coeficiente de similitud de Jaccard en su versión Map/Reduce para seleccionar las mejores páginas a recomendar. Verificar si los usuarios de la Wikipedia en general, aportan sobre temas similares de parecido contenido o al contrario las aportaciones de los usuarios es arbitraria y no sigue una misma temática. Analizar la escalabilidad de los diferentes procesos Map/Reduce utilizados en el desarrollo del proyecto.

20 7 2. MARCO TEÓRICO 2.1. HERRAMIENTAS PARA EL PROCESAMIENTO MASIVO Y ESCALABLE DE DATOS El procesamiento masivo de datos, usando Hadoop como plataforma libre de procesamiento escalable y distribuido parte del uso y compresión de su estructura y elementos que participan tanto en su diseño como implementación, a continuación veremos unos aspectos importantes a tener en cuenta MAP/REDUCE [8] Map/Reduce es un framework introducido por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras. Las funciones Map y Reduce están definidas ambas con respecto a datos estructurados en pares (clave, valor). Map toma uno de estos pares de datos con un tipo en un dominio de datos,

21 8 y devuelve una lista de pares en un dominio diferente: Map (k1, v1) -> list (K2, v2) La función de mapeo es aplicada en paralelo para cada ítem en la entrada de datos. Esto produce una lista de pares (k2, v2) por cada llamada. Después de eso, el framework de MapReduce junta todos los pares con la misma clave de todas las listas y los agrupa, creando un grupo por cada una de las diferentes claves generadas. La función reduce es aplicada en paralelo para cada grupo, produciendo una colección de valores para cada dominio: Reduce (K2, list (v2)) -> list (v2) Cada llamada a Reduce típicamente produce un valor v2 o una llamada vacía, aunque una llamada puede retornar más de un valor. El retorno de todas esas llamadas se recoge como la lista de resultado deseado. Por lo tanto, el framework Map/Reduce transforma una lista de pares (clave, valor) en una lista de valores. Este comportamiento es diferente de la combinación "map and reduce" de programación funcional, que acepta una lista arbitraria de valores y devuelve un valor único que combina todos los valores devueltos por mapa.

22 HADOOP DISTRIBUTED FILE SYSTEM (HDFS) [8] HDFS es un sistema de archivos distribuido que sigue una arquitectura cliente/servidor basada en un único nodo servidor denominado Nameserver que maneja el Namespace del sistema de ficheros y regula el acceso a los mismos, y varios clientes llamados Datanodes que gestionan el almacenamiento de los nodos que contienen. Internamente, un fichero es dividido en bloques, y estos bloques son almacenados en un conjunto de Datanodes. Todos los bloques excepto el último son del mismo tamaño (64Mbs por defecto). Los bloques de un fichero son replicados, con el fin de dotar al sistema de tolerancia a fallos. El tamaño de bloque y el número de réplicas es parametrizable para cada fichero. La optimización de la colocación de las réplicas en los diferentes Datanodes es uno de los factores que distingue a este sistema de ficheros. Soporta la típica estructura jerárquica de directorios, con posibilidades de crear, borrar, mover y renombrar tanto directorios como ficheros. Los ficheros borrados, serán en realidad movidos temporalmente a una papelera localizada en /trash. Es accesible de manera nativa mediante un API para java y se puede navegar por su contenido usando un navegador Web.

23 10 Figura 4. Flujo de datos Map/Reduce con dos tareas reduce, los datos de entrada y la salida se encuentran en el HDFS [28] AMAZON ELASTIC MAPREDUCE Amazon Elastic MapReduce [9] es un servicio Web que permite a las empresas, investigadores, analistas de datos, y desarrolladores de forma fácil y rentable procesar grandes cantidades de datos. Se utiliza un marco organizado Hadoop se ejecutan en el Web de infraestructura de Amazon Elastic Compute Cloud (Amazon EC2) [10] y Amazon Simple Storage Service (Amazon S3) [11]. Amazon Elastic MapReduce automáticamente incrusta una implementación del framework MapReduce de Hadoop en las instancias de Amazon EC2, sub-dividiendo los datos de un flujo de trabajo en pequeñas partes, de forma que ellos puedan ser procesados (la función "map") en

24 11 paralelo y, eventualmente, re combinando los datos en una solución final (la función "reduce"). Amazon S3 sirve como fuente para los datos que se están analizando, así también como el destino para el resultado final. Precisamente Elastic MapReduce se centra en el concepto de un flujo de trabajo. Cada Flujo de trabajo puede contener uno o más pasos. Cada paso recibe un paquete de datos de Amazon S3, distribuye los datos a un determinado número de instancias de EC2 que están funcionando con Hadoop (se aumentan las instancias si es necesario), se hace todo el trabajo y, a continuación, escribe los resultados nuevamente en S3. Cada paso debe hacer referencia a un código "mapper" o un "reducer" específico de la aplicación (JAR o código de script para uso vía streaming model). Amazon EC2 y Amazon S3 son facturados por separado. La fijación de precios para Amazon Elastic MapReduce es por instancia-hora consumida para cada tipo de instancia, desde que el flujo de trabajo comenzó a tramitar hasta que se pone término al mismo. Cada instancia parcial de horas consumidas se cobra como una hora completa. Con S3, se paga tan sólo lo que se utiliza. En dos rubros diferentes: por espacio que consumes al mes, y por peticiones que recibe el servidor. Los datos transferidos entre Amazon EC2 y Amazon S3 están libres de cargos (es decir 0,00 dólares por GB).

25 12 Instancia sobre demanda Small (default) Medium Large Extra Large Amazon Ec2 Precio por hora Amazon Elastic MapReduce Precio por hora $0.10 $0.015 $0.20 $0.03 $0.40 $0.06 $0.80 $0.12 Tabla 2. Precios de Amazon EC2 y Amazon Elastic MapReduce Actualizados a Septiembre del 2009 [12] En el desarrollo del proyecto utilizamos Instancias Medium de Amazon Elastic MapReduce. ALMACENAMIENTO TRANSFERENCIA DE DATOS $0.150 por GB primeros 50 TB / mensuales de almacenamiento utilizado $0.100 por GB Toda transferencia de entrada $0.140 por GB siguientes 50 TB / mensuales de almacenamiento utilizado $0.170 por GB primeros 10 TB / mensuales de transferencia de salida $0.130 por GB siguientes 400 TB / mensuales de almacenamiento utilizado $0.130 por GB siguientes 40 TB / mensuales de transferencia de salida $0.120 por GB Almacenamiento / mensuales después de 500 TB $0.110 por GB siguientes 100 TB / mensuales de transferencia de salida Tabla 3. Precios de Amazon s3, actualizados a Septiembre del 2009 [13]

26 13 3. MATERIALES 3.1. DATASET Como Dataset elegimos trabajar con los respaldos de la Wikipedia, todo el contenido de la Wikipedia se encuentra bajo licencia GNU de documentación libre, por lo tanto puede ser copiado, modificado y redistribuido. La Fundación Wikimedia es la encargada de distribuir periódicamente copias de seguridad de todos los contenidos de las diferentes bases de datos de Wikipedia y a estos se los llama dumps. Todo este contenido puede descargarse desde Estos dumps están disponibles en formato XML y comprimidos con bzip2. El contenido de las páginas se encuentra entre los tags <page></page> y las revisiones entre los tags <revisión></revisión> el formato de estos archivos XML es de la siguiente forma.

27 14 Figura 5. Formato de los Dumps de Wikipedia En la página de descargas, hay varios ficheros para descarga, pero los más importantes para nuestro proyecto son: Pages-articles.xml.bz2 que contienen las últimas revisiones de los artículos, este archivo es un poco pesado debido a que guarda todo el contenido de la página. pages-stub-meta-history.xml.7z/bz2 que solo ofrece información sobre el historial de las modificaciones y guarda el usuario que realizó dicha modificación. Los archivos que decidimos utilizar para realizar las pruebas fueron los siguientes: eswiki pages-articles.xml (3.18 GB) y eswiki stub-meta-history.xml (7,04 GB) es decir los respaldos del 10 de Julio del 2009 de la edición de la Wikipedia en español. El archivo eswiki stub-meta-history.xml fue el dataset utilizado para realizar todos los procesos Map/Reduce necesarios para obtener las recomendaciones mientras que el

28 15 archivo eswiki pages-articles.xml se lo utilizó para importar a la base de datos del MediaWiki todo el contenido de la Wikipedia y poder verla offline. El MediaWiki es un software de wiki libre del cual hablaremos más adelante, esta importación se la realiza con un programa hecho en java llamado mwdumper.jar [14] que es gratuito y está disponible en Internet SOFTWARE WIKI (MEDIAWIKI) MediaWiki [7] es un software wiki libre escrito originalmente para Wikipedia, actualmente es utilizado por otros proyectos wikis de la Fundación Wikimedia y también por otras wikis, incluyendo la wiki de la ESPOL. Se lo utilizó en nuestro proyecto como software para visualizar las wikis y resultados de las recomendaciones. MediaWiki está desarrollado en PHP y puede ser usado con una base de datos MySql o PostgreSQL. La versión del MediaWiki utilizada por nosotros es la y puede descargarse desde la siguiente dirección: La principal ventaja del MediaWiki es que al ser licencia GNU, este software ofrece todo el código fuente de tal manera que se lo puede modificar y ajustar a los requerimientos de nuestro proyecto.

29 CLOUD 9 Cloud 9 es una librería MapReduce para Hadoop, de código abierto que se encuentra en un repositorio Subversión, para obtenerlo se lo realizó desde Eclipse abriendo la perspectiva SVN Repository Exploring y añadiendo el siguiente repositorio: Toda esta y más información del Cloud9 como el API Javadoc la obtuvimos desde la Web del autor, Jimmy Lin [15]. Utilizamos esta librería ya que entre sus varias opciones ofrece un paquete que permite trabajar con los dumps de la Wikipedia. Este paquete es edu.umd.cloud9.collection.wikipedia. Entre las clases que contiene este paquete y la que utilizamos con mayor frecuencia es WikipediaPage que representa una página Wikipedia (contenido que se encuentra entre los tags <page></page>) y nos permite obtener entre otras cosas el título de la página, el id y el texto XML de la página en sí. Utilizamos WikipediaPage como dato de entrada en algunos Mapper del proyecto. Otra clase importante es la que nos permite indicar en el Job que el formato de entrada sea de tipo WikipediaPageInputFormat, de tal manera que enviando al Job como entrada un solo archivo XML donde están todas las páginas de la Wikipedia. Esta librería se encarga de enviarnos al map una sola página para ser procesada.

30 HADOOP Hadoop [16] es una plataforma que nos permite desarrollar aplicaciones que tengan que tratar con grandes cantidades de datos. Es un subproyecto de Apache open source que implementa en Java algunas de las tecnologías de Google, como MapReduce y Google File System. En Hadoop tenemos en lugar de GFS (Google File System) [3] el HDFS que es el sistema de archivos distribuidos pensado para grandes tamaños (GBs a TBs), tolerante a fallos y diseñado para ser instalado en máquinas de bajo coste que puedan ejecutar una instancia de la JVM. Nosotros en nuestro proyecto utilizamos la versión de Hadoop [17]. Todo el proceso de instalación de Hadoop lo evitamos ya que para correr nuestros programas lo realizamos sobre los Amazon Web Services (EC2, S3). Utilizamos el servicio EC2 con AMIs (Amazon Machine Image) [18] que ya traen instalado Hadoop sobre un sistema operativo Fedora. S3 lo utilizamos como repositorio para los datos de entrada y para la salida final de los procesos MapReduce.

31 18 4. DISEÑO Y METODOLOGÍA UTILIZADA Para realizar el módulo de recomendaciones para la Wikipedia hemos dividido el proceso en dos partes. La primera se encarga del filtrado de información para luego proceder a la valoración de los datos y por último la selección de los datos que consiste en clasificar y ordenar los datos obtenidos en el proceso anterior FILTRADO DE INFORMACIÓN Teniendo como hipótesis que los usuarios de la Wikipedia la mayoría de las veces opina sobre temas similares, el primer paso consiste en obtener los usuarios que han contribuido con las ediciones de una página para luego recuperar por cada usuario las páginas a las que ellos también han hecho aportaciones. Entre los diferentes tipos de usuario que frecuentan la Wikipedia encontramos los usuarios anónimos y los usuarios registrados.

32 19 Página principal Página Usuario1 Usuario2 Página a Página b Página c Página d Usuario n Página e Figura 6. Filtrado de información Posibles páginas a recomendar Los Usuarios anónimos son aquellos que no se han registrado y la Wikipedia en sus revisiones los identifica con su dirección IP, mientras que los usuarios registrados son quienes han seguido un proceso muy simple en el que solo es necesario dar el nombre y contraseña. La Wikipedia cuenta con «programas robot» (bots) que detectan cambios de tipo vandálico y que actúan en consecuencia, a veces de forma automática, a veces preventiva. Por ejemplo si en un artículo aparecen insultos estos bots se encargan de eliminarlos, estos cambios también son almacenados en las revisiones de la Wikipedia. Una forma sencilla de identificar si un usuario es un robot es verificando si contiene la palabra bot en su nombre de usuario; por ejemplo, el robot principal de la Wikipedia se llama AVBOT [19]. Durante el proceso de filtrado los usuarios anónimos y los robot no son considerados, debido a que estos no siguen una línea de aportaciones sobre un tema definido y su inclusión traería como resultados páginas muy aleatorias.

33 20 También son descartadas las páginas que no corresponden a un artículo, con el fin de reducir el número de páginas a procesar. La Wikipedia entre sus tipos de páginas tiene las páginas de discusión, redirects (páginas que se encargan de direccionar a otras páginas), páginas de configuración de la Wikipedia y artículos. Para comprobar si una página no corresponde a un artículo se verificó si contiene el signo dos puntos ( : ) en su título; por ejemplo, la página con título Wikipedia Discusión: Café (noticias) no corresponde a un artículo. Este proceso no es de vital importancia, al no intervenir en la obtención del resultado final; sin embargo, lo describimos ya que fue el que nos dio la pauta para comenzar la investigación, entender la estructura de la Wikipedia, comprender cómo se comporta Hadoop con grandes datos de entrada y verificar que la hipótesis planteada por nosotros acerca de que los usuarios aportan generalmente a temas en común es valedera aunque no en un 100% ya que se observó que en algunos casos las posibles páginas a recomendar no se alejaban mucho del tema principal. Observando esta primera salida pudimos conocer la magnitud de los datos a procesar, darnos cuenta de qué datos dentro del XML servían, y qué datos no; todo esto con el objetivo de reducir los tamaños de la salida para optimizar los procesos.

34 VALORACIÓN DE PÁGINAS A RECOMENDAR Para valorar qué páginas son las mejores páginas a recomendar para la página principal, hemos decidido utilizar el coeficiente de similitud de Jaccard [20] COEFICIENTE DE SIMILITUD DE JACCARD También conocido como el índice de Jaccard, el coeficiente de similitud de Jaccard es una medida estadística de la similitud entre los conjuntos de la muestra. Para los dos conjuntos, esto es definido como la cardinalidad de su intersección dividido por la cardinalidad de su unión, matemáticamente es expresada de la siguiente manera. Para el caso de la Wikipedia es necesario un enfoque ligeramente diferente. Tomando como conjunto los usuarios de la Wikipedia que han aportado a dos páginas específicas, es posible determinar la similitud que hay entre estas dos páginas. Para el cálculo de la similitud de pares de páginas, el numerador es el número de usuarios que han editando ambas páginas mientras que el denominador es el número de usuarios que han editado una o las dos páginas. Matemáticamente, tenemos la siguiente fórmula.

35 22 Donde A y B son las páginas a las que se desea encontrar la similitud, X y Y corresponden al conjunto de usuarios que se producen con A y B respectivamente. Gráficamente podemos verlo de la siguiente manera: Ci Cj * * * * Cij * * * * Página A Página B Figura 7. Diagrama de Venn para dos páginas de la Wikipedia con sus usuarios Tomando en cuenta que Ci es el número de usuarios que han aportado a la página A, Cj es el número de usuarios que han aportado a la página B y Cij es el número de usuarios que han aportado tanto a la página A como a la página B, tenemos que la similitud entre estas dos páginas (Coeficiente de similitud de Jaccard) se calcula de la siguiente manera: Sim(A, B) es un valor porcentual y va desde 0 hasta 1 siendo este el valor más alto de coincidencia.

36 23 En el caso de que no exista ningún usuario que haya aportado tanto a la página A como a la página B, Cij valdría cero y el resultado del la Sim(A,B) será cero; es decir, que es probable que estas dos páginas no tengan absolutamente nada en común. Otro caso extremo se produce cuando Ci y Cj son cero y todos los usuarios tanto de la página A como de la página B han aportado a ambas páginas; en este caso, la Sim (A, B) será 1, es decir es probable que estas dos páginas tengan mucho en común SELECCIÓN DE PÁGINAS A RECOMENDAR En el proceso de valoración de datos obtuvimos todas las combinaciones posibles de las páginas a recomendar con sus respectivos valores de similitud. En esta etapa se toma como entrada estas combinaciones y se genera para cada página una lista de páginas a recomendar ordenadas de mayor a menor dependiendo del valor de similitud que tengan con respecto a la página siendo analizada. La Figura 8 presenta nuestra salida final, lista para ser ingresada a la base de datos MySql. (Pag1, Pág. a) 0.20 (Pag1, Pág. b) 0.40 (Pag1, Pág. c) 0.70 (Pág. a, Pág. b) 0.10 (Pág. a, Pág. c) 0.01 (Pág. b, Pág. c) Figura 8. Formato de salida del proceso de valoración de datos Para elegir las 5 mejores páginas a recomendar, se seleccionan las páginas que tengan la

37 24 similitud (coeficiente de similitud de Jaccard) más cercano a uno. Por ejemplo Sim (Pag1, Pág. a) = 0.2 Sim (Pag1, Pág. b) = 0.4 Sim (Pag1, Pág. c) = 0.7 Entonces tenemos que para la Pag1 la mejor página a recomendar sería la Pág. C Pag1 Pág. c, 0.7 ^Pág. b, 0.4 ^Pág. a, 0.2 Pág. a Pag1, 0.2 ^Pág. b, 0.10 ^Pág. c, 0.01 Pág. b Pag1, 0.4 ^Pág. a, 0.10 ^Pág. c, 0.03 Figura 9. Formato de salida final 4.4. ALGORITMO UTILIZADO Para la implementación del algoritmo se utiliza la metodología Map/Reduce ALGORITMO UTILIZADO PARA EL FILTRADO DE INFORMACIÓN Para obtener el universo de posibles páginas a recomendar se necesitaron de dos procesos Map/Reduce, primero hay que obtener un listado de páginas por usuario, luego por cada página de esa lista se genera una nueva lista de páginas. Al final se concatenan todas las listas de determinada página y se obtiene como resultado un archivo donde cada línea contiene una página y una lista de posibles páginas a recomendar. Los procesos Map y Reduce se detallan a continuación (ver Figura 10).

38 25 Figura 10. Procesos Map/Reduce para el Filtrado de Información PROCESOS MAP/REDUCE PARA FILTRADO DE INFORMACIÓN Primer Proceso Map/Reduce Map El método Map consiste generar tuplas <usuarios, página>, teniendo como dato de entrada las páginas de la Wikipedia con la información de las revisiones en formato XML. La librería Cloud 9 nos permite procesar el XML de la Wikipedia y tener como dato de entrada un objeto de tipo WikipediaPage. La clase WikipediaPage nos proporciona ya gran parte de la información de la página como el título, el id, el tipo de página, el XML en sí de la página, el texto, entre otros. Entrada: WikipediaPage

39 26 Salida: Text, Text WikipediaPage <Usuario, Título Página> Reduce El reduce recibe una lista de páginas y se encarga de generar otra lista de páginas por cada una de las páginas de la lista recibida. Esta nueva lista generada es la misma lista recibida pero sin tomar en cuenta la página a la que le está generando la lista, ya que esta página es la clave. Por ejemplo, un reduce recibió los siguientes valores: Usuario1, {pág. 1, pág. 2, pág. 3, pág. 4} Se generó una salida por cada página de la siguiente manera: pág. 1, {pág. 2, pág. 3, pág. 4} pág. 2, {pág. 1, pág. 3, pág. 4} pág. 3, {pág. 1, pág. 2, pág. 4} pág. 4, {pág. 1, pág. 2, pág. 3} Entrada: Text, {Text} Salida: Text, Text Usuario, {Título Página} Título Página, {Título Página} Segundo Proceso Map/Reduce Map El método Map recibe una línea del archivo generado en el proceso MapReduce1. Esta línea tiene la forma [Título Página, {Título Página}] y simplemente lo que hace es emitir un map por

40 27 cada línea del archivo. Entrada: Text, Text Salida: Text, Text Título Página, {Título Página} <Título Página, {Título Página}> Reduce El reduce se encarga de concatenar la lista de páginas recibidas y este sería el universo de posibles páginas a recomendar. Entrada: Text, {Text} Salida: Text, Text Título Página, {Título Página} Título Página, {Título Página} ALGORITMO UTILIZADO PARA OBTENER EL COEFICIENTE DE SIMILITUD DE JACCARD Para calcular el coeficiente de similitud de Jaccard para un par de elementos X, es necesario el cálculo de dos valores. El primero es el número de elementos de Y que se produce con los dos elementos X, y el segundo es el número de elementos de Y que se producen con uno o ambos elementos X. Para el cálculo de la segunda cantidad, primero hay que calcular el número de elementos de Y que se produce con el elemento de primer X más el número de elementos de Y que se produce

41 28 con el segundo elemento X, y luego restar el número de elementos de Y que se producen con ambos. El valor de la primera cantidad es obtenido mientras se calcula la segunda cantidad y por último este valor se lo divide para la segunda cantidad obteniendo así el valor del coeficiente de similitud de Jaccard para un par de páginas. La implementación se la realizó utilizando tres procesos Map/Reduce que se describen a continuación (ver Figura 11). Figura 11. Procesos Map/Reduce para obtener el Coeficiente de similitud de Jaccard

42 PROCESOS MAP/REDUCE PARA OBTENER EL COEFICIENTE DE SIMILITUD DE JACCARD Primer Proceso Map/Reduce Map Este método simplemente genera una tupla <clave, valor> utilizando como clave la página y como valor el usuario que realizó la aportación; teniendo como dato de entrada las páginas de la Wikipedia con la información de las revisiones en formato XML. Entrada: WikipediaPage Salida: Text, Text WikipediaPage <Título Página, Usuario> Reduce El método reduce recibe una página con la lista de usuarios que han aportado a esa página, y calcula la cardinalidad para esa página que no es más que el número de usuarios que aportaron a dicha página (a este valor le llamaremos C). Este valor de C será usado después para calcular el denominador del coeficiente de Jaccard. El reduce retorna un par donde la clave es la página y el valor es una nueva tupla <Usuario, C> a la que le llamaremos CPar. Por cada usuario de la página se genera una salida de este tipo. Entrada: Text, {Text}

43 30 Salida: Text, CPar Título Página, {Usuario} Título Página, <Usuario, C>; Donde C = {lista de Usuarios} Segundo Proceso Map/Reduce Map Aquí se tiene como dato de entrada la salida del Proceso Map/Reduce 1, cada línea de los archivos de salida de dicho proceso tiene la forma [Título Página Usuario C]. Por cada línea del archivo se generó un map donde la clave es el Usuario y la salida es una nueva tupla <Página, C>; en otras palabras, la salida de este método map es la salida del método reduce del proceso MapReduce1 pero con los valores de Página y Usuario intercambiados. Entrada: Text, CPar Salida: Text, CPar Título Página, <Usuario, C> Usuario, <Título Página, C> Reduce Este recibe una lista de tuplas <Título Página, C> por cada usuario, y la salida de este reduce es muy peculiar ya que por clave se utilizó un string vacío y por valor simplemente se concatena la lista de valores CPar recibidos, de tal manera que cada línea del archivo de salida es una lista

44 31 de valores CPar con la forma <Título Página, C>. Entrada: Text, {CPar} Salida: Text, {CPar} Usuario, {<Título Página, C>} R, {<Título Página, C>}; Donde R = (String vacío) Tercer Proceso Map/Reduce Map En este método se recibe la salida del proceso Map/Reduce 2 cada línea del archivo de salida tiene una lista de tuplas de la forma <Título Página, C>. Este proceso es el encargado de generar las tuplas de página <Xa, Xb> con el primer elemento de la lista y cada uno de los siguientes elementos, es decir una lista de tamaño n producirá n-1 tuplas, uno por cada elemento de la lista exceptuando el primero. Las tuplas generadas son la clave del map y el valor es la suma de los valores de C asociado a cada página. Entrada: Text, {CPar} Salida: Text, Intwritable R, {<Título Página, C>} <Xa, Xb>, Cij; Donde Cij = Ci + Cj Reduce Finalmente, este es el reduce que calcula el coeficiente de similitud de Jaccard. Primero cuenta cuantas veces se generó la tupla <Xa, Xb> y este valor representa la

45 32 intersección de Xa con Xb, es decir el numerador del coeficiente de similitud de Jaccard. El valor del denominador se obtiene restando el valor de Cij asociado al par con el de la intersección. Entrada: Text, {Intwritable} Salida: Text, Floatwritable <Xa, Xb>, {Cij} <Xi, Xj>, ALGORITMO UTILIZADO PARA SELECCIONAR LAS PÁGINAS A RECOMENDAR Este proceso es muy sencillo pero muy importante, ya que es el que nos permite obtener las recomendaciones para cada página ordenadas de mayor a menor dependiendo del valor del coeficiente de similitud de Jaccard. Consta de un solo proceso Map/Reduce. Se recibe como entrada la lista de todas las posibles combinaciones de páginas con su valor de similitud, y simplemente se emiten dos maps por cada combinación de página y en el Reduce se procede a ordenar y concatenar las páginas. Su proceso Map/Reduce se describe a continuación (ver Figura 12).

46 33 output Jaccard (Pa,Pb) 0.05 (Pa,Pc) 0.01 (Pa,Pd) 0.02 (Pb,Pc) 1.00 (Pb,Pd) 0.20 M M M Pa (Pb, 0.05) Pb (Pa, 0.05) Pa (Pc, 0.01) Pc (Pa, 0.01) Pa (Pd, 0.02) Pd (Pa, 0.02) Pb (Pc, 1.0) Pc (Pb, 1.0) Pb (Pd, 0.2) Pa { (Pb,0.05) (Pc,0.01) (Pd,0.02) } Pb { (Pa,0.05) (Pc,1.0) (Pd,0.2) } Pc { (Pa,0.01) (Pb,1.0) } Pd { (Pa,0.02) (Pb,0.2)} R R R R Pa { (Pb,0.05)^(Pd,0.02) ^(Pc,0.01) } Pb { (Pc,1.0) ^(Pd,0.2) ^(Pa,0.05) } Pc { Pb,1.0)^ (Pa,0.01) } Pd { (Pb,0.2) ^(Pa,0.02) } Figura 12. Proceso Map/Reduce para seleccionar las páginas a recomendar PROCESO MAP/REDUCE PARA SELECCIONAR LAS PÁGINAS A RECOMENDAR Map Este método recibe una línea de la forma [Página A, Página B 0.2] que contiene un par de página con su respectivo valor de coeficiente de similitud entre ellas. Se genera una tupla <clave, valor> utilizando como clave una página y como valor la otra página concatenada con el valor de similitud. Como en el ejemplo la similitud entre la página A y la página B es 0.2 entonces se generan las dos siguientes salidas: 1. Una salida indica que la Página B es posible recomendación para la Página A con un grado de similitud de 0.2 <Página A, (Página B, 02)>. 2. La otra salida indica que la Página A es posible recomendación para la Página B con un

47 34 grado de similitud de 0.2 <Página B, (Página A, 02)>. Entrada: Text, Text Salida: Text, Text [Título Página 1, Título Página 2, Valor Coeficiente] <Título Página 1, (Título Página 2, Valor Coeficiente)> y <Título Página 2, (Título Página 1, Valor Coeficiente)> Reduce El reduce recibe una página con la lista de posibles páginas a recomendar asociadas con su valor de similitud. Este método se encarga de ordenar de mayor a menor esa lista dependiendo de su valor de similitud, se emite una salida con la página y la misma lista recibida pero ordenada. Entrada: Text, {Text} Salida: Text, {Text} Título Página, {<Título Página, Coeficiente>} Título Página, {<Título Página, Coeficiente>} 4.5. PRESENTACIÓN DE LOS RESULTADOS Como se mencionó anteriormente se utilizó el MediaWiki para presentar los resultados. Este software utiliza una base de datos MySql para almacenar toda su información, la salida final de los diferentes procesos Map/Reduce es introducido a esta base de datos, ya que la salida es

48 35 simplemente un archivo de texto donde cada línea del archivo representa un registro, nosotros obtenemos todas las recomendaciones posibles para una página dependiendo del número de usuarios que ha aportado a esa página, pero solo son introducidos a la base de datos las 5 recomendaciones que tengan el índice de similitud de Jaccard más cercano a uno y estas son presentadas en la pestaña de recomendaciones. Esto con el objetivo de no saturar la base con datos innecesarios. La tabla que almacena las recomendaciones es simple: contiene 6 campos, de los cuales, el primero corresponde a la página principal y los 5 restantes cada uno corresponde a una página recomendada. Se modificó el MediaWiki y se le añadió para cada página una pestaña de recomendaciones que es donde se mostrarán los resultados (ver Figura 13).

49 36 Figura 13. Interfaz del MediaWiki con la pestaña de recomendaciones La arquitectura final del sistema es la siguiente (ver Figura 14).

50 37 Figura 14. Arquitectura final del sistema Como se puede observar la arquitectura final del sistema es muy simple y en ningún momento se encuentra conexión con el EC2 o el S3 que son los servicios de Amazon que se utilizaron para generar las recomendaciones. Esto se debe a que el proceso de generar las recomendaciones no es un proceso en línea que se ejecuta cada vez que el usuario busca una página. Este es un proceso que se encuentra realizado con anterioridad y debería realizarse periódicamente dependiendo de cómo sea la tasa de cambio de los datos en la Wikipedia, o en su debido caso se lo puede realizar cada vez que se libere un nuevo respaldo de la base de datos de la Wikipedia.

51 38 5. HERRAMIENTAS DE DESARROLLO Para implementar los algoritmos de los diferentes procesos Map/Reduce se usó el lenguaje de programación java (jdk1.6.0_07) con el IDE Eclipse bajo un entorno de Windows XP SP2. Para la implementación del paradigma Map/Reduce se utilizó la librería Hadoop Además se utilizaron las siguientes librerías: Para utilizar y analizar los dumps de la Wikipedia como dato de entrada y poder procesar página por página se utilizó la librería Cloud 9. Cloud 9 no recupera todas las revisiones de una página por lo que para recuperar y analizar las revisiones a partir de un texto con formato XML se utilizó la librería JDOM 1.11 [21].

52 39 6. AMBIENTE DE PRUEBAS Una vez implementado los diferentes procesos Map /Reduce era necesario probarlos, pero esta tarea no es tan sencilla ya que depende mucho de la cantidad de datos a procesar es por esto que la etapa se la realizó en dos ambientes. El primer ambiente es utilizando el software VMWare Workstation con una imagen de la distribución del sistema operativo Ubuntu con el kernel de Linux server y entorno GNOME. Esta imagen ya trae tanto el Hadoop como el HDFS instalado y configurado; En este entorno probamos los algoritmos utilizando pequeños dataset de entrada que no sobrepasaron los 100Mb. Para datasets más grandes como es el proporcionado por la Wikipedia que pesa 7,04 GB se utilizó de un clúster de 10 nodos para poder ejecutar nuestros procesos Map/Reduce; para estas pruebas utilizamos los servicios EC2 y S3 de Amazon.

53 EJECUTAR TRABAJOS MAP/REDUCE DESDE LA MÁQUINA VIRTUAL Para correr un trabajo Map/Reduce hay tres pasos fundamentales: (1) generar el archivo.jar que contiene la implementación de nuestro proceso Map/Reduce, (2) subir el dataset utilizado por nuestro proceso al sistema de archivos distribuido utilizado por Hadoop (HDFS), y finalmente, (3) correr la clase principal llamada también Driver que se encuentra dentro del archivo.jar. Ya sea en una ventana de terminal desde la máquina virtual de Ubuntu o conectado al nodo maestro de nuestro clúster vía SSH, las instrucciones son las descritas a continuación SUBIR UN ARCHIVO AL HDFS hadoop dfs -copyfromlocal /eswiki stub-meta-history.xml /entrada/ eswiki stub-meta-history.xml De esta manera subimos el archivo XML que se encuentra en el sistema de archivos local, al HDFS en la ubicación user/root/entrada/ eswiki stub-meta-history.xml EJECUTAR LA CLASE PRINCIPAL hadoop jar archivo.jar paquete.claseprincipal /entrada /salida Hay ocasiones en los que ya sea la entrada, la salida o ambas no será en el HDFS sino en el S3 que es el servicio de Amazon para repositorio de datos. En este caso la ejecución del proceso será de la siguiente manera:

54 41 hadoop jar archivo.jar paquete.claseprincipal /entrada Notar que la entrada esta en el HDFS y la salida será en el S3 específicamente en la dirección Bucket/salida. Bucket es el nombre que se le da a las carpetas en la raíz de la cuenta S3. Nosotros creamos un Bucket llamado WikiRecommender, el ACCESS_KEY y PRIVATE_KEY son las claves públicas y privadas respectivamente proporcionadas por Amazon al momento de contratar el servicio EJECUTAR TRABAJOS MAP/REDUCE UTILIZANDO LOS SERVICIO DE AMAZON EC2, S3 Antes de realizar las pruebas utilizando los servicios de Amazon realizamos los siguientes pasos 1. Subir al S3 el dataset que utilizaremos como dato de entrada, en nuestro caso eswiki stub-meta-history.xml.gz y si es necesario el archivo.jar que contiene la implementación de nuestro programa Map/Reduce. 2. Levantar un clúster de N nodos sobre los que correrá nuestro proceso Map /Reduce. 3. Conectarse al nodo maestro vía SSH. 4. Descargar al nodo maestro los archivos que corresponden al dataset de entrada y el.jar que contiene nuestra aplicación. 5. Descomprimir el dataset de entrada y subirlo al Sistema de archivos distribuido que

55 42 utiliza Hadoop (HDFS). 6. Correr la clase principal llamada también Driver que se encuentra dentro del archivo.jar SUBIR ARCHIVOS AL S3 Para subir archivos al S3 nosotros lo realizamos por medio del plugin de Firefox S3Fox [22], el cual se integra de manera muy intuitiva al Firefox y una vez instalado permite subir y descargar archivos (ver Figura 15), solo hay que configurar las credenciales de acceso (ACCESS_KEY y PRIVATE_KEY proporcionadas por Amazon) y listo. El S3 permite subir un número ilimitado de archivos pero cada archivo no puede pesar más de 5 GB, es por esta razón que subimos el dataset comprimido en formato Gzip y no el XML directamente ya que el XML pesa (7,04 GB).

56 43 Figura 15. Ventana que muestra el plugin S3fox en Firefox LEVANTAR UN CLÚSTER DE N NODOS EN EC2 DESDE LA MÁQUINA VIRTUAL Y CONECTARSE AL NODO MAESTRO Para crear un clúster de N nodos desde la máquina virtual, primero abrimos una ventana de terminal y luego escribimos el siguiente comando: cloudera-for-hadoop-on-ec /bin/hadoop-ec2 launch-cluster nombreclúster N; nombre del clúster es el nombre que le daremos a nuestro grupo y N es el número de nodos que queremos que tenga nuestro clúster. Una vez que está levantado el nodo maestro aparece un mensaje como el siguiente:

57 44 Master is ec compute-1.amazonaws.com; Donde es la dirección IP del nodo maestro. Podemos ver el estado de nuestro proceso MapReduce vía el puerto y podemos descargar los resultados generados por el programa vía el puerto 50070, ingresando desde un navegador la URL ó según sea el caso. Luego para conectarse al nodo maestro vía SSH se lo realiza con el siguiente comando: ssh -i /home/training/.ec2/wikirecommender.pem root@ec compute-1.amazonaws.com Listo ya estamos conectados al nodo maestro, podemos verificar esto si el prompt del terminal cambio y tiene la forma [root@ip ~] #; Donde es la dirección IP interna que utiliza Amazon para identificar al nodo maestro DESCARGAR ARCHIVOS DEL S3 AL HDFS Descargar archivos del S3 al HDFS es muy sencillo simplemente lo hacemos con la instrucción wget de la siguiente manera: wget Aquí nos descargamos el archivo eswiki stub-meta-history.xml.gz que corresponde al dataset de entrada, notar que corresponde a la dirección del Bucket WikiRecommender.

58 45 Luego para descomprimir el archivo y tener el XML utilizamos la siguiente instrucción: gzip -d eswiki stub-meta-history.xml.gz Algo importante a tomar en cuenta es que el nodo maestro tiene 2 particiones, utilizando el comando df h las podemos ver. root@ip ~] # df h File System Size Used Avail Use% Mounted on /dev/sda1 3.0G 1.6G 1.3G 56% / /dev/sda2 335G 7.3G 311G 3% /mnt none 874M 0 874M 0% /dev/shm Tabla 4. Particiones del nodo maestro Nótese que la principal (/) tiene solo 3.0 G de espacio y la unidad montada sobre (/mnt) tiene 335 G de espacio por lo que el proceso de descarga y descompresión se lo realizó sobre esta unidad. Para subir el archivo al HDFS y correr el programa Map/Reduce utilizamos las mismas instrucciones que se usaron en la máquina virtual.

59 46 7. PRUEBAS EXPERIMENTALES Y RESULTADOS El objetivo de utilizar el paradigma MapReduce es probar el eficiente resultado y ahorro de tiempo que se obtiene sobre datos muy grandes, por lo que probar la escalabilidad del programa es muy importante. Estas pruebas consistieron en probar los procesos MapReduce desarrollados para nuestra investigación (Proceso de filtrado, Obtención del Coeficiente de Jaccard y proceso de selección de páginas) sobre rebanadas de datos de diferente tamaño, que van desde las páginas hasta el millón de páginas siendo este un número cercano al número total de entradas que tiene la edición de la Wikipedia en español. Cada ensayo se realizó dos veces y los tiempos que se obtuvieron fueron promediados para realizar un gráfico tamaño de datos de entrada vs. Tiempo. Las pruebas se realizaron bajo las siguientes condiciones: Clúster de 10 nodos médium Las características de cada nodo son las siguientes: CPU Intel xeon - 2,33 Ghz Memoria Ram 1,8 GB Disco Duro 335 GB

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

Tutorial: Primeros Pasos con Subversion

Tutorial: Primeros Pasos con Subversion Tutorial: Primeros Pasos con Subversion Introducción Subversion es un sistema de control de versiones open source. Corre en distintos sistemas operativos y su principal interfaz con el usuario es a través

Más detalles

Guía de uso del Cloud Datacenter de acens

Guía de uso del Cloud Datacenter de acens guíasdeuso Guía de uso del Cloud Datacenter de Calle San Rafael, 14 28108 Alcobendas (Madrid) 902 90 10 20 www..com Introducción Un Data Center o centro de datos físico es un espacio utilizado para alojar

Más detalles

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib Manual de uso de la plataforma para monitores CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib [Manual de uso de la plataforma para monitores] 1. Licencia Autor del documento: Centro de Apoyo Tecnológico

Más detalles

Figura No. IV-111. Página No. 125

Figura No. IV-111. Página No. 125 7. opción del menú principal: ventana 7.3. Nombre de la opción: Cascada. Objetivo del módulo: Ordenar las ventanas abiertas por el usuario en forma de cascada. Descripción Funcional: a) Acceso Para utilizar

Más detalles

WINDOWS 2008 5: TERMINAL SERVER

WINDOWS 2008 5: TERMINAL SERVER WINDOWS 2008 5: TERMINAL SERVER 1.- INTRODUCCION: Terminal Server proporciona una interfaz de usuario gráfica de Windows a equipos remotos a través de conexiones en una red local o a través de Internet.

Más detalles

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)

Más detalles

MANUAL COPIAS DE SEGURIDAD

MANUAL COPIAS DE SEGURIDAD MANUAL COPIAS DE SEGURIDAD Índice de contenido Ventajas del nuevo sistema de copia de seguridad...2 Actualización de la configuración...2 Pantalla de configuración...3 Configuración de las rutas...4 Carpeta

Más detalles

Guía Rápida de Inicio

Guía Rápida de Inicio Guía Rápida de Inicio 1. Acerca de esta Guía Esta guía le ayudará a instalar y dar los primeros pasos con BitDefender Security for SharePoint. Para disponer de instrucciones detalladas, por favor, diríjase

Más detalles

COMO CONFIGURAR UNA MAQUINA VIRTUAL EN VIRTUALBOX PARA ELASTIX

COMO CONFIGURAR UNA MAQUINA VIRTUAL EN VIRTUALBOX PARA ELASTIX COMO CONFIGURAR UNA MAQUINA VIRTUAL EN VIRTUALBOX PARA ELASTIX En este manual se presenta el proceso de configuración de una Maquina Virtual en VirtualBox, que será utilizada para instalar un Servidor

Más detalles

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES MODULO DE CONTENIDOS DE MATERIALES En prácticamente cualquier tipo de asignatura existirá

Más detalles

MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD

MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD Fecha última revisión: Diciembre 2010 Tareas Programadas TAREAS PROGRAMADAS... 3 LAS TAREAS PROGRAMADAS EN GOTELGEST.NET... 4 A) DAR DE ALTA UN USUARIO...

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

Infraestructura Tecnológica. Sesión 8: Configurar y administrar almacenamiento virtual

Infraestructura Tecnológica. Sesión 8: Configurar y administrar almacenamiento virtual Infraestructura Tecnológica Sesión 8: Configurar y administrar almacenamiento virtual Contextualización Como sabemos, actualmente los servicios y medios de almacenamiento de información son muy variados,

Más detalles

Seminario de Informática

Seminario de Informática Unidad II: Operaciones Básicas de Sistemas Operativos sobre base Windows 11. Herramientas del Sistema INTRODUCCION Este apunte está basado en Windows XP por ser el que estamos utilizando en el gabinete

Más detalles

Guía de instalación de la carpeta Datos de IslaWin

Guía de instalación de la carpeta Datos de IslaWin Guía de instalación de la carpeta Datos de IslaWin Para IslaWin Gestión CS, Classic o Pyme a partir de la revisión 7.00 (Revisión: 10/11/2011) Contenido Introducción... 3 Acerca de este documento... 3

Más detalles

Person IP CRM Manual MOBILE

Person IP CRM Manual MOBILE Manual MOBILE División Informática BuscPerson Telecomunicaciones : Manual MOBILE 0.- Introducción 3 0.1 Configuración de los terminales 3 0.2 Acceso de Usuarios 3 1.- Funcionalidades CRM 5 1.1 Agenda del

Más detalles

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA Autor: Carlos Javier Martín González. Licenciado en Física Teórica por la Universidad Autónoma de Madrid. Analista programador y funcional. Desarrollador

Más detalles

Studium, Campus Virtual de la Universidad de Salamanca.

Studium, Campus Virtual de la Universidad de Salamanca. Studium, Campus Virtual de la Universidad de Salamanca. Contenidos 1 Qué es Studium 2 Instalación de Studium en USAL 3 Atención a los usuarios 4 Instalación Moodle. MoodleWindowsInstaller 5 Moodle portable

Más detalles

Arsys Backup Online Manual de Usuario

Arsys Backup Online Manual de Usuario Arsys Backup Online Manual de Usuario 1 Contenido 1. Instalación del Programa Cliente... 3 Pasos previos... 3 Instalación... 3 Configuración del acceso... 6 Ubicación del servidor de seguridad... 6 Datos

Más detalles

Correo Electrónico: Webmail: Horde 3.1.1

Correo Electrónico: Webmail: Horde 3.1.1 CONTENIDOS: PAGINA Qué es Webmail?. 2 Acceder a Webmail. 2 Instilación del Certificado UCO. 4 Instilación Certificado I.explorer. 4 Instilación Certificado Firefox. 7 Opciones Webmail. 8 Opciones Información

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Internet Information Server

Internet Information Server Internet Information Server Internet Information Server (IIS) es el servidor de páginas web avanzado de la plataforma Windows. Se distribuye gratuitamente junto con las versiones de Windows basadas en

Más detalles

Apéndice 5 Manual de usuario de ColeXión. ColeXión 1.0. Manual de usuario

Apéndice 5 Manual de usuario de ColeXión. ColeXión 1.0. Manual de usuario Apéndice 5 Manual de usuario de ColeXión ColeXión 1.0 Manual de usuario Índice 1. Qué es ColeXión?... 2 2. Requerimientos del sistema... 3 3. Instalación de ColeXión... 3 4. Creación de un nuevo esquema...

Más detalles

Introducción a Moodle

Introducción a Moodle Instituto la Américas de Nayarit Ing. Elías Portugal Luna Qué es Moodle? Moodle es una aplicación web de tipo Ambiente Educativo Virtual, un sistema de gestión de cursos, de distribución libre, que ayuda

Más detalles

GedicoPDA: software de preventa

GedicoPDA: software de preventa GedicoPDA: software de preventa GedicoPDA es un sistema integrado para la toma de pedidos de preventa y gestión de cobros diseñado para trabajar con ruteros de clientes. La aplicación PDA está perfectamente

Más detalles

UNIVERSIDAD DE SALAMANCA

UNIVERSIDAD DE SALAMANCA UNIVERSIDAD DE SALAMANCA FACULTAD DE CIENCIAS INGENIERÍA TÉCNICA EN INFORMÁTICA DE SISTEMAS Resumen del trabajo práctico realizado para la superación de la asignatura Proyecto Fin de Carrera. TÍTULO SISTEMA

Más detalles

Instalación de Tomcat7 en Ubuntu

Instalación de Tomcat7 en Ubuntu 2. Instala el servidor web java TomCat en Windows y Linux. Documenta los módulos/servicios necesarios. Instala el CMS Java Liferay. Documenta el proceso. Instalación de Tomcat7 en Ubuntu Comenzamos instalando

Más detalles

1 ÍNDICE... 3 Instalación... 4 Proceso de instalación en red... 6 Solicitud de Código de Activación... 11 Activación de Licencia... 14 2 3 REQUERIMIENTOS TÉCNICOS E INSTALACIÓN Requerimientos Técnicos

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

1 Itinerario. 2 Descripción y funcionalidades principales. Google Docs. 1.1 Qué vamos a hacer? 1.2 Qué pasos vamos a seguir?

1 Itinerario. 2 Descripción y funcionalidades principales. Google Docs. 1.1 Qué vamos a hacer? 1.2 Qué pasos vamos a seguir? Google Docs 1 Itinerario 1.1 Qué vamos a hacer? En este tutorial aprendemos a manejar la herramienta Google Docs, de esta forma nos introduciremos en el llamado cloud computing, que podemos traducir como,

Más detalles

Acronis License Server. Guía del usuario

Acronis License Server. Guía del usuario Acronis License Server Guía del usuario TABLA DE CONTENIDO 1. INTRODUCCIÓN... 3 1.1 Generalidades... 3 1.2 Política de licencias... 3 2. SISTEMAS OPERATIVOS COMPATIBLES... 4 3. INSTALACIÓN DE ACRONIS LICENSE

Más detalles

Cómo acceder a Google Drive? Tiene más funcionalidades una cuenta de Google?

Cómo acceder a Google Drive? Tiene más funcionalidades una cuenta de Google? Manual de Qué es Google Drive? Qué es Google Drive? Google Drive es un servicio web que le permite almacenar, modificar, compartir y acceder a sus archivos y documentos independientemente de dónde se encuentre

Más detalles

Soporte y mantenimiento de base de datos y aplicativos

Soporte y mantenimiento de base de datos y aplicativos Soporte y mantenimiento de base de datos y aplicativos Las bases de datos constituyen la fuente de información primaria a todos los servicios que el centro de información virtual ofrece a sus usuarios,

Más detalles

Capítulo IV. Implementación del Sistema

Capítulo IV. Implementación del Sistema La implementación del sistema consiste en la integración de la aplicación en una LAN, la instalación en varias computadoras personales de clientes del almacén, de administradores de almacén y de los almacenes

Más detalles

MANUAL DE USO DE LA APLICACIÓN

MANUAL DE USO DE LA APLICACIÓN MANUAL DE USO DE LA APLICACIÓN ÍNDICE 1. Acceso a la aplicación 2. Definición de funciones 3. Plantillas 4. Cómo crear una nueva encuesta 5. Cómo enviar una encuesta 6. Cómo copiar una encuesta 7. Cómo

Más detalles

DOCENTES FORMADORES UGEL 03 PRIMARIA

DOCENTES FORMADORES UGEL 03 PRIMARIA DOCENTES FORMADORES UGEL 03 PRIMARIA 1. Recursos y Aplicaciones del Servidor La página de inicio del servidor (http://escuela) contiene los enlaces a las aplicaciones instaladas en el servidor, un enlace

Más detalles

Sitios remotos. Configurar un Sitio Remoto

Sitios remotos. Configurar un Sitio Remoto Sitios remotos Definir un sitio remoto significa establecer una configuración de modo que Dreamweaver sea capaz de comunicarse directamente con un servidor en Internet (por eso se llama remoto) y así poder

Más detalles

Puesta en Marcha versión Monousuario

Puesta en Marcha versión Monousuario Puesta en Marcha versión Monousuario Criterium www.criterium.es Antonio Muñoz Sánchez criteriumcyp@criterium.es 950 442 281 Puesta en Marcha versión Monousuario 1 Limitaciones de versión monopuesto...3

Más detalles

MANUAL DE AYUDA. MODULO SAT (Anexo Integración AGIL SAT)

MANUAL DE AYUDA. MODULO SAT (Anexo Integración AGIL SAT) MANUAL DE AYUDA MODULO SAT (Anexo Integración AGIL SAT) Fecha última revisión: Junio 2011 INDICE DE CONTENIDOS 1 INTRODUCCION... 3 1.1 Objetivo... 3 1.2 Descripción de la aplicación Agil-SAT PDA... 3 1.3

Más detalles

VideoSoftPHONE Active Contact

VideoSoftPHONE Active Contact VideoSoftPHONE Active Contact 1 ÍNDICE 1. CÓMO INSTALAR MI VIDEOSOFTPHONE SOFTWARE?... 1 1.1. REQUISITOS PREVIOS... 1 1.1.1. Requisitos del sistema... 1 1.1.2. Requisitos Software... 1 1.2. INSTALACIÓN...

Más detalles

Tema: INSTALACIÓN Y PARTICIONAMIENTO DE DISCOS DUROS.

Tema: INSTALACIÓN Y PARTICIONAMIENTO DE DISCOS DUROS. 1 Facultad: Ingeniería Escuela: Electrónica Asignatura: Arquitectura de computadoras Lugar de ejecución: Lab. de arquitectura de computadoras, edif. de electrónica. Tema: INSTALACIÓN Y PARTICIONAMIENTO

Más detalles

REQUERIMIENTOS HARDWARE Y SOFTWARE QWEBDOCUMENTS VERSION 4

REQUERIMIENTOS HARDWARE Y SOFTWARE QWEBDOCUMENTS VERSION 4 Pág. 1 de 6 Ambiente centralizado SERVIDOR UNICO Servidor Hardware Procesador CORE Duo 4 GHz Memoria Ram 4 GB. 2 GB solo para la aplicación y los otros 2 GB para Base de datos, S.O y otro software necesario

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

INTRODUCCIÓN A LA PROGRAMACIÓN WEB UNIDAD. Estructura de contenidos: http://www.ucv.edu.pe/cis/ cisvirtual@ucv.edu.pe. 1.

INTRODUCCIÓN A LA PROGRAMACIÓN WEB UNIDAD. Estructura de contenidos: http://www.ucv.edu.pe/cis/ cisvirtual@ucv.edu.pe. 1. INTRODUCCIÓN A LA PROGRAMACIÓN WEB UNIDAD 1 Estructura de contenidos: 1. Programación Web 2. Sistema De Información 3. Sistema Web 4. Requisitos Para Sistemas Web Con Asp 5. Internet Information Server

Más detalles

PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED. Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S.

PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED. Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S. PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED Obra bajo licencia Creative Commons Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S. Gonzalo Nazareno INDICE DE CONTENIDO

Más detalles

Manual de NetBeans y XAMPP

Manual de NetBeans y XAMPP Three Headed Monkey Manual de NetBeans y XAMPP Versión 1.0 Guillermo Montoro Delgado Raúl Nadal Burgos Juan María Ruiz Tinas Lunes, 22 de marzo de 2010 Contenido NetBeans... 2 Qué es NetBeans?... 2 Instalación

Más detalles

AGREGAR COMPONENTES ADICIONALES DE WINDOWS

AGREGAR COMPONENTES ADICIONALES DE WINDOWS INSTALACIÓN DE IIS EN WINDOWS XP El sistema está desarrollado para ejecutarse bajo la plataforma IIS de Windows XP. Por esta razón, incluimos la instalación de IIS (Servidor de Web) para la correcta ejecución

Más detalles

Notas para la instalación de un lector de tarjetas inteligentes.

Notas para la instalación de un lector de tarjetas inteligentes. Notas para la instalación de un lector de tarjetas inteligentes. Índice 0. Obtención de todo lo necesario para la instalación. 3 1. Comprobación del estado del servicio Tarjeta inteligente. 4 2. Instalación

Más detalles

Comisión Nacional de Bancos y Seguros

Comisión Nacional de Bancos y Seguros Comisión Nacional de Bancos y Seguros Manual de Usuario Capturador de Pólizas División de Servicios a Instituciones Financieras Mayo de 2011 2 Contenido 1. Presentación... 3 1.1 Objetivo... 3 2. Descarga

Más detalles

V i s i t a V i r t u a l e n e l H o s p i t a l

V i s i t a V i r t u a l e n e l H o s p i t a l V i s i t a V i r t u a l e n e l H o s p i t a l Manual de Restauración del PC Septiembre 2011 TABLA DE CONTENIDOS SOBRE EL SOFTWARE... 3 CONSIDERACIONES ANTES DE RESTAURAR... 4 PROCEDIMIENTO DE RECUPERACION...

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS MANUAL DE USUARIO APLICACIÓN SYSACTIVOS Autor Edwar Orlando Amaya Diaz Analista de Desarrollo y Soporte Produce Sistemas y Soluciones Integradas S.A.S Versión 1.0 Fecha de Publicación 19 Diciembre 2014

Más detalles

Guía de Inicio Respaldo Cloud

Guía de Inicio Respaldo Cloud Guía de Inicio Respaldo Cloud Calle San Rafael, 14 28108 Alcobendas (Madrid) 900 103 293 www.acens.com Contenido 1 Introducción... 3 2 Características Respaldo Cloud... 4 3 Acceso y activación... 5 - Gestión

Más detalles

Introducción a la Firma Electrónica en MIDAS

Introducción a la Firma Electrónica en MIDAS Introducción a la Firma Electrónica en MIDAS Firma Digital Introducción. El Módulo para la Integración de Documentos y Acceso a los Sistemas(MIDAS) emplea la firma digital como método de aseguramiento

Más detalles

QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL?

QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL? QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL? En este tutorial presentamos los distintos tipos de actividades disponibles en el Campus Virtual UNER. Para agregar una actividad dentro de un tema:

Más detalles

Antivirus PC (motor BitDefender) Manual de Usuario

Antivirus PC (motor BitDefender) Manual de Usuario Antivirus PC (motor BitDefender) Manual de Usuario Índice 1. Introducción... 3 2. Qué es Antivirus PC?... 3 a. Eficacia... 3 b. Actualizaciones... 4 3. Requisitos técnicos... 4 a. Conocimientos técnicos...

Más detalles

Tutorial DC++ Usarlo es muy sencillo y configurarlo también, aunque tiene algunos trucos importentes.

Tutorial DC++ Usarlo es muy sencillo y configurarlo también, aunque tiene algunos trucos importentes. Tutorial DC++ Para compartir, lo mejor es usar el DC++, que es un programa de intercambio P2P (como el emule) pero optimizado para usarlo en redes locales. Usarlo es muy sencillo y configurarlo también,

Más detalles

10. El entorno de publicación web (Publiweb)

10. El entorno de publicación web (Publiweb) 10. El entorno de publicación web (Publiweb) 10.1. Introducción El entorno de publicación Web es una herramienta que permite la gestión de nuestras páginas Web de una forma visual. Algunos ejemplos de

Más detalles

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21. 1/21 Instalación Interfaz gráfico Requerimientos Proceso de instalación Pantalla de login Pantalla principal Descripción de los frames y botones Programación de Backups Botones generales Botones de programación

Más detalles

Podemos descargar la distribucion de gnu/linux de los repositorios de Ubuntu http://releases.ubuntu.com/.

Podemos descargar la distribucion de gnu/linux de los repositorios de Ubuntu http://releases.ubuntu.com/. Instalación GNU/Linux Ubuntu -10.04.3-server-i386 Con la ayuda de este sencillo manual podemos ver como instalar Un servidor GNU/Linux, en este caso utilizaremos la distribución Ubuntu -10.04.3-server-i386

Más detalles

Manual de Usuario Comprador Presupuesto

Manual de Usuario Comprador Presupuesto Manual de Usuario Comprador Presupuesto Servicio de Atención Telefónica: 5300569/ 5300570 Descripción General El módulo Presupuesto tiene la finalidad de ayudar a las empresas a tener un control de gestión

Más detalles

Presentación y Planificación del Proyecto: Administración de Calzado

Presentación y Planificación del Proyecto: Administración de Calzado 1 Presentación y Planificación del Proyecto: Administración de Calzado Integrantes Manuel Cubillos manuel.cubillosv@usach.cl Juan Díaz juan.diazc@usach.cl Felipe Llancaleo felipe.llancaleo@usach.cl Alberto

Más detalles

QUERCUS PRESUPUESTOS MANUAL DEL USO

QUERCUS PRESUPUESTOS MANUAL DEL USO QUERCUS PRESUPUESTOS MANUAL DEL USO 2 Tabla de Contenido 1 Introducción 1 1.1 General 1 1.1.1 Que es Quercus Presupuestos? 1 1.1.2 Interfaz 1 1.1.3 Árbol de Navegación 2 1.1.4 Estructura de Datos de un

Más detalles

Hi-Spins. Hi-Spins - Novedades v.10.2.0 10.2.2

Hi-Spins. Hi-Spins - Novedades v.10.2.0 10.2.2 Hi-Spins Hi-Spins - Novedades 10.2.2 Tabla de contenido Hi-Spins Consulta Renovación de la presentación gráfica................................... 3 Visualización compacta de dimensiones en ventana de

Más detalles

P r e g u n t a s m á s F r e c u e n t e s :

P r e g u n t a s m á s F r e c u e n t e s : ÍNDICE DE CONTENIDOS 1. Q U É E S D R O P B O X? 2. C Ó M O I N S T A L A R E L P R O G R A M A D R O P B O X? 3. C Ó M O C R E A R U N A C A R P E T A P A R A C O M P A R - T I R A R C H I V O S U T I

Más detalles

Manual Básico de Helm 4.2 para Usuarios:

Manual Básico de Helm 4.2 para Usuarios: Manual Básico de Helm 4.2 para Usuarios: Ante todo queremos agradecerle por elegir a para trabajar junto a usted. Esperamos que este manual lo ayude a trabajar con comodidad y facilidad. Este manual es

Más detalles

Manual hosting acens

Manual hosting acens Manual hosting acens Contenido Acceso al panel de control de cliente... 3 Asociar un dominio a mi Hosting... 5 Acceso al panel de administración del hosting... 7 INICIO - Visión general del estado de nuestro

Más detalles

Guía de instalación de la carpeta Datos de ContaWin

Guía de instalación de la carpeta Datos de ContaWin Guía de instalación de la carpeta Datos de ContaWin Para ContaWin CS, Classic o Pyme a partir de la revisión 12.10 (Revisión: 29/06/2011) Contenido Introducción... 3 Acerca de este documento... 3 Dónde

Más detalles

Acá vamos a ocuparnos de cómo realizar la instalación de una red intra-aula sobre Linux, concretamente en la distribución de GNU/Linux Ubuntu 9.04.

Acá vamos a ocuparnos de cómo realizar la instalación de una red intra-aula sobre Linux, concretamente en la distribución de GNU/Linux Ubuntu 9.04. Instalación de una red intra-aula sobre Linux (Ubuntu 9.04) Introducción La idea y la fundamentación de la creación de redes intra-aula, se puede encontrar en el siguiente enlace: http://www.fedaro.info/2009/06/29/redes-intra-aula/

Más detalles

UAM MANUAL DE EMPRESA. Universidad Autónoma de Madrid

UAM MANUAL DE EMPRESA. Universidad Autónoma de Madrid MANUAL DE EMPRESA Modo de entrar en ÍCARO Para comenzar a subir una oferta de empleo, el acceso es a través del siguiente enlace: http://icaro.uam.es A continuación, aparecerá la página de inicio de la

Más detalles

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com Tools http://soluciones.ibermatica.com La aplicación Tools Ibermática incluye 15 aplicaciones que llevan a cabo varios trabajos centrados en el diseño. Estas aplicaciones han sido desarrolladas pensando

Más detalles

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico)

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico) MANUAL DE AYUDA SAT Móvil (Movilidad del Servicio Técnico) Fecha última revisión: Abril 2015 INDICE DE CONTENIDOS INTRODUCCION SAT Móvil... 3 CONFIGURACIONES PREVIAS EN GOTELGEST.NET... 4 1. INSTALACIÓN

Más detalles

Introducción a las redes de computadores

Introducción a las redes de computadores Introducción a las redes de computadores Contenido Descripción general 1 Beneficios de las redes 2 Papel de los equipos en una red 3 Tipos de redes 5 Sistemas operativos de red 7 Introducción a las redes

Más detalles

DIAGNOSTICO SERVIDOR Y PLATAFORMA MOODLE

DIAGNOSTICO SERVIDOR Y PLATAFORMA MOODLE ESCUELA DE PEDAGOGÍA E INVESTIGACIÓN EDUCATIVA PROYECTO MARCANDO HUELLAS CON LA UGCA DIAGNOSTICO SERVIDOR Y PLATAFORMA MOODLE Julián Andrés Franco Alzate UNIVERSIDAD LA GRAN COLOMBIA SECCIONAL ARMENIA

Más detalles

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS ARCHIVOS ANEXOS Son los documentos, hojas de cálculo o cualquier archivo que se anexa a las carpetas, subcarpetas, hallazgos u otros formularios de papeles de trabajo. Estos archivos constituyen la evidencia

Más detalles

Información del Producto: XenData X2500 LTO-6 Digital Video Archive System

Información del Producto: XenData X2500 LTO-6 Digital Video Archive System Información del Producto: XenData X2500 LTO-6 Digital Video Archive System Actualizado: 26 de marzo de 2013 Presentación El sistema XenData X2500 incluye el software XenData6 Workstation que ofrece funcionalidades

Más detalles

GENERACIÓN DE TRANSFERENCIAS

GENERACIÓN DE TRANSFERENCIAS GENERACIÓN DE TRANSFERENCIAS 1 INFORMACIÓN BÁSICA La aplicación de generación de ficheros de transferencias permite generar fácilmente órdenes para que la Caja efectúe transferencias, creando una base

Más detalles

Instalar protocolo, cliente o servicio nuevo. Seleccionar ubicación de red. Práctica - Compartir y conectar una carpeta

Instalar protocolo, cliente o servicio nuevo. Seleccionar ubicación de red. Práctica - Compartir y conectar una carpeta Configuración de una red con Windows Aunque existen múltiples sistemas operativos, el más utilizado en todo el mundo sigue siendo Windows de Microsoft. Por este motivo, vamos a aprender los pasos para

Más detalles

WINDOWS 2008 7: COPIAS DE SEGURIDAD

WINDOWS 2008 7: COPIAS DE SEGURIDAD 1.- INTRODUCCION: WINDOWS 2008 7: COPIAS DE SEGURIDAD Las copias de seguridad son un elemento fundamental para que el trabajo que realizamos se pueda proteger de aquellos problemas o desastres que pueden

Más detalles

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar CAPITULO 4 Requerimientos, Análisis y Diseño El presente capítulo explica los pasos que se realizaron antes de implementar el sistema. Para esto, primero se explicarán los requerimientos que fueron solicitados

Más detalles

Utilización del sistema operativo GNU/ Linux en las netbooks

Utilización del sistema operativo GNU/ Linux en las netbooks Utilización del sistema operativo GNU/ Linux en las netbooks El sistema operativo es la pieza de software básica de un sistema, que permite manejar los recursos de la computadora, abrir programas, manejar

Más detalles

Oficina Online. Manual del administrador

Oficina Online. Manual del administrador Oficina Online Manual del administrador 2/31 ÍNDICE El administrador 3 Consola de Administración 3 Administración 6 Usuarios 6 Ordenar listado de usuarios 6 Cambio de clave del Administrador Principal

Más detalles

Manual para la utilización de PrestaShop

Manual para la utilización de PrestaShop Manual para la utilización de PrestaShop En este manual mostraremos de forma sencilla y práctica la utilización del Gestor de su Tienda Online mediante Prestashop 1.6, explicaremos todo lo necesario para

Más detalles

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín TEMA 4: EMPEZANDO A ESCUELA UNIVERSITARIA DE INFORMÁTICA NAVEGAR Raúl Martín Martín SERVICIOS DE INTERNET SERVICIOS DE INTERNET Las posibilidades que ofrece Internet se denominan servicios. Hoy en día,

Más detalles

CREACIÓN O MIGRACIÓN DEL CORREO POP A IMAP PARA MOZILLA THUNDERBIRD

CREACIÓN O MIGRACIÓN DEL CORREO POP A IMAP PARA MOZILLA THUNDERBIRD CREACIÓN O MIGRACIÓN DEL CORREO POP A IMAP PARA MOZILLA THUNDERBIRD Realización de copia de seguridad del correo actual... 2 Creación y configuración de la cuenta IMAP... 6 Migración de carpetas de POP

Más detalles

SBConta.NET Manual de instalación. SBSS Consulting, S.A. 08010 Barcelona Telf. 93.268-0356, fax 93-268-0070 E-Mail: sbss@sbss.es, web www.sbss.

SBConta.NET Manual de instalación. SBSS Consulting, S.A. 08010 Barcelona Telf. 93.268-0356, fax 93-268-0070 E-Mail: sbss@sbss.es, web www.sbss. SBConta.NET Manual de instalación SBSS Consulting, S.A. 08010 Barcelona Telf. 93.268-0356, fax 93-268-0070 E-Mail: sbss@sbss.es, web www.sbss.es SBConta.NET C o n t e n i d o i Contenido 1. Introducción.

Más detalles

1. CONSIDERACIONES GENERALES

1. CONSIDERACIONES GENERALES Pág. 1. CONSIDERACIONES GENERALES... 1 2. EJECUTANDO ADMINISTRACION... 2 3. PANTALLA PRINCIPAL... 4 4. OPCION BASE DE DATOS... 4 4.1 ACTUALIZAR BASE DE DATOS...5 4.2 COPIA DE SEGURIDAD...6 4.2.1 Realizar

Más detalles

El control de la tesorería consiste en gestionar desde la aplicación los cobros y pagos generados a partir de las facturas de venta y de compra.

El control de la tesorería consiste en gestionar desde la aplicación los cobros y pagos generados a partir de las facturas de venta y de compra. Gestión de la tesorería y del riesgo El control de la tesorería consiste en gestionar desde la aplicación los cobros y pagos generados a partir de las facturas de venta y de compra. En este manual nos

Más detalles

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y Capítulo VI Conclusiones En este capítulo abordaremos la comparación de las características principales y de las ventajas cada tecnología Web nos ofrece para el desarrollo de ciertas aplicaciones. También

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

Claroline, MediaWiki, Moodle y Joomla en Xampp Lite

Claroline, MediaWiki, Moodle y Joomla en Xampp Lite Claroline, MediaWiki, Moodle y Joomla en Xampp Lite 1/ Xampp Lite: más fácil imposible 1.1/ Obtención de XAMPP Lite Podemos pasar por Portable App, para lo cual accedemos a: http://portableapps.com/apps

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

MANUAL DE AYUDA MÓDULO GOTELGEST.NET PREVENTA/AUTOVENTA

MANUAL DE AYUDA MÓDULO GOTELGEST.NET PREVENTA/AUTOVENTA MANUAL DE AYUDA MÓDULO GOTELGEST.NET PREVENTA/AUTOVENTA Fecha última revisión: Septiembre 2014 MANUAL DE AYUDA MÓDULO GOTELGEST.NET PREVENTA/AUTOVENTA MÓDULO GOTELGEST.NET MÓVIL... 3 1. INTRODUCCIÓN A

Más detalles

Manual de Integración CubeCart

Manual de Integración CubeCart Manual de Integración CubeCart Guía de integración de CubeCart con PagosOnline.net VERSIÓN 3.0 Capítulo 1. INTRODUCCIÓN CubeCart es una de las soluciones más populares para el desarrollo de Comercio Electrónico

Más detalles

Acronis Backup & Recovery 11 Guía de inicio rápido

Acronis Backup & Recovery 11 Guía de inicio rápido Acronis Backup & Recovery 11 Guía de inicio rápido Se aplica a las siguientes ediciones: Advanced Server Virtual Edition Advanced Server SBS Edition Advanced Workstation Server for Linux Server for Windows

Más detalles

Manual Ingreso Notas y Acta Electrónica

Manual Ingreso Notas y Acta Electrónica Manual Ingreso Notas y Acta Electrónica ÍNDICE ÍNDICE 2 I. INTRODUCCIÓN 3 II. CREAR LA ESTRUCTURA DE NOTAS PARCIALES (OPCIÓN NOTAS NORMALES) _ 4 III. CREAR LA ESTRUCTURA DE NOTA FINAL (OPCIÓN NOTAS CALCULADAS)

Más detalles

Instantáneas o Shadow Copy

Instantáneas o Shadow Copy Instantáneas o Shadow Copy Las instantáneas o en ingles shadow copy, es una utilidad del sistema operativo que realiza copias de seguridad de los ficheros y carpetas de una partición determinada cada cierto

Más detalles