Casuística derivada de la posible explotación de un motor de búsqueda de contenidos web en una red Intranet organizacional. La red Intranet de Defensa



Documentos relacionados
Estándares para el Uso de Herramientas de Desarrollo y Plataformas de Aplicaciones Web

Ley Orgánica de Protección de Datos

1. Introducción: Qué es la Gestión Documental-TI o Gestor Documental?

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Workflows? Sí, cuántos quiere?

PERFIL TÉCNICO CONSULTOR SHAREPOINT PARA LA WEB

Descripción. Este Software cumple los siguientes hitos:

Ministerio de Educación, Cultura y Deporte. Joomla! La web en entornos educativos. Guía del alumnado

Adelacu Ltda. Fono Graballo+ Agosto de Graballo+ - Descripción funcional - 1 -

Cláusula 2ª. REQUERIMIENTOS DEL CONTRATO.

Eficiencia en la Automatización y Gestión de Servicios

App para realizar consultas al Sistema de Información Estadística de Castilla y León

ing Solution La forma más efectiva de llegar a sus clientes.

SIEWEB. La intranet corporativa de SIE

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

Visión General de GXportal. Última actualización: 2009

Caravel Modernization Tool: Tipos de Proyectos. Caravel Modernization Tool: Tipos de Proyectos

Sistema de Gestión de Proyectos Estratégicos.

Windows Server 2012: Identidad y Acceso. Módulo 2: Descripción General de Windows Server 2012 Remote Desktop Services.

MARCO DE COOPERACIÓN CON LAS UNIDADES DE INFORMÁTICA DISTRIBUIDAS

I INTRODUCCIÓN. 1.1 Objetivos

Brindamos asesorías que involucran tecnología y personal calificado, estos hacen de DOCTUM su mejor aliado.

Presentación de Servicios.

Módulo 7: Los activos de Seguridad de la Información

Guía de instalación de la carpeta Datos de IslaWin

PERFIL TÉCNICO ANALISTA-PROGRAMADOR

ERP y CRM. Abraham Sánchez L. FCC/BUAP Grupo MOVIS

SIMAD CLOUD. La Gestión Documental ahora en la nube, más eficiente SISTEMA INTEGRADO DE ADMINISTRACIÓN DOCUMENTAL

Capítulo 5. Cliente-Servidor.

Seminario Electrónico de Soluciones Tecnológicas sobre VPNs de Extranets

Sistema de marketing de proximidad

Visión General GXplorer. Última actualización: 2009

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Ventajas del software del SIGOB para las instituciones

1.2 Alcance. 1.3 Definición del problema

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá

Anexos de Bases de Presentación de Propuestas. Consultoría para la implementación de sistemas de gestión de contenidos para comunidades de RedCLARA

PLAN DIRECTOR DE SISTEMAS DE INFORMACIÓN DEL MINISTERIO DE TRABAJO Y ASUNTOS SOCIALES: ALGUNAS CONSIDERACIONES

Windows Server 2012: Infraestructura de Escritorio Virtual

Sistema de SaaS (Software as a Service) para centros educativos

FileMaker Pro 13. Uso de una Conexión a Escritorio remoto con FileMaker Pro 13

FAMILIA PROFESIONAL: Informática y Comunicación CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIMEDIA DAM 350 HORAS

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

Informática 4º ESO Tema 1: Sistemas Informáticos. Sistemas Operativos (Parte 2)

Comunicación interna: Intranets

Elementos requeridos para crearlos (ejemplo: el compilador)

Estado: Aprobación Versión: 2.0 Fecha: 04/11/2009 Página 1 de 9 Documento: A5_Politica_Seguridad_V2

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Sistemas de Gestión de Calidad. Control documental

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

Solicitud de conexión de servidores físicos y virtuales departamentales

La Pirámide de Solución de TriActive TRICENTER

Qué es SPIRO? Características

Analista SharePoint OBJETIVOS REQUISITOS CERTIFICACIONES

Qué es una página web?, qué conoces al respecto?, sabes crear una página

La Digitalización del Ayuntamiento. Gestión Integral

computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente.

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

MODULO: MERCADEO. Acuerdo de Nivel de Servicio (ANS) Service Level Agreement (SLA) MODELO DE MUESTRA SIN VALOR COMERCIAL

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0

Análisis de aplicación: Virtual Machine Manager

Estándares para el Uso de Herramientas de Desarrollo y Plataformas de Aplicaciones Web

INFORME TÉCNICO PREVIO DE EVALUACIÓN DE SOFTWARE N 003 TI CMACT

La Solución informática para su sistema de gestión

INFORME TECNICO PARA LA ADQUISICIÓN DE LICENCIAS SOFTWARE OFIMÁTICO

Windows Server Windows Server 2003

El importe de las ofertas no podrá exceder de un total de IVA incluido. En este importe se incluirá cualquier otro gasto.

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

FileMaker Pro 14. Uso de una Conexión a Escritorio remoto con FileMaker Pro 14

CORPORACIÓN MEXICANA DE INVESTIGACIÓN EN MATERIALES, S.A. DE CV

Bajo Costo de Implementación y Soporte: Ofrecer un bajo costo de implementación y mantenimiento.

Objetivos del proyecto:

Qué necesito saber para tener mi sitio web en Internet?

Especificaciones de la oferta Administración de dispositivos distribuidos Administración de activos

Software diseñado especialmente para Planificación del entrenamiento, control de evaluaciones, Captura y Edición de Video.

revista transparencia transparencia y UNIVERSIDADES

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

FAMILIA PROFESIONAL: Informática y Comunicación CICLO SUPERIOR DESARROLLO DE APLICACIONES WEB DAW 350 HORAS

Guías y Procedimientos para la Creación y Publicación de Páginas Web del Recinto Universitario de Mayagüez

Sistema de gestión de procesos institucionales y documental.

OpenProdoc. ECM Open Source

Actividad 4. Justificación de la oportunidad y análisis de necesidades. Concreción de la propuesta

Solución de una Intranet bajo software Open Source para el Gobierno Municipal del Cantón Bolívar [IOS-GMCB] Gobierno Municipal del Cantón Bolívar

BIBLIOTECA VIRTUAL DE CANARIAS. Gobierno de Canarias. Institución: Viceconsejería de Desarrollo Industrial e Innovación Tecnológica.

El Portal de la Transparencia

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

LLEVE SU NEGOCIO al SIGUIENTE NIVEL. digitalice todos sus documentos y procesos.

GASTOS DE PERSONAL Libro de Operatividad. Solución WEB

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

Autenticación Centralizada

Symantec Backup Exec System Recovery 7.0 Server Edition. Recuperación de sistemas en cuestión de minutos, en lugar de en horas o días

Instructivo Asesoría Básica Comunidad Virtual SharePoint 2010

POSGRADO EXPERTO.NET DESARROLLO DE SOFTWARE

Unidad III. Software para la administración de proyectos.

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

INTELIGENTE Y VERSÁTIL

Transcripción:

Casuística derivada de la posible explotación de un motor de búsqueda de contenidos web en una red Intranet organizacional. La red Intranet de Defensa Institución de procedencia Autor Dirección electrónica Dirección de Investigación, Doctrina, Orgánica y Materiales (DIDOM) del Mando de Adiestramiento y Doctrina (MADOC) del Ejército de Tierra (ET) español. Alejandro Ruiz Carrasco aruicar@et.mde.es Muchas organizaciones custodian buena parte de su capital intelectual en una red Intranet corporativa, sin establecer posibles restricciones en cuánto a su difusión dentro del ámbito de la misma organización. Resumen En la actual era de la información las organizaciones son conscientes del valor que representa su capital intelectual y de cuanto dependen de él en la búsqueda de resultados, suele suceder que tan creciente es el volumen de la información y su dispersión como lo son las necesidades de información de sus propios usuarios. Bajo esta perspectiva predominante, es aconsejable la explotación de una potente herramienta de búsqueda que permita sustituir esfuerzos humanos por computacionales, sustentándose para ello en una de las múltiples alternativas de software existente, sin embargo, pueden existir restricciones de distinta naturaleza que limiten las posibilidades de explotación atendiendo a intereses y máximas organizacionales. El caso de la red Intranet de Defensa. Nota biográfica Palabras clave El Teniente Alejandro Ruiz se diplomó en Estadística por la UGR en el 2003, más adelante y por la misma Universidad obtuvo mención al mejor expediente al finalizar los estudios en Ingeniería técnica en Informática de Gestión en 2010. Tiene otros títulos de la UGR como el CAP, y concluye en 2014 el Máster oficial en desarrollo del software. Motor, Búsqueda, Intranet, Organización, Información. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 1 de 35

1 Introducción.... 3 2 Descripción General... 5 2.1 Ámbito del motor de búsqueda... 5 2.2 Componentes externos... 6 2.3 Funciones del motor de búsqueda... 7 2.4 Características de los usuarios... 8 3 Restricciones...... 9 3.1 Restricciones inmediatas... 9 3.2 Restricciones generales... 9 4 Estudio de la situación actual..... 11 4.1 Estructuración de la información... 11 4.2 Descomposición inicial del sistema en subsistemas... 12 5 Alternativas de solución a estudiar..... 13 5.1 Software libre... 13 5.2 Software propietario... 15 5.3 Desarrollos a medida en la Intranet de Defensa... 18 6 Descripción de las alternativas de solución...... 20 6.1 Requisitos generales cubiertos... 20 6.2 Subsistemas cubiertos... 20 6.3 Sistemas software de interacción... 21 6.4 Posibles SGBD... 22 7 Valoración de las alternativas de solución.......... 23 7.1 Estudio de la inversión... 23 7.2 Estudio de los riesgos... 27 7.3 Planificación de alternativas... 29 8 Evaluación de las alternativas y selección.......... 31 9 Conclusiones.......... 33 GLOSARIO DE TÉRMINOS. 35 Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 2 de 35

1. INTRODUCCIÓN Internet es el auténtico motor del cambio que define la actual era de la información. Sin entrar en detalles de su concepción, la realidad de hoy es que su expansión comprende viviendas, negocios, instituciones, bancos Las organizaciones, que son propietarias de su propia información, en ciertos casos no desean compartir su valioso activo con el resto del mundo a través de Internet, tampoco desean estar expuestos a posibles ciberataques en el espacio de Internet cuya desastrosa conclusión pueda significar la pérdida o el saboteo de sus activos de información. Conscientes del peligro y de la intimidad de cierta información, las organizaciones han tomado como solución tecnológica predominante la instauración de las redes Intranet, estas son en realidad como pequeñas Internets, cada una de ellas a disposición de su propia organización. La infraestructura física de una Intranet debe únicamente abarcar las sedes de la propia organización, esta separación física entre Internet y cada una de las redes Intranets es una de las mejores garantías que permiten a una organización difundir su información dentro del ámbito de su Intranet sin que esta sea accesible o vulnerable desde Internet o desde una Intranet ajena. Por otra parte, la eficiencia en la búsqueda de la información siempre ha sido un factor determinante para sus consumidores, buena parte del éxito de Internet se le debe a la explotación de los motores de búsqueda utilizados, tanto es así que incluso hoy podemos comprobar que el sitio web más visitado del mundo se corresponde con el motor de búsqueda de Google Inc. En el caso de una red Intranet, donde no están al alcance los potentes motores de búsqueda de Internet tales como Google, Altavista o Yahoo; es razonable pensar que cuanta mayor sea la cantidad de información más dificultosa se hará su búsqueda, en este sentido la solución tecnológica para las redes Intranet sería la puesta en explotación de un motor de búsqueda capaz de satisfacer las demandas de información procedentes de la propia Intranet organizacional. Dicho esto, la organización que desee explotar un motor de búsqueda en su Intranet debe satisfacer una serie de máximas organizacionales contempladas en forma Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 3 de 35

de restricciones de distinta naturaleza, y que son determinantes en su posible elección. Además, según intereses también organizacionales puede que para el motor de búsqueda se desee un funcionamiento distinto respecto a los tradicionales motores de Internet. En virtud a lo expuesto, se procederá a realizar un estudio de las restricciones que comúnmente pueden ser exigidas por una organización, así como las opciones de funcionamiento deseables. Frente a esto, se plantearán algunas alternativas de solución para dar respuesta a la necesidad desde tres áreas bien diferenciadas: - Software libre. - Software propietario. - Desarrollos a medida. Entre las opciones muy deseables para el sistema de información conformado por el motor de búsqueda de contenidos web de una Intranet se podrían destacar las siguientes: - Registro automático de las búsquedas ejecutadas por los usuarios de la Intranet, quienes se acreditan contra el dominio de la organización. - Estadísticas de explotación. - Posibilidad por parte de los usuarios de denunciar contenidos web no lícitos o contrarios a la organización. - Posibilidad de trabajar con listas de sinónimos y acrónimos que puedan mejorar la calidad de la búsqueda. Este estudio tratará de tipificar un sistema de información conformado por un motor de búsqueda que podría aproximarse a lo ideal bajo la perspectiva común de los intereses y circunstancias de muchas organizaciones dentro de su propia red Intranet, por lo que a lo largo del presente documento se dará por hecho la suposición de tratar con un sistema de información de estas características. Finalmente se trasladará esta problemática al caso particular de la actual Intranet de Defensa. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 4 de 35

2. DESCRIPCIÓN GENERAL 2.1 Ámbito del motor de búsqueda Este sistema de información es requerido a raíz de la necesidad de disponer de una aplicación informática que permita establecer búsquedas sobre los contenidos web disponibles en la Intranet de la organización, los cuales se asume son de carácter público a través de sus respectivos servidores web. Ello facilitará a los usuarios la frecuente tarea de buscar información, la cual tiene un importante factor creciente y crítico en relación a los contenidos de actualidad. Es preciso disponer de un conjunto de herramientas sencillas orientadas a facilitar el uso por parte de todos los usuarios potenciales que no dispongan de conocimientos previos relacionados. El motor de búsqueda de contenidos web para una Intranet, en adelante MBCW, tiene como objetivo principal la realización de ciertas tareas, en concreto las siguientes: - Recorrer los contenidos web públicos en Intranet y recopilar las referencias en una base de datos. - Los usuarios acreditados contra el dominio de la organización podrán utilizar un servicio de búsqueda de contenidos web que funcione sobre un navegador web. MBCW no realizará, por el contrario, ninguna de las siguientes tareas: - Recorrer y recopilar contenidos web que no sean públicos, consecuencia probable de un servicio web inactivo, o por tratarse de contenidos web cifrados o protegidos por clave. - Recorrer y recopilar contenidos web que se encuentren plenamente desvinculados y/o cuyo servicio web no tenga permitida la navegación web de sus directorios virtuales. - Permitir la realización de búsquedas a usuarios no acreditados contra el dominio. Se considera que la tecnología utilizada por conocidos buscadores del entorno web de Internet (Google Search, Altavista, Yahoo ) se ajusta a muchas de las especificaciones deseadas y pueden servir como punto de referencia. Generalmente, Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 5 de 35

desde el punto de vista computacional, la interacción con este tipo de software emplea tiempos de respuesta breves y adecuados. Existe software con el mismo objetivo general, alguno de los cuales pertenecen al mundo del software libre (licencia GNU), lo que no implica un necesario costo económico, pudiendo además ahorrar un importante esfuerzo humano en el posible desarrollo de un producto software de estas características. Es importante destacar que el sistema debe entrar en armonía con las posibilidades ofrecidas por la infraestructura computacional de la organización y las especificaciones contempladas en sus propias exigencias técnicas. 2.2 Componentes externos MBCW interaccionará con tres componentes específicos que podrían ser comerciales, por tanto adquiridos y no desarrollados. Los componentes son: Un servidor de dominio que identificará a los usuarios en el dominio de la organización, suele suceder que los credenciales de inicio de sesión en una máquina cliente se corresponden con los del propio usuario en el dominio. Por citar un ejemplo común, un usuario al iniciar sesión en Windows introduce sus credenciales contra el dominio de la organización, una vez acreditado, podrá acceder directamente a MBCW haciendo uso de este sistema desde un entorno web y sin necesidad de acreditarse nuevamente en el dominio. Un servidor WEB y de aplicaciones, que permitirá a los usuarios identificados contra el dominio el acceso a los servicios del sistema. No existe a priori ninguna restricción acerca de qué servidor concreto utilizar. Un sistema de gestión de base de datos. La única exigencia será la utilización de una única base de datos. Una Intranet de magnánimas dimensiones podría emplear un big data y bases de datos distribuidas, pero este no es el objeto del presente documento. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 6 de 35

2.3 Funciones del motor de búsqueda En términos generales, el sistema MBCW deberá proporcionar soporte a las tareas: Recopilación y actualización de contenidos web de la Intranet Búsqueda de información Gestión de denuncias de contenidos web Estadísticas de explotación Facilitar consultas procedentes de sistemas externos A continuación, se describen con más detalle estas tareas, y cómo serán soportadas: 2.3.1 Recopilación y actualización de contenidos web Los contenidos web son la materia prima fundamental del sistema MBCW. El sistema deberá ejecutar labores de carga y actualización periódica de los contenidos web referenciados en la base de datos, y registrará detalles de cada contenido web de forma que sea posible clasificarlos según distintos criterios. 2.3.2 Búsqueda de información Es la tarea más característica del sistema MBCW. El sistema proveerá a los usuarios identificados contra el dominio de la organización, de interfaces web y herramientas destinadas a facilitar las referencias a contenidos web según los términos de búsqueda especificados por los propios usuarios. 2.3.3 Gestión de denuncias de contenidos web El sistema establece una línea de contacto entre usuarios identificados contra el dominio y los administradores, está línea está orientada a la supervisión de contenidos web que puedan ser considerados no lícitos según criterio organizacional. 2.3.4 Estadísticas de explotación El sistema facilitará a los administradores información estadística sobre la explotación del sistema y sobre la actividad de los usuarios. 2.3.5 Facilitar consultas procedentes de sistemas externos Siempre que el usuario esté acreditado contra el dominio, este podrá hacer uso de otros sistemas de información que establezcan consultas sobre el sistema MBCW. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 7 de 35

2.4 Características de los usuarios Dada la magnitud del número de usuarios potenciales sin preparación o conocimientos previos sobre la aplicación, se precisan interfaces de usuario amigables, simples, fáciles e intuitivas. Dichas características son altamente deseables para el empleo de las herramientas de usuario como es el caso de la búsqueda de información con criterios y/o priorizada. Las interfaces no deben requerir gran tiempo para su aprendizaje y serán lo suficientemente potentes para que los usuarios puedan explotar el conjunto de sus posibilidades contra el sistema. Partiendo de estas premisas se ha considerado que los usuarios podrían estar de antemano familiarizados con las interfaces de la aplicación y con su empleo en virtud del conocimiento previo que dispongan sobre motores de búsqueda de contenidos web, como es el caso del conocido Google Search utilizado en Internet. Existirán dos tipos de usuario: Usuarios acreditados contra el dominio de la organización Son los principales destinatarios de la actividad del sistema, principalmente establecerán consultas en una interfaz web sobre los contenidos referenciados en la base de datos del sistema, sus posibilidades se resumen en los puntos: o Realizar consultas universales, es decir, utilizar una única celda de texto donde el usuario pueda introducir sus términos generales de búsqueda. o Realizar consultas avanzadas donde el usuario pueda especificar en detalle los criterios y las prioridades asociados a sus términos de búsqueda. o Denunciar los contenidos que se consideren no lícitos, indicándose la URL del objeto de la denuncia, el motivo y los detalles. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 8 de 35

Administradores del sistema Son los administradores de la aplicación, contribuirán principalmente en la ejecución de los procedimientos automatizados que permitan una carga periódica de datos. Las interfaces de administración no deben estar necesariamente en entorno web, como es el caso de las aplicaciones de escritorio. Sus responsabilidades se podrían resumir en los siguientes puntos: o Cargar o actualizar la BBDD de conformidad con el estado actual de los contenidos públicos en los servidores web de la Intranet. o Gestión de estadísticas relacionadas con la explotación del sistema. o Gestión de las denuncias recibidas de los usuarios. o Gestión de las listas de sinónimos. 3. RESTRICCIONES 3.1 Restricciones inmediatas Accederán exclusivamente al entorno web los usuarios identificados contra el dominio de la organización. El dominio es utilizado por la organización para confiar la administración y privilegios de los usuarios. La disponibilidad de MBCW deberá ser absoluta, excepto en caso de interrumpirse la actividad en la red. La actualización de la base de datos que indexa los contenidos web podría implicar dificultad en este proceso. MBCW solo podrá ser utilizado desde la red Intranet de la organización. MBCW utilizará una única base de datos propia. 3.2 Restricciones generales Manteniendo los mismos objetivos, la organización puede no interesarse en el mencionado software libre o en otro caso, software propietario, siendo la única alternativa posible el desarrollo de este software por parte de la propia organización. Aunque se estudiará en detalle más adelante, esta hipotética decisión de desarrollar por la propia organización podría ampararse en las siguientes restricciones: Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 9 de 35

(RG1) Restricciones de seguridad de la información La información es uno de los activos más importantes de cualquier organización, el sistema MBCW será acaparador de gran cantidad de datos públicos en la Intranet de la organización. Considerando el desconocimiento inicial del funcionamiento interno de un software libre o propietario, no es descabellado plantear múltiples formas de saboteo de la información pública en la Intranet de la organización. (RG2) Restricciones operativas Es parte del ciclo de vida de cualquier software experimentar modificaciones, correcciones y mejoras. De tal modo, si el sistema MBCW fuera diseñado por un equipo de desarrollo de la propia organización podría fácilmente experimentar cambios y readaptaciones de conformidad con las necesidades de la organización, el mismo equipo de desarrollo es conocedor del funcionamiento interno del sistema y establecerá los cambios oportunos invirtiendo mínimas cantidades de tiempo. Lo más importante en este punto, es que el software se encuentre bajo mantenimiento permanente y con ritmo de actualizaciones constante de conformidad con la evolución de las nuevas tecnologías y el área de la seguridad informática. (RG3) Restricciones económicas Desde el punto de vista de una hipotética explotación a largo plazo del sistema MBCW, probablemente la reducción de costes sería significativa en comparación con un software propietario, el cual requiere importantes costes de adquisición y de mantenimiento. Nótese que muchas organizaciones ya disponen de importantes infraestructuras de red así como de gran número de máquinas servidor y cliente, asimismo, muchas organizaciones cuentan con equipos de desarrollo en plantilla. (RG4) Restricciones legales derivadas de la propiedad intelectual y licenciamiento La organización sería propietaria del sistema MBCW y no existirían restricciones derivadas de la propiedad intelectual o de los derechos de uso, explotación y/o de posibles licenciamientos por parte del sistema desarrollado. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 10 de 35

(RG5) Restricciones técnicas organizacionales El sistema deberá satisfacer las exigencias técnicas organizacionales, en el caso de la Intranet de Defensa estas se encuentran en la arquitectura técnica unificada del Ministerio de Defensa. Dicho documento recoge explícitamente las condiciones de explotación de sistemas gestores de base de datos, lenguajes de programación y otros entornos o sistemas que puedan intervenir en cualquier software utilizado por la organización. Este punto suele ser especialmente restrictivo con el software libre. (RG6) Restricciones técnicas de infraestructura Dentro de unos márgenes razonables, el sistema debe ser soportado por la infraestructura de red de la organización, así como por otros elementos intervinientes, como es el caso de las máquinas servidor y cliente dentro del marco hardware y software. Nótese que este sistema funcionará exclusivamente sobre la Intranet de la organización, y que esta utiliza un dominio en donde confiar la acreditación de sus usuarios. 4. ESTUDIO DE LA SITUACIÓN ACTUAL 4.1 Estructuración de la información En la Intranet de una organización suelen convivir multitud de aplicaciones web, cada una de estas aplicaciones normalmente dispone de una herramienta de búsqueda interna que genera una consulta contra una base de datos. Pueden coexistir aplicaciones conectadas a más de una base de datos, de forma que las búsquedas puedan ser más completas. Todo ello son formas de búsqueda sobre información estructurada. Este concepto de información estructurada no se corresponde con la búsqueda de ficheros de carácter público vinculados a través de un servidor web. Existen motivos para considerar las fuentes de información estructurada como un sistema a estudiar, aunque el objetivo primero de este sistema puedan ser las funciones de búsqueda que ejecutará MBCW sobre la información no estructurada. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 11 de 35

El sistema MBCW, pretende dar servicio en estos casos proporcionando un motor de búsqueda de información no estructurada, de forma que sea capaz de satisfacer la creciente demanda de este tipo de información por parte de los usuarios, generalmente inconformistas por la situación actual. Adicionalmente podrá incorporar URL s generadas dinámicamente siempre que estas hayan sido vinculadas desde al menos una web rastreada, sin que ello suponga dependencias entre el sistema MBCW con otros sistemas existentes, en proceso de desarrollo, o que ejecute funciones similares a MBCW. 4.2 Descomposición inicial del sistema en subsistemas Tras el estudio del sistema MBCW, se realiza una descomposición minimizando ligaduras entre subsistemas con el objetivo de evitar redundancias o conflictos de datos. Subsistema 1: Información de servidores y portales web. Es la parte correspondiente a los datos requeridos para que el sistema pueda rastrear en busca de información. Básicamente consiste en la lista de servidores web que operan en la Intranet, y una serie de portales web sobre los que iniciar las técnicas de rastreo ( Crawler ). Subsistema 2: Alimentación de información Este subsistema tiene un importante componente automatizado en las tareas de rastreo y almacenamiento, sus operaciones más destacadas son las de carga y actualización de la base de datos, ambas ejecutadas por el administrador. Subsistema 3: Gestión de consultas. Se encarga de las funcionalidades de búsqueda y consulta en la base de datos ante las demandas de información recibidas de los usuarios. Subsistema 4: Log y estadísticas. Gestionado por el administrador, registra la actividad del sistema y de los usuarios, a partir de los cuales el sistema podrá realizar estadísticas y comprobar el log sobre las búsquedas y los hits derivados de la interacción con los usuarios. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 12 de 35

Subsistema 5: Gestión de denuncias Subsistema que abre un canal de comunicación entre usuarios y administradores para gestión de las denuncias de los contenidos web considerados no lícitos. Subsistema 6: Gestión de listas de sinónimos Subsistema en el que los administradores cargan las listas de sinónimos para que el sistema pueda afinar en las búsquedas demandadas por los usuarios. Puede ser aprovechado para incluir acrónimos y otros recursos lingüísticos que no sean precisamente sinónimos pero de los que interesa obtener su misma funcionalidad. 5. ALTERNATIVAS DE SOLUCIÓN A ESTUDIAR 5.1 Alternativas de solución a estudiar: SOFTWARE LIBRE Es reseñable indicar que existen cientos de motores de búsqueda e indexadores de documentos públicos de los servidores web, el software libre preseleccionado debe satisfacer de antemano los siguientes requisitos específicos, siendo estos los causantes de una gran criba en este proceso de preselección. Debe ejecutar ambas tareas: indexación y búsqueda, al menos en el ámbito de la información no estructurada de carácter público mediante servidores web. Es prioritario que existan manuales completos de instalación y explotación. Debe funcionar sobre plataformas Windows (Intranet de Defensa). No debe estar obsoleto, extinto y sin mantenimiento, para lo que se exige que la última versión sea del año 2014. Código abierto. Debe integrar una interfaz web de búsqueda para que los usuarios realicen consultas, este podría ser el único motivo por el que en este punto se excluyen algunos motores búsqueda muy potentes, como Apache Lucene, Solr Apache y ElasticSearch. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 13 de 35

ALTERNATIVA SL1: YACY Es un motor de búsqueda libre cuyo su funcionamiento parte de la creación de una gran comunidad de usuarios que comparten contenidos, cada uno de estos usuarios instala el software libre Yacy y posteriormente puede seleccionar que información y sitios web desea compartir. Algunas de sus características son: - Puede ser explotado tanto en Internet como en cualquier Intranet. - Instalación fácil que incluye todos los servicios (aproximadamente 3 minutos). Versiones para Windows, Linux y MAC OS. - Emplea una infraestructura P2P (peer to peer). - La información indexada es pública y sin ninguna censura. - Es descentralizado, no existen servidores centrales, los nodos son los clientes. - Licencia GPL v2, código libre. - La última versión estable conocida es del 9 de febrero de 2014. Imagen de la interfaz de búsqueda de Yacy libre de derechos - Portal web de Yacy - España, 2014, http://yacy.net/es/ - Demo del motor de búsqueda, 2014, http://search.yacy.net/ Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 14 de 35

5.2 Alternativas de solución a estudiar: SOFTWARE PROPIETARIO Sorprendentemente tampoco existe un gran catálogo de software propietario que pueda satisfacer de antemano los requisitos que pueden ser exigibles para explotación de este tipo de software bajo demanda de la organización. Es razonable estimar que el coste económico derivado de su licenciamiento debería de ser gradualmente favorable con respecto a sus posibilidades de explotación y mantenimiento. Por tanto, además de los requisitos contemplados para el software libre en el apartado 5.1, salvo la excepción de no exigir que sea de código abierto (open source), agregaremos de antemano los siguientes requisitos específicos de la organización para este tipo: Debe rastrear el contenido de documentos de Microsoft Word, PDF e HIPERTEXTO. Interfaces de usuario en español, aceptándose interfaces de administración en inglés. Integración con dominios de Windows (autenticación LDAP) y sistema de log. ALTERNATIVA SP1: GOOGLE SEARCH APPLIANCE Desde la creación de Google Inc. en septiembre de 1998, la compañía empezó con la idea de ofrecer un servicio de búsqueda de contenidos web, entonces liderado por altavista, aunque existían también otros motores de búsqueda extendidos como yahoo. Esta idea cuyo objetivo principal consiste es buscar texto en las páginas web, en lugar de otro tipo de datos, además de otra serie de factores han conseguido que google haya experimentado un crecimiento exponencial desde la puesta en explotación de su famoso motor de búsqueda en la red internet. Tal es la magnitud de la empresa hoy día es la segunda más cotizada en el índice tecnológico norteamericano NASDAQ alcanzado sumas millonarias (unos 66 000 millones de dólares), y su buscador se ha convertido en el sitio web más visitado del mundo (el 1º del ranking mundial). Dicho esto, es manifiesto que el buscador de google recibe cientos de millones de consultas diarias, por no hablar del resto de servicios y aplicaciones que pone a disposición de sus usuarios. Lo que obviamente lo hace digno de mención y referente dentro del mundo de los motores de búsqueda de contenidos web. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 15 de 35

La compañía no se ha olvidado de las necesidades de búsqueda de las redes Intranet, y ofrece un servicio de búsqueda denominado Google Search Appliance para este tipo de redes, se trata de un software propietario instalado en una máquina servidor de su propiedad de un característico color amarillo, la cual debe ser conectada a la Intranet de la organización para que pueda efectuar las tareas de rastreo e indexación, para posteriormente ofrecer a los usuarios un servicio de búsqueda sobre una interfaz web con la tecnología y potencia de google. Por otra parte citar que el contenido de esta máquina es prácticamente indescifrable, y que las actualizaciones del software pueden requerir el reemplazo de dicho servidor por parte de google no sin antes conectar otra máquina similar con dicho software actualizado para no interrumpir el servicio. Google afirma que su motor de búsqueda Google Search Appliance, con objeto de ampliar la búsqueda lo máximo posible, es capaz de realizar las siguientes tareas dentro de dos grandes áreas sobre las que obtener información: 1. BÚSQUEDA NO ESTRUCTURADA (Datos y documentos desestructurados) - Indexar más de 220 formatos diferentes que incluyen por ejemplo.pdf,.html y los utilizados por Microsoft Office entre otros. - Además de acceder al contenido de los servidores web, también es capaz de acceder al contenido de archivos compartidos. - Proporcionar distintas vías para la propia explotación de Google Search Appliance, siendo la más utilizada y conocida mediante una interfaz web HTTP o HTTPS. - Posibilidad de conectar directamente con la interfaz domino de lotus notes y con microsoft sharepoint. - El servicio Google Desktop permite indexar todo el contenido local de las máquinas cliente para su acceso directo desde la interfaz de búsqueda de google. Las posibilidades de explotación de este servicio pueden ser adaptadas y personalizadas según las necesidades de la organización que lo explote. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 16 de 35

2. BÚSQUEDA ESTRUCTURADA (Bases de datos y aplicaciones empresariales) - El servicio Google One Box es un sistema de inteligencia empresarial capaz de conectar con cualquier aplicación explotada por la organización, permite clasificar los términos de búsqueda de un usuario de forma que este sistema sepa con que aplicaciones se debe conectar para realizar las búsquedas y devolverlas refundidas al usuario solicitante. Por citar un ejemplo, si un usuario busca información personal (teléfono, cargo ), el servicio google one box conectará y buscará en las aplicaciones que trabajen con información personal, refundirá toda la información y la pondrá a disposición del usuario solicitante. - Google Search Appliance puede conectar con los siguientes sistemas de bases de datos relacionales: Oracle, MySQL, Microsoft SQL Server, IBM DB2 y Sybase; de forma que sea posible determinar que filas y columnas de cada tabla se desean indexar, también es posible determinar la información que se mostrará al usuario demandante de información. Google Search Appliance es un sistema propietario de Google Inc. que funciona de forma similar al famoso motor de búsqueda de google disponible en Internet, goza de muchas de sus características como por ejemplo la traducción idiomática, la vista previa de documento, autocompletar, filtros de búsqueda El coste de su puesta en explotación depende del periodo de licenciamiento y del número de documentos a indexar, la última versión (GSA 7.2 de mayo de 2014) contempla cuatro posibilidades: Modelo GB-7007 GB-9009 G100 G500 Número máximo de URLs indexadas por licencia 10 millones 30 millones 20 millones 100 llones - Búsqueda universal, Google Inc., http://www.google.es/enterprise/universal_search.html - Conexiones externas, Google Inc., http://www.google.es/enterprise/gsa/content_management.html - GSA 7.2, Google Inc., http://www.google.es/intl/es/enterprise/search/products/gsa.html - Seguridad, Google Inc., http://www.google.es/enterprise/security.html - Google One Box, Google Inc., http://www.google.es/enterprise/gsa/onebox.html - Especificaciones, https://support.google.com/gsa/answer/4411411?hl=en&ref_topic=4564260 Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 17 de 35

5.3 Alternativas de solución a estudiar para el caso de INTRANET de DEFENSA: DESARROLLOS A MEDIDA Defensa dispone del licenciamiento necesario para desarrollar sobre dos tecnologías propietarias, estas son IBM Notes (anteriormente conocido como lotus notes) y Microsoft.NET, ambas son las únicas que tienen garantías de mantenimiento por parte de nuestra institución en el corto y medio plazo, y sobre las que no existen a priori restricciones conocidas, siendo la infraestructura computacional de la organización apta para su desarrollo y explotación. El conjunto de estas soluciones tendrán que satisfacer los mismos requisitos expuestos para las alternativas del software propietario (apdo. 5.2), agregándose los siguientes específicos: Los desarrollos a medida se realizarán preferentemente sobre las tecnologías IBM Notes (en caso de actualizarse a IBM Notes 9) y ASP.NET. Integrarán al menos los siguientes subsistemas indicados en el apartado 4.2: o Subsistema 1: Información de servidores y portales web. o Subsistema 2: Alimentación de información. o Subsistema 3: Gestión de consultas. o Subsistema 4: Log y estadísticas. o Subsistema 5: Gestión de denuncias Interfaz de administración en español. Según la primera máxima organizacional, caso de ser no aptas las tecnologías IBM Notes y ASP.NET para el desarrollo del proyecto, podrá estudiarse cualquier otra alternativa entre las plataformas y tecnologías libres como por ejemplo eclipse o los distintos IDEs existentes, del mismo modo podrán estudiarse otras plataformas y tecnologías propietarias de conformidad con las necesidades planteadas por el problema. Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 18 de 35

ALTERNATIVA DE DESARROLLO 1 (DM1): IBM NOTES Es un entorno de colaboración dotado de herramientas de carácter social y de mensajería electrónica. Algunas de sus características son: - Potencia, versatilidad, facilidad y rapidez en el desarrollo de proyectos. - Por su carácter documental, está muy orientado a la gestión del conocimiento y a los workflow. Magnífica integración con el paquete Office. - Trabaja con su propio sistema gestor de bases de datos NoSQL, aunque es capaz de conectar con otros sistemas gestores de bases de datos SQL y NoSQL. - Trabaja con sus propios lenguajes de programación entre los que destaca lotusscript, también puede emplearse java. Su IDE de desarrollo IBM Domino Designer es fácil y rápida. - IBM Notes and Domino v. 9.0.1 Social Edition es la última versión lanzada en febrero de 2014 para su instalación en servidores sobre gran variedad de sistemas operativos. - Es una plataforma de referencia en la seguridad informática. ALTERNATIVA DE DESARROLLO 2 (DM2): MICROSOFT.NET Es una plataforma de Microsoft que permite conectar con múltiples sistemas gestores de bases de datos SQL y NoSQL, algunas de sus características son: - Visual Studio 2013 es la última versión de su IDE de desarrollo más extendido, pueden emplearse en la programación múltiples lenguajes, Visual Basic.NET, F#, J#, Perl, Java, Python, Ruby el más extendido hoy es C#, el cual puede trabajar totalmente orientado a objetos, soportando cualidades de este modelo como el encapsulamiento, la herencia y el polimorfismo. - Puede explotarse al máximo de sus posibilidades sobre los sistemas Windows utilizados en el Ejército y sobre el conjunto de herramientas de Microsoft. - Portal IBM Notes, IBM, http://www-03.ibm.com/software/products/es/ibmnotes - Productos Notes, IBM, http://www-03.ibm.com/software/products/es/notesanddominofamily Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 19 de 35

- La última versión conocida 4.5.2 Framework.NET contiene los elementos necesarios para compilar y ejecutar las aplicaciones.net (Desarrolladores). 6. DESCRIPCIÓN DE LAS ALTERNATIVAS DE SOLUCIÓN 6.1 Subsistemas cubiertos según alternativa de solución En la siguiente tabla se expresan los subsistemas satisfechos según alternativa, se citan brevemente los subsistemas descritos en el apartado 4.2 de este documento: Subsistema 1: Información de servidores y portales web. Subsistema 2: Alimentación de información. Subsistema 3: Gestión de consultas. Subsistema 4: Log y estadísticas. Subsistema 5: Gestión de denuncias Subsistema 6: Gestión de listas de sinónimos Subsistema 1 Subsistema 2 Subsistema 3 Subsistema 4 Subsistema 5 Subsistema 6 Yacy X X X -- -- -- GSA X X X X -- X IBM NOTES X X X X X Opcional.NET X X X X X Opcional Identificación de los SUBSISTEMAS (4.2) cubiertos según alternativa 6.2 Requisitos generales cubiertos según alternativa de solución En la siguiente tabla se expresan los requisitos generales satisfechos según alternativa, se citan brevemente los requisitos generales descritos en el apartado 3.2 de este documento: -.NET Framework, Microsoft, http://msdn.microsoft.com/es-es/vstudio/aa496123 - Información general, Microsoft, http://msdn.microsoft.com/es-es/library/4w3ex9c2(v=vs.100).aspx Explotación de un motor de búsqueda de contenidos web en una Intranet organizacional Página 20 de 35