because information evolves

Documentos relacionados

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

Definiciones sencillas para

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

revista transparencia transparencia y UNIVERSIDADES

Qué es SPIRO? Características

PRESENTACIÓN DEL PRODUCTO

AFIKnow. Sistema de Gestión del Conocimiento

El universo en la palma de tu mano. El software de gestión para organizaciones políticas e instituciones

App para realizar consultas al Sistema de Información Estadística de Castilla y León

MARCO DE COOPERACIÓN CON LAS UNIDADES DE INFORMÁTICA DISTRIBUIDAS

a3asesor doc cloud nos proporciona inmediatez y calidad a la hora de atender al cliente EXPERIENCIAS Wolters Kluwer

SISTEMA DE GESTION DOCUMENTAL

Pago por Clic. Aumenta ya el tráfico a tu web

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler

edatalia Soluciones de firma y factura electrónica Catálogo de Partners

Presentación de Servicios.

Por qué deberías adaptar tu página web a la navegación móvil?

1. Gestión Documental FIRMA-E... 6

10 Soluciones Tecnológicas imprescindibles para tu empresa

Entre las principales ventajas que aporta la utilización Internet en las gestiones con clientes están las siguientes:

Guía de los cursos. Equipo docente:

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

COSMOS Intelligence System responde a las siguientes necesidades:

Administración de Bases de Datos; Remota e In-Situ.

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá

David Erosa García Programador del C.G.A. de la D.G. de Innovación Educativa y Formación del Profesorado. Consejería de Educación, Junta de Andalucía

SISTEMA DE GESTION EMPRESARIAL

SIMAD CLOUD. La Gestión Documental ahora en la nube, más eficiente SISTEMA INTEGRADO DE ADMINISTRACIÓN DOCUMENTAL

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

5 formas de mejorar su negocio con COMPUTACIÓN EN LA NUBE

EXPERTOS EN DESARROLLO WEB

E Evaluación de pilotos. : Versión: 0.1 Fecha: 07/02/13 Autor: Pablo Martín Pablo.martin@logica.com

01:LA FACTORÍA PROFESIONALIDAD EXPERIENCIA EVOLUCIÓN. Solicita un presupuesto para tu proyecto

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

Norma ISO 9001: Sistema de Gestión de la Calidad

MINING SOLUTIONS LIMITADA

Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)

Integración de Magento & Dynamics NAV

MEDIA KIT TRAFFICFACTORY.BIZ

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

Capítulo 5. Cliente-Servidor.

Norma ISO 14001: 2004

5.2. PROYECTO RODA. (6/07/04).

DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES

Ofrezca la nueva tendencia de innovación empresarial con un entorno de red abierta

Posicionamiento WEB POSICIONAMIENTO WEB GARANTIZADO

CAPITAL RIESGO: EL PLAN DE NEGOCIOS

Técnico Especialista TIC en Administración de CRM: Recursos Empresariales y de Gestión de Relaciones con Clientes

Guía para Desarrollo de Sitios Web - Gobierno de Chile

GedicoPDA: software de preventa

Manual Operativo SICEWeb

También comparten un segmento importante, los motores de búsqueda proveídos por estos, a diferentes sitios Web.

Is not jus power, is reliability and trust. Yei Systems S.A. de C.V.

que le permitirán llegar a millones de clientes Su despacho está conectado realmente con su potencial mercado? Tenemos soluciones Web

Tienda Online Responsive Web Design

Progrma New (

NexTReT. Internet Status Monitor (ISM) Whitepaper

Competencias generales vinculadas a los distintos módulos Módulo de Formación Básica

Premios Islas Canarias 2014 Sociedad de la Información

Norma ISO 14001: 2015

DIRECCION DE PROYECTOS II

CURSO COORDINADOR INNOVADOR

Queremos asegurarnos de que tu sitio aparezca en los resultados de búsqueda.


UNIVERSIDAD DE SALAMANCA

BIBLIOTECA VIRTUAL DE CANARIAS. Gobierno de Canarias. Institución: Viceconsejería de Desarrollo Industrial e Innovación Tecnológica.

3ER FORO LATINOAMERICANO PRISM 17 Y 18 OCTUBRE 2013 CANCÚN, MÉXICO. Lic. Fernando Parada Gerente General Plumada SA Skype: ferparada1

POLÍTICA DE COOKIES. Informamos a los Usuarios de Internet que en el Web utilizamos cookies.

Servicio de Marketing

El Reporting como sistema de Información para mejorar los resultados de su empresa

Red de Revistas Científicas de América Látina y el Caribe, España y Portugal. Universidad Autónoma del Estado de México

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

CONTRATACIÓN DESARROLLO DE APLICACIÓNES PARA DISPOSITIVOS MOVILES

retos LA ACTUALIDAD LA SOLUCIÓN

Windows Server 2012: Identidad y Acceso. Módulo 2: Descripción General de Windows Server 2012 Remote Desktop Services.

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

Mi Negocio en Línea. DESCRIPCIÓN y CONCEPTO DEL PRODUCTO

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

Con a3asesor Portal NEOS gestionamos las notificaciones electrónicas de nuestros clientes de una forma ágil y segura. EXPERIENCIAS Wolters Kluwer

SIAM WEB DOCUMENTACION GENERAL

Somos una empresa de tecnología y diseño gráfico dedicada a

Introducción. Definición de los presupuestos

Pliego de Prescripciones Técnicas para la contratación de un servicio para la ejecución de la estrategia digital y la comunicación 2015 de BILIB

Nosotros nos encargamos de la parte técnica, tú de las ventas. Tiendas online Gorile Qué es Gorile? Visita nuestra web: gorile.com

Premio de la Federación Internacional al Fomento del Servicio Voluntario

1) Qué es Avant Manager? 2) Funcionalidades de Avant Manager. 3) Ventajas de Avant Manager. 4) Por qué Avant Manager? 5) Información de Suscripción

Programa de gestión Normativa y Requisitos Legales

Introducción a Spamina

PLAN DIRECTOR DE SERVICIOS MÓVILES DE VALOR AÑADIDO EN LA ADMINISTRACIÓN PÚBLICA

HOY EN DÍA EN VARIAS EMPRESAS...

Quienes Somos? Valor. Estrategia

I INTRODUCCIÓN. 1.1 Objetivos

Qué necesito saber para tener mi sitio web en Internet?

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Transcripción:

Information Retrieval Lab because information evolves Centro de Investigación en Tecnologías de la Información y las Comunicaciones www.citic.udc.es

El Information Retrieval Lab El «Information Retrieval Lab» es un grupo integrante del Centro para la Investigación en Tecnologías de la Información y las Comunicaciones donde lleva a cabo una intensa labor en la difusión y transferencia de tecnología. El IRLab nació hace más de 10 años en el seno de la Universidad de A Coruña donde comenzó sus trabajos en el ámbito de la recuperación, gestión y explotación de la Información. Durante muchos años el grupo ha trabajado en el desarrollo de nuevas técnicas para la mejora en términos de eficacia y eficiencia de los sistemas de recuperación de información: conseguir mejores resultados para el usuario final optimizando los recursos computacionales necesarios. La investigación del grupo en los últimos años se ha centrado en fundamentos de recuperación de información como pueden ser nuevos modelos, técnicas de crawling e indexación; eficiencia en sistemas de almacenamiento y procesado de la información; técnicas de recuperación de información distribuidas y tareas como web retrieval, multimedia retrieval, clasificación documental, generación de resúmenes, etc. Fruto de esta investigación el grupo ha desarrollado novedosas herramientas, modelos y utilidades que a su vez han sido integradas en los productos software llevados a cabo en el seno del mismo. El grupo ha participado en varios proyectos, redes y plataformas conjuntas con prestigiosos grupo de investigación, empresas e instituciones a nivel autonómico, nacional e internacional. La calidad investigadora del grupo se ve reflejada por las numerosas publicaciones en los congresos de referencia del área ACM-SIGIR, ACM-CIKM, ACM-SAC, ECIR, SPIRE, etc. y en revistas de alto impacto com ACM-TOIS, Information Retrieval, JASIST, Information Systems, etc. En el ámbito de la ingeniería y desarrollo y fruto del interés del grupo en transferencia de tecnología también se han llevado a cabo numerosos desarrollos industriales como la plataforma NowOnWeb de búsqueda de noticias, el buscador legislativo Lexisla, CoruñaCorpusTool, una herramienta para la explotación de corpus lingüísticos, AdSearch, un buscador sobre la publicidad presente en Internet y mocra, una aplicación móvil para el sistema operativo Android que permite obtener texto y trabajar con él a partir de las imágenes obtenidas desde el propio terminal móvil. El IRLab está dirigido por el Dr. Álvaro Barreiro que posee una dilatada experiencia investigadora en Recuperación de Información y que recientemente ha sido reconocido como ACM Senior Member. Entre otros méritos posee 3 sexenios de investigación otorgados por la Comisión Nacional Evaluadora de la Actividad Investigadora, ha participado como revisor del 7º Programa Marco de la Unión Europea, y de muchos otros programas de investigación nacionales e internacionales, así como de los congresos y revistas de referencia del área. En el ámbito de la investigación y desarrollo ha dirigido numerosos proyectos tanto de investigación básica como aplicada, realizados en el IRLab y en colaboración con otras universidades y empresas. Los intereses del IRLab incluyen la investigación en las tareas abiertas en el ámbito de Recuperación de Información, la formación de personal, la consultoría a empresas e instituciones y la transferencia de sus tecnologías y desarrollos al tejido industrial y empresarial.

Calidad en los desarrollos Desde hace años el IRLab aplica sus conocimientos y resultados de investigación para desarrollar aplicaciones útiles e innovadoras en el ámbito de recuperación y explotación de información. Todos estos desarrollos se realizan encuadrados dentro del Centro para la Investigación en Tecnologías de la Información y las Comunicaciones (CITIC) al que pertenece desde su creación. El CITIC es un centro especializado en dar servicios de Investigación y Desarrollo a empresas o instituciones y cuya preocupación principal es la innovación en el ámbito de las TIC. Desde la Quality Assurance Project Office del centro se asegura la calidad de los desarrollos llevados a cabo en el seno del mismo, que cuenta con la certificxación ISO 9001 y la certificación UNE 166002, y donde actualmente se está implantando la certificación CMMI, trabajando en la mejora continua, para garantizar que los procesos, formatos y herramientas son mejoradas de manera continua para cubrir las necesidades de los grupos de investigación, los clientes, las empresas colaboradoras y del propio CITIC. En cuanto a metodologías de desarrollo propiamente dichas, el IRLab está especialmente preocupado por el uso de ciclos de desarrollo software que permitan asegurar la calidad del producto final así como su flexibilidad y reutilizamiento. Para asegurar esto el grupo utiliza variantes ágiles del Rational Unified Process como metodología de desarrollo software permitiéndonos un proceso iterativo e incremental, con productos entregables en cada iteración y verificación continua. Además las arquitecturas software empleadas normalmente en nuestros productos permiten que estos sean escalables, pudiendo así manejar ingentes cantidades de información, distribuyendo el procesamiento en múltiples máquinas. Para ello, se utilizan técnicas de computación distribuida robustas y eficaces, como el algoritmo de distribución Map-Reduce, y numerosas técnicas desarrolladas por el grupo para el almacenamiento y acceso eficiente a la información.

Buscadores verticales El grupo IRLab ha desarrollado varios buscadores verticales, con el objetivo de proveer de soluciones altamente eficientes y eficaces en el ámbito de Recuperación de Información. qué es un buscador vertical? La búsqueda vertical se refiere a los motores de búsqueda que se centran en contenidos concretos, en dominios concretos. Son, al contrario que los buscadores genéricos (Yahoo!, Google, etc), buscadores orientados a un tipo de información específica en páginas Web específicas. De esta forma, se pueden realizar consultas dependientes del dominio, ofreciendo a su vez resultados más profesionales. Las ventajas que el uso de este tipo de buscadores ofrecen incluyen: Tasa de actualización de contenidos más elevada que en los buscadores genéricos. Al centrarse en un dominio en concreto se limita la cantidad de información que es necesario descargar para realizar actualizaciones, por lo que se pueden realizar de manera más frecuente. Análisis de la información. Al conocer el dominio, se pueden analizar los documentos a tratar para extraer la mayor cantidad de información posible (quien publica un contenido, qué secciones tiene ese contenido, etc). Este análisis tiene diversos beneficios directos: Obtención de información estructurada. Búsquedas especializadas, contextualizadas y personalizadas. Explotación inteligente de la información. Extracción de opinión y análisis.

NowOnWeb _seguimiento de la prensa digital retos del desarrollo Existen multitud de periódicos online, y el número continúa creciendo. Esta dispersión de medios supone un problema para los profesionales del sector, que necesitan un acceso centralizado a todas las noticias. Las fuentes de noticias digitales están siendo continuamente actualizadas. Al contrario que con la prensa tradicional, donde la situación habitual es que cada publicación tiene una sola versión diaria, los periódicos online actualizan sus contenidos a lo largo de todo el día. Es importante, por tanto, mantener una vigilancia constante sobre dichos medios. características básicas Cada periódico digital tiene un formato de publicación diferente, no todos ofrecen RSS, utilizan diferentes métodos de programación de páginas Web, etc. Actualización automática de contenidos: la aplicación se programa para realizar actualizaciones de la información automáticamente. Flexibilidad a la hora de tratar las fuentes de información: facilidad para adaptar la aplicación a otros entornos, como pudieran ser blogs, foros... Búsquedas avanzadas: permiten la construcción de consultas de gran complejidad, para que los usuarios profesionales (documentalistas, periodistas) puedan satisfacer necesidades de información complejas. Personalización de las búsquedas: el usuario puede decidir en qué fuentes buscar, puede acceder a una serie de consultas predefinidas, suscribirse a cualquier consulta por RSS o descargar un resumen de prensa sobre una determinada consulta en formato PDF.

NowOnWeb _seguimiento de la prensa digital innovación Detección y filtrado de redundancia NowOnWeb es un sistema guiado por las necesidades del usuario. Por ello, cuando un usuario realiza una consulta, automáticamente se clasifican los resultados en unidades de redundancia. El sistema automáticamente detecta qué noticias tienen el mismo tema central, aunque sean publicadas en diferentes medios y redactadas de manera diferente. De esta forma, no se le ofrece al usuario, como resultado de una búsqueda, repeticiones de la misma noticia por el simple hecho de estar publicada en sitios diferentes, sino que se le ofrece sólo la más relevante y se le permite acceder, si lo desea, a las diversas publicaciones que hay sobre dicha noticia. Generación automática de resúmenes de noticias. Los resultados devueltos al usuario ante una consulta no son el contenido original de noticia tal y como aparece en una fuente en concreto. La aplicación realiza, automáticamente, un resumen de la noticia que sintetiza su contenido, aunque la noticia original también se encuentra disponible. Se permite, además, configurar con qué longitud queremos generar los resúmenes. El resumen se hace en tiempo de consulta, y se realiza guiado por las necesidades de información del usuario. Dependiendo de la necesidad que haya expresado al realizar una consulta, el resumen de una noticia se centrará en un tema u otro. Ilustrándolo con un ejemplo, si se obtiene una noticia como resultado de buscar Empresas de publicidad la aplicación realizará el resumen entorno a las empresas de publicidad; si ese mismo resultado se obtiene a través de la consulta Publicidad automovilística el resumen de la noticia será diferente, más orientado al sector automovilístico.

NowOnWeb _seguimiento de la prensa digital usos y posibilidades del sistema NowOnWeb es un desarrollo integral del IRLab, lo que nos permite adaptar la aplicación para acometer diferentes retos: Vigilancia tecnológica en periódicos digitales, para ayudar en las tareas de documentalistas y periodistas. Seguimiento temporal de la evolución de las noticias: Topic Detection & Tracking. Generación de resúmenes de prensa: creación automática de documentos que contengan resúmenes sobre las últimas noticias relacionadas con una consulta determinada, con enlaces a las noticias originales, y en formatos adecuados para la lectura y la impresión. Búsqueda en medios sociales: con la actual situación de Internet, existen medios que generan más opinión y tienen más relevancia que los periódicos digitales, como pudieran ser blogs de especialistas en una temática concreta, foros especializados e incluso redes sociales. La información producida por dichos medios va cobrando cada vez mayor relevancia. Acceso a otras fuentes de información: las técnicas utilizadas en este desarrollo pueden ser aprovechadas para realizar motores de búsqueda en la documentación interna de empresas, administraciones, etc. Gestión de hemerotecas: la capacidad de almacenamiento y la eficiencia y eficacia en el procesado de información pueden utilizarse para gestionar colecciones de históricos. Comparación de noticias: una misma noticia es tratada de forma diferente en los diversos medios; utilizando las técnicas de detección de redundancia se pueden identificar las diferencias existentes entre dos noticias referentes al mismo tema. Esta diferenciación de puntos de vista se hace patente, por ejemplo, en temas políticos; los periódicos tienen tendencias políticas, y la misma noticia en periódicos de tendencia contraria es enfocada de forma totalmente diferente. Gestión de opinión: es muy interesante discernir cual es la opinión que implícitamente acompaña a una noticia. Para una empresa es muy interesante conocer si en los medios se habla de la empresa de forma positiva o negativa; conocer qué medios digitales son los que publican más información relacionada, y si esta información es positiva o negativa; o incluso detectar medios digitales que siempre publican de manera negativa sobre la empresa. Visite una demo del producto en: http://www.irlab.org/now

adsearch _seguimiento de publicidad en la web retos del desarrollo Internet es un medio muy dinámico y con una enorme cantidad y variedad de contenidos. Detectar e identificar los anuncios publicitarios entre toda la información es una tarea complicada, ya que incluye descartar aquellas secciones que aparentan ser publicidad pero no lo son, y detectar las secciones de publicidad que no lo parecen. La publicidad en Internet se presenta en una gran variedad de formatos. Poder tratar con todos estos medios de publicación y formatos (imágenes estáticas, imágenes dinámicas, etc) y además poder analizarlos para extraer sus contenidos supone un gran reto a nivel tecnológico y de innovación. características básicas Actualización automática de contenidos: la aplicación se programa para realizar actualizaciones de la información automáticamente. Sencillez de adición de nuevas fuentes de publicidad sólo es necesario conocer la página web que queremos incluir en el análisis, y el nivel de profundidad para el crawling. Búsqueda avanzada: permite la construcción de consultas de gran complejidad, para especialistas en el ámbito de la publicidad, que necesitan un sistema de acceso a la misma muy especializado. Las herramientas de crawling actuales no ofrecen las técnicas adecuadas para tratar con muchos de los problemas que presenta la obtención de los banners publicitarios en la red. Por ello, ha sido necesario desarrollar técnicas de crawling propias que traten con estos problemas.

adsearch _seguimiento de publicidad en la web innovación Perspectiva novedosa para el seguimiento de la publicidad en Internet El acceso a los contenidos publicitarios en la Web presenta importantes dificultades técnicas que han tenido que ser solventadas para desarrollar adsearch: descarga de información desde enlaces dinámicos y detección e identificación de anuncios, entre otras. El sistema permite realizar búsquedas desde varias perspectivas que aportan diferentes valores a los resultados: Contenido en las páginas donde hay publicidad ( Anuncios que aparecen junto a contenidos referentes a adsl ). Página web enlazada por un anuncio ( Anuncios que enlacen con páginas que contengan información de fondos bancarios ). Entidad que se está publicitando en un anuncio ( Anuncios de ING direct )). Medios que contienen publicidad ( Anuncios publicados en Marca ). Estas perspectivas no son excluyentes entre sí, sino que se pueden combinar para generar consultas complejas: anuncios de raquetas de tenis aparecidos en la publicación digital de Marca pero que no pertenezcan a la tienda virtual del propio diario

adsearch _seguimiento de publicidad en la web innovación Captura y procesamiento de información muy volátil Debido al dinamismo inherente de la red, la publicidad cambia constantemente. Conocer el contexto exacto de la publicidad que contenía una página en un momento dado ofrece una enorme cantidad de información. Si la publicidad de una empresa aparece junto a una noticia que ofrece una visión negativa de su negocio, los usuarios automáticamente asociarán una mala imagen a la empresa. Esta información no está disponible habitualmente para las empresas, ya que al negociar la gestión de la publicidad con intermediarios se pierde el control sobre dónde está siendo publicada la misma. Nuestro producto permite mantener las versiones caché de las páginas en el momento en que se obtiene la publicidad, para poder visualizarla en el contexto original en que fue publicada. Estadísticas avanzadas La aplicación realiza un procesamiento de la información para extraer todo el potencial informativo de la publicidad. Con esa información, puede ofrecer estadísticas acerca de la publicidad que ofrece una determinada página, o en qué páginas se publicita una determinada entidad, entre otras.

adsearch _seguimiento de publicidad en la web innovación Tratamiento de elementos multimedia La publicidad a menudo contiene información textual. Las imágenes pueden contener texto y determinados formatos de imagen incluyen metainformación. Este texto es extraído automáticamente por el sistema, de tal forma que se puede buscar en el texto que contienen los anuncios, en la publicidad concreta que están ofreciendo. Implementación de técnicas novedosas de crawling Las herramientas actuales de crawling no son capaces de tratar con las particularidades de los sistemas de banners publicitarios (como ejemplo concreto, no son capaces de tratar eficiente y eficazmente las redirecciones y generaciones dinámicas de enlaces que se realizan utilizando Javascript). Durante el desarrollo del sistema se han creado nuevos spiders y herramientas para dar soporte a todas las particularidades técnicas que presenta la publicidad en Internet.

adsearch _seguimiento de publicidad en la web usos y posibilidades del sistema Entre los diferentes ámbitos de actuación en que sería aconsejable la utilización de adsearch, destacamos los siguientes: Seguimiento de campañas publicitarias La información que una empresa puede obtener de su publicdad en la red es muy valiosa: En cuantas páginas de un determinado medio aparece su publicidad. En qué posiciones de dichas páginas web aparece su publicidad, No tiene el mismo valor en la parte superior de la portada de un periódico digital que en un lateral en una página de sociedad. En qué contextos aparece su anuncio: junto a información relevante para el público objetivo de la campaña publicitaria, junto a noticias o informaciones que directamente le puedan favorecer o perjudicar, etc. Vigilancia competitiva Conocer qué está ofreciendo la competencia directa de una empresa. Además, es necesario conocerlo en tiempo real para poder reaccionar a tiempo ante los movimientos de los competidores y así poder replanificar la estrategia propia. Visite la demo del producto en: http://www.irlab.org/adsearch

Lexisla _legislación a un click de distancia retos del desarrollo La información contenida en los boletines legislativos puede llegar a ser crítica; por ello, es realmente importante tener una alta cobertura sobre la misma, no perder ninguna información. La pérdida de información puede suponer que una empresa no esté al día en alguna normativa que le afecte. Los boletines legislativos son publicados diariamente. Suelen ser documentos con una gran cantidad de información, y es necesario descargarla y analizarla en un tiempo aceptable. La información que ofrecen los boletines es muy heterógenea. Segmentar estos documentos en las resoluciones que contienen es un reto que todavía tienen que superar muchos buscadores legislativos características básicas Actualización automática de contenidos: la aplicación se programa para realizar actualizaciones de la información automáticamente. Búsquedas avanzadas: permiten la construcción de consultas de gran complejidad, para permitir a los usuarios profesionales (documentalistas, abogados) acceder a resultados muy refinados. Browsing del contenido de los documentos: acceder a todas las resoluciones que contiene un determinado boletín. Descarga de las resoluciones desde las páginas originales o desde el propio servidor del sistema. Perfiles de usuario: perfiles de consulta predefinidos para que los usuarios puedan acceder directamente a las consultas más habituales. Acceso a los contenidos: por medio del navegador Web, con suscripciones RSS o mediante notificaciones por correo electrónico. Análisis de boletines de todos los niveles: provinciales, autonómicos, estatales e internacionales.

Lexisla _legislación a un click de distancia innovación Segmentación de los documentos Es habitual que los documentos legislativos contengan varias resoluciones. El sistema analiza automáticamente los documentos, y almacena las resoluciones de manera separada: de esa forma, al usuario se le ofrecen como resultado de búsqueda resoluciones concretas y no documentos enteros. Búsqueda avanzada Para cada resolución, se analizan y extraen diversas informaciones: Título de la resolución. Organismo que ha emitido la resolución (Ministerio de Justicia, por ejemplo). Fecha de publicación del boletín que la contiene. Páginas que abarca la resolución sobre el documento oficial. Contenido de la resolución. El sistema permite realizar búsquedas combinando todos estos campos, de tal forma que se podrían obtener, por ejemplo, todas las resoluciones emitidas por el Ministerio de Sanidad en un determinado intervalo de tiempo y que estén relacionadas con la gripe. Descarga de documentos Cuando se accede a una resolución se permite la descarga del documento desde el propio servidor de la aplicación. Debido al análisis que se realiza de los documentos, se ofrece la posibilidad de descargar sólo aquellas páginas que abarca la resolución.

Lexisla _legislación a un click de distancia usos y posibilidades del sistema Lexisla es un desarrollo propio del IRLab. Nuestro objetivo es convertirlo en un sistema inteligente de vigilancia de información legislativa; para ello, se están implementando para el sistema las siguientes funcionalidades: Búsqueda multilingüe: poder realizar la búsqueda en un idioma, y que se ofrezcan resultados en varios idiomas. Generación automática de referencias cruzadas: en los documentos legislativos es muy habitual la existencia de referencias entre resoluciones; por ello, estamos trabajando en la implementación de un módulo que detecte automáticamente dichas referencias. OCR sobre documentos: imágenes que se corresponden con documentos escaneados y que por tanto no es posible de otro modo extraer su contenido. Esto afecta tanto a documentos antiguos como a muchos documentos actuales que contienen contratos o diagramas escaneados. Por ello, para acceder a este texto es necesario aplicar técnicas en reconocimiento de texto sobre imágenes, y de recuperación de información sobre texto degradado. Los posibles usos de la aplicación vienen definidos por el tipo de cliente que la utilice: En gabinetes de abogados: acceder a la legislación vigente de una forma sencilla, rápida y centralizada. En administraciones públicas y empresas: acceder con facilidad a los textos de subvenciones, convocatorias, anuncios, etc. En empresas: acceder y conocer las normativas que afectan al negocio de la empresa el día que son publicadas, para poder actuar en consecuencia y evitar futuros problemas legales. Visite una demo del producto en: http://www.irlab.org/lexisla

PASE _Patents and Applications Search Engine retos del desarrollo La información contenida en las patentes es crítica para las empresas con capacidad de I+D.. En este ámbito, es imprescindible una cobertura de la información realmente alta, ya que ignorar la existencia de una patente concreta puede echar por tierra el registro de un invento. Continuamente se están solicitando nuevas patentes, siendo la cantidad de nueva información disponible diariamente extremadamente alta. Además, el contenido de las patentes suele ser extenso, de tal forma que es muy costoso en cuanto a recursos humanos mantenerse actualizado respecto a la publicación de nuevas patentes o solicitudes de patente sobre un determinado tópico. Existen múltiples bases de datos públicas de patentes, ofreciendo la información en diferentes modos de acceso y diferentes formatos. Ofrecer un acceso unificado y homogéneo a dichas fuentes de patentes es un reto para los buscadores de patentes. características básicas Fuentes: World Intellectual Property Office (WIPO), European Patent Office (EPO), United States Patents and Trademarks Office (USPTO) y Boletín Oficial de la Propiedad Industrial (BOPI). Actualización automática de contenidos: la aplicación se programa para realizar actualizaciones de la información automáticamente. Actualización de contenidos bajo demanda: los usuarios pueden solicitar consultas para que la aplicación descargue y analice la información que necesitan. Búsquedas avanzadas: permiten la construcción de consultas complejas, para permitir a los usuarios acceder a resultados muy refinados. Caché de las patentes: la aplicación guarda automáticamente las patentes descargadas, siendo estos documentos accesibles desde la aplicación. Perfiles de usuario: perfiles de consulta predefinidos para que los usuarios puedan acceder directamente a los resultados de las consultas más habituales. Acceso a los contenidos: por medio del navegador Web, con suscripciones RSS o mediante notificaciones por correo electrónico.

PASE _Patents and Applications Search Engine innovación Segmentación especializada de las patentes Para cada fuente de patentes se segmenta la información que contienen: reivindicaciones, código de solicitud y de patente, fecha de publicación, de publicación de la solicitud, inventores, abstract, solicitantes, etc. Acceso homogéneo a la información y búsquedas avanzadas Los usuarios pueden buscar simultáneamente en varias bases de datos de patentes, ofreciéndose los resultados en un único listado, de forma que resulta transparente a efectos de la búsqueda de qué fuente proviene cada patente. Las búsquedas permitidas a los usuarios incluyen buscar en los diversos campos (inventores, solicitantes, título de patente, reivindicaciones), permitiendo la búsqueda simultántea por varios campos. Además, las búsquedas ofrecen diferentes funcionalidades como el uso de expresiones boolean, expresiones regulares, búsquedas por proximidad, etc. Búsqueda directa sobre las diversas fuentes Los usuarios pueden solicitar que se busque directamente contra las bases de datos de patentes, en lugar de buscar en la información que ya se ha descargado la aplicación. De esta forma, si la aplicación no contiene una información determinada, los usuarios pueden obtenerla igualmente. Para ejemplificarlo, un usuario puede necesitar las patentes sobre una temática particular que han sido publicadas en diciembre de 1991. Generación automática de informes La aplicación, a partir de plantillas prefefinidas, genera automáticamente informes sobre las búsquedas que realiza un usuario, incluyendo gráficos generados automáticamente con la información de una búsqueda. Por ejemplo, un usuario podría necesitar un gráfico sobre la cantidad de patentes sobre metales pesados que se publican cada día de la semana.

PASE _Patents and Applications Search Engine usos y posibilidades del sistema PASE es un desarrollo propio del IRLab. A través de las diversas funcionalidades, como la vigilancia de patentes, la posibilidad de buscar simultáneamente y en tiempo real en las fuentes de patentes, o la generación automática de informes, las notificaciones via RSS o correo electrónico, el sistema ofrece una enorme ventaja competitiva para abordar las tareas y retos del dominio, convirtiéndose en una herramienta que facilite enormemente el trabajo de los analistas en el ámbito del trabajo con patentes. Búsqueda de patentes. La búsqueda de patentes abarca diversos ámbitos, como puede ser búsqueda de novedad, incumplimiento de patentes, patentabilidad, etc. Analisis de patentes: se puede utilizar para detectar tendencias, identificar competidores, posibles clientes, nuevas áreas de oportunidad de negocio... Este análisis se realiza tanto a nivel individual, sobre una única patentes, como a nivel global, analizando por ejemplo un grupo de patentes de una única empresa, de una temática determinada, publicadas en una fecha concreta, etc. Vigilancia: monitorizar las últimas patentes publicadas para avisar a los usuarios del sistema de las nuevas patentes que afectan a sus intereses.

DeDoS _derivative document search usos y posibilidades del sistema DeDoS (Derivative Document Search) es una aplicación de demostración de la tecnología de búsqueda de alta similaridad. Actualmente, el sistema realiza búsquedas sobre noticias crawleadas de Internet mediante NowOnWeb, y devuelve aquellas que contienen los textos derivados de una agencia de prensa determinada. Además, la aplicación permite que los usuarios inserten sus propios textos en la aplicación para buscar contenidos derivados en toda la colección. Actualmente, la aplicación de demostración trabaja con una colección estática de solapados. más de tres mil noticias publicadas a lo largo de tres días del año 2009. La tecnología sobre la que se apoya DeDoS asegura un procesamiento eficiente de grandes volúmenes de datos con altos valores de eficacia, y es aplicable y extendible a un amplio rango de dominios donde la detección de derivados es estratégica. Cabe destacar las siguientes caraterísticas de DeDoS: Detección eficiente y eficaz de trabajos derivados sobre colecciones de texto Estimación del solapamiento de los documentos derivados detectados Remarcado de frases de los fragmentos

m.irlab.org _mobile search mocra Mobile OCR Application (mocra) es uno de los desarrollos para extender nuestra tecnología a los dispositivos móviles. A grandes rasgos el principal objetivo del proyecto es obtener el texto que contenga un documento impreso sacándole una foto con un smartphone. Entre las posibilidades que la digitalización del documento ofrece se encuentra poder editar, almacenar, enviar por medio de un correo electrónico, almacenar en un ordenador remoto, etc. Los principales retos de este desarrollo son el tratamiento de las imágenes para obtener buenos resultados en el análisis de texto, la minimización de consumo de recursos en el dispositivo móvil y la portabilidad del sistema a diferentes plataformas móviles o incluso a otro tipo de equipos (ordenadores personales, etc). usearch Ubiquitous Search (usearch) es otro desarrollo del IRLab cuyo objetivo es poder realizar búsquedas de documentos en equipos remotos desde un terminal móvil, y recuperar los documentos encontrados desde el propio terminal (visualizarlos, reenviarlos, etc.). Entre las características deseables para un sistema de este tipo están el diseño e implementación de un sistema de búsqueda en remoto que permita realizar búsquedas sincronizadas sobre varios equipos (que pertenezcan a la misma red o a redes diferentes), el acceso seguro a través de la red a dicho sistema para mantener la confidencialidad de la información tratada, un sistema de visualización y tratamiento de los documentos en el propio terminal móvil y la portabilidad del sistema a diferentes plataformas móviles.

because information evolves Información de Contacto: Persona de contacto: Álvaro Barreiro Teléfono: 981 167 000 ext. 1270 Correo electrónico: irlab@udc.es Página web: www.irlab.org Centro de Investigación en Tecnoloxías da Información e as Comunicacións Campus de Elviña. s/n 15192 A Coruña. Tlfo. 981 167 000 Ext.: 5521 Copyright 2011 IRLab Facultade de Informática Universidade da Coruña Campus de Elviña. s/n 15071 A Coruña. Tlfo 981 167 000 Ext.: 1276