La I+D detrás de la inteligencia competitiva: nuevas tecnologías y herramientas

La I+D detrás de la inteligencia competitiva: nuevas tecnologías y herramientas Jon Núñez Barrenechea IK4-IDEKO Elgoibar, Gipuzkoa (España) jnunez@ideko.es Aitor Fernández Gómez IK4-IDEKO Elgoibar, Gipuzkoa (España) afgomez@ideko.es Resumen/Abstract: Este artículo analiza el impacto que las últimas tendencias en Tecnologías de la Información y la Comunicación pueden tener en el ámbito de la inteligencia competitiva. Las tecnologías descritas, a pesar de no ser novedosas en su concepción, aún no han sido plenamente adoptadas y explotadas en las herramientas existentes. Por lo tanto, puede servir de esbozo para vislumbrar la evolución de las herramientas de inteligencia competitiva en el futuro. Palabras Clave/Keywords: Inteligencia competitiva, herramienta, tecnología, tendencias, captura, análisis semántico, web scrapping, inteligencia artificial, TICs. CV autor: Jon Núñez es Ingeniero Industrial por la Escuela Superior de Ingenieros de la Universidad de Navarra (Tecnun). Tiene más de 3 años de experiencia en la línea de Innovación Estratégica de IK4-IDEKO. Ha participado en proyectos de implantación de Sistemas de Inteligencia Competitiva tanto para grandes corporaciones como para PYMEs y en el desarrollo de Modelos de Innovación para el ámbito empresarial. Aitor Fernández es Ingeniero Informático por la Universidad de Mondragón. Desde 2003 trabaja en IK4-IDEKO fuertemente ligado al ámbito de la inteligencia competitiva, para el cual ha liderado diversos proyectos de desarrollo de software aplicado. Sus principales temáticas de trabajo se centran en la arquitectura y desarrollo software orientado a web y en la innovación aplicada a software. En el ámbito de la investigación se centra en la aplicación de técnicas de inteligencia artificial y aprendizaje automático a las áreas de la inteligencia competitiva y soporte a la toma de decisiones. Introducción En sus inicios, la inteligencia competitiva (IC) era una disciplina que no tenía relación con los sistemas informáticos; la asistencia a ferias, los contactos personales, las visitas, las revistas físicas o los catálogos eran las fuentes de información más habituales de un analista. Con la llegada del nuevo siglo y la explosión de Internet todo eso cambió: las fuentes tradicionales se seguían utilizando, pero no aportaban la cantidad ni calidad de información que ofrece la red. Todo ello, unido a un mercado cada vez más global, donde las empresas pasaron de centrarse en lo local a tener una visión más internacional, hizo que las Tecnologías de la Información (TICs) cobraran una importancia vital en el día a día de un analista.

Cuando se empezó con la inteligencia competitiva, los sistemas informáticos eran limitados y existían pocas herramientas software para capturar la información: lectores RSS, programas básicos de filtrado, bases de datos locales en las que guardar la información Con el tiempo, los sistemas han ido evolucionando y han aparecido en escena numerosas herramientas (de pago y gratuitas) que ofrecen al analista nuevas funcionalidades que facilitan su trabajo. En este sentido, se ha optado por dos caminos: por un lado, existen herramientas que integran funcionalidades de otras herramientas gratuitas; por otro lado, hay en el mercado soluciones integrales que no dependen de terceros e intentan cubrir el ciclo de inteligencia íntegramente. No obstante, el mundo de la informática se mueve a enorme velocidad, y la irrupción de grandes tendencias como el Big Data o la inteligencia artificial está provocando que cada día aparezcan nuevas funcionalidades en las herramientas de inteligencia competitiva. Este artículo trata de recoger algunas de estas tendencias, que tendrán impacto a corto/medio plazo, o incluso puede que ya estén siendo implementadas en algunas herramientas. La Fig. 1 representa la función de una herramienta software en el ciclo de inteligencia competitiva e ilustra cómo el analista es la frontera entre la información que se genera en el entorno y la que se consume en la organización. Fig. 1 Relación entre el entorno y la organización en un sistema de IC El cono refleja que la herramienta software tiene que ser capaz de capturar la mayor cantidad de información, pero que esta información llegue filtrada y seleccionada al analista, para evitar la sobrecarga de información. Una vez ha pasado el filtro del analista, la herramienta tiene que apoyar el proceso de valorización de la misma, ayudando a su interpretación, comprensión y difusión, y convirtiéndola en inteligencia. A continuación se han señalado las distintas tecnologías emergentes y la fase en la que tienen mayor impacto: Fig. 2 Impacto de las nuevas tecnologías en las distintas fases de la IC Las tecnologías referidas en este gráfico y que se van a detallar en este artículo son:

API: Application Programming Interface o Interfaz de Programación de Aplicaciones SRR: Search Results Records extraction o extracción de resultados de búsquedas SS: Sourceless Systems o sistemas sin necesidad de fuentes de información NDI: Near Duplicate Identification o detección de duplicados cercanos CBRS: Content-Based Recommendation Systems o sistemas de recomendación SA: Semantic Analysis o análisis semántico Dashboards: Cuadros de mando Todas estas tecnologías, en mayor o menor medida, tendrán un impacto en las herramientas de inteligencia competitiva y pronto (si no es ya) estarán presentes en todas las soluciones del mercado. Tendencias en captura de información Como principal sustento de cualquier sistema de IC, muchas herramientas se enfocan en la capacidad de poder gestionar la mayor variedad de fuentes de información posibles. Siempre con Internet de fondo, las herramientas quieren gestionar blogs, foros, bases de datos, buscadores y toda la larga lista de tipologías diferentes de fuentes que encontramos en la red. La aparición de la tecnología de sindicación RSS (y más tarde ATOM) y su posterior masificación en la primera década del siglo abrió las puertas para la recuperación automática de contenidos de páginas web. A partir de entonces y con el auge de los datos como epicentro de los sistemas, son muchos los servicios que proporcionan un acceso a sus datos más completo mediante APIs, pudiendo realizar búsqueda avanzadas en sus bases de datos. Además, otros sistemas basados generalmente en diferentes usos de técnicas de scrapping han conseguido herramientas complementarias, que permiten recuperar de forma automática aquella información que sus proveedores no ofrecen mediante una interfaz sencilla. APIs Tras la sindicación por RSS o ATOM, el uso de APIs (interfaz de acceso a datos) es probablemente la manera más directa de recuperar información. Sin embargo, el proveedor de información debe proporcionar de tal mecanismo. Hoy en día donde los datos tienen un valor capital, cada vez son más los servicios que proporcionan APIs para que terceros desarrolladores creen aplicaciones en torno a los mismos, enriqueciendo el ecosistema original. Las APIs se pueden encontrar por norma general en aquellas webs que hacen de interfaz de servicios especializados en datos/información, ejemplos de ello son: Bases de datos de patentes (Espacenet [10]) Redes sociales (Twitter [11], Facebook [12], LinkedIn [13]) Datos gubernamentales (España [14], USA [15], Euskadi [16], Comisión Europea [17], UK [18]) Otras bases de datos especializadas Las herramientas de IC, integrando estas APIs, pueden ofrecer estos servicios y poner en manos del usuario la posibilidad para monitorizar: Patentes por sector, por tecnología, por competidor. Competidores, gurús, debates temáticos, búsqueda de partners, usando las redes sociales. Mercados, exportaciones, importaciones o licitaciones públicas, usando datos de portales públicos. La cantidad de opciones es infinita y depende mucho del tipo de inteligencia que se esté llevando a cabo, pero es evidente que la cantidad de datos expuesta es de una utilidad incalculable.

SRR Search Results Records Bajo el acrónimo SRR se agrupan aquellos algoritmos y estudios enfocados a vitaminar las técnicas clásicas de scrapping y posibilitar la monitorización de los resultados de un motor de búsqueda online, pudiendo sacar un mayor partido a la web profunda. Aplicando estas técnicas una herramienta podría ser capaz de leer la lista de resultados y extraer cada uno de ellos para ser tratado de forma independiente. De esta forma se podría acceder de forma periódica y automática a los resultados de búsqueda de una web para su tratamiento en una herramienta de IC. Otro beneficio de estas técnicas es que son ciertamente eficaces en la monitorización de cualquier listado de elementos, resultados de una búsqueda, listado de noticias de una web, elementos de un menú, lista de enlaces o cualquier otro listado que siga un cierto patrón. Los beneficios son evidentes a simple vista: búsquedas remotas, monitorización de resultados o generación dinámica de RSS -s de web que no lo proveen, entre otras muchas opciones. Las técnicas se pueden agrupar en dos enfoques diferentes, 1) aquellas que hacen uso extensivo del DOM para la generación de un wrapper [3][4][5][6][7] contra 2) aquellas que se basan en el aspecto visual de los elementos [1][2][8][9]. Las primeras se basan en la detección de un patrón de repetición en DOM para la generación de un wrapper (plantilla) bajo la cual recorrer el documento completo y recuperar todos los elementos que concuerdan. Generalmente usan el lenguaje de consulta xpath para facilitar su trabajo. Las segundas hacen uso de aspectos visuales como el tamaño de fuente, la posición relativa, si se trata o no de un vínculo y otros parámetros que puedan inducir a su detección. Fig. 3 SRR en una búsqueda en IEEE Xplore y extracción de la sección de noticias en conferencia-visio.com Con la aplicación de estas técnicas se aborda uno de los problemas más incómodos para el usuario en el proceso de monitorización de una web. Hasta ahora, si la web no proporcionaba sindicación RSS o ATOM, solo cabía la opción de monitorizar cambios a nivel general en la web e identificar manualmente los mismos. Sin embargo ahora el sistema sería completamente automático y las piezas de información extraída entrarían en el flujo habitual de la herramienta. Estas técnicas y sus variantes son el motor de servicios en línea para la generación automáticas de RSS como Feedity [20] o Page2rss [19]. Sourceless systems Como hemos visto el acceso a la información y datos es cada día más trivial. Los servicios web generan cada vez más datos, la prensa, las redes sociales y los gobiernos comienzan a abrir su información para la creación de servicios en torno a ella. La información está tan a mano que poco a poco van apareciendo tendencias que comienzan a hacer transparente para el usuario la recuperación de información.

Hasta ahora el epicentro de un sistema de IC era el usuario; el usuario sabía qué tipo de información quería recibir, él era quién indicaba a la herramienta de IC qué fuentes debía monitorizar para ello, qué personas, qué palabras claves lanzar en qué buscadores y también debía ser el usuario quién hiciera uso de servicios externos para monitorizar aquellas fuentes que la herramienta no era capaz de monitorizar. Sin embargo, con la tecnología actual -y especialmente con la técnicas para análisis semántico de las que se habla más a delante en este artículo- mediante la cual se pueden monitorizar cientos de miles de fuentes de información a un coste realmente asumible, se está dando lugar a un giro por el cual el usuario se abstrae de las fuentes de información y simplemente se centra en proporcionar al sistema las características de sus necesidades de información [21], esto es, el idioma, el mercado, sus competidores, palabras clave, datos financieros, productos y es el sistema quién buceando en la inmensa cantidad de fuentes e información de la que dispone, sirve al usuario de la información que está buscando. Desde luego este no es un giro definitivo y se están comenzando a ver en las herramientas de IC algunos sistemas híbridos que filtran información de fuentes en base a parámetros como los mencionados anteriormente, que sin duda es un buen paso intermedio para avanzar en el camino hacia el sourceless system. Tendencias para evitar la sobrecarga de información Las herramientas de inteligencia competitiva tienen una inevitable tendencia hacia la sobrecarga de información. Es necesario querer abarcar la mayor cantidad de fuentes de información posibles pero esto da lugar a una ingente colección continua de piezas de información (alertas) por revisar y a su vez deriva en una repulsa por parte del analista para seguir incorporando fuentes de información a la herramienta. Las técnicas descritas a continuación se enmarcan dentro del objetivo de reducir la ansiedad que la sobrecarga de información puede generar en los analistas de inteligencia, logrando a su vez salvar la barrera de la nueva fuente. Así, se presentan técnicas que están funcionando en varios servicios online y que poco a poco empiezan a hacer su aparición en las herramientas de inteligencia. Content-based recommendation systems Hay que reconocer que si bien los sistemas clásicos de filtro en base a operadores son una característica indispensable para la reducción del flujo de entrada de información en toda herramienta de inteligencia, estos no son todo lo eficaces que el analista quisiera, dejando en ocasiones pasar más información de la que deben o dejando por el camino alguna que no debían. Los content-based recomendation systems [22] o sistemas de recomendación basados en contenidos son el paraguas bajo el que se agrupan los algoritmos y técnicas capaces de identificar los intereses del usuario y de esta forma recomendarle piezas de información a leer. Existen [23] dos variantes en los sistemas de recomendación, 1) basados en filtros colaborativos y 2) basados en contenido, siendo los sistemas híbridos una tercera variante posible. Este artículo está centrado en los sistemas de recomendación basados en contenido puesto que la variante colaborativa requiere de un grupo importante de usuarios con unas necesidades de información relativamente semejantes, algo que en el mundo de la inteligencia competitiva no siempre es así, tendiendo hacia pocos analistas y muy especializados en mercados o sectores concretos. Este tipo de técnicas y sus variantes son ampliamente usadas en servicios online conocidos como:

Recomendación de noticias en Google Recomendación de usuarios en Twitter Personas que quizás conozcas en Facebook o Google+ Recomendaciones multimedia en Netflix o Spotify Para llevar a cabo su labor hacen uso de varios parámetros de entrada mediante los cuales se entrena un algoritmo que genera un perfil de usuario (modelo), de forma que las nuevas piezas de información que entran al sistema pueden ser cruzadas con ese perfil para predecir cuales pueden ser de mayor interés para el analista (Fig. 4). Este ciclo se puede repetir en el tiempo para ir adaptando el perfil del usuario a sus necesidades de información en cada momento. Fig. 4 Esquema de un sistema de recomendación integrado en una herramienta de inteligencia En el caso de su integración en un sistema de IC, los parámetros de entrada al sistema podrían ser manuales, el usuario informa al sistema que determinada pieza de información le gusta, o le ha resultado de interés, o automáticos como, tiempo de lectura, etiquetas aplicadas a la información, elementos difundidos, publicados y marcados como favorito Si bien es cierto que modelar un sistema eficaz usando parámetros automáticos es cuantiosamente más complejo que hacerlo con elementos marcados manualmente por el usuario. Una vez se tienen identificadas una buena cantidad de piezas de información en forma de textos, se puede optar por un sencillo modelo generado a partir del posicionamiento en un espacio vectorial de cada uno de los textos representados por un vector de n-dimensiones, donde cada dimensión corresponde a una palabra del texto y cuyo valor indica el grado de representación que ese término tiene sobre el documento, y que puede ser calculado usando TF-IDF [27]. Una de las opciones con mayor aceptación es la generación del modelo usando Support Vector Machines, si bien hay muchos otros algoritmos que pueden funcionar [24]. Los beneficios de este sistema varían en función de la implementación, pero podemos destacar: Reducción de la información entrante Ranking de información Filtrado automático por umbral de interés Alternativamente este tipo de sistemas pueden ser utilizados para el desarrollo de sistemas más complejos como recomendadores de fuentes basándose en el contenido de las piezas de información que proveen. Near duplicate identification

Otro de los puntos críticos en la ansiedad que el exceso de información puede generar en el analista son las alertas duplicadas. Para una herramienta de IC es un reto el poder eliminar el contenido duplicado que puede colarse debido a múltiples factores como: Fuentes diferentes que proveen del mismo contenido Servicios que no implementan correctamente el estándar de sindicación Vínculos cambiantes con el tiempo La aplicación de diferentes heurísticas conservadoras para desechar mucha de la información duplicada es una práctica habitual, sin embargo solo suelen ser capaces de detectar aquella información clon de otra y generalmente se basan en el título y vínculo de la alerta para ello, causando muchos falsos negativos y dejando pasar parte de información duplicada. Near Duplicate Identification, es una técnica que permite identificar textos casi duplicados aplicando diferentes métodos. En [25][26] se detalla el algoritmo SimiHash, en el cual se generan firmas parciales de cada texto para luego comparar las firmas de cada uno de ellos, y en función del número de firmas parciales decidir si ambos documentos son casi idénticos. En [29] se aplica una técnica basada en la teoría general de Locality-sensitive hashing [30] e introducen el algoritmo minhashing. En [31] se hace una implementación de estas técnicas bajo el paradigma Map-Reduce [32]. Fig. 5 Reducción de información mediante detección de duplicados cercanos La ventaja de estas técnicas es que se solventan los problemas del vínculo cambiante al no tomar en cuenta a este en la comprobación de la duplicidad. Además de aumentar la robustez de los sistemas basados en la comprobación del título al introducir en el juego al cuerpo completo del texto. Con esto se puede identificar casos como los siguientes: Textos cambiados por fallos ortográficos Textos con un párrafo nuevo Noticias de agencia que entran por dos fuentes de prensa diferentes Noticias que tratan el mismo tema escritas independientemente Un herramienta de IC que aplicase está técnica estaría prácticamente a salvo al cien por cien de la información duplicada, reduciendo así el tiempo que un analista debe invertir en asimilar la información diaria y reduciendo a su vez la ansiedad por el exceso de información. Semantic analysis Semantic Analysis o análisis semántico enmarcado en la IC lo comprenden herramientas o servicios orientados a generar conocimiento (knowledge extraction) a partir de textos o páginas web. Dentro de lo amplio que es este campo esta sección se va a centrar en la extracción de entidades (NER [34], de sus siglas en inglés) dado que es una de las áreas que más valor puede aportar en diversas fases de un sistema de inteligencia competitiva. Una de las características fundamentales de estos servicios es que son capaces de trabajar con textos en diferentes idiomas y que además varios de ellos son gratuitos y disponen de una API de acceso al mismo, lo cual hace de su integración en una herramienta de IC algo trivial. La

contribución de la integración de un servicio así puede tener impacto en varias de las fases de la IC (ver Fig. 6); puede asistir en el filtrado de información, solicitando solo aquella que haga referencia a cierto competidor o aquella que se enfoque en un país y mercado concreto; puede ayudar al analista a encontrar información en momentos puntuales para la elaboración de un informe específico; o puede ser soporte para la aplicación de otras técnicas como los resúmenes automáticos o el etiquetado automático, entre otras utilidades. Fig. 6 Ejemplo de integración en una herramienta de IC de soluciones basadas en el análisis semántico En [33] se lleva a cabo una completa recopilación de los servicios de extracción de conocimiento. Como se dice anteriormente estos servicios parten de un texto escrito de forma natural y mediante técnicas de procesamiento de lenguaje natural y/o aprendizaje automático son capaces de extraer el conocimiento del mismo en forma de entidades tales como, nombres propios, compañías, datos geográficos, citas, lanzamiento de productos, eventos, adquisiciones de empresas y otras muchas. Además, muchos de estos servicios cuentan con la funcionalidad de valorar la importancia de cada una de las entidades extraídas dentro del texto, abriendo un poco más las posibilidades que ofrecen. Con el foco en el aporte de valor en una herramienta de IC se pueden destacar los servicios de Reuters (Calais) [35], Alchemy [36], Yahoo Content Analysis [38] y Zemanta [37]. Los tres primeros son servicios orientados a la extracción de entidades para enriquecimiento de la web semántica. El último está centrado en servir de apoyo en la difusión, proveyendo de imágenes, etiquetas y otras noticias relacionadas para enriquecer así la información que se publica o difunde. Los posibles escenarios que se pueden alcanzar en una herramienta de IC integrado esta tecnología pueden ser: Reducción de la sobrecarga de información mediante filtrado semánticos Búsqueda inteligente de información con apoyo en las entidades extraídas Trazado en el tiempo de la actividad de personas o compañías de interés Enriquecimiento de la información publicada y difundida Detección de mercados emergentes mediante geo-posicionamiento de información Se observa que este tipo de tecnologías se enmarcan justo en el centro del doble cono de la información puesto que son tecnologías que pueden dar soporte en el día a día del analista de inteligencia, así como de aportar valor en las tareas en ambos extremos de los conos, captura y difusión.

Nuevos canales de difusión y valorización de la información Las herramientas de inteligencia competitiva tratan de cubrir, en mayor o menor medida, todas las fases del ciclo de inteligencia. Suelen mostrar un gran potencial en lo que a captura, gestión y almacenaje de información se refiere, pero flaquean algo más en lo que a difusión respecta; muchas plataformas del mercado se limitan a la posibilidad de generar boletines. Para una correcta difusión de la información, no basta con darle visibilidad, sino que también debe facilitarse su compresión. Es aquí donde está surgiendo una tendencia en lo referente a la información visual: la generación de cuadros de mando, o dashboard, que agrupan los datos de diferentes formas, detectan patrones, muestran tendencias y ayudan a contextualizar la información. Tan importante como generar buena inteligencia es facilitar la comprensión de la misma. Este tipo de gráficos, pese a no requerir de una programación compleja, sí deben ser dinámicos y rápidos en carga, para poder monitorizar los cambios instantáneamente. Además, con la llegada del Big Data deben ser capaces de gestionar grandes volúmenes de datos. Conclusiones Entre todo lo abordado en este artículo hay tecnologías que son nuevas para la inteligencia competitiva y otras que no lo son tanto. De hecho, muchas de ellas están en uso en otros ámbitos desde hace tiempo. De lo que no cabe duda es que, viendo la velocidad a la que avanza el mundo y el empuje de las nuevas tecnologías que irrumpen desde las TICs, en pocos años estarán presentes en todas las herramientas y al alcance de cualquier analista. El objetivo es, al fin y al cabo, facilitar la labor del analista, mejorar la calidad de la información que recibe y optimizar el proceso de inteligencia competitiva dentro de la organización. Como se ha comentado, existen distintos puntos críticos de mejora en el proceso: la captura de la información, donde puede incrementarse la cantidad de fuentes de información y los datos que se obtienen de las mismas; la gestión de las alertas generadas, evitando una sobrecarga de información para el analista y reduciendo el tiempo de lectura y análisis de la misma; y la difusión y valorización, aumentando la visibilidad y accesibilidad de la información y facilitando la comprensión. En IK4-IDEKO, al igual que en otros centros tecnológicos, se trabaja desde hace años en buscar nuevos desarrollos que puedan tener aplicación en la inteligencia competitiva e implantarlos en su propio software. La plataforma INTELSUITE es fruto de este trabajo; muchas de las tecnologías comentadas en el artículo ya están en uso y otras están en fases previas a su implementación. Referencias bibliográficas [1] Liu, W., Meng, X., Meng, W. (2006). Vision-based Web Data Records Extraction, Proceedings of the Ninth International Workshop on the Web and Databases, Chicago, IL, USA [2] Longzhuang, L., Yonghuai, L., Obregon, A. (2007). VSDR: Visual Segmentation-Based Data Record Extraction from Web Documents, Proceedings of the International Conference on Information Reuse and Integration, Las Vegas, IL, USA [3] Zhao, H., Meng, W., Yu, C. (2007). Mining templates from search result records of search engines, Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, San Jose, CA, USA [4] Jer Lang, H., Siew, E., Egerton, S. (2009). DTM- Extracting Data Records from Search Engine Results Page using Tree, Proceedings of the International Conference of Soft Computing and Pattern Recognition, Malacca, Malaysia

[5] Miao, G., Tatemura, J., Hsiung, W., Sawires, A., Moser, L. (2009). Extracting Data Records from the Web Using Tag Path Clustering, Proceedings of the 18th international conference on World wide web, Madrid, Spain [6] Jer Lang, H., Siew, E., Egerton, S. (2010). OntoWrap: Extracting Data Records from Search Engine Results, Proceedings of the International Conference on Information Retrieval & Knowledge Management, Shah Alam, Malaysia [7] Trieschnigg, R.B., Tjin-Kam-Jet, K.T.T.E., Hiemstra, D. (2012). Ranking XPaths for extracting search result records. Technical Report TR-CTIT-12-08, Centre for Telematics and Information Technology, University of Twente, Enschede, Holland [8] Zhao, H., Meng, W., Wu, Z., Raghavan, V., Yu, C. (2005). Fully Automatic Wrapper Generation For Search Engines, Proceedings of the International World Wide Web Conference, Chiba, Japan [9] Simon, K., Lausen, G. (2005). ViPER augmenting automatic information extraction with visual perceptions, Proceedings of the 2005 ACM CIKM International Conference on Information and Knowledge Management, Bremen, Germany [10] URL: http://www.epo.org/searching/free/ops.html [11] URL: https://dev.twitter.com/ [12] URL: https://developers.facebook.com/ [13] URL: https://developer.linkedin.com/apis [14] URL: http://datos.gob.es/ [15] URL: https://www.data.gov/ [16] URL: http://opendata.euskadi.net/w79-home/eu/ [17] URL: https://open-data.europa.eu/en/data/ [18] URL: http://data.gov.uk/ [19] URL: http://page2rss.com/ [20] URL: http://feedity.com/ [21] URL: http://en.wikipedia.org/wiki/information_needs [22] URL: http://en.wikipedia.org/wiki/recommender_system [23] Lops, P., de Gemmis, M., Semeraro, G. (2011). Content-based Recommender Systems State of the Art and Trends, Recommender Systems Handbook (pp 73-105), Springer US, Philadelphia, PA, USA [24] Shani, G., Gunawardana, A. (2011). Evaluating recommendation systems, Recommender Systems Handbook (pp 257-297), Springer US, Philadelphia, PA, USA [25] Sood, S., Loguinov, D. (2011). Probabilistic Near-Duplicate Detection Using Simhash, Proceedings of the 20th ACM international conference on Information and knowledge management, Glasgow, UK [26] Sadowski, C., Levin, G. (2011). SimiHash Hash-based Similarity Detection, Technical Report UCSC-SOE-11-07, Jack Baskin School of Engineering, University of California, Santa Cruz, CA, USA [27] URL: http://en.wikipedia.org/wiki/tf-idf [28] URL: http://en.wikipedia.org/wiki/locality_sensitive_hashing [29] Rajaraman, A., Ullman, J.D. (2011). Chapter 3 - Finding Similar Items, Mining of Massive Datasets, Cambridge University Press, Cambridge, UK [30] URL: http://en.wikipedia.org/wiki/locality_sensitive_hashing [31] Wang, C., Wang, J., Lin, X., Wang, W., Wang, H., Tian, W., et al. (2010). MapDupReducer: detecting near duplicates over massive datasets, Proceedings of the 2010 ACM SIGMOD International Conference on Management of data, Indianapolis, IN, USA [32] URL: http://en.wikipedia.org/wiki/mapreduce [33] Gangemi, A. (2013). A Comparison of Knowledge Extraction Tools for the semantic web, The Semantic Web: Semantics and Big Data, Lecture Notes in Computer Science Volume 7882, pp 351-366, Springer, Berlin, Germany [34] URL: http://en.wikipedia.org/wiki/named-entity_recognition [35] URL: http://www.opencalais.com/documentation/calais-web-service-api [36] URL: http://www.alchemyapi.com/ [37] URL: http://www.zemanta.com/ [38] URL: https://developer.yahoo.com/contentanalysis/