Grado en Ingeniería Informática

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Grado en Ingeniería Informática"

Transcripción

1 Universidad Autónoma de Madrid Escuela Politécnica Superior Proyecto fin de grado MODELO DE IDENTIFICACIÓN DE META-TOPICS A TRAVÉS DE ANÁLISIS SEMÁNTICO DE CONJUNTOS DE DATOS EXTRAÍDOS DE TWITTER Grado en Ingeniería Informática Carlos Delgado Calle 19 de enero de 2014

2

3 MODELO DE IDENTIFICACIÓN DE META-TOPICS A TRAVÉS DE ANÁLISIS SEMÁNTICO DE CONJUNTOS DE DATOS EXTRAÍDOS DE TWITTER AUTOR: Carlos Delgado Calle TUTOR: Héctor Menéndez Benito Co-Tutor: David Camacho Fernando Applied Intelligence and Data Analysis Dpto. de Ingeniera Informática Escuela Politécnica Superior Universidad Autónoma de Madrid 19 de enero de 2014 i

4

5 Resumen Resumen Las redes sociales se han vuelto cada vez más importantes en los últimos años. Entre ellas destaca Twitter, donde los usuarios comparten opiniones y otros contenidos de forma pública. Dichas redes contiene grandes cantidades de información oculta a simple vista. En este trabajo se pretende trabajar con datos obtenidos de Twitter y analizarlos para obtener información relevante; para ello se va a hacer uso del análisis semántico, en pos de poder asociar los comentarios de los usuarios (o tweets) con temas más generales (o meta-topics). Cabe destacar que, aunque cada vez existe un mayor número de trabajos dedicados a analizar este tipo de redes, el análisis semántico (como el llevado a cabo en este trabajo) de redes es todavía escaso, siendo lo más cercano las técnicas de Topic Detection. Este trabajo trata de crear una aproximación al problema de la clasificación mediante análisis semántico, para ello se ha desarrollado un modelo que se centra en la detección de un único meta-topics y que utiliza técnicas como LSA unidas a consultas semánticas a DBpedia para obtener resultados con los que poder analizar la validez del modelo. Se han llevado a cabo pruebas con usuarios reales, que posteriormente han sido evaluados a mano para comprobar la eficacia de esta aproximación. Palabras Clave Twitter, tweets, meta-topic, Topic Detection, DBpedia, LSA, análisis semántico iii

6 Abstract Social Networks have become increasingly important over the last few years. One of the most relevant Social Network is Twitter. This Nework allows users to share public comment and contents. Social networks contain large amounts of hidden information. This work pretends to extract relevant data from Twitter and analyze them to obtain important information; In order to achieve this goal, we will apply semantic analysis to classify user comments (or tweets) on more general topics (or meta-topics). There are a large number of works devoted to analize social networks, however, semantic analysis is still scarce in this area,only Topic Detection techniques are applied in this context. This paper attempts to create a new approach to the problem of classification using semantic analysis. We have developed a model that focuses on the detection of a single meta-topic and use techniques such as LSA combined with semantic queries in DBpedia in order to obtain some results which can analyze the effectiveness of the model. We have tested the model with real users, whose comments were subsequently evaluated to check the effectiveness of this approach. Key words Twitter, tweets, meta-topic, Topic Detection, DBpedia, LSA, semantic analysis iv

7 Agradecimientos Este trabajo está dedicado a mi familia, por estar siempre allí. A mi madre por apoyarme siempre, por muy oscuro que todo pareciese. A mis amigos por ayudarme a desconectar y recuperar fuerzas cuando la presión amenazaba con derrumbarme. A los compañeros del departamento, que me han acogido como si fuese uno más y en especial a Héctor por guiarme como nadie más habría sido capaz. Y por último agradecer a todo aquel que se digne a leer este proyecto, porque solo por vosotros ha merecido la pena el esfuerzo. v

8 vi

9 Índice general Índice de figuras IX Índice de tablas X 1. Introducción Motivación del proyecto Objetivos del proyecto Estado del Arte Data Mining Extracción de datos Preprocesamiento de datos Modelos de Análisis Modelos Clasicos de Data Mining Redes Complejas Validación del Modelo Aplicaciones en el Análisis de Redes Sociales Facebook Twitter Perspectiva Semántica Herramientas Software Tweet Miner Arquitectura Extracción de los tweets Preprocesado del texto Aplicación de LSA Consultas a DBpedia mediante SPARQL Valoración final de las keywords Aplicación de ranking Funcionamiento vii

10 4. Pruebas Pruebas del sistema completo Extracción de los tweets Preprocesado del texto Aplicación de LSA Consultas a DBpedia mediante SPARQL Valoración final de las keywords Aplicación de ranking Ejemplos de Resultados Resultados Experimentales Conclusiones y Trabajo Futuro Conclusiones Trabajo Futuro Glosario de acrónimos 33 Bibliografía 34 viii ÍNDICE GENERAL

11 Índice de figuras 3.1. Esquema de la Arquitectura Estructura Videojuegos en DBpedia Proceso de creación del Árbol de Dependencias ix

12

13 Índice de tablas 3.1. Resultado primera consulta SPARQL Resultado primera consulta SPARQL Ejemplos de casos sencillos de análisis Ejemplos de casos complejos de análisis En esta tabla se muestran los tweets de cada usuario para cada uno de los 3 posibles valores de evaluación (0, 1 y 2) así como su valor de accuracy (Acc) En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 0 de cada usuario En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 1 de cada usuario En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 2 de cada usuario xi

14

15 1 Introducción Twitter es un servicio de microblogging, o lo que es lo mismo, un servicio que permite a sus usuarios enviar y publicar mensajes breves, compartiendo información de forma libre. Este tipo de servicios permite expresar breves opiniones, comentar otras o compartir un contenido mayor mediante el uso de URLs, lo que lo convierte en un nicho de información sobre infinidad de temas, dado que es utilizado por una gran variedad de usuarios de distinta edad, género y condición social. En la actualidad existen varios de estos servicios (muchos aparecen y desaparecen a diario), pero Twitter se mantiene desde su creación y lanzamiento en el año 2006 (por Jack Dorsey, Evan Williams, Biz Stone y Noah Glass) como uno de los más utilizados por los usuarios, razón por la que se ha optado por adoptarla como foco de información para el desarrollo del trabajo realizado. Dado que cada usuario suele tener gustos variados (como deportes, videojuegos, cine y música, entre otros) y suele seguir a usuarios de distinta condición social (compañeros de clase/trabajo, atletas profesionales y compañías discográficas, entre otros), el proceso de extracción de información específica útil sobre los gustos del usuario se vuelve muy complejo. Este trabajo pretende obtener las publicaciones de los gustos de los usuarios a los que sigue el sujeto y organizarlas de acuerdo a un tema general que comprenda varios temas (o meta-topic) como podría ser deportes, videojuegos, cine, etc. dependiendo del usuario. Para ello, en este primer modelo se llevará a cabo un análisis semántico de las publicaciones (o tweets) extraídas de dichos usuarios, para su posterior análisis, de modo que se pueda encontrar una relación entre los tweets y el meta-topic seleccionado (preseleccionado para este modelo). De este modo se puede generar un ranking de los tweets por cercanía al meta-topic. Con esta información se podrían obtener grupos de usuario que compartan intereses comunes, así como investigar las tendencias que predominan en cada momento, las comunidades que se forman a partir de estas tendencias, etc. Todo esto puede aplicarse para llevar a cabo campañas de marketing más efectivas, una mejor organización a nivel empresarial, productos mejor orientados a sus destinatarios, etc. Para tratar estos temas se suelen usar técnicas de Text Mining (o Data Mining) [6] y de TDT (Topic Detection and Tracking) [6] que permiten obtener información a partir de los textos, como es el caso de Relfinder [39] y Wikipedia Miner [46]. Relfinder es un sistema que muestra de manera visual (mediante grafos) las relaciones obtenidas a través de un dataset (a menudo obtenido de Dbpedia) entre diversos términos. Wikipedia Miner está formado por un 1

16 conjunto de herramientas creadas alrededor de Wikipedia, para extraer información relevante de ésta (búsqueda de términos, comparación semántica entre estos, desambiguación de temas, etc). En este trabajo se aplican técnicas que buscan relaciones semánticas mediante el uso de diccionarios como Wordnet [45] o DBpedia [36] y combinado con LSA. En el modelo establecido se ha creado una arquitectura capaz de extraer los tweets deseados de Twitter y analizarlos semánticamete para, finalmente, devolver un ranking con respecto al meta-topic preseleccionado mediante este tipo de técnicas. Los problemas que se presentan son muchos y diversos: se tienen que tener en cuenta las limitaciones bajo las que se lleva a cabo el proyecto, primero se trata de un proyecto muy amplio, por lo que es necesario marcar objetivos y acotarlo en distintos niveles para poder abarcarlo. Por otro lado, el análisis semántico nunca ha sido sencillo y por tanto los resultados distan mucho de ser completamente acertados (como puede ocurrir en otras ramas de la Inteligencia Artificial). El trato con información semi-estructurada impone un análisis preliminar de cada meta-topic que se quiere tratar, lo cual, sumado a lo dicho anteriormente ha desembocado en la selección de un único meta-topic a la hora de desarrollar esta primera versión del proyecto. Todo lo anterior hace imposible crear una versión completa del proyecto, por lo que se ha optado por realizar un modelo inicial en el que se trata un único meta-topic, de modo que se obtengan unos datos concretos que se puedan analizar para, más adelante, poder desarrollar un modelo más completo. Cabe destacar que la arquitectura del proyecto se ha modulado de tal manera que sólo sea necesario modificar un módulo para adaptarlo a otros meta-topics. El resto del trabajo se estructura de la siguiente forma: La Sección 2 introduce el estado del arte, así como trabajo relacionado con el proyecto. La Sección 3 describe la arquitectura y el funcionamiento del modelo. En la Sección 4 se muestran las pruebas realizadas y los resultados obtenidos. Finalmente, la Sección 5 incluye el análisis de los resultados en forma de conclusiones, así como un apartado dedicado al trabajo futuro Motivación del proyecto Las redes sociales en formato digital han aparecido y se están extendiendo rápidamente, obteniendo mucha importancia a nivel social. La cantidad de información que contienen es inmensa y a día de hoy hay una carrera por ver quien consigue darle un mejor uso a dicha información. La posibilidad de formar parte de dicha carrera es, sin lugar a dudas, la mayor motivación que ha hecho de este proyecto una opción a tomar. Por otro lado se ha optado por el análisis semántico y la selección de un meta-topic, porque se busca organizar la información de una forma cercana para el usuario, analizándola por su contenido y no tanto por su forma, por lo que el análisis semántico se vuelve indispensable Objetivos del proyecto Los objetivos de este proyecto son los siguientes: Extracción de tweets: Extraer los tweets de Twitter mediante el uso de la API que este provee. Extracción de keywords: Analizar los tweets obtenidos para obtener las keywords que los forman. 2 CAPÍTULO 1. INTRODUCCIÓN

17 Aplicación de LSA a las keywords: Aplicar LSA para obtener relaciones semánticas de las keywords entre sí. Análisis mediante consultas a DBbpedia de las keywords: Aplicar consultas a DBpedia para obtener relaciones semánticas entre las keywords y el meta-topic. Valoración final de las keywords: Valoración basada en los datos obtenidos para las keywords en los dos objetivos anteriores. Creación de un ranking de tweets: Creación de un ranking con respecto al metatopic seleccionado, tras aplicar una valoración a los tweets basada en las keywords que los conforman. Análisis del ranking: Análisis manual del ranking obtenido para comprobar su índice de acierto con respecto al criterio humano. CAPÍTULO 1. INTRODUCCIÓN 3

18 4 CAPÍTULO 1. INTRODUCCIÓN

19 2 Estado del Arte En este apartado se comenta de forma general qué es Data Mining así como sus diferentes partes. Se exponen también algunas explicaciones más detalladas de algunos de estas partes, así como los modelos de análisis más comunes. También se explican distintas técnicas de validación, las aplicaciones de estas técnicas y métodos de validación con respecto al análisis de redes sociales y se expone una serie de herramientas útiles a la hora de llevar a cabo este tipo de análisis Data Mining Data Mining es el proceso de descubrir nuevas y significativas correlaciones, patrones y tendencias, mediante la criba de grandes cantidades de datos almacenadas en repositorios, utilizando tecnologías de reconocimiento de patrones, así como técnicas matemáticas y estadística [35]. Las técnicas de Data Mining suelen dividirse en 5 pasos: 1. Extracción de datos: Consiste en obtener el conjunto de datos que será analizado. 2. Preprocesamiento de datos: El preprocesado de datos los prepara para ser analizados. Se divide en tres pasos principales [35]: evitar la clasificación erronea, reducción de la dimensión (mediante proyecciones o técnicas de selección de características) y normalización del rango. 3. Generación de los modelos: Es la parte más importante del análisis de datos. El modelo se crea para buscar los patrones en los datos. Normalmente se utilizan técnicas de Machine Learning u otras técnica estadística para generar el modelo [35]. 4. Validación de los modelos: Dependiendo del tipo de modelo el proceso de validación es diferente. Es usual utilizar la validación para clasificadores [35]. 5. Aplicación del modelo: El objetivo del modelo es ser aplicado, por ejemplo, para predecir el comportamiento de nuevas entradas. 5

20 Existen diversas aplicaciones para el Data Mining en distintos campos dependiendo de la representación de los datos. La más común es el análisis directo de los datos, que es comúnmente aplicada a los datos numéricos. Se pueden encontrar algunos datasets en el UCI Machine Learning Repository [2]. Otras aplicaciones están más centradas en imágenes, donde se utilizan algoritmos como la segmentación de imagen [22], detección de objetos [40], el reconocimiento facial [58] o la reconstrucción 3D [55] entre otros. Actualmente, con el incremento en el número de redes social, existen diversos métodos de Data Mining orientados al análisis de estas redes [1]. Algunos de estos métodos se basan en las Redes generadas por lo usuarios, mientras que otras técnicas analizan la información que se intercambia dentro de las redes. Muchos de estos modelos son extraídos del análisis de redes complejas, como se explica más adelante Extracción de datos Los datos que se están analizando en este trabajo provienen de Twitter. Twitter es una Red Social donde la gente normalmente comparte públicamente información sobre sus opiniones personales. Está dividida en dos tipos de comportamiento del usuario: follower y following. Como follower, el usuario recibe información de los usuarios a los que el sigue (following). Como following, el usuario envía información a sus seguidores (o followers). La información que el usuario comparte se denomina Tweet y está limitada a 140 caracteres, que pueden contener información sobre opiniones personales, fotos, links, etc. Un usuario puede también hacer retweet de la información de otro usuario y así compartirla. A parte de Twitter, existen varias bases de datos públicas de donde obtener datos para el análisis. El más usado en los trabajos de Data Mining es el UCI Machine Learning Repository [2] como se ha mencionado anteriormente, que contiene varios conjuntos de datos para probar los algoritmos. También existen aplicaciones para el análisis de las Redes Sociales, que permite a los investigadores extraer la información de Twitter (como Twitter API [42]) o Facebook (Facebook API [26]), entre otros Preprocesamiento de datos El proceso de Preprocesado consiste en una serie de pasos orientados a simplificar la información contenida en los datos. En el caso de documentos, que es como se trabaja en este proyecto, el preprocesado se divide en tres pasos: 1. Eliminar las Stop-Words y los caracteres especiales de las frases. 2. Generar una matriz término-documento con las keywords. 3. Utilizar una técnica de selección de características para elegir las palabras más relevantes para el análisis y reducir así el espacio de búsqueda. De forma más general, las técnicas de Data Mining requieren de una fase intensiva de preprocesado. Inicialmente la información debe ser analizada y almacenada en algún tipo de sistema de almacenaje o base de datos. Esta fase se utiliza para evitar outliers (valores atípicos), errores en la clasificación y pérdida de información. Métodos como los histogramas y la correlación estadística se utilizan para limpiar el dataset y reducir el número de variables [35]. Las proyecciones son frecuentes en la reducción de la dimensión del dataset, sin embargo, métodos como PCA (Principal Component Analysis) o LDA (Lineal Discriminant Analysis) no ofrecen una 6 CAPÍTULO 2. ESTADO DEL ARTE

21 perspectiva completa del problema [16]. Estos métodos crean nuevas variables, estimadas mediante componentes principales o proyecciones lineales, tratando de separar los datos y reducir su dimensión. Normalmente estas técnicas se deshacen de la información original una vez proyectada. Esto produce una mayor dificultad de la interpretación humana a la hora de analizar los resultados, por lo que puede ser preferible evitarlas. Dentro de este contexto, existen varias técnicas que reducen las dimensiones, evitando el uso de proyecciones. Estos métodos aplican una búsqueda guiada, que busca las variables más útiles para el análisis de entre todos los atributos. Estos métodos son conocidos como métodos de selección de características [33]. Muchos de estos métodos se aplican desde perspectivas muy diversas, por ejemplo, Curiel et al. [14] aplica algoritmos genéticos para simplificar el pronóstico de la endocarditis utilizando una codificación donde cada individuo de la población se basa en un conjunto de características. Blum and Langley [7] muestra algunos ejemplos de selecciones de características relevantes en diferentes datasets, aplicadas a diferentes técnicas de aprendizaje automático. Los autores definen distintos grados de características relevantes, como fuertes o débiles. También se estudian metodologías como la búsqueda heurística, aproximaciones de filters and wrapper que son métodos de selección de características automáticas generalmente validados mediante técnicas de clasificación. Algunas de estas técnicas introducen over-fitting al modelo, lo que reduce su fiabilidad. En Roth and Lange [54] se aplican estas técnicas para los problemas de clustering. Finalmente, el último paso es la normalización de los datos. Esto permite comparar características con distintos rangos de valores. Los métodos de normalización Z-Score [10] y Min-Max [28] son los más comunes. Ambos buscan y llevan los atributos a un rango concreto. Min-Max tiene un rango fijo, [0,1] (sensible a outliers), mientras que Z-Score depende de la media y la desviación estándar (aproxima la distribución a una distribución normal, se utiliza por lo general para evitar outliers). Estos algoritmos obtienen sus valores normalizados de aplicar las siguientes ecuaciones: Min-max: Calcula los valores máximos y mínimos de los atributos aplicando: x = x min(x) max(x) min(x) Z-Score: Calcula la desviación media y estándar de los valores aplicando: x = x mean(x) SD(X) Una vez que los datos están listos para el análisis, la generación del modelo comienza. Este trabajo se basa en técnicas de aprendizaje no supervisado Modelos de Análisis En esta sección se describen los modelos clásicos de Data Mining, así como una introducción a las Redes Complejas. Todo ello englobado dentro del análisis de Redes Sociales Modelos Clasicos de Data Mining Las técnicas de Machine Learning que se utilizan principalmente en Data Mining son técnicas de Clasificación y Clustering [35]. Las técnicas de clasificación buscan patrones dentro del CAPÍTULO 2. ESTADO DEL ARTE 7

22 conjunto de datos de forma supervisada, es decir, utilizan datos ya etiquetados para generar los modelos [35]. Las técnicas de clustering buscan los patrones de forma ciega, sin un etiquetado previo, y generan los modelos a partir de métodos estadísticos [35]. Dentro de las técnicas de clasificación clásicas destacan: Árboles C4.5 [51]: Es la técnica más clásica en clasificación. Divide los datos de forma lineal utilizando límites en los atributos, generando, así, un árbol de decisión. La división se elige utilizando una métrica como la entropía de datos. Naive Bayes (NB) [18]: El clasificador considera cada característica como indepediente del resto. Cada una de ellas contribuye a la información del modelo. Se basa en la Ley de Probabilidad de Bayes Algoritmo K-Nearest Neighbour (KNN) [13]: Clasifica los elementos de acuerdo con sus vecinos. Dependiendo del valor de K, considera los K-vecinos más cercano para estimar el valor de una nueva instancia no clasificada. Support Vector Machines (SVM) [12]: Cambia la dimensión del espacio de búsqueda a través de diferentes funciones de kernel (o núcleo), que tratan de mejorar la clasificación. Estas funciones llevan los datos a un espacio ampliado donde se utiliza un hiperplano para separar los datos de forma lineal. Dentro de las técnicas de clustering destacan: K-means [41]: Dado un número fijo de clusters, K-means trata de encontrar una división del conjunto de datos basado en un conjunto de características comunes dadas por las distancias o las métricas que se utilizan para determinar cómo debe definirse el cluster. En el caso de K-means cada cluster está representado por un centroide al que los datos más cercanos se asocian. Expectation-Maximitation (EM) [47]: Es un método de optimización iterativo que calcula algunos parámetros desconocidos calculando las probabilidades de pertenecer al cluster utilizando una o varias distribuciones de probabilidad, y su objetivo es maximizar la probabilidad global de que los datos estén en los clusters finales. Para ello va modificando los parámetros de las distribuciones hasta que el modelo se adapta a los datos. Esta adaptación se mide con la verosimilitud. Dentro del conjunto de aplicación de estos modelos, este trabajo se engloba especialmente dentro de los modelos de Text Mining [6]. Estos modelos utilizan documentos para aplicarles técnicas de clustering y clasificación [6], entre otras, de cara a agrupar documentos y clasificarlos por similitud, identificar términos (TDT) y buscar tendencias en los textos, como se hace en las redes sociales Redes Complejas El análisis de las redes complejas se ha convertido en un campo muy importante, especialmente en física. Una de sus principales aplicaciones dentro del análisis de datos es el análisis de Redes Sociales, que son representadas normalmente por Redes Complejas. Existen cuatro tipos básicos de Redes: Random Network [21], Regular Network [59], Scale-Free Network [4] y Small World Network [57]. 8 CAPÍTULO 2. ESTADO DEL ARTE

23 El análisis de una Red Social Compleja puede llevarse a cabo mediante algoritmos como PageRank [8] y HITS [32]. Ambos toman información sobre los nodos más representativos de la red y cómo esto afecta a la red en general. PageRank es un algoritmo que analiza los enlaces ente nodos, utilizado inicialmente por el motor de búsqueda web de Google. Hyperlink-Induced Topic Search (HITS) también conocido como hubs y autoridades, es un algoritmo de análisis de enlaces que clasifica las páginas Web, desarrollado por Jon Kleinberg. Fue un precursor de PageRank. Por otro lado, también es destacable la búsqueda de comunidades en las redes sociales. Una comunidad puede ser considerada como un subconjunto de individuos con conexiones relativamente fuertes, intensivas y directas entre ellas[24]. Algunos algoritmos que se centran en abordar este problema mediante un proceso determinista son Edge Betweenness Centrality (EBC) [25] y Clique Percolation Method (CPM) [17]. Otra aproximación relacionada con la busqueda de comunidades puede encontrarse en [53], donde se utilizan diferentes mecanismos estadísticos para la detección de la comunidad. Los algoritmos genéticos también se aplican a la búsqueda de comunidades o clusters. Entre ellos se encuentran algoritmos genéticos de aglomeración [38] y algoritmos evolutivos de multi-objetivo [31] Validación del Modelo La evaluación de los modelos, en general, es muy variada. En este trabajo nos hemos enfocado en una evaluación basada en las métricas de Precisión y Recall. Para poder definirlas, es necesario definir los siguientes conceptos en relación a cómo una instancia ha sido correcta o incorrectamente clasificada: True-Positive (tp): La instancia ha sido clasificada correctamente como parte de la clase. False-Positive (fp): La instancia ha sido incorrectamente clasificada como parte de la clase. True-Negative (tn): La instancia ha sido clasificada correctamente como externa a la clase. False-Negative (fn): La instancia ha sido incorrectamente clasificada como externa a la clase. Las medidas de Precision, Recall y F-Measure se definen como sigue: P recision = Recall = F Measure = 2 tp tp + fp tp tp + fn P recision Recall P recision + Recall (2.1) (2.2) (2.3) Precision se utiliza para medir cuando una instancia que no pertenece al conjunto de clases se clasifica como parte del conjunto de la clase. Recall mide la situación en la que una instancia está debidamente tipificado de acuerdo a su clase. F-measure es una métrica que equilibra estas medidas. CAPÍTULO 2. ESTADO DEL ARTE 9

24 2.6. Aplicaciones en el Análisis de Redes Sociales En esta sección se describen algunas de las aplicaciones de Data Mining en redes sociales populares. El Análisis Social es uno de los campos donde más se trabaja desde la aparición de la Web 2.0 en Este tipo de sitios web genera una gran cantidad de información interactiva entre usuarios que originalmente utilizaban foros y chats. En 2004 Mark Zuckerberg fundó Facebook, una de las Redes Sociales más relevantes hasta la actualidad, donde se permite compartir comentarios y opiniones entre usuarios. Dos años más tarde, en 2006, Jack Dorsey creó Twitter. Esta Red Social (y los servicios de Migroblogging) es una de las más famosas y más utilizada para el análisis de datos o Social Networks Analysis Facebook Una red social puede ser analizada desde distintas perspectivas, como se ha descrito anteriormente. Facebook es un buen ejemplo de red social. Facebook es una de las redes sociales más importantes. Originalmente fue creada para intercambiar fotos entre usuarios que eran amigos entre sí dentro de la red. Hoy en día se utiliza para compartir videos, mensajes, juegos, etc. Las características más relevantes de Facebook son: La estructura de Amistad, donde los usuarios pertenecen a una comunidad de amigos formada por gente de su entorno social. El botón de Me gusta (o Like), que expresa el interés de distintos usuarios en vídeos, fotos, comentarios, etc, publicados por otros usuarios o por ellos mismos. La opción de comentar, que permite a los usuarios comentar cualquier cosa (incluso otros comentarios), generando así interacciones entre ellos. Usando esta estructura como punto de partida es posible analizar la Red generada. El análisis puede ser enfocado desde distintos puntos de vista, por ejemplo, en [23] se discuten las características mesoscópicas de la estructura de la comunidad de esta red, después de que se diera a conocer que las comunidades representan las unidades de agregación entre los que los usuarios se reúnen e interactúan; analizaron las características estadísticas de las comunidades de redes, descubriendo y caracterizando algunos patrones de ordenación seguidos por individuos que interactuan en redes sociales online. En [11] centran el trabajo en participantes de las Redes Sociales online. La información es anónima y se organiza como un grafo no dirigido. Desarrollaron un set de herramientas para analizar propiedades específicas, como el grado de la distribución, medidas de centralidad, leyes de escalada y la distribución de la amistad entre usuarios. En [3] se enfrentan a un problema de predicción de links. Dada una instantánea de una red, infieren que interacciones entre miembros existentes son propensas a ocurrir en el futuro cercano o que interacciones existentes estamos perdiendo. Finalmente, en [37] se introduce un nuevo dataset público basado en manipulaciones de Facebook. En la segunda mitad de este paper se utiliza un algoritmo de búsqueda en la comunidad para encontrar los subgrupos definidos por género, raza / origen étnico y socioeconómico Twitter Twitter es una Red Social donde la gente normalmente publica información sobre opiniones personales. La información resultante de estos intercambios de opiniones puede ser analizada. 10 CAPÍTULO 2. ESTADO DEL ARTE

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

CONSIDERACIONES GENERALES DEL WEB MINING

CONSIDERACIONES GENERALES DEL WEB MINING CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los

Más detalles

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos KNime - Introducción KNime Significa KoNstanz Information MinEr. Se pronuncia [naim]. Fue desarrollado en la Universidad de Konstanz (Alemania). Esta escrito en Java y su entorno grafico esta desarrollado

Más detalles

Por: Luis M. Jaramillo Efecternet. Que son los motores de búsqueda

Por: Luis M. Jaramillo Efecternet. Que son los motores de búsqueda Por: Luis M. Jaramillo Efecternet Que son los motores de búsqueda Los motores de búsqueda como Google, Yahoo, Bing, Altavista y otros, son grandes bases de datos que acopian información sobre una gran

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Tema: Detección de billetes con OpenCV en Android.

Tema: Detección de billetes con OpenCV en Android. TRABAJO FINAL PARA APROBACION DEL CURSO DE POSTGRADO: INTRODUCCION AL PROCESAMIENTO DIGITAL DE IMAGENES. UN ENFOQUE TEORICO - PRACTICO UTILIZANDO OPEN CV. FACULTAD DE INGENIERÍA. 2013. Autor: Vera, José

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 Social Big Data Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 'Hello world!' Creador & Organizador Docente universitario El mundo

Más detalles

PATRONES. Experto. Solución:

PATRONES. Experto. Solución: PATRONES. Experto. Asignar una responsabilidad a la clase que tiene la información necesaria para cumplirla. Cuál es el principio fundamental en virtud del cual asignaremos las responsabilidades a los

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013 Presentación de Trabajo de Fin de Máster PROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS Máster en Lenguajes y Sistemas Informáticos:

Más detalles

Plantilla para las VIII Jornadas de SIG libre.

Plantilla para las VIII Jornadas de SIG libre. VIII JORNADAS DE SIG LIBRE Plantilla para las VIII Jornadas de SIG libre. M. Arias de Reyna Domínguez (1) (1) Ingeniera Informática, GeoCat bv, Bennekom, Países Bajos, maria.arias@geocat.net RESUMEN GeoCat

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos Resultados del Proyecto ÍNDICE 1. Detección automática de B2C 2. Análisis de demanda de profesionales TICC y programas formativos 3. Análisis

Más detalles

Introducción al Marketing de Contenidos

Introducción al Marketing de Contenidos www.eduardvilanova.com Introducción al Marketing de Contenidos Palma Activa. 27 de Noviembre 2012 About me 2 @EduardVilanova es.linkedin.com/in/eduardvilanova Powerpoint descargable: www.eduardvilanova.com

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

TRABAJO ACADÉMICAMENTE DIRIGIDO

TRABAJO ACADÉMICAMENTE DIRIGIDO TRABAJO ACADÉMICAMENTE DIRIGIDO Diseño y contrucción de un prototipo para la extracción de información de redes sociales para su uso en sistemas de recomendación Profesor: Alumno: D. José Carpio Cañada

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Política de cookies. Introducción Acerca de las cookies

Política de cookies. Introducción Acerca de las cookies Introducción Acerca de las cookies Política de cookies La mayoría de sitios web que usted visita utiliza cookies para mejorar la experiencia del usuario, permitiendo que el sitio web le recuerde, ya sea

Más detalles

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea Especificación de requisitos software Tabla de contenidos Juan José Amor David Escorial Ismael Olea 1. Introducción...3 1.1. Propósito...3 1.2. Ámbito del sistema...3 1.3. Definiciones, acrónimos y abreviaturas...3

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

SERVICIOS TELEMÁTICOS PARA GESTIÓN DEL TURISMO RURAL EN UNA COMARCA.

SERVICIOS TELEMÁTICOS PARA GESTIÓN DEL TURISMO RURAL EN UNA COMARCA. UNIVERSIDAD DE VALLADOLID ESCUELA UNIVERSITARIA POLITÉCNICA INGENIERO TÉCNICO INDUSTRIAL, ESPECIALIDAD EN ELECTRÓNICA INDUSTRIAL MEMORIA RESUMEN PROYECTO FIN DE CARRERA SERVICIOS TELEMÁTICOS PARA GESTIÓN

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

http://en.wikipedia.org/wiki/edgar_f._codd

http://en.wikipedia.org/wiki/edgar_f._codd 26/03/2012 1 http://en.wikipedia.org/wiki/edgar_f._codd Codd estableció los fundamentos del modelo relacional en el artículos de 1970 "A Relational Model of Data for Large Shared Data Banks". En adelante,

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

Introducción CAPÍTULO 1

Introducción CAPÍTULO 1 Introducción CAPÍTULO 1 6 CAPÍTULO 1 - Introducción. En la actualidad hay una gran cantidad de repositorios en los que se puede alojar código fuente para poder compartirlo con los usuarios que visiten

Más detalles

Bases de datos. 1. Introducción

Bases de datos. 1. Introducción Bases de datos 1. Introducción Habitualmente, los programas trabajan con información que está en un fichero. Por ejemplo, nuestro simulador de tráfico aéreo trabaja con una lista de planes de vuelo que

Más detalles

SQL Server Reporting Services 2000 y 2005

SQL Server Reporting Services 2000 y 2005 SQL Server Reporting Services 2000 y 2005 Este artículo presenta SQL Server Reporting Services. Se presentan primero las funcionalidades de la primera versión de esta herramienta y después las mejoras

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Web mining y obtención de información para la generación de

Web mining y obtención de información para la generación de Web mining y obtención de información para la generación de inteligencia Miguel Ángel Esteban (Universidad de Zaragoza) mesteban@unizar.es Instituto Juan Velázquez de Velasco de Investigación en Inteligencia

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

DESARROLLO WEB EN ENTORNO SERVIDOR

DESARROLLO WEB EN ENTORNO SERVIDOR DESARROLLO WEB EN ENTORNO SERVIDOR CAPÍTULO 9: Desarrollo de aplicaciones Web híbridas Marcos López Sanz Juan Manuel Vara Mesa Jenifer Verde Marín Diana Marcela Sánchez Fúquene Jesús Javier Jiménez Hernández

Más detalles

340455 - REIN-I7P23 - Recuperación de la Información

340455 - REIN-I7P23 - Recuperación de la Información Unidad responsable: 340 - EPSEVG - Escuela Politécnica Superior de Ingeniería de Vilanova i la Geltrú Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO

Más detalles

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA E. SÁEZ, M. ORTIZ, F. QUILES, C. MORENO, L. GÓMEZ Área de Arquitectura y Tecnología de Computadores. Departamento de Arquitectura

Más detalles

Ingeniería de Software

Ingeniería de Software Ingeniería de Software MSDN Ingeniería de Software...1 Ingeniería del Software_/_ Ingeniería y Programación...1 Análisis de Requerimientos...2 Especificación...3 Diseño...4 Desarrollo en Equipo...5 Mantenimiento...6

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats Inventario y geolocalización de las actividades comerciales en las plantas bajas de los edificios de L Hospitalet de Llobregat. Aplicación web de recursos para el ciudadano. Resumen de la Tesina. Autor:

Más detalles

Análisis de Redes Sociales

Análisis de Redes Sociales Análisis de Redes Sociales 1 sitios Web fuente Mark Newman red de terroristas fuente www.firstmonday.org red de terroristas fuente www.firstmonday.org red de citas bibliográficas fuente http://wwwcsif.cs.ucdavis.edu/~mcpherso/largegraph.html

Más detalles

Search Engine Optimisation Best Practices Francisco Becerril. Solo para uso interno de SAP y sus socios

Search Engine Optimisation Best Practices Francisco Becerril. Solo para uso interno de SAP y sus socios Search Engine Optimisation Best Practices Francisco Becerril Solo para uso interno de SAP y sus socios Instructor Francisco Becerril Digital Marketing GPO / Business One Marketing Manager Jet Lag Digital

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Creación y administración de grupos de dominio

Creación y administración de grupos de dominio Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia

Más detalles

ADMINISTRACIÓN DE BASE DE DATOS

ADMINISTRACIÓN DE BASE DE DATOS SQL SERVER T-SQL QUERY s es ADMINISTRADOR GRÁFICO SGBD Elementos objetos Tablas Procedimientos Triggers Funciones Usuarios Permiso Roles Contraseñas Programas DTS (Data Transfer System) Exportación e Importación

Más detalles

La Web Semántica como herramienta para e-learning

La Web Semántica como herramienta para e-learning La Web Semántica como herramienta para e-learning Lidia Marina López llopez@uncoma.edu.ar Departamento de Ciencias de la Computación Universidad Nacional del Comahue Buenos Aires 1400 8300 Neuquén Tel.

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

CONSULTAS CON SQL. 3. Hacer clic sobre el botón Nuevo de la ventana de la base de datos. Aparecerá el siguiente cuadro de diálogo.

CONSULTAS CON SQL. 3. Hacer clic sobre el botón Nuevo de la ventana de la base de datos. Aparecerá el siguiente cuadro de diálogo. CONSULTAS CON SQL 1. Qué es SQL? Debido a la diversidad de lenguajes y de bases de datos existentes, la manera de comunicar entre unos y otras sería realmente complicada a gestionar de no ser por la existencia

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses Algoritmos y Estructuras de Datos 2 Web Mining Esteban Meneses 2005 Motivación La Web contiene miles de millones de documentos con información sobre casi cualquier tópico. Es la Biblioteca de Alejandría

Más detalles

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro

En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro Capitulo 6 Conclusiones y Aplicaciones a Futuro. En nuestro capitulo final, daremos las conclusiones y las aplicaciones a futuro para nuestro sistema. Se darán las conclusiones para cada aspecto del sistema,

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Búsqueda sobre catálogos basada en ontologías

Búsqueda sobre catálogos basada en ontologías Búsqueda sobre catálogos basada en ontologías Alianis Pérez Sosa, Yuniel Eliades Proenza Arias Universidad de las Ciencias Informáticas. Carretera a San Antonio Km 2 ½, Reparto Torrens, La Lisa, Ciudad

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

Autor: Javier Yáñez García

Autor: Javier Yáñez García Curso 2009-2010 2010 Universidad Carlos III de Madrid PROYECTO FIN DE CARRERA: TRACKING DE PERSONAS A PARTIR DE VISIÓN ARTIFICIAL Autor: Javier Yáñez García Contenidos 1. Introducción 2. Estado del arte

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

UNIVERSIDAD DE SALAMANCA

UNIVERSIDAD DE SALAMANCA UNIVERSIDAD DE SALAMANCA FACULTAD DE CIENCIAS INGENIERÍA TÉCNICA EN INFORMÁTICA DE SISTEMAS Resumen del trabajo práctico realizado para la superación de la asignatura Proyecto Fin de Carrera. TÍTULO SISTEMA

Más detalles

Base de datos relacional

Base de datos relacional Base de datos relacional Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para modelar problemas reales y administrar

Más detalles

UNIVERSIDAD TECNOLÓGICA DE QUERÉTARO. Nombre del Proyecto: Empresa: Memoria que como parte de los requisitos para obtener el título de:

UNIVERSIDAD TECNOLÓGICA DE QUERÉTARO. Nombre del Proyecto: Empresa: Memoria que como parte de los requisitos para obtener el título de: UNIVERSIDAD TECNOLÓGICA DE QUERÉTARO Nombre del Proyecto: Modulo semiautomático para alta de empresas en red social Empresa: HIGH TECHNOLOGY & SUPPORT S.A. DE C.V. Memoria que como parte de los requisitos

Más detalles

Minería de datos en la nube. Patricia Rayón Villela

Minería de datos en la nube. Patricia Rayón Villela Minería de datos en la nube Patricia Rayón Villela 1 Contenido Big-Data BI en la nube Analítica Texto Video Visual 2 Big data Problemas que eran difíciles o imposibles de resolver antes de ahora son manejables.

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Crawlers - Arañas UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es una Araña? También se le llama robot o araña (spider, crawler). Una araña (crawler) es

Más detalles

Índice INTERNET MARKETING 1

Índice INTERNET MARKETING 1 INTERNET MARKETING 1 Índice Manual de Google Analytics... 2 Qué es Google Analytics?... 2 Cómo funciona Google Analytics?... 2 Iniciar Sesión en Google Analytics... 3 Visualizar las estadísticas... 3 Resumen

Más detalles

Requisitos del Software Aplicativo Móvil SISTEMAS INTELIGENTES EN RED S.A.S.

Requisitos del Software Aplicativo Móvil SISTEMAS INTELIGENTES EN RED S.A.S. Requisitos del Software Aplicativo Móvil SISTEMAS INTELIGENTES EN RED S.A.S. Desarrollo de Aplicativo Móvil 2 Índice 1. INTRODUCCIÓN... 3 2. OBJETIVO... 3 3. MÓDULO MENSAJERÍA... 3 3.1. Actores... 3 3.2.

Más detalles

CA ERwin Data Profiler

CA ERwin Data Profiler RESUMEN DEL PRODUCTO: CA ERWIN DATA PROFILER CA ERwin Data Profiler CA ERWIN DATA PROFILER AYUDA A LAS ORGANIZACIONES A REDUCIR LOS COSTOS Y RIESGOS ASOCIADOS CON LA INTEGRACIÓN DE DATOS, AL BRINDAR CAPACIDADES

Más detalles

Unidad 1: Conceptos generales de Sistemas Operativos.

Unidad 1: Conceptos generales de Sistemas Operativos. Unidad 1: Conceptos generales de Sistemas Operativos. Tema 3: Estructura del sistema operativo. 3.1 Componentes del sistema. 3.2 Servicios del sistema operativo. 3.3 Llamadas al sistema. 3.4 Programas

Más detalles

Glosario de términos utilizados en las redes sociales

Glosario de términos utilizados en las redes sociales Glosario de términos utilizados en las redes sociales Campaña Educativa 2014 Fundación Flamboyán en colaboración con Asesores Financieros Comunitarios Glosario de términos A continuación, encontrará los

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases 3.2 TÉCNICA DE MODELADO DE OBJETOS (OMT) (JAMES RUMBAUGH). 3.2.1 Introducción. En este documento se trata tanto el OMT-1 como el OMT-2, el primero contenido en el Libro Modelado y Diseño Orientado (Metodología

Más detalles

3 Consultas y subconsultas

3 Consultas y subconsultas 3 Consultas y subconsultas En SQL, la sentencia SELECT permite escribir una consulta o requerimiento de acceso a datos almacenados en una base de datos relacional. Dichas consultas SQL van desde una operación

Más detalles

ARCHIVO DEL LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO

ARCHIVO DEL LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO Grupo de Investigación en Patrimonio Construido -GPAC- (UPV-EHU) Aulario de las Nieves, edificio de Institutos Universitarias C/ Nieves Cano 33, 01006

Más detalles

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Capítulo 10 Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Al analizar datos, lo primero que conviene hacer con una variable es, generalmente, formarse una idea lo más exacta posible

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

2. MARCO TEÓRICO 2.1. GRAFOS

2. MARCO TEÓRICO 2.1. GRAFOS 2. MARCO TEÓRICO Este capítulo presenta conceptos relacionados con grafos, técnicas y herramientas de visualización de grafos. Además, incluye la definición del modelo de datos GDM (5), los operadores

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el Capitulo II. Análisis de herramientas y tecnologías de desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el lenguaje de Modelo de Objetos llamado UML (Unified

Más detalles

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Programa de Capacitación y Certificación. INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Contenido PERFIL DE UN ESPECIALISTA EN BASES DE DATOS.... 3 6231. MANTENIENDO UNA BASE DE DATOS DE SQL SERVER 2008

Más detalles

Guía de uso de Moodle para participantes

Guía de uso de Moodle para participantes Guía de uso de Moodle para participantes ÍNDICE 1 QUÉ ES MOODLE?... 3 2 INTRODUCCIÓN A LA PLATAFORMA... 4 2.1 ACCESO... 4 2.2 CURSO... 5 2.2.1 BLOQUES... 6 3 RECURSOS Y MÓDULOS... 8 3.1 TRANSMISIVOS...

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles