Grado en Ingeniería Informática

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Grado en Ingeniería Informática"

Transcripción

1 Universidad Autónoma de Madrid Escuela Politécnica Superior Proyecto fin de grado MODELO DE IDENTIFICACIÓN DE META-TOPICS A TRAVÉS DE ANÁLISIS SEMÁNTICO DE CONJUNTOS DE DATOS EXTRAÍDOS DE TWITTER Grado en Ingeniería Informática Carlos Delgado Calle 19 de enero de 2014

2

3 MODELO DE IDENTIFICACIÓN DE META-TOPICS A TRAVÉS DE ANÁLISIS SEMÁNTICO DE CONJUNTOS DE DATOS EXTRAÍDOS DE TWITTER AUTOR: Carlos Delgado Calle TUTOR: Héctor Menéndez Benito Co-Tutor: David Camacho Fernando Applied Intelligence and Data Analysis Dpto. de Ingeniera Informática Escuela Politécnica Superior Universidad Autónoma de Madrid 19 de enero de 2014 i

4

5 Resumen Resumen Las redes sociales se han vuelto cada vez más importantes en los últimos años. Entre ellas destaca Twitter, donde los usuarios comparten opiniones y otros contenidos de forma pública. Dichas redes contiene grandes cantidades de información oculta a simple vista. En este trabajo se pretende trabajar con datos obtenidos de Twitter y analizarlos para obtener información relevante; para ello se va a hacer uso del análisis semántico, en pos de poder asociar los comentarios de los usuarios (o tweets) con temas más generales (o meta-topics). Cabe destacar que, aunque cada vez existe un mayor número de trabajos dedicados a analizar este tipo de redes, el análisis semántico (como el llevado a cabo en este trabajo) de redes es todavía escaso, siendo lo más cercano las técnicas de Topic Detection. Este trabajo trata de crear una aproximación al problema de la clasificación mediante análisis semántico, para ello se ha desarrollado un modelo que se centra en la detección de un único meta-topics y que utiliza técnicas como LSA unidas a consultas semánticas a DBpedia para obtener resultados con los que poder analizar la validez del modelo. Se han llevado a cabo pruebas con usuarios reales, que posteriormente han sido evaluados a mano para comprobar la eficacia de esta aproximación. Palabras Clave Twitter, tweets, meta-topic, Topic Detection, DBpedia, LSA, análisis semántico iii

6 Abstract Social Networks have become increasingly important over the last few years. One of the most relevant Social Network is Twitter. This Nework allows users to share public comment and contents. Social networks contain large amounts of hidden information. This work pretends to extract relevant data from Twitter and analyze them to obtain important information; In order to achieve this goal, we will apply semantic analysis to classify user comments (or tweets) on more general topics (or meta-topics). There are a large number of works devoted to analize social networks, however, semantic analysis is still scarce in this area,only Topic Detection techniques are applied in this context. This paper attempts to create a new approach to the problem of classification using semantic analysis. We have developed a model that focuses on the detection of a single meta-topic and use techniques such as LSA combined with semantic queries in DBpedia in order to obtain some results which can analyze the effectiveness of the model. We have tested the model with real users, whose comments were subsequently evaluated to check the effectiveness of this approach. Key words Twitter, tweets, meta-topic, Topic Detection, DBpedia, LSA, semantic analysis iv

7 Agradecimientos Este trabajo está dedicado a mi familia, por estar siempre allí. A mi madre por apoyarme siempre, por muy oscuro que todo pareciese. A mis amigos por ayudarme a desconectar y recuperar fuerzas cuando la presión amenazaba con derrumbarme. A los compañeros del departamento, que me han acogido como si fuese uno más y en especial a Héctor por guiarme como nadie más habría sido capaz. Y por último agradecer a todo aquel que se digne a leer este proyecto, porque solo por vosotros ha merecido la pena el esfuerzo. v

8 vi

9 Índice general Índice de figuras IX Índice de tablas X 1. Introducción Motivación del proyecto Objetivos del proyecto Estado del Arte Data Mining Extracción de datos Preprocesamiento de datos Modelos de Análisis Modelos Clasicos de Data Mining Redes Complejas Validación del Modelo Aplicaciones en el Análisis de Redes Sociales Facebook Twitter Perspectiva Semántica Herramientas Software Tweet Miner Arquitectura Extracción de los tweets Preprocesado del texto Aplicación de LSA Consultas a DBpedia mediante SPARQL Valoración final de las keywords Aplicación de ranking Funcionamiento vii

10 4. Pruebas Pruebas del sistema completo Extracción de los tweets Preprocesado del texto Aplicación de LSA Consultas a DBpedia mediante SPARQL Valoración final de las keywords Aplicación de ranking Ejemplos de Resultados Resultados Experimentales Conclusiones y Trabajo Futuro Conclusiones Trabajo Futuro Glosario de acrónimos 33 Bibliografía 34 viii ÍNDICE GENERAL

11 Índice de figuras 3.1. Esquema de la Arquitectura Estructura Videojuegos en DBpedia Proceso de creación del Árbol de Dependencias ix

12

13 Índice de tablas 3.1. Resultado primera consulta SPARQL Resultado primera consulta SPARQL Ejemplos de casos sencillos de análisis Ejemplos de casos complejos de análisis En esta tabla se muestran los tweets de cada usuario para cada uno de los 3 posibles valores de evaluación (0, 1 y 2) así como su valor de accuracy (Acc) En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 0 de cada usuario En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 1 de cada usuario En esta tabla se muestran los valores de Precision(P), Recall(R) y F-measure(F) para los 2 de cada usuario xi

14

15 1 Introducción Twitter es un servicio de microblogging, o lo que es lo mismo, un servicio que permite a sus usuarios enviar y publicar mensajes breves, compartiendo información de forma libre. Este tipo de servicios permite expresar breves opiniones, comentar otras o compartir un contenido mayor mediante el uso de URLs, lo que lo convierte en un nicho de información sobre infinidad de temas, dado que es utilizado por una gran variedad de usuarios de distinta edad, género y condición social. En la actualidad existen varios de estos servicios (muchos aparecen y desaparecen a diario), pero Twitter se mantiene desde su creación y lanzamiento en el año 2006 (por Jack Dorsey, Evan Williams, Biz Stone y Noah Glass) como uno de los más utilizados por los usuarios, razón por la que se ha optado por adoptarla como foco de información para el desarrollo del trabajo realizado. Dado que cada usuario suele tener gustos variados (como deportes, videojuegos, cine y música, entre otros) y suele seguir a usuarios de distinta condición social (compañeros de clase/trabajo, atletas profesionales y compañías discográficas, entre otros), el proceso de extracción de información específica útil sobre los gustos del usuario se vuelve muy complejo. Este trabajo pretende obtener las publicaciones de los gustos de los usuarios a los que sigue el sujeto y organizarlas de acuerdo a un tema general que comprenda varios temas (o meta-topic) como podría ser deportes, videojuegos, cine, etc. dependiendo del usuario. Para ello, en este primer modelo se llevará a cabo un análisis semántico de las publicaciones (o tweets) extraídas de dichos usuarios, para su posterior análisis, de modo que se pueda encontrar una relación entre los tweets y el meta-topic seleccionado (preseleccionado para este modelo). De este modo se puede generar un ranking de los tweets por cercanía al meta-topic. Con esta información se podrían obtener grupos de usuario que compartan intereses comunes, así como investigar las tendencias que predominan en cada momento, las comunidades que se forman a partir de estas tendencias, etc. Todo esto puede aplicarse para llevar a cabo campañas de marketing más efectivas, una mejor organización a nivel empresarial, productos mejor orientados a sus destinatarios, etc. Para tratar estos temas se suelen usar técnicas de Text Mining (o Data Mining) [6] y de TDT (Topic Detection and Tracking) [6] que permiten obtener información a partir de los textos, como es el caso de Relfinder [39] y Wikipedia Miner [46]. Relfinder es un sistema que muestra de manera visual (mediante grafos) las relaciones obtenidas a través de un dataset (a menudo obtenido de Dbpedia) entre diversos términos. Wikipedia Miner está formado por un 1

16 conjunto de herramientas creadas alrededor de Wikipedia, para extraer información relevante de ésta (búsqueda de términos, comparación semántica entre estos, desambiguación de temas, etc). En este trabajo se aplican técnicas que buscan relaciones semánticas mediante el uso de diccionarios como Wordnet [45] o DBpedia [36] y combinado con LSA. En el modelo establecido se ha creado una arquitectura capaz de extraer los tweets deseados de Twitter y analizarlos semánticamete para, finalmente, devolver un ranking con respecto al meta-topic preseleccionado mediante este tipo de técnicas. Los problemas que se presentan son muchos y diversos: se tienen que tener en cuenta las limitaciones bajo las que se lleva a cabo el proyecto, primero se trata de un proyecto muy amplio, por lo que es necesario marcar objetivos y acotarlo en distintos niveles para poder abarcarlo. Por otro lado, el análisis semántico nunca ha sido sencillo y por tanto los resultados distan mucho de ser completamente acertados (como puede ocurrir en otras ramas de la Inteligencia Artificial). El trato con información semi-estructurada impone un análisis preliminar de cada meta-topic que se quiere tratar, lo cual, sumado a lo dicho anteriormente ha desembocado en la selección de un único meta-topic a la hora de desarrollar esta primera versión del proyecto. Todo lo anterior hace imposible crear una versión completa del proyecto, por lo que se ha optado por realizar un modelo inicial en el que se trata un único meta-topic, de modo que se obtengan unos datos concretos que se puedan analizar para, más adelante, poder desarrollar un modelo más completo. Cabe destacar que la arquitectura del proyecto se ha modulado de tal manera que sólo sea necesario modificar un módulo para adaptarlo a otros meta-topics. El resto del trabajo se estructura de la siguiente forma: La Sección 2 introduce el estado del arte, así como trabajo relacionado con el proyecto. La Sección 3 describe la arquitectura y el funcionamiento del modelo. En la Sección 4 se muestran las pruebas realizadas y los resultados obtenidos. Finalmente, la Sección 5 incluye el análisis de los resultados en forma de conclusiones, así como un apartado dedicado al trabajo futuro Motivación del proyecto Las redes sociales en formato digital han aparecido y se están extendiendo rápidamente, obteniendo mucha importancia a nivel social. La cantidad de información que contienen es inmensa y a día de hoy hay una carrera por ver quien consigue darle un mejor uso a dicha información. La posibilidad de formar parte de dicha carrera es, sin lugar a dudas, la mayor motivación que ha hecho de este proyecto una opción a tomar. Por otro lado se ha optado por el análisis semántico y la selección de un meta-topic, porque se busca organizar la información de una forma cercana para el usuario, analizándola por su contenido y no tanto por su forma, por lo que el análisis semántico se vuelve indispensable Objetivos del proyecto Los objetivos de este proyecto son los siguientes: Extracción de tweets: Extraer los tweets de Twitter mediante el uso de la API que este provee. Extracción de keywords: Analizar los tweets obtenidos para obtener las keywords que los forman. 2 CAPÍTULO 1. INTRODUCCIÓN

17 Aplicación de LSA a las keywords: Aplicar LSA para obtener relaciones semánticas de las keywords entre sí. Análisis mediante consultas a DBbpedia de las keywords: Aplicar consultas a DBpedia para obtener relaciones semánticas entre las keywords y el meta-topic. Valoración final de las keywords: Valoración basada en los datos obtenidos para las keywords en los dos objetivos anteriores. Creación de un ranking de tweets: Creación de un ranking con respecto al metatopic seleccionado, tras aplicar una valoración a los tweets basada en las keywords que los conforman. Análisis del ranking: Análisis manual del ranking obtenido para comprobar su índice de acierto con respecto al criterio humano. CAPÍTULO 1. INTRODUCCIÓN 3

18 4 CAPÍTULO 1. INTRODUCCIÓN

19 2 Estado del Arte En este apartado se comenta de forma general qué es Data Mining así como sus diferentes partes. Se exponen también algunas explicaciones más detalladas de algunos de estas partes, así como los modelos de análisis más comunes. También se explican distintas técnicas de validación, las aplicaciones de estas técnicas y métodos de validación con respecto al análisis de redes sociales y se expone una serie de herramientas útiles a la hora de llevar a cabo este tipo de análisis Data Mining Data Mining es el proceso de descubrir nuevas y significativas correlaciones, patrones y tendencias, mediante la criba de grandes cantidades de datos almacenadas en repositorios, utilizando tecnologías de reconocimiento de patrones, así como técnicas matemáticas y estadística [35]. Las técnicas de Data Mining suelen dividirse en 5 pasos: 1. Extracción de datos: Consiste en obtener el conjunto de datos que será analizado. 2. Preprocesamiento de datos: El preprocesado de datos los prepara para ser analizados. Se divide en tres pasos principales [35]: evitar la clasificación erronea, reducción de la dimensión (mediante proyecciones o técnicas de selección de características) y normalización del rango. 3. Generación de los modelos: Es la parte más importante del análisis de datos. El modelo se crea para buscar los patrones en los datos. Normalmente se utilizan técnicas de Machine Learning u otras técnica estadística para generar el modelo [35]. 4. Validación de los modelos: Dependiendo del tipo de modelo el proceso de validación es diferente. Es usual utilizar la validación para clasificadores [35]. 5. Aplicación del modelo: El objetivo del modelo es ser aplicado, por ejemplo, para predecir el comportamiento de nuevas entradas. 5

20 Existen diversas aplicaciones para el Data Mining en distintos campos dependiendo de la representación de los datos. La más común es el análisis directo de los datos, que es comúnmente aplicada a los datos numéricos. Se pueden encontrar algunos datasets en el UCI Machine Learning Repository [2]. Otras aplicaciones están más centradas en imágenes, donde se utilizan algoritmos como la segmentación de imagen [22], detección de objetos [40], el reconocimiento facial [58] o la reconstrucción 3D [55] entre otros. Actualmente, con el incremento en el número de redes social, existen diversos métodos de Data Mining orientados al análisis de estas redes [1]. Algunos de estos métodos se basan en las Redes generadas por lo usuarios, mientras que otras técnicas analizan la información que se intercambia dentro de las redes. Muchos de estos modelos son extraídos del análisis de redes complejas, como se explica más adelante Extracción de datos Los datos que se están analizando en este trabajo provienen de Twitter. Twitter es una Red Social donde la gente normalmente comparte públicamente información sobre sus opiniones personales. Está dividida en dos tipos de comportamiento del usuario: follower y following. Como follower, el usuario recibe información de los usuarios a los que el sigue (following). Como following, el usuario envía información a sus seguidores (o followers). La información que el usuario comparte se denomina Tweet y está limitada a 140 caracteres, que pueden contener información sobre opiniones personales, fotos, links, etc. Un usuario puede también hacer retweet de la información de otro usuario y así compartirla. A parte de Twitter, existen varias bases de datos públicas de donde obtener datos para el análisis. El más usado en los trabajos de Data Mining es el UCI Machine Learning Repository [2] como se ha mencionado anteriormente, que contiene varios conjuntos de datos para probar los algoritmos. También existen aplicaciones para el análisis de las Redes Sociales, que permite a los investigadores extraer la información de Twitter (como Twitter API [42]) o Facebook (Facebook API [26]), entre otros Preprocesamiento de datos El proceso de Preprocesado consiste en una serie de pasos orientados a simplificar la información contenida en los datos. En el caso de documentos, que es como se trabaja en este proyecto, el preprocesado se divide en tres pasos: 1. Eliminar las Stop-Words y los caracteres especiales de las frases. 2. Generar una matriz término-documento con las keywords. 3. Utilizar una técnica de selección de características para elegir las palabras más relevantes para el análisis y reducir así el espacio de búsqueda. De forma más general, las técnicas de Data Mining requieren de una fase intensiva de preprocesado. Inicialmente la información debe ser analizada y almacenada en algún tipo de sistema de almacenaje o base de datos. Esta fase se utiliza para evitar outliers (valores atípicos), errores en la clasificación y pérdida de información. Métodos como los histogramas y la correlación estadística se utilizan para limpiar el dataset y reducir el número de variables [35]. Las proyecciones son frecuentes en la reducción de la dimensión del dataset, sin embargo, métodos como PCA (Principal Component Analysis) o LDA (Lineal Discriminant Analysis) no ofrecen una 6 CAPÍTULO 2. ESTADO DEL ARTE

21 perspectiva completa del problema [16]. Estos métodos crean nuevas variables, estimadas mediante componentes principales o proyecciones lineales, tratando de separar los datos y reducir su dimensión. Normalmente estas técnicas se deshacen de la información original una vez proyectada. Esto produce una mayor dificultad de la interpretación humana a la hora de analizar los resultados, por lo que puede ser preferible evitarlas. Dentro de este contexto, existen varias técnicas que reducen las dimensiones, evitando el uso de proyecciones. Estos métodos aplican una búsqueda guiada, que busca las variables más útiles para el análisis de entre todos los atributos. Estos métodos son conocidos como métodos de selección de características [33]. Muchos de estos métodos se aplican desde perspectivas muy diversas, por ejemplo, Curiel et al. [14] aplica algoritmos genéticos para simplificar el pronóstico de la endocarditis utilizando una codificación donde cada individuo de la población se basa en un conjunto de características. Blum and Langley [7] muestra algunos ejemplos de selecciones de características relevantes en diferentes datasets, aplicadas a diferentes técnicas de aprendizaje automático. Los autores definen distintos grados de características relevantes, como fuertes o débiles. También se estudian metodologías como la búsqueda heurística, aproximaciones de filters and wrapper que son métodos de selección de características automáticas generalmente validados mediante técnicas de clasificación. Algunas de estas técnicas introducen over-fitting al modelo, lo que reduce su fiabilidad. En Roth and Lange [54] se aplican estas técnicas para los problemas de clustering. Finalmente, el último paso es la normalización de los datos. Esto permite comparar características con distintos rangos de valores. Los métodos de normalización Z-Score [10] y Min-Max [28] son los más comunes. Ambos buscan y llevan los atributos a un rango concreto. Min-Max tiene un rango fijo, [0,1] (sensible a outliers), mientras que Z-Score depende de la media y la desviación estándar (aproxima la distribución a una distribución normal, se utiliza por lo general para evitar outliers). Estos algoritmos obtienen sus valores normalizados de aplicar las siguientes ecuaciones: Min-max: Calcula los valores máximos y mínimos de los atributos aplicando: x = x min(x) max(x) min(x) Z-Score: Calcula la desviación media y estándar de los valores aplicando: x = x mean(x) SD(X) Una vez que los datos están listos para el análisis, la generación del modelo comienza. Este trabajo se basa en técnicas de aprendizaje no supervisado Modelos de Análisis En esta sección se describen los modelos clásicos de Data Mining, así como una introducción a las Redes Complejas. Todo ello englobado dentro del análisis de Redes Sociales Modelos Clasicos de Data Mining Las técnicas de Machine Learning que se utilizan principalmente en Data Mining son técnicas de Clasificación y Clustering [35]. Las técnicas de clasificación buscan patrones dentro del CAPÍTULO 2. ESTADO DEL ARTE 7

22 conjunto de datos de forma supervisada, es decir, utilizan datos ya etiquetados para generar los modelos [35]. Las técnicas de clustering buscan los patrones de forma ciega, sin un etiquetado previo, y generan los modelos a partir de métodos estadísticos [35]. Dentro de las técnicas de clasificación clásicas destacan: Árboles C4.5 [51]: Es la técnica más clásica en clasificación. Divide los datos de forma lineal utilizando límites en los atributos, generando, así, un árbol de decisión. La división se elige utilizando una métrica como la entropía de datos. Naive Bayes (NB) [18]: El clasificador considera cada característica como indepediente del resto. Cada una de ellas contribuye a la información del modelo. Se basa en la Ley de Probabilidad de Bayes Algoritmo K-Nearest Neighbour (KNN) [13]: Clasifica los elementos de acuerdo con sus vecinos. Dependiendo del valor de K, considera los K-vecinos más cercano para estimar el valor de una nueva instancia no clasificada. Support Vector Machines (SVM) [12]: Cambia la dimensión del espacio de búsqueda a través de diferentes funciones de kernel (o núcleo), que tratan de mejorar la clasificación. Estas funciones llevan los datos a un espacio ampliado donde se utiliza un hiperplano para separar los datos de forma lineal. Dentro de las técnicas de clustering destacan: K-means [41]: Dado un número fijo de clusters, K-means trata de encontrar una división del conjunto de datos basado en un conjunto de características comunes dadas por las distancias o las métricas que se utilizan para determinar cómo debe definirse el cluster. En el caso de K-means cada cluster está representado por un centroide al que los datos más cercanos se asocian. Expectation-Maximitation (EM) [47]: Es un método de optimización iterativo que calcula algunos parámetros desconocidos calculando las probabilidades de pertenecer al cluster utilizando una o varias distribuciones de probabilidad, y su objetivo es maximizar la probabilidad global de que los datos estén en los clusters finales. Para ello va modificando los parámetros de las distribuciones hasta que el modelo se adapta a los datos. Esta adaptación se mide con la verosimilitud. Dentro del conjunto de aplicación de estos modelos, este trabajo se engloba especialmente dentro de los modelos de Text Mining [6]. Estos modelos utilizan documentos para aplicarles técnicas de clustering y clasificación [6], entre otras, de cara a agrupar documentos y clasificarlos por similitud, identificar términos (TDT) y buscar tendencias en los textos, como se hace en las redes sociales Redes Complejas El análisis de las redes complejas se ha convertido en un campo muy importante, especialmente en física. Una de sus principales aplicaciones dentro del análisis de datos es el análisis de Redes Sociales, que son representadas normalmente por Redes Complejas. Existen cuatro tipos básicos de Redes: Random Network [21], Regular Network [59], Scale-Free Network [4] y Small World Network [57]. 8 CAPÍTULO 2. ESTADO DEL ARTE

23 El análisis de una Red Social Compleja puede llevarse a cabo mediante algoritmos como PageRank [8] y HITS [32]. Ambos toman información sobre los nodos más representativos de la red y cómo esto afecta a la red en general. PageRank es un algoritmo que analiza los enlaces ente nodos, utilizado inicialmente por el motor de búsqueda web de Google. Hyperlink-Induced Topic Search (HITS) también conocido como hubs y autoridades, es un algoritmo de análisis de enlaces que clasifica las páginas Web, desarrollado por Jon Kleinberg. Fue un precursor de PageRank. Por otro lado, también es destacable la búsqueda de comunidades en las redes sociales. Una comunidad puede ser considerada como un subconjunto de individuos con conexiones relativamente fuertes, intensivas y directas entre ellas[24]. Algunos algoritmos que se centran en abordar este problema mediante un proceso determinista son Edge Betweenness Centrality (EBC) [25] y Clique Percolation Method (CPM) [17]. Otra aproximación relacionada con la busqueda de comunidades puede encontrarse en [53], donde se utilizan diferentes mecanismos estadísticos para la detección de la comunidad. Los algoritmos genéticos también se aplican a la búsqueda de comunidades o clusters. Entre ellos se encuentran algoritmos genéticos de aglomeración [38] y algoritmos evolutivos de multi-objetivo [31] Validación del Modelo La evaluación de los modelos, en general, es muy variada. En este trabajo nos hemos enfocado en una evaluación basada en las métricas de Precisión y Recall. Para poder definirlas, es necesario definir los siguientes conceptos en relación a cómo una instancia ha sido correcta o incorrectamente clasificada: True-Positive (tp): La instancia ha sido clasificada correctamente como parte de la clase. False-Positive (fp): La instancia ha sido incorrectamente clasificada como parte de la clase. True-Negative (tn): La instancia ha sido clasificada correctamente como externa a la clase. False-Negative (fn): La instancia ha sido incorrectamente clasificada como externa a la clase. Las medidas de Precision, Recall y F-Measure se definen como sigue: P recision = Recall = F Measure = 2 tp tp + fp tp tp + fn P recision Recall P recision + Recall (2.1) (2.2) (2.3) Precision se utiliza para medir cuando una instancia que no pertenece al conjunto de clases se clasifica como parte del conjunto de la clase. Recall mide la situación en la que una instancia está debidamente tipificado de acuerdo a su clase. F-measure es una métrica que equilibra estas medidas. CAPÍTULO 2. ESTADO DEL ARTE 9

24 2.6. Aplicaciones en el Análisis de Redes Sociales En esta sección se describen algunas de las aplicaciones de Data Mining en redes sociales populares. El Análisis Social es uno de los campos donde más se trabaja desde la aparición de la Web 2.0 en Este tipo de sitios web genera una gran cantidad de información interactiva entre usuarios que originalmente utilizaban foros y chats. En 2004 Mark Zuckerberg fundó Facebook, una de las Redes Sociales más relevantes hasta la actualidad, donde se permite compartir comentarios y opiniones entre usuarios. Dos años más tarde, en 2006, Jack Dorsey creó Twitter. Esta Red Social (y los servicios de Migroblogging) es una de las más famosas y más utilizada para el análisis de datos o Social Networks Analysis Facebook Una red social puede ser analizada desde distintas perspectivas, como se ha descrito anteriormente. Facebook es un buen ejemplo de red social. Facebook es una de las redes sociales más importantes. Originalmente fue creada para intercambiar fotos entre usuarios que eran amigos entre sí dentro de la red. Hoy en día se utiliza para compartir videos, mensajes, juegos, etc. Las características más relevantes de Facebook son: La estructura de Amistad, donde los usuarios pertenecen a una comunidad de amigos formada por gente de su entorno social. El botón de Me gusta (o Like), que expresa el interés de distintos usuarios en vídeos, fotos, comentarios, etc, publicados por otros usuarios o por ellos mismos. La opción de comentar, que permite a los usuarios comentar cualquier cosa (incluso otros comentarios), generando así interacciones entre ellos. Usando esta estructura como punto de partida es posible analizar la Red generada. El análisis puede ser enfocado desde distintos puntos de vista, por ejemplo, en [23] se discuten las características mesoscópicas de la estructura de la comunidad de esta red, después de que se diera a conocer que las comunidades representan las unidades de agregación entre los que los usuarios se reúnen e interactúan; analizaron las características estadísticas de las comunidades de redes, descubriendo y caracterizando algunos patrones de ordenación seguidos por individuos que interactuan en redes sociales online. En [11] centran el trabajo en participantes de las Redes Sociales online. La información es anónima y se organiza como un grafo no dirigido. Desarrollaron un set de herramientas para analizar propiedades específicas, como el grado de la distribución, medidas de centralidad, leyes de escalada y la distribución de la amistad entre usuarios. En [3] se enfrentan a un problema de predicción de links. Dada una instantánea de una red, infieren que interacciones entre miembros existentes son propensas a ocurrir en el futuro cercano o que interacciones existentes estamos perdiendo. Finalmente, en [37] se introduce un nuevo dataset público basado en manipulaciones de Facebook. En la segunda mitad de este paper se utiliza un algoritmo de búsqueda en la comunidad para encontrar los subgrupos definidos por género, raza / origen étnico y socioeconómico Twitter Twitter es una Red Social donde la gente normalmente publica información sobre opiniones personales. La información resultante de estos intercambios de opiniones puede ser analizada. 10 CAPÍTULO 2. ESTADO DEL ARTE

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

2. MARCO TEÓRICO 2.1. GRAFOS

2. MARCO TEÓRICO 2.1. GRAFOS 2. MARCO TEÓRICO Este capítulo presenta conceptos relacionados con grafos, técnicas y herramientas de visualización de grafos. Además, incluye la definición del modelo de datos GDM (5), los operadores

Más detalles

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses Algoritmos y Estructuras de Datos 2 Web Mining Esteban Meneses 2005 Motivación La Web contiene miles de millones de documentos con información sobre casi cualquier tópico. Es la Biblioteca de Alejandría

Más detalles

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010 Inteligencia Artificial en Redes Sociales: la IA 2.0 Carlos A. Iglesias Univ. Politécnica Madrid Santiago de Compostela, 2010 Índice Inteligencia Colectiva Recomendación colectiva Minería de Opiniones

Más detalles

Web mining y obtención de información para la generación de

Web mining y obtención de información para la generación de Web mining y obtención de información para la generación de inteligencia Miguel Ángel Esteban (Universidad de Zaragoza) mesteban@unizar.es Instituto Juan Velázquez de Velasco de Investigación en Inteligencia

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos

KNime. KoNstanz Information MinEr. KNime - Introducción. KNime - Introducción. Partes de la Herramienta. Editor Window. Repositorio de Nodos KNime - Introducción KNime Significa KoNstanz Information MinEr. Se pronuncia [naim]. Fue desarrollado en la Universidad de Konstanz (Alemania). Esta escrito en Java y su entorno grafico esta desarrollado

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

PROYECTO JAZO 2007. Título. Participantes. Datos Generales. Detección y seguimiento de sucesos para euskera y español. Ametzagaiña A.I.E.

PROYECTO JAZO 2007. Título. Participantes. Datos Generales. Detección y seguimiento de sucesos para euskera y español. Ametzagaiña A.I.E. PROYECTO JAZO 2007 Título Detección y seguimiento de sucesos para euskera y español Participantes Ametzagaiña A.I.E. Datos Generales Tipo: Proyecto de Plan de Especialización Años de actividad: 2007-2008

Más detalles

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos Resultados del Proyecto ÍNDICE 1. Detección automática de B2C 2. Análisis de demanda de profesionales TICC y programas formativos 3. Análisis

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Tecnologías de Información y Comunicación II

Tecnologías de Información y Comunicación II Tecnologías de Información y Comunicación II WEB MINING WEB MINING Como Concepto Webmining es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer

Más detalles

ARCHIVO DEL LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO

ARCHIVO DEL LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO LABORATORIO DE DOCUMENTACIÓN GEOMÉTRICA DEL PATRIMONIO Grupo de Investigación en Patrimonio Construido -GPAC- (UPV-EHU) Aulario de las Nieves, edificio de Institutos Universitarias C/ Nieves Cano 33, 01006

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

340455 - REIN-I7P23 - Recuperación de la Información

340455 - REIN-I7P23 - Recuperación de la Información Unidad responsable: 340 - EPSEVG - Escuela Politécnica Superior de Ingeniería de Vilanova i la Geltrú Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO

Más detalles

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 Social Big Data Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 'Hello world!' Creador & Organizador Docente universitario El mundo

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

Usos de Data Mining y KDD en Marketing Research

Usos de Data Mining y KDD en Marketing Research Usos de Data Mining y KDD en Marketing Research Charla Alumnos Maestría Minería de Datos y Explotación Conocimiento - Facultad Ciencias Exactas y Naturales UBA Buenos Aires - Noviembre 2008 Temario Los

Más detalles

Plantilla para las VIII Jornadas de SIG libre.

Plantilla para las VIII Jornadas de SIG libre. VIII JORNADAS DE SIG LIBRE Plantilla para las VIII Jornadas de SIG libre. M. Arias de Reyna Domínguez (1) (1) Ingeniera Informática, GeoCat bv, Bennekom, Países Bajos, maria.arias@geocat.net RESUMEN GeoCat

Más detalles

TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro

TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro Julio Villena-Román 1,2, Adrián Luna-Cobos 1,3, José Carlos González-Cristóbal 3,1 1 DAEDALUS

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

CONSIDERACIONES GENERALES DEL WEB MINING

CONSIDERACIONES GENERALES DEL WEB MINING CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los

Más detalles

PRÁCTICA DE REDES SOCIALES CON GEPHI

PRÁCTICA DE REDES SOCIALES CON GEPHI PRÁCTICA DE REDES SOCIALES CON GEPHI Introducción Ahora analizaréis vuestra propia red social a partir de un mapa que generaréis por medio de un programa de visualización de redes llamado Gephi. Gephi

Más detalles

Los anexos son estrictamente confidenciales. Son la propiedad de WSI drivebiz y de sus clientes.

Los anexos son estrictamente confidenciales. Son la propiedad de WSI drivebiz y de sus clientes. 1 ANEXOS. Los anexos son estrictamente confidenciales. Son la propiedad de WSI drivebiz y de sus clientes. 1.1 ANEXO: SEO (Search engine optimization Optimización para Motores de Búsqueda). El objetivo

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Análisis de Redes Sociales

Análisis de Redes Sociales Análisis de Redes Sociales 1 sitios Web fuente Mark Newman red de terroristas fuente www.firstmonday.org red de terroristas fuente www.firstmonday.org red de citas bibliográficas fuente http://wwwcsif.cs.ucdavis.edu/~mcpherso/largegraph.html

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Bases de datos. 1. Introducción

Bases de datos. 1. Introducción Bases de datos 1. Introducción Habitualmente, los programas trabajan con información que está en un fichero. Por ejemplo, nuestro simulador de tráfico aéreo trabaja con una lista de planes de vuelo que

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

270028 - CAIM - Búsqueda y Análisis de Información Masiva

270028 - CAIM - Búsqueda y Análisis de Información Masiva Unidad responsable: 270 - FIB - Facultad de Informática de Barcelona Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO EN INGENIERÍA INFORMÁTICA (Plan

Más detalles

Texto, imágenes, video Hiperenlaces Archivo log

Texto, imágenes, video Hiperenlaces Archivo log Web Mining Web Mining Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web Texto, imágenes, video Hiperenlaces Archivo log Netcraft

Más detalles

BASES DE DATOS MIS 308

BASES DE DATOS MIS 308 2. MODELOS DE DATOS Introducción 2.1 Entidad relación 2.2 Jerárquico 2.3 De red 2.4 Relacional Introducción Hoy en día las empresas manejan una gran cantidad de datos. Cualquier empresa que se precie debe

Más detalles

Ya se definió brevemente lo que es la minería de datos, pero ahora conviene

Ya se definió brevemente lo que es la minería de datos, pero ahora conviene CAPÍTULO 2 Minería de datos y Conceptos generales 2.1 Minería de datos Ya se definió brevemente lo que es la minería de datos, pero ahora conviene elaborar un poco más sobre el tema. Se comentó anteriormente

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

Arquitectura de un Sistema Recomendador

Arquitectura de un Sistema Recomendador DCIC SR: Situación de Aplicabilidad Sistemas de Recomendación y Personalización Necesito información de películas, pero... por dónde empiezo?? Hay tanta información!! Hey! Yo te puedo recomendar:... Viviana

Más detalles

Desmitificando Big Data:

Desmitificando Big Data: Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014 'Hello world!' Creador

Más detalles

Descubrir las mejores keywords para mi campaña de marketing online

Descubrir las mejores keywords para mi campaña de marketing online Descubrir las mejores keywords para mi campaña de marketing online Índice Descubrir las mejores keywords para mi campaña de marketing online... 3 Descubrimiento de keywords con metodología manual... 5

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Pablo Martín Muñoz @edipotrebol Open Source Architect & Data Scientist Miembro de OpenDataSev y Grupo Drupal SVQ

Pablo Martín Muñoz @edipotrebol Open Source Architect & Data Scientist Miembro de OpenDataSev y Grupo Drupal SVQ Open Data Drupal Pablo Martín Muñoz @edipotrebol Open Source Architect & Data Scientist Miembro de OpenDataSev y Grupo Drupal SVQ OUR little ROADMAP http://www.flickr.com/photos/jurvetson/3277667570/ En

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Reproductor Multimedia Streaming v0.1

Reproductor Multimedia Streaming v0.1 Reproductor Multimedia Streaming v0.1 Joaquín Gutiérrez Gil Universidad Pablo de Olavide Ingeniería Técnica en Informática de Gestión Asignatura Proyecto Introducción El presente documento trata sobre

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

4 o Ingeniería Informática

4 o Ingeniería Informática Esquema del tema 1. Introducción 4 o Ingeniería Informática II26 Procesadores de lenguaje Estructura de los compiladores e intérpretes 2. Etapas del proceso de traducción 3. La interpretación 4. La arquitectura

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB Villanueva, J. (p) ; Rodríguez, V.; Ortega, F.; Mijares, A. Abstract The use of accessibility requirements in the development of

Más detalles

Propuesta de un modelo de análisis para estimación del tamaño del software y gestión de costos y riesgos a partir de requerimientos funcionales

Propuesta de un modelo de análisis para estimación del tamaño del software y gestión de costos y riesgos a partir de requerimientos funcionales Propuesta de un modelo de análisis para estimación del tamaño del software y gestión de costos y riesgos a partir de requerimientos funcionales S.Forigua, O.Ballesteros Abstract. This paper describes the

Más detalles

Cómo medir la influencia de la empresa en las redes sociales

Cómo medir la influencia de la empresa en las redes sociales Cómo medir la influencia de la empresa en las redes sociales E-BOOK naiaramiranda.com Índice 1. Introducción 2. Qué medir? 3. Herramientas y Paneles de control 3.1. Cyfe 3.2. Google Analytics: informes

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Universidad de Guadalajara

Universidad de Guadalajara Universidad de Guadalajara Centro Universitario de Ciencias Económico-Administrativas Maestría en Tecnologías de Información Ante-proyecto de Tésis Selection of a lightweight virtualization framework to

Más detalles

Resumen. Abstract 1. INTRODUCCIÓN

Resumen. Abstract 1. INTRODUCCIÓN ANÁLISIS Y PLANEAMIENTO ESTRATÉGICO PARA INTEGRAR MÓDULO DE PRODUCTOS DE UN SISTEMA LOCAL A INTERNET UTILIZANDO FIREWALL EN LINUX Y WEB SERVICE EN PHP / SQL SERVER PARA ALMACENES ESTUARDO SÁNCHEZ - ALESSA

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

DBpedia como núcleo de la Web de Datos

DBpedia como núcleo de la Web de Datos DBpedia como núcleo de la Web de Datos Departamento de Informática, Universidad de Valladolid DataWeb Compresión, Indexación y Aplicaciones sobre Grandes Colecciones de Datos http://dataweb.infor.uva.es

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

METADATOS Y SITIOS WEB

METADATOS Y SITIOS WEB Revista Digital Universitaria METADATOS Y SITIOS WEB Anabell Gamboa Comas Incubador de empresas de base tecnológica del Instituto Politécnico Nacional anabell@alethia.dgsca.unam.mx Metadatos y sitios web

Más detalles

EXPERTO EN DATA SCIENCE

EXPERTO EN DATA SCIENCE POSTgrado Ingeniería EXPERTO EN DATA SCIENCE Machine Learning (Aprendizaje Automático) Data Analytics Data Science RStudio Caret Storm Spark Random Forest IPython NumPy Recall F-Measure A/B Testing Active

Más detalles

TRABAJO ACADÉMICAMENTE DIRIGIDO

TRABAJO ACADÉMICAMENTE DIRIGIDO TRABAJO ACADÉMICAMENTE DIRIGIDO Diseño y contrucción de un prototipo para la extracción de información de redes sociales para su uso en sistemas de recomendación Profesor: Alumno: D. José Carpio Cañada

Más detalles

Recuperación de información desde diferentes perspectivas

Recuperación de información desde diferentes perspectivas Recuperación de información desde diferentes perspectivas Grupo de Ingeniería Telemática Facultad de Informática Universidade de A Coruña Diego Fernández, Víctor Carneiro, Francisco Novoa, Xacobe Macía

Más detalles

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea

Clientes Donantonio. Especificación de requisitos software. Juan José Amor David Escorial Ismael Olea Especificación de requisitos software Tabla de contenidos Juan José Amor David Escorial Ismael Olea 1. Introducción...3 1.1. Propósito...3 1.2. Ámbito del sistema...3 1.3. Definiciones, acrónimos y abreviaturas...3

Más detalles

Introducción al Marketing de Contenidos

Introducción al Marketing de Contenidos www.eduardvilanova.com Introducción al Marketing de Contenidos Palma Activa. 27 de Noviembre 2012 About me 2 @EduardVilanova es.linkedin.com/in/eduardvilanova Powerpoint descargable: www.eduardvilanova.com

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Crawlers - Arañas UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es una Araña? También se le llama robot o araña (spider, crawler). Una araña (crawler) es

Más detalles

3. Selección y Extracción de características. Selección: Extracción: -PCA -NMF

3. Selección y Extracción de características. Selección: Extracción: -PCA -NMF 3. Selección y Extracción de características Selección: - óptimos y subóptimos Extracción: -PCA - LDA - ICA -NMF 1 Selección de Características Objetivo: Seleccionar un conjunto de p variables a partir

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Emilio Soria Olivas! Antonio José Serrano López! Departamento de Ingeniería Electrónica! Escuela Técnica Superior de Ingeniería!

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Tema 3: Bases de datos en Entorno Web

Tema 3: Bases de datos en Entorno Web Tema 3: Bases de datos en Entorno Web 1. Introducción. Un sistema de bases de datos proporciona un control centralizado de los datos. Esto contrasta con la situación que prevalece actualmente, donde a

Más detalles

Búsqueda sobre catálogos basada en ontologías

Búsqueda sobre catálogos basada en ontologías Búsqueda sobre catálogos basada en ontologías Alianis Pérez Sosa, Yuniel Eliades Proenza Arias Universidad de las Ciencias Informáticas. Carretera a San Antonio Km 2 ½, Reparto Torrens, La Lisa, Ciudad

Más detalles