Information Retrieval:



Documentos relacionados
Acronis License Server. Guía del usuario

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Visor de presupuestos en Android

StopMotion, manual de usuario*

Manual De Intranet Docentes (versión 1.0)

PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha

Principalmente existen dos modos de gestionar nuestro gasto en teléfono móvil:

Guía Notas Parciales. Intermedio

ing Solution La forma más efectiva de llegar a sus clientes.

Tema: CREACIÓN DE CONSULTAS E INFORMES EN UNA BASE DE DATOS CON MICROSOFT ACCESS 2013.

Espacios generados, dependencia lineal y bases

Paso 2 Una vez se ha completado la instalación y ejecutado el programa, veremos esto

OPERACIÓN DE INICIO DE CURSO EN EL PROGRAMA ESCUELA

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Acerca de este manual

Manual de Webalizer. Sync-Intertainment

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

Instructivo de Instalación y Uso de software MasterControl

Manual Consultas Web - PC Sistel Ver 486R4+ - USUARIO JEFATURA

Inmediatamente se debe mostrar esta pantalla.

Comisión Nacional de Bancos y Seguros

Manual de uso. Manual de uso - citanet 1

Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor

Carrito de Compras. Esta opción dentro de Jazz la podremos utilizar como cualquier otro carrito de compras de una página de Internet.

Guía para Desplegar la Aplicación en Entorno de Producción

SISTEMAS NUMERICOS CAMILO ANDREY NEIRA IBAÑEZ UNINSANGIL INTRODUCTORIO A LA INGENIERIA LOGICA Y PROGRAMACION

Guía para configurar el monitor TCPIP

DOCENTES FORMADORES UGEL 03 PRIMARIA

Tutorial: Primeros Pasos con Subversion

Guia Rapida. Facturación x Internet. Supermercados Internacionales HEB, S.A. de C.V. Tabla de Contenido

Manual de iniciación a

Gestitrans Extensión

Instalación y uso de Check 2000 Client Server con ZENworks 2

Instructivo de Operación. Profesor SIMULADOR SIMDEF

Ejercicio de estadística para 3º de la ESO

Escudo Movistar Guía Rápida de Instalación Dispositivos Symbian

- A continuación, se nos abrirá la siguiente ventana pidiendo contraseña, que el cliente haya especificado al instalar Wingest 7

Unidad 1. Fundamentos en Gestión de Riesgos

Preguntas Frecuentes de MiCRM Enlace

MANUAL COPIAS DE SEGURIDAD

Manual PARA EL ADMINISTRADOR DE LA WEB DE PRÁCTICAS PRE PROFESIONALES Y PASANTÍAS

MAINTraq RealTime MANUAL DE OPERACIÓN 26/03/2008

MANUAL DE CS-ALMACENES

PROYECTO FINAL Manual de Configuración Organización: Juan Lomo

Guia Rapida Consulta facturas de clientes

Guía N 1: Fundamentos básicos(i)

MACROS. Automatizar tareas a través del uso de las macros.

CONECTANDO EL SOFTWARE EN REDES

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

MINING SOLUTIONS LIMITADA

SIIT SISTEMA INFORMÁTICO DE INSPECCIONES DE TRABAJO. Modulo de Planificación Manual de Usuario

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

MANUAL DE USUARIO SISTEMA DE ALMACEN DIF SONORA

Guia de Instalación de un servidor para Gerencia y Gestión de Sistemas de información:

Inducción al Laboratorio de Informática

Pagadito Payment Method para Magento plg_magento_1.0.0 Junio

INSTALACIÓN DEL MÓDULO... 3 CONFIGURACIÓN DEL MÓDULO... 4 ACTIVACIÓN DEL MÓDULO EN LA ADMINISTRACIÓN... 4 CONFIGURACIÓN DEL MÓDULO:...

COMO CREAR UNA PÁGINA WEB 2-INTRODUCCIÓN A DREAWEAVER

Programa Una laptop por niño

TRÁFICO DE PISO 2. Rev. 1 15/04/09

Base de datos en Excel

INSTRUCTIVO PARA CALIFICAR POR INTERNET

Actualización por Internet de PaintManager TM. Manual de Instalación y Uso del Programa de Actualización

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

QUE ES COMLINE MENSAJES? QUE TIPO DE MENSAJES PROCESA COMLINE MENSAJES?

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

REQUISITOS DE HARDWARE...

WINDOWS : TERMINAL SERVER

a) Presente la información en una tabla de distribución de frecuencias b) Determine e interprete: n 4

Uso del programa CALC

Instructivo. VIDEOS EN: INTRODUCCION

E³.series - Documentación

BREVE MANUAL DE SOLVER

Cálculo del Valor Agregado de las exportaciones

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Nota: Se puede tener un acceso directo definido o podemos entrar a través de la

Instructivo para ingresar a la Demo On-Line de Manager2 GO!

Creación y administración de grupos locales

MANUAL DE USO DE LAS ESTADÍSTICAS GENERADAS POR WEBALIZER

Comisión Nacional de Bancos y Seguros

ACCESO AL SERVIDOR EXCHANGE MEDIANTE OWA

Guía de referencia Repositorio de documentos Honorable Consejo Superior

Manual de ayuda. Índice: 1. Definición.. Pág Conceptos básicos... Pág Navegación.. Pág Operativa más habitual.. Pág.

Manual de operación Tausend Monitor

TUTORIAL PARA HACER BUSQUEDAS Y REALIZAR RESPALDOS EN DVR Y NVR MARCA DAHUA

Aprendiendo a programar Microcontroladores PIC en Lenguaje C con CCS

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

Manual de Introducción a SIMULINK

MANUAL DE. manual de Joomla JOOMLA

Construcción de Escenarios

Juan Carlos Serna Morales

2. Seleccione OneDrive en la parte superior de los sitios de SharePoint u Office 365 de su organización.

Curso de PHP con MySQL Gratis

Introducción a la Programación en MATLAB

MANUAL ECOMMERCE 2BYTE USO

Tecnologías Aplicadas a Business Intelligence Proyecto Práctico

Almacenamiento de CFD de Proveedores

DESARROLLO DE HABILIDADES DEL PENSAMIENTO LÓGICO

1 Espacios y subespacios vectoriales.

Transcripción:

Information Retrieval: Consiste en encontrar información, mayormente en la forma de documentos, pero que se encuentran en una forma no estructurada. Estos datos satisfacen las necesidades de grandes repositorios de datos. Existen diversas técnicas que se utilizan en Information Retrieval, en esta ocasión veremos una relacionada con text mining. Caso Práctico: Extracción de información proveniente de tweets. Se requiere descargar el paquete twitter. Para hacer esto seleccionar la opción de Install Packages: De aquí se selecciona el servidor o repositorio de paquetes de R:

- Cargarlo: FACULTAD DE INGENIERIA DE SISTEMAS, CÓMPUTO Y TELECOMUNICACIONES

library(twitter) FACULTAD DE INGENIERIA DE SISTEMAS, CÓMPUTO Y TELECOMUNICACIONES Usualmente saldrán estos tres mensajes: Recomendaciones: Grabar sus comandos en la forma de un R Script, en algunos casos puede haber incompatibilidad entre los paquetes instalados. En caso de no tener acceso a la librería twitter se puede hacer una descarga del archivo Obama de la página web. Hacer doble click en el archivo RData, esto cargará un data frame df y continuar desde(**) - Se utiliza timeline para descargar del ejemplo cierta cantidad de tweets, descargaremos 200: rdmtweets<-usertimeline("rdatamining",n=200) - Se puede visualizar de nuestra variable rdmtweets la información que tiene como si fuera un vector: rdmtweets[1:10] Nota: La nomenclatura [[n]] se refiere al índice dentro de una lista, el segundo índice se refiere al elemento de la lista. Paso opcional: Si se desea de que los tweets salgan impresos en forma de lista se puede usar el siguiente código: for (i in 1:10) + { + cat(paste("[[",i,"]]",sep="")) + writelines(strwrap(rdmtweets[[i]]$gettext(),width=73)) + }

Concepto de Corpus: También conocido como plural corpora o text corpus, consiste en un conjunto de textos estructurados. Se utilizan para análisis estadísticos. Ejemplo: Bank of English - Se puede convertir nuestros datos a un corpus, para luego manipularlo. Primeramente se debe convertir a un data.frame #do.call(what,args) ejecuta una función, what es la función y args son los argumentos con los cuales se utilizaría dicha función. Para este caso se va a ensamblar la lista de tweets en una estructura más simple con rbind. #rbind combina datos por filas #lapply(datos,función) aplica la función sobre todos los datos y retorna una lista. > #conversión de tweets a un data frame > df<-do.call("rbind",lapply(rdmtweets,as.data.frame)) La información después de lapply sería: Después de aplicar do.call la información quedaría agrupada en filas:

- Para convertir el texto a un corpus se puede utilizar la librería de text mining lm: (**) library(tm) m.corpus<-corpus(vectorsource(df$text)) Limpieza de los datos: Los datos textuales antes de ser procesados deben de ser limpiados, por ejemplo se debe de remover signos de puntuación, números, urls y otros elementos que pueden impedir su correcta clasificación. Algunas operaciones básicas: m.corpus<-tm_map(m.corpus,tolower) Si se quieren visualizar los cambios, se puede utilizar la instrucción inspect: inspect(m.corpus[1:5])

Nota: Los stop words son palabras que no brindan más información al contexto del cual se esté tratando. - Sacar los stop words de los tweets: m.corpus<-tm_map(m.corpus,removewords,stopwords)

Stemming Words: FACULTAD DE INGENIERIA DE SISTEMAS, CÓMPUTO Y TELECOMUNICACIONES Se le conoce como palabras derivadas Consiste en obtener la raíz de las palabras de tal modo que no se vea afectada por sus diversos sufijos. Ejemplo: wait, waits, waited - Para este proceso de stemming lo que se hará es conseguir las raíces de las palabras, luego estas se compararán con el listado de palabras antes del stem. Este último paso es para que se escojan las palabras que tengan mayor frecuencia: - Instalar los siguientes paquetes: Snowball, RWeka, rjava y RWekajars m.copiacorpus<-m.corpus

El comando stemcompletion, completa las palabras procesadas mediante stem mediante un diccionario. Construcción de una matriz de términos y documentos: Representa las relaciones entre términos y documentos. En las filas se colocarán las palabras o términos y en las columnas los documentos. #TermDocumentMatrix su parámetro control=list(wordlenghts=c(1,inf)) define que todos los términos serán usados, se pueden eliminar los valores máximos y mínimos Term frequency: Mide cuantas veces una palabra se encuentra en una colección de documentos. - Obteniendo la frecuencia de términos

- Visualización de datos mediante un gráfico de barras. Descargar la librería ggplot2 termfrecuencia<-rowsums(as.matrix(matriz.td)) > termfrecuencia<-subset(termfrecuencia,termfrecuencia>=10) > library(ggplot2) > qplot(names(termfrecuencia),termfrecuencia,geom="bar")+coord_flip() Nube de Palabras: Sirve para determinar la importancia de las palabras. Para este proceso la matriz de términos y documentos se convierte a una matriz normal, luego se calculará la frecuencia de palabras. - Instalar el paquete wordcloud library(wordcloud) > m<-as.matrix(matriz.td) > freqpalabras<-sort(rowsums(m),decreasing=true) > set.seed(375) > graylevels<-gray((freqpalabras+10)/(max(freqpalabras)+10))

> wordcloud(words=names(freqpalabras),freq=freqpalabras,min.freq=3,random.order=f,colors=graylevels) Referencias: (tomadas sin ninguna estructura en particular) [1] Introduction to Information Retrieval, disponible en: http://nlp.stanford.edu/ir-book/pdf/01bool.pdf [2] R and Data Mining: Examples and Case Studies, disponible en: http://www.rdatamining.com/docs [3] http://cran.r-project.org/doc/manuals/r-intro.html#lists [4] http://cran.r-project.org/doc/manuals/r-lang.html