Procesamiento de Texto y Modelo Vectorial



Documentos relacionados
Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Sistemas de Recuperación de Información

MODELOS DE RECUPERACION

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Análisis Estadístico de Datos Climáticos

Principios de Bases de Datos Relacionales, Normalización. Unidad 4

Análisis de medidas conjuntas (conjoint analysis)

Matrices equivalentes. El método de Gauss

Lección 24: Lenguaje algebraico y sustituciones

Profr. Efraín Soto Apolinar. Función Inversa

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Ampliación de Estructuras de Datos

Creación de Funciones de Conducción

Estructuras de Datos y Algoritmos Tecnólogo en Informática

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

Módulo 9 Sistema matemático y operaciones binarias

DISEÑO E IMPLEMENTACIÓN DE UN METABUSCADOR DE PÁRRAFOS PARA LA RECUPERACIÓN DE DOCUMENTOS SIMILARES EN LA WEB

Definición Dados dos números naturales m y n, una matriz de orden o dimensión m n es una tabla numérica rectangular con m filas y n columnas.

Tema 2. Espacios Vectoriales Introducción

QUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A)

Base de datos en Excel

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

INSTRUCTIVO DEL COMANDO MAKE

Matrices Invertibles y Elementos de Álgebra Matricial

Datos estadísticos PRESENTACIÓN DE DATOS INDIVIDUALES Y DATOS AGRUPADOS EN TABLAS Y GRÁFICOS

6. VECTORES Y COORDENADAS

BÚSQUEDA AVANZADA EN INTERNET

Estructuras de Sistemas Operativos

Configuración SEO en el Panel

GUIA PARA GENERAR PROSPECTOS Y VENTAS EN WEB

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

Técnicas para mejorar nuestro Posicionamiento

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

EJERCICIOS DE MATEMÁTICAS I HOJA 4. Ejercicio 1. Se consideran los vectores

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

ARREGLOS DEFINICION GENERAL DE ARREGLO

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib

PageRank y HITS. Felipe Bravo Márquez. 8 de noviembre de F. Bravo-Marquez PageRank y HITS

1ª PARTE MANUAL BÁSICO DE POSICIONAMIENTO WEB 1 2ª PARTE MANUAL BÁSICO DE POSICIONAMIENTO WEB 7

Cómo?: Resolviendo el sistema lineal homógeneo que satisfacen las componentes de cualquier vector de S. x4 = x 1 x 3 = x 2 x 1

CAPITULO 2 - POR QUÉ NECESITAN LAS EMPRESAS UN CUADRO DE MANDO INTEGRAL?

ANALISIS MULTIVARIANTE

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Cómo sabes si tus esfuerzos en Social Media te están dando resultados? Para eso hay que medir, y Google Analytics ha venido a ayudarnos.

Utilizamos exclusivamente técnicas seguras y aceptadas por. y sabemos entregárselo en tiempo y forma.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Instalación del programa PSPP y obtención de una distribución de frecuencias.

POSICIONAR LA WEB INTERNACIONAL, TÉCNICAS DE POSICIONAMIENTO SEO SEM

Análisis de componentes principales

Subespacios vectoriales en R n

Análisis de los datos

MICQ. Trabajo Práctico Final Seminario de Ingeniería en Informática I Facultad de Ingeniería, UBA. Junio Cátedra: Pablo Cosso

Manual para la utilización de PrestaShop

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

Los números racionales

PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO...

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

DESCRIPCIÓN DE LA METODOLOGÍA UTILIZADA EN EL PROGRAMA DE CESTAS REDUCIDAS ÓPTIMAS

Profr. Efraín Soto Apolinar. La función lineal. y = a 0 + a 1 x. y = m x + b

Algebra lineal. Un par de vectores son linealmente dependientes si existe un escalar diferente de cero que asocie ambos vectores, ejemplo: X 2 =k*x 1

Programación Genética

Clasificación Bayesiana de textos y páginas web

PUBLICAR EN LA RED. Ponente: Javier Paricio Rodríguez

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

FORMULA TOP BLOGS MARKETING

TEMA 9: EFECTOS COMERCIALES A COBRAR

Definiciones sencillas para

Análisis y diseño del sistema CAPÍTULO 3

Capítulo 1 Documentos HTML5

Relaciones y funciones

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

**NOTA** las partes tachadas todavía no están escritas, se ira actualizando poco a poco el documento

Tecnologías en la Educación Matemática. Expresiones. Datos. Expresiones Aritméticas. Expresiones Aritméticas 19/08/2014

Recomendaciones para elaborar bases de datos

Este es un ejemplo muy sencillo, un esquema de empleados que trabajan en proyectos, en una relación muchos a muchos.

Introducción a la Estadística con Excel

Que es normalización? Normalización de una base de datos Grados de normalización: Primera Forma Grados de normalización: Segunda Forma Grados de

Tutorial de MS Access Un sistema de Bases de Datos Relacional. Profesores: Hugo Mora, Ignacio Casas

Bases de datos en Excel

Instructivo de uso vfound Easy SEO v1.5.5

28.- Manejo de los Feriados

Introducción a los sitios de SharePoint en Office 365

Transformación de binario a decimal. Transformación de decimal a binario. ELECTRÓNICA DIGITAL

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

Tutorial para la creación de un blog institucional

Árboles AVL. Laboratorio de Programación II

Métodos Iterativos para Resolver Sistemas Lineales

Divisibilidad y números primos

Medidas de tendencia central o de posición: situación de los valores alrededor

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

hay alguien ahi? por Marcelino Alvarez

Tema 1. VECTORES (EN EL PLANO Y EN EL ESPACIO)

Los elementos que usualmente componen la identidad digital son:

Índice INTERNET MARKETING 1

UNIDAD 1. LOS NÚMEROS ENTEROS.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

Control Estadístico de Procesos

La ventana de Microsoft Excel

Transcripción:

Felipe Bravo Márquez 6 de noviembre de 2013

Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos que le dejan sus usuarios en sus portales Web? Cómo podemos agrupar los comentarios emitidos en un foro y analizar las opiniones de la gente? Para resolver esos problemas, hay que estudiar las siguientes áreas del conocimiento: Recuperación de Información: Ciencia encargada de la búsqueda de información en documentos. Text Mining: Extracción de conocimiento a partir del texto.

Tokens y Tipos Dado un documento d, se llama como tokenización a la tarea de separar el texto por palabras llamados tokens, además se pueden borrar caracteres especiales, como la puntación y convertir los caracteres a minúsculas [Manning et al., 2008]. Ejemplo Input: Además de inscribir Web Mining, inscribí Data Mining. Tokens: [además] [de] [inscribir] [web] [mining] [inscribí] [data] [mining] Se define como un tipo como una clase de token que contiene una única secuencia de caracteres. Se obtienen identificando los tokens iguales dentro del documento. Tipos Tipos: [además] [data] [de] [inscribí] [inscribir] [mining] [web] El token mining estaba repetido

Extracción del Vocabulario de términos [1] Un término es un tipo normalizado. Se llama vocabulario V, al conjunto de términos de una colección de documentos D. Borrado de Stopwords Para reducir la dimensión del vocabulario y eliminar términos que no aportan información, se eliminan los términos que aparecen con mucha frecuencia en la mayoría de los documentos(stopwords). Como artículos, pronombres, preposiciones y conjunciones. Ejemplo: [el, la, ellos, ellas, nosotros, un, una, de, con, a, además, ya, y, muy, otro, cuando, cuanto ]. Stemming Proceso donde se transforman los términos a su raíz para reducir la dimensión del vocabulario. Se realiza en base a un conjunto de reglas de reducción de palabras. Ejemplo: Algoritmo de Porter.

Extracción del Vocabulario de términos [2] Lematización Es otra estrategia para llevar las palabras a su raíz. Realiza un análisis morfológico por medio de diccionarios de referencia para crear clases de equivalencia entre tipos. Por ejemplo para el token saw, una regla de stemming podría construir un término s, mientras que mediante lematización un diccionario nos entregaría see. Eliminando las stopwords y haciendo uso de stemming, el vocabulario del documento d queda de la siguiente forma: termid t1 t2 t3 t4 value data inscrib mining web

Ley de Zipf [1] La ley de Zipf, propuesta por George Kingsley Zipf en [Zipf, 1935], se usa para el análisis de frecuencia de aparición de términos dentro de una colección de documentos. Dice que la frecuencia f de aparición de un término en una colección es inversamente proporcional a su ranking r en una tabla ordenada de frecuencias. f = cf r β (1) Donde cf es una constante dependiente de la colección y β > 0 modela la razón de decaimiento. Si β = 1, entonces f sigue exactamente la ley de Zipf, si no se dice que sigue una distribución Zipf-like. A mayor β menor es la calidad del lenguaje en los documentos. La ley se relaciona con el principio de mínimo esfuerzo. Usamos muchas veces unas pocas palabras para escribir las ideas.

Ley de Zipf [2] Figura: Ley de Zipf Si se realiza un gráfico log log, se obtiene una recta de pendiente β 1. Los términos más frecuentes se pueden usar para crear la lista de stopwords.

Lista de Posteo e Índice Invertido Sea D una colección de documentos y V el vocabulario de todos los términos extraídos de la colección: La lista de posteo de un término, es la lista de todos los documentos en los que aparece al menos una vez. Un índice invertido en una estructura de datos de diccionario que mapea cada término t i V a su lista de posteo. < term > < docid > Figura: Índice Invertido

Motor de Búsqueda [1] Un motor de búsqueda es un sistema de recuperación de información diseñado para la búsqueda de información en la Web [Gutiérrez et al., 2008]. Sus componentes básicos son: Crawler: Un robot que navega la Web según una estrategia definida. Generalmente comienza navegando por un conjunto de páginas semilla (seeds) y continua navegando por sus hipervínculos. Indexador: Encargado de mantener un índice invertido con el contenido de las páginas recorridas por el Crawler. Máquina de consultas: Encargado de procesar las consultas y buscar en el índice los documentos con mayor similitud a ella. Función de ranking: Es la función que tiene la máquina de consulta para rankear los documentos indexados en la colección por relevancia para una consulta. Interfaz: Interactúa con el usuario, recibe la consulta como entrada y retorna los documentos rankeados por similitud.

Motor de Búsqueda [2] Figura: Diagrama Motor de Búsqueda [Gutiérrez et al., 2008].

Modelo Vectorial Para poder rankear las consultas, o medir la similitud entre dos documentos necesitamos una métrica de similitud. Representamos los documentos como vectores de términos, donde cada término es una dimensión. A este tipos de modelos se le llame Bag of Words. Perdemos el orden de las palabras. El valor de cada dimensión, es un peso que representa la relevancia del término t i en el documento d. d j d j = (w(t 1, d j ),..., w(t V, d j )) (2) Cómo podemos modelar el aporte de información de un término en un documento?

Term Frecuency - Inverted Document Frecuency [1] Se define Tf i,j, como la frecuencia del término t i en el documento d j. Un término que aparece 10 veces debiese aportar mayor información que uno aparece una vez. Qué pasa cuando tenemos documentos muchos más largos que otros? Podemos normalizar por la frecuencia máxima de término en el documento. f i,j Tf i,j = max f i,j Un término que aparece en muy pocos documentos aporta más o menos información que uno que aparece varias veces? Por ejemplo, el documento El señor alcalde de Malloco. El término Malloco aparece en menos documentos que alcalde, por lo que debiese ser más descriptivo.

Term Frecuency - Inverted Document Frecuency [2] Sea Q el número de documentos en la colección y n i el número de documentos donde aparece el término t i, se define el idf del término t i como: idf ti = log 10 ( Q n i ) Un término que aparece en todos los documentos tendría idf = 0 y uno que aparece en el 10 % de la colección tendría idf = 1. El modelo de score Tf idf combina ambos modelos, quedando el peso w de un término sobre un documento como: w(t i, d j ) = Tf i log 10 ( Q n i ) Las consultas a un motor de búsqueda también pueden modelarse como vectores, pero las consultas tienen en promedio entre 2 y 3 términos. Para evitar tener tantas dimensiones nulas, se usa un factor de suavizamiento en el vector: w(t i, d j ) = (0,5 + 0,5 Tf i,j )log 10 ( Q n i )

Similitud entre Vectores Una vez representados, los documentos y consultas como vectores, podemos medir su similitud. Una alternativa sería usar la distancia euclidiana, pero la variabilidad de largo entre documentos afectaría a la métrica. Lo más usado es usar el coseno del ángulo entre los vectores como medida de similitud. Si los documentos son iguales, el ángulo vale 0 y el coseno 1. En cambio si son ortogonales el coseno vale 0. Los vectores, deben ser normalizados por su norma euclidiana d 2, la similitud de calcula de la siguiente manera: cos(d 1, d 2) = d 1 d 2 d 1 d 2 = V V i=1 w(t i, d 1 ) 2 V i=1 w(t i, d 2) 2 i=1 (w(t i, d 1 ) w(t i, d 1 )) Erróneamente se llama distancia coseno, realmente es una medida de similitud.

Similitud Coseno Figura: Similitud coseno.

Ejercicio Supongamos que tenemos 3 documentos, los cuales se forman a partir de las siguientes secuencias de términos: d 1 t 4 t 3 t 1 t 4 d 2 t 5 t 4 t 2 t 3 t 5 d 3 t 2 t 1 t 4 t 4 Construya una matriz término-documento de dimensión 5 3 usando los pesos Tf idf simples (sin normalización). Le recomendamos construir primero una lista con la cantidad de documentos en los que aparece cada término (para el idf) Calcule luego el idf de cada término. Llene las celdas con los valores Tf idf A qué documento está más cercano d 1?

Resultado Cuadro: Matriz Tf-idf d1 d2 d3 t1 0.176 0.000 0.176 t2 0.000 0.176 0.176 t3 0.176 0.176 0.000 t4 0.000 0.000 0.000 t5 0.000 0.954 0.000

Clustering de Documentos [1] Qué pasa si queremos agrupar los documentos de contenidos similares? Agrupamos los documentos en conjuntos, donde todos los elementos sean similares entre sí. A cada conjunto se le llama cluster. El problema de clusterizar, se basa en identificar grupos que maximicen la similitud interna dentro de un cluster y minimicen la similitud entre documentos pertenecientes a distintos clusters [Velasquez and Palade, 2008]. Figura: Conjunto de documentos donde se identifica claramente cada cluster

Clustering de Documentos [2] Permite identificar grupos de opiniones similares, o reducir el espacio de búsqueda para una consulta en un buscador. K-medias es un algoritmo simple de clustering que requiere la cantidad k de clusters a construir como parámetro. 1 Primero, se identifican aleatoriamente k elementos. Los valores de los atributos de éstos elementos se copian en nuevos elementos llamados centroides de la misma dimensión que éstos. Cada centroide representará un cluster. 2 Luego se calcula la distancia de todos los n elementos a los k centroides y se asigna cada elemento al cluster del centroide más cercano. 3 Luego se recalcula el valor de los centroides promediando el valor de los atributos de todos los elementos pertenecientes al cluster. 4 Repite el proceso de calcular las distancias, agrupar los más cercanos y recalcular los centroides hasta que éstos dejen de cambiar.

K-medias Figura: Algoritmo K-medias

References I Gutiérrez, C., Navarro, G., Baeza-Yates, R., Hurtado, C., Arenas, M., Marín, M., Piquer, J. M., Rodríguez, M., del Solar, J. R., and Velasco, J. (2008). Cómo funciona la Web. Autoeditada. Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press, New York, NY, USA. Velasquez, J. D. and Palade, V. (2008). Adaptive Web Sites: A Knowledge Extraction from Web Data Approach. Zipf, G. K. (1935). The Psychobiology of Language. Houghton-Mifflin, New York, NY, USA.