Webir /09/2014

Documentos relacionados
Webir /09/2014

Expresiones regulares y distancia de edición.

Tabla de Símbolos. Programación II Margarita Álvarez

Procesadores de lenguaje Tema 6 La tabla de símbolos

Alonso Ramirez Manzanares Computación y Algoritmos 03.05

Código IN_0035. Nombre WORD Categoría INFORMÁTICA. Modalidad ONLINE. Duración 50 HORAS. Vídeo. Audio. Objetivos

Estudiemos el siguiente problema, propuesto por Wirth y desarrollado por Dijkstra: Una lista de las primeras secuencias que cumplen es:

Tablas de dispersión (hash tables)

WORD Descripción. 2. Objetivos del curso. 3. Duración

Curso de Excel CURSO DE

Similitud de Secuencias: de un Par a Todas contra Todas

Excel 2007 Avanzado Revisión 1

Código IN_0034. Nombre WORD 2007 MEDIO. Categoría INFORMÁTICA. Modalidad ONLINE. Duración 25 HORAS. Vídeo. Audio. Objetivos

Conceptos básicos de bases de datos

Ejercicio corto. Ejercicio corto. Ejercicio corto. Lección 1: Introducción a Word. Lección 2: Modificaciones de documentos

Análisis y Diseño de Algoritmos Tablas de Hash

Tema 05: Tablas hash. M. en C. Edgardo Adrián Franco Martínez edgardoadrianfrancom

Estructuras de datos Árboles B

Objetivos. <?echo $telefono;?>

Tema 9. Algoritmos sobre listas. Programación Programación - Tema 9: Algoritmos sobre listas

Truco para encontrar y reemplazar líneas manuales por marcas de párrafo

Tablas Hash y árboles binarios

PAQUETE MICROSOFT 2010 COMPLETO

MICROSOFT WORD AVANZADO. Nº Horas: 18. Objetivos:

Microsoft Word 2003 (Completo)

PLAN DE ESTUDIOS DE INFORMÁTICA TERCER GRADO DE SECUNDARIA

Microsoft Word 2007 Completo

Universidad Central Del Este U.C.E. Facultad de Ciencias Administrativas y de Sistemas Escuela de Contabilidad

Operación de Microsoft Word

Diario Oficial de la Federación

Algoritmos de Strings. Héctor Navarro

Capítulo 12: Indexación y asociación

Microsoft Excel 2013 Completo

ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos


DAVID DIAZ VALDIVIA INFORMATICA APLICADA I

Procesador de texto Apunte N 4

FUNCIONES Y FÓRMULAS FUNCIONES

Centro de Capacitación en Informática

ORTOGRAFÍA Y GRAMÁTICA

APLICACIONES PRACTICAS CON EXCEL 2016

Programación. Tema 8: Tablas Hash. Apuntes elaborados por: Eduardo Quevedo, Aaron Asencio y Raquel López Revisado por: Javier Miranda el????

Ficha Revisar. Grupo Revisión

SISTEMAS INFORMÁTICOS PROGRAMACION I - Contenidos Analíticos Ing. Alejandro Guzmán M. TEMA 2. Diseño de Algoritmos

Acceso al texto completo

Gestor de bases de datos MicroSoft Access (2 de 4)

índice MÓDULO 1: Internet Explorer 6.0 Parte 1ª Herramientas de Comunicación: Internet Explorer 6.0 TEMA 1. La Red TEMA 2.

Como buscar información en la Biblioteca Virtual de Gartner?

Microsoft Word. Programa de Estudio.

Aprender a Buscar en Google

ETL Data Cleansing Matching

Contenidos. Capítulo 1 Grimaldi. Introducción Reglas. Combinación. Coeficiente. Permutación. Ejercicios 20/05/2014. sin repeticiones con repeticiones

TEMA 4 El tipo conjunto

CURSO EXPERTO EN MICROSOFT EXCEL 2013.

A toda persona que utilice o esté interesado en mejorar su dominio en el paquete ofimático de Microsoft.

5.2. Sistemas de codificación en binario

Relación de prácticas de la asignatura METODOLOGÍA DE LA PROGRAMACIÓN Segundo Cuatrimestre Curso º Grado en Informática

SISTEMAS DE APOYO A LA TOMA DE DECISIONES : DSS y EIS

Bing (proveedor de busqueda) Bing es una herramienta de búsqueda que nos ayudará a encontrar lo que buscamos de forma rápida y sencilla.

INDICE Capitulo 1. Expresiones y Ecuaciones: Suma y Resta Actividad con calculadora Matemática mental De los números al álgebra Matemática mental

Temario Word 2007 medio

Manejo de Filas, Columnas, Celdas y Rangos

Introducción a las RdP. Optimización basada en redes de Petri. Redes de Petri. Son objeto de estudio: RdP. Ejemplos:

bla bla Documentos Guía del usuario

ESCUELA DE INFORMÁTICA

EDICIÓN Y MODIFICACIÓN DE LA HOJA DE CÁLCULO

Guía de Evaluación Teórico (30 %) y Práctico (70 %)

ACCESS XP. Objetivos. Duración. 64 horas. Contenidos. Módulo 1: Introducción. Parte 1 Bienvenida Certificado MOUS Resumen

Notas de Teórico. Sistemas de Numeración

Cómo manejar el editor HTML de Moodle?

Tipos algebraicos y abstractos. Algoritmos y Estructuras de Datos I. Tipos algebraicos

Departamento de Ingeniería de Sistemas y Automática PROGRAMACION DE AUTOMÁTAS STEP 7

Microsoft Excel 2010 Completo + Profesional

Microsoft Word 2013 Completo

Resumen de las clases 6 y 9 de junio

Programación en java. Estructuras algorítmicas

Objetivos de la sesión. Aplicación de consola 7/30/11. Código con que se inicia un programa en Visual C# (aplicación de consola)

Sistemas de Información II Tema 8. Estructuras de datos en memoria secundaria

FACTORIZACIÓN. Factorizar es escribir o representar una expresión algebraica como producto de sus factores.

1 CÁLCULO CON RADICALES. Nota: Para m = 2, es l raíz cuadrada y el 2 no se escribe.

Universidad Metropolitana Castro Carazo Prof. Ing. Patricia Vargas. Material de apoyo Semana #2 PROGRAMACIÓN II

LENGUAJES NATURALES. TEMA. Extracción y Recuperación de Información

Todas las tareas que se realizan en un computador implican el uso de archivos y carpetas.

Tema 3: Multiplicación y división.

MICROSOFT WORD 2007 (FÁCIL)

Análisis y Recuperación de Información

Normas Estatales Fundamentales Comunes

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

MICROSOFT WORD AVANZADO. Nº Horas: 30. Objetivos:

Tema 5. Formato de documentos. Establecer un fondo de color Agregar una marca de agua Colocar un borde alrededor de las páginas de un documento

APUNTADORES. Un apuntador es un objeto que apunta a otro objeto. Es decir, una variable cuyo valor es la dirección de memoria de otra variable.

Revisando la ortografía

Microsoft Excel 2007 completo

Guía práctica Excel 2007

Creación de una base de datos sencilla con Access 2007

Álgebra Lineal Ma843

GUÍA RÁPIDA GUÍAS DE OVINO. Gestión de guías Ovino vía Web

Complejidad computacional (Análisis de Algoritmos)

Mó duló 04: Á lgebra Elemental I

Transcripción:

Webir - 2014 08/09/2014

Extensiones Búsqueda de conceptos, por ej. sistema operativo Medidas de cercanía, por ej. Gates cerca de Microsoft Recuperación tolerante a errores de ortografía y otras inconsistencias 2

Consultas por Conceptos o Frases Universidad de la República Universidad de la República Concepto relacionado con la cercanía de palabras Soluciones eficientes Índices de pares de palabras - biwords Índices posicionales Combinación de índices posicionales e índices de pares de palabras 3

Recuperación Tolerante a Errores de Ortografía y Otras Inconsistencias Estructuras de datos auxiliares para las búsquedas en el vocabulario del diccionario Búsquedas con comodines a*e*i*o*u automat* Errores de ortografía Búsquedas de términos fonéticamente similares 4

Estructuras de Datos Auxiliares el Vocabulario del Diccionario Búsqueda de términos Hashing Árboles de búsqueda Depende de Cuantos términos Cantidad estática Sólo se agregan términos o pueden desaparecer Frecuencia de acceso de los términos 5

Estructuras de Datos Auxiliares el Hashing Vocabulario del Diccionario Transformar cada término en un entero Resolver colisiones de forma simple Espacio grande para que hayan pocas o ninguna colisión Demasiado espacio para Internet Obsoleto en poco tiempo para Internet No hay forma de encontrar términos parecidos 6

Estructuras de Datos Auxiliares el Árboles Vocabulario del Diccionario Binarios c/nodo tiene hasta 2 hijos O(log 2 N) depende de mantenerlo balanceo Árboles-B c/nodo tiene entre [a,b] hijos Balanceados Práctico para levantar mayor porción del árbol de disco Requieren un orden asociado a los caracteres No siempre ocurre por ej. Chino 7

Estructuras de Datos Auxiliares el Vocabulario del Diccionario Árbol binario Árbol-B a-m Raiz n-z a-h i-n Raiz r-z o-r aardvark muz 8

Búsquedas con Comodines No se conoce completamente la palabra - S*dney Se busca conscientemente distintas versiones de la misma palabra - color y colour Se buscan variantes de la palabra - operating, operational, etc Se busca palabras en otros idiomas Universit* Stuttgart 9

Búsquedas con Comodines mon* - se puede encontrar en un árbol de búsqueda para las palabras del vocabulario El conjunto W de palabras con prefijo mon W búsquedas en el diccionario *mon - se puede encontrar en un árbol de búsqueda para las palabras invertidas del vocabulario árbol invertido se*mon - se puede resolver mediante ambos 10 árboles

Búsquedas con Comodines Caso general de búsqueda de la palabra q w ev. con más de un comodín - conjunto W de palabras que resuelven la consulta Buscar un conjunto Q tal que W Q Controlar las que cumplen las condiciones Indice Permuterm Indice k-gram 11

Índice Permuterm Permutaciones de las palabras hello$ ello$h llo$he lo$hel... Consulta m*n hello$ ello$h llo$he lo$hel... hello Se busca n$m* (ev. en un árbol de búsqueda) Se incrementa el tamaño del diccionario 12

Índice Permuterm Resolver fi*mo*er Buscar las palabras er$fi* (= fi*er) Filtrar las que tengan mo en el medio fishmonger pero no filibuster Buscar los términos que cumplen las condiciones en el diccionario 13

Compressed Permuterm Index Ferragina y Venturini mississippi$ ississippi$m ssissippi$mi sissippi$mis issippi$miss ssippi$missi sippi$missis ippi$mississ ppi$mississi pi$mississip i$mississipp $mississippi $ mississipp i i $mississip p i ppi$missis s i ssippi$mis s i ssissippi$ m m ississippi $ p i$mississi p p pi$mississ i s ippi$missi s s issippi$mi s s sippi$miss i s sissippi$m i L = ipssm$pissii 14

Índice k-gram Secuencias de k caracteres 3-gram de la palabra castle: cas, ast y stl $ para comenzar y finalizar las subsecuencias de una palabra $castle$: $ca, cas, ast, stl, tle, le$ etr metric retrieval... metric 15 retrieval

Índice k-gram Resolver re*ve Buscar $re AND ve$ relive, remove, retrieve Buscar los términos que cumplen las condiciones en el diccionario Resolver red* Buscar $re AND red Error retired Filtrado posterior para eliminar errores String matching 16

Correcciones Ortográficas britney spears = britian spears, britney s spears, brandy spears, prittany spears Dos formas Distancia de edición k-gram Tipos de correcciones Encontrar el término más cercano Elegir entre dos (o más) términos cercanos, grnt = grunt, grant Mayor frecuencia en la colección de documentos 17 Mayor frecuencia en las consultas de los usuarios

Correcciones Ortográficas Acciones Devolver documentos con el término original y otros términos que son correcciones del original Devolver documentos con términos que son correcciones del original sólo si el original NO aparece en el diccionario Devolver documentos con términos que son correcciones del original sólo si el original devuelve menos de m resultados Si el original devuelve menos de m resultados se presentan al usuario términos alternativos que son correcciones del original 18

Correcciones Ortográficas Términos aislados Corregir las palabras de la consulta en forma individual, aún en caso de conceptos o frases Agunas palabras se pueden NO corregir ya que no se detectan como errores Corrección sensible al contexto 19

Correcciones Ortográficas Distancia de Edición Distancia de edición entre s 1 y s 2 = mínimo número de operaciones de edición necesarias para transformar s 1 en s 2 Insertar un caracter Borrar un caracter Reemplazar un caracter por otro Se puede asignar pesos a las operaciones Reemplazar a por p es menos probable que reemplazar a por s teclado Algoritmo de programación dinámica 20

Correcciones Ortográficas Distancia de Edición Con que términos del vocabulario se debe comparar la palabra de la consulta? Heurísticas Términos que empiecen con la misma letra Versión del índice Permuterm sin $ Omitir algunas letras del comienzo y buscar en el indice Permuterm 21

Correcciones Ortográficas k-gram Buscar en el índice k-gram un conjunto de palabras con muchas subsecuencias en común con la original para buscar las más cercanas limitar aún más y usar dist. edición k? Cuántas palabras? Cuántas subsecuencias en común? Coeficiente Jaccard (medida de coincidencias) A B / A B Conjuntos de subsecuencias que superen un 22 umbral

Correcciones Ortográficas - Correccion Sensible al Contexto Corregir las palabras de la consulta en forma individual Buscar como conceptos o frases con y sin las correcciones Usar frecuencias para acotar las búsquedas En el corpus En las consultas 23

Correcciones Ortográficas - Ejercicios La distancia en edición entre s1 y s2 nunca es mayor que max{ s1, s2 } 24

Correcciones Ortográficas Hash fonético Fonética Principalmente nombres propios Algoritmos Soundex Reducir cada término a 4 caracteres Construir un índice invertido de los términos de la colección reducidos a los originales índice Soundex Construir un índice invertido de los términos de la consulta reducidos a los originales Buscar en el índice Soundex 25

Correcciones Ortográficas Soundex Clásico Variaciones en la forma de reducir los términos 1 letra y 3 dígitos (entre 0 y 9) Dejar la primera letra del término Llevar a 0 las letras a, e, i, o, u, h, w, y Llevar a 1 las letras b, f, p, v Llevar a 2 las letras c, g, j, k, q, s, x, z Llevar a 3 las letras d, t Llevar a 4 la letra l Llevar a 5 las letras m, n Llevar a 6 la letra r Eliminar digítos repetidos consecutivos, dejando sólo uno de ellos Eliminar los 0s 26 Completar las posiciones del final con 0s