3.1. Introducción... 1

Tamaño: px
Comenzar la demostración a partir de la página:

Download "3.1. Introducción... 1"

Transcripción

1 ÍNDICE GENERAL Índice general 1. Recuperación de Información basada en contenido Introducción Pasado, presente y futuro Desarrollos históricos Recuperación de información en las bibliotecas La Web y las bibliotecas digitales Recuperación de Datos versus Recuperación de Información Proceso de recuperación de información Sistema de recuperación de información Recuperación de información no es sólo filtering Retos de investigación Recuperación de Información sobre Textos Proceso de Recuperación de Información Modelos de representación interna Modelo booleano Modelo vectorial Modelo probabilístico Modelos alternativos de recuperación de información Métodos de análisis de textos Preprocesamiento de documentos Procesamiento de lenguaje natural Ley de Zipf Ley de Heaps Evaluación de la recuperación Recall y precisión Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) Métodos de indexación Índices invertidos Arrays de sufijos Recuperación de Información en la Web Introducción Principales desafíos Caracterizando la Web Alternativas para el usuario Arquitectura de los motores de búsqueda Arquitectura centralizada Recuperación de Información basada en contenido i

2 ÍNDICE GENERAL Arquitectura distribuida Algoritmos de ranking Índices para la Web Algoritmos de crawling ii

3 Capítulo 1 Recuperación de Información basada en contenido 1.1. Introducción La Recuperación de Información (IR) trata la representación, almacenamiento, organización y acceso a los elementos de información. La representación y organización de los elementos de información deben proporcionar al usuario un acceso sencillo a la información en la que está interesado. La necesidad de información por parte del usuario debe traducirse en un conjunto de palabras clave (o términos índice). Dada la consulta, la meta final de un sistema IR es recuperar información que debe ser útil o relevante al usuario. El énfasis está en la recuperación de información en oposición a la recuperación de datos Pasado, presente y futuro Desarrollos históricos Desde siempre, el hombre ha organizado la información para su posterior recuperación y uso. Un ejemplo típico son las listas de contenidos de los libros. Debido el crecimiento en el volumen de información fue necesario posteriormente a recurrir a la utilización de estructuras de datos que facilitasen el acceso a la información almacenada, como es el caso de los índices. Durante muchos años, los índices fueron creados manualmente como jerarquías de categorización y, más recientemente, los ordenadores han permitido su construcción automática. Los índices automáticos proporcionan una vista del problema de recuperación más orientada al sistema que a la necesidad del usuario. A este respecto, es importante distinguir entre 2 diferentes vistas del problema de IR: orientada a la máquina y orientada al humano. En la vista orientada a la máquina, el problema de IR consiste principalmente en construir índices eficientes, procesar las consultas con un alto performance y desarrollar algoritmos de ranking que mejoren la calidad de la respuesta. En la vista orientada al usuario, el problema IR consiste principalmente en estudiar el comportamiento del usuario, comprender sus necesidades y determinar cómo afecta esa comprensión a la organización y operación del sistema de recuperación. De acuerdo a esta vista, el procesamiento de las consultas basado en palabras clave es una estrategia que probablemente no dará lugar a una buena solución. En este trabajo se analiza principalmente la vista orientada a la máquina. Recuperación de Información basada en contenido 1

4 1.3. RECUPERACIÓN DE DATOS VERSUS RECUPERACIÓN DE INFORMACIÓN Recuperación de información en las bibliotecas Las bibliotecas han sido las primeras instituciones que adoptaron sistema de IR para recuperar información. En la primera generación, los sistemas consistían básicamente en la automatización de tecnologías previas (como fichas) y la búsqueda por nombre de autor y título. En la segunda generación, se incorporaron capacidades de búsqueda por palabras clave y realización de consultas más complejas. En la generación actual, el enfoque está en las interfaces gráficas, formularios electrónicos y características de hipertexto La Web y las bibliotecas digitales Dado que los motores actuales de la Web continúan utilizando índices similares a los de las bibliotecas tradicionales, qué ha cambiado? Fundamentalmente el bajo coste, el mayor acceso y la libertad de publicación han permitido a los usuarios utilizar la Web como un medio altamente interactivo. En el futuro hay tres cuestiones que se deben añadir. La primera, que a pesar de la alta interactividad, los usuarios tienen problemas para recuperar información relevante a sus necesidades de información. Segundo, dado el incremento en la demanda de acceso, el tiempo de respuesta está siendo cada vez más un factor importante. Por último, la calidad de la recuperación se ve también muy afectada por la interacción del usuario con el sistema Recuperación de Datos versus Recuperación de Información La recuperación de datos, en el contexto de un sistema IR, consiste principalmente en determinar qué documentos de la colección contienen las palabras clave de la consulta del usuario. Esto, frecuentemente, no es suficiente para satisfacer la necesidad de información del usuario. De hecho, el usuario de un sistema IR está interesado en la recuperación de información sobre un tema y no en recuperar datos que satisfagan una consulta. Un lenguaje de recuperación de datos recupera todos los objetos que satisfagan condiciones exactamente definidas mediante una expresión regular o en álgebra relacional. Para un sistema IR, sin embargo, los objetos recuperados pueden ser inexactos y es probable que existan pequeños errores. La principal razón de esta diferencia es que IR trata con textos en lenguaje natural que no siempre están bien estructurados y pueden ser semánticamente ambigüos. Los sistemas de recuperación de datos (como una BD relacional) tratan con datos que tienen una estructura y semántica bien definidas. La recuperación de datos no resuelve el problema de recuperar información sobre un tema. Para ser efectivo en su intento de satisfacer la necesidad del usuario, el sistema IR debe interpretar el contenido de los documentos y clasificarlos de acuerdo al grado de relevancia respecto a la consulta del usuario. Esta interpretación involucra la extracción de información sintáctica y semántica del documento y su utilización para emparejar la necesidad de información del usuario. La dificultad no está únicamente en cómo extraer esta información sino también en cómo utilizarla para decidir la relevancia. Así, la noción de relevancia es el aspecto central de la recuperación de información. De hecho, la meta principal de un sistema IR es recuperar todos los documentos relevantes a la consulta del usuario intentando recuperar el menor número posible de documentos no-relevantes Proceso de recuperación de información Antes de llevar a cabo el proceso de recuperación es necesario definir la BD textual. Esto es realizado por el administrador de la BD, quien especifica: 2

5 1.5. SISTEMA DE RECUPERACIÓN DE INFORMACIÓN 1. los documentos a utilizar 2. las operaciones que se pueden aplicar al texto 3. el modelo (i.e, la estructura del texto y los elementos que se pueden recuperar). De este modo se transforman los documentos originales y se genera una vista lógica de los mismos. Una vez que está definida la vista lógica, el administrador de la BD construye un índice sobre los documentos. El índice es una estructura crítica ya que será la que acelere las búsquedas sobre grandes volúmenes de datos. Los recursos (tiempo y espacio de almacenamiento) consumidos en el proceso de creación del índice se verán compensados en el momento de las consultas. Cuando la BD documental está indexada, el proceso de recuperación puede comenzar. El usuario entonces especifica la necesidad del usuario la cual es procesada y transformada aplicándole las mismas operaciones que a los documentos obteniendo finalmente una representación interna de la misma. Posteriormente la consulta se procesa y se obtiene el conjunto de documentos respuesta. Antes de ser devueltos al usuario, los documentos recuperados se clasifican en función de su relevancia. El usuario entonces examinará los documentos recuperados para localizar la información de interés. En este punto, el usuario podría elegir el subconjunto de documentos que son verdaderamente relevantes y utilizarlos para comenzar un ciclo de realimentación del usuario. En este ciclo, el sistema utiliza los documentos seleccionados por el usuario para depurar la formulación de la consulta. Se supone que esta modificación de la consulta permitirá una mejor representación de la necesidad del usuario Sistema de recuperación de información El usuario de un sistema de recuperación tiene que traducir su necesidad de información en una consulta en el lenguaje proporcionado por el sistema. En un sistema IR esto normalmente implica especificar un conjunto de palabras que represente la semántica de la necesidad de información. En un sistema de recuperación de datos, una expresión de consulta (tal como, por ejemplo, una expresión regular) se utiliza para expresar las restricciones que deben ser satisfechas por objetos en el conjunto respuesta. En ambos casos, se dice que el usuario busca información ejecutando una tarea de recuperación. El usuario del sistema de recuperación realiza dos tareas: recuperación de datos o de información y visualización. Los sistemas de recuperación de información clásicos normalmente permiten únicamente la recuperación, mientras que los sistemas actuales (hipertextos, bibliotecas digitales, interfaces Web) intentan combinar ambas tareas Recuperación de información no es sólo filtering En un sistema IR tradicional, los documentos en la colección permanecen relativamente estáticos mientras nuevas consultas son introducidas al sistema. Este modo de operación se denomina recuperación ad hoc y es la forma habitual. Una operativa diferente es aquella en la que las consultas permanecen relativamente estáticas mientras los documentos son dinámicos. Este modo de operación se denomina filtering. En filtering se define un perfil de usuario. Los usuarios deciden cuáles son sus preferencias, y cada vez que se recibe un documento, deciden si les interesa o no. Las preferencias del usuario no cambian durante la sesión. La decisión se reserva al propio usuario. Por ello, no se trata realmente de un modelo de recuperación de información. En filtering, el paso crucial no es la clasificación sino la construcción del perfil de usuario que refleje fielmente las preferencias del usuario. Para ello, una aproximación simple es describir el perfil 3

6 1.7. RETOS DE INVESTIGACIÓN mediante un conjunto de palabras clave. Otras aproximaciones más complejas recopilan información relevante del usuario para ajustar el perfil Retos de investigación En los últimos años, el área de IR ha aumentado sus primeras metas de indexación y búsqueda de documentos dentro de una colección. Hoy en día, la investigación en IR incluye modelización, clasificación de documentos y categorización, arquitectura de sistemas, interfaces de usuario, visualización de datos, filtering, lenguajes, etc. A comienzo de los 90, un hecho cambió las percepciones iniciales - la aparición de la Web. La Web ha introducido nuevos problemas. Encontrar información útil es una tarea habitualmente tediosa y difícil. Para satisfacer la necesidad de información, el usuario debe navegar a través de los enlaces (el hiperespacio) y, en muchas ocasiones, la navegación resulta ineficiente. El obstáculo principal es la ausencia de un modelo de datos subyacente. 4

7 Capítulo 2 Recuperación de Información sobre Textos 2.1. Proceso de Recuperación de Información La recuperación de información puede verse como: Dada una necesidad de información (consulta + perfil del usuario +...) y un conjunto de documentos, ordenar los documentos por relevancia para esa necesidad y presentar un subconjunto de los más relevantes. Los sistemas de IR generalmente adoptan términos índice para indexar y recuperar documentos. En el sentido estricto, un término índice es una palabra clave (o grupo de palabras relacionadas) que tiene significado. En su forma general, un término índice es una palabra que aparece en el texto de un documento en la colección. La recuperación basada en términos índice es simple pero no incluye aspectos clave propios de la tarea de recuperación de información. Por ejemplo, la recuperación mediante términos índice adopta como característica fundamental la idea de que la semántica de los documentos y la necesidad del usuario puede ser expresada de forma natural mediante conjuntos de términos índice. Esto es una sobre-simplificación del problema porque una cantidad importante de semántica de los documentos y de la consulta se pierde cuando se sustituye el texto por un conjunto de palabras. Además, el emparejamiento entre cada documento y la consulta del usuario se realiza mediante un espacio impreciso de términos índice. Así, no sorprende que aparezcan documentos irrelevantes entre los recuperados. La insatisfacción de los usuarios Web con las respuestas que obtienen es justamente un buen ejemplo de esta situación. Un problema central en los sistemas IR es la predicción de qué documentos son relevantes y cuáles no. Esta decisión es dependiente del algoritmo de ranking que intenta establecer una ordenación simple de los documentos recuperados. Por ello, el algoritmo de ranking es crucial. Hay dos etapas para abordar el problema: 1. Elegir un modelo para calcular la relevancia de los documentos a la consulta. El modelo IR adoptado determina las predicciones sobre lo que es relevante (i.e, la noción de relevancia implementada por el sistema). Su bondad se mide comparando las respuestas del sistema contra las que un conjunto de expertos consideran relevantes. 2. Diseñar algoritmos y estructuras de datos que lo implementen (índices). Su bondad se mide considerando el tiempo de respuesta del sistema, espacio extra de los índices, tiempo de construcción y actualización del índice, etc. Todo sistema IR debe incluir tres elementos: 1. Modelo de representación interna: Forma en que serán representados internamente los documentos y la consulta. Recuperación de Información basada en contenido 1

8 2.2. MODELOS DE REPRESENTACIÓN INTERNA 2. Método de análisis (indexación): Proceso para obtener las representaciones de los documentos a partir del análisis de su contenido. 3. Cálculo de similitud entre las representaciones de los documentos y de la consulta. Se definen en el modelo de representación interna. A continuación se presentan en detalle estos elementos Modelos de representación interna Los tres modelos clásicos de IR son el modelo booleano, vectorial y probabilístico. En el modelo booleano los documentos y las consultas están representadas por conjuntos de términos índice. En el modelo vectorial, los documentos y las consultas están representadas como vectores en un espacio t-dimensional. Por ello, el modelo se denomina algebraico. En el modelo probabilístico, la herramienta para la modelización de los documentos y la consulta se basan en la teoría de la probabililidad. Veamos estos modelos en detalle Modelo booleano El modelo booleano es un modelo de recuperación simple basado en la teoría de conjuntos y en el álgebra booleana. Los documentos se representan mediante términos índice. La relevancia es binaria: un documento es relevante o no. Las consultas son expresiones booleanas del tipo: 1 palabra: un documento es relevante si y sólo si contiene la palabra AND: los documentos deben contener todas las palabras OR: los documentos deben contener alguna palabra A BUTNOT B: los documentos deben ser relevantes para A pero no para B Dada su simplicidad y formalismo claro, el modelo booleano recibió gran interés en el pasado y fue adoptado por muchos de los sistemas bibliográficos comerciales. Es de las primeras ideas que a uno se le ocurren, y es la opción preferida para manejar texto en una BD relacional. Sin embargo, es bastante malo para IR. Su estrategia de recuperación se basa en un criterio de decisión binario (i.e., un documento se relevante o no relevante) sin ninguna noción de escala. Por lo tanto, da lo mismo que un documento contenga 1 o 100 veces las palabras de la consulta, o que cumpla una ó todas las cláusulas de un OR. Tampoco considera la posibilidad de una coincidencia parcial de un documento (ej. que cumpla con casi todas las cláusulas de un AND). Es, por tanto, más un modelo de recuperación de datos que de información. Además, a muchos usuarios les resulta complicado expresar sus consultas mediante expresiones booleanas. Por ello, en la mayoría de los casos las expresiones formuladas actualmente por los usuarios son bastante simples. Para usuarios expertos puede ser adecuado, o con mejores interfaces Modelo vectorial El modelo vectorial reconoce que el uso de pesos binarios es demasiado limitado y propone un modelo en el que el emparejamiento parcial es posible. Para ello, asigna pesos no binarios a los términos índice en consultas y documentos para poder calcular posteriormente el grado de similitud entre cada documento y la consulta. Ordenando los documentos recuperados en orden decreciente en función del grado de similitud, el modelo vectorial tiene en cuenta los documentos que emparejan con 2

9 2.2. MODELOS DE REPRESENTACIÓN INTERNA los términos de la consulta parcialmente. De este modo, el conjunto respuesta es más preciso (i.e., coincide más con la necesidad del usuario) que el obtenido mediante el modelo booleano. Los documentos d j y la consulta se representan como vectores t-dimensionales, siendo t el número de términos diferentes en el conjunto de documentos. El modelo vectorial propone evaluar el grado de similitud entre el documento d j y la consulta q como la correlación entre sus vectores. Esta correlación puede ser cuantificada, por ejemplo, como el coseno del ángulo entre los dos vectores. Entre las ventajas de este modelo podrían destacarse: Su cálculo de pesos mejora el performance de recuperación. Su emparejamiento parcial permite recuperar documentos que se aproximan a la consulta. Se recuperan los documentos que superan un umbral de similitud. La aproximación mediante coseno clasifica los docs en función de su grado de similitud con la consulta. Permite retroalimentación (Relevance feedback, documents like this = Encuentra más documentos semejantes a los actuales) Teóricamente, el modelo vectorial tiene la desventaja de que se asume que los términos índice son independientes. Sin embargo, en la práctica, la consideración de dependencias entre términos puede ser una desventaja. Debido a la localidad de muchas dependencias entre términos, su aplicación indiscriminada a todos los documentos de la colección puede repercutir negativamente en el performance total. A pesar de su simplicidad, el modelo vectorial es mejor o al menos tan bueno como otras alternativas más sofisticadas. Por esta razón, hoy en día es el modelo más popular para recuperación de información Modelo probabilístico Modelos alternativos de recuperación de información Extensiones al modelo Booleano: Booleano Extendido, Conjuntos Difusos Extensiones al modelo Vectorial: Vectorial generalizado, LSI (Latent Semantic Indexing), Redes neuronales Extensiones al modelo Probabilístico: Redes Bayesianas, Redes de Inferencia Bayesiana 3

10 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS 2.3. Métodos de análisis de textos No todas las palabras son igualmente significativas para representar la semántica de un documento. En lenguaje escrito, algunas palabras tienen más significado que otras. Generalmente, los sustantivos (o grupos de sustantivos) son los más representativos del contenido de un documento. En general, se considera que merece la pena preprocesar el texto de los documentos de una colección para determinar los términos a ser utilizados como términos índice. Las operaciones de texto que se aplican durante el preprocesamiento se explican en los siguientes apartados. Sin embargo, la representación de los documentos mediante términos índice da lugar a una representación imprecisa de la semántica de los documentos en la colección. Por ejemplo, un término como the no tiene significado y puede dar lugar a la recuperación de documentos que no están relacionados con la consulta del usuario. La utilización de todas las palabras para indexar un conjunto de documentos genera mucho ruido para la tarea de recuperación. Una forma de reducir el ruido es disminuir el conjunto de palabras utilizadas para la indexación. El preprocesamiento de los documentos puede verse como un proceso para controlar el tamaño del vocabulario y mejorar así el performance de recuperación. Aunque el control del tamaño del vocabulario es una técnica habitual con los sistemas comerciales, introduce un paso adicional en el proceso de indexación que frecuentemente no es percibido por los usuarios. Como resultado, estos pueden sorprenderse con alguno de los documentos recuperados y con la ausencia de otros que esperaba. Por ejemplo, un usuario podría recordar que cierto documento contiene la cadena the house of the lord y, sin embargo, ese documento no aparece entre los recuperados (porque el vocabulario no incluye the ni of ). Por ello, algunos motores Web indexan todas las palabras del texto Preprocesamiento de documentos El preprocesamiento consiste en transformaciones para reducir el texto: 1. Análisis léxico (tokenization): Tratamiento de dígitos, signos de puntuación y mayúsculas 2. Eliminación de stopwords: Filtrado de palabras con poco significado para propósitos de recuperación 3. Stemming (lematización): Eliminación de afijos y recuperación de documentos con variaciones sintácticas de los términos de la consulta 4. Selección de términos representativos 5. Construcción de thesaurus: Expansión de la consulta original con términos relacionados Análisis léxico del texto Es el proceso de separar las palabras en el texto. Aunque a primera vista podría pensarse que esto únicamente supone el reconocimiento de los separadores de palabra, sin embargo existen varios casos (problemas) a tener en cuenta: Combinación de letras y números: UB40, Windows95, 350AC, 510A.C. Números: Para los números se suele hacer otro tipo de indexación. Además, debe tenerse en cuenta que no todos los números significan lo mismo: Motorola (nombre propio), euros (cantidad), 2003 ( año?). Cómo reconocer los números que son relevantes? En general, los números no se consideran términos índice a menos que se indique lo contrario (mediante expresiones regulares). 4

11 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Guiones y signos: Los guiones se suelen eliminar para evitar inconsistencias de uso. Sin embargo, hay palabras que poseen guiones que forman parte integral de las mismas: Zig-Zag, 3.12, B-49, U.S.A. = USA. Para estos casos, se suele recurrir a la utilización de reglas para especificar estas excepciones. Palabras Compuestas: Santa María, New York Ignorar mayúsculas y minúsculas?: Los analizadores léxicos suelen convertir el texto a minúsculas o mayúsculas. Sin embargo, una vez más, deben considerarse los escenarios particulares, por ejemplo, MIT/mit, General Motors (Motors!= motors), SAIL vs sail Separadores propios de cada idioma: estel.lar Acentos: Résumé o Resume, Papá o Papa, Léixample (Léixample ó eixample) Lenguajes Chino y Japonés: Sin espacios entre palabras Tokenización ambigüa: El japonés tiene múltiples alfabetos, la escritura en hebreo es de derecha a izquierda En general, no resulta complejo implementar estas operaciones de texto. Sin embargo, deben estudiarse las distintas excepciones con cuidado ya que pueden provocar un importante impacto en el momento de la recuperación de documentos. Esto es especialmente preocupante en aquellas situaciones en las que el usuario encuentra difícil comprender la estrategia de indexación que utiliza el sistema. Por ello, algunos motores Web están optando por no realizar algunas operaciones de texto ya que esto simplifica la interpretación del usuario. Eliminación de stopwords Las palabras que son más frecuentes en los textos de una colección no son buenos discriminantes y se denominan stopwords. Artículos, preposiciones y conjunciones, así como algunos verbos, adverbios y adjetivos son candidatos naturales para formar parte de la lista de stopwords. Son característicos de cada lenguaje por lo que se requiere detectar el idioma de cada documento tratado. La eliminación de stopwords permite reducir el tamaño de la estructura de indexación. Sin embargo, hay controversia sobre sus beneficios. La eliminación de stopwords puede empeorar el resultado de la consulta. Así, supongamos que un usuario está buscando documentos que contengan la frase to be or not to be. La eliminación de stopwords puede dejar únicamente el término be de toda la frase, haciendo casi imposible reconocer correctamente los documentos con la frase anterior. Esta es una razón por la que muchos motores Web NO lematizan. Stemming Frecuentemente, la palabra especificada por el usuario en la consulta no aparece exactamente en un documento pero sí alguna variante gramatical de la misma como plurales, gerundios, sufijos de tiempo verbal, etc. Este problema puede resolverse con la sustitución de las palabras por su raíz (stem). Un stem es la porción de una palabra que resulta de la eliminación de sus afijos (prefijos y sufijos). Un ejemplo podría ser la palabra connect que es el stem de connected, connection, connections. Los stems son interesantes ya que permiten reducir variantes de la misma raíz gramatical a un concepto común. Consecuentemente, el stemming permite reducir el tamaño de la estructura de indexación ya que el número de términos índice se reduce. Además, permite ampliar la definición de la consulta con las variantes morfológicas de los términos usados, mejorando así el performance de recuperación. Sin embargo, hay controversia en la literatura acerca de sus beneficios. 5

12 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Se pueden distinguir varios tipos de estrategias de stemming: mediante un diccionario, n-grams y eliminación de afijos. La aproximación mediante diccionario consiste en la búsqueda del stem en una tabla. Es un proceso simple pero la construcción del diccionario es costosa, por lo que esta aproximación no suele ser práctica. El stemming mediante n-grams se basa en la identificación de digramas y trigramas y se trata más de un procedimiento de clustering que stemming como tal. La eliminación de afijos es intuitiva, simple y se puede implementar eficientemente. Por ello la vemos en detalle. En eliminación de afijos, la parte más importante es la eliminación de sufijos porque la mayoría de las variantes de una palabra se generan con su introducción. El algoritmo más popular para la eliminación de sufijos es el algoritmo de Porter debido a su simplicidad y elegancia. El algoritmo de Porter usa una lista para la detección de sufijos. La técnica se basa en aplicar una serie de reglas a los sufijos de las palabras del texto. Por ejemplo, la regla s > φ se utiliza para convertir las formas plurales en singulares sustituyendo s por nulo. Siempre se busca el sufijo más largo de la palabra que empareje con los antecedentes en un conjunto de reglas. Las reglas de Porter están separadas en 5 grupos distintos. Al aplicar lematización podemos provocar dos tipos de errores: 1. Infrarradicación (understemming): Obtener distintas formas canónicas para una palabra 2. Sobrerradicación (overstemming): Obtener la misma forma canónica para dos palabras distintas Selección de términos índice La selección de términos índice puede hacerse de forma manual o automática. En este último caso, existen distintas aproximaciones, como es el caso de la identificación de grupos de sustantivos. Una frase en lenguaje natural suele estar compuesta por nombres, pronombres, artículos, verbos, adjetivos, adverbios y conectores. Dado que las palabras de cada clase gramatical tiene un propósito concreto en la frase, puede argumentarse que la mayoría de la semántica se encuentra en los sustantivos. Así, seleccionar los sustantivos (o grupos de sustantivos como guerra civil, por ejemplo) como términos índice es una estrategia interesante. Thesaurus Un thesaurus consta de: 1. Lista de palabras/frases (conceptos) importantes en un dominio. Son los componentes de indexación y generalmente son sustantivos o verbos en gerundio. 2. Un conjunto de palabras relacionadas para cada palabra anterior. Las relaciones entre conceptos pueden ser de sinonimia (car = automobile) o de generalización (Dólar > unidad monetaria > unidad de medida, Caballo > equino > mamífero > ser vivo > entidad) Los principales objetivos de un thesaurus son proporcionar un vocabulario controlado para indexación y búsqueda, y ayudar al usuario en la formulación de consultas. La utilización de un vocabulario controlado permite la normalización de los conceptos indexados, reducción del ruido, identificación de términos índice con significado semántico, y recuperación basada en conceptos, no en palabras. Estos aspectos son especialmente útiles en dominios específicos, como la medicina o jurisprudencia, para los que existe una cantidad importante de conocimiento recopilado. Sin embargo, para dominios generales, como la Web, no está tan clara su utilidad. 6

13 2.4. PROCESAMIENTO DE LENGUAJE NATURAL 2.4. Procesamiento de lenguaje natural Existen dos leyes empíricas, ampliamente aceptadas en el campo de la Recuperación de Información, que estudian la variabilidad de las palabras dentro los corpus de lenguaje natural. Se denominan Ley de Zipf y Ley de Heaps, y se detallan a continuación Ley de Zipf La Ley de Zipf [2, 8, 11] es un modelo aproximado para representar la distribución de las frecuencias de las palabras. Esta ley establece que si ordenamos las v palabras del vocabulario de un texto en orden decreciente de frecuencia, la probabilidad de la palabra más frecuente es i θ veces la de la i-ésima palabra, para todo i. Esto significa que la probabilidad de la i-ésima palabra es p i = A/i θ, donde 1 A =, y el valor de θ depende del texto. Pi 1 1/iθ La Ley de Zipf tiene dos aproximaciones. En el primer caso se considera θ = 1,0. Esta versión es muy sencilla pero también inexacta y no sigue bien la distribución real de los textos en lenguaje natural. La mayoría de los textos reales tienen un vocabulario más sesgado, de modo que los valores de θ mayores que 1 (más concretamente entre 1.4 y 1.8) se ajustan mejor [1, 2]. Esta segunda aproximación, donde θ > 1, se denomina Ley de Zipf generalizada. La Figura 2.1 ilustra las probabilidades teóricas de las palabras en un texto para distintos valores de θ. Se puede observar que cuanto más grande es el valor de θ, más sesgada es la distribución de frecuencias del corpus, mientras que valores más pequeños de θ se asocian a textos con distribuciones de frecuencia más uniformes θ = 1.00 θ = 2.00 θ = frecuencia posición palabras del vocabulario Figura 2.1: Distribución teórica de las frecuencias de las palabras en un texto para valores de θ= 1.0, 2.0 y Ley de Heaps La Ley de Heaps[5] relaciona el tamaño del vocabulario y el número total de palabras en el texto. Indica que un texto de O(n) palabras tiene un vocabulario de tamaño del orden O(n β ) para 7

14 2.5. EVALUACIÓN DE LA RECUPERACIÓN 0 < β < 1. En estudios previos [1, 7, 9] se ha demostrado que, para textos en inglés, el valor de β es lo suficientemente bajo (entre 0, 4 y 0, 6). La Figura 2.2 ilustra los tamaños de vocabulario que se obtienen con textos de distintos tamaños tomando los valores de β = 0,4, β = 0,5 y β = 0,6. Se puede observar que para un tamaño del corpus dado, el tamaño del vocabulario aumenta a medida que lo hace el parámetro β. En general, puede afirmarse que el vocabulario tiene un tamaño próximo a la raíz cuadrada del tamaño del texto β = 0.6 β = 0.5 β = 0.4 palabras en vocabulario número palabras del texto Figura 2.2: Tamaño del vocabulario para distintos valores de β La ley de Heaps es aplicable a colecciones de documentos y, por lo tanto, a la Web Evaluación de la recuperación Antes de la implementación final de un sistema de recuperación de información, se suele llevar a cabo una evaluación del sistema. Las medidas más habituales para evaluación del performance de cualquier sistema de recuperación de datos son el tiempo y el espacio. Cuanto menor sea el tiempo de respuesta y el espacio de almacenamiento utilizado, mejor será el sistema. Además, en el caso de un sistema que proporcione recuperación de información existen otras métricas interesantes. Así, los sistemas de recuperación de información requieren la evaluación de la precisión en el conjunto respuesta. Este tipo de evaluación se denomina evaluación del performance de recuperación. La evaluación del performance de recuperación se basa habitualmente en una colección de test y una medida de evaluación. La colección de test está formada por una colección de documentos, un conjunto de consultas de ejemplo y un conjunto de documentos relevantes (proporcionadas por especialistas) para cada consulta. Dada una estrategia de recuperación S, la medida de evaluación cuantifica (para cada ejemplo de consulta) la similitud entre el conjunto de documentos recuperados por S y el conjunto de documentos relevantes dado por los especialistas. Esto proporciona una estimación de la bondad de la estrategia de recuperación S. 8

15 2.5. EVALUACIÓN DE LA RECUPERACIÓN Existen dos medidas de evaluación de recuperación ampliamente utilizadas: recuperación (recall) y precisión. A continuación se explican en detalle Recall y precisión Supongamos una consulta I (de una colección de test) y su conjunto R de documentos relevantes. Sea R el número de documentos en este conjunto. Asumimos que la estrategia de recuperación a evaluar procesa la consulta I y genera un conjunto respuesta A. Sea A el número de documentos en este conjunto, y R A el número de documentos que se encuentran en la intersección de los conjuntos R y A. La Figura 2.3 ilustra estos conjuntos. Figura 2.3: Documentos recuperados y relevantes Las medidas recall y precisión se definen como sigue: El recall es la fracción de documentos relevantes (el conjunto R) que han sido recuperados, es decir: Recall = R A R La precisión es la fracción de documentos recuperados (el conjunto A) que es relevante, es decir: P recision = R A A El recall y la precisión asumen que todos los documentos en A han sido examinados. Sin embargo, al usuario no se le suelen presentar todos los documentos de la respuesta a la vez. Por el contrario, habitualmente los documentos se ordenan de acuerdo al grado de relevancia y posteriormente el usuario los examina comenzando por el documento que ocupa el puesto más alto. En esta situación, las medidas de recall y precisión varían a medida que el usuario procede con el examen del conjunto respuesta A. Esta situación puede representarse mediante una curva de precisión y recall como se muestra en la Figura 2.4. Veamos un ejemplo para explicar la gráfica anterior. Supongamos la consulta q donde R = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 } es el conjunto definido por especialistas con los 10 documentos relevantes para esa consulta. 9

16 2.5. EVALUACIÓN DE LA RECUPERACIÓN Figura 2.4: Gráfica precisión y recuperación (recall) Supongamos ahora que la ejecución de la consulta q sobre el algoritmo de recuperación a evaluar da lugar al siguiente conjunto respuesta (donde los documentos están ordenados decrecientemente por relevancia): A = {d 123, d 84, d 56, d 6, d 8, d 9, d 511, d 129, d 187, d 25, d 38, d 48, d 250, d 113, d 3 } Si analizamos esta clasificación, comenzando por el documento más relevante, puede observarse lo siguiente. Primero, el primer documento d 123 es relevante, por lo que en este punto tenemos una precisión de (i.e, del 100 %), y un recall de P recision = R A A = 1 1 = 1 Recall = R A R = 1 10 = 0,1 (i.e, del 10 %). Si continuamos analizando vemos que el siguiente documento relevante es el tercero en la lista de los recuperados. En este momento podemos decir que tenemos una precisión de aproximadamente el 66 % (2 de los 3 documentos recuperados son relevantes) y un recall del 20 % (2 de los 10 documentos relevantes han sido recuperados). De este modo se va generando una gráfica recallprecisión. Habitualmente el análisis se realiza sobre varias consultas dando lugar a una figura similar a la mostrada en Figura

17 2.6. CONSULTAS BASADAS EN PALABRA CLAVE 2.6. Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) La técnica de consulta mediante emparejamiento de patrones consiste en localizar todas las ocurrencias (o la primera) de un patrón m en un documento [4, 6, 10]. Un patrón define un conjunto de características sintácticas que deben ocurrir en el texto. La cadena de texto que satisfaga estas características se dice que empareja con el patrón. Los patrones pueden ser muy simples (palabras, por ejemplo) o complejos (como expresiones regulares). Los tipos de patrones más habituales son: palabras: secuencia de caracteres que debe dar lugar a una palabra en el texto. prefijos: cadena con la que debe comenzar una palabra. Ej: cant devolvería documentos que contengan palabras como cantaba o cantante. sufijos: cadena con la que debe finalizar una palabra. Ej: ión devolvería los documentos que contengan camión, nación o pasión. subcadenas: cadena que puede aparecer dentro de una palabra. Ej: enc devolvería textos que incluyan palabras como eficiencia, reticencia, encuadernar o creencia. La subcadena puede incluir separadores de palabras (,, blanco, ;, :, etc.). Ej: ado par devolvería documentos que incluyan analizado parcialmente, estudiado particularmente o citado para. rangos: en este caso el patrón está formado por dos cadenas, de modo que se obtienen los documentos que contengan palabras que se encuentren (alfabéticamente) entre las mismas. Ej: lado lodo devuelve textos con palabras como lamer, lectura o local. permitiendo errores: este tipo de búsqueda resulta de interés cuando se intenta evitar errores tipográficos (de tecleo, fallos de OCR, etc.). En este caso se recuperan los documentos que incluyen palabras similares al patrón. Aunque existen varios modelos de similitud entre palabras, el más empleado en el campo de la Recuperación de Textos es la distancia de edición. La distancia entre dos cadenas es el número mínimo de inserciones, borrados y sustituciones necesarias para hacerlas iguales. De este modo, la consulta debe especificar el número máximo de errores permitidos para que una palabra empareje con el patrón. Ej: una consulta casa (distancia 1) devuelve documentos con cadenas de la forma ca sa, cosa o cara. expresiones regulares: una expresión regular es un patrón más general formado por cadenas simples y los operadores: unión: si e 1 y e 2 son expresiones regulares, (e 1 e 2 ) devuelve las cadenas emparejadas con e 1 o con e 2. concatenación: si e 1 y e 2 son expresiones regulares, las ocurrencias de (e 1 e 2 ) están formadas por las ocurrencias de e 1 seguidas inmediatamente por las de e 2. De este modo, las cadenas simples pueden verse como la concatenación de caracteres simples. repetición: si e es una expresión regular, (e ) empareja con secuencias de 0 o más ocurrencias contiguas de e. Ej. de expresión regular: pro(blema teina)(s ɛ)(0 1 2)* (donde ɛ representa la cadena vacía) devuelve documentos que contengan las palabras problemas o proteina02. patrones extendidos: son subconjuntos de expresiones regulares que se expresan con una sintaxis más simple. Como cada sistema tiene sus propios patrones extendidos no hay una definición formal para los mismos. 11

18 2.7. MÉTODOS DE INDEXACIÓN Además, como ejemplos extraídos de sistemas actuales podemos destacar: tipos de caracteres: una o más posiciones dentro del patrón se emparejan con cualquier carácter dentro de un conjunto predefinido. Este tipo de patrón tiene utilidad para aplicar emparejamiento no sensible a mayúsculas/minúsculas, uso de rangos de caracteres (indicar que un carácter debe ser un dígito, por ejemplo) o uso de comodines, entre otros. expresiones condicionales: parte del patrón puede o no aparecer. combinaciones para permitir que algunas partes del patrón emparejen exactamente y otras admitan errores Métodos de indexación Todas las técnicas de búsqueda presentadas en el apartado anterior son secuenciales, es decir, recorren los documentos que forman la base de datos textual secuencialmente buscando las ocurrencias del elemento a localizar. Obviamente, la aplicación de este tipo de búsqueda directamente sólo es apropiada cuando el texto es pequeño (de pocos Megabytes) o si se trata de textos muy volátiles. En otro caso, debería recurrirse a la utilización de técnicas de indexación que agilicen las búsquedas, como las que se tratan a continuación. Concretamente, hablaremos de la técnica de índices invertidos y array de sufijos haciendo especial hincapié en la primera por ser actualmente la mejor elección para la mayoría de las aplicaciones. Los arrays de sufijos son más rápidos para búsquedas de frases y otro tipo de consultas menos comunes, pero son más complejos de construir y mantener Índices invertidos Un índice invertido es un mecanismo orientado a palabras para indexación de documentos. Es la estructura más elemental para recuperación de palabras. Está formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada término, la lista de documentos donde este aparece). La Figura?? muestra un ejemplo. Figura 2.5: Ejemplo de un índice invertido El espacio requerido para almacenar el vocabulario no es grande. De acuerdo a la ley de Heaps, el vocabulario crece O(n β ) donde β depende del texto, estando entre 0,4 y 0,6 en la práctica. Por ejemplo, para una colección de 1 Gb el vocabulario tendrá un tamaño de alrededor de 5 Mb. Además, este 12

19 2.7. MÉTODOS DE INDEXACIÓN tamaño puede reducirse si se utilizan técnicas de preprocesamiento como las comentadas anteriormente (stemming, stopwords, etc.). El tamaño de la lista de ocurrencias es más elevado. Además, su tamaño depende de la granularidad del direccionamiento. Así, si se direcciona únicamente a los documentos donde aparece cada término, el tamaño de la lista de ocurrencias es más pequeño, pero si se desea direccionar las posiciones concretas en las que aparece el término dentro de cada documento, entonces la lista de ocurrencias puede tomar un tamaño muy elevado. En ocasiones, se recurre a una situación intermedia donde se utiliza un direccionamiento por bloques. En este caso, el texto se divide en bloques, y las ocurrencias apuntan a los bloques donde aparece el término (en vez de a las posiciones exactas). Los índices clásicos que apuntan a las ocurrencias exactas de los términos se suelen denominar índices invertidos completos. Utilizando direccionamiento por bloques no sólo se reduce el número de punteros sino que además se agrupan las ocurrencias de un término dentro de un bloque con una única referencia. Con esta técnica se consiguen índices que únicamente suponen una sobrecarga (overhead) del 5 % por encima del tamaño del texto. El precio que hay que pagar es que si se precisa conocer las posiciones exactas de un término (por ejemplo, para una búsqueda por proximidad), es necesario realizar una búsqueda secuencial dentro del bloque seleccionado. Así, los índices con direccionamiento de bloque con 256 bloques no trabajan bien con textos por encima de los 200 Mb. La Tabla 2.1 presenta el espacio ocupado por los índices invertidos sobre textos de diferentes tamaños, con y sin el uso de stopwords. La inversión completa almacena las posiciones exactas de los términos, utilizando 4 bytes por puntero. El índice con direccionamiento a documento asume que los documentos tienen un tamaño de 10K (y el número necesario de bytes por puntero, es decir, 1, 2 o 3 bytes dependiendo del tamaño del texto). El índice con direccionamiento a bloque asume que utilizamos 256 o 64K bloques (1 o 2 bytes por puntero) independientemente del tamaño del texto. El tamaño de los punteros puede reducirse si se comprimen. Asumimos también que el 45 % de las palabras son stopwords y que hay una palabra no-stopword cada 11.5 caracteres. La estimación del tamaño del vocabulario está basada en la ley de Heaps. Indice Colección pequeña Colección media Colección grande (1 Mb) (200 Mb) (2 Gb) a palabras 45 % 73 % 36 % 64 % 35 % 63 % a documentos 19 % 26 % 18 % 32 % 26 % 47 % a 64K bloques 27 % 41 % 18 % 32 % 5 % 9 % a 256 bloques 18 % 25 % 1.7 % 2.4 % 0.5 % 0.7 % Tabla 2.1: Tamaño de los índices invertidos en función del tamaño del texto. La columna derecha representa el caso en que los stopwords no son indexados Los bloques pueden ser de tamaño fijo (dado por el tamaño del bloque lógico) o pueden definirse mediante una división natural de la colección en ficheros, documentos, páginas Web u otros. La división en bloques de tamaño fijo mejora la eficiencia en cuanto al tiempo de recuperación; es decir, cuanto más varíen los tamaños de bloque más cantidad de texto es necesario recorrer secuencialmente. Esto es debido a que los bloques de mayor tamaño emparejan más frecuentemente con las consultas y son más caros de recorrer. La división utilizando cortes naturales puede eliminar la necesidad de recorridos on-line cuando no se precisa un emparejamiento exacto, dado que basta con conocer las unidades de recuperación resultantes. Sin embargo, si se empaquetan muchas unidades de recuperación (páginas, documentos, etc.) en un único bloque, dicho bloque tendrá que ser recorrido para determinar las unidades a recuperar. Debe tenerse en cuenta también que para poder utilizar direccionamiento de bloque es necesario 13

20 2.7. MÉTODOS DE INDEXACIÓN disponer del documento en el momento de la búsqueda. Esto no sucede en el caso de textos remotos (como en los motores Web) o si el texto está almacenado en CD-Rom que deba ser montado, por ejemplo. Búsqueda El algoritmo de búsqueda en un fichero invertido sigue tres pasos: 1. Búsqueda en el vocabulario: Consiste en la búsqueda de las palabras y los patrones de la consulta. Las consultas por frases y proximidad se dividen en palabras. 2. Recuperación de ocurrencias: Recuperación de las listas de ocurrencias de las palabras encontradas. 3. Manipulación de ocurrencias: Resolución de operaciones boolenas, consultas de frases, proximidad, etc. Si se utiliza direccionamiento de bloque puede ser necesario buscar directamente en el texto (en caso de posiciones exactas de las palabras para la búsqueda de frases). La búsqueda comienza siempre en el vocabulario, por lo que es interesante tenerlo en un fichero separado. De este modo es posible que quepa en memoria incluso en caso de colecciones grandes. La búsqueda de términos en el vocabulario puede realizarse utilizando una estructura como hashing o árboles B. Si los términos se almacenan en orden lexicográfico, en lugar de en orden de entrada, se consigue reducir el espacio y se mejora el performance, dado que se pueden aplicar búsquedas binarias. Las consultas por prefijo o por rango pueden resolverse con búsqueda binaria o árboles-b, pero no con hashing. Si la consulta involucra varios términos, el proceso finaliza devolviendo el conjunto de ocurrencias (puede necesitarse hacer una unión de listas si el patrón incluye muchas palabras). Veamos cómo varía el proceso de búsqueda dependiendo del modelo de representación subyacente: Consulta en el modelo booleano: Buscar los términos de la consulta en el vocabulario (en memoria) usando, por ejemplo, hashing. Recuperar de disco las listas de ocurrencias de cada término. Combinar las listas de ocurrencias mediante operaciones de conjunto unión, intersección, diferencia. Consulta en el modelo vectorial: En este caso sólo interesa recuperar los R documentos con mayor similitud respecto a la consulta. Las ocurrencias de cada término están almacenados decrecientemente por tf. Partir con el término de la consulta de mayor idf y traer los R primeros documentos de su lista (si no llegamos a juntar R, seguimos con el segundo término de mayor idf). Una vez que tenemos R candidatos, seguimos recorriendo los términos de la consulta, de mayor a menor idf. Como el tf en cada lista decrece, en cierto momento podemos determinar que no es necesario seguir recorriendo la lista pues los candidatos no pueden entrar al ranking de los R mejores. Puede hacerse más eficiente cortando las listas donde se considere improbable que modifiquen el ranking. Este tipo de relajamiento es muy utilizado en los buscadores Web. Búsqueda de frases o proximidad: Este tipo de consultas resulta más complejo de resolver utilizando índices invertidos: 14

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Índices de RI UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es un Índice? Es la segunda etapa para abordar el tema de la RI. Es un archivo que contiene

Más detalles

Implementación de Máquinas de Búsqueda I: Indices y Compresión

Implementación de Máquinas de Búsqueda I: Indices y Compresión Implementación de Máquinas de Búsqueda I: Indices y Compresión Gonzalo Navarro Centro de Investigación de la Web Universidad de Chile Mapa de la Charla Modelo booleano de Recuperación de Información (RI)

Más detalles

Sistemas de Recuperación de Información

Sistemas de Recuperación de Información Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Ranking y Filtro. 3.1. Recuperación de Información

Ranking y Filtro. 3.1. Recuperación de Información Capítulo 3 Ranking y Filtro 3.1. Recuperación de Información En los sistemas de motores de búsqueda de la Web, así como en los sistemas de recuperación de información clásicos, se define un documento como

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

LENGUAJES NATURALES. TEMA. Extracción y Recuperación de Información

LENGUAJES NATURALES. TEMA. Extracción y Recuperación de Información LENGUAJES NATURALES TEMA. Extracción y Recuperación de Información FJRP. LN, 2005 16 de enero de 2006 1. Introducción Objetivos Generales: Recuperación de Información (RI): Determinar cuales son los documentos

Más detalles

DESCRIPTORES DE RENDIMIENTO

DESCRIPTORES DE RENDIMIENTO California English Language Development Test DESCRIPTORES DE RENDIMIENTO DE LA PRUEBA Este documento contiene los Descriptores de de la prueba CELDT, que describen lo que los estudiantes, por lo general,

Más detalles

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Epifanio Tula, Luis Gerónimo Medeot, Matías Daniel Universidad Tecnológica Nacional, Facultad Regional Córdoba Abstract El presente trabajo

Más detalles

Herramientas Informáticas para la Documentación Práctica 5. Búsqueda por palabra clave (Altavista)

Herramientas Informáticas para la Documentación Práctica 5. Búsqueda por palabra clave (Altavista) Herramientas Informáticas para la Documentación Práctica 5. Búsqueda por palabra clave (Altavista) Introducción y objetivos La enorme expansión del servicio web en Internet hace que lo difícil no sea tanto

Más detalles

Recuperación de Información en el Contexto de la Ciencia de la Computación

Recuperación de Información en el Contexto de la Ciencia de la Computación Recuperación de Información en el Contexto de la Ciencia de la Computación Edgar Casasola Murillo Universidad de Costa Rica Escuela de Ciencias de la Computación edgar.casasola@ecci.ucr.ac.cr Temas tratados

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Tipos Abstractos de Datos

Tipos Abstractos de Datos Objetivos Repasar los conceptos de abstracción de datos y (TAD) Diferenciar adecuadamente los conceptos de especificación e implementación de TAD Presentar la especificación algebraica como método formal

Más detalles

4 o Ingeniería Informática

4 o Ingeniería Informática Esquema del tema 1. Introducción 4 o Ingeniería Informática II26 Procesadores de lenguaje Estructura de los compiladores e intérpretes 2. Etapas del proceso de traducción 3. La interpretación 4. La arquitectura

Más detalles

Introducción a la Recuperación de información Information Retrieval

Introducción a la Recuperación de información Information Retrieval Introducción a la Recuperación de información Information Retrieval Raquel Trillo Lado (raqueltl@unizar.es) Sistemas de Información Curso 2012-2013 Guión: Recuperación de Información! Recuperación de información

Más detalles

Tema 3: Bases de datos en Entorno Web

Tema 3: Bases de datos en Entorno Web Tema 3: Bases de datos en Entorno Web 1. Introducción. Un sistema de bases de datos proporciona un control centralizado de los datos. Esto contrasta con la situación que prevalece actualmente, donde a

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

INFORMACION SOBRE LA PRUEBA VERSANT. 1. Introducción a la prueba Versant Placement Test

INFORMACION SOBRE LA PRUEBA VERSANT. 1. Introducción a la prueba Versant Placement Test INFORMACION SOBRE LA PRUEBA VERSANT. 1. Introducción a la prueba Versant Placement Test El Versant MR English Placement Test, accionado por tecnología Ordinate, consiste de un instrumento de evaluación

Más detalles

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental El proceso documental El proceso o cadena documental es la razón fundamental de un centro

Más detalles

340455 - REIN-I7P23 - Recuperación de la Información

340455 - REIN-I7P23 - Recuperación de la Información Unidad responsable: 340 - EPSEVG - Escuela Politécnica Superior de Ingeniería de Vilanova i la Geltrú Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO

Más detalles

Análisis del Sistema de Información

Análisis del Sistema de Información Análisis del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD ASI 1: DEFINICIÓN DEL SISTEMA... 6 Tarea ASI 1.1: Determinación del Alcance del Sistema... 6 Tarea ASI 1.2: Identificación

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Estructura de Datos. Unidad I Tipos de Datos

Estructura de Datos. Unidad I Tipos de Datos Estructura de Datos Unidad I Tipos de Datos Conceptos Básicos Algoritmo: es una secuencia finita de pasos o instrucciones ordenadas crono-lógicamente que describen un método para resolver un problema específico.

Más detalles

TEMA 3 Representación de la información

TEMA 3 Representación de la información TEMA 3 Representación de la información Álvarez, S., Bravo, S., Departamento de Informática y automática Universidad de Salamanca Introducción Para que el ordenador ejecute programas necesita dos tipos

Más detalles

Optimización de consultas Resumen del capítulo 14

Optimización de consultas Resumen del capítulo 14 Optimización de consultas Resumen del capítulo 14 Libro: Fundamentos de Bases de Datos Silberschatz et al. 5ed. Dr. Víctor J. Sosa Agenda 1. Visión general 2. Estimación de las estadísticas de los resultados

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales».

Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales». Búsqueda de información en la red Una de los usos más extendidos de Internet es la búsqueda de información útil para el/la usuario/a. Sin embargo, su localización no resulta siempre una tarea fácil debido

Más detalles

Apéndices técnicos. Método de representación: forma en que serán representados internamente los documentos.

Apéndices técnicos. Método de representación: forma en que serán representados internamente los documentos. APÉNDICE A: INDEXACIÓN DE INFORMACIÓN. LUCENE 1. INTRODUCCIÓN: INDEXACIÓN DE INFORMACIÓN El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los últimos

Más detalles

PROGRAMACIÓN BÁSICA DE LA COMPUTADORA. 1 Introducción. Tabla 1: Instrucciones MIPS

PROGRAMACIÓN BÁSICA DE LA COMPUTADORA. 1 Introducción. Tabla 1: Instrucciones MIPS PROGRAMACIÓN BÁSICA DE LA COMPUTADORA 1 Introducción Un sistema de computadora total incluye tanto circuitería (hardware) como programación (software). El hardware consta de los componentes físicos y todo

Más detalles

Diseño y Admón. de Bases de Datos. Ingeniería Informática curso 2010/11

Diseño y Admón. de Bases de Datos. Ingeniería Informática curso 2010/11 Laboratorio 06. Objetivos: Representación interna de un BD. Tablas, índices e índices full-text. Sesiones: 1 (24 de noviembre de 2010) Ejercicio: 1. Representación interna: 1.1. Copiar al repositorio de

Más detalles

Tema 1: Implementación del sistema de archivos

Tema 1: Implementación del sistema de archivos Tema 1: Implementación del sistema de archivos 1. Introducción 2. Implementación 3. Estructura del almacenamiento secundario Dpto. Tema Lenguajes 1: Implementación y Sistemas del Informáticos. sistema

Más detalles

270028 - CAIM - Búsqueda y Análisis de Información Masiva

270028 - CAIM - Búsqueda y Análisis de Información Masiva Unidad responsable: 270 - FIB - Facultad de Informática de Barcelona Unidad que imparte: 723 - CS - Departamento de Ciencias de la Computación Curso: Titulación: 2015 GRADO EN INGENIERÍA INFORMÁTICA (Plan

Más detalles

Unidad 2: Gestión de Memoria

Unidad 2: Gestión de Memoria Unidad 2: Gestión de Memoria Tema 3, Gestión de Memoria: 3.1 Definiciones y técnicas básicas. 3.2 Gestión de memoria contigua: Partición, fragmentación, algoritmos de ubicación... 3.3 Paginación: Estructura

Más detalles

Manual de usuario del simulador BIRD. 1 Instalación del simulador BIRD 2 Manual de usuario

Manual de usuario del simulador BIRD. 1 Instalación del simulador BIRD 2 Manual de usuario Manual de usuario del simulador BIRD 1 Instalación del simulador BIRD 2 Manual de usuario 2 MANUAL DE USUARIO DEL SIMULADOR BIRD La arquitectura y el lenguaje máquina de los procesadores comerciales son,

Más detalles

Índice. Unidad 1. Unidad 4. Unidad 5. Unidad 2. Unidad 3. Unidad 6

Índice. Unidad 1. Unidad 4. Unidad 5. Unidad 2. Unidad 3. Unidad 6 Índice Unidad 1 Capítulo 1- Las oraciones...2 Capítulo 2- Sujetos / sustantivos...7 Capítulo 3- Escritura expresiva...12 Capítulo 4- Predicados / verbos...16 Capítulo 5- Oraciones simples y oraciones compuestas...21

Más detalles

CC52D - DCC/Univ. de Chile

CC52D - DCC/Univ. de Chile Objetivos del Curso Comprender los principales desafíos de RI y sus diferencias con otras disciplinas relacionadas. CC52D - DCC/Univ. de Chile Recuperación de la Información: Modelos, Estructuras de Datos,

Más detalles

Aplicación de Técnicas de Recuperación de Información a un Glosario de Términos de Internet Desarrollado Utilizando Tecnología JSP *

Aplicación de Técnicas de Recuperación de Información a un Glosario de Términos de Internet Desarrollado Utilizando Tecnología JSP * Aplicación de Técnicas de Recuperación de Información a un Glosario de Términos de Internet Desarrollado Utilizando Tecnología JSP * Pedro Cuesta Morales 1, Manuel J. Maña López 1, Carlos Cuervo Martínez

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Temario. Índices simples Árboles B Hashing

Temario. Índices simples Árboles B Hashing Temario Introducción y fundamentos Introducción a SQL Modelo Entidad / Relación Modelo relacional Diseño relacional: formas normales Consultas Cálculo relacional Álgebra relacional Implementación de bases

Más detalles

Introducción a Excel 2013

Introducción a Excel 2013 Introducción a Excel 2013 Comenzaremos haciendo un repaso por los temas básicos de Excel. Para qué sirven las funciones y las fórmulas? Qué son las tablas? Con qué tipos de datos se trabaja? Cómo aplicamos

Más detalles

GENERALIDADES DE BASES DE DATOS

GENERALIDADES DE BASES DE DATOS GENERALIDADES DE BASES DE DATOS A fin de evitar que idénticos datos se encuentren repetidos en múltiples archivos, parece necesario que los comunes se almacenen en un archivo único y que este archivo sea

Más detalles

Introducción a la Recuperación de Información

Introducción a la Recuperación de Información Capítulo 2 Introducción a la Recuperación de Información 2.1. La Recuperación de Información La Recuperación de Información (IR, Information Retrieval) es el área de la ciencia y la tecnología que trata

Más detalles

Tema 2. Organizaciones de ficheros y estructuras de acceso

Tema 2. Organizaciones de ficheros y estructuras de acceso Tema 2. Organizaciones de ficheros y estructuras de acceso Ficheros y Bases de Datos 10 de junio de 2002 1. Introducción Este documento contiene preguntas del tema 2 recogidas por estudiantes de la asignatura

Más detalles

Metodologías utilizadas en la Búsqueda de Documentos

Metodologías utilizadas en la Búsqueda de Documentos Metodologías utilizadas en la Búsqueda de Documentos Nuestro propósito con este estudio es el de explicar los distintos métodos de que disponemos para buscar y recuperar documentos en las Empresas y Organizaciones.

Más detalles

Introducción a la Recuperación de Información. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Introducción a la Recuperación de Información. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Introducción a la Recuperación de Información UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Características de la Web Gigantesco volumen de texto. Texto altamente

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

MÉTODOS DE ORGANIZACIÓN Y ACCESO A DATOS INTRODUCCIÓN. NO : ESTRUCTURA. OPERACIONES. MANTENIMIENTO. : ESTRUCTURA. OPERACIONES. MANTENIMIENTO. MÉTODOS DE ORGANIZACIÓN Y ACCESO A DATOS : ESTRUCTURA. OPERACIONES.

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

TEMA 10. INTRODUCCCIÓN A SQL. CONSULTAS BASADAS EN UNA TABLA

TEMA 10. INTRODUCCCIÓN A SQL. CONSULTAS BASADAS EN UNA TABLA 1 TEMA 10. INTRODUCCCIÓN A SQL. CONSULTAS BASADAS EN UNA TABLA 1. Definición de SQL. Características 2. Selección del origen de los datos. Cláusula FROM 3. Selección de columnas. Columnas calculadas 4.

Más detalles

2º ITT SISTEMAS ELECTRÓNICOS 2º ITT SISTEMAS DE TELECOMUNICACIÓN 3º INGENIERÍA DE TELECOMUNICACIÓN AUTÓMATAS Y SISTEMAS DE CONTROL

2º ITT SISTEMAS ELECTRÓNICOS 2º ITT SISTEMAS DE TELECOMUNICACIÓN 3º INGENIERÍA DE TELECOMUNICACIÓN AUTÓMATAS Y SISTEMAS DE CONTROL 2º ITT SISTEMAS ELECTRÓNICOS 2º ITT SISTEMAS DE TELECOMUNICACIÓN 3º INGENIERÍA DE TELECOMUNICACIÓN AUTÓMATAS Y SISTEMAS DE CONTROL PRÁCTICA 2: INTRODUCCIÓN A MATLAB. CARACTERÍSTICAS BÁSICAS DE MATLAB Funcionalidades

Más detalles

U i n d id d a 3. El Element os á bá i s cos de un programa

U i n d id d a 3. El Element os á bá i s cos de un programa Programación Digital U id d 3 El t bá i Unidad 3. Elementos básicos de un programa 1. Concepto de Programa Es un conjunto de instrucciones (órdenes dadas a la computadora), que producirán la ejecución

Más detalles

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS Autores: Introducción Diego R. López RedIRIS diego.lopez@rediris.es El trabajo necesario para mantener un servidor de información

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

http://en.wikipedia.org/wiki/edgar_f._codd

http://en.wikipedia.org/wiki/edgar_f._codd 26/03/2012 1 http://en.wikipedia.org/wiki/edgar_f._codd Codd estableció los fundamentos del modelo relacional en el artículos de 1970 "A Relational Model of Data for Large Shared Data Banks". En adelante,

Más detalles

TEMA 1: INTRODUCCIÓN

TEMA 1: INTRODUCCIÓN 1 DISEÑO Y DESARROLLO DE COMPILADORES TEMA 1: INTRODUCCIÓN Qué es un Compilador? Un compilador no es más que un traductor, es decir, un programa que nos permite pasar información de un lenguaje a otro.

Más detalles

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa.

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. BASES DE DATOS Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. La creación de una base de datos debe ser realizada cuidadosamente procurando

Más detalles

Procesamiento y Optimización de Consultas

Procesamiento y Optimización de Consultas FACULTAD DE CIENCIAS EXACTAS Y NATURALES DEPARTAMENTO DE COMPUTACIÓN Base de Datos Autores Diego Castro Sergio D Arrigo Leticia Seijas Con la colaboración de Cecilia Briozzo y Alejandro Eidelsztein Indice

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS UNA SESIÓN EN SPSS INTRODUCCIÓN. SPSS (Statistical Product and Service Solutions) es un paquete estadístico orientado, en principio, al ámbito de aplicación de las Ciencias sociales, es uno de las herramientas

Más detalles

El Explorador es una de las aplicaciones más importantes con que cuenta

El Explorador es una de las aplicaciones más importantes con que cuenta El Explorador de Windows Características del Explorador de Windows Windows. El Explorador es una de las aplicaciones más importantes con que cuenta A través del Explorador se pueden realizar muchas tareas

Más detalles

PROGRAMACIÓ DIDÁCTICA: Secuanciación, Temporalización y Unidades Didácticas

PROGRAMACIÓ DIDÁCTICA: Secuanciación, Temporalización y Unidades Didácticas Departamento de Informática PROGRAMACIÓN DIDÁCTICA Curso 11-12 1 CONSEJERÍA DE EDUCACIÓN I.E.S. NERVIÓN Departamento de Informática CICLO FORMATIVO: TÉCNICO SUPERIOR EN DESARROLLO DE APLICACIONES MULTIPLATAFORMA.

Más detalles

DYANE Versión 4 Diseño y Análisis de Encuestas

DYANE Versión 4 Diseño y Análisis de Encuestas DYANE Versión 4 Diseño y Análisis de Encuestas Miguel Santesmases Mestre 1. DESCRIPCIÓN GENERAL DEL PROGRAMA DYANE 1. FINALIDAD Y MÉTODO DEL PROGRAMA DYANE (Diseño y Análisis de Encuestas) es un programa

Más detalles

Leica Application Suite. Archive

Leica Application Suite. Archive Leica Application Suite Archive Archivado de LAS para microscopía digital La necesidad de contar con soluciones profesionales, específicas de cada cliente para administrar datos digitales nunca había sido

Más detalles

CONTROLE SU INFORMACIÓN ANTES DE QUE ELLA LE CONTROLE A USTED

CONTROLE SU INFORMACIÓN ANTES DE QUE ELLA LE CONTROLE A USTED CONTROLE SU INFORMACIÓN ANTES DE QUE ELLA LE CONTROLE A USTED Gestión integrada de documentos y procesos La gestión documental es un proceso esencial para el correcto desempeño de una empresa, siendo a

Más detalles

Division of Instruction: Albarrán Lax Petkiewicz López Powell Traducción: María De Melo con base en: http://commoncore- espanol.

Division of Instruction: Albarrán Lax Petkiewicz López Powell Traducción: María De Melo con base en: http://commoncore- espanol. Estándares de Lectura Literatura Ideas y detalles clave Composición y estructura Quinto Grado Integración de conocimientos e ideas Nivel de lectura y nivel de complejidad del texto Composición y estructura

Más detalles

Buscadores en Internet. capítulo 05

Buscadores en Internet. capítulo 05 Buscadores en Internet capítulo 05 Buscadores en Internet buscadores 5.1 Qué son? Los buscadores de Internet o motores de búsqueda son una página web cuyo servidor contiene una base de datos con direcciones

Más detalles

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. . TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. Índice 1 INTRODUCCIÓN 2 2 CARACTERÍSTICAS 2 2.1 Características del cliente...2 2.2 Características

Más detalles

3. Modelo relacional: Estructura e integridad.

3. Modelo relacional: Estructura e integridad. Modelo relacional: Estructura e integridad 47 3. Modelo relacional: Estructura e integridad. 3.1. Introducción. El modelo de datos relacional es posterior a los modelos jerárquicos y de red. Nació como

Más detalles

Recuperación Avanzada de la Información

Recuperación Avanzada de la Información Máster en Sistemas Inteligentes Recuperación Avanzada de la Información Máster en Sistemas Inteligentes 1 Carlos G. Figuerola 1 Ángel Zazo Rodríguez 1 1 Departamento de Informática y Automática Grupo de

Más detalles

Representación de la Información en una Computadora

Representación de la Información en una Computadora Representación de la Información en una Computadora Sistemas de Numeración El sistema de numeración que utiliza el hombre es el sistema decimal (de base 10). Lo creamos en forma natural porque tenemos

Más detalles

El modelo relacional y el álgebra relacional

El modelo relacional y el álgebra relacional El modelo relacional y el álgebra relacional Introducción Esta unidad didáctica está dedicada al estudio del modelo de datos relacional y del álgebra relacional. El concepto de modelo de datos se ha presentado

Más detalles

Contenido. Sistema de archivos. Operaciones sobre archivos. Métodos de acceso a archivos. Directorio. Sistema de archivos por capas.

Contenido. Sistema de archivos. Operaciones sobre archivos. Métodos de acceso a archivos. Directorio. Sistema de archivos por capas. Contenido Sistema de archivos Operaciones sobre archivos Métodos de acceso a archivos Directorio Sistema de archivos por capas Espacio libre Sistema de archivos Proporciona el mecanismo para el almacenamiento

Más detalles

CURSO DE ADO EXPRESS/DATASNAP

CURSO DE ADO EXPRESS/DATASNAP CURSO DE ADO EXPRESS/DATASNAP EN DELPHI 7 RESUMEN DE EJERCICIOS Serie A 0 Creación de la base de datos 1 El API de ADO 2 Cadenas de conexión y propiedades 3 Tipos de cursores 4 Recuperación asíncrona 5

Más detalles

Memoria de Acceso Aleatorio. Dispositivos de Almacenamiento Masivo

Memoria de Acceso Aleatorio. Dispositivos de Almacenamiento Masivo Memoria. Definiciones Componente de una computadora que retiene datos informáticos durante algún intervalo de tiempo. Consiste en la capacidad de registrar datos y volver a incorporarlos en determinado

Más detalles

El Sistema Operativo Linux

El Sistema Operativo Linux Introducción El Sistema Operativo Linux La mayor parte de los ordenadores que existen en la actualidad están diseñados de forma que puedan ejecutar diversas tareas o programas. Es evidente, que si cada

Más detalles

Estructura de Computadores

Estructura de Computadores Estructura de Computadores Tema 2. Representación de la información Departamento de Informática Grupo de Arquitectura de Computadores, Comunicaciones y Sistemas UNIVERSIDAD CARLOS III DE MADRID Contenido

Más detalles

Inmagic: sistema de gestión de bases de datos documentales, o las razones del líder

Inmagic: sistema de gestión de bases de datos documentales, o las razones del líder Inmagic: sistema de gestión de bases de datos documentales, o las razones del líder INMAGIC ES EL PROGRA- MA de gestión de bases de datos documentales (Sgbdd) que, según informan sus distribuidores, goza

Más detalles

Profesroa: Dra. Ana Mª Muñoz Muñoz 1

Profesroa: Dra. Ana Mª Muñoz Muñoz 1 1 2 3 4 5 6 7 Fundamentos de recuperación de la información Gestión de la Información en Bases de datos Colección de elementos discretos denominados registros cuyo contenido puede ser tan variado como

Más detalles

Capítulo V Operaciones Booleanas

Capítulo V Operaciones Booleanas 85 Capítulo V Operaciones Booleanas 5.1 Introducción Es muy posible que en muchos casos sea necesario comparar dos objetos y determinar cuál es su parte común. Esto implica intersectar los dos objetos

Más detalles

BASES DE DATOS. Apuntes de Cátedra

BASES DE DATOS. Apuntes de Cátedra BASES DE DATOS Apuntes de Cátedra Definición de Bases de Datos Base de Datos es un conjunto exhaustivo no redundante de datos estructurados organizados independientemente de su utilización y su implementación

Más detalles

Introducción a compiladores. Universidad Autónoma de Aguascalientes Prof. Eduardo Serna-Pérez Correo-e: eduardo.serna@gmail.com

Introducción a compiladores. Universidad Autónoma de Aguascalientes Prof. Eduardo Serna-Pérez Correo-e: eduardo.serna@gmail.com Introducción a compiladores Universidad Autónoma de Aguascalientes Prof. Eduardo Serna-Pérez Correo-e: eduardo.serna@gmail.com Introducción a compiladores Definición de compilador Historia de los compiladores

Más detalles

Sistema de Ficheros. Sistemas Operativos - ITIG. Álvaro Polo Valdenebro. Abril 2009. apoloval@gsyc.es. GSyC - 2009 Introducción 1

Sistema de Ficheros. Sistemas Operativos - ITIG. Álvaro Polo Valdenebro. Abril 2009. apoloval@gsyc.es. GSyC - 2009 Introducción 1 Sistema de Ficheros Sistemas Operativos - ITIG Álvaro Polo Valdenebro apoloval@gsyc.es Abril 2009 GSyC - 2009 Introducción 1 c 2009 GSyC Algunos derechos reservados. Este trabajo se distribuye bajo la

Más detalles

DIAGRAMAS DE FLUJO: DFD

DIAGRAMAS DE FLUJO: DFD DIAGRAMAS DE FLUJO: DFD DFD es un programa de libre disposición para ayuda al diseño e implementación de algoritmos expresados en diagramas de flujo (DF). Además incorpora opciones para el depurado de

Más detalles

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA 27 Congreso Nacional de Estadística e Investigación Operativa Lleida, 8-11 de abril de 2003 STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA M. Calvo, A.Villarroya, A.Miñarro, S.Vives, A.Arcas Departamento

Más detalles

1 Estructura básica de un programa C++

1 Estructura básica de un programa C++ Elementos básicos de un lenguaje de alto nivel: C++ CONTENIDOS 1. Estructura básica de un programa C++. 2. Tipos de datos simples. 3. Constantes y variables en C++. Declaración. 4. Operadores y expresiones.

Más detalles

BASES DE DATOS MIS 308

BASES DE DATOS MIS 308 2. MODELOS DE DATOS Introducción 2.1 Entidad relación 2.2 Jerárquico 2.3 De red 2.4 Relacional Introducción Hoy en día las empresas manejan una gran cantidad de datos. Cualquier empresa que se precie debe

Más detalles

Webir - 2014 10/09/2014

Webir - 2014 10/09/2014 Webir - 2014 10/09/2014 Temas Recuperación tolerante a errores de ortografía y otras inconsistencias Construcción de índices 2 Búsquedas con Comodines mon* - árbol de búsqueda para las palabras del vocabulario

Más detalles

INDICE Parte I. Conceptos 1. El estudio de los lenguajes de programación 2. Cuestiones de diseño de lenguajes

INDICE Parte I. Conceptos 1. El estudio de los lenguajes de programación 2. Cuestiones de diseño de lenguajes INDICE Parte I. Conceptos 1 1. El estudio de los lenguajes de programación 1.1. Por qué estudiar lenguajes de programación? 2 1.2. Breve historia de los lenguajes de programación 1.2.1. Desarrollo de los

Más detalles

Planos de ejecución en Velneo V7

Planos de ejecución en Velneo V7 Planos de ejecución en Velneo V7 Por Jesús Arboleya Introducción 3 Arquitectura Cliente/Servidor 4 1. Objetos que siempre se ejecutan en el servidor 5 2. Objetos que siempre se ejecutan en el cliente 6

Más detalles

Introducción a los Tipos Abstractos de Datos

Introducción a los Tipos Abstractos de Datos Página 1 de 8 Introducción a los Tipos Abstractos de Datos Introducción: Concepto de abstracción Abstracción funcional y abstracción de datos Construcción de tipos abstractos de datos Especificación de

Más detalles

INSTITUTO DE EDUCACIÓN TÉCNICA PROFESIONAL INTEP T.P. Sistemas e Informática. Asignatura: Internet e Informática. Docente: Ing. Ana Milena Bueno Henao

INSTITUTO DE EDUCACIÓN TÉCNICA PROFESIONAL INTEP T.P. Sistemas e Informática. Asignatura: Internet e Informática. Docente: Ing. Ana Milena Bueno Henao TECNICAS Y HERRAMIENTAS DE BUSQUEDA EN INTERNET En Internet existe una gran cantidad de información que es posible consultar, sin embargo ésta no se encuentra clasificada, ni ordenada, por lo que encontrar

Más detalles

SOLUCIÓN: a) Signo y magnitud:

SOLUCIÓN: a) Signo y magnitud: 1. Resolver las siguientes conversiones razonando los pasos seguidos (total 3 a. Dado el número 18525 expresado en decimal, calcular su representación numérica en signo y magnitud, en complemento a 2 y

Más detalles

Introducción... 4 Conceptos básicos... 4 Qué es una base de datos?... 4 Partes de una base de datos... 4. Tablas... 4. Formularios... 5. Informes...

Introducción... 4 Conceptos básicos... 4 Qué es una base de datos?... 4 Partes de una base de datos... 4. Tablas... 4. Formularios... 5. Informes... Contenido Introducción... 4 Conceptos básicos... 4 Qué es una base de datos?... 4 Partes de una base de datos... 4 Tablas... 4 Formularios... 5 Informes... 5 Consultas... 5 Macros... 5 Módulos... 5 Partes

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Unidad 1. Introducción a los conceptos de Bases de Datos

Unidad 1. Introducción a los conceptos de Bases de Datos Unidad 1 Introducción a los conceptos de Bases de Datos 1.1 Definición de Base de Datos Dato: Conjunto de caracteres con algún significado, pueden ser numéricos, alfabéticos, o alfanuméricos. Información:

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

Para comenzar, abra el programa Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma:

Para comenzar, abra el programa Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma: 1. Descripción Generales del Paquete Estadístico SPSS. SPSS es un paquete estadístico orientado -en principio- al ámbito de aplicación de las Ciencias Sociales y que lleva en el mercado alrededor de 25

Más detalles

WINDOWS. Iniciando Windows. El mouse

WINDOWS. Iniciando Windows. El mouse Windows es un sistema operativo, cuyo nombre lo debe al principal elemento de trabajo, la ventana - en inglés window -. Este tiene características como: Multitarea: durante una sesión de trabajo, es posible

Más detalles