3.1. Introducción... 1

Tamaño: px
Comenzar la demostración a partir de la página:

Download "3.1. Introducción... 1"

Transcripción

1 ÍNDICE GENERAL Índice general 1. Recuperación de Información basada en contenido Introducción Pasado, presente y futuro Desarrollos históricos Recuperación de información en las bibliotecas La Web y las bibliotecas digitales Recuperación de Datos versus Recuperación de Información Proceso de recuperación de información Sistema de recuperación de información Recuperación de información no es sólo filtering Retos de investigación Recuperación de Información sobre Textos Proceso de Recuperación de Información Modelos de representación interna Modelo booleano Modelo vectorial Modelo probabilístico Modelos alternativos de recuperación de información Métodos de análisis de textos Preprocesamiento de documentos Procesamiento de lenguaje natural Ley de Zipf Ley de Heaps Evaluación de la recuperación Recall y precisión Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) Métodos de indexación Índices invertidos Arrays de sufijos Recuperación de Información en la Web Introducción Principales desafíos Caracterizando la Web Alternativas para el usuario Arquitectura de los motores de búsqueda Arquitectura centralizada Recuperación de Información basada en contenido i

2 ÍNDICE GENERAL Arquitectura distribuida Algoritmos de ranking Índices para la Web Algoritmos de crawling ii

3 Capítulo 1 Recuperación de Información basada en contenido 1.1. Introducción La Recuperación de Información (IR) trata la representación, almacenamiento, organización y acceso a los elementos de información. La representación y organización de los elementos de información deben proporcionar al usuario un acceso sencillo a la información en la que está interesado. La necesidad de información por parte del usuario debe traducirse en un conjunto de palabras clave (o términos índice). Dada la consulta, la meta final de un sistema IR es recuperar información que debe ser útil o relevante al usuario. El énfasis está en la recuperación de información en oposición a la recuperación de datos Pasado, presente y futuro Desarrollos históricos Desde siempre, el hombre ha organizado la información para su posterior recuperación y uso. Un ejemplo típico son las listas de contenidos de los libros. Debido el crecimiento en el volumen de información fue necesario posteriormente a recurrir a la utilización de estructuras de datos que facilitasen el acceso a la información almacenada, como es el caso de los índices. Durante muchos años, los índices fueron creados manualmente como jerarquías de categorización y, más recientemente, los ordenadores han permitido su construcción automática. Los índices automáticos proporcionan una vista del problema de recuperación más orientada al sistema que a la necesidad del usuario. A este respecto, es importante distinguir entre 2 diferentes vistas del problema de IR: orientada a la máquina y orientada al humano. En la vista orientada a la máquina, el problema de IR consiste principalmente en construir índices eficientes, procesar las consultas con un alto performance y desarrollar algoritmos de ranking que mejoren la calidad de la respuesta. En la vista orientada al usuario, el problema IR consiste principalmente en estudiar el comportamiento del usuario, comprender sus necesidades y determinar cómo afecta esa comprensión a la organización y operación del sistema de recuperación. De acuerdo a esta vista, el procesamiento de las consultas basado en palabras clave es una estrategia que probablemente no dará lugar a una buena solución. En este trabajo se analiza principalmente la vista orientada a la máquina. Recuperación de Información basada en contenido 1

4 1.3. RECUPERACIÓN DE DATOS VERSUS RECUPERACIÓN DE INFORMACIÓN Recuperación de información en las bibliotecas Las bibliotecas han sido las primeras instituciones que adoptaron sistema de IR para recuperar información. En la primera generación, los sistemas consistían básicamente en la automatización de tecnologías previas (como fichas) y la búsqueda por nombre de autor y título. En la segunda generación, se incorporaron capacidades de búsqueda por palabras clave y realización de consultas más complejas. En la generación actual, el enfoque está en las interfaces gráficas, formularios electrónicos y características de hipertexto La Web y las bibliotecas digitales Dado que los motores actuales de la Web continúan utilizando índices similares a los de las bibliotecas tradicionales, qué ha cambiado? Fundamentalmente el bajo coste, el mayor acceso y la libertad de publicación han permitido a los usuarios utilizar la Web como un medio altamente interactivo. En el futuro hay tres cuestiones que se deben añadir. La primera, que a pesar de la alta interactividad, los usuarios tienen problemas para recuperar información relevante a sus necesidades de información. Segundo, dado el incremento en la demanda de acceso, el tiempo de respuesta está siendo cada vez más un factor importante. Por último, la calidad de la recuperación se ve también muy afectada por la interacción del usuario con el sistema Recuperación de Datos versus Recuperación de Información La recuperación de datos, en el contexto de un sistema IR, consiste principalmente en determinar qué documentos de la colección contienen las palabras clave de la consulta del usuario. Esto, frecuentemente, no es suficiente para satisfacer la necesidad de información del usuario. De hecho, el usuario de un sistema IR está interesado en la recuperación de información sobre un tema y no en recuperar datos que satisfagan una consulta. Un lenguaje de recuperación de datos recupera todos los objetos que satisfagan condiciones exactamente definidas mediante una expresión regular o en álgebra relacional. Para un sistema IR, sin embargo, los objetos recuperados pueden ser inexactos y es probable que existan pequeños errores. La principal razón de esta diferencia es que IR trata con textos en lenguaje natural que no siempre están bien estructurados y pueden ser semánticamente ambigüos. Los sistemas de recuperación de datos (como una BD relacional) tratan con datos que tienen una estructura y semántica bien definidas. La recuperación de datos no resuelve el problema de recuperar información sobre un tema. Para ser efectivo en su intento de satisfacer la necesidad del usuario, el sistema IR debe interpretar el contenido de los documentos y clasificarlos de acuerdo al grado de relevancia respecto a la consulta del usuario. Esta interpretación involucra la extracción de información sintáctica y semántica del documento y su utilización para emparejar la necesidad de información del usuario. La dificultad no está únicamente en cómo extraer esta información sino también en cómo utilizarla para decidir la relevancia. Así, la noción de relevancia es el aspecto central de la recuperación de información. De hecho, la meta principal de un sistema IR es recuperar todos los documentos relevantes a la consulta del usuario intentando recuperar el menor número posible de documentos no-relevantes Proceso de recuperación de información Antes de llevar a cabo el proceso de recuperación es necesario definir la BD textual. Esto es realizado por el administrador de la BD, quien especifica: 2

5 1.5. SISTEMA DE RECUPERACIÓN DE INFORMACIÓN 1. los documentos a utilizar 2. las operaciones que se pueden aplicar al texto 3. el modelo (i.e, la estructura del texto y los elementos que se pueden recuperar). De este modo se transforman los documentos originales y se genera una vista lógica de los mismos. Una vez que está definida la vista lógica, el administrador de la BD construye un índice sobre los documentos. El índice es una estructura crítica ya que será la que acelere las búsquedas sobre grandes volúmenes de datos. Los recursos (tiempo y espacio de almacenamiento) consumidos en el proceso de creación del índice se verán compensados en el momento de las consultas. Cuando la BD documental está indexada, el proceso de recuperación puede comenzar. El usuario entonces especifica la necesidad del usuario la cual es procesada y transformada aplicándole las mismas operaciones que a los documentos obteniendo finalmente una representación interna de la misma. Posteriormente la consulta se procesa y se obtiene el conjunto de documentos respuesta. Antes de ser devueltos al usuario, los documentos recuperados se clasifican en función de su relevancia. El usuario entonces examinará los documentos recuperados para localizar la información de interés. En este punto, el usuario podría elegir el subconjunto de documentos que son verdaderamente relevantes y utilizarlos para comenzar un ciclo de realimentación del usuario. En este ciclo, el sistema utiliza los documentos seleccionados por el usuario para depurar la formulación de la consulta. Se supone que esta modificación de la consulta permitirá una mejor representación de la necesidad del usuario Sistema de recuperación de información El usuario de un sistema de recuperación tiene que traducir su necesidad de información en una consulta en el lenguaje proporcionado por el sistema. En un sistema IR esto normalmente implica especificar un conjunto de palabras que represente la semántica de la necesidad de información. En un sistema de recuperación de datos, una expresión de consulta (tal como, por ejemplo, una expresión regular) se utiliza para expresar las restricciones que deben ser satisfechas por objetos en el conjunto respuesta. En ambos casos, se dice que el usuario busca información ejecutando una tarea de recuperación. El usuario del sistema de recuperación realiza dos tareas: recuperación de datos o de información y visualización. Los sistemas de recuperación de información clásicos normalmente permiten únicamente la recuperación, mientras que los sistemas actuales (hipertextos, bibliotecas digitales, interfaces Web) intentan combinar ambas tareas Recuperación de información no es sólo filtering En un sistema IR tradicional, los documentos en la colección permanecen relativamente estáticos mientras nuevas consultas son introducidas al sistema. Este modo de operación se denomina recuperación ad hoc y es la forma habitual. Una operativa diferente es aquella en la que las consultas permanecen relativamente estáticas mientras los documentos son dinámicos. Este modo de operación se denomina filtering. En filtering se define un perfil de usuario. Los usuarios deciden cuáles son sus preferencias, y cada vez que se recibe un documento, deciden si les interesa o no. Las preferencias del usuario no cambian durante la sesión. La decisión se reserva al propio usuario. Por ello, no se trata realmente de un modelo de recuperación de información. En filtering, el paso crucial no es la clasificación sino la construcción del perfil de usuario que refleje fielmente las preferencias del usuario. Para ello, una aproximación simple es describir el perfil 3

6 1.7. RETOS DE INVESTIGACIÓN mediante un conjunto de palabras clave. Otras aproximaciones más complejas recopilan información relevante del usuario para ajustar el perfil Retos de investigación En los últimos años, el área de IR ha aumentado sus primeras metas de indexación y búsqueda de documentos dentro de una colección. Hoy en día, la investigación en IR incluye modelización, clasificación de documentos y categorización, arquitectura de sistemas, interfaces de usuario, visualización de datos, filtering, lenguajes, etc. A comienzo de los 90, un hecho cambió las percepciones iniciales - la aparición de la Web. La Web ha introducido nuevos problemas. Encontrar información útil es una tarea habitualmente tediosa y difícil. Para satisfacer la necesidad de información, el usuario debe navegar a través de los enlaces (el hiperespacio) y, en muchas ocasiones, la navegación resulta ineficiente. El obstáculo principal es la ausencia de un modelo de datos subyacente. 4

7 Capítulo 2 Recuperación de Información sobre Textos 2.1. Proceso de Recuperación de Información La recuperación de información puede verse como: Dada una necesidad de información (consulta + perfil del usuario +...) y un conjunto de documentos, ordenar los documentos por relevancia para esa necesidad y presentar un subconjunto de los más relevantes. Los sistemas de IR generalmente adoptan términos índice para indexar y recuperar documentos. En el sentido estricto, un término índice es una palabra clave (o grupo de palabras relacionadas) que tiene significado. En su forma general, un término índice es una palabra que aparece en el texto de un documento en la colección. La recuperación basada en términos índice es simple pero no incluye aspectos clave propios de la tarea de recuperación de información. Por ejemplo, la recuperación mediante términos índice adopta como característica fundamental la idea de que la semántica de los documentos y la necesidad del usuario puede ser expresada de forma natural mediante conjuntos de términos índice. Esto es una sobre-simplificación del problema porque una cantidad importante de semántica de los documentos y de la consulta se pierde cuando se sustituye el texto por un conjunto de palabras. Además, el emparejamiento entre cada documento y la consulta del usuario se realiza mediante un espacio impreciso de términos índice. Así, no sorprende que aparezcan documentos irrelevantes entre los recuperados. La insatisfacción de los usuarios Web con las respuestas que obtienen es justamente un buen ejemplo de esta situación. Un problema central en los sistemas IR es la predicción de qué documentos son relevantes y cuáles no. Esta decisión es dependiente del algoritmo de ranking que intenta establecer una ordenación simple de los documentos recuperados. Por ello, el algoritmo de ranking es crucial. Hay dos etapas para abordar el problema: 1. Elegir un modelo para calcular la relevancia de los documentos a la consulta. El modelo IR adoptado determina las predicciones sobre lo que es relevante (i.e, la noción de relevancia implementada por el sistema). Su bondad se mide comparando las respuestas del sistema contra las que un conjunto de expertos consideran relevantes. 2. Diseñar algoritmos y estructuras de datos que lo implementen (índices). Su bondad se mide considerando el tiempo de respuesta del sistema, espacio extra de los índices, tiempo de construcción y actualización del índice, etc. Todo sistema IR debe incluir tres elementos: 1. Modelo de representación interna: Forma en que serán representados internamente los documentos y la consulta. Recuperación de Información basada en contenido 1

8 2.2. MODELOS DE REPRESENTACIÓN INTERNA 2. Método de análisis (indexación): Proceso para obtener las representaciones de los documentos a partir del análisis de su contenido. 3. Cálculo de similitud entre las representaciones de los documentos y de la consulta. Se definen en el modelo de representación interna. A continuación se presentan en detalle estos elementos Modelos de representación interna Los tres modelos clásicos de IR son el modelo booleano, vectorial y probabilístico. En el modelo booleano los documentos y las consultas están representadas por conjuntos de términos índice. En el modelo vectorial, los documentos y las consultas están representadas como vectores en un espacio t-dimensional. Por ello, el modelo se denomina algebraico. En el modelo probabilístico, la herramienta para la modelización de los documentos y la consulta se basan en la teoría de la probabililidad. Veamos estos modelos en detalle Modelo booleano El modelo booleano es un modelo de recuperación simple basado en la teoría de conjuntos y en el álgebra booleana. Los documentos se representan mediante términos índice. La relevancia es binaria: un documento es relevante o no. Las consultas son expresiones booleanas del tipo: 1 palabra: un documento es relevante si y sólo si contiene la palabra AND: los documentos deben contener todas las palabras OR: los documentos deben contener alguna palabra A BUTNOT B: los documentos deben ser relevantes para A pero no para B Dada su simplicidad y formalismo claro, el modelo booleano recibió gran interés en el pasado y fue adoptado por muchos de los sistemas bibliográficos comerciales. Es de las primeras ideas que a uno se le ocurren, y es la opción preferida para manejar texto en una BD relacional. Sin embargo, es bastante malo para IR. Su estrategia de recuperación se basa en un criterio de decisión binario (i.e., un documento se relevante o no relevante) sin ninguna noción de escala. Por lo tanto, da lo mismo que un documento contenga 1 o 100 veces las palabras de la consulta, o que cumpla una ó todas las cláusulas de un OR. Tampoco considera la posibilidad de una coincidencia parcial de un documento (ej. que cumpla con casi todas las cláusulas de un AND). Es, por tanto, más un modelo de recuperación de datos que de información. Además, a muchos usuarios les resulta complicado expresar sus consultas mediante expresiones booleanas. Por ello, en la mayoría de los casos las expresiones formuladas actualmente por los usuarios son bastante simples. Para usuarios expertos puede ser adecuado, o con mejores interfaces Modelo vectorial El modelo vectorial reconoce que el uso de pesos binarios es demasiado limitado y propone un modelo en el que el emparejamiento parcial es posible. Para ello, asigna pesos no binarios a los términos índice en consultas y documentos para poder calcular posteriormente el grado de similitud entre cada documento y la consulta. Ordenando los documentos recuperados en orden decreciente en función del grado de similitud, el modelo vectorial tiene en cuenta los documentos que emparejan con 2

9 2.2. MODELOS DE REPRESENTACIÓN INTERNA los términos de la consulta parcialmente. De este modo, el conjunto respuesta es más preciso (i.e., coincide más con la necesidad del usuario) que el obtenido mediante el modelo booleano. Los documentos d j y la consulta se representan como vectores t-dimensionales, siendo t el número de términos diferentes en el conjunto de documentos. El modelo vectorial propone evaluar el grado de similitud entre el documento d j y la consulta q como la correlación entre sus vectores. Esta correlación puede ser cuantificada, por ejemplo, como el coseno del ángulo entre los dos vectores. Entre las ventajas de este modelo podrían destacarse: Su cálculo de pesos mejora el performance de recuperación. Su emparejamiento parcial permite recuperar documentos que se aproximan a la consulta. Se recuperan los documentos que superan un umbral de similitud. La aproximación mediante coseno clasifica los docs en función de su grado de similitud con la consulta. Permite retroalimentación (Relevance feedback, documents like this = Encuentra más documentos semejantes a los actuales) Teóricamente, el modelo vectorial tiene la desventaja de que se asume que los términos índice son independientes. Sin embargo, en la práctica, la consideración de dependencias entre términos puede ser una desventaja. Debido a la localidad de muchas dependencias entre términos, su aplicación indiscriminada a todos los documentos de la colección puede repercutir negativamente en el performance total. A pesar de su simplicidad, el modelo vectorial es mejor o al menos tan bueno como otras alternativas más sofisticadas. Por esta razón, hoy en día es el modelo más popular para recuperación de información Modelo probabilístico Modelos alternativos de recuperación de información Extensiones al modelo Booleano: Booleano Extendido, Conjuntos Difusos Extensiones al modelo Vectorial: Vectorial generalizado, LSI (Latent Semantic Indexing), Redes neuronales Extensiones al modelo Probabilístico: Redes Bayesianas, Redes de Inferencia Bayesiana 3

10 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS 2.3. Métodos de análisis de textos No todas las palabras son igualmente significativas para representar la semántica de un documento. En lenguaje escrito, algunas palabras tienen más significado que otras. Generalmente, los sustantivos (o grupos de sustantivos) son los más representativos del contenido de un documento. En general, se considera que merece la pena preprocesar el texto de los documentos de una colección para determinar los términos a ser utilizados como términos índice. Las operaciones de texto que se aplican durante el preprocesamiento se explican en los siguientes apartados. Sin embargo, la representación de los documentos mediante términos índice da lugar a una representación imprecisa de la semántica de los documentos en la colección. Por ejemplo, un término como the no tiene significado y puede dar lugar a la recuperación de documentos que no están relacionados con la consulta del usuario. La utilización de todas las palabras para indexar un conjunto de documentos genera mucho ruido para la tarea de recuperación. Una forma de reducir el ruido es disminuir el conjunto de palabras utilizadas para la indexación. El preprocesamiento de los documentos puede verse como un proceso para controlar el tamaño del vocabulario y mejorar así el performance de recuperación. Aunque el control del tamaño del vocabulario es una técnica habitual con los sistemas comerciales, introduce un paso adicional en el proceso de indexación que frecuentemente no es percibido por los usuarios. Como resultado, estos pueden sorprenderse con alguno de los documentos recuperados y con la ausencia de otros que esperaba. Por ejemplo, un usuario podría recordar que cierto documento contiene la cadena the house of the lord y, sin embargo, ese documento no aparece entre los recuperados (porque el vocabulario no incluye the ni of ). Por ello, algunos motores Web indexan todas las palabras del texto Preprocesamiento de documentos El preprocesamiento consiste en transformaciones para reducir el texto: 1. Análisis léxico (tokenization): Tratamiento de dígitos, signos de puntuación y mayúsculas 2. Eliminación de stopwords: Filtrado de palabras con poco significado para propósitos de recuperación 3. Stemming (lematización): Eliminación de afijos y recuperación de documentos con variaciones sintácticas de los términos de la consulta 4. Selección de términos representativos 5. Construcción de thesaurus: Expansión de la consulta original con términos relacionados Análisis léxico del texto Es el proceso de separar las palabras en el texto. Aunque a primera vista podría pensarse que esto únicamente supone el reconocimiento de los separadores de palabra, sin embargo existen varios casos (problemas) a tener en cuenta: Combinación de letras y números: UB40, Windows95, 350AC, 510A.C. Números: Para los números se suele hacer otro tipo de indexación. Además, debe tenerse en cuenta que no todos los números significan lo mismo: Motorola (nombre propio), euros (cantidad), 2003 ( año?). Cómo reconocer los números que son relevantes? En general, los números no se consideran términos índice a menos que se indique lo contrario (mediante expresiones regulares). 4

11 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Guiones y signos: Los guiones se suelen eliminar para evitar inconsistencias de uso. Sin embargo, hay palabras que poseen guiones que forman parte integral de las mismas: Zig-Zag, 3.12, B-49, U.S.A. = USA. Para estos casos, se suele recurrir a la utilización de reglas para especificar estas excepciones. Palabras Compuestas: Santa María, New York Ignorar mayúsculas y minúsculas?: Los analizadores léxicos suelen convertir el texto a minúsculas o mayúsculas. Sin embargo, una vez más, deben considerarse los escenarios particulares, por ejemplo, MIT/mit, General Motors (Motors!= motors), SAIL vs sail Separadores propios de cada idioma: estel.lar Acentos: Résumé o Resume, Papá o Papa, Léixample (Léixample ó eixample) Lenguajes Chino y Japonés: Sin espacios entre palabras Tokenización ambigüa: El japonés tiene múltiples alfabetos, la escritura en hebreo es de derecha a izquierda En general, no resulta complejo implementar estas operaciones de texto. Sin embargo, deben estudiarse las distintas excepciones con cuidado ya que pueden provocar un importante impacto en el momento de la recuperación de documentos. Esto es especialmente preocupante en aquellas situaciones en las que el usuario encuentra difícil comprender la estrategia de indexación que utiliza el sistema. Por ello, algunos motores Web están optando por no realizar algunas operaciones de texto ya que esto simplifica la interpretación del usuario. Eliminación de stopwords Las palabras que son más frecuentes en los textos de una colección no son buenos discriminantes y se denominan stopwords. Artículos, preposiciones y conjunciones, así como algunos verbos, adverbios y adjetivos son candidatos naturales para formar parte de la lista de stopwords. Son característicos de cada lenguaje por lo que se requiere detectar el idioma de cada documento tratado. La eliminación de stopwords permite reducir el tamaño de la estructura de indexación. Sin embargo, hay controversia sobre sus beneficios. La eliminación de stopwords puede empeorar el resultado de la consulta. Así, supongamos que un usuario está buscando documentos que contengan la frase to be or not to be. La eliminación de stopwords puede dejar únicamente el término be de toda la frase, haciendo casi imposible reconocer correctamente los documentos con la frase anterior. Esta es una razón por la que muchos motores Web NO lematizan. Stemming Frecuentemente, la palabra especificada por el usuario en la consulta no aparece exactamente en un documento pero sí alguna variante gramatical de la misma como plurales, gerundios, sufijos de tiempo verbal, etc. Este problema puede resolverse con la sustitución de las palabras por su raíz (stem). Un stem es la porción de una palabra que resulta de la eliminación de sus afijos (prefijos y sufijos). Un ejemplo podría ser la palabra connect que es el stem de connected, connection, connections. Los stems son interesantes ya que permiten reducir variantes de la misma raíz gramatical a un concepto común. Consecuentemente, el stemming permite reducir el tamaño de la estructura de indexación ya que el número de términos índice se reduce. Además, permite ampliar la definición de la consulta con las variantes morfológicas de los términos usados, mejorando así el performance de recuperación. Sin embargo, hay controversia en la literatura acerca de sus beneficios. 5

12 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Se pueden distinguir varios tipos de estrategias de stemming: mediante un diccionario, n-grams y eliminación de afijos. La aproximación mediante diccionario consiste en la búsqueda del stem en una tabla. Es un proceso simple pero la construcción del diccionario es costosa, por lo que esta aproximación no suele ser práctica. El stemming mediante n-grams se basa en la identificación de digramas y trigramas y se trata más de un procedimiento de clustering que stemming como tal. La eliminación de afijos es intuitiva, simple y se puede implementar eficientemente. Por ello la vemos en detalle. En eliminación de afijos, la parte más importante es la eliminación de sufijos porque la mayoría de las variantes de una palabra se generan con su introducción. El algoritmo más popular para la eliminación de sufijos es el algoritmo de Porter debido a su simplicidad y elegancia. El algoritmo de Porter usa una lista para la detección de sufijos. La técnica se basa en aplicar una serie de reglas a los sufijos de las palabras del texto. Por ejemplo, la regla s > φ se utiliza para convertir las formas plurales en singulares sustituyendo s por nulo. Siempre se busca el sufijo más largo de la palabra que empareje con los antecedentes en un conjunto de reglas. Las reglas de Porter están separadas en 5 grupos distintos. Al aplicar lematización podemos provocar dos tipos de errores: 1. Infrarradicación (understemming): Obtener distintas formas canónicas para una palabra 2. Sobrerradicación (overstemming): Obtener la misma forma canónica para dos palabras distintas Selección de términos índice La selección de términos índice puede hacerse de forma manual o automática. En este último caso, existen distintas aproximaciones, como es el caso de la identificación de grupos de sustantivos. Una frase en lenguaje natural suele estar compuesta por nombres, pronombres, artículos, verbos, adjetivos, adverbios y conectores. Dado que las palabras de cada clase gramatical tiene un propósito concreto en la frase, puede argumentarse que la mayoría de la semántica se encuentra en los sustantivos. Así, seleccionar los sustantivos (o grupos de sustantivos como guerra civil, por ejemplo) como términos índice es una estrategia interesante. Thesaurus Un thesaurus consta de: 1. Lista de palabras/frases (conceptos) importantes en un dominio. Son los componentes de indexación y generalmente son sustantivos o verbos en gerundio. 2. Un conjunto de palabras relacionadas para cada palabra anterior. Las relaciones entre conceptos pueden ser de sinonimia (car = automobile) o de generalización (Dólar > unidad monetaria > unidad de medida, Caballo > equino > mamífero > ser vivo > entidad) Los principales objetivos de un thesaurus son proporcionar un vocabulario controlado para indexación y búsqueda, y ayudar al usuario en la formulación de consultas. La utilización de un vocabulario controlado permite la normalización de los conceptos indexados, reducción del ruido, identificación de términos índice con significado semántico, y recuperación basada en conceptos, no en palabras. Estos aspectos son especialmente útiles en dominios específicos, como la medicina o jurisprudencia, para los que existe una cantidad importante de conocimiento recopilado. Sin embargo, para dominios generales, como la Web, no está tan clara su utilidad. 6

13 2.4. PROCESAMIENTO DE LENGUAJE NATURAL 2.4. Procesamiento de lenguaje natural Existen dos leyes empíricas, ampliamente aceptadas en el campo de la Recuperación de Información, que estudian la variabilidad de las palabras dentro los corpus de lenguaje natural. Se denominan Ley de Zipf y Ley de Heaps, y se detallan a continuación Ley de Zipf La Ley de Zipf [2, 8, 11] es un modelo aproximado para representar la distribución de las frecuencias de las palabras. Esta ley establece que si ordenamos las v palabras del vocabulario de un texto en orden decreciente de frecuencia, la probabilidad de la palabra más frecuente es i θ veces la de la i-ésima palabra, para todo i. Esto significa que la probabilidad de la i-ésima palabra es p i = A/i θ, donde 1 A =, y el valor de θ depende del texto. Pi 1 1/iθ La Ley de Zipf tiene dos aproximaciones. En el primer caso se considera θ = 1,0. Esta versión es muy sencilla pero también inexacta y no sigue bien la distribución real de los textos en lenguaje natural. La mayoría de los textos reales tienen un vocabulario más sesgado, de modo que los valores de θ mayores que 1 (más concretamente entre 1.4 y 1.8) se ajustan mejor [1, 2]. Esta segunda aproximación, donde θ > 1, se denomina Ley de Zipf generalizada. La Figura 2.1 ilustra las probabilidades teóricas de las palabras en un texto para distintos valores de θ. Se puede observar que cuanto más grande es el valor de θ, más sesgada es la distribución de frecuencias del corpus, mientras que valores más pequeños de θ se asocian a textos con distribuciones de frecuencia más uniformes θ = 1.00 θ = 2.00 θ = frecuencia posición palabras del vocabulario Figura 2.1: Distribución teórica de las frecuencias de las palabras en un texto para valores de θ= 1.0, 2.0 y Ley de Heaps La Ley de Heaps[5] relaciona el tamaño del vocabulario y el número total de palabras en el texto. Indica que un texto de O(n) palabras tiene un vocabulario de tamaño del orden O(n β ) para 7

14 2.5. EVALUACIÓN DE LA RECUPERACIÓN 0 < β < 1. En estudios previos [1, 7, 9] se ha demostrado que, para textos en inglés, el valor de β es lo suficientemente bajo (entre 0, 4 y 0, 6). La Figura 2.2 ilustra los tamaños de vocabulario que se obtienen con textos de distintos tamaños tomando los valores de β = 0,4, β = 0,5 y β = 0,6. Se puede observar que para un tamaño del corpus dado, el tamaño del vocabulario aumenta a medida que lo hace el parámetro β. En general, puede afirmarse que el vocabulario tiene un tamaño próximo a la raíz cuadrada del tamaño del texto β = 0.6 β = 0.5 β = 0.4 palabras en vocabulario número palabras del texto Figura 2.2: Tamaño del vocabulario para distintos valores de β La ley de Heaps es aplicable a colecciones de documentos y, por lo tanto, a la Web Evaluación de la recuperación Antes de la implementación final de un sistema de recuperación de información, se suele llevar a cabo una evaluación del sistema. Las medidas más habituales para evaluación del performance de cualquier sistema de recuperación de datos son el tiempo y el espacio. Cuanto menor sea el tiempo de respuesta y el espacio de almacenamiento utilizado, mejor será el sistema. Además, en el caso de un sistema que proporcione recuperación de información existen otras métricas interesantes. Así, los sistemas de recuperación de información requieren la evaluación de la precisión en el conjunto respuesta. Este tipo de evaluación se denomina evaluación del performance de recuperación. La evaluación del performance de recuperación se basa habitualmente en una colección de test y una medida de evaluación. La colección de test está formada por una colección de documentos, un conjunto de consultas de ejemplo y un conjunto de documentos relevantes (proporcionadas por especialistas) para cada consulta. Dada una estrategia de recuperación S, la medida de evaluación cuantifica (para cada ejemplo de consulta) la similitud entre el conjunto de documentos recuperados por S y el conjunto de documentos relevantes dado por los especialistas. Esto proporciona una estimación de la bondad de la estrategia de recuperación S. 8

15 2.5. EVALUACIÓN DE LA RECUPERACIÓN Existen dos medidas de evaluación de recuperación ampliamente utilizadas: recuperación (recall) y precisión. A continuación se explican en detalle Recall y precisión Supongamos una consulta I (de una colección de test) y su conjunto R de documentos relevantes. Sea R el número de documentos en este conjunto. Asumimos que la estrategia de recuperación a evaluar procesa la consulta I y genera un conjunto respuesta A. Sea A el número de documentos en este conjunto, y R A el número de documentos que se encuentran en la intersección de los conjuntos R y A. La Figura 2.3 ilustra estos conjuntos. Figura 2.3: Documentos recuperados y relevantes Las medidas recall y precisión se definen como sigue: El recall es la fracción de documentos relevantes (el conjunto R) que han sido recuperados, es decir: Recall = R A R La precisión es la fracción de documentos recuperados (el conjunto A) que es relevante, es decir: P recision = R A A El recall y la precisión asumen que todos los documentos en A han sido examinados. Sin embargo, al usuario no se le suelen presentar todos los documentos de la respuesta a la vez. Por el contrario, habitualmente los documentos se ordenan de acuerdo al grado de relevancia y posteriormente el usuario los examina comenzando por el documento que ocupa el puesto más alto. En esta situación, las medidas de recall y precisión varían a medida que el usuario procede con el examen del conjunto respuesta A. Esta situación puede representarse mediante una curva de precisión y recall como se muestra en la Figura 2.4. Veamos un ejemplo para explicar la gráfica anterior. Supongamos la consulta q donde R = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 } es el conjunto definido por especialistas con los 10 documentos relevantes para esa consulta. 9

16 2.5. EVALUACIÓN DE LA RECUPERACIÓN Figura 2.4: Gráfica precisión y recuperación (recall) Supongamos ahora que la ejecución de la consulta q sobre el algoritmo de recuperación a evaluar da lugar al siguiente conjunto respuesta (donde los documentos están ordenados decrecientemente por relevancia): A = {d 123, d 84, d 56, d 6, d 8, d 9, d 511, d 129, d 187, d 25, d 38, d 48, d 250, d 113, d 3 } Si analizamos esta clasificación, comenzando por el documento más relevante, puede observarse lo siguiente. Primero, el primer documento d 123 es relevante, por lo que en este punto tenemos una precisión de (i.e, del 100 %), y un recall de P recision = R A A = 1 1 = 1 Recall = R A R = 1 10 = 0,1 (i.e, del 10 %). Si continuamos analizando vemos que el siguiente documento relevante es el tercero en la lista de los recuperados. En este momento podemos decir que tenemos una precisión de aproximadamente el 66 % (2 de los 3 documentos recuperados son relevantes) y un recall del 20 % (2 de los 10 documentos relevantes han sido recuperados). De este modo se va generando una gráfica recallprecisión. Habitualmente el análisis se realiza sobre varias consultas dando lugar a una figura similar a la mostrada en Figura

17 2.6. CONSULTAS BASADAS EN PALABRA CLAVE 2.6. Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) La técnica de consulta mediante emparejamiento de patrones consiste en localizar todas las ocurrencias (o la primera) de un patrón m en un documento [4, 6, 10]. Un patrón define un conjunto de características sintácticas que deben ocurrir en el texto. La cadena de texto que satisfaga estas características se dice que empareja con el patrón. Los patrones pueden ser muy simples (palabras, por ejemplo) o complejos (como expresiones regulares). Los tipos de patrones más habituales son: palabras: secuencia de caracteres que debe dar lugar a una palabra en el texto. prefijos: cadena con la que debe comenzar una palabra. Ej: cant devolvería documentos que contengan palabras como cantaba o cantante. sufijos: cadena con la que debe finalizar una palabra. Ej: ión devolvería los documentos que contengan camión, nación o pasión. subcadenas: cadena que puede aparecer dentro de una palabra. Ej: enc devolvería textos que incluyan palabras como eficiencia, reticencia, encuadernar o creencia. La subcadena puede incluir separadores de palabras (,, blanco, ;, :, etc.). Ej: ado par devolvería documentos que incluyan analizado parcialmente, estudiado particularmente o citado para. rangos: en este caso el patrón está formado por dos cadenas, de modo que se obtienen los documentos que contengan palabras que se encuentren (alfabéticamente) entre las mismas. Ej: lado lodo devuelve textos con palabras como lamer, lectura o local. permitiendo errores: este tipo de búsqueda resulta de interés cuando se intenta evitar errores tipográficos (de tecleo, fallos de OCR, etc.). En este caso se recuperan los documentos que incluyen palabras similares al patrón. Aunque existen varios modelos de similitud entre palabras, el más empleado en el campo de la Recuperación de Textos es la distancia de edición. La distancia entre dos cadenas es el número mínimo de inserciones, borrados y sustituciones necesarias para hacerlas iguales. De este modo, la consulta debe especificar el número máximo de errores permitidos para que una palabra empareje con el patrón. Ej: una consulta casa (distancia 1) devuelve documentos con cadenas de la forma ca sa, cosa o cara. expresiones regulares: una expresión regular es un patrón más general formado por cadenas simples y los operadores: unión: si e 1 y e 2 son expresiones regulares, (e 1 e 2 ) devuelve las cadenas emparejadas con e 1 o con e 2. concatenación: si e 1 y e 2 son expresiones regulares, las ocurrencias de (e 1 e 2 ) están formadas por las ocurrencias de e 1 seguidas inmediatamente por las de e 2. De este modo, las cadenas simples pueden verse como la concatenación de caracteres simples. repetición: si e es una expresión regular, (e ) empareja con secuencias de 0 o más ocurrencias contiguas de e. Ej. de expresión regular: pro(blema teina)(s ɛ)(0 1 2)* (donde ɛ representa la cadena vacía) devuelve documentos que contengan las palabras problemas o proteina02. patrones extendidos: son subconjuntos de expresiones regulares que se expresan con una sintaxis más simple. Como cada sistema tiene sus propios patrones extendidos no hay una definición formal para los mismos. 11

18 2.7. MÉTODOS DE INDEXACIÓN Además, como ejemplos extraídos de sistemas actuales podemos destacar: tipos de caracteres: una o más posiciones dentro del patrón se emparejan con cualquier carácter dentro de un conjunto predefinido. Este tipo de patrón tiene utilidad para aplicar emparejamiento no sensible a mayúsculas/minúsculas, uso de rangos de caracteres (indicar que un carácter debe ser un dígito, por ejemplo) o uso de comodines, entre otros. expresiones condicionales: parte del patrón puede o no aparecer. combinaciones para permitir que algunas partes del patrón emparejen exactamente y otras admitan errores Métodos de indexación Todas las técnicas de búsqueda presentadas en el apartado anterior son secuenciales, es decir, recorren los documentos que forman la base de datos textual secuencialmente buscando las ocurrencias del elemento a localizar. Obviamente, la aplicación de este tipo de búsqueda directamente sólo es apropiada cuando el texto es pequeño (de pocos Megabytes) o si se trata de textos muy volátiles. En otro caso, debería recurrirse a la utilización de técnicas de indexación que agilicen las búsquedas, como las que se tratan a continuación. Concretamente, hablaremos de la técnica de índices invertidos y array de sufijos haciendo especial hincapié en la primera por ser actualmente la mejor elección para la mayoría de las aplicaciones. Los arrays de sufijos son más rápidos para búsquedas de frases y otro tipo de consultas menos comunes, pero son más complejos de construir y mantener Índices invertidos Un índice invertido es un mecanismo orientado a palabras para indexación de documentos. Es la estructura más elemental para recuperación de palabras. Está formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada término, la lista de documentos donde este aparece). La Figura?? muestra un ejemplo. Figura 2.5: Ejemplo de un índice invertido El espacio requerido para almacenar el vocabulario no es grande. De acuerdo a la ley de Heaps, el vocabulario crece O(n β ) donde β depende del texto, estando entre 0,4 y 0,6 en la práctica. Por ejemplo, para una colección de 1 Gb el vocabulario tendrá un tamaño de alrededor de 5 Mb. Además, este 12

19 2.7. MÉTODOS DE INDEXACIÓN tamaño puede reducirse si se utilizan técnicas de preprocesamiento como las comentadas anteriormente (stemming, stopwords, etc.). El tamaño de la lista de ocurrencias es más elevado. Además, su tamaño depende de la granularidad del direccionamiento. Así, si se direcciona únicamente a los documentos donde aparece cada término, el tamaño de la lista de ocurrencias es más pequeño, pero si se desea direccionar las posiciones concretas en las que aparece el término dentro de cada documento, entonces la lista de ocurrencias puede tomar un tamaño muy elevado. En ocasiones, se recurre a una situación intermedia donde se utiliza un direccionamiento por bloques. En este caso, el texto se divide en bloques, y las ocurrencias apuntan a los bloques donde aparece el término (en vez de a las posiciones exactas). Los índices clásicos que apuntan a las ocurrencias exactas de los términos se suelen denominar índices invertidos completos. Utilizando direccionamiento por bloques no sólo se reduce el número de punteros sino que además se agrupan las ocurrencias de un término dentro de un bloque con una única referencia. Con esta técnica se consiguen índices que únicamente suponen una sobrecarga (overhead) del 5 % por encima del tamaño del texto. El precio que hay que pagar es que si se precisa conocer las posiciones exactas de un término (por ejemplo, para una búsqueda por proximidad), es necesario realizar una búsqueda secuencial dentro del bloque seleccionado. Así, los índices con direccionamiento de bloque con 256 bloques no trabajan bien con textos por encima de los 200 Mb. La Tabla 2.1 presenta el espacio ocupado por los índices invertidos sobre textos de diferentes tamaños, con y sin el uso de stopwords. La inversión completa almacena las posiciones exactas de los términos, utilizando 4 bytes por puntero. El índice con direccionamiento a documento asume que los documentos tienen un tamaño de 10K (y el número necesario de bytes por puntero, es decir, 1, 2 o 3 bytes dependiendo del tamaño del texto). El índice con direccionamiento a bloque asume que utilizamos 256 o 64K bloques (1 o 2 bytes por puntero) independientemente del tamaño del texto. El tamaño de los punteros puede reducirse si se comprimen. Asumimos también que el 45 % de las palabras son stopwords y que hay una palabra no-stopword cada 11.5 caracteres. La estimación del tamaño del vocabulario está basada en la ley de Heaps. Indice Colección pequeña Colección media Colección grande (1 Mb) (200 Mb) (2 Gb) a palabras 45 % 73 % 36 % 64 % 35 % 63 % a documentos 19 % 26 % 18 % 32 % 26 % 47 % a 64K bloques 27 % 41 % 18 % 32 % 5 % 9 % a 256 bloques 18 % 25 % 1.7 % 2.4 % 0.5 % 0.7 % Tabla 2.1: Tamaño de los índices invertidos en función del tamaño del texto. La columna derecha representa el caso en que los stopwords no son indexados Los bloques pueden ser de tamaño fijo (dado por el tamaño del bloque lógico) o pueden definirse mediante una división natural de la colección en ficheros, documentos, páginas Web u otros. La división en bloques de tamaño fijo mejora la eficiencia en cuanto al tiempo de recuperación; es decir, cuanto más varíen los tamaños de bloque más cantidad de texto es necesario recorrer secuencialmente. Esto es debido a que los bloques de mayor tamaño emparejan más frecuentemente con las consultas y son más caros de recorrer. La división utilizando cortes naturales puede eliminar la necesidad de recorridos on-line cuando no se precisa un emparejamiento exacto, dado que basta con conocer las unidades de recuperación resultantes. Sin embargo, si se empaquetan muchas unidades de recuperación (páginas, documentos, etc.) en un único bloque, dicho bloque tendrá que ser recorrido para determinar las unidades a recuperar. Debe tenerse en cuenta también que para poder utilizar direccionamiento de bloque es necesario 13

20 2.7. MÉTODOS DE INDEXACIÓN disponer del documento en el momento de la búsqueda. Esto no sucede en el caso de textos remotos (como en los motores Web) o si el texto está almacenado en CD-Rom que deba ser montado, por ejemplo. Búsqueda El algoritmo de búsqueda en un fichero invertido sigue tres pasos: 1. Búsqueda en el vocabulario: Consiste en la búsqueda de las palabras y los patrones de la consulta. Las consultas por frases y proximidad se dividen en palabras. 2. Recuperación de ocurrencias: Recuperación de las listas de ocurrencias de las palabras encontradas. 3. Manipulación de ocurrencias: Resolución de operaciones boolenas, consultas de frases, proximidad, etc. Si se utiliza direccionamiento de bloque puede ser necesario buscar directamente en el texto (en caso de posiciones exactas de las palabras para la búsqueda de frases). La búsqueda comienza siempre en el vocabulario, por lo que es interesante tenerlo en un fichero separado. De este modo es posible que quepa en memoria incluso en caso de colecciones grandes. La búsqueda de términos en el vocabulario puede realizarse utilizando una estructura como hashing o árboles B. Si los términos se almacenan en orden lexicográfico, en lugar de en orden de entrada, se consigue reducir el espacio y se mejora el performance, dado que se pueden aplicar búsquedas binarias. Las consultas por prefijo o por rango pueden resolverse con búsqueda binaria o árboles-b, pero no con hashing. Si la consulta involucra varios términos, el proceso finaliza devolviendo el conjunto de ocurrencias (puede necesitarse hacer una unión de listas si el patrón incluye muchas palabras). Veamos cómo varía el proceso de búsqueda dependiendo del modelo de representación subyacente: Consulta en el modelo booleano: Buscar los términos de la consulta en el vocabulario (en memoria) usando, por ejemplo, hashing. Recuperar de disco las listas de ocurrencias de cada término. Combinar las listas de ocurrencias mediante operaciones de conjunto unión, intersección, diferencia. Consulta en el modelo vectorial: En este caso sólo interesa recuperar los R documentos con mayor similitud respecto a la consulta. Las ocurrencias de cada término están almacenados decrecientemente por tf. Partir con el término de la consulta de mayor idf y traer los R primeros documentos de su lista (si no llegamos a juntar R, seguimos con el segundo término de mayor idf). Una vez que tenemos R candidatos, seguimos recorriendo los términos de la consulta, de mayor a menor idf. Como el tf en cada lista decrece, en cierto momento podemos determinar que no es necesario seguir recorriendo la lista pues los candidatos no pueden entrar al ranking de los R mejores. Puede hacerse más eficiente cortando las listas donde se considere improbable que modifiquen el ranking. Este tipo de relajamiento es muy utilizado en los buscadores Web. Búsqueda de frases o proximidad: Este tipo de consultas resulta más complejo de resolver utilizando índices invertidos: 14

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Índices de RI UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es un Índice? Es la segunda etapa para abordar el tema de la RI. Es un archivo que contiene

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Sistemas de Recuperación de Información

Sistemas de Recuperación de Información Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

GENERALIDADES DE BASES DE DATOS

GENERALIDADES DE BASES DE DATOS GENERALIDADES DE BASES DE DATOS A fin de evitar que idénticos datos se encuentren repetidos en múltiples archivos, parece necesario que los comunes se almacenen en un archivo único y que este archivo sea

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental El proceso documental El proceso o cadena documental es la razón fundamental de un centro

Más detalles

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

En cualquier caso, tampoco es demasiado importante el significado de la B, si es que lo tiene, lo interesante realmente es el algoritmo. Arboles-B Características Los árboles-b son árboles de búsqueda. La "B" probablemente se debe a que el algoritmo fue desarrollado por "Rudolf Bayer" y "Eduard M. McCreight", que trabajan para la empresa

Más detalles

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)

Más detalles

revista transparencia transparencia y... 3.3. UNIVERSIDADES

revista transparencia transparencia y... 3.3. UNIVERSIDADES revista transparencia transparencia y... 3.3. UNIVERSIDADES 35 revista transparencia Mónica López del Consuelo Documentalista Open Data Universidad de Granada 3.3.1. El filtro básico de la transparencia.

Más detalles

Introducción. Metadatos

Introducción. Metadatos Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de

Más detalles

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD Manual de usuario 1 - ÍNDICE 1 - ÍNDICE... 2 2 - INTRODUCCIÓN... 3 3 - SELECCIÓN CARPETA TRABAJO... 4 3.1 CÓMO CAMBIAR DE EMPRESA O DE CARPETA DE TRABAJO?...

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI La segunda fase del NIPE corresponde con la adecuación de las intervenciones de enfermería del sistema de clasificación N.I.C. (Nursing Intervention

Más detalles

3. Modelo relacional: Estructura e integridad.

3. Modelo relacional: Estructura e integridad. Modelo relacional: Estructura e integridad 47 3. Modelo relacional: Estructura e integridad. 3.1. Introducción. El modelo de datos relacional es posterior a los modelos jerárquicos y de red. Nació como

Más detalles

Instalación y mantenimiento de servicios de Internet. U.T.3.- Servicio DNS

Instalación y mantenimiento de servicios de Internet. U.T.3.- Servicio DNS Instalación y mantenimiento de servicios de Internet U.T.3.- Servicio DNS 1 Qué es el servicio DNS? A los usuarios de Internet les resulta complicado trabajar con direcciones IP, sobre todo porque son

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

Bases de datos en Excel

Bases de datos en Excel Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Bases de datos en Excel Hojas de cálculo Tema 5 Bases de datos en Excel Hasta ahora hemos usado Excel básicamente para realizar cálculos

Más detalles

by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true

by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true I. FUNDAMENTOS 3. Representación de la información Introducción a la Informática Curso de Acceso a la Universidad

Más detalles

DE VIDA PARA EL DESARROLLO DE SISTEMAS

DE VIDA PARA EL DESARROLLO DE SISTEMAS MÉTODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS 1. METODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS CICLO DE VIDA CLÁSICO DEL DESARROLLO DE SISTEMAS. El desarrollo de Sistemas, un proceso

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Centro de Capacitación en Informática

Centro de Capacitación en Informática Fórmulas y Funciones Las fórmulas constituyen el núcleo de cualquier hoja de cálculo, y por tanto de Excel. Mediante fórmulas, se llevan a cabo todos los cálculos que se necesitan en una hoja de cálculo.

Más detalles

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación II MODELOS y HERRAMIENTAS UML 1 1 Modelado de casos de uso (I) Un caso de uso es una técnica de modelado usada para describir lo que debería hacer

Más detalles

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Unidad I Sistemas numéricos 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS.

Más detalles

Master en Gestion de la Calidad

Master en Gestion de la Calidad Master en Gestion de la Calidad 3. La Calidad en la Actualidad La calidad en la actualidad 1 / 9 OBJETIVOS Al finalizar esta unidad didáctica será capaz: Conocer la calidad en la actualidad. La familia

Más detalles

DEPARTAMENTO: Informática. MATERIA: Programación. NIVEL: 1º Desarrollo de Aplicaciones Multiplataforma

DEPARTAMENTO: Informática. MATERIA: Programación. NIVEL: 1º Desarrollo de Aplicaciones Multiplataforma DEPARTAMENTO: Informática MATERIA: Programación NIVEL: 1º Desarrollo de Aplicaciones Multiplataforma 1. Objetivos. Competencias Profesionales, Personales y Sociales 1.1 Objetivos del ciclo formativo La

Más detalles

Normas y procedimientos para la clasificación de los documentos administrativos

Normas y procedimientos para la clasificación de los documentos administrativos Normas y procedimientos para la clasificación de los documentos administrativos La Universidad de Lleida (UdL) necesita desarrollar el cuadro de clasificación de los documentos administrativos, para toda

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc. Página 1 BUSCADORES EN INTERNET Internet es una red de redes informáticas distribuidas por todo el mundo que intercambian información entre sí mediante protocolos 1 TCP/IP. Puede imaginarse Internet como

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

Registro (record): es la unidad básica de acceso y manipulación de la base de datos.

Registro (record): es la unidad básica de acceso y manipulación de la base de datos. UNIDAD II 1. Modelos de Bases de Datos. Modelo de Red. Representan las entidades en forma de nodos de un grafo y las asociaciones o interrelaciones entre estas, mediante los arcos que unen a dichos nodos.

Más detalles

WINDOWS. Iniciando Windows. El mouse

WINDOWS. Iniciando Windows. El mouse Windows es un sistema operativo, cuyo nombre lo debe al principal elemento de trabajo, la ventana - en inglés window -. Este tiene características como: Multitarea: durante una sesión de trabajo, es posible

Más detalles

Autor: Microsoft Licencia: Cita Fuente: Ayuda de Windows

Autor: Microsoft Licencia: Cita Fuente: Ayuda de Windows Qué es Recuperación? Recuperación del Panel de control proporciona varias opciones que pueden ayudarle a recuperar el equipo de un error grave. Nota Antes de usar Recuperación, puede probar primero uno

Más detalles

Resumen. Funcionamiento. Advertencia

Resumen. Funcionamiento. Advertencia Resumen Módulo: Librería: IMPEXP.DLL Acoplable a: FactuCont 5, versiones monopuesto y red Descripción: Permite exportar datos de documentos, clientes, proveedores y artículos en un solo fichero para poder

Más detalles

Diseño orientado al flujo de datos

Diseño orientado al flujo de datos Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos

Más detalles

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL OBJETIVO Mejorar el nivel de comprensión y el manejo de las destrezas del estudiante para utilizar formulas en Microsoft Excel 2010. 1) DEFINICIÓN Una fórmula de Excel es un código especial que introducimos

Más detalles

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS Servicio DNS - 1 - Servicio DNS...- 3 - Definición... - 3 - Instalación... - 5 - Configuración del Servidor DNS...- 10 - - 2 - Servicio DNS Definición

Más detalles

Capítulo 1 Documentos HTML5

Capítulo 1 Documentos HTML5 Capítulo 1 Documentos HTML5 1.1 Componentes básicos HTML5 provee básicamente tres características: estructura, estilo y funcionalidad. Nunca fue declarado oficialmente pero, incluso cuando algunas APIs

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

TPVFÁCIL. Caja Real. Definiciones.

TPVFÁCIL. Caja Real. Definiciones. TPVFÁCIL. Caja Real. TPVFÁCIL incluye desde la versión 3.3.2 la posibilidad de manejar dos cajas, la Caja Real y la Caja normal. La idea es esconder los datos de caja que pueden alcanzar los usuarios no

Más detalles

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA Perfil Entidad Proveedora El objetivo del módulo de Gestión de Solicitudes vía Internet es facilitar el trabajo

Más detalles

Operación Microsoft Access 97

Operación Microsoft Access 97 Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción.

El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción. IX. ANALISIS DE LOS RESULTADOS El nivel de Satisfacción Laboral tomado con puntaje de mayor de 3 es lo que denota mayor satisfacción. En relación a la edad de las enfermeras y enfermeros del hospital encontramos

Más detalles

Informes de activos fijos Versión 1.1. Tabla de contenidos. Informes de activos fijos

Informes de activos fijos Versión 1.1. Tabla de contenidos. Informes de activos fijos Informes de activos fijos Fecha: 23/03/2015 Tabla de contenidos Servicio de Coordinación y Apoyo al Área Económica ucpe@pas.ucm.es Informes de activos fijos... 1 Informes de activos fijos... 2 Inventario

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

Operaciones Morfológicas en Imágenes Binarias

Operaciones Morfológicas en Imágenes Binarias Operaciones Morfológicas en Imágenes Binarias Introducción La morfología matemática es una herramienta muy utilizada en el procesamiento de i- mágenes. Las operaciones morfológicas pueden simplificar los

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

Sistemas de Gestión de Calidad. Control documental

Sistemas de Gestión de Calidad. Control documental 4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

Unidad de trabajo 2: INFORMÁTICA BÁSICA (primera parte)

Unidad de trabajo 2: INFORMÁTICA BÁSICA (primera parte) Unidad de trabajo 2: INFORMÁTICA BÁSICA (primera parte) Unidad de trabajo 2: INFORMÁTICA BÁSICA... 1 1. Representación interna de datos.... 1 1.2. Sistemas de numeración.... 2 1.3. Aritmética binaria...

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales».

Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales». Búsqueda de información en la red Una de los usos más extendidos de Internet es la búsqueda de información útil para el/la usuario/a. Sin embargo, su localización no resulta siempre una tarea fácil debido

Más detalles

Ampliación de Estructuras de Datos

Ampliación de Estructuras de Datos Ampliación de Estructuras de Datos Amalia Duch Barcelona, marzo de 2007 Índice 1. Diccionarios implementados con árboles binarios de búsqueda 1 2. TAD Cola de Prioridad 4 3. Heapsort 8 1. Diccionarios

Más detalles

SÍNTESIS Y PERSPECTIVAS

SÍNTESIS Y PERSPECTIVAS SÍNTESIS Y PERSPECTIVAS Los invitamos a observar, a identificar problemas, pero al mismo tiempo a buscar oportunidades de mejoras en sus empresas. REVISIÓN DE CONCEPTOS. Esta es la última clase del curso.

Más detalles

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE) QUÉ SON CONCEPTOS PARAMÉTRICOS? Los conceptos paramétricos de Presto permiten definir de una sola vez una colección de conceptos similares a partir de los cuales se generan variantes o conceptos derivados

Más detalles

ANÁLISIS DE CARGOS. 1. Nombre del cargo 2. Posición del cargo en el organigrama. 3. Contenido del cargo. 1. Requisitos intelectuales

ANÁLISIS DE CARGOS. 1. Nombre del cargo 2. Posición del cargo en el organigrama. 3. Contenido del cargo. 1. Requisitos intelectuales Análisis de CARGOS ANÁLISIS DE CARGOS Autor: Herman Bachenheimer Correo: herman@puj.edu.co Después de la descripción, sigue el análisis del cargo. Una vez identificado el contenido del cargo (aspectos

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

El Futuro de la Computación en la Industria de Generación Eléctrica

El Futuro de la Computación en la Industria de Generación Eléctrica El Futuro de la Computación en la Industria de Generación Eléctrica Retos a los que se enfrenta la industria de generación La industria de generación eléctrica se enfrenta a dos retos muy significativos

Más detalles

ISO9001:2015. Todos los certificados emitidos en este periodo tienen una fecha de caducidad de 15 de septiembre de 2018.

ISO9001:2015. Todos los certificados emitidos en este periodo tienen una fecha de caducidad de 15 de septiembre de 2018. ISO9001:2015 PLAN DE TRANSICIÓN Tras la publicación de la nueva versión de la norma ISO9001 el pasado mes de septiembre se inicia un periodo de convivencia entre las dos versiones de la norma. Este periodo

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

La Web Semántica como herramienta para e-learning

La Web Semántica como herramienta para e-learning La Web Semántica como herramienta para e-learning Lidia Marina López llopez@uncoma.edu.ar Departamento de Ciencias de la Computación Universidad Nacional del Comahue Buenos Aires 1400 8300 Neuquén Tel.

Más detalles

Test de Idioma Francés. Manual del evaluador

Test de Idioma Francés. Manual del evaluador Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas

Más detalles

Queremos asegurarnos de que tu sitio aparezca en los resultados de búsqueda.

Queremos asegurarnos de que tu sitio aparezca en los resultados de búsqueda. Queremos asegurarnos de que tu sitio aparezca en los resultados de búsqueda. En estas secciones, te enseñamos a: Configurar el sitio para varios dispositivos, que los motores de búsqueda comprendan la

Más detalles

Creación y administración de grupos de dominio

Creación y administración de grupos de dominio Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia

Más detalles

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Tema: Sistemas Subtema: Base de Datos. Materia: Manejo de aplicaciones

Más detalles

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda: Apuntes de ACCESS Campos de Búsqueda: Los campos de búsqueda permiten seleccionar el valor de un campo de una lista desplegable en lugar de tener que escribirlos. El usuario sólo tiene que elegir un valor

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Consultas con combinaciones

Consultas con combinaciones UNIDAD 1.- PARTE 2 MANIPULACIÓN AVANZADA DE DATOS CON SQL. BASES DE DATOS PARA APLICACIONES Xochitl Clemente Parra Armando Méndez Morales Consultas con combinaciones Usando combinaciones (joins), se pueden

Más detalles

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo Laboratorio de Redes de Neuronas Artificiales y Sistemas Adaptativos Universidade

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.

Más detalles

Recuperación de Información en el Contexto de la Ciencia de la Computación

Recuperación de Información en el Contexto de la Ciencia de la Computación Recuperación de Información en el Contexto de la Ciencia de la Computación Edgar Casasola Murillo Universidad de Costa Rica Escuela de Ciencias de la Computación edgar.casasola@ecci.ucr.ac.cr Temas tratados

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario

ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario Dirección General del Servicio de Estudios 04.09.2007 ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario Departamento de Estadística Hoja de Control Título Autor Versión Fecha Registro de Cambios

Más detalles

Gestión de la Configuración

Gestión de la Configuración Gestión de la ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ESTUDIO DE VIABILIDAD DEL SISTEMA... 2 ACTIVIDAD EVS-GC 1: DEFINICIÓN DE LOS REQUISITOS DE GESTIÓN DE CONFIGURACIÓN... 2 Tarea EVS-GC 1.1: Definición de

Más detalles

Diseño de bases de datos Diapositiva 1

Diseño de bases de datos Diapositiva 1 Diseño o de bases de datos Objetivos del Diseño Principios del Diseño de BD Proceso de Diseño Normalización Diseño de Tablas: Claves Relaciones Integridad referencial Convenciones de nomenclatura Diseño

Más detalles

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1 Fundamentos de Investigación de Operaciones Investigación de Operaciones 1 1 de agosto de 2003 1. Introducción Cualquier modelo de una situación es una simplificación de la situación real. Por lo tanto,

Más detalles

TECNOLOGÍAS LINGÜÍSTICAS Y ACCESO A LA INFORMACIÓN: LA EXPERIENCIA DE BITEXT EN LA ADMINISTRACIÓN PÚBLICA

TECNOLOGÍAS LINGÜÍSTICAS Y ACCESO A LA INFORMACIÓN: LA EXPERIENCIA DE BITEXT EN LA ADMINISTRACIÓN PÚBLICA TECNOLOGÍAS LINGÜÍSTICAS Y ACCESO A LA INFORMACIÓN: LA EXPERIENCIA DE BITEXT EN LA ADMINISTRACIÓN PÚBLICA Director General Bitext.com Director Técnico Bitext.com Palabras clave Gestión de documentos, gestión

Más detalles

Sistemas de numeración

Sistemas de numeración Sistemas de numeración Un sistema de numeración es un conjunto de símbolos y reglas que permiten representar datos numéricos. Los sistemas de numeración actuales son sistemas posicionales, que se caracterizan

Más detalles

TEMA 2: Representación de la Información en las computadoras

TEMA 2: Representación de la Información en las computadoras TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario

Más detalles

UNIVERSIDAD DE BURGOS ARCHIVO GENERAL

UNIVERSIDAD DE BURGOS ARCHIVO GENERAL BUENAS PRÁCTICAS PARA ORGANIZAR Y NOMBRAR LOS DOCUMENTOS ELECTRÓNICOS En el entorno electrónico encontramos múltiples diferencias en los espacios de trabajo: si se trabaja solo o en red, si se comparten

Más detalles

Metodología básica de gestión de proyectos. Octubre de 2003

Metodología básica de gestión de proyectos. Octubre de 2003 Metodología básica de gestión de proyectos Octubre de 2003 Dentro de la metodología utilizada en la gestión de proyectos el desarrollo de éstos se estructura en tres fases diferenciadas: Fase de Éjecución

Más detalles

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Qué es una página web?, qué conoces al respecto?, sabes crear una página Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual

Más detalles

Análisis de Resultados

Análisis de Resultados Análisis de Resultados Encuesta Web OnLine Buses: www.encuesta-webonlinebuses.tk Grupo10 1 Datos Generales Técnica: Encuesta Web Medio: Google Forms Unidad de muestreo: Usuarios y potenciales usuarios

Más detalles

Guía de usuario para el acceso al recibo de nómina mediante la intranet de la Conselleria

Guía de usuario para el acceso al recibo de nómina mediante la intranet de la Conselleria Guía de usuario para el acceso al recibo de nómina mediante la intranet de la Conselleria Estado actual Estado V1.3 Fecha modificación 4/6/2012 Autor Dirigido a Ubicación/URL Empleados de la Agencia Valenciana

Más detalles

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto INFORMÁTICA INFORMÁTICA 1 Sesión No. 4 Nombre: Procesador de Texto Contextualización La semana anterior revisamos los comandos que ofrece Word para el formato del texto, la configuración de la página,

Más detalles

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión) ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB (Modificada en 2008) (IV Difusión) Interpretación SIC-32 Activos Intangibles - Costos de Sitios Web Referencias

Más detalles

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos.

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos. Apéndice C. Glosario A Actividades de coordinación entre grupos. Son dinámicas y canales de comunicación cuyo objetivo es facilitar el trabajo entre los distintos equipos del proyecto. Actividades integradas

Más detalles

Evolución de indicadores de Notoriedad Publicitaria de Campañas en Revistas y TV Análisis de Series de Datos 2007-2014

Evolución de indicadores de Notoriedad Publicitaria de Campañas en Revistas y TV Análisis de Series de Datos 2007-2014 La Notoriedad Publicitaria de marcas que recurren al mix de medios televisión + revistas no ha dejado de crecer en los últimos años. El análisis de datos desde 2007 hasta 2014 demuestra que la utilización

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009 Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios Dra. Noemí L. Ruiz Limardo 2009 Objetivos de la Lección Al finalizar esta lección los estudiantes: Identificarán, de una lista de expresiones

Más detalles