Universidad Nacional de Trujillo

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Universidad Nacional de Trujillo"

Transcripción

1 FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS ESCUELA ACADEMICO PROFESIONAL DE INFORMATICA INFORME FINAL DE TRABAJO DE GRADUACION DISEÑO DE UN MODELO COMPUTACIONAL BASADO EN ALGORITMOS DE AGRUPAMIENTO PARA MEJORAR EL TIEMPO DE RESPUESTA Y LA CORRESPONDENCIA DE RESULTADOS DE UN SISTEMA DE BUSQUEDA DE INFORMACION BIBLIOGRAFICA Autores: Asesor: - DE LA CRUZ MANTILLA, AZUCENA SARAI - LINARES VALDIVIA, JUAN CARLOS - ING. CHRISTIAN ARAUJO GONZÁLEZ 2014 TRUJILLO PERU

2 INDICE INDICE... 1 LISTA DE FIGURAS... 3 RESUMEN... 4 I. PLAN DE INVESTIGACION REALIDAD PROBLEMÁTICA ENUNCIADO DEL PROBLEMA HIPÓTESIS OBJETIVOS OBJETIVO GENERAL OBJETIVOS ESPECIFICOS JUSTIFICACION LIMITACIONES... 7 II. MARCO TEORICO DISEÑO CONCEPTUAL MODELO COMPUTACIONAL ALGORITMOS DE AGRUPAMIENTO ALGORITMO AGRUPAMIENTO DE OBJETOS ALGORITMOS DE AGRUPAMIENTO APLICACIÓN DE LOS ALGORITMOS DE AGRUPAMIENTO CLASIFICACION DE LOS ALGORITMOS DE AGRUPAMIENTO ALGORITMOS DE AGRUPAMIENTO PARTICIONAL ALGORITMOS DE AGRUPAMIENTO JERÁRQUICO ALGORITMOS DE AGRUPAMIENTO BORROSO ALGORITMOS DE AGRUPAMIENTO BASADOS EN LA DENSIDAD ALGORITMOS DE AGRUPAMIENTO BASADO EN GRID ALGORITMOS DE AGRUPAMIENTO BASADO EN MODELOS ALGORITMOS DE AGRUPAMIENTO GEOGRÁFICO O ESPACIAL ALGORITMOS DE AGRUPAMIENTO EN DATOS DISTRIBUIDOS SISTEMA DE BUSQUEDA DE INFORMACION BIBLIOGRAFICA III. DISEÑO DE LA INVESTIGACION TIPO DE INVESTIGACION DISEÑO DE LA INVESTIGACION POBLACION Y MUESTRA POBLACION MUESTRA Linares Valdivia Juan Carlos Pág. 1

3 3.4. VARIABLES DE ESTUDIO TECNICAS E INSTRUMENTOS IV. RESULTADOS ANALISIS COMPARATIVO DE ALGORITMOS DE AGRUPAMIENTO ANALISIS DE LOS ALGORITMOS SEGÚN LOS CRITERIOS RESULTADOS DEL ANALISIS COMPARATIVO CONCLUSIONES DEL ANALISIS COMPARATIVO DISEÑO DEL MODELO PROPUESTO ENFOQUE DEL DISEÑO DEFINICION DEL MODELO DESCRIPCION DEL MODELO CASO DE ESTUDIO V. REFERENCIAS BIBLIOGRAFICAS BIBLIOGRAFÍA GENERAL BIBLIOGRAFÍA ESPECÍFICA WEBGRAFÍA ANEXO PICTOGRAFIA CASO DE USO Linares Valdivia Juan Carlos Pág. 2

4 Figura 1. Agrupamiento Particional. Figura 2. Agrupamiento Jerárquico. Figura 3. Agrupamiento Borroso o Difuso. LISTA DE FIGURAS Figura 4. Agrupamiento basado en Densidad. Figura 5. Agrupamiento basado en Grid. Figura 7. Tabla de las variables de estudio. Figura 8. Cuadro Comparativo. Figura 9. Enfoque del Modelo Computacional Propuesto Figura 10. Fases del modelo computacional Escuela Profesional de Informática Linares Valdivia Juan Carlos Pág. 3

5 RESUMEN Los usuarios buscan información específica de acuerdo a sus necesidades específicas. Ellos pueden hacer búsquedas ya sea mediante motores de búsqueda o bases de datos particulares de sistemas de bibliotecas o algún otro Sistema de Información. Sin embargo, los resultados de dichas consultas, pueden saturar a un usuario por la abundancia de resultados y tiempo de respuesta, causando pérdida de efectividad del sistema de búsqueda. Para resolver este problema, la siguiente tesis, propone un modelo computacional basado en algoritmos de agrupamiento que divide el conjunto de datos en pequeños grupos con características comunes, lo cual permite minimizar el tiempo de búsqueda y proporcionar información adecuada a los intereses del usuario. Dando como resultado efectividad orientada a este tipo de sistemas, y a modo de prueba se implementó en un prototipo de software a partir del modelo propuesto. Linares Valdivia Juan Carlos Pág. 4

6 I. PLAN DE INVESTIGACION 1.1. REALIDAD PROBLEMÁTICA Cada día es más fácil acceder a nuevas fuentes de información, los usuarios requieren buscar información específica de acuerdo a sus necesidades particulares. Los usuarios pueden hacer búsquedas, ya sea mediante motores de búsqueda o también mediante accesos a bases de datos particulares de bibliotecas o sistemas de información. Esta facilidad de acceso a distintas fuentes de información, trae consigo la dificultad de causar una sobresaturación de información al usuario, debido a la abundancia de resultados que se puede obtener al efectuar una consulta determinada. Otros problemas ocurren cuando la búsqueda produce demasiados resultados, con lo que aparte de consumir mucho tiempo de cómputo, el usuario se puede saturar ante demasiados resultados. Estas dificultades aún persisten cuando los usuarios efectúan consultas en las bibliotecas, por que usan vocabularios controlados y normalizados al incluir nuevos materiales a sus sistemas de información, y estos vocabularios no necesariamente son conocidos por usuarios finales. El usuario, al intentar obtener resultados no nulos, usualmente adopta una estrategia de búsqueda general, pero esto implica que muchos de los resultados de la búsqueda que haga no serán relevantes y el orden en que estos resultados son retornados no necesariamente será el más adecuado para él. Características del problema: Los resultados de la búsqueda son retornados en orden alfabético y no específicamente lo que el usuario desea encontrar en el sistema. La búsqueda produce demasiados resultados con lo que consume tiempo de cómputo y ejecuta instrucciones demás. Existe sobresaturación de información y abundancia de resultados, que en determinados casos no corresponde con lo que el usuario desea buscar en el sistema Linares Valdivia Juan Carlos Pág. 5

7 1.2. ENUNCIADO DEL PROBLEMA Cómo mejorar el tiempo de respuesta y correspondencia de resultados de un sistema de búsqueda de información bibliográfica? 1.3. HIPÓTESIS El diseño de un modelo computacional basado en algoritmos de agrupamiento permitirá mejorar el tiempo de respuesta y la correspondencia de resultados del sistema de búsqueda de información bibliográfica OBJETIVOS OBJETIVO GENERAL Diseñar un modelo computacional basado en algoritmos de agrupamiento para mejorar el tiempo de respuesta y correspondencia de resultados de un sistema de búsqueda de información bibliográfica OBJETIVOS ESPECIFICOS Analizar los algoritmos de agrupamiento y su utilidad en la optimización y aplicación. Diseñar un algoritmo con el rendimiento de los algoritmos que se tiene de base para este tipo de problemas. Comparar y evaluar los resultados de los algoritmos realizados en las consultas hechas al sistema de búsqueda de información bibliográfica. Implementar el modelo computacional diseñado anteriormente para la realización de pruebas. Validar la optimización de los resultados de las consultas realizadas sobre el modelo computacional JUSTIFICACION Desde el punto de vista de ciencia de la computación: Se justifica esta investigación porque se va a hacer un estudio y análisis riguroso de distintos tipos de algoritmos de agrupamiento, base para diseñar el modelo computacional que se va a aplicar e implementar. El problema a investigar corresponde a la ciencia computacional el cual está en el marco y área de la investigación, esta investigación debería llegar a conclusiones que supusieran un avance en el conocimiento científico de la materia estudiada. Linares Valdivia Juan Carlos Pág. 6

8 Desde el punto de vista operativa Esta tesis se justifica en que, al ser implementado, permitiría mejorar el tiempo de respuesta y la correspondencia de resultados de los sistemas de búsqueda de información bibliográfica, como en la biblioteca central de la LIMITACIONES El trabajo tiene las siguientes limitaciones: a. El estudio consiste en diseñar un modelo computacional basado en algoritmos de agrupamiento, pero se elijara solo un algoritmo para comprobar y evaluar el diseño. b. Este diseño se aplicara solo en el sistema de búsqueda de información bibliográfica de la biblioteca central de la UNT, por medio de una base de datos local. Linares Valdivia Juan Carlos Pág. 7

9 II. MARCO TEORICO Escuela Profesional de Informática 2.1. DISEÑO CONCEPTUAL Según el Diccionario RAE, el diseño es la traza o delineación de una figura, concepción original de un objeto, proyecto o plan; y descripción o bosquejo de verbal de algo. El diseño se define como el proceso previo de configuración mental, "prefiguración", en la búsqueda de una solución en cualquier campo. El verbo "diseñar" se refiere al proceso de creación y desarrollo para producir un nuevo objeto (proceso, servicio, conocimiento o entorno) para uso humano. El sustantivo "diseño" se refiere al plan final o proposición determinada fruto del proceso de diseñar. Según David Martínez Coronel en su trabajo [25], la fase del diseño conceptual es una serie de actividades mediante la cual se determinan y definen el marco conceptual al que serán referidos los datos, los instrumentos para su captación, los criterios de validación para la revisión y depuración de inconsistencias, y el esquema para la presentación de resultados. Etapas del proceso de diseño Según Dioclecio Moreira Camelo en su tesis doctoral [11], nos dice que la clasificación más aceptada por la comunidad científica divide el diseño en las siguientes: a. Clarificación de las tareas: conjunto de información describe los requisitos y restricciones del problema de diseño. b. Diseño conceptual: abstracción de las funciones del sistema y de su estructura física para conducir a la formación de un nuevo producto. c. Diseño preliminar: construcción de una disposición general del sistema de diseño según los principios de seguridad, legislación, coste, factores técnicos, estéticos, etc. Diseño de detalle: selección de los materiales, definición de las dimensiones, de las superficies, de los flujos, de las tolerancias, de los dibujos técnicos y de la documentación para la producción. Linares Valdivia Juan Carlos Pág. 8

10 2.2. MODELO COMPUTACIONAL Según Dioclecio Moreira Camelo en su tesis doctoral [11], desde el punto de vista computacional, el diseño conceptual consiste en buscar y combinar ideas para formar alternativas de diseño. Los modelos Computacionales conducen o automatizan algunas tareas del proceso de diseño. Estos modelos provienen de los métodos cognitivo, epistemológico y metodológico, a partir de los cuales se han desarrollado. Con los avances de las tecnologías informáticas, se ha logrado explicitar, racionalizar, almacenar y manipular cada vez mejor el conocimiento utilizado durante el desarrollo de un producto en los modelos computacionales. La mayoría de los modelos computacionales parte de las intenciones de un producto como datos de entrada y propone una o más soluciones para las mismas. Estas intenciones pueden ser un conjunto de requerimientos o de funciones que deben ser realizados por los componentes físicos. En el caso de que no se consiga atender a dichas funciones, habitualmente se descomponen en otras más simples para facilitar su entendimiento y permitir la búsqueda de soluciones. Para describir los modelos, se han agrupado según la forma en que descomponen y relacionan las funciones, y más genéricamente el comportamiento y las estructuras de un diseño, en base a los siguientes métodos: Árbol de funciones: descompone los requerimientos de función en base a una organización jerárquica (árbol) de funciones y sub-funciones, antes o durante la síntesis. Relación del flujo de las entradas y salidas: considera la relación existente entre las entradas y salidas de flujos o de movimiento para encontrar posibles sub-funciones dentro de una base de conocimientos. Relaciones de causa y efecto (causal): esta categoría considera que para alcanzar un determinado efecto se debe tener una causa anterior. Linares Valdivia Juan Carlos Pág. 9

11 Características: considera las características mínimas para un producto, que son las dimensiones de un espacio de diseño formado por un número finito de particiones. Agentes: proceso computacional que utiliza agentes inteligentes para conseguir una mejor integración y funcionalidad en entornos de ejecución distribuidos. En estos sistemas, cada agente se encarga de una tarea específica para interactuar con otros agentes que realizan otras tareas. Redes neuronales: paradigma inspirado en el sistema nervioso biológico que consiste en un gran conjunto de procesadores interconectados (neuronas) que trabajan de forma simultánea para resolver problemas específicos. Adbucción: método que proviene de la lógica que describe una solución de diseño (hechos) a través de conocimientos sobre el diseño (axiomas) y de las propiedades de otras soluciones de diseño (teoremas). Métodos evolutivos: métodos concebidos a partir de la abstracción genética. Este método detecta la abstracción más favorable y, a partir de ella, cambia los parámetros (funciones) por medio de algoritmos de mutación o recombinación que descomponen los parámetros. Además del método de razonamiento, también se describen los modelos computacionales a través de los siguientes aspectos: Planteamiento del modelo, es decir qué se resuelve, La base que utilizan para resolver un problema de diseño, Su algoritmo de síntesis, Los métodos de evaluación y Hasta donde llegan en la formación de la solución. Linares Valdivia Juan Carlos Pág. 10

12 2.3. ALGORITMOS DE AGRUPAMIENTO ALGORITMO Según Carlos López García en su libro [15], los algoritmos son una herramienta que permite describir claramente un conjunto finito de instrucciones, ordenadas secuencialmente y libres de ambigüedad, que debe llevar a cabo un computador para lograr un resultado previsible. Vale la pena recordar que un programa de computador consiste de una serie de instrucciones muy precisas y escritas en un lenguaje de programación que el computador entiende (Logo, Java, Pascal, etc.). Un Algoritmo es una secuencia ordenada de instrucciones, pasos o procesos que llevan a la solución de un determinado problema. Los hay tan sencillos y cotidianos como seguir la receta del médico, abrir una puerta, lavarse las manos, etc.; hasta los que conducen a la solución de problemas muy complejos. En términos generales, un Algoritmo debe ser Realizable: El proceso algorítmico debe terminar después de una cantidad finita de pasos. Se dice que un algoritmo es inaplicable cuando se ejecuta con un conjunto de datos iniciales y el proceso resulta infinito o durante la ejecución se encuentra con un obstáculo insuperable sin arrojar un resultado. Comprensible: Debe ser claro lo que hace, de forma que quien ejecute los pasos (ser humano o máquina) sepa qué, cómo y cuándo hacerlo. Debe existir un procedimiento que determine el proceso de ejecución. Preciso: El orden de ejecución de las instrucciones debe estar perfectamente indicado. Cuando se ejecuta varias veces, con los mismos datos iniciales, el resultado debe ser el mismo siempre. La precisión implica determinismo AGRUPAMIENTO DE OBJETOS El tesista Allan Roberto Avendaño Sudario especifica en su documento [12], que una de las técnicas utilizadas para comprender la naturaleza de las colecciones de objetos, consiste en dividirlas en pequeños grupos de elementos que compartan cierto grado de similitud entre sí. Linares Valdivia Juan Carlos Pág. 11

13 Este enfoque ha sido utilizado en diversas áreas científicas y comerciales, incluyendo la organización de resultados de búsqueda y marketing. Es así, que se han utilizado para analizar el comportamiento histórico de los usuarios en la Web o en las bibliotecas al agrupar manualmente los libros de acuerdo a los tópicos tratados. Para agrupar elementos no es necesario plantear un análisis previo en el que se determine, por ejemplo, la independencia de las variables o de la supervisión de un experto que determine la similitud. Sin embargo, es necesario seleccionar las variables relevantes que describan con precisión la naturaleza de los objetos. Otro de los requerimientos durante el agrupamiento de objetos es la métrica de distancia. La cual es una expresión matemática en la que se evalúan las características de los objetos para determinar la proximidad entre estos ALGORITMOS DE AGRUPAMIENTO Según la página web [17], un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud. La cercanía se define en términos de una determinada función de distancia, como la euclídea, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida más utilizada para medir la similitud entre los casos es las matriz de correlación entre los n x n casos. Sin embargo, también existen muchos algoritmos que se basan en la maximización de una propiedad estadística llamada verosimilitud. Generalmente, los vectores de un mismo grupo (o clústeres) comparten propiedades comunes. El conocimiento de los grupos puede permitir una descripción sintética de un conjunto de datos multidimensional complejo. De ahí su uso en minería de datos. Esta descripción sintética se consigue sustituyendo la descripción de todos los elementos de un grupo por la de un representante característico del mismo. Linares Valdivia Juan Carlos Pág. 12

14 APLICACIÓN DE LOS ALGORITMOS DE AGRUPAMIENTO Escuela Profesional de Informática Según Carlos Eduardo Bedregal Lizárraga en su tesis [23], las técnicas de agrupamiento encuentran aplicación en diversos ámbitos. Las técnicas de agrupamiento de datos fueron inicialmente desarrolladas en biología y zoología para la construcción de taxonomías. La necesidad de varias disciplinas científicas de organizar grandes cantidades de datos en grupos con significado ha hecho del agrupamiento de datos una herramienta valiosa en el análisis de datos. Un sin número de entidades han sido objeto de aplicaciones de agrupamiento de datos: enfermedades, huellas digitales, estrellas, consumidores e imágenes. Entre las principales aplicaciones de agrupamiento de datos tenemos la segmentación de imágenes, la minería de datos, la recuperación de información, el procesamiento del lenguaje natural y el reconocimiento de objetos. a. Segmentación de imágenes. Componente fundamental en muchas aplicaciones de visión computacional, consiste en el particionamiento de una imagen para la identificación de regiones, cada una de las cuales es considerada homogénea con respecto a alguna propiedad de la imagen. Para cada píxel de la imagen se define un vector de características compuesto por lo general de funciones de intensidad y ubicación del píxel. b. Reconocimiento de objetos. Cada objeto es representado en términos de un conjunto de imágenes del objeto obtenidas desde un punto de vista arbitrario. Entonces, a través de técnicas de agrupamiento es posible seleccionar e identificar al conjunto de vistas de un objeto que sean cualitativamente similares. c. Procesamiento del lenguaje natural. Técnicas de agrupamiento son también utilizadas para el reconocimiento de caracteres y del habla. Sistemas dependientes o independientes del sujeto capaz de reconocer lexemas y morfemas para identificar caracteres escritos y discursos hablados. d. Minería de datos. Es necesario desarrollar algoritmos que puedan extraer información significante de la gran cantidad de datos disponibles. La generación de información útil, o conocimiento, a partir de grandes cantidades de datos es conocida como minería de datos. Linares Valdivia Juan Carlos Pág. 13

15 2.4. CLASIFICACION DE LOS ALGORITMOS DE AGRUPAMIENTO Escuela Profesional de Informática Según Ignacio Javier Benítez Sánchez en su tesis sustenta la siguiente clasificación: ALGORITMOS DE AGRUPAMIENTO PARTICIONAL Un algoritmo de agrupamiento particional obtiene una partición simple de los datos en vez de la obtención de la estructura del clúster tal como se produce con los dendogramas de la técnica jerárquica. En la figura 1 se muestra un ejemplo de clustering particional. Figura 1. Agrupamiento Particional. El clustering particional organiza los objetos dentro de k clusters de tal forma que sea minimizada la desviación total de cada objeto desde el centro de su clúster o desde una distribución de clusters. La desviación de un punto puede ser evaluada en forma diferente según el algoritmo, y es llamada generalmente función de similitud. Los métodos particionales tienen ventajas en aplicaciones que involucran gran cantidad de datos para los cuales la construcción de un dendograma resultaría complicada. El problema que se presenta al utilizar algoritmos particionales es la decisión del número deseado de clusters de salida. Las técnicas particionales usualmente producen clusters que optimizan el criterio de función definido local o globalmente. En la práctica, el algoritmo se ejecuta múltiples veces con diferentes estados de inicio y la mejor configuración que se obtenga es la que se utiliza como el clustering de salida. Linares Valdivia Juan Carlos Pág. 14

16 a. Chain-map o Algoritmo de las distancias encadenadas El algoritmo Chain-map es uno de los algoritmos de agrupamiento más sencillos. Dado el conjunto de objetos, en forma de vectores, en donde cada elemento es el valor de una característica, el algoritmo comienza seleccionando un objeto cualquiera de los disponibles. A continuación se ordenan todos los demás objetos formando una cadena según proximidad, como se puede ver en (a), en donde el subíndice i indica que se ha seleccionado al objeto i como al primero de la cadena. Zi (0) ; z i(1) ; : : : ; zi (N- 1)..(a) El procedimiento consiste en calcular todas las distancias euclídeas entre el objeto k y el inmediatamente anterior (k- 1), y disponerlas en la cadena por el orden establecido. Las distancias Euclídeas pequeñas indican que los objetos pertenecen a una misma clase, mientras que un gran salto en el valor de la distancia Euclidea, significa una transición de un grupo a otro. De esta forma se obtiene una agrupación de todos los objetos en grupos, sin necesidad de definir previamente el número de estos. Sí que es preciso determinar, sin embargo, a partir de qué valor de salto cuantitativo de la distancia euclídea se considera que se ha saltado de un clúster a otro. Este algoritmo Chain-map, aunque no es el óptimo en algunos casos, sí es muy recomendable en todos como un paso previo para la iniciación de otros algoritmos de clustering, y para la estimación inicial del número de grupos a buscar. b. Max-min El algoritmo Max-min tampoco necesita predefinir el número inicial de grupos o clusters a buscar. El procedimiento que sigue es el siguiente: Se selecciona uno de los objetos al azar, quedando asignado como patrón del grupo A1. Se calculan todas las distancias euclídeas de todos los objetos restantes con respecto al objeto patrón del grupo A1. El objeto con la distancia euclídea más grande (el más alejado de A1), queda seleccionado como patrón de un segundo grupo A2. Linares Valdivia Juan Carlos Pág. 15

17 A continuación se calculan todas las distancias euclídeas de todos los objetos restantes con respecto al objeto patrón del nuevo grupo A2. De las dos distancias obtenidas para cada objeto, se selecciona la más pequeña. De todo el conjunto de distancias así formado, se selecciona la mayor, y si esta es mayor que la distancia, ponderada por un factor f, entre los patrones de los grupos A1 y A2, entonces se crea un nuevo grupo, A3 (b). El mismo procedimiento se repite, creando nuevos grupos hasta que la respectiva distancia máxima ya no sea mayor que el valor medio de todas las distancias entre patrones de todos los grupos creados. Se recalculan por última vez todas las distancias euclídeas de los objetos restantes a todos los respectivos patrones de todos los grupos creados, asignando cada objeto como perteneciente al clúster que tenga más cercano (menor distancia euclídea). dmax > f d(z1; z2); 0 < f < 1 (b) El inconveniente de este algoritmo es la apropiada elección del factor de ponderación f, ya que interviene directamente en la creación de un mayor o menor número de grupos o clases distintas. c. K-means El algoritmo de K-medias o k-means es muy conocido y muy usado, por su eficacia y robustez. Su nombre hace referencia al número K de clases o grupos a buscar, que debe definirse con antelación. El procedimiento del algoritmo es el siguiente: Se comienza seleccionando K objetos al azar del conjunto total y asignándolos como patrones o centroides de las K clases que se van a buscar. A continuación, se calculan todas las distancias euclídeas de todos los objetos restantes a todos los K centroides, y se asigna la pertenencia a cada objeto al clúster que tenga más cercano. Entonces se recalcula el centroide de cada clúster, como la media de todos los objetos que lo componen, buscando minimizar el valor de una función de coste, que es un sumatorio de todos los Linares Valdivia Juan Carlos Pág. 16

18 sumatorios de las distancias euclídeas de los objetos de cada clase al centroide de su respectiva clase, como se puede ver en (c). Los dos pasos anteriores se repiten sucesivamente hasta que los centros de todos los grupos permanezcan constantes, o hasta que se cumpla alguna otra condición de parada. k J = ( z j c i i=1 j,z j A i ) (c) La eficacia del algoritmo K-means depende de la idoneidad del parámetro K. Si este es mayor o menor que el número real de grupos, se crean grupos ficticios o se agrupan objetos que deberían pertenecer a clusters distintos. El cual genera k grupos de elementos. Este número debe ser seleccionado ante del procesamiento; además, debe ser mayor que dos y menor que el número de elementos que componen la colección. El objetivo de este algoritmo consiste en minimizar el promedio cuadrado de la distancia de cada documento con el centroide de cada grupo. d. PAM PAM (Partitioning Around Medoids) es una extensión del algoritmo K- means, en donde cada grupo o clúster está representado por un medoide en vez de un centroide. El medoide es el elemento más céntrico posible del clúster al que pertenece; similar al centroide, pero no necesariamente, ya que el centroide representa el valor patrón o medio del conjunto, que no siempre coincide con el más céntrico. El procedimiento para el agrupamiento es similar al del K-means. e. CLARA El algoritmo CLARA (Clustering Large Applications) divide la base de datos original en muestras de tamaño s, aplicando el algoritmo PAM sobre cada una de ellas, seleccionando la mejor clasificación de las resultantes. Este algoritmo está indicado para bases de datos con gran cantidad de objetos, y su principal motivación es la de minimizar la carga computacional, en detrimento de una agrupación optima y precisa. Linares Valdivia Juan Carlos Pág. 17

19 ALGORITMOS DE AGRUPAMIENTO JERÁRQUICO Escuela Profesional de Informática Un método jerárquico crea una descomposición jerárquica de un conjunto de datos, formando un dendograma (árbol) que divide recursivamente el conjunto de datos en conjuntos cada vez más pequeños. La figura 2 muestra la representación gráfica de un dendograma. a. BIRCH Figura 2. Agrupamiento Jerárquico. BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), almacena para cada clúster un triplete de datos que contiene el número de objetos que pertenecen a ese grupo. El valor de la suma de todos los valores de los atributos de todos los objetos pertenecientes al grupo, y la suma de los cuadrados de los atributos de los objetos que pertenecen al clúster. Con esta información construye un árbol de grupos llamado CF-tree (Clúster Features tree). En cada nodo se indica el número de grupos que pertenecen a esa ramificación y cuáles son sus características. El procedimiento del algoritmo BIRCH es el siguiente: Generar un CF-tree inicial, leyendo los datos y asignándolos a una rama o a otra. Si la distancia entre un objeto nuevo y los anteriores se hace mayor que cierto parámetro T, se crea una rama nueva. Revisar el árbol creado para ver si es demasiado grande, y moldearlo modificando el valor del parámetro T. Si el valor de este Linares Valdivia Juan Carlos Pág. 18

20 parámetro se aumenta, las ramas del árbol se juntan al no haber distinción de grupos. Aplicar algún procedimiento de clustering, como el K-means, sobre la información contenida en los nodos de cada nivel. Redistribuir los datos según los centroides descubiertos en el paso anterior, logrando un mayor refinamiento en el agrupamiento. Las principales desventajas del algoritmo BIRCH son su secuencialidad, lo cual puede provocar asignación a distintos clusters de objetos replicados, colocados en distintos lugares de la secuencia, y la fuerte dependencia del parámetro T. De forma que una mala elección de este valor puede generar la creación de falsas agrupaciones, o ramificaciones duplicadas, o la asignación de objetos a un mismo nodo, cuando deberán estar en nodos distintos. b. CURE CURE (Clustering Using REpresentatives) es un algoritmo que se basa en la selección de más de un elemento representativo de cada clúster. Como resultado, CURE es capaz de detectar grupos con múltiples formas y tamaños. Es un algoritmo de tipo aglomerativo, que comienza considerando todos los objetos como grupos independientes, y a partir de ahí combina sucesivamente los objetos, agrupándolos en clusters. De cada uno de estos grupos, almacena los objetos extremos, desplazándolos hacia el centro del clúster mediante un factor de acercamiento que es el valor medio de todos los elementos que componen el grupo ALGORITMOS DE AGRUPAMIENTO BORROSO Los algoritmos de agrupamiento borroso se basan todos en una partición no-exclusiva de las pertenencias de los objetos a los distintos clusters. En una partición clásica (exclusiva) todos los objetos del conjunto son asignados (pertenecen) a un único clúster y sólo uno, cumpliendo los grupos formados las propiedades que se muestran en las expresiones (d), (e) y (f). Linares Valdivia Juan Carlos Pág. 19

21 A i A j =, 1 i j c A i Z, 1 i c. (d). (e) c i=1 A i = Z. (f) La expresión (d) indica que la intersección de los elementos de dos clusters distintos debe generar como resultado el conjunto vacío (c es el número de grupos). Las expresiones (e) y (f) indican que ningún grupo es el conjunto vacío, y que la unión de todos los elementos de todos los grupos da como resultado el conjunto total de objetos (Z). Si se genera una matriz de pertenencias U = [μ 1k ]de dimensiones c x N (c número de clusters, N número de objetos), se define un espacio de particiones clásicas como el conjunto de la expresión (g). M hc = { U RcxN μ 1k {0,1}, i, k ; c i=1 μ 1k = 1, k ; }.. (g) 0 < N μ 1k < N, i k=1 Figura 3. Agrupamiento Borroso o Difuso. En una partición clásica, los valores de todo μ 1k sólo pueden ser 0 o 1. Sin embargo, en una partición borrosa, los elementos μ 1k de la matriz de pertenencias U, pueden tomar cualquier valor entre cero y uno. La partición borrosa se define según la expresión (h), que tiene las mismas propiedades que la partición clásica (g), pero incorporando la posibilidad de que las pertenencias puedan adquirir valores dentro del rango [0; 1]. M fc = { U RcxN μ 1k {0,1}, i, k ; c i=1 μ 1k = 1, k ; } (h) 0 < N μ 1k < N, i k=1 Linares Valdivia Juan Carlos Pág. 20

22 En ambas particiones se requiere que la suma de todas las pertenencias de un único objeto a todos los clusters ha de sumar uno. Este es un requerimiento no-posibilista. Aunque no es tan usada, también existe la variante posibilista de partición, en donde no se exige que la suma de pertenencias para cada objeto sea exactamente igual a uno, sino que al menos la pertenencia de algún objeto a un determinado clúster sea mayor de cero. En los algoritmos que se detallan a continuación se usa la partición borrosa no-posibilista (suma de pertenencias en cada objeto ha de ser igual a uno). a. Algoritmo de las c-medias o fuzzy c-means El algoritmo FCM o Fuzzy c-means, está basado en la minimización de la función objetivo definida en (i), que es una medida ponderada del error cuadrático que se comete al definir los elementos ci como centroides de los c clusters. J(Z; U; C) = C N (μ ik ) m z k c i 2 B (i) I=1 K=1 Los elementos implicados en esta función son: Z, que es el número de objetos; la matriz de pertenencias U, cuyos elementos μ ik aparecen elevados a un factor de `borrosidad' m, que puede tomar cualquier valor mayor de uno; y la matriz C de centroides de los clusters. La expresión z k c i B 2 es una medida de la distancia, como se puede ver en (j). z k c i 2 B = (z k c i ) T B (z k c i ) 2 = D ikb..(j) Cuando a B se le da de valor la matriz identidad, se tiene como resultado la distancia euclídea elevada al cuadrado. Si B se sustituye por la inversa de la matriz de covarianzas, el resultado es la distancia de Mahalanobis. El resultado de minimizar esta función objetivo, mediante igualación a cero de las respectivas derivadas parciales, produce dos expresiones para obtener los valores de los centroides y de las pertenencias, mostradas en las expresiones (k) y (l). μ ik = c j=1 1 ( D 2 ikb D jkb 2 ) 2 m 1, 1 i c, 1 k N.. (k) Linares Valdivia Juan Carlos Pág. 21

23 c i = N ( μ ik ) k=1 m z k N (μ ik )m k=1 Escuela Profesional de Informática, 1 i c.. (l) Partiendo de estas expresiones, el algoritmo FCM sigue los siguientes pasos: Inicializar la matriz de pertenencias U con valores aleatorios, pero que cumplan con los requisitos definidos en (h). Calcular los centros de los clusters según expresión (l). Hallar todas las distancias de los objetos a los respectivos centros de sus grupos (j). Recalcar toda la matriz de particiones U aplicando la expresión (k) 2 cuando D jkb para todo i, k, y aplicando la solución expuesta (m) para cualquier otro caso. Verificar si se cumple la condición de parada. Si no se cumple, volver a empezar desde el segundo paso del algoritmo. La condición de parada es que la variación en la matriz de pertenencias de la nueva iteración respecto a la calculada en la iteración anterior esté por debajo de un valor umbral ε tal y como se indica en (n). El parámetro " suele tener un valor pequeño, normalmente 0:001 o menor, indicando que la nueva matriz de pertenencias debe ser muy similar a la anterior para que se pare el algoritmo. μ ik = 0 si D ikb > 0 (m) μ ik [0,1], con μ ik = 1 para el resto Linares Valdivia Juan Carlos Pág. 22 c i=1 U (k) U (k 1) < ε. (n) b. Algoritmo de Gustafson-Kessel o GK El algoritmo GK es una variante del algoritmo FCM, propuesta por Gustafson y Kessel en Esta consiste en asignar distintas clases de normas B a los distintos grupos o clases, con lo cual se obtienen agrupaciones con distintas formas. Así pues, se define un vector B que contiene c normas, y se modifica la función objetivo a minimizar de forma que quede como en (o).

24 J(Z; U; C; B) = C N (μ ik ) m z k c i 2 Bi.(o) I=1 K=1 Para obtener una solución viable, el rango de posibles valores de los elementos Bi se limita estableciendo un valor fijo para su determinante, como se puede ver en: B i = ρ i,ρ > 0 El resultado de minimizar la función objetivo resulta en una nueva expresión para el cálculo de las normas (p), en donde la variable Fi representa la matriz de covarianzas de la clase i, y se puede obtener usando la expresión (q). La fórmula para el cálculo de los centroides se mantiene como en el FCM (l), y la nueva expresión para calcular las pertenencias a las clases es como la anterior (k), pero incorporando el hecho de que hay una norma distinta para cada grupo, como se puede ver en (r). B i = [ρ i det(f i )] 1 nf i 1.. (p) F i = N k=1 (μ ik )m (z k c i )(z k c i ) T (μ ik ) m (q) N k =1 μ ik = c j=1 1 ( D 2 ikb i D jkbi 2 ) 2 m 1, 1 i c, 1 k N N (r) Los pasos que sigue el algoritmo son, pues, los siguientes: Inicializar la matriz de pertenencias U con valores aleatorios. Calcular los centros de los grupos, según la expresión (l). Calcular la matriz de covarianzas de cada clase (q). Calcular todas las distancias, aplicando la norma correspondiente en cada caso, según (p) y (j). Hallar todos los nuevos valores de la matriz de pertenencia, siguiendo el mismo procedimiento descrito para el FCM, y teniendo en cuenta que hay una norma distinta para cada cluster (r). Verificar la condición de parada, que es la misma que en el caso del FCM (n). Si no se cumple, volver al paso 2 del algoritmo. Linares Valdivia Juan Carlos Pág. 23

25 c. Algoritmo de estimación de la máxima probabilidad o FMLE El algoritmo FMLE (Fuzzy Maximum Likelihood) es otra variante del FCM que incluye una norma con un término exponencial, que se calcula mediante el uso de las expresiones (s), (t) y (u). 2 D ikgi = det(g i ) P i exp [ 1 2 (z k c i )T G i 1 (z k c i )]. (s) G i = N k=1 μ ik (z k c i )(z k c i )T N.. (t) N k =1 μ ik P i = 1 N μ ik. (u) k=1 Al igual que el algoritmo GK, cada grupo o clase tiene su propia norma asociada, que se calcula de la forma que se ha mostrado. El resto del procedimiento es similar a la secuencia de pasos del algoritmo GK ALGORITMOS DE AGRUPAMIENTO BASADOS EN LA DENSIDAD Los algoritmos basados en densidad obtienen clusters basados en regiones densas de objetos en el espacio de datos que están separados por regiones de baja densidad (estos elementos aislados representan ruido). En la figura 4 se muestra un ejemplo de agrupamiento basado en densidad. Figura 4. Agrupamiento basado en Densidad. Linares Valdivia Juan Carlos Pág. 24

26 Este tipo de métodos es muy útil para filtrar ruido y encontrar clusters de diversas formas. La mayoría de los métodos de particionamiento, realizan el proceso de agrupamiento con base en la distancia entre dos objetos. Estos métodos pueden encontrar solo clusters esféricos y se les dificulta hallar clusters de formas diversas. a. GDBSCAN El algoritmo GDBSCAN (Generalized Density Based Spatial Clustering of Applications with Noise) está basado en la densidad de los grupos formados. Al buscar formas densas que pueden ocupar zonas geográficas, este es también un algoritmo clasificado como de clustering geográfico. El principio en que se basa es que para que se reconozca un cluster en una zona, esta debe rebasar cierto límite o threshold de densidad. Este valor de densidad es una relación entre el número de objetos y el área que ocupan en el conjunto considerado como perteneciente a un único cluster. Los grupos detectados (o inicializados) son considerados como objetos o cuerpos geométricos, con sus propias características, como son el centro de gravedad, el área total, la densidad, etc. Todos los objetos pueden compararse entre sí para establecer relaciones de distancia entre los centros de los clusters, o si hay un solapamiento entre regiones, con lo cual se puede plantear la fusión o reorganización de los distintos grupos. Normalmente se realiza un proceso iterativo, en el que a cada objeto de la base de datos se le calcula si pertenece o no a alguno de los clusters reconocidos, y a qué distancia se encuentra de todos ellos. Si este objeto no se asigna como perteneciente a ningún grupo, se considera como ruido y se pasa al siguiente elemento, hasta completar un barrido de todos los objetos. Finalizado el proceso, si la condición de parada no se satisface, se vuelve a empezar variando las condiciones iniciales. El resultado final es un mapa geográfico de densidades, en donde las zonas con mayor densidad de objetos se agrupan para formar clusters Linares Valdivia Juan Carlos Pág. 25

27 geométricos, con sus propios valores definiendo su forma, densidad y situación en el espacio de coordenadas. b. DENCLUE DENCLUE (DENsity-based CLUstEring) usa el concepto de las funciones de influencia para catalogar la influencia que cada objeto ejerce sobre los elementos cercanos. Estas funciones de influencia son similares a las funciones de activación usadas para redes neuronales: superado cierto valor umbral de distancia entre objetos (distancia euclídea), la salida cambia de un estado a otro, normalmente entre un estado inactivo (0) y otro activo (1). El valor umbral viene definido por funciones de activación, como la gaussiana o la sigmoidal. La densidad se computa como la suma de todas las funciones de influencia de todos los objetos. Los clusters se determinan mediante la detección de los atractores, o máximos locales de densidad. Se consigue así un algoritmo de agrupamiento robusto, capaz de manejar datos ruidosos o erróneos ALGORITMOS DE AGRUPAMIENTO BASADO EN GRID Recientemente un número de algoritmos de agrupamiento han sido presentados para datos espaciales, estos son conocidos como algoritmos basados en Grid. Figura 5. Agrupamiento basado en Grid. Linares Valdivia Juan Carlos Pág. 26

28 Estos algoritmos cuantifican el espacio en un número finito de celdas y aplican operaciones sobre dicho espacio. La mayor ventaja de este método es su veloz procesamiento del tiempo, el cual generalmente es independiente de la cantidad de objetos a procesar. En la figura se muestra un ejemplo de agrupamiento basado en Grid. a. STING STING (STatistical INformation Grid) particiona el espacio según niveles, en un número finito de celdas con una estructura jerárquica rectangular. De cada celda extrae la información de los objetos que allí encuentra, que es: media, varianza, mínimo y máximo de los valores y tipo de distribución de los objetos encontrados. Con cada nivel se vuelven a particionar las celdas, construyendo un árbol jerárquico a semejanza del algoritmo BIRCH. Acabada la partición del espacio hasta el nivel de detalle deseado, los clusters se forman asociando celdas con información similar mediante consultas especializadas. b. CLIQUE CLIQUE (CLustering In QUEst) también realiza particiones del espacio según niveles, pero en esta ocasión cada nivel nuevo es una dimensión más, hasta alcanzar la n dimensiones o características de los objetos. La estructura de partición es en forma de hiper-rectángulos. El funcionamiento es el siguiente: comienza con una única dimensión, y la divide en secciones, buscando las más densas, o aquellas donde se encuentran más objetos. A continuación incluye la segunda dimensión en el análisis, particionando el espacio en rectángulos, y buscando los más densos. Luego sigue con cubos en tres dimensiones, y así sucesivamente. Cuando acaba con todas las características o dimensiones de los objetos, se definen los clusters y las relaciones entre ellos mediante semejanza de densidades y otra información extraída, en todos los niveles o dimensiones. Linares Valdivia Juan Carlos Pág. 27

29 ALGORITMOS DE AGRUPAMIENTO BASADO EN MODELOS a. Expectation-Maximization El algoritmo de Expectation-Maximization o EM, asigna cada objeto a un cluster predefinido, según la probabilidad de pertenencia del objeto a ese grupo concreto. Como modelo se usa una función de distribución gaussiana, siendo el objetivo el ajuste de sus parámetros, según cómo los distintos objetos del conjunto se ajustan a la distribución en cada cluster. El algoritmo de EM puede identificar grupos o clases de distintas formas geométricas, si bien implica un alto coste computacional, para conseguir un buen ajuste de los parámetros de los modelos ALGORITMOS DE AGRUPAMIENTO GEOGRÁFICO O ESPACIAL a. GRAVIclust El GRAVIclust es un algoritmo de clustering geográfico, que busca conjuntos geográficos definidos por el área, el centro y el radio del área localizada (con lo cual los grupos tienen una forma más o menos circular). La densidad de cada grupo, es decir, las zonas más concurridas son las que más probabilidad tienen de formar un cluster de datos. Como medida de similitud se usa la distancia euclídea, siendo la función objetivo a optimizar la mostrada en la expresión (v) k J = d(p, L i ).. (v) i=1 p C i En donde k es el número de clusters a buscar, p es un objeto perteneciente al cluster Ci, y d es la distancia del objeto p al centro de gravedad de la agrupación Ci, llamado Li. El objeto p pertenece únicamente al conjunto cuya distancia al centro de gravedad Li sea menor. La búsqueda se perfecciona en sucesivas iteraciones, buscando los centros de los clusters formados mediante el cálculo del centro de masas (o centro de gravedad) de todos los objetos que componen el cluster correspondiente. Linares Valdivia Juan Carlos Pág. 28

30 ALGORITMOS DE AGRUPAMIENTO EN DATOS DISTRIBUIDOS a. Collective Principal Component Analysis En [22] se propone un algoritmo para el agrupamiento de objetos cuyas características se encuentran distribuidas entre varios nodos de una red, lo que se conoce como datos heterogéneamente distribuidos. Para ello se basa en la técnica del PCA (Principal Components Analysis), la cual busca una representación reducida de los datos que contenga la información más relevante para permitir la agrupación (el Principal Components). El nombre resultante es el de CPCA (Collective Principal Components Analysis). Cada nodo local realiza el agrupamiento sobre sus características, y envía la información con los datos más representativos obtenidos a una unidad central. Allí se vuelve a aplicar el procedimiento de clustering sobre los datos recibidos; los resultados son enviados de vuelta a todos los nodos, que vuelven a aplicar la tarea de agrupación tomando como patrones los datos recibidos. Los clusters locales resultantes son vueltos a enviar a la unidad central. b. RACHET RACHET (Recursive Agglomeration of Clustering Hierarchies by Encircling Tactic) es un algoritmo de clustering jerárquico diseñado para conjuntos de objetos distribuidos homogéneamente (con todas sus características o dimensiones) en distintos nodos en una red. Cada nodo genera primero un dendograma (árbol jerárquico de agrupamiento) local, según los objetos contenidos en él. A continuación todos los dendogramas locales son enviados a una unidad central, pero para reducir costes de comunicación, lo que se envía es una aproximación de los resultados en forma de resúmenes estadísticos de ciertos indicadores, como el número de objetos en cada grupo o la distancia euclídea media de todos los datos al centroide del grupo. Linares Valdivia Juan Carlos Pág. 29

31 2.2. SISTEMA DE BUSQUEDA DE INFORMACION BIBLIOGRAFICA Escuela Profesional de Informática Según en la página web [18], un sistema informático es un sistema que permite almacenar y procesar información; como todo sistema, es el conjunto de partes interrelacionadas: en este caso, hardware, software y recursos humanos. El hardware incluye computadoras o cualquier tipo de dispositivo electrónico inteligente, que consisten en procesadores, memoria, sistemas de almacenamiento externo, etc. El software incluye al sistema operativo, firmware y aplicaciones, siendo especialmente importante los sistemas de gestión de bases de datos. Por último el soporte humano incluye al personal técnico que crean y mantienen el sistema (analistas, programadores, operarios, etc.) y a los usuarios que lo utilizan. La información bibliográfica se extiende como una visión de conjunto de todas las publicaciones en alguna categoría, intenta dar una visión de conjunto completa de la literatura. Las bibliografías se pueden ordenar de diferentes maneras, de igual modo a los catálogos de biblioteca. Las bibliografías anotadas ofrecen descripciones aproximadas de las fuentes, construyendo protocolos o argumentos, que son de gran utilidad para los autores. Creando estas anotaciones, generalmente unas cuantas frases, se establece un resumen que da pistas sobre la idoneidad de cada fuente antes de escribir una obra. a. Recuperación de la información En el área de extracción de información, las técnicas de agrupamiento de documentos son utilizadas con diversos fines. Es así, que en lugar de listar los resultados en la forma tradicional, los documentos resultantes de una búsqueda son agrupados de acuerdo a la similitud de los términos que contienen. El resultado del proceso de agrupamiento de objetos son grupos cuyos elementos comparten características comunes. Los algoritmos se clasifican de acuerdo a las características del agrupamiento, descritas a continuación. De acuerdo a la relación que existe entre los grupos. Los algoritmos de particionamiento generan grupos sin una estructura explícita que relacione se relacionen con otros grupos. Por el contrario, los algoritmos jerárquicos Linares Valdivia Juan Carlos Pág. 30

32 organizan los grupos en categorías y consecuentemente son organizados en sub-categorías. El tesista Allan Roberto Avendaño Sudario específica en su documento [12], que con la aparición de los medios electrónicos ha aumentado la generación de documentos y, de igual manera, la capacidad de almacenamiento de los dispositivos electrónicos, aunque sigue siendo mínima la extracción de información contextual de los documentos. El proceso de extracción de información consiste en representar, almacenar, organizar y acceder a documentos relevantes tomados a partir de una colección de documentos sin estructurar (generalmente en lenguaje natural), con el objetivo de satisfacer las necesidades de los usuarios. Estos sistemas de extracción de información además, brindan el soporte a los usuarios al filtrar los resultados en grupos de documentos automáticamente creados. Las técnicas de agrupamiento o clustering permiten obtener grupos de documentos similares entre sí, sin la supervisión de expertos. Es por esto que estas técnicas son empleadas para que los usuarios finales tengan una visión global de las características de colecciones de objetos con mayor facilidad. b. Stemming Stemming es un método para reducir una palabra a su raíz o (en inglés) a un stem o lema. Hay algunos algoritmos de stemming que ayudan en sistemas de recuperación de información. Algoritmos utilizados para desechar prefijos y sufijos: Paice/Husk, S-stemmer / n-gramas y Técnicas lingüísticas Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz. Linares Valdivia Juan Carlos Pág. 31

33 III. DISEÑO DE LA INVESTIGACION 3.1. TIPO DE INVESTIGACION Investigación aplicada 3.2. DISEÑO DE LA INVESTIGACION Para el análisis se aplicara el diseño de contrastación Pre-experimental a post-prueba único y un grupo de control. Este diseño incluye dos grupos, uno (G1) recibe el tratamiento experimental y el otro no (G2). Cuando concluya la manipulación, a ambos grupos se le realiza una medición sobre la variable dependiente en estudio. El diseño se diagrama de la siguiente manera: Dónde: G1 X O1 G2 O2 - X: Modelo computacional basado en algoritmos de agrupamiento. - G1: Grupo experimental. - G2: Grupo Control. - O1: Medición al aplicar X a G1. - O2: Medición sin aplicar X a G POBLACION Y MUESTRA POBLACION Nuestra población corresponde a todos los datos de los sistemas documentarios, catálogos, bibliotecarios, librerías y demás sistemas de información MUESTRA Se tomará como muestra los datos del sistema de búsqueda de información bibliográfica de la Biblioteca Central de la Universidad Nacional de Trujillo. Linares Valdivia Juan Carlos Pág. 32

34 3.4. VARIABLES DE ESTUDIO TIPO DE VARIABLE NOMBRE DE LA VARIABLE INDICADORES Independiente Dependiente Modelo computacional basado en algoritmos de agrupamiento. Mejora del tiempo de respuesta y correspondencia de los resultados del sistema de búsqueda de información bibliográfica. - Análisis de los algoritmos de agrupamiento - Tiempo de respuesta - Correspondencia de resultados Figura 7. Tabla de las variables de estudio TECNICAS E INSTRUMENTOS En la presente investigación se utilizan las siguientes técnicas e instrumentos que permitan probar los objetivos planteados: Observación directa de un sistema de búsqueda de información bibliográfica diseñado tradicionalmente. Técnica de análisis comparativo entre algoritmos de agrupamiento. Comparación de características técnicas de la aplicación en base a criterios. Evaluación y Verificación. Investigación y consulta bibliográfica. Desarrollo humano. Linares Valdivia Juan Carlos Pág. 33

35 IV. RESULTADOS Escuela Profesional de Informática 4.1. ANALISIS COMPARATIVO DE ALGORITMOS DE AGRUPAMIENTO En esta sección se analizara los tipos de algoritmos de agrupamiento según criterios que optimicen nuestro modelo computacional para el sistema de búsqueda de información bibliográfica, y también se presentara un cuadro comparativo que resumirá el análisis de los algoritmos de agrupamiento según los criterios. Los algoritmos de agrupamiento que se analizaran serán los siguientes: 1. Algoritmos Particionales 2. Algoritmos Jerárquicos 3. Algoritmos Borrosos 4. Algoritmos basado en la Densidad 5. Algoritmos basado en Grid Para este análisis comparativo se tomara en cuenta los siguientes criterios de comparación, según Hernández Valadez Edna en su Tesis [26]: a. Correspondencia de resultados, este criterio se ajusta en la fase de evaluación, está dado por el nivel de concordancia que tiene la búsqueda que realiza el usuario con los resultados que arroja el sistema. b. Complejidad computacional, es la eficiencia que tienen los algoritmos, estableciendo su efectividad de acuerdo al tiempo de corrida, al espacio requerido y los recursos que utiliza. c. Similitud entre clústeres y dentro de cada clúster, es la distancia que hay entre dos objetos de diferentes clústeres y del mismo clúster respectivamente. d. Escalabilidad, es la capacidad que tienen ciertos algoritmos para realizar agrupamiento de grandes cantidades de datos. e. Insensibilidad al orden de entrada, es la capacidad que tienen ciertos algoritmos para devolver los mismos clústeres, independientemente del orden de entrada del mismo conjunto de datos. f. Datos ruidosos, algunos algoritmos de agrupamiento son sensibles a tales datos, como datos faltantes, desconocidos o erróneos. Linares Valdivia Juan Carlos Pág. 34

36 ANALISIS DE LOS ALGORITMOS SEGÚN LOS CRITERIOS Escuela Profesional de Informática A continuación se analizara cada tipo de los algoritmos de agrupamiento seleccionados según los criterios que se han definido: 1. Algoritmos de Agrupamiento Particionales a. Correspondencia de resultados, las técnicas particionales usualmente producen clústeres que optimizan el criterio de función definido, es decir favorecen este criterio para la optimización y concordancia de resultados con la búsqueda. b. Complejidad computacional, la complejidad típica de la mayoría de este tipo de algoritmos es O(n). c. Similitud entre clústeres y dentro de cada clúster, fallan cuando los objetos de un grupo o clúster están cerca del centroide de otro clúster, también cuando los grupos tienen diferentes tamaños y formas. d. Escalabilidad, los métodos particionales tienen ventajas en aplicaciones que involucran gran cantidad de datos, a diferencia de los que utilizan dendogramas como los jerárquicos. e. Insensibilidad al orden de entrada, en este tipo de algoritmos no varía los resultados si es que se ponen en diferente orden el mismo conjunto de datos que son captados por el algoritmo. f. Datos ruidosos, en algunos casos puede afectar al algoritmo si es que faltan algunos atributos a los datos. 2. Algoritmos de Agrupamiento Jerárquicos a. Correspondencia de resultados, crea una descomposición jerárquica de un conjunto de datos, formando un dendograma, el sistema podría arrojar algunos resultados que no sean muy relevantes para el usuario. b. Complejidad computacional: La complejidad típica de este tipo de algoritmos es O (n 2 log n). c. Similitud entre clústeres y dentro de cada clúster, este tipo de algoritmos tiene varios grados de similitud, porque divide recursivamente el conjunto de datos en conjuntos cada vez más pequeños, haciendo que la similitud varié. Linares Valdivia Juan Carlos Pág. 35

37 d. Escalabilidad, utilizar un dendograma resulta complicado para grandes cantidades de datos. e. Insensibilidad al orden de entrada, puede variar el dendograma cuando se altera el orden de entrada del conjunto de datos. f. Datos ruidosos, el algoritmo es capaz de aceptar datos dañados o con atributos faltantes. 3. Algoritmos de Agrupamiento Borrosos a. Correspondencia de resultados, en este tipo de algoritmos, los objetos pueden pertenecer a dos o más clústeres, por lo que los resultados que arroje el sistema puede pertenecer a distintos grupos, y no tenga concordancia con la búsqueda. b. Complejidad computacional, este tipo de algoritmos tiene complejidad computacional de O(n log n). c. Similitud entre clústeres y dentro de cada clúster, el grado de similitud entre clústeres se puede medir siempre y cuando los objetos no pertenezcan a un mismo clúster. d. Escalabilidad, por ser un derivado de los algoritmos particionales también tienen ventaja con respeto a grandes cantidades de datos, con otros algoritmos. e. Insensibilidad al orden de entrada, en este tipo de algoritmos no varía los resultados si es que se ponen en diferente orden el mismo conjunto de datos que son captados por el algoritmo. f. Datos ruidosos, el algoritmo es capaz de aceptar datos dañados o con atributos faltantes. 4. Algoritmos de Agrupamiento basado en Densidad a. Correspondencia de resultados, este tipo de algoritmos utiliza funciones de densidad, el cual podría beneficiar la correspondencia de los resultados puesto que arrojaría resultados que tengan buena similitud entre ellos. b. Complejidad computacional, la complejidad típica de este tipo de algoritmos es O(n log n). Linares Valdivia Juan Carlos Pág. 36

38 c. Similitud entre clústeres y dentro de cada clúster, por ser basado en funciones de densidad estos algoritmos tiene alto grado de similitud de los objetos dentro de un clúster, y bajo grado de similitud entre objetos de distintos clústeres. d. Escalabilidad, en algunos casos presenta dificultades en la escalabilidad con grandes cantidades de datos, y en específico con datos de alta dimensionalidad. e. Insensibilidad al orden de entrada, en este tipo de algoritmos no varía los resultados si es que se ponen en diferente orden el mismo conjunto de datos que son captados por el algoritmo. f. Datos ruidosos, este tipo de métodos es muy útil para filtrar ruido y encontrar clústeres de diversas formas, clasifica a los datos ruidosos en un solo clúster. 5. Algoritmos de Agrupamiento basado en Grid a. Correspondencia de resultados, el algoritmo agrupa los datos sin utilizar alguna función predefinida, es decir de forma arbitraria, haciendo que el sistema arroje resultados que no tengan ninguna correspondencia con la búsqueda. b. Complejidad computacional, la implementación es sencilla, la complejidad típica de este tipo de algoritmos es O(n). c. Similitud entre clústeres y dentro de cada clúster, este tipo de algoritmos tiene muy baja similitud entre clústeres y dentro de cada clúster. d. Escalabilidad, con este tipo de algoritmos se pueden agrupar grandes cantidades de datos aunque tengan alta dimensional. e. Insensibilidad al orden de entrada, en este tipo de algoritmos no varía los resultados si es que se ponen en diferente orden el mismo conjunto de datos que son captados por el algoritmo. f. Datos ruidosos, este algoritmo acepta toda clase de datos, incluso datos dañados o con atributos faltantes. Linares Valdivia Juan Carlos Pág. 37

39 RESULTADOS DEL ANALISIS COMPARATIVO CUADRO COMPARATIVO Escuela Profesional de Informática El presente Cuadro comparativo está basado en las características de los algoritmos de agrupamiento presentadas en el análisis anterior. Algoritmos a b c d e f Particionales Jerárquicos Borrosos Basado en Densidad Basado en Grid Figura 8. Cuadro Comparativo. Leyenda: a. Correspondencia de resultados b. Complejidad computacional c. Similitud entre clústeres y dentro de cada clúster d. Escalabilidad e. Insensibilidad al orden de entrada f. Datos ruidosos : Si Cumple : No Cumple : Parcialmente Linares Valdivia Juan Carlos Pág. 38

40 CONCLUSIONES DEL ANALISIS COMPARATIVO Escuela Profesional de Informática Del cuadro comparativo anterior se pueden resumir las siguientes conclusiones: - Los algoritmos basados en Grid son los que en más criterios tiene ventaja sobre los demás algoritmos, sin embargo ciertos criterios son mucho más importantes que otros para nuestro caso de estudio, los algoritmos basados en Grid no tienen ventaja en esos criterios que podrían optimizar mejor nuestro caso de estudio. - A partir del punto anterior los criterios más significantes o que tiene más peso son los primeros: a, b y c sin dejar de lado los otros d, e y f que también tienen un buen aporte. - Los algoritmos Particionales son los que tienen ventaja en criterios con mayor importancia que son la correspondencia de resultados, complejidad computacional y similitud de objetos entre clústeres diferentes y dentro de cada clúster. - Entre los algoritmos particionales el que es más reconocido es el algoritmos K-means, nuestro modelo computacional estará basado en este algoritmo DISEÑO DEL MODELO PROPUESTO La presente investigación se orienta al uso de algoritmos de agrupamiento para desarrollar un modelo computacional, que nos permita mejorar el tiempo de respuesta y la correspondencia de resultados de un sistema de búsqueda de información bibliográfica. El modelo computacional estará basado, como se concluyó anteriormente, en los algoritmos de agrupamiento particionales y en específico en el algoritmo k-means ENFOQUE DEL DISEÑO La fase inicial de la investigación se enfocó en la comprensión de la problemática, haciendo algunas pruebas de consultas al sistema de búsqueda de información bibliográfica de la biblioteca central de la. Este modelo computacional una vez implementado proveerá una herramienta académica a los usuarios, la cual a partir de una Linares Valdivia Juan Carlos Pág. 39

41 representación lógica de los documentos y la agrupación automática de los mismos, proporcionara información relevante de acuerdo a la búsqueda del usuario y sus intereses. MODELO COMPUTACIONAL DE BUSQUEDA DE INFORMACION BIBLIOGRAFICA UTILIZANDO ALGORITMOS DE AGRUPAMIENTO ALGORITMOS: IMPERATIVO O POR PROCEDIMIENTOS TECNICA A UTILIZAR: ALGORITMOS DE AGRUPAMIENTO PARTICIONAL: K-MEANS RECUPERACION De INFORMACION DE UN SISTEMA DE INFORMACION - TECNICAS DE RECUPERACION DE INFORMACION: STEMMING Figura 9. Enfoque del Modelo Computacional Propuesto Los algoritmos de agrupamiento, también llamada de segmentación, es útil para el descubrimiento de las distribuciones de datos y los patrones en ellos. Se trata de un proceso de agrupación de objetos en clases de objetos similares. Estos algoritmos están sujetos dentro un enfoque por procedimientos o imperativo, el sistema hace un llamado a este algoritmo que es procedimiento. El sistema de información bibliográfica analiza los objetos recuperados (documentos), usando los intereses señalados por el usuario y las recomendaciones propuestas sobre dichos objetos; y emplea algoritmos de agrupamiento que permiten organizar automáticamente la información, a partir de sus similitudes. Para seleccionar los contenidos se han empleado diversos enfoques, entre los que destaca en el área de Recuperación de Información mediante el cual se representa el carácter temático de los objetos. Linares Valdivia Juan Carlos Pág. 40

42 DEFINICION DEL MODELO A continuación se propondrá los pasos o las fases que tiene nuestro modelo computacional: Fase I: Representación lógica de los documentos, Fase II: Captación de las consulta del usuario Fase III: Agrupación de los documentos Fase IV: Salida de los resultados FASE I: Representación lógica de los documentos, los cuales deben estar depurados. FASE II: Captación de la consulta del usuario, entrada de la consulta para ejecutar el algoritmo. FASE III: Agrupación de los documentos, utilización de las técnicas de agrupamiento según la consulta. FASE IV: Salida de los resultados, contenido debe de tener alta correspondencia con el área de interés. Figura 10. Fases del modelo computacional Linares Valdivia Juan Carlos Pág. 41

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Análisis del Sistema de Información

Análisis del Sistema de Información Análisis del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD ASI 1: DEFINICIÓN DEL SISTEMA... 6 Tarea ASI 1.1: Determinación del Alcance del Sistema... 6 Tarea ASI 1.2: Identificación

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Materia: Estadística Aplicada a la Investigación Profesora: Dra. Hebe Goldenhersh Octubre del 2002 1 Determinación de

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Asignatura (E): Jornada de Formación Permanente: Proyecto de Trabajo Especial de Grado. ESTRUCTURA DEL PROYECTO DE TEG.

Asignatura (E): Jornada de Formación Permanente: Proyecto de Trabajo Especial de Grado. ESTRUCTURA DEL PROYECTO DE TEG. Portada (Ver anexo J) * Página de Presentación (Ver anexo H) * Dedicatoria (opcional) * Agradecimiento (opcional) * Índice General (Ver anexo K) * Lista de Cuadros (Ver anexo F) * Lista de Gráficos (Ver

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016 RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2015 /2016 DEPARTAMENTO: MATEMÁTICAS MATERIA: MATEMÁTICAS ACADÉMICAS CURSO: 3º ESO OBJETIVOS DEL ÁREA DE MATEMÁTICAS A LAS ENSEÑANZAS ACADÉMICAS 3º ESO

Más detalles

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases 3.2 TÉCNICA DE MODELADO DE OBJETOS (OMT) (JAMES RUMBAUGH). 3.2.1 Introducción. En este documento se trata tanto el OMT-1 como el OMT-2, el primero contenido en el Libro Modelado y Diseño Orientado (Metodología

Más detalles

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila Ramón Álvarez 1 Flavio Pazos 2 Adrián Valentín 2 Curso de data Mining-2012,Instituto Pasteur 1 IESTA(Instituto de Estadística)

Más detalles

DESARROLLO DE SOFTWARE CON CALIDAD PARA UNA EMPRESA

DESARROLLO DE SOFTWARE CON CALIDAD PARA UNA EMPRESA DESARROLLO DE SOFTWARE CON CALIDAD PARA UNA EMPRESA Resumen AUTORIA CARLOS CABALLERO GONZÁLEZ TEMATICA INFORMÁTICA ETAPA ESO-BACHILLERATO-CFGM(ESI,ASI,DSI) Se describe la revolución que supuso la incursión

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales

Matemáticas 2º BTO Aplicadas a las Ciencias Sociales Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA... 7 Tarea DSI 1.1: Definición de Niveles de Arquitectura... 9 Tarea DSI

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

IES CANARIAS CABRERA PINTO DEPARTAMENTO DE MATEMÁTICAS CONTENIDOS MÍNIMOS 1º ESO SEPTIEMBRE 2015

IES CANARIAS CABRERA PINTO DEPARTAMENTO DE MATEMÁTICAS CONTENIDOS MÍNIMOS 1º ESO SEPTIEMBRE 2015 CONTENIDOS MÍNIMOS 1º ESO SEPTIEMBRE 2015 UNIDAD 1: LOS NÚMEROS NATURALES. OPERACIONES Y RELACIONES El sistema de numeración decimal Estimación y redondeo de un número natural Las operaciones con números

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

2 Métodos combinatorios

2 Métodos combinatorios 2 Métodos combinatorios Las pruebas pueden aplicarse de muchas maneras, es decir, existen diferentes formas de preparar casos de prueba. En este capítulo se presentan dos formas de prueba muy fáciles de

Más detalles

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos

CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos CARTOGRAFIADO DE TEXTOS Métodos Iconográficos de Observación, Exploración y Comunicación Aplicados a la Minería de Textos Anteproyecto de Tesis de Magíster en Ingeniería del Software Tesista: Lic. Matilde

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

ORGANIZACIÓN DE LOS SERVICIOS INFORMÁTICOS

ORGANIZACIÓN DE LOS SERVICIOS INFORMÁTICOS 1 ORGANIZACIÓN DE LOS SERVICIOS INFORMÁTICOS INTRODUCCIÓN La realización de trabajos utilizando los medios informáticos de una empresa requiere una cierta organización y destreza relativa tanto a los equipos,

Más detalles

Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos

Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos Alicia García-García, Xavier García-Massó, Antonia Ferrer, Luis-Millán González,

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Desarrollar y aplicar estrategias para resolver problemas Determinar si un gráfico es lineal dibujando puntos en una situación dada

Desarrollar y aplicar estrategias para resolver problemas Determinar si un gráfico es lineal dibujando puntos en una situación dada MANEJO DE DATOS Analizar gráficos o diagramas de situaciones dadas para identificar información específica Recoger datos, dibujar los datos usando escalas apropiadas y demostrar una comprensión de las

Más detalles

Probabilidad y sus aplicaciones en ingeniería informática

Probabilidad y sus aplicaciones en ingeniería informática Probabilidad y sus aplicaciones en ingeniería informática Víctor Hernández Eduardo Ramos Ildefonso Yáñez c Víctor Hernández, Eduardo Ramos, Ildefonso Yánez EDICIONES CDÉMICS Probabilidad y sus aplicaciones

Más detalles

I.E.S.MEDITERRÁNEO CURSO 2015 2016 DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O.

I.E.S.MEDITERRÁNEO CURSO 2015 2016 DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O. PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O. Este programa está destinado a los alumnos que han promocionado a cursos superiores sin haber superado esta materia.

Más detalles

ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO. Unidad 1 Números Reales

ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO. Unidad 1 Números Reales ASIGNATURA: MATEMÁTICAS APL.CIENC.SOCIALES 1º BACHILLERATO Unidad 1 Números Reales Utilizar los números enteros, racionales e irracionales para cuantificar situaciones de la vida cotidiana. Aplicar adecuadamente

Más detalles

Comunicaciones Digitales - Ejercicios Tema 3

Comunicaciones Digitales - Ejercicios Tema 3 Comunicaciones Digitales - Ejercicios Tema 3 007. 1. Considere el diagrama de rejilla para un canal discreto equivalente genérico con 4 coeficientes no nulos (memoria K p = 3) y una constelación -PAM.

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

Fundamentos del diseño 3ª edición (2002)

Fundamentos del diseño 3ª edición (2002) Unidades temáticas de Ingeniería del Software Fundamentos del diseño 3ª edición (2002) Facultad de Informática necesidad del diseño Las actividades de diseño afectan al éxito de la realización del software

Más detalles

MÉTODOS DE ORGANIZACIÓN Y ACCESO A DATOS INTRODUCCIÓN. NO : ESTRUCTURA. OPERACIONES. MANTENIMIENTO. : ESTRUCTURA. OPERACIONES. MANTENIMIENTO. MÉTODOS DE ORGANIZACIÓN Y ACCESO A DATOS : ESTRUCTURA. OPERACIONES.

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

MODELO MATEMÁTICO PARA LA EVALUACIÓN CUANTITATIVA DE LA CONFIABILIDAD EN LA ARQUITECTURA DE XEDRO ERP

MODELO MATEMÁTICO PARA LA EVALUACIÓN CUANTITATIVA DE LA CONFIABILIDAD EN LA ARQUITECTURA DE XEDRO ERP MODELO MATEMÁTICO PARA LA EVALUACIÓN CUANTITATIVA DE LA CONFIABILIDAD EN LA ARQUITECTURA DE XEDRO ERP Msc. Larisa González Alvarez, Ing. Katia Tereza Liens Pérez, DrC. Liesner Acevedo Martínez RESUMEN

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

ALGEBRA LINEAL. Héctor Jairo Martínez R. Ana María Sanabria R.

ALGEBRA LINEAL. Héctor Jairo Martínez R. Ana María Sanabria R. ALGEBRA LINEAL Héctor Jairo Martínez R. Ana María Sanabria R. SEGUNDO SEMESTRE 8 Índice general. SISTEMAS DE ECUACIONES LINEALES.. Introducción................................................ Conceptos

Más detalles

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval.

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval. Título Estudio Estadístico de Base de Datos Comercial de una Empresa Distribuidora de Energía Eléctrica. Nº de Registro 231 Empresa o Entidad C.A Electricidad de Valencia Autores del Trabajo Nombre País

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

BASES DE DATOS MIS 308

BASES DE DATOS MIS 308 2. MODELOS DE DATOS Introducción 2.1 Entidad relación 2.2 Jerárquico 2.3 De red 2.4 Relacional Introducción Hoy en día las empresas manejan una gran cantidad de datos. Cualquier empresa que se precie debe

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

Capítulo 3. 3. Marco Teórico.

Capítulo 3. 3. Marco Teórico. Capítulo 3 3. Marco Teórico. La visión artificial o visión por computador se define como un área multidisciplinar que pretende, en cierta medida, reproducir artificialmente el sentido de la vista mediante

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

INGENIERÍA DEL SOFTWARE

INGENIERÍA DEL SOFTWARE INGENIERÍA DEL SOFTWARE Sesión No. 2 Nombre: Procesos de ingeniería del software INGENIERÍA DEL SOFTWARE 1 Contextualización La ingeniería de software actualmente es muy importante, pues con los avances

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Las Matemáticas En Ingeniería

Las Matemáticas En Ingeniería Las Matemáticas En Ingeniería 1.1. Referentes Nacionales A nivel nacional se considera que el conocimiento matemático y de ciencias naturales, sus conceptos y estructuras, constituyen una herramienta para

Más detalles

Motivación: Control Distribuido:

Motivación: Control Distribuido: Motivación: La clase pasada examinamos brevemente los conceptos de Diseño de sistemas de instrumentación inteligente e Instrumentación Virtual. Durante la discusión del diseño de sistemas de instrumentación,

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Tema 4:Segmentación de imágenes

Tema 4:Segmentación de imágenes Tema 4:Segmentación de imágenes La segmentación de imágenes divide la imagen en sus partes constituyentes hasta un nivel de subdivisión en el que se aíslen las regiones u objetos de interés. Los algoritmos

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

Programación General Anual Curso 2011/12 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE

Programación General Anual Curso 2011/12 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II ÍNDICE ÍNDICE...1 CONTENIDOS... 2 CRITERIOS DE EVALUACIÓN... 4 TEMPORALIZACIÓN... 5 METODOLOGÍA DIDÁCTICA... 6 PROCEDIMIENTOS DE EVALUACIÓN... 7 ACTIVIDADES

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

La gestión de proyectos es la rama de la ciencia de la administración que trata de la planificación y el control de proyectos.

La gestión de proyectos es la rama de la ciencia de la administración que trata de la planificación y el control de proyectos. DEFINICIÓN DE PROYECTO Un proyecto es un conjunto de acciones No repetitivas Únicas De duración determinada Formalmente organizadas Que utilizan recursos Podremos considerar un proyecto, a efectos de aplicarle

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

TEMA 3 Representación de la información

TEMA 3 Representación de la información TEMA 3 Representación de la información Álvarez, S., Bravo, S., Departamento de Informática y automática Universidad de Salamanca Introducción Para que el ordenador ejecute programas necesita dos tipos

Más detalles

DIRECTRICES Y ORIENTACIONES GENERALES PARA LAS PRUEBAS DE ACCESO A LA UNIVERSIDAD

DIRECTRICES Y ORIENTACIONES GENERALES PARA LAS PRUEBAS DE ACCESO A LA UNIVERSIDAD Curso Asignatura 2009/2010 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II 1º Comentarios acerca del programa del segundo curso del Bachillerato, en relación con la Prueba de Acceso a la Universidad INTRODUCCIÓN

Más detalles

SISTEMA DE VISION ARTIFICIAL PARA RECONOCIMIENTO DE OBJETOS APLICADO A UN BRAZO ROBÓTICO

SISTEMA DE VISION ARTIFICIAL PARA RECONOCIMIENTO DE OBJETOS APLICADO A UN BRAZO ROBÓTICO PROCESAMIENTO DIGITAL DE IMÁGENES Dr. Johnson Garzón SISTEMA DE VISION ARTIFICIAL PARA RECONOCIMIENTO DE OBJETOS APLICADO A UN BRAZO ROBÓTICO Realizado por : Carlos Pillajo Introducción En este proyecto,

Más detalles

Object Search and Localization for an Indoor Mobile Robot

Object Search and Localization for an Indoor Mobile Robot Object Search and Localization for an Indoor Mobile Robot Kristoffer Sjö, Dorian Gálvez López, Chandana Paul, Patric Jensfelt and Danica Kragic Artículo presentado por : Javier Cabanillas Lugar : Laboratorio

Más detalles

CUANTIFICANDO LA CLASE MEDIA EN MÉXICO: UN EJERCICIO EXPLORATORIO

CUANTIFICANDO LA CLASE MEDIA EN MÉXICO: UN EJERCICIO EXPLORATORIO CUANTIFICANDO LA CLASE MEDIA EN MÉXICO: UN EJERCICIO EXPLORATORIO Nota Técnica 2 Introducción El análisis de agrupamiento o clustering es una herramienta estadística que tiene como objetivo identificar

Más detalles

Capítulo 2. Las Redes Neuronales Artificiales

Capítulo 2. Las Redes Neuronales Artificiales Capítulo 2. Las Redes Neuronales Artificiales 13 Capitulo 2. Las Redes Neuronales Artificiales 2.1 Definición Redes Neuronales Artificiales El construir una computadora que sea capaz de aprender, y de

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Ingeniería de Software I

Ingeniería de Software I Ingeniería de Software I Agenda Objetivo. Unidades de aprendizaje. Formas de evaluación. Bibliografía. 2 Datos del profesor Correo electrónico: egonzalez@upemor.edu.mx Asesorías Jueves de 11:00 a 13:00

Más detalles

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Suponga que le pedimos a un grupo de estudiantes de la asignatura de estadística que registren su peso en kilogramos. Con los datos del peso de los estudiantes

Más detalles

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN:

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN: IDEA CONCEPTUAL BÁSICA: La heterogeneidad de una población constituye la materia prima del análisis cuantitativo...... sin embargo, en ocasiones, el individuo u objeto particular, aislado, resulta un "recipiente"

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

PROYECTO JAZO 2007. Título. Participantes. Datos Generales. Detección y seguimiento de sucesos para euskera y español. Ametzagaiña A.I.E.

PROYECTO JAZO 2007. Título. Participantes. Datos Generales. Detección y seguimiento de sucesos para euskera y español. Ametzagaiña A.I.E. PROYECTO JAZO 2007 Título Detección y seguimiento de sucesos para euskera y español Participantes Ametzagaiña A.I.E. Datos Generales Tipo: Proyecto de Plan de Especialización Años de actividad: 2007-2008

Más detalles

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2014 /2015 DEPARTAMENTO: MATEMÁTICAS MATERIA: RECUPERACIÓN DE MATEMÁTICAS CURSO:

RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2014 /2015 DEPARTAMENTO: MATEMÁTICAS MATERIA: RECUPERACIÓN DE MATEMÁTICAS CURSO: RESUMEN INFORMATIVO PROGRAMACIÓN DIDÁCTICA CURSO 2014 /2015 DEPARTAMENTO: MATEMÁTICAS MATERIA: RECUPERACIÓN DE MATEMÁTICAS CURSO: 2º ESO OBJETIVOS: Resolver problemas con enunciados relacionados con la

Más detalles

1. Producto escalar, métrica y norma asociada

1. Producto escalar, métrica y norma asociada 1. asociada Consideramos el espacio vectorial R n sobre el cuerpo R; escribimos los vectores o puntos de R n, indistintamente, como x = (x 1,..., x n ) = n x i e i i=1 donde e i son los vectores de la

Más detalles

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS UNIVERSIDAD DE LOS ANDES FACULTAD DE ODONTOLOGIA MERIDA EDO. MERIDA PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS Mérida, Febrero 2010. Integrantes: Maria A. Lanzellotti L. Daniela Paz U. Mariana

Más detalles

Programación Lineal Entera

Programación Lineal Entera Programación Lineal Entera P.M. Mateo y David Lahoz 2 de julio de 2009 En este tema se presenta un tipo de problemas formalmente similares a los problemas de programación lineal, ya que en su descripción

Más detalles

Revista digit@l Eduinnova ISSN

Revista digit@l Eduinnova ISSN MATEMÁTICAS EN EDUCACIÓN PRIMARIA AUTORA: Inmaculada Fernández Fernández DNI: 48937600V ESPECIALIDAD: EDUCACIÓN PRIMARIA 1. INTRODUCCIÓN El área de matemáticas se imparte en todos los cursos de Educación

Más detalles

El monitoreo de una variable física requiere supervisión permanente de señales que

El monitoreo de una variable física requiere supervisión permanente de señales que Capítulo 1 Marco Contextual 1.1. Formulación del problema 1.1.1. Definición del problema El monitoreo de una variable física requiere supervisión permanente de señales que varían con el tiempo. Tal información,

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

BASES DE DATOS. 1.1 Funciones de un DBMS

BASES DE DATOS. 1.1 Funciones de un DBMS BASES DE DATOS Un DBMS, son programas denominados Sistemas Gestores de Base de Datos, abreviado SGBD, en inglés Data Base Management System (DBMS) que permiten almacenar y posteriormente acceder a los

Más detalles

UTgeNes - Framework para Implementación y Estudio de Algoritmos

UTgeNes - Framework para Implementación y Estudio de Algoritmos UTgeNes - Framework para Implementación y Estudio de Algoritmos Genéticos Abstract UTgeNes es un framework para la implementación y estudio de algoritmos genéticos propuesto para la realización de trabajos

Más detalles

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Capítulo 10 Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos Al analizar datos, lo primero que conviene hacer con una variable es, generalmente, formarse una idea lo más exacta posible

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Evolución histórica 60 -. Metodologías

Evolución histórica 60 -. Metodologías TEMA 1 INTRODUCCIÓN Historia Evolución de las técnicas de programación Qué es orientado a objetos? Factores cruciales que miden la calidad del software Externos Internos La familia Orientada a objetos

Más detalles

1 Agencia de viajes: enunciado

1 Agencia de viajes: enunciado 1 AGENCIA DE VIAJES: ENUNCIADO 1 1 Agencia de viajes: enunciado Una agencia de viajes mantiene una base de datos con exactamente N clientes y M destinos turísticos. En una situación real, estos valores

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN

ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN ORIENTACIONES GENERALES PARA EL DISEÑO Y DESARROLLO DE UN PROYECTO DE INVESTIGACIÓN Qué es un proyecto de investigación? Un proyecto de investigación consiste en el estudio de un tema en profundidad y

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles