Análisis Comparativo de las Medidas de Semejanza Aplicadas al Contenido de Documentos Web

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Análisis Comparativo de las Medidas de Semejanza Aplicadas al Contenido de Documentos Web"

Transcripción

1 Análisis Comparativo de las Medidas de Semejanza Aplicadas al Contenido de Documentos Web Pavel A. Álvarez Carrillo, Inés F. Vega López, Eduardo Fernández González Facultad de Informática, Facultad de Ingeniería Universidad Autónoma de Sinaloa {pavel, ifvega, RESUMEN El proceso de clustering de documentos es un problema que ha atraído mucho interés en áreas de investigación como la minería de datos y la recolección de información. En el caso de documentos Web, se han utilizado enfoques de análisis de la estructura y contenido para establecer su relevancia con respecto a un tema o tópico en particular. En este trabajo hemos evaluado y comparado las medidas Jaccard de palabras, Coseno y la distancia Euclidiana para establecer la semejanza entre documentos Web aplicando el enfoque de análisis por contenido. En nuestros experimentos utilizamos estas medidas para realizar clustering de documentos con el algoritmo k-means. Los resultados obtenidos fueron evaluados tomando en cuenta la entropía de los clusters. Con estos resultados hemos encontrado la medida que arroja resultados constantes y de mejor calidad en el clustering de documentos Web. Palabras clave: clustering, medidas de semejanza, documentos Web, entropía 1.: Introducción La World Wide Web, llamada también la Web, es una vasta colección de documentos que se encuentran referenciados entre sí. La Web es un recurso de información distribuida, dinámica y de rápido crecimiento [1]. La información en la Web se encuentra dispersa y es heterogénea. Esto representa dificultades para las tecnologías de recolección y análisis de información [2]. Estas tecnologías se enfrentan a la problemática de localizar información en la Web. Esta problemática se presenta por dos variantes. Por un lado tenemos el crecimiento exponencial de la Web, del otro lado la heterogeneidad de la informacón. El primero dificulta la selección de páginas importantes para el usuario, debido a que los resultados de una búsqueda pueden arrojar una gran cantidad de páginas al usuario. En el segundo, son tantos los temas que se pueden encontrar en los documentos de la Web que se dificulta la localización de información relevante para un usuario, aún con la ayuda de programas que automatizan el proceso de búsqueda. Para tratar el problema de recolección de información de la Web, se desarrollaron programas que automatizan el proceso de búsqueda. A estos programas se les llamó spiders, conocidos también como crawlers y robots. Wanderer fue el primer spider desarrollado para explorar y analizar el crecimiento de la Web [1]. El desarrollo de spiders inicia en 1993, cuando se hace evidente que el Este trabajo fue parcialmente financiado por la Universidad Autónoma de Sinaloa a través de su Programa de Fomento y Apoyo a Proyectos de Investigación. También fue financiado en parte por la Secretaría de Educación Pública a través del Programa de Mejoramiento del Profesorado

2 constante crecimiento de la Web haría difícil la tarea de organizar manualmente su contenido en una base de datos. De lo anteriormente descrito, podemos concluir que resulta indispensable desarrollar un mecanismo que permita de forma automatizada localizar la información y almacenarla en una base de datos. Para llevar esto a cabo, es necesario considerar la mejor forma de almacenar la información para realizar búsquedas eficientes. El problema al que nos enfrentamos para desarrollar esto, es el de cómo diseñar los métodos de búsqueda para localizar exactamente o aproximadamente la información almacenda. Para resolver esto es necesario preever de que forma se indexará la información y cómo mediremos la aproximación entre un elemento de búsqueda contra un elementos almacenado. En nuestro problema, pretendemos comparar los elementos de un conjunto de datos eficientemente, por esta razón la ejemplificación descrita se basa en la aproximación entre documentos del mismo conjunto de datos. Siguiendo la idea anterior, entonces es necesario establecer una representación de acuerdo al tipo de datos que estamos tratando, los documentos. Estos deben ser expresados mediante una representación que permita la comparación entre ellos. Para este tipo de problemas Faloutsos propuso Indexado Multimedia Genérico [3] por su traducción del Inglés GEneric Multimedia INdexIng (GE- MINI) como un nuevo paradigma en el indexado de objetos multimedia. La idea consiste en extraer las características de cada elemento para representarlo de tal forma que permita realizar busquedas eficientes al compararlo con otro elemento de búsqueda con la misma representación. El proceso de seleccionar las características del elemento se le conoce como extracción de las características. El beneficio de usar k características en cada elemento permite mapear cada elemento en un punto en el espacio k-dimensional. La representación del documento en el espacio k-dimensional resulta en un vector de k términos de interés equivalente a un diccionario de términos, que es construido por las palabras seleccionadas como características del documento. El objetivo de la representación de los documentos es el de poder realizar comparaciones entre ellos para medir su semejanza, de esta manera encontrar una medida que mejor se aplique a la representación de documentos y que encuentre la semejanza entre documentos eficientemente. 1.1.: Spiders Anteriormente, comentabamos los sistemas automatizados para la búsqueda de información. En lo siguiente haremos una descripción más detallada de estos programas. Sabemos que hay una variedad de nombres para describir a los spiders, nosotros usaremos el nombre de spider por ser el término más común. El spider es solo parte de un sistema completo de búsqueda y consulta de información conocido como máquina o motor de búsqueda. El spider, una base de datos y una interfaz de consulta constituyen el motor de búsqueda. El spider se encarga de recopilar e indexar la información de las páginas Web en una base de datos (BD). Un sistema de base de datos administra y organiza la información almacenada. Por último la interfaz de consulta interactúa con el usuario para que él o ella puedan realizar búsquedas de información en la BD. Normalmente un usuario utiliza palabras claves para indicar a la máquina de búsqueda cuales son los documentos que se desean consultar. En la Figura 1 se muestra un esquema de un motor de búsqueda, el spider continuamente explora la Web y a su vez recopila e indexa la ubicación y la información de las páginas Web que recopila. Por otro lado se tiene la interfaz de consulta, el usuario interactua con esta interfaz para obtener información que se encuentra en la BD. Los resultados arrojados por la interfaz de consulta corresponden a documentos Web registrados en la BD, estos a su vez contienen las palabras claves de búsqueda indicadas por el usuario. 2

3 WWW Usuario Explora Consulta Resultado Spider Almacena BD Solicitud de consulta Respuesta de solicitud Interfaz de Consulta Figura 1. Esquema de un motor de búsqueda El estudio de los spiders tiene principalmente dos variantes, spiders de propósito general y spiders enfocados. La primera variante de spiders recopila información de manera ciega, es decir sin considerar el contenido de los documentos Web. La segunda variante, por otro lado busca información cuyo contenido coincida con algún tema especificado previamente. Al mismo tiempo el desarrollo de los spiders se ha realizado aplicando dos enfoques, de análisis de la estructura Web y análisis del contenido Web [4]. La importancia de recolectar información relevante en la Web ha atraído el interés por el desarrollo de nuevas técnicas de búsqueda y clasificación de documentos Web. Algunas compañías como Google han incorporado heurísticas a partir de resultados de investigaciones científicas en esta área [5]. Desde que se ha utilizado la Web como un recurso de información, se han propuesto y aplicado diferentes algoritmos y heurísticas para mejorar el proceso de recolección de información. Gracias a esto, los usuarios de la Web podemos buscar información de cualquier área con un mínimo esfuerzo, pero no necesariamente con el menor tiempo debido a la heterogeneidad de la información. Por esa razón es necesario utilizar enfoques nuevos con algoritmos mejorados para obtener información que sea relevante para el usuario. La información de la que se tiene conocimiento hasta el momento, indica que muy poca atención se ha prestado a la combinación de los distintos enfoques de análisis de documentos Web. Este documento describe nuestros esfuerzos de investigación para modelar y analizar los documentos Web en busca de la mejor medida de semejanza. Los resultados del análisis de las medidas marcan una pauta a seguir en cuanto a la comparación de documentos se refiere. El resto de este artículo se organiza de la siguiente forma. En la sección 2, se revisa el trabajo previo de este tema. La sección 3 describe los experimentos y sus datos de prueba. En la sección 4 se describen los resultados obtenidos en el experimento. Por último la sección 5 concluye el documento y la dirección de discusión para trabajo futuro. 2.: Trabajo Previo Un documento contiene una cantidad finita de palabras. Por lo tanto, este documento puede ser representado como un punto en un vector de espacio t-dimensional. Este es un enfoque de modelado de documentos al ser representados como vectores en un espacio multidimensional, llamado Modelo de Espacio Vectorial (MEV) [6]. Cada dimensión en este espacio representa a un palabra en el documento, llamado también término. El peso de cada término es calculado de acuerdo a su frecuencia relativa en el documento. El peso indica que tan importante es la palabra en el documento. Con respecto a la dimensionalidad del vector, se extiende a t términos, dónde t es el número de términos que representa al documento. En este caso un documento D i se representa por un vector de dimensionalidad t, expresado de la siguiente forma. 3

4 D i = (d i1, d i2,..., d it ), donde d ij representa el peso del j ésimo término en el documento D i. Siguiendo esta idea, es posible usar métodos de acceso espaciales para la manipulación de documentos, para realizar búsquedas eficientes o la medición de semejanza entre documentos. En este caso se busca medir la semejanza de documentos por su contenido. Al modelar los documentos como vectores, podemos considerar que dos documentos que contienen frecuencias de términos similares son semejantes entre sí. Para medir la semejanza de documentos por su contenido se han utilizado las medidas de jaccard de palabras [7], coseno [8, 9, 10] y distancia Euclidiana [11, 12]. Esto puede servir de antecedente para futuros trabajos. 2.1.: Clustering de Documentos En el estudio de la información en la Web, se ha hecho uso de técnicas de minería de datos para agrupar documentos que comparten ciertas caracterísitcas entre sí. A este agrupación se le conoce como clustering de documentos. El clustering de documentos utiliza medidas de semejanza para establecer una similitud entre los documentos. Estas medidas se adaptan a la representación de los documentos en el espacio multidimensional. Un cluster es un grupo de elementos o registros de un conjunto de datos semejantes entre si. El proceso de clustering se refiere al agrupamiento de registros, observaciones o casos de clases de objetos semejantes. En este proceso se busca que los elementos de un cluster sean similares entre sí y diferentes a los elementos de otro cluster. 2.2.: Análisis de la Estructura y Contendido Web Para la búsqueda de información en la Web se han aplicado principalmente dos enfoques, el análisis de la estructura y el análisis de contenido [4, 13]. La estructura de los documentos Web puede ser usada como un criterio de evaluación de semejanza. Algunos estudios han usado la estructura de documentos Web para inferir información importante en los documentos [14, 15]. Un ejemplo de esto es el de utilizar el texto soporte para predecir el contenido de una página [14]. El texto soporte es la palabra o frase de un hipervínculo a una página. El texto soporte es un recurso, debido a que puede proveer información importante de una página porque representa la forma de como las personas describen esa página ligada. La estructura de los documentos también es utilizada para saber que tan citado es un documento, considerando que un documento que es muy citado es más importante que uno que no es tan citado. Tanto en el análisis de la estructura como en el análisis de contenido se estima la semejanza entre dos documentos o de un documento con una temática o tópico específico. En el caso de análisis por contenido, para evaluar la semejanza de documentos, normalente se modela a los documentos dentro del espacio vectorial y analizan el contenido de la página. De esta manera se pueden realizar comparaciones entre documentos o comparaciones de las palabras claves del documento con palabras claves de un tópico previamente definido. Tradicionalmente se había utilizado de forma independiente enfoques de análisis de la estructura y contenido de documentos Web para establecer relevancia de documentos. Fue hasta 1998, cuando Chen y sus colaboradores que propusieron un nuevo método para combinar ambos enfoques [7]. Esto puede idicar en recoleción de información una pauta a seguir, como una forma de obtener más criterios de evaluación para las páginas Web. 4

5 3.: Evaluación de las medidas de semejanza Para hacer una evaluación de las diversas medidas de semejanza, decidimos utilizar el algoritmo k-means para crear clusters de documentos. Así podemos evaluar la calidad de la medida de semejanza al medir que tan homogéneos son los grupos generados. En particular seleccionamos k-means por ser una técnica eficiente y muy utilizada como algoritmo de clustering 1. De esta manera obtenemos un cluster de documentos agrupados por la semejanza de contenido que hay entre ellos. Una vez obtenido el cluster determinamos su calidad aplicando la medida de entropía. Con el cálculo de la entropía evaluamos los resultados obtenidos de las medidas de semejanza en el proceso de clustering para determinar que medida obtiene resultados más confiables y constantes. En cada cluster, la distribución de clase de los datos se calcula de la siguiente forma. Para cada cluster calculamos p i, la probabilidad de que un miembro del cluster pertenece a la clase i. A continuación usamos la distribución de esta clase. La entropía de cada cluster es calculada aplicando la siguiente fórmula. m E j = p i log 2 (p i ) i=1 La entropía total para el conjunto de clusters se calcula como la suma de las entropías de cada cluster, como se expresa a continuación. E T = m j=1 n j E j N, donde n j es el tamaño del cluster j, m es el número de clusters y N es el total de elementos. En nuestro experimento evaluamos los resultados de k-means utilizando diferentes medidas de semejanza; Jaccard de Palabras, Coseno y Distancia Euclidiana, utilizadas para establecer semejanza por contenido en documentos Web. Una descripción más detallada de estas medidas de semejanza para documentos se presenta a continuación Medidas de Semejanza para Documentos Dados dos documentos A y B, el documento A es representado por el conjunto X = {x 1, x 2,, x t }, el documento B es representado por el conjunto Y = {y 1, y 2,, y t }, donde t es la cardinalidad de los conjuntos X y Y. Considerando esta representación, a continuación se describen las siguientes medidas para establecer la semejanza entre los documentos A y B. a) Jaccard de palabras.- Es una función estadística que compara los términos que hay en común entre dos documentos. Si dos documentos al ser representados en el espacio vectorial en un vector t-dimensional, presentan suficientes términos en común, la representación de estos documentos será semejante, por lo tanto los documentos también lo serán. Al comparar dos documentos con Jaccard de palabras se obtiene un número entre cero y uno. Un uno como valor resultante indica que los documentos comparados son completamente semejantes y un valor resultante cero indica que son completamente diferentes. La fórmula de jaccard es representada de la siguiente forma. 1 Si bien es cierto que existen otros algoritmos de clustering, creemos que la selección de tal algoritmo es ortogonal al problema de la evaluación de medida de semejanza. Sin embargo, proponemos que esta hipótesis sea evaluada en un trabajo futuro. 5

6 f(a, B) = tj=1 x j y j tj=1 x 2 j + t j=1 y 2 j t j=1 x j y j, b) Coseno.- Es una función trigonométrica utilizada para medir el ángulo entre dos vectores en el espacio vectorial. El ángulo entre dos vectores indica que tan cercano esta uno del otro en términos de dimensionalidad. El resultado del cálculo de coseno entre dos vectores varia entre cero y uno, donde cero indica la mayor diferencia entre los vectores y uno indica que no hay diferencia entre ellos en el espacio dimensional. A continuación se presenta la fórmula de coseno. f(a, B) = tj=1 x j y j tj=1 x 2 j t j=1 y 2 j, c) Distancia Euclidiana.- Es una función utilizada para medir la distancia entre dos puntos en el espacio multidimensional. La distancia Euclidiana mide la distancia en línea recta entre dos puntos. La distancia Euclidiana mínima entre dos puntos es cero, entre más se aleje de cero la distancia Euclidiana de dos puntos más diferente serán los vectores y por lo tanto los documentos que estos representan. La distancia Euclidiana para dos vectores de t-dimensionalidad se calcula de la siguiente forma. f(a, B) = t (x j y j ) Bases de Datos de Prueba Nuestros datos de prueba fueron obtenidos de diferentes recursos, recolectados para áreas como; recolección de información, búsqueda en la Web y minería de datos. Los conjuntos de datos pertenecen a fuentes de datos de documentos Web reales. a) Syskill and Webert Web Page Rating (SW): Es una base datos que contiene 341 documentos en código HTML organizadas en cuatro categorías; Bands, Biomedical, Goats y Sheep [16]. b) 7 Sectors: Es un conjunto de datos de 4,582 documentos Web clasificadas en siete categorías. Los grupos son basic materials, energy, financial, healthcare, technology, transportation y utilities [17]. c) WebKB Project (WebKB): Es un conjunto de páginas Web recopiladas en 1997 del departamento de ciencias computacionales de varias universidades por el proyecto World Wide Web Knowledge Base. Aquí se tienen 8,282 documentos clasificados manualmente en siete categorías: course, department, faculty, project, staff, student y others. Nosotros utilizamos las primeras seis categorías que contienen en total 4,518 documentos [17]. d) Co-training Experiment for COLT 98: es un conjunto de páginas Web recopiladas del departamento de ciencias computacionales de varias universidades por el proyecto WebKB. Co-training Experiment contiene 1,051 documentos clasificadas en dos categorías: Course y Non-Course [17]. e) Articulos Científicos (ArtC): Es un conjunto de documentos Web obtenidos en formato pdf convertido a texto para su tratamiento. Se recolectaron 271 documentos de Internet y se clasificaron manualmente en cuatro categorías: audio processing, image processing, times series y websearching. j=1 6

7 3.3. Preparación de los Datos Cada conjunto de datos fue modelado dentro del espacio vectorial. Con esta modelación se llevó a cabo la comparación de documentos en el proceso de clustering. Para cada conjunto de datos, primero construimos una bolsa de palabras de cada categoría perteneciente a cada conjunto. Esto se realizó recolectando las palabras diferentes existentes de cada categoría. Posteriormente se calculó la Frecuencia del Documento (por sus siglas en inglés, DF) con cada palabra diferente. Es decir; se contó el número de documentos en el grupo que contenían la palabra. Una vez obtenida la DF para cada grupo se llevó a cabo la selección de palabras para representar a los documentos del conjunto de datos. Se usó la unión de las palabras para cada experimento, la bolsa de palabras corresponde a la unión de las primeas k palabras más importantes de cada categoría en la BD. Se considera que una palabra es importante cuando representa a un tópico específico. En este caso en particular seleccionamos las 10 primeras palabras de cada categoría con mayor DF en la BD. Para la construcción de una segunda bolsa de palabras se seleccionaron las 20 primeras palabras de cada categoría con mayor DF en la BD. Así sucesivamente se fue incrementando la selección de palabras por cada categoría hasta completar 10 bolsas de palabras. Como tercer paso se obtuvo la frecuencia relativa de cada palabra en cada documento obteniendo así un vector de frecuencia de términos para representar cada documento. Posteriormente guardabamos el registro del vector de cada documento. 4.: Evaluación Empírica Para cada conjunto de datos aplicamos k-means, donde k corresponde con el número de categorías en los documentos. Continuando con el proceso de clustering, se aplicó el algoritmo k-means utilizando cada una de las medidas de semejanza antes mencionadas con cada bolsa de palabras creada. Así obtuvimos tres resultados de agrupación para cada bolsa de palabras creada. Después comparamos los resultados de cada medida de semejanza en cada bolsa de palabras. Para poder realizar una comparación de resultados de clustering aplicamos la medida entropía para determinar la calidad de cada cluster. Los resultados obtenidos se describen a continuación. Como una primera prueba se utilizó el conjunto de datos ArtC para este conjunto de datos se contruyeron 10 bolsas de palabras utilizando 10, 20, 30,..., 100 palabras por categoría. Las bolsas de palabras fueron aplicadas en 10 procesos de clustering para cada medida de semejanza. En total se realizaron 30 experimentos con este conjunto de datos. Los resultados que obtuvimos fue que la medida coseno mostró mejores resultados en términos de entropía en todos menos un caso. Encontramos que la entropía de cluster, en promedio, era mejor cuando se utilizaba la medida coseno, como se observa en la Tabla 1. Sabemos que el cálculo de entropía se refiere a la calidad de agrupamiento de un conjunto de datos. Un valor cercano a cero es un índice de calidad alto debido a que los elementos internos de cada cluster son más homogéneos entre sí y más heterogéneos que los elementos de los otros clusters. Por otro lado un valor más lejano a cero representa un índice de calidad bajo. En la Figura 2 se muestran los resultados de entropía de cada medida para cada bolsa de palabras en el conjunto de datos ArtC. Los resultados de los otros conjuntos de datos obtuvieron un comportamiento similar a los resultados de ArtC. También podemos observar que la distancia Euclidiana obtuvo entropías mayores a las otras medidas. Esto indica que la medida de distancia Euclidiana obtiene agrupamientos de menor calidad con respecto a las otras medidas. El resultado de las medidas puede variar dependiendo del tipo de datos que estemos manejando. En datos donde los elementos 7

8 Tabla 1. Resultados promedio de la calidad de los clusters en 60 pruebas por conjunto de datos, obtenidos con las métricas de semejanza y evaluados por su entropía Métrica BD Jaccard Coseno Euclidiana ArtC SW Sectors webkb Co-training entre un cluster y otro son semejantes, se presenta cierto ruido en los resultados. Esto se debe a que algunos elementos son asignados a categorías que no pertenecen. Por ejemplo, en el caso donde se utilizaron conjunto de datos donde los elementos de diferentes grupos son semejantes entre sí se obtuvieron resultados por arriba del 0.5, como ocurrió en las pruebas con el conjunto 7 Sectors. Esto indica que los clusters en el conjunto de 7 Sectors tienen semejanza entre sí. En la Tabla 1 se muestran los promedios de entropía obtenidos por cada medida de semejanza en cada conjunto de datos. Podemos observar que la medida coseno obtuvo mejores resultados que las otras medidas de semejanza. En un todos menos un caso coseno obtuvo valores de entropía menores que las otras medidas. Podemos observar que en un solo conjunto de datos jaccard de palabras fue mejor que coseno. Por otro lado la distancia Euclidiana ampliamente usada en técnicas clustering, no obtuvo mejores resultados que las otras medias de semejanza. Sabemos que el cálculo de entropía se refiere a la calidad de agrupamiento de un conjunto de datos. Un valor cercano a cero es un índice de calidad alto. Debido a que los elementos internos de cada cluster son más homogéneos entre sí y más heterogéneos que los elementos de los otros clusters. Por otro lado un valor más lejano a cero representa un índice de calidad bajo. En la Figura 2 se muestran los resultados de entropía de cada medida para cada bolsa de palabras en el conjunto de datos ArtC. Los resultados de los otros conjuntos de datos obtuvieron un comportamiento similar a los resultados de ArtC. También podemos observar que la distancia Euclidiana obtuvo entropías mayores a las otras medidas. Esto indica que la medida de distancia Euclidiana obtiene agrupamientos de menor calidad con respecto a las otras medidas. El resultado de las medidas puede variar dependiendo del tipo de datos que estemos manejando. En datos donde los elementos entre un cluster y otro son semejantes, se presenta cierto ruido en los resultados. Esto se debe a que algunos elementos son asignados a categorías que no pertenecen. Por ejemplo, en el caso donde se utilizaron conjunto de datos donde los elementos de diferentes grupos son semejantes entre sí se obtuvieron resultados por arriba del 0.5, como ocurrió en las pruebas con el conjunto 7 Sectors. Esto indica que los clusters en el conjunto de 7 Sectors tienen semejanza entre sí. En la Tabla 1 se muestran los promedios de entropía obtenidos por cada medida de semejanza en cada conjunto de datos. Podemos observar que la medida coseno obtuvo mejores resultados que las otras medidas de semejanza. En un todos menos un caso coseno obtuvo valores de entropía menores que las otras medidas. Podemos observar que en un solo conjunto de datos jaccard de palabras fue mejor que coseno. Por otro lado la distancia Euclidiana ampliamente usada en técnicas clustering, no obtuvo mejores resultados que las otras medias de semejanza. 8

9 1.2 1 Artículos Científicos Jaccard de Palabras Coseno Distancia Euclidiana 0.8 Entropía Cantidad de palabras seleccionadas por categoría para construir la bolsa de palabras Figura 2. Artículos Científicos. Resultados en términos de entropía obtenidos por las medidas de semejanza en 10 bolsas de palabras. 5.: Conclusiones y Trabajo Futuro La distancia Euclidiana es una medida ampliamente usada en técnicas de clustering. En este estudio, los resultados que distancia Euclidiana obtuvo con el algoritmo de clustering k-means, indican que es la medida menos conveniente para medir semejanza entre documentos, en comparación con jaccard de palabras y coseno. Tal vez sea necesario comparar estos resultados con otra técnica de clustering para confirmar esta afirmación. Observando los resultados de la técnica de clustering k-means, por un lado, coseno resultó ser la medida que obtuvo mejores resultados como medida de semejanza aplicada en el contenido de documentos Web. Por otro lado jaccard de palabras no resultó ser tan buena como coseno, pero se demostró que obtiene mejores resultados que la distancia Euclidiana. Los resultados de estos experimentos han marcado una pauta en la comparación por contenido de documentos Web en el proceso de clustering, debido a que en trabajos anteriores utilizaban indistintivamente una medida y otra como medidas de semejanza para clustering de documentos. Gracias a este experimento sabemos que coseno es la mejor medida para comparar semejanza por contenido entre documentos Web, cuando se usa K-means. El objetivo principal de este estudio era encontrar la medida que mejor se adapte y obtenga mejores resultados, para la comparación de contenido de documentos Web en el procesos de clustering. Los experimentos realizados en este estudio utilizaron k-means como algoritmo de clustering por su eficiencia y amplia aplicación. Creemos que los resultados obtenidos en este experimento probablemente sean similares si utilizamos otra técnica de clustering pero queda abierta su investigación para su futuro estudio. Referencias [1] Gray M. Internet Growth and Statistics: Credits and background, Disponible en: [citado 13 de marzo 1993] [2] Steve L. and Lee G. Searching the World Wide Web, Science, 280(5360), ,

10 [3] Faloutsos C. Searching Multimedia Databases By Content. Kluwee Academic Publishers, Boston, MA, 1996 [4] Chau M. and Chen H. Comparison of Three Vertical Search Spiders, IEEE Computer, 36(5) [5] Brin S. and Page L. The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems, 30(1 7): , [6] Salton G., Wong A., and Yang C. S. A vector space model for automatic indexing. Communications of the ACM 18, [7] Chen H., Chung Y., and Ramsey M. and Yang C. C. A smart itsy bitsy spider for the web, Journal of the American Society for Information Science, Special Issue on AI Techiniques for Emerging Information Systems Aplications, 49(7) [8] Steinbach M. and Karypis G. and Kumar V. A comparison of document clustering techniques. In Knowledge Discovery and Data Mining Workshop on Text Mining, [9] Joachims T. Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization Proceedings of the International Conference on Machine Learning Morgan Kaufmann Publishers Inc. San Francisco, CA, USA [10] Menczer F. Combining link and content analysis to estimate semantic similarity. Proceedings of the International World Wide Web conference on Alt. Track Papers & Posters ACM Press. New York, NY, USA [11] Chi Z. and Yan H. Feature evaluation and selection based on an entropy measurement with data clustering, Optical Engineering, Vol. 34, No. 12, , 1995 [12] Dhillon I. S. and Modha D. S. A Data Clustering Algorithm on Distributed Memory Multiprocessors, In Large-Scale Parallel Data Mining, Lecture Notes in Artificial Intelligence, vol. 1759, Springer-Verlag, , March [13] Chau M. and Chen H. Personalized and Focused Web Spider, Department of Management Information System. The University of Arizona [14] Amitay E. Using Common Hipertext Links to Identify the Best Phrasal Descriprion of Target Web Documents. In Proceedings of the ACM-SIGIR Post-Conference Workshop on Hypertext Information Retrieval for the Web. Melbourne, Australia, [15] Grangier D. and Bengio S. Inferring document similarity from hyperlinks, Proceedings of the ACM international conference on Information and knowledge management, Bremen, Germany, , [16] Hettich S. and Bay S. D. The UCI KDD Archive [ Irvine, CA: University of California, Department of Information and Computer Science, [17] CMU World Wide Knowledge Base (WebKB), webkb/. 10

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

Universidad Autónoma de Sinaloa. Modelo de Optimización Evolutiva Bicriterio para el Entrenamiento de un Spider Enfocado

Universidad Autónoma de Sinaloa. Modelo de Optimización Evolutiva Bicriterio para el Entrenamiento de un Spider Enfocado Universidad Autónoma de Sinaloa Facultad de Informática Maestría en Informática Aplicada Modelo de Optimización Evolutiva Bicriterio para el Entrenamiento de un Spider Enfocado Que como requisito parcial

Más detalles

Dirección de Planificación Universitaria Dirección de Planificación Universitaria 0819-07289 Panamá, Rep. de Panamá 0819-07289 Panamá, Rep.

Dirección de Planificación Universitaria Dirección de Planificación Universitaria 0819-07289 Panamá, Rep. de Panamá 0819-07289 Panamá, Rep. Comparación de las tasas de aprobación, reprobación, abandono y costo estudiante de dos cohortes en carreras de Licenciatura en Ingeniería en la Universidad Tecnológica de Panamá Luzmelia Bernal Caballero

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA Sistema de búsqueda en Internet Mtro. Julio Márquez Rodríguez SISTEMA DE BUSQUEDA EN INTERNET Por el tipo de tecnología que utilizan, los sistemas de

Más detalles

Medias Móviles: Señales para invertir en la Bolsa

Medias Móviles: Señales para invertir en la Bolsa www.gacetafinanciera.com Medias Móviles: Señales para invertir en la Bolsa Juan P López..www.futuros.com Las medias móviles continúan siendo una herramienta básica en lo que se refiere a determinar tendencias

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

CAPITULO III A. GENERALIDADES

CAPITULO III A. GENERALIDADES CAPITULO III INVESTIGACION DE CAMPO SOBRE EL DISEÑO DE UN SISTEMA AUTOMATIZADO DE CONTROL INVENTARIO Y EXPEDIENTES DE MENORES DE EDAD PARA EL CENTRO DE DESARROLLO INTEGRAL LA TIENDONA EN LA ZONA METROPOLITANA

Más detalles

http://www.nicasoft.com.ni

http://www.nicasoft.com.ni BSC-RH es un sistema automatizado de planificación estratégica y gestión, utilizado en empresas para direccionar las actividades del negocio a la visión y estrategia de la organización. Mejora la comunicación

Más detalles

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores Martha Alicia Alles Es contadora pública nacional, doctora por la Universidad de Buenos Aires en la especialidad

Más detalles

INTEGRACIÓN DE LA TECNOLOGÍA DENTRO DEL ÁREA EDUCATIVA

INTEGRACIÓN DE LA TECNOLOGÍA DENTRO DEL ÁREA EDUCATIVA INTEGRACIÓN DE LA TECNOLOGÍA DENTRO DEL ÁREA EDUCATIVA Iniciativa Intel Educación Por Paloma Hernández Arguello Carla Yussel Ruiz Lara 12 INDICE Introducción. 1 Programa Intel Educar. 2 Herramientas para

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

Administración del conocimiento y aprendizaje organizacional.

Administración del conocimiento y aprendizaje organizacional. Capítulo 2 Administración del conocimiento y aprendizaje organizacional. 2.1 La Importancia Del Aprendizaje En Las Organizaciones El aprendizaje ha sido una de las grandes necesidades básicas del ser humano,

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y Capítulo VI Conclusiones En este capítulo abordaremos la comparación de las características principales y de las ventajas cada tecnología Web nos ofrece para el desarrollo de ciertas aplicaciones. También

Más detalles

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ESTUDIO SOBRE EL POSICIONAMIENTO EN BUSCADORES DE PÁGINAS WEB Y LA RELEVANCIA DE LA ACTUALIZACIÓN DE CONTENIDOS

Más detalles

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW): INFORMÁTICA IE MÓDULO INTERNET Términos a conocer y conceptos básicos World Wide Web (WWW): Digamos, simplemente, que es un sistema de información, el sistema de información propio de Internet. Sus características

Más detalles

MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn

MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn MANUAL DE USUARIO CMS- PLONE www.trabajo.gob.hn Tegucigalpa M. D. C., Junio de 2009 Que es un CMS Un sistema de administración de contenido (CMS por sus siglas en ingles) es un programa para organizar

Más detalles

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.

Más detalles

Módulo I Unidad Didáctica 2

Módulo I Unidad Didáctica 2 Módulo I Unidad Didáctica 2 Introducción Tal como un periódico, por ejemplo, no es sólo una colección de artículos, un sitio Web no puede ser simplemente una colección de páginas. Qué se busca al diseñar

Más detalles

Administración por Procesos contra Funciones

Administración por Procesos contra Funciones La administración moderna nos marca que en la actualidad, las organizaciones que no se administren bajo un enfoque de procesos eficaces y flexibles, no podrán sobrepasar los cambios en el entorno y por

Más detalles

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Ricardo Köller Jemio Departamento de Ciencias Exactas e Ingeniería, Universidad

Más detalles

7. Conclusiones. 7.1 Resultados

7. Conclusiones. 7.1 Resultados 7. Conclusiones Una de las preguntas iniciales de este proyecto fue : Cuál es la importancia de resolver problemas NP-Completos?. Puede concluirse que el PAV como problema NP- Completo permite comprobar

Más detalles

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Qué es una página web?, qué conoces al respecto?, sabes crear una página Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual

Más detalles

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea RESULTADOS CONSULTA CIUDADANA VIRTUAL Consulta Laboral en Línea Septiembre, 2015 1 Agradecimientos Ponemos a disposición de ustedes los resultados de la Consulta Ciudadana Virtual, efectuada en julio de

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que CONCEPTOS BASICOS. Usuario. Un usuario es toda persona que utilice una computadora. Host. En este texto, entenderemos por host toda máquina - léase computadora - conectada a InterNet. También se les llaman

Más detalles

Caracterización de los niveles de consumo de alcohol en Chile. José Sanhueza, Economista, M.Econ.

Caracterización de los niveles de consumo de alcohol en Chile. José Sanhueza, Economista, M.Econ. Nº 19 / Agosto 2013. ISSN: 0719 2770 BOLETIN Observatorio Chileno de Drogas Nº 4 / Marzo 2015. ISSN: 0719-2770 BIN Caracterización de los niveles de consumo de alcohol en Chile. José Sanhueza, Economista,

Más detalles

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES Raúl Palma G. y Guillermo Bustos R. Escuela de Ingeniería Industrial Universidad Católica de Valparaíso Casilla

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Alberto Marcano Díaz

Alberto Marcano Díaz Tutorial sobre Internet y su uso (Básico) Creado por: Alberto Marcano Díaz alberto.marcano@gmail.com Diciembre, 2006 San Cristóbal, Táchira. VENEZUELA En la nueva era, Internet y todo su entorno es una

Más detalles

hay alguien ahi? por Marcelino Alvarez maralvilla@gmail.com

hay alguien ahi? por Marcelino Alvarez maralvilla@gmail.com hay alguien ahi? por Marcelino Alvarez maralvilla@gmail.com Un repaso a las estadísticas de lectura tanto de la página web como de la revista digital, para ver si alguien se acuerda de nosotros. Ya podemos

Más detalles

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS Administración Nacional de Universidad de la República Educación Pública Facultad de Ingenieria CF Res..0.07 Consejo Directivo Central Consejo Directivo Central Res..05.07 Res. 17.0.07 TECNÓLOGO EN INFORMÁTICA

Más detalles

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Unidad I Sistemas numéricos 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal) Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS.

Más detalles

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS 2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS Objetivo específico: El alumno conocerá la importancia de la investigación en psicología industrial/organizacional, su proceso y limitaciones. Asimismo entenderá

Más detalles

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos 2.1. Principios básicos del Modelado de Objetos UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos Hoy en día muchos de los procesos que intervienen en un negocio o empresa y que resuelven

Más detalles

ARREGLOS DEFINICION GENERAL DE ARREGLO

ARREGLOS DEFINICION GENERAL DE ARREGLO ARREGLOS DEFINICION GENERAL DE ARREGLO Conjunto de cantidades o valores homogéneos, que por su naturaleza se comportan de idéntica forma y deben de ser tratados en forma similar. Se les debe de dar un

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Introducción a Moodle

Introducción a Moodle Instituto la Américas de Nayarit Ing. Elías Portugal Luna Qué es Moodle? Moodle es una aplicación web de tipo Ambiente Educativo Virtual, un sistema de gestión de cursos, de distribución libre, que ayuda

Más detalles

CRECE EN INTERNET. Llegar a buen puerto: buscando información

CRECE EN INTERNET. Llegar a buen puerto: buscando información CRECE EN INTERNET Llegar a buen puerto: buscando información Llegar a buen puerto: buscando información Internet es una red mundial que vincula miles de ordenadores que almacenan gran cantidad de documentos

Más detalles

SEDO: SOFTWARE EDUCATIVO DE MATEMÁTICA NUMÉRICA. Lic. Maikel León Espinosa. mle@uclv.edu.cu

SEDO: SOFTWARE EDUCATIVO DE MATEMÁTICA NUMÉRICA. Lic. Maikel León Espinosa. mle@uclv.edu.cu EDU082 Resumen SEDO: SOFTWARE EDUCATIVO DE MATEMÁTICA NUMÉRICA Lic. Maikel León Espinosa mle@uclv.edu.cu Departamento de Ciencia de la Computación Universidad Central Marta Abreu de Las Villas Carretera

Más detalles

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

POSICIONAMIENTO EN LA WEB (SEM Y SEO) POSICIONAMIENTO EN LA WEB (SEM Y SEO) POSICIONAMIENTO EN LA WEB (SEM Y SEO) 1 Sesión No. 3 Nombre: Keywords Contextualización Qué son las Keywords? Debemos de tener en claro la definición de keywords para

Más detalles

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes

Más detalles

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema

Notas. Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen. 1. Introducción y formulación del problema Notas Modelo conceptual para el diseño e implementación del sitio web de un museo regional * Resumen El presente artículo propone el modelo conceptual para la creación de un sitio Web de un museo regional

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

La explicación la haré con un ejemplo de cobro por $100.00 más el I.V.A. $16.00

La explicación la haré con un ejemplo de cobro por $100.00 más el I.V.A. $16.00 La mayor parte de las dependencias no habían manejado el IVA en los recibos oficiales, que era el documento de facturación de nuestra Universidad, actualmente ya es formalmente un CFD pero para el fin

Más detalles

1.1 EL ESTUDIO TÉCNICO

1.1 EL ESTUDIO TÉCNICO 1.1 EL ESTUDIO TÉCNICO 1.1.1 Definición Un estudio técnico permite proponer y analizar las diferentes opciones tecnológicas para producir los bienes o servicios que se requieren, lo que además admite verificar

Más detalles

Learning with ipads at Liceo Sorolla

Learning with ipads at Liceo Sorolla Learning with ipads at Liceo Sorolla Estudio del Uso del ipad en 5º EP Curso 2014-15 Detalles del Estudio Muestra: 85 alumnos Sexo: Heterogéneo Edad: 11-12 años Método de estudio: Encuesta y (OD) Observación

Más detalles

Autores en Web of Science y ResearcherID

Autores en Web of Science y ResearcherID Autores en Web of Science y ResearcherID Biblioteca Universitaria Grupo de apoyo al aprendizaje y la investigación Web of Science y ResearcherID * Se pueden unificar los nombres de autor en Web of Science?

Más detalles

XII Congreso Nacional de Informática de la Salud

XII Congreso Nacional de Informática de la Salud LOS MOTORES DE BÚSQUEDA PERSONALIZADA UTILIZADOS COMO HERRAMIENTAS DE FILTRADO DE WEBS CON INFORMACIÓN DE SALUD M. A. MAYER 1,2, A. LEIS 1 1 Departamento de Web Médica Acreditada del Colegio Oficial de

Más detalles

1.4.- D E S I G U A L D A D E S

1.4.- D E S I G U A L D A D E S 1.4.- D E S I G U A L D A D E S OBJETIVO: Que el alumno conozca y maneje las reglas empleadas en la resolución de desigualdades y las use para determinar el conjunto solución de una desigualdad dada y

Más detalles

SistemA Regional de Información y Evaluación del SIDA (ARIES)

SistemA Regional de Información y Evaluación del SIDA (ARIES) SistemA Regional de Información y Evaluación del SIDA (ARIES) Que es ARIES? El Sistema Regional de Información y Evaluación del SIDA (ARIES) es un sistema informático del VIH/SIDA basado en el internet

Más detalles

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín TEMA 4: EMPEZANDO A ESCUELA UNIVERSITARIA DE INFORMÁTICA NAVEGAR Raúl Martín Martín SERVICIOS DE INTERNET SERVICIOS DE INTERNET Las posibilidades que ofrece Internet se denominan servicios. Hoy en día,

Más detalles

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS ANÁLISIS DE DATOS Hoy día vamos a hablar de algunas medidas de resumen de datos: cómo resumir cuando tenemos una serie de datos numéricos, generalmente en variables intervalares. Cuando nosotros tenemos

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación Tema: NEGOCIOS EN INTERNET SUBASTATODO.COM Integrantes: Marianas Arias Peña 1 María Teresa Figueroa 2 José Zambrano

Más detalles

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN PROPUESTA: CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN Cómo sabemos cada día las empresas se enfrentan a un mundo globalizado, con retos empresariales,

Más detalles

MOODLE PARA ASESORES, GUIA DE APOYO.

MOODLE PARA ASESORES, GUIA DE APOYO. FORTALECIMIENTO DE LAS CAPACIDADES, COMPETENCIAS Y HABILIDADES EN CIENCIA, TECNOLOGÍA E INNOVACIÓN EN NIÑOS, NIÑAS, JÓVENES E INVESTIGADORES DEL PUTUMAYO. MOODLE PARA ASESORES, GUIA DE APOYO. El concepto

Más detalles

RETO: Buscar información en Internet rápidamente utilizando adecuadamente los motores de búsqueda. Cómo busco información en Internet?

RETO: Buscar información en Internet rápidamente utilizando adecuadamente los motores de búsqueda. Cómo busco información en Internet? Ciclo IV - Informática. Guía # 4 Los motores de búsqueda son la mejor opción si se sabe exactamente qué información necesitas. RETO: Buscar información en Internet rápidamente utilizando adecuadamente

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

e-commerce vs. e-business

e-commerce vs. e-business Formas de interactuar en los negocios e-commerce vs. e-business Día a día debemos sumar nuevas palabras a nuestro extenso vocabulario, y e-commerce y e-business no son la excepción. En esta nota explicamos

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO Por: Pablo Lledó Master of Science en Evaluación de Proyectos (University of York) Project Management Professional (PMP) Profesor de Project Management y Evaluación

Más detalles

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO En base a las variables mencionadas anteriormente se describirán las relaciones que existen entre cada una de ellas, y como se afectan. Dichas variables

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Retiro de activos y el stock de capital bruto

Retiro de activos y el stock de capital bruto From: Medición del capital - Manual OCDE 2009 Segunda edición Access the complete publication at: http://dx.doi.org/10.1787/9789264043695-es Retiro de activos y el stock de capital bruto Please cite this

Más detalles

Análisis de medidas conjuntas (conjoint analysis)

Análisis de medidas conjuntas (conjoint analysis) Análisis de medidas conuntas (conoint analysis). Introducción Como ya hemos dicho anteriormente, esta técnica de análisis nos sirve para analizar la importancia que dan los consumidores a cada uno de los

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES Tema: Cartas de Servicios Primera versión: 2008 Datos de contacto: Evaluación y Calidad. Gobierno de Navarra. evaluacionycalidad@navarra.es

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores.

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores. COMO FUNCIONA INTERNET Internet es una gran red de ordenadores a nivel mundial, que pueden intercambiar información entre ellos. Se pueden comunicar porque están unidos a través de conexiones telefónicas,

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

La importancia i de las interacciones: desde la sala de clases a la. Otb Octubre 2008 Camila Cortez,Ph.D. Centro de Innovación en Educación CIEdu,

La importancia i de las interacciones: desde la sala de clases a la. Otb Octubre 2008 Camila Cortez,Ph.D. Centro de Innovación en Educación CIEdu, La importancia i de las interacciones: desde la sala de clases a la educación a distancia Otb Octubre 2008 Camila Cortez,Ph.D. Centro de Innovación en Educación CIEdu, Universidad Tecnológica de Chile

Más detalles

NOTAS TECNICAS Nº 5. Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional

NOTAS TECNICAS Nº 5. Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional MINISTERIO DE EDUCACION DIVISON DE PLANIFICACION Y PRESUPUESTO NOTAS TECNICAS Nº 5 Clasificación del Sistema Educacional Chileno para efectos de comparabilidad internacional Departamento de Estudios y

Más detalles

CAPÍTULO I. El propósito de este estudio es dar una visión clara de la importancia de la relación

CAPÍTULO I. El propósito de este estudio es dar una visión clara de la importancia de la relación CAPÍTULO I CAPÍTULO I 1.1 PROPÓSITO GENERAL El propósito de este estudio es dar una visión clara de la importancia de la relación cliente proveedor, así como, contemplar los beneficios que tendría la implementación

Más detalles

La nueva criba de Eratóstenes Efraín Soto Apolinar 1 F.I.M.E. U.A.N.L. San Nicolás, N.L. México. efrain@yalma.fime.uanl.mx

La nueva criba de Eratóstenes Efraín Soto Apolinar 1 F.I.M.E. U.A.N.L. San Nicolás, N.L. México. efrain@yalma.fime.uanl.mx La nueva criba de Eratóstenes Efraín Soto Apolinar 1 F.I.M.E. U.A.N.L. San Nicolás, N.L. México. efrain@yalma.fime.uanl.mx Resumen Se dan algunas definiciones básicas relacionadas con la divisibilidad

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

4 Teoría de diseño de Experimentos

4 Teoría de diseño de Experimentos 4 Teoría de diseño de Experimentos 4.1 Introducción En los capítulos anteriores se habló de PLC y de ruido, debido a la inquietud por saber si en una instalación eléctrica casera que cuente con el servicio

Más detalles

DESARROLLO DE HABILIDADES DEL PENSAMIENTO LÓGICO

DESARROLLO DE HABILIDADES DEL PENSAMIENTO LÓGICO I. SISTEMAS NUMÉRICOS DESARROLLO DE HABILIDADES DEL PENSAMIENTO LÓGICO LIC. LEYDY ROXANA ZEPEDA RUIZ SEPTIEMBRE DICIEMBRE 2011 Ocosingo, Chis. 1.1Sistemas numéricos. Los números son los mismos en todos

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008 Última actualización: 01 de Setiembre de 2008 Copyright Artech Consultores S. R. L. 1988-2008. Todos los derechos reservados. Este documento no puede ser reproducido en cualquier medio sin el consentimiento

Más detalles

En este capítulo se describe la forma de cómo se implementó el sistema de video

En este capítulo se describe la forma de cómo se implementó el sistema de video En este capítulo se describe la forma de cómo se implementó el sistema de video por medio de una cámara web y un servomecanismo que permitiera al usuario ver un experimento en el mismo instante en que

Más detalles

Reflexión. Inicio. Contenido

Reflexión. Inicio. Contenido Exploradores de Internet Navegador WEb Reflexión "Una máquina puede hacer el trabajo de 50 hombres corrientes. Pero no existe ninguna máquina que pueda hacer el trabajo de un hombre extraordinario. Elbert

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

CAPITILO 4 CASO. PRACTICO

CAPITILO 4 CASO. PRACTICO CAPITILO 4 CASO. PRACTICO DETERMINAR Qué?, Cuándo? y Cómo? Inspeccionar el inventario. 4.1 INTRODUCCIÓN: En el presente trabajo se determina la clasificación ABC de inventarios por cantidad y costos de

Más detalles

Con el ánimo de conocer el

Con el ánimo de conocer el I n v e s t i g a c i o n El uso de la computación en la nube (Cloud Computing) Francisco Rueda F. Con el ánimo de conocer el nivel de desarrollo de la computación en la nube ( cloud computing ) en nuestro

Más detalles

Mesa de Ayuda Interna

Mesa de Ayuda Interna Mesa de Ayuda Interna Documento de Construcción Mesa de Ayuda Interna 1 Tabla de Contenido Proceso De Mesa De Ayuda Interna... 2 Diagrama Del Proceso... 3 Modelo De Datos... 4 Entidades Del Sistema...

Más detalles

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias: Iniciar con las interpretaciones de las medidas MEDIA VS MEDIANA VS MODA CUAL ES LA MEDIDA ADECUADA TAREA MEDIA PONDERADA Actividad de Medidas de Localización Problema 1. El problema de las tasas de delito.

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo 18 Análisis de correspondencias múltiples Primera edición:

Más detalles

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA 1. Introduccio n El propósito de este reporte es describir de manera detallada un diagnóstico de su habilidad para generar ingresos pasivos, es decir, ingresos

Más detalles