Web Mining: Estado Actual de Investigación

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Web Mining: Estado Actual de Investigación"

Transcripción

1 Autor Lic. Gustavo D. Koblinc Web Mining: Estado Actual de Investigación En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicación de las técnicas de Data Mining sobre los datos contenidos en la World Wide Web. De esta definición se deriva que Web Mining es simplemente aprovechar las técnicas de Data Mining para obtener conocimiento de la información disponible en Internet. Las motivaciones que despertaron la investigación en este campo es el gran volumen de datos con el que se cuenta, las posibilidades de negocios, la actual dificultad en acceder a la información precisa ya que esta se encuentra dispersa y desordenada, y la necesidad de mejorar la performance de los servicios brindados por la red. En algunos casos se deben adaptar las técnicas conocidas de Data Mining para utilizarlas en este entorno, aunque en otros deben adaptarse los datos para que puedan ser utilizados. Pueden observarse dos enfoques bien diferenciados sobre los diferentes desarrollos e investigaciones realizadas: el primer enfoque apunta a realizar mining en el lado del servidor, específicamente sobre los datos que son depositados por los Web Servers; el segundo enfoque está más orientado a los clientes y esta basado en agentes que buscan datos sobre toda la Web y luego aplican las técnicas de mining sobre estos. El primero de estos enfoques aplica mining sobre los datos que dejan, en distintos tipos de logs, los Servidores de Web. Analizar esta información puede ayudar principalmente a empresas que basan su negocio en Internet determinando los tipos de clientes que ingresan, diseñar estrategias de marketing sobre productos y servicios, evaluar la efectividad de las campañas promocionales, mejorar tiempos de acceso y buscar la mejor estructura para el site. El segundo se basa en aplicar mining sobre documentos obtenidos de la red. Esto permite mejorar la búsqueda de información, generar perfiles de usuarios adecuados a sus necesidades y organizar bookmarks entre otras cosas. Cada uno de estos enfoques presenta ventajas y desventajas que luego serán analizadas. 1

2 4.1- Web Mining en Servidores de Web Actualmente los servidores de Web generan un gran volumen de datos proveniente del registro de las acciones que estos realizan. Cada requerimiento de los clientes (browsers, agentes, etc.) queda registrado en los logs que se generan constantemente. Este gran volumen de datos contiene valiosa información que no es visible de forma evidente, y que hasta hace poco era utilizada mínimamente para obtener algún tipo de estadísticas, analizar accesos inválidos o problemas que se produjeran en el servidor. Existen numerosas herramientas que generan reportes estadísticos y gráficos sobre el uso del servidor, de las cuales podemos destacar algunos productos conocidos como Webtrends, Getstats, Analog, Microsoft Intersé Market Focus, etc. Ninguna de estas herramientas realiza data mining de los datos. No se aplica ni clustering, ni association rules, aún menos sequential patterns. Con una herramienta de data mining se podría descubrir, por ejemplo, que en general los clientes que realizan compras on-line en el servidor habían consultado ciertas páginas los días anteriores. Con una herramienta estadística se podrían obtener por ejemplo totales por dominio, cantidad de requerimientos por recurso, etc. En este momento, debido a la gran cantidad de negocios que se manejan por Internet, la gran competencia y la creciente necesidad de mejorar los servicios, el análisis de los datos que se obtienen para convertirlos en información útil se torna imprescindible para poder sobrevivir en este ambiente competitivo. Es necesario conocer el comportamiento de los usuarios (potenciales clientes) y brindarles un acceso más fácil y un mejor servicio así como también saber hacia quien orientar las campañas promocionales. Además aprovechar esta información puede ser muy útil para mejorar la performance de los servidores. Actualmente, hay varias herramientas desarrolladas que aplican mining en el servidor, tanto a nivel comercial como académico. Del análisis de las mismas, se observa que en general todas aplican el proceso de KDD sobre el log del servidor aunque lo hacen con algunas diferencias. Los datos almacenados en los logs siguen un formato standard diseñado por CERN y NCSA [Luotonen, 1995]. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (, ) y cada acceso es un renglón distinto. 2

3 peo-il1-21.ix.netcom.com - - [24/Feb/1997:00:00: ] "GET /images/nudge.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" slip wv.us.ibm.net - - [24/Feb/1997:00:00: ] "GET / HTTP/1.0" " "Mozilla/2.0 (Win95; I)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/3_a.html HTTP/1.0" " "Mozilla/3.0 (Win95; I)" peo-il1-21.ix.netcom.com -- [24/Feb/1997:00:00: ] "GET /images/isbutton.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/images/fea_a.gif HTTP/1.0" " "Mozilla/3.0 (Win95; I)" Ejemplo de entradas del log de NCSA HTTPd Estos datos contenidos en los logs son insuficientes para analizarlos directamente. Sin embargo utilizando una buena técnica de data mining se puede obtener información interesante. Como fue mencionado anteriormente, se genera una entrada en el log por cada requerimiento de un recurso realizado por un usuario. Aunque esto puede reflejar la actividad del servidor no refleja el verdadero comportamiento de los clientes, debido a que las vueltas atrás y a que los requerimientos que se encuentran cacheados por el browser del cliente o por un proxy no son registrados en el server. Tampoco son registradas las funciones que el usuario realiza dentro de una página como por ejemplo el scroll-up y scroll-down. Este déficit en la información puede generar conclusiones erróneas al estudiar la mejor estructura para un site. Por ello dicha información debería ser registrada en logs generados por los browsers o por una applet Java. A este déficit de información se suma que el identificador de usuario no siempre está disponible en el log. Debido al uso de proxy servers por parte de los proveedores del servicio de Internet y de firewalls por parte de las corporaciones comerciales, la verdadera dirección IP del cliente no se encuentra disponible para 3

4 el servidor de web. En vez de tener varias direcciones IP distintas para varios clientes distintos, la misma dirección del proxy server o firewall es guardada en el log representando los requerimientos de diferentes usuarios que llegan al servidor desde el mismo proxy server o firewall. Esto genera cierta ambigüedad en los datos del log. Para solucionar este problema, generalmente se requiere que los usuarios completen un formulario de registración, se implementa algún tipo de log-in o se utilizan cookies entre el servidor y el browser del cliente. De esta manera, el servidor puede identificar distintos requerimientos realizados por los usuarios, pero se viola la privacidad de los mismos ya que gereralmente ellos desean permanecer anónimos lo más que se pueda. Por este motivo, los servidores no solicitan registraciones ni utilizan cookies; por lo tanto el análisis para identificar el comportamiento de los usuarios debe basarse sólo en las entradas del log El Proceso de Knowledge Discovery Antes de aplicar cualquier técnica de data mining es necesario realizar una transformación de los datos para que éstos puedan ser operados eficientemente. A este proceso se lo conoce como el proceso de Knowledge Discovery. En el marco de dicho proceso se filtrarán datos que no interesan y en general se transformará el log en una estructura más manipulable (por ejemplo una base de datos relacional). Es necesario el conocimiento de la estructura del Web server para poder determinar a partir de los accesos cual es la acción que quiere realizar el usuario. Se han encontrado diferentes enfoques de cómo realizar este proceso que abarcan desde el filtrado o no de pedidos de recursos multimedia, la conversión de un conjunto de requerimientos en la supuesta acción requerida por el usuario llegando hasta la creación de un cubo n-dimensional. Para poder aplicar las técnicas de data mining sobre los datos del log del servidor es necesario, además de aplicar las transformaciones en los datos típicas del proceso de KDD, realizar una adaptación en la definición de las transacciones y los ítems que las componen para los distintos algoritmos. Esto se debe a que en este caso no se tiene la noción de transacción como en una base de datos transaccional en donde existe un identificador de transacción. Aquí para poder delimitar una transacción se debe utilizar por ejemplo una combinación entre el identificador del usuario que interactua con el servidor y un período máximo de tiempo aceptado entre accesos. Por ejemplo si un usuario accede a una página del servidor a las 9:00 hs, y hasta las 9:15 hs navega dentro del site; y luego vuelve a acceder por la tarde, esto es considerado como dos transacciones distintas. Cada herramienta utiliza su propios modelos de transacción y de ítems, aunque en general estos modelos son similares entre sí. 4

5 Técnicas de Data Mining En el Web Mining en los servidores de Web es posible aplicar cualquiera de las técnicas de data mining conocidas, por ejemplo Association Rules, Sequential Patterns, Clasificación o Clustering; cada una de las cuales serán analizadas a continuación Association Rules El descubrimiento de association rules es generalmente aplicado a Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica (con un grado de confianza) la presencia de otros ítems. En el contexto de Web Mining este problema tiende a descubrir la correlación entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transacción está compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor. Utilizando association rules, se puede descubrir, por ejemplo, lo siguiente: 60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html. Esta técnica, además, considera el soporte para las reglas encontradas. El soporte es una medida basada en el número de ocurrencias de los ítems dentro del log de transacciones. En Web Mining existen otros factores que pueden ayudar a podar el espacio de búsqueda de las reglas. En general, los sites están organizados jerárquicamente y la estructura de esta jerarquía es conocida con anticipación. Por ejemplo, si el soporte de /company/products/ es bajo, se puede inferir que la búsqueda de association rules en las páginas /company/products/product1.html y /company/products/product2.html no van a tener el soporte necesario. El descubrimiento de estas reglas en el ámbito del comercio electrónico pueden ayudar en el desarrollo de las estrategias de marketing. Además las association rules pueden ayudar a mejorar la organización de la estructura del site. Por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta 5

6 información debería ser movida a /company/products para aumentar el acceso a file2.html Sequential Patterns En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. Con esto, se puede determinar por ejemplo: 60% de los clientes que emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso). En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen Clasificación y Clustering Las técnicas de clasificación permiten desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. 6

7 En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: Clientes que frecuentemente emiten una orden on-line en /company/products/product3.html tienden a ser de instituciones educativas. 50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering. La utilización de la técnica de clustering sobre el log del Web Server, puede ser utilizado para estrategias de marketing dirigido según las clases obtenidas. Por ejemplo si se reconoce un grupo de potenciales clientes se les podría enviar las ofertas por correo sólo a ellos Beneficios y Problemas En general aplicar técnicas de data mining sobre el log de los servidores puede brindar las siguientes ventajas: Mejorar la performance del servidor Mejorar la navegabilidad del site Mejorar el diseño de las aplicaciones del Web Descubrir potenciales clientes de comercio electrónico Identificar lugares y horarios principales para colocar publicidades Actualmente existen varios problemas que afectan a la exactitud de los resultados obtenidos al realizar el análisis. Entre ellos podemos destacar: Imposibilidad de registrar los accesos a páginas cacheadas o descubrir fehacientemente el uso del backtracking u otras funcionen del browser Dificultades en delimitar transacciones o sesiones del usuario 7

8 Datos ambiguos en el log debido a cambios de identidad realizados por proxys y firewalls Estructura de los logs no adecuada para aplicar las técnicas de data mining Como se puede ver, actualmente los logs no almacenan toda la información necesaria para hacer un buen análisis. Debido a que hace poco se comenzó con la aplicación de estas técnicas de data mining, logrando importantes avances, es de esperar que muy pronto se produzcan mejoras como la mayor cooperación entre browsers y servidores y posiblemente la adecuación de la estructura de los logs para que éstos puedan ser analizados más eficientemente. Quizás, en el futuro, se puede lograr la aplicación de data mining on-line para adaptar rápidamente la estructura y la imagen de los servidores de acuerdo a las necesidades del momento. Mientras tanto se debe encontrar la mejor manera de aprovechar los datos insuficientes y ambiguos con que se cuenta. Para ello es muy importante realizar un buen proceso de KDD aprovechando el conocimiento que se tenga sobre el dominio de la aplicación Web Mining en Clientes de Web El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario Agentes Inteligentes Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. 8

9 En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: Agentes de Búsqueda Inteligentes: Buscan información relevante utilizando las características de un dominio (y quizás un perfil de usuario) en particular para organizar e interpretar la información descubierta. Por ejemplo FAQ-Finder ([Hammond, 1995]). Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher Diferencias entre un Documento Web y un Hipertexto Clásico La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico ([Spertus, 1997]). Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a que tipo pertenecen. Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. 9

10 Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino ([Spertus, 1997]) Técnicas de Data Mining En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (ver [Han, 1998] y [Moore, 1998]). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos ([Broder, 1997]). Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. 10

11 Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones Nuevos Métodos de Clustering Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente ARHP: Association Rules Hypergraph Partitioning ([Broder, 1997]) En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. 11

12 Principal Component Analysis (PCA) Partitioning Algorithm ([Broder, 1997]) En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters Syntactic Clustering ([Han, 1998]) Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal) } Dados dos documentos A y B se define la similitud entre ellos como: r (A,B) = S (A) S(B) S (A) S(B) También podemos definir el grado de contención como: c (A,B) = S (A) S(B) S (A) Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. El algoritmo funciona de la siguiente manera: Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de 12

13 documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster Beneficios y Problemas En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: No dependen de la elección de la función de distancia No son sensitivos a las dimensiones de los datos Son linealmente escalables La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda Conclusiones sobre Web Mining Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. 13

14 Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le avise al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar donde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma on-line. Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener siempre actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todos el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varía constantemente. Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los 14

15 buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida. Bibliografía [Broder, 1997] A. Broder, S. Glassman, M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science University of California, Berkeley [Hammond, 1995] K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation. In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, [Han, 1996] Han J., WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University [Han, 1998] E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar, B. Mobasher & J. Moore, WebACE: A Web Agent for Document Categorization and Exploration. Department of Computer Science and Engineering University of Minesota [Luotonen, 1995] A. Luotonen, The Common Log File Format [Moore, 1998] J. Moore, E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar & B. Mobasher, Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering. Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis [Spertus, 1997] 15

16 E. Spertus, ParaSite: Mining Structural Information on the Web. MIT Artificial Inteligence Lab and University of Washington Dept. of CSE

CONSIDERACIONES GENERALES DEL WEB MINING

CONSIDERACIONES GENERALES DEL WEB MINING CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Revista Tecnológica ESPOL, Vol. xx, N. xx, pp-pp, (Mes, 200x) Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Patricio Alcivar 1, Fanny Idrovo 2, Víctor Macas

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)

Más detalles

Utilidades de la base de datos

Utilidades de la base de datos Utilidades de la base de datos Desde esta opcion del menú de Access, podemos realizar las siguientes operaciones: Convertir Base de datos Compactar y reparar base de datos Administrador de tablas vinculadas

Más detalles

Módulo I Unidad Didáctica 2

Módulo I Unidad Didáctica 2 Módulo I Unidad Didáctica 2 Introducción Tal como un periódico, por ejemplo, no es sólo una colección de artículos, un sitio Web no puede ser simplemente una colección de páginas. Qué se busca al diseñar

Más detalles

Creación y administración de grupos de dominio

Creación y administración de grupos de dominio Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín TEMA 4: EMPEZANDO A ESCUELA UNIVERSITARIA DE INFORMÁTICA NAVEGAR Raúl Martín Martín SERVICIOS DE INTERNET SERVICIOS DE INTERNET Las posibilidades que ofrece Internet se denominan servicios. Hoy en día,

Más detalles

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes

Más detalles

Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase

Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase EL APORTE TECNOLÓGICO A LA GESTIÓN DOCUMENTAL ( CASO CORRESPONDENCIA ) (Revista Informática Julio Agosto 2006) Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase Introducción Los procesos de negocios que

Más detalles

Windows Server 2012: Infraestructura de Escritorio Virtual

Windows Server 2012: Infraestructura de Escritorio Virtual Windows Server 2012: Infraestructura de Escritorio Virtual Módulo 1: Application Virtualization Módulo del Manual Autores: James Hamilton-Adams, Content Master Publicado: 5 de Octubre 2012 La información

Más detalles

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21. 1/21 Instalación Interfaz gráfico Requerimientos Proceso de instalación Pantalla de login Pantalla principal Descripción de los frames y botones Programación de Backups Botones generales Botones de programación

Más detalles

Manual del Usuario. Sistema de Help Desk

Manual del Usuario. Sistema de Help Desk Manual del Usuario Sistema de Help Desk Objetivo del Manual El siguiente manual tiene como objetivo proveer la información necesaria para la correcta utilización del sistema Help Desk. Describe los procedimientos

Más detalles

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta Conciliación bancaria en CheqPAQ Cargado de estado de cuenta Introducción Con la finalidad de mantenerte informado respecto a todos los cambios y mejoras de los productos de CONTPAQ i, ponemos a tu disposición

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Sistema de Gestión Portuaria Sistema de Gestión Portuaria Uso General del Sistema

Sistema de Gestión Portuaria Sistema de Gestión Portuaria Uso General del Sistema Sistema de Gestión Portuaria Uso General del Sistema Uso General del Sistema Página 1 de 21 Contenido Contenido... 2 1.Ingreso al Sistema... 3 2.Uso del Menú... 6 3.Visualizar Novedades del Sistema...

Más detalles

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN Tabla de Contenidos LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN... 1 Tabla de Contenidos... 1 General... 2 Uso de los Lineamientos Estándares...

Más detalles

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA Autor: Carlos Javier Martín González. Licenciado en Física Teórica por la Universidad Autónoma de Madrid. Analista programador y funcional. Desarrollador

Más detalles

La inteligencia de marketing que desarrolla el conocimiento

La inteligencia de marketing que desarrolla el conocimiento La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

UNIDADES DE ALMACENAMIENTO DE DATOS

UNIDADES DE ALMACENAMIENTO DE DATOS 1.2 MATÉMATICAS DE REDES 1.2.1 REPRESENTACIÓN BINARIA DE DATOS Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS. Los computadores sólo

Más detalles

Acronis License Server. Guía del usuario

Acronis License Server. Guía del usuario Acronis License Server Guía del usuario TABLA DE CONTENIDO 1. INTRODUCCIÓN... 3 1.1 Generalidades... 3 1.2 Política de licencias... 3 2. SISTEMAS OPERATIVOS COMPATIBLES... 4 3. INSTALACIÓN DE ACRONIS LICENSE

Más detalles

e-mailing Solution La forma más efectiva de llegar a sus clientes.

e-mailing Solution La forma más efectiva de llegar a sus clientes. e-mailing Solution La forma más efectiva de llegar a sus clientes. e-mailing Solution Es muy grato para nosotros presentarles e-mailing Solution, nuestra solución de e-mail Marketing para su empresa. E-Mailing

Más detalles

GuÍa rápida de uso. westlaw chile

GuÍa rápida de uso. westlaw chile GuÍa rápida de uso westlaw chile guía rápida de uso de westlaw chile Área legal como acceder Ingreso Para acceder a nuestra nueva plataforma de información, debe ingresar a nuestro sitio oficial www.puntolex.cl

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

MANUAL COPIAS DE SEGURIDAD

MANUAL COPIAS DE SEGURIDAD MANUAL COPIAS DE SEGURIDAD Índice de contenido Ventajas del nuevo sistema de copia de seguridad...2 Actualización de la configuración...2 Pantalla de configuración...3 Configuración de las rutas...4 Carpeta

Más detalles

Autenticación Centralizada

Autenticación Centralizada Autenticación Centralizada Ing. Carlos Rojas Castro Herramientas de Gestión de Redes Introducción En el mundo actual, pero en especial las organizaciones actuales, los usuarios deben dar pruebas de quiénes

Más detalles

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA Perfil Entidad Proveedora El objetivo del módulo de Gestión de Solicitudes vía Internet es facilitar el trabajo

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

Adicionalmente, en función de su objetivo, las Cookies puedes clasificarse de la siguiente forma:

Adicionalmente, en función de su objetivo, las Cookies puedes clasificarse de la siguiente forma: Cookies policy a) Utilización de Cookies y Web Bugs b) Tipología, finalidad y funcionamiento de las Cookies c) Cómo deshabilitar las Cookies y los Web Bugs en los principales navegadores d) Qué ocurre

Más detalles

Diseño de bases de datos Diapositiva 1

Diseño de bases de datos Diapositiva 1 Diseño o de bases de datos Objetivos del Diseño Principios del Diseño de BD Proceso de Diseño Normalización Diseño de Tablas: Claves Relaciones Integridad referencial Convenciones de nomenclatura Diseño

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Adelacu Ltda. www.adelacu.com Fono +562-218-4749. Graballo+ Agosto de 2007. Graballo+ - Descripción funcional - 1 -

Adelacu Ltda. www.adelacu.com Fono +562-218-4749. Graballo+ Agosto de 2007. Graballo+ - Descripción funcional - 1 - Graballo+ Agosto de 2007-1 - Índice Índice...2 Introducción...3 Características...4 DESCRIPCIÓN GENERAL...4 COMPONENTES Y CARACTERÍSTICAS DE LA SOLUCIÓN...5 Recepción de requerimientos...5 Atención de

Más detalles

Internet Information Server

Internet Information Server Internet Information Server Internet Information Server (IIS) es el servidor de páginas web avanzado de la plataforma Windows. Se distribuye gratuitamente junto con las versiones de Windows basadas en

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados

Más detalles

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para Empresas en Crecimiento Portfolio SAP BusinessObjects Soluciones SAP para Empresas en Crecimiento Resumen Ejecutivo Inteligencia

Más detalles

COMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS

COMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS COMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS Es un sistema que describe las funcionalidades claves a través de Internet. Se pueden efectuar las compras, ver la trazabilidad de los pedidos y visualizar

Más detalles

Operación Microsoft Access 97

Operación Microsoft Access 97 Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe

Más detalles

Índice INTERNET MARKETING 1

Índice INTERNET MARKETING 1 INTERNET MARKETING 1 Índice Manual de Google Analytics... 2 Qué es Google Analytics?... 2 Cómo funciona Google Analytics?... 2 Iniciar Sesión en Google Analytics... 3 Visualizar las estadísticas... 3 Resumen

Más detalles

HERRAMIENTAS DE ACCESS ACCESS 2010. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

HERRAMIENTAS DE ACCESS ACCESS 2010. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE HERRAMIENTAS DE ACCESS ACCESS 2010 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE HERRAMIENTAS DE ACCESS En esta unidad veremos algunas de las herramientas incorporadas de Access que

Más detalles

Redes de área local: Aplicaciones y servicios WINDOWS

Redes de área local: Aplicaciones y servicios WINDOWS Redes de área local: Aplicaciones y servicios WINDOWS 4. Servidor DNS 1 Índice Definición de Servidor DNS... 3 Instalación del Servidor DNS... 5 Configuración del Servidor DNS... 8 2 Definición de Servidor

Más detalles

Sistemas de Gestión de Calidad. Control documental

Sistemas de Gestión de Calidad. Control documental 4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4

Más detalles

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red. Comercio electrónico. (e-commerce) Las empresas que ya están utilizando la red para hacer comercio ven como están cambiando las relaciones de la empresa con sus clientes, sus empleados, sus colaboradores

Más detalles

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000 1 INTRODUCCIÓN Dos de los objetivos más importantes en la revisión de la serie de normas ISO 9000 han sido: desarrollar un grupo simple de normas que sean igualmente aplicables a las pequeñas, a las medianas

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005 Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005 1. Acerca de este documento Este documento describe el servicio de estadísticas del que actualmente disfrutan algunas de las páginas

Más detalles

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW): INFORMÁTICA IE MÓDULO INTERNET Términos a conocer y conceptos básicos World Wide Web (WWW): Digamos, simplemente, que es un sistema de información, el sistema de información propio de Internet. Sus características

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

Introducción a las redes de computadores

Introducción a las redes de computadores Introducción a las redes de computadores Contenido Descripción general 1 Beneficios de las redes 2 Papel de los equipos en una red 3 Tipos de redes 5 Sistemas operativos de red 7 Introducción a las redes

Más detalles

Introducción a las Redes de Computadoras. Obligatorio 2 2011

Introducción a las Redes de Computadoras. Obligatorio 2 2011 Introducción a las Redes de Computadoras Obligatorio 2 2011 Facultad de Ingeniería Instituto de Computación Departamento de Arquitectura de Sistemas Nota previa - IMPORTANTE Se debe cumplir íntegramente

Más detalles

forma de entrenar a la nuerona en su aprendizaje.

forma de entrenar a la nuerona en su aprendizaje. Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo

Más detalles

CAPÍTULO 3 Servidor de Modelo de Usuario

CAPÍTULO 3 Servidor de Modelo de Usuario CAPÍTULO 3 Servidor de Modelo de Usuario Para el desarrollo del modelado del estudiante se utilizó el servidor de modelo de usuario desarrollado en la Universidad de las Américas Puebla por Rosa G. Paredes

Más detalles

PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO...

PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO... Tabla de Contenido PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO... 2 1. LA PRESENCIA DE INFORMACIÓN Y AYUDA ÚTIL PARA COMPLETAR LOS TRÁMITES EN LÍNEA.... 2 2. LA DISPONIBILIDAD DE DIVERSOS

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

La explicación la haré con un ejemplo de cobro por $100.00 más el I.V.A. $16.00

La explicación la haré con un ejemplo de cobro por $100.00 más el I.V.A. $16.00 La mayor parte de las dependencias no habían manejado el IVA en los recibos oficiales, que era el documento de facturación de nuestra Universidad, actualmente ya es formalmente un CFD pero para el fin

Más detalles

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD Manual de usuario 1 - ÍNDICE 1 - ÍNDICE... 2 2 - INTRODUCCIÓN... 3 3 - SELECCIÓN CARPETA TRABAJO... 4 3.1 CÓMO CAMBIAR DE EMPRESA O DE CARPETA DE TRABAJO?...

Más detalles

1.4.1.2. Resumen... 1.4.2. ÁREA DE FACTURACIÓN::INFORMES::Pedidos...27 1.4.2.1. Detalle... 1.4.2.2. Resumen... 1.4.3. ÁREA DE

1.4.1.2. Resumen... 1.4.2. ÁREA DE FACTURACIÓN::INFORMES::Pedidos...27 1.4.2.1. Detalle... 1.4.2.2. Resumen... 1.4.3. ÁREA DE MANUAL DE USUARIO DE ABANQ 1 Índice de contenido 1 ÁREA DE FACTURACIÓN......4 1.1 ÁREA DE FACTURACIÓN::PRINCIPAL...4 1.1.1. ÁREA DE FACTURACIÓN::PRINCIPAL::EMPRESA...4 1.1.1.1. ÁREA DE FACTURACIÓN::PRINCIPAL::EMPRESA::General...4

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS MANUAL DE USUARIO APLICACIÓN SYSACTIVOS Autor Edwar Orlando Amaya Diaz Analista de Desarrollo y Soporte Produce Sistemas y Soluciones Integradas S.A.S Versión 1.0 Fecha de Publicación 19 Diciembre 2014

Más detalles

1 http://www.sencilloyrapido.com/

1 http://www.sencilloyrapido.com/ 1 Contenido Introducción 3 Que son las encuestas pagadas por internet?. 5 Como ganar dinero con las encuestas pagadas por internet. 7 Pueden las encuestas pagadas generarte un ingreso decente?.. 9 Conclusión.

Más detalles

Componentes de Integración entre Plataformas Información Detallada

Componentes de Integración entre Plataformas Información Detallada Componentes de Integración entre Plataformas Información Detallada Active Directory Integration Integración con el Directorio Activo Active Directory es el servicio de directorio para Windows 2000 Server.

Más detalles

Introducción a Spamina

Introducción a Spamina Spamina Introducción a Spamina El servicio de seguridad que se le ofrece al contratar el servicio de Exchange con Alestra es conocido como Spamina Cloud Email Firewall que protege de Spam, Virus y Phishing

Más detalles

POLITICA DE PRIVACIDAD. www.tuboleta.com

POLITICA DE PRIVACIDAD. www.tuboleta.com http://vive.tuboleta.com/content/privatepolicy.aspx POLITICA DE PRIVACIDAD Tu Boleta respeta la privacidad de todos sus clientes y contactos comerciales, y está comprometido a salvaguardar la información

Más detalles

Servicios y aplicaciones clave de la web 2.0

Servicios y aplicaciones clave de la web 2.0 Servicios y aplicaciones clave de la web 2.0 Etiquetado y social bookmarking La web 2,0 ha permitido crear comunidades llamadas Social Bookmarking o marcadores sociales, las cuales son una forma en la

Más detalles

Ayuda En-línea para SIG

Ayuda En-línea para SIG Sistema De Información Geográfica (SIG) de Republica Dominicana Ayuda En-línea para SIG Acerca de SIG SIG es una herramienta que facilita el proceso de revisión ambiental y la planificación de proyectos

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

TEMA 2: Representación de la Información en las computadoras

TEMA 2: Representación de la Información en las computadoras TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario

Más detalles

II. Relación con Terceros

II. Relación con Terceros II. Relación con Terceros Introducción a la Relación con Terceros Los terceros se refieren a las entidades con las cuales se realizan transacciones en la organización. Hay tres tipos de terceros, están:

Más detalles

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto INFORMÁTICA INFORMÁTICA 1 Sesión No. 4 Nombre: Procesador de Texto Contextualización La semana anterior revisamos los comandos que ofrece Word para el formato del texto, la configuración de la página,

Más detalles

Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable

Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable 1. Introducción. El Sistema de Administración de Información de un Negocio Franquiciable (SAINF)

Más detalles

Tips & Buenas Prácticas. del Email Marketing POR QUÉ EMAIL MARKETING. Ventajas y desventajas del Email Marketing

Tips & Buenas Prácticas. del Email Marketing POR QUÉ EMAIL MARKETING. Ventajas y desventajas del Email Marketing Tips & Buenas Prácticas del Email Marketing POR QUÉ EMAIL MARKETING Ventajas y desventajas del Email Marketing (+5411) 3220.1410 info@perfit.com.ar www.perfit.com.ar Ventajas y Desventajas del Email Marketing

Más detalles

CRM. Qué es CRM. Información para la Gestión

CRM. Qué es CRM. Información para la Gestión CRM Qué es CRM Es una estrategia de negocios orientada a la fidelización de clientes, enfocándose en que cada empleado de la empresa tenga información actualizada y confiable de los mismos, con el objetivo

Más detalles

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Tema: Sistemas Subtema: Base de Datos. Materia: Manejo de aplicaciones

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

POSICIONAMIENTO EN LA WEB (SEM Y SEO) POSICIONAMIENTO EN LA WEB (SEM Y SEO) POSICIONAMIENTO EN LA WEB (SEM Y SEO) 1 Sesión No. 3 Nombre: Keywords Contextualización Qué son las Keywords? Debemos de tener en claro la definición de keywords para

Más detalles

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd Maxpho Commerce 11 Gestión CSV Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd Índice general 1 - Introducción... 3 1.1 - El archivo CSV... 3 1.2 - Módulo CSV en Maxpho... 3 1.3 - Módulo CSV

Más detalles

Ventajas del almacenamiento de correo electrónico

Ventajas del almacenamiento de correo electrónico Ventajas del almacenamiento de correo electrónico El correo electrónico no es solo uno de los medios de comunicación más importantes, sino también una de las fuentes de información más extensas y de mayor

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que CONCEPTOS BASICOS. Usuario. Un usuario es toda persona que utilice una computadora. Host. En este texto, entenderemos por host toda máquina - léase computadora - conectada a InterNet. También se les llaman

Más detalles

Tutorial: Primeros Pasos con Subversion

Tutorial: Primeros Pasos con Subversion Tutorial: Primeros Pasos con Subversion Introducción Subversion es un sistema de control de versiones open source. Corre en distintos sistemas operativos y su principal interfaz con el usuario es a través

Más detalles

SERVIDORES LINUX. Elaborado por Ing. Fausto Rolando Félix C. Gerente General Corporación Powerfast Cía. Ltda. Quito Ecuador

SERVIDORES LINUX. Elaborado por Ing. Fausto Rolando Félix C. Gerente General Corporación Powerfast Cía. Ltda. Quito Ecuador SERVIDORES LINUX MANUAL BASICO DE ADMINISTRACION DE UNA RED LAN CON EL SERVIDOR DE COMUNICACIONES THUNDERCACHE REPORTE DE NAVEGACION DE USUARIOS SARG (SQUID-REPORTS) Elaborado por Ing. Fausto Rolando Félix

Más detalles

QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL?

QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL? QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL? En este tutorial presentamos los distintos tipos de actividades disponibles en el Campus Virtual UNER. Para agregar una actividad dentro de un tema:

Más detalles

Diseño orientado al flujo de datos

Diseño orientado al flujo de datos Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos

Más detalles

Resumen. Funcionamiento. Advertencia

Resumen. Funcionamiento. Advertencia Resumen Módulo: Librería: IMPEXP.DLL Acoplable a: FactuCont 5, versiones monopuesto y red Descripción: Permite exportar datos de documentos, clientes, proveedores y artículos en un solo fichero para poder

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.

Más detalles

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Caso práctico de Cuadro de Mando con Tablas Dinámicas 1 Caso práctico de Cuadro de Mando con Tablas Dinámicas Luis Muñiz Socio Director de SisConGes & Estrategia Introducción Hay una frase célebre que nos permite decir que: Lo que no se mide no se puede controlar

Más detalles

Las Relaciones Públicas en el Marketing social

Las Relaciones Públicas en el Marketing social Las Relaciones Públicas en el Marketing social El marketing social es el marketing que busca cambiar una idea, actitud o práctica en la sociedad en la que se encuentra, y que intenta satisfacer una necesidad

Más detalles

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Qué es una página web?, qué conoces al respecto?, sabes crear una página Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual

Más detalles

EJEMPLO. Práctica de clustering

EJEMPLO. Práctica de clustering Práctica de clustering Preparación de los ficheros binarios Para operar los ficheros binarios se ha utilizado una aplicación en Delphi que permite montar los ficheros ".arff" que usa Weka. La aplicación

Más detalles

Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández.

Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández. Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández. CITMATEL Ave 47 e/18 A y 20, Playa, Ciudad de La habana, CP 10300 Cuba. E mail:

Más detalles