Web Mining: Estado Actual de Investigación

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Web Mining: Estado Actual de Investigación"

Transcripción

1 Autor Lic. Gustavo D. Koblinc Web Mining: Estado Actual de Investigación En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicación de las técnicas de Data Mining sobre los datos contenidos en la World Wide Web. De esta definición se deriva que Web Mining es simplemente aprovechar las técnicas de Data Mining para obtener conocimiento de la información disponible en Internet. Las motivaciones que despertaron la investigación en este campo es el gran volumen de datos con el que se cuenta, las posibilidades de negocios, la actual dificultad en acceder a la información precisa ya que esta se encuentra dispersa y desordenada, y la necesidad de mejorar la performance de los servicios brindados por la red. En algunos casos se deben adaptar las técnicas conocidas de Data Mining para utilizarlas en este entorno, aunque en otros deben adaptarse los datos para que puedan ser utilizados. Pueden observarse dos enfoques bien diferenciados sobre los diferentes desarrollos e investigaciones realizadas: el primer enfoque apunta a realizar mining en el lado del servidor, específicamente sobre los datos que son depositados por los Web Servers; el segundo enfoque está más orientado a los clientes y esta basado en agentes que buscan datos sobre toda la Web y luego aplican las técnicas de mining sobre estos. El primero de estos enfoques aplica mining sobre los datos que dejan, en distintos tipos de logs, los Servidores de Web. Analizar esta información puede ayudar principalmente a empresas que basan su negocio en Internet determinando los tipos de clientes que ingresan, diseñar estrategias de marketing sobre productos y servicios, evaluar la efectividad de las campañas promocionales, mejorar tiempos de acceso y buscar la mejor estructura para el site. El segundo se basa en aplicar mining sobre documentos obtenidos de la red. Esto permite mejorar la búsqueda de información, generar perfiles de usuarios adecuados a sus necesidades y organizar bookmarks entre otras cosas. Cada uno de estos enfoques presenta ventajas y desventajas que luego serán analizadas. 1

2 4.1- Web Mining en Servidores de Web Actualmente los servidores de Web generan un gran volumen de datos proveniente del registro de las acciones que estos realizan. Cada requerimiento de los clientes (browsers, agentes, etc.) queda registrado en los logs que se generan constantemente. Este gran volumen de datos contiene valiosa información que no es visible de forma evidente, y que hasta hace poco era utilizada mínimamente para obtener algún tipo de estadísticas, analizar accesos inválidos o problemas que se produjeran en el servidor. Existen numerosas herramientas que generan reportes estadísticos y gráficos sobre el uso del servidor, de las cuales podemos destacar algunos productos conocidos como Webtrends, Getstats, Analog, Microsoft Intersé Market Focus, etc. Ninguna de estas herramientas realiza data mining de los datos. No se aplica ni clustering, ni association rules, aún menos sequential patterns. Con una herramienta de data mining se podría descubrir, por ejemplo, que en general los clientes que realizan compras on-line en el servidor habían consultado ciertas páginas los días anteriores. Con una herramienta estadística se podrían obtener por ejemplo totales por dominio, cantidad de requerimientos por recurso, etc. En este momento, debido a la gran cantidad de negocios que se manejan por Internet, la gran competencia y la creciente necesidad de mejorar los servicios, el análisis de los datos que se obtienen para convertirlos en información útil se torna imprescindible para poder sobrevivir en este ambiente competitivo. Es necesario conocer el comportamiento de los usuarios (potenciales clientes) y brindarles un acceso más fácil y un mejor servicio así como también saber hacia quien orientar las campañas promocionales. Además aprovechar esta información puede ser muy útil para mejorar la performance de los servidores. Actualmente, hay varias herramientas desarrolladas que aplican mining en el servidor, tanto a nivel comercial como académico. Del análisis de las mismas, se observa que en general todas aplican el proceso de KDD sobre el log del servidor aunque lo hacen con algunas diferencias. Los datos almacenados en los logs siguen un formato standard diseñado por CERN y NCSA [Luotonen, 1995]. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (, ) y cada acceso es un renglón distinto. 2

3 peo-il1-21.ix.netcom.com - - [24/Feb/1997:00:00: ] "GET /images/nudge.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" slip wv.us.ibm.net - - [24/Feb/1997:00:00: ] "GET / HTTP/1.0" " "Mozilla/2.0 (Win95; I)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/3_a.html HTTP/1.0" " "Mozilla/3.0 (Win95; I)" peo-il1-21.ix.netcom.com -- [24/Feb/1997:00:00: ] "GET /images/isbutton.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/images/fea_a.gif HTTP/1.0" " "Mozilla/3.0 (Win95; I)" Ejemplo de entradas del log de NCSA HTTPd Estos datos contenidos en los logs son insuficientes para analizarlos directamente. Sin embargo utilizando una buena técnica de data mining se puede obtener información interesante. Como fue mencionado anteriormente, se genera una entrada en el log por cada requerimiento de un recurso realizado por un usuario. Aunque esto puede reflejar la actividad del servidor no refleja el verdadero comportamiento de los clientes, debido a que las vueltas atrás y a que los requerimientos que se encuentran cacheados por el browser del cliente o por un proxy no son registrados en el server. Tampoco son registradas las funciones que el usuario realiza dentro de una página como por ejemplo el scroll-up y scroll-down. Este déficit en la información puede generar conclusiones erróneas al estudiar la mejor estructura para un site. Por ello dicha información debería ser registrada en logs generados por los browsers o por una applet Java. A este déficit de información se suma que el identificador de usuario no siempre está disponible en el log. Debido al uso de proxy servers por parte de los proveedores del servicio de Internet y de firewalls por parte de las corporaciones comerciales, la verdadera dirección IP del cliente no se encuentra disponible para 3

4 el servidor de web. En vez de tener varias direcciones IP distintas para varios clientes distintos, la misma dirección del proxy server o firewall es guardada en el log representando los requerimientos de diferentes usuarios que llegan al servidor desde el mismo proxy server o firewall. Esto genera cierta ambigüedad en los datos del log. Para solucionar este problema, generalmente se requiere que los usuarios completen un formulario de registración, se implementa algún tipo de log-in o se utilizan cookies entre el servidor y el browser del cliente. De esta manera, el servidor puede identificar distintos requerimientos realizados por los usuarios, pero se viola la privacidad de los mismos ya que gereralmente ellos desean permanecer anónimos lo más que se pueda. Por este motivo, los servidores no solicitan registraciones ni utilizan cookies; por lo tanto el análisis para identificar el comportamiento de los usuarios debe basarse sólo en las entradas del log El Proceso de Knowledge Discovery Antes de aplicar cualquier técnica de data mining es necesario realizar una transformación de los datos para que éstos puedan ser operados eficientemente. A este proceso se lo conoce como el proceso de Knowledge Discovery. En el marco de dicho proceso se filtrarán datos que no interesan y en general se transformará el log en una estructura más manipulable (por ejemplo una base de datos relacional). Es necesario el conocimiento de la estructura del Web server para poder determinar a partir de los accesos cual es la acción que quiere realizar el usuario. Se han encontrado diferentes enfoques de cómo realizar este proceso que abarcan desde el filtrado o no de pedidos de recursos multimedia, la conversión de un conjunto de requerimientos en la supuesta acción requerida por el usuario llegando hasta la creación de un cubo n-dimensional. Para poder aplicar las técnicas de data mining sobre los datos del log del servidor es necesario, además de aplicar las transformaciones en los datos típicas del proceso de KDD, realizar una adaptación en la definición de las transacciones y los ítems que las componen para los distintos algoritmos. Esto se debe a que en este caso no se tiene la noción de transacción como en una base de datos transaccional en donde existe un identificador de transacción. Aquí para poder delimitar una transacción se debe utilizar por ejemplo una combinación entre el identificador del usuario que interactua con el servidor y un período máximo de tiempo aceptado entre accesos. Por ejemplo si un usuario accede a una página del servidor a las 9:00 hs, y hasta las 9:15 hs navega dentro del site; y luego vuelve a acceder por la tarde, esto es considerado como dos transacciones distintas. Cada herramienta utiliza su propios modelos de transacción y de ítems, aunque en general estos modelos son similares entre sí. 4

5 Técnicas de Data Mining En el Web Mining en los servidores de Web es posible aplicar cualquiera de las técnicas de data mining conocidas, por ejemplo Association Rules, Sequential Patterns, Clasificación o Clustering; cada una de las cuales serán analizadas a continuación Association Rules El descubrimiento de association rules es generalmente aplicado a Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica (con un grado de confianza) la presencia de otros ítems. En el contexto de Web Mining este problema tiende a descubrir la correlación entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transacción está compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor. Utilizando association rules, se puede descubrir, por ejemplo, lo siguiente: 60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html. Esta técnica, además, considera el soporte para las reglas encontradas. El soporte es una medida basada en el número de ocurrencias de los ítems dentro del log de transacciones. En Web Mining existen otros factores que pueden ayudar a podar el espacio de búsqueda de las reglas. En general, los sites están organizados jerárquicamente y la estructura de esta jerarquía es conocida con anticipación. Por ejemplo, si el soporte de /company/products/ es bajo, se puede inferir que la búsqueda de association rules en las páginas /company/products/product1.html y /company/products/product2.html no van a tener el soporte necesario. El descubrimiento de estas reglas en el ámbito del comercio electrónico pueden ayudar en el desarrollo de las estrategias de marketing. Además las association rules pueden ayudar a mejorar la organización de la estructura del site. Por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta 5

6 información debería ser movida a /company/products para aumentar el acceso a file2.html Sequential Patterns En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. Con esto, se puede determinar por ejemplo: 60% de los clientes que emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso). En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen Clasificación y Clustering Las técnicas de clasificación permiten desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. 6

7 En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: Clientes que frecuentemente emiten una orden on-line en /company/products/product3.html tienden a ser de instituciones educativas. 50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering. La utilización de la técnica de clustering sobre el log del Web Server, puede ser utilizado para estrategias de marketing dirigido según las clases obtenidas. Por ejemplo si se reconoce un grupo de potenciales clientes se les podría enviar las ofertas por correo sólo a ellos Beneficios y Problemas En general aplicar técnicas de data mining sobre el log de los servidores puede brindar las siguientes ventajas: Mejorar la performance del servidor Mejorar la navegabilidad del site Mejorar el diseño de las aplicaciones del Web Descubrir potenciales clientes de comercio electrónico Identificar lugares y horarios principales para colocar publicidades Actualmente existen varios problemas que afectan a la exactitud de los resultados obtenidos al realizar el análisis. Entre ellos podemos destacar: Imposibilidad de registrar los accesos a páginas cacheadas o descubrir fehacientemente el uso del backtracking u otras funcionen del browser Dificultades en delimitar transacciones o sesiones del usuario 7

8 Datos ambiguos en el log debido a cambios de identidad realizados por proxys y firewalls Estructura de los logs no adecuada para aplicar las técnicas de data mining Como se puede ver, actualmente los logs no almacenan toda la información necesaria para hacer un buen análisis. Debido a que hace poco se comenzó con la aplicación de estas técnicas de data mining, logrando importantes avances, es de esperar que muy pronto se produzcan mejoras como la mayor cooperación entre browsers y servidores y posiblemente la adecuación de la estructura de los logs para que éstos puedan ser analizados más eficientemente. Quizás, en el futuro, se puede lograr la aplicación de data mining on-line para adaptar rápidamente la estructura y la imagen de los servidores de acuerdo a las necesidades del momento. Mientras tanto se debe encontrar la mejor manera de aprovechar los datos insuficientes y ambiguos con que se cuenta. Para ello es muy importante realizar un buen proceso de KDD aprovechando el conocimiento que se tenga sobre el dominio de la aplicación Web Mining en Clientes de Web El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario Agentes Inteligentes Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. 8

9 En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: Agentes de Búsqueda Inteligentes: Buscan información relevante utilizando las características de un dominio (y quizás un perfil de usuario) en particular para organizar e interpretar la información descubierta. Por ejemplo FAQ-Finder ([Hammond, 1995]). Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher Diferencias entre un Documento Web y un Hipertexto Clásico La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico ([Spertus, 1997]). Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a que tipo pertenecen. Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. 9

10 Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino ([Spertus, 1997]) Técnicas de Data Mining En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (ver [Han, 1998] y [Moore, 1998]). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos ([Broder, 1997]). Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. 10

11 Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones Nuevos Métodos de Clustering Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente ARHP: Association Rules Hypergraph Partitioning ([Broder, 1997]) En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. 11

12 Principal Component Analysis (PCA) Partitioning Algorithm ([Broder, 1997]) En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters Syntactic Clustering ([Han, 1998]) Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal) } Dados dos documentos A y B se define la similitud entre ellos como: r (A,B) = S (A) S(B) S (A) S(B) También podemos definir el grado de contención como: c (A,B) = S (A) S(B) S (A) Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. El algoritmo funciona de la siguiente manera: Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de 12

13 documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster Beneficios y Problemas En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: No dependen de la elección de la función de distancia No son sensitivos a las dimensiones de los datos Son linealmente escalables La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda Conclusiones sobre Web Mining Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. 13

14 Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le avise al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar donde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma on-line. Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener siempre actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todos el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varía constantemente. Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los 14

15 buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida. Bibliografía [Broder, 1997] A. Broder, S. Glassman, M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science University of California, Berkeley [Hammond, 1995] K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation. In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, [Han, 1996] Han J., WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University [Han, 1998] E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar, B. Mobasher & J. Moore, WebACE: A Web Agent for Document Categorization and Exploration. Department of Computer Science and Engineering University of Minesota [Luotonen, 1995] A. Luotonen, The Common Log File Format [Moore, 1998] J. Moore, E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar & B. Mobasher, Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering. Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis [Spertus, 1997] 15

16 E. Spertus, ParaSite: Mining Structural Information on the Web. MIT Artificial Inteligence Lab and University of Washington Dept. of CSE

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Revista Tecnológica ESPOL, Vol. xx, N. xx, pp-pp, (Mes, 200x) Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Patricio Alcivar 1, Fanny Idrovo 2, Víctor Macas

Más detalles

CONSIDERACIONES GENERALES DEL WEB MINING

CONSIDERACIONES GENERALES DEL WEB MINING CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Texto, imágenes, video Hiperenlaces Archivo log

Texto, imágenes, video Hiperenlaces Archivo log Web Mining Web Mining Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web Texto, imágenes, video Hiperenlaces Archivo log Netcraft

Más detalles

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Cenidet Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Ing. Gabriel Hernández ndez MéndezM M.C.Juan Gabriel González Serna Ing. Juan

Más detalles

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República Diseño e implementación de un generador de sitios web adaptativos automáticos: Descubrimiento de patrones de navegación Proyecto de Taller V Estudiantes: Tutor: Luis Do Rego Leticia Pérez Ing. Eduardo

Más detalles

5.1. Qué es Internet? controla todo el sistema, pero está conectado de tal manera que hace

5.1. Qué es Internet? controla todo el sistema, pero está conectado de tal manera que hace 5. Internet 5.1. Qué es Internet? Internet es una red mundial de equipos que se comunican usando un lenguaje común. Es similar al sistema telefónico internacional: nadie posee ni controla todo el sistema,

Más detalles

Arquitectura y seguridad

Arquitectura y seguridad En el desarrollo del SIGOB nos hemos enfrentado a diversos problemas que nos han llevado a investigar y desarrollar nuestras propias tecnologías. En este documento presentamos cada uno de los desarrollos

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Crawlers - Arañas UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides Qué es una Araña? También se le llama robot o araña (spider, crawler). Una araña (crawler) es

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web?

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web? Desarrollo de Paginas Web Internet - Web Internet - Web Qué es la Internet? - Qué es la Web? Internet: Una red de computadoras a nivel mundial Web: Una forma de organizar la información existente en Internet

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

Guía 1: Implementación de Modelo de Firma Electrónica Simple con Identificador/Clave

Guía 1: Implementación de Modelo de Firma Electrónica Simple con Identificador/Clave Guía 1: Implementación de Modelo de Firma Electrónica Simple con Identificador/Clave Agustinas 1291, piso 5, ofic. G - Santiago de Chile F: (56 2) 694 5808 / (56 2) 694 5964 - Fax: (56 2) 694 5965 http://www.modernizacion.gov.cl

Más detalles

Poder Judicial de Tucumán Año 2013

Poder Judicial de Tucumán Año 2013 Internet y Correo electrónico El presente instructivo corresponde a una guía básica para el manejo de los programas y para la adquisición de conceptos en relación a estos utilitarios. No obstante ello,

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

La inteligencia de marketing que desarrolla el conocimiento

La inteligencia de marketing que desarrolla el conocimiento La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece

Más detalles

Novedades en Crystal Reports XI

Novedades en Crystal Reports XI Novedades en Crystal Reports XI Introducción Introducción Esta sección proporciona información de alto nivel sobre los componentes, las funciones y las ventajas que ofrece la última versión de Crystal

Más detalles

Módulo I Unidad Didáctica 2

Módulo I Unidad Didáctica 2 Módulo I Unidad Didáctica 2 Introducción Tal como un periódico, por ejemplo, no es sólo una colección de artículos, un sitio Web no puede ser simplemente una colección de páginas. Qué se busca al diseñar

Más detalles

Intercambio de ficheros institucionales

Intercambio de ficheros institucionales Intercambio de ficheros institucionales Unidad de Infraestructuras Junio 2013 Versión: 1.0 INDICE 1. INTRODUCCIÓN... 4 2. INICIO DEL CLIENTE DE INTERCAMBIO DE FICHEROS INSTITUCIONALES... 5 3. VISTA GENERAL

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Familia de Windows Server 2003

Familia de Windows Server 2003 Familia de Windows Server 2003 Windows Server 2003 está disponible en cuatro ediciones. Cada edición se ha desarrollado para una función de servidor específica, como se describe en la tabla siguiente:

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Utilidades de la base de datos

Utilidades de la base de datos Utilidades de la base de datos Desde esta opcion del menú de Access, podemos realizar las siguientes operaciones: Convertir Base de datos Compactar y reparar base de datos Administrador de tablas vinculadas

Más detalles

Minería Web: un recurso insoslayable para el profesional de la información*

Minería Web: un recurso insoslayable para el profesional de la información* Acimed 2007; 16(4) Minería Web: un recurso insoslayable para el profesional de la información* Lic. Sady C. Fuentes Reyes 1 e Ing. Marina Ruiz Lobaina 2 RESUMEN Se estudian los principales conceptos relacionados

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase

Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase EL APORTE TECNOLÓGICO A LA GESTIÓN DOCUMENTAL ( CASO CORRESPONDENCIA ) (Revista Informática Julio Agosto 2006) Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase Introducción Los procesos de negocios que

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

POLITICA DE PRIVACIDAD. www.tuboleta.com

POLITICA DE PRIVACIDAD. www.tuboleta.com http://vive.tuboleta.com/content/privatepolicy.aspx POLITICA DE PRIVACIDAD Tu Boleta respeta la privacidad de todos sus clientes y contactos comerciales, y está comprometido a salvaguardar la información

Más detalles

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados

Más detalles

Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web

Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web Virtual-C: Una Herramienta para Administración de Contenidos en Sitios Web Kexy Rodríguez kexy.rodriguez@utp.ac.pa Centro de Investigación, Postgrado y Extensión UTPVirtual Universidad Tecnológica de Panamá

Más detalles

ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS

ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS Base de Datos ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS Una base de datos es un conjunto de elementos de datos que se describe a sí mismo, con relaciones entre esos elementos, que presenta

Más detalles

Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos. Unidad didáctica 1: Fase de análisis de requisitos Modelo E/R

Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos. Unidad didáctica 1: Fase de análisis de requisitos Modelo E/R índice Módulo A Unidad didáctica 1: Introducción a las Bases de Datos Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos 3 19 Módulo B Unidad didáctica 1: Fase de análisis de requisitos Modelo

Más detalles

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el Capitulo II. Análisis de herramientas y tecnologías de desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el lenguaje de Modelo de Objetos llamado UML (Unified

Más detalles

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes

Más detalles

Sistemas Estratégicos de Análisis de Audiencia en Internet

Sistemas Estratégicos de Análisis de Audiencia en Internet Sistemas Estratégicos de Análisis de Audiencia en Internet Por: Fernando Cayuela Fernández. Empresa: REGISTRO, S.A. La audiencia en Internet depende de : - Posicionamiento - Usabilidad - Contenidos - Diseño

Más detalles

Diego Mauricio Cortés Quiroga

Diego Mauricio Cortés Quiroga Diego Mauricio Cortés Quiroga 1150209 Instalación del Servicio SQUID (proxy transparente) en Fedora 17 Qué es SQUID? Es un popular programa de software libre que implementa un servidor proxy y un dominio

Más detalles

INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE MEDICINA Academia de Informática Médica Laboratorio de Informática Médica Internet Explorer

INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE MEDICINA Academia de Informática Médica Laboratorio de Informática Médica Internet Explorer Introducción INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE MEDICINA Academia de Informática Médica Laboratorio de Informática Médica Internet Explorer Internet Explorer es el navegador Web de Microsoft

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Módulo I - Excel. Conociendo la aplicación de Excel... 2. Abriendo una planilla de Excel... 2. Entendiendo el concepto de Libro, hoja y celda...

Módulo I - Excel. Conociendo la aplicación de Excel... 2. Abriendo una planilla de Excel... 2. Entendiendo el concepto de Libro, hoja y celda... Módulo I - Excel Índice Conociendo la aplicación de Excel... 2 Abriendo una planilla de Excel... 2 Entendiendo el concepto de Libro, hoja y celda... 3 Creando el primer libro... 4 Saliendo de Excel...

Más detalles

Servidores web. Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis

Servidores web. Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis Servidores web Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis Servidores web 2 SERVIDOR En informática, un servidor es un tipo de software que realiza ciertas tareas en nombre de los usuarios.

Más detalles

Creación y administración de grupos de dominio

Creación y administración de grupos de dominio Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia

Más detalles

Componentes de Integración entre Plataformas Información Detallada

Componentes de Integración entre Plataformas Información Detallada Componentes de Integración entre Plataformas Información Detallada Active Directory Integration Integración con el Directorio Activo Active Directory es el servicio de directorio para Windows 2000 Server.

Más detalles

CAPÍTULO 4 ANÁLISIS Y DISEÑO: e-commerce CONSTRUCTOR

CAPÍTULO 4 ANÁLISIS Y DISEÑO: e-commerce CONSTRUCTOR CAPÍTULO 4 ANÁLISIS Y DISEÑO: e-commerce CONSTRUCTOR En este capítulo se describe el análisis y diseño de un sistema, denominado e-commerce Constructor, el cual cumple con los siguientes objetivos: Fungir

Más detalles

Implementación, aprovisionamiento y actualización de Windows Server con System Center

Implementación, aprovisionamiento y actualización de Windows Server con System Center Implementación automatizada y centralizada, aprovisionamiento y actualización de Windows Server La implementación y el mantenimiento de Windows Server en sistemas operativos de centros de datos y entornos

Más detalles

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción Dato: Hecho o valor a partir del cual se puede inferir una conclusión.

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Sistema de análisis de información. Resumen de metodología técnica

Sistema de análisis de información. Resumen de metodología técnica Sistema de análisis de información Resumen de metodología técnica Tabla de Contenidos 1Arquitectura general de una solución de BI y DW...4 2Orígenes y extracción de datos...5 2.1Procesos de extracción...5

Más detalles

Manual de Operación SUCURSAL

Manual de Operación SUCURSAL Manual de Operación SUCURSAL Contenido: Manual de operación del software de gestión de pedidos IDENTEL para Sucursales Grido. Versión Manual: 1.1 Versión Software: 1.0.0.15 Fecha Elaboración.: 11/12/2007

Más detalles

Módulo II Unidad Didáctica 2

Módulo II Unidad Didáctica 2 Módulo II Unidad Didáctica 2 Introducción Una vez que el sitio está desarrollado y hemos cumplido con todas las etapas para su diseño es necesario incorporar algunos conceptos que nos permitan comprender

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

LA ADMINISTRACIÓN ON-LINE. CONSULTA DE DATOS USANDO ASP.

LA ADMINISTRACIÓN ON-LINE. CONSULTA DE DATOS USANDO ASP. LA ADMINISTRACIÓN ON-LINE. CONSULTA DE DATOS USANDO ASP. Luis Antonio Álvarez Dpto. de Información Geográfica Servicio de Urbanismo Excmo. Ayuntamiento de Cáceres José Luis Herrero, Fabiola Lucio Departamento

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

1. Introducción... 3 2. Perfiles de Usuarios... 3 2.1 Definir el primer perfil... 3 3. Añadir perfiles... 6 4. Introducción a Internet... 7 4.1.

1. Introducción... 3 2. Perfiles de Usuarios... 3 2.1 Definir el primer perfil... 3 3. Añadir perfiles... 6 4. Introducción a Internet... 7 4.1. 1. Introducción... 3 2. Perfiles de Usuarios... 3 2.1 Definir el primer perfil... 3 3. Añadir perfiles... 6 4. Introducción a Internet... 7 4.1. World Wide Web... 8 4.2. Las páginas web... 8 4.3.1. Los

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

Recursos en Internet

Recursos en Internet Recursos en Internet Objetivos Identificar las herramientas que permiten buscar recursos de información en Internet. Aplicar estrategias de búsqueda de información en Internet. Aplicar criterios para evaluar

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

EJEMPLO. Práctica de clustering

EJEMPLO. Práctica de clustering Práctica de clustering Preparación de los ficheros binarios Para operar los ficheros binarios se ha utilizado una aplicación en Delphi que permite montar los ficheros ".arff" que usa Weka. La aplicación

Más detalles

Capítulo 2 Tecnología data warehouse

Capítulo 2 Tecnología data warehouse Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de

Más detalles

computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente.

computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente. Investigar Qué es un IIS? Internet Information Services o IIS es un servidor web y un conjunto de servicios para el sistema operativo Microsoft Windows. Originalmente era parte del Option Pack para Windows

Más detalles

INTERNET - INTRANET - EXTRANET

INTERNET - INTRANET - EXTRANET INTERNET - INTRANET - EXTRANET Definiciones Internet es "una red de computación de alcance mundial constituida a su vez por miles de redes de computación que conectan entre sí millones de computadoras,

Más detalles

MENSAREX: SISTEMA DE MENSAJERÍA DEL MINREX Gretel García Gómez gretel@minrex.gov.cu Ministerio de Relaciones Exteriores Cuba.

MENSAREX: SISTEMA DE MENSAJERÍA DEL MINREX Gretel García Gómez gretel@minrex.gov.cu Ministerio de Relaciones Exteriores Cuba. MENSAREX: SISTEMA DE MENSAJERÍA DEL MINREX Gretel García Gómez gretel@minrex.gov.cu Ministerio de Relaciones Exteriores Cuba Resumen El presente trabajo da solución a dos de los problemas informáticos

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)

Más detalles

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red.

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red. Funciones de servidor La familia Windows Server 2003 ofrece varias funciones de servidor. Para configurar una función de servidor, instale dicha función mediante el Asistente para configurar su servidor;

Más detalles

Registro Documental Automático (RDA). Integración Mensajería y Outlook

Registro Documental Automático (RDA). Integración Mensajería y Outlook El módulo de Registro Documental Automático (RDA) para Dynamics AX, permite la simplificación y Registro Documental Automático (RDA). Integración Mensajería y Outlook automatización de las acciones relacionadas

Más detalles

Convivencia. Gestión del Sistema de Archivos

Convivencia. Gestión del Sistema de Archivos Convivencia Gestión del Sistema de Archivos Dra. Carolina Carolina Mañoso Mañoso Dpto. Dpto. Imformática Informática y y Automática.UNED Introducción Se necesitan tres condiciones para el almacenamiento

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

SERVICIO CREA TU WEB TELEFÓNICA NET. (Manual de usuario)

SERVICIO CREA TU WEB TELEFÓNICA NET. (Manual de usuario) SERVICIO CREA TU WEB TELEFÓNICA NET (Manual de usuario) 1 ÍNDICE 1. INTRODUCCIÓN... 3 2. CÓMO CREAR UNA TIENDA... 4 Paso 1: registro nuevo comerciante... 4 Paso 2: datos básicos web.... 5 Paso 3: diseño

Más detalles

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para Empresas en Crecimiento Portfolio SAP BusinessObjects Soluciones SAP para Empresas en Crecimiento Resumen Ejecutivo Inteligencia

Más detalles

VISIÓN GENERAL HERRAMIENTAS COMERCIALES

VISIÓN GENERAL HERRAMIENTAS COMERCIALES VISIÓN GENERAL El servidor de MS SQL se ha convertido en un estándar en muchas partes de la América corporativa. Puede manejar volúmenes de datos grandes y se integra bien con otros productos de Microsoft.

Más detalles

SOLUCIÓN SITUACIÓN ACTUAL

SOLUCIÓN SITUACIÓN ACTUAL SITUACIÓN ACTUAL La necesidad de las organizaciones de ser más competitivas en un mercado dinámico ha generado estructuras organizacionales complejas y exigentes en términos de calidad y eficiencia. Sobre

Más detalles

Windows Server 2003. Windows Server 2003

Windows Server 2003. Windows Server 2003 Windows Server 2003 Windows Server 2003 Es un sistema operativo de la familia Windows de la marca Microsoft para servidores que salió al mercado en el año 2003. Está basada en tecnología NT y su versión

Más detalles

bienvenidos a la ley online ciencias juridicas

bienvenidos a la ley online ciencias juridicas bienvenidos a la ley online ciencias juridicas Una nueva versión que incorpora herramientas inteligentes y opciones adaptadas a las necesidades de los profesionales, para trabajar en forma más eficiente.

Más detalles

MANUAL DE USUARIO Libro de Clases Electrónico

MANUAL DE USUARIO Libro de Clases Electrónico MANUAL DE USUARIO Libro de Clases Electrónico Tabla de Contenidos 1.- Introducción... 3 1.1.- Definiciones y Acrónimos... 3 2.- Aplicaciones del sistema... 5 2.1.- Asistencia SENCE... 5 2.2.- Libro de

Más detalles

Replicación de Datos en SQL Server... 3. Resumen... 3. 1. Introducción... 3. 2. Componentes del modelo de replicación... 3

Replicación de Datos en SQL Server... 3. Resumen... 3. 1. Introducción... 3. 2. Componentes del modelo de replicación... 3 REPLICACIÓN DE DATOS EN SQL SERVER CONTENIDO Replicación de Datos en SQL Server... 3 Resumen... 3 1. Introducción... 3 2. Componentes del modelo de replicación... 3 3. Escenarios típicos de la replicación...

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

Simulador de Protocolos de Red a tráves de WEB

Simulador de Protocolos de Red a tráves de WEB Simulador de Protocolos de Red a tráves de WEB Propuesta de Estudio 20071608 Director Ing. Francisco Antonio Polanco Montelongo Resumen Introducción Actualmente, el desarrollo tecnológico a alcanzado niveles

Más detalles

CUMPLIR CON LA LEY DE COOKIES EN 5 PASOS

CUMPLIR CON LA LEY DE COOKIES EN 5 PASOS CUMPLIR CON LA LEY DE COOKIES EN 5 PASOS Resumen: Desde Adigital hemos elaborado el siguiente documento donde podrás encontrar una serie de ideas simples y básicas para ayudarte en el cumplimiento de la

Más detalles

Manual de Utilización de CU Clasificados

Manual de Utilización de CU Clasificados Manual de Utilización de CU Clasificados Qué es Cu Clasificados? Se trata de una iniciativa pionera en el sector solidario, mediante la cual se tendrá la posibilidad de publicitar en el portal todo lo

Más detalles

INTERNET. ISI Prof. Carla M. Mansilla Informática Básica - FCA

INTERNET. ISI Prof. Carla M. Mansilla Informática Básica - FCA INTERNET es la red de redes, es decir, es la suma de interredes conectadas entre sí, sin importar el lugar geográfico en que se encuentren. Por ella circulan constantemente cantidades increíbles de información.

Más detalles

Terminología utilizada en internet

Terminología utilizada en internet Terminología utilizada en internet Arroba: Carácter "@", utilizado en las direcciones de correo electrónico para separa el nombre del usuario y el nombre de dominio de la computadora. Equivale a la palabra

Más detalles

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21. 1/21 Instalación Interfaz gráfico Requerimientos Proceso de instalación Pantalla de login Pantalla principal Descripción de los frames y botones Programación de Backups Botones generales Botones de programación

Más detalles

Introducción. Minería de datos (data mining): Minería de la Web (Web mining): Técnicas de Crawling

Introducción. Minería de datos (data mining): Minería de la Web (Web mining): Técnicas de Crawling unidad I unidad II Introducción Historia de la Web Motivación para la minería de la Web Recuperación de la información Caracterización formal de modelos de recuperación de la información Métodos clásicos

Más detalles

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II Carlos A. Olarte Bases de Datos II Contenido 1 Introducción 2 OLAP 3 Data Ware Housing 4 Data Mining Introducción y Motivación Cómo puede analizarse de forma eficiente volúmenes masivos de datos? La consulta,

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

HERRAMIENTAS DE ACCESS ACCESS 2010. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

HERRAMIENTAS DE ACCESS ACCESS 2010. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE HERRAMIENTAS DE ACCESS ACCESS 2010 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE HERRAMIENTAS DE ACCESS En esta unidad veremos algunas de las herramientas incorporadas de Access que

Más detalles

Materia: Informática. Nota de Clases Sistemas de Numeración

Materia: Informática. Nota de Clases Sistemas de Numeración Nota de Clases Sistemas de Numeración Conversión Entre Sistemas de Numeración 1. EL SISTEMA DE NUMERACIÓN 1.1. DEFINICIÓN DE UN SISTEMA DE NUMERACIÓN Un sistema de numeración es un conjunto finito de símbolos

Más detalles

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios INTRODUCCION Tema: Protocolo de la Capa de aplicación. FTP HTTP Autor: Julio Cesar Morejon Rios Qué es FTP? FTP (File Transfer Protocol) es un protocolo de transferencia de archivos entre sistemas conectados

Más detalles

Nombre de producto. Dexon Document Manager

Nombre de producto. Dexon Document Manager Nombre de producto Dexon Document Manager EL PRODUCTO ADECUADO PARA EL CONTROL TOTAL DEL CICLO DE VIDA DE SUS DOCUMENTOS O ARCHIVOS, DESDE SU CREACIÓN, PASANDO POR CADA UNA DE SUS ETAPAS EN EL SERVICIO.

Más detalles