Web Mining: Estado Actual de Investigación
|
|
- Mariano Miguélez del Río
- hace 8 años
- Vistas:
Transcripción
1 Autor Lic. Gustavo D. Koblinc Web Mining: Estado Actual de Investigación En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicación de las técnicas de Data Mining sobre los datos contenidos en la World Wide Web. De esta definición se deriva que Web Mining es simplemente aprovechar las técnicas de Data Mining para obtener conocimiento de la información disponible en Internet. Las motivaciones que despertaron la investigación en este campo es el gran volumen de datos con el que se cuenta, las posibilidades de negocios, la actual dificultad en acceder a la información precisa ya que esta se encuentra dispersa y desordenada, y la necesidad de mejorar la performance de los servicios brindados por la red. En algunos casos se deben adaptar las técnicas conocidas de Data Mining para utilizarlas en este entorno, aunque en otros deben adaptarse los datos para que puedan ser utilizados. Pueden observarse dos enfoques bien diferenciados sobre los diferentes desarrollos e investigaciones realizadas: el primer enfoque apunta a realizar mining en el lado del servidor, específicamente sobre los datos que son depositados por los Web Servers; el segundo enfoque está más orientado a los clientes y esta basado en agentes que buscan datos sobre toda la Web y luego aplican las técnicas de mining sobre estos. El primero de estos enfoques aplica mining sobre los datos que dejan, en distintos tipos de logs, los Servidores de Web. Analizar esta información puede ayudar principalmente a empresas que basan su negocio en Internet determinando los tipos de clientes que ingresan, diseñar estrategias de marketing sobre productos y servicios, evaluar la efectividad de las campañas promocionales, mejorar tiempos de acceso y buscar la mejor estructura para el site. El segundo se basa en aplicar mining sobre documentos obtenidos de la red. Esto permite mejorar la búsqueda de información, generar perfiles de usuarios adecuados a sus necesidades y organizar bookmarks entre otras cosas. Cada uno de estos enfoques presenta ventajas y desventajas que luego serán analizadas. 1
2 4.1- Web Mining en Servidores de Web Actualmente los servidores de Web generan un gran volumen de datos proveniente del registro de las acciones que estos realizan. Cada requerimiento de los clientes (browsers, agentes, etc.) queda registrado en los logs que se generan constantemente. Este gran volumen de datos contiene valiosa información que no es visible de forma evidente, y que hasta hace poco era utilizada mínimamente para obtener algún tipo de estadísticas, analizar accesos inválidos o problemas que se produjeran en el servidor. Existen numerosas herramientas que generan reportes estadísticos y gráficos sobre el uso del servidor, de las cuales podemos destacar algunos productos conocidos como Webtrends, Getstats, Analog, Microsoft Intersé Market Focus, etc. Ninguna de estas herramientas realiza data mining de los datos. No se aplica ni clustering, ni association rules, aún menos sequential patterns. Con una herramienta de data mining se podría descubrir, por ejemplo, que en general los clientes que realizan compras on-line en el servidor habían consultado ciertas páginas los días anteriores. Con una herramienta estadística se podrían obtener por ejemplo totales por dominio, cantidad de requerimientos por recurso, etc. En este momento, debido a la gran cantidad de negocios que se manejan por Internet, la gran competencia y la creciente necesidad de mejorar los servicios, el análisis de los datos que se obtienen para convertirlos en información útil se torna imprescindible para poder sobrevivir en este ambiente competitivo. Es necesario conocer el comportamiento de los usuarios (potenciales clientes) y brindarles un acceso más fácil y un mejor servicio así como también saber hacia quien orientar las campañas promocionales. Además aprovechar esta información puede ser muy útil para mejorar la performance de los servidores. Actualmente, hay varias herramientas desarrolladas que aplican mining en el servidor, tanto a nivel comercial como académico. Del análisis de las mismas, se observa que en general todas aplican el proceso de KDD sobre el log del servidor aunque lo hacen con algunas diferencias. Los datos almacenados en los logs siguen un formato standard diseñado por CERN y NCSA [Luotonen, 1995]. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (, ) y cada acceso es un renglón distinto. 2
3 peo-il1-21.ix.netcom.com - - [24/Feb/1997:00:00: ] "GET /images/nudge.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" slip wv.us.ibm.net - - [24/Feb/1997:00:00: ] "GET / HTTP/1.0" " "Mozilla/2.0 (Win95; I)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/3_a.html HTTP/1.0" " "Mozilla/3.0 (Win95; I)" peo-il1-21.ix.netcom.com -- [24/Feb/1997:00:00: ] "GET /images/isbutton.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/images/fea_a.gif HTTP/1.0" " "Mozilla/3.0 (Win95; I)" Ejemplo de entradas del log de NCSA HTTPd Estos datos contenidos en los logs son insuficientes para analizarlos directamente. Sin embargo utilizando una buena técnica de data mining se puede obtener información interesante. Como fue mencionado anteriormente, se genera una entrada en el log por cada requerimiento de un recurso realizado por un usuario. Aunque esto puede reflejar la actividad del servidor no refleja el verdadero comportamiento de los clientes, debido a que las vueltas atrás y a que los requerimientos que se encuentran cacheados por el browser del cliente o por un proxy no son registrados en el server. Tampoco son registradas las funciones que el usuario realiza dentro de una página como por ejemplo el scroll-up y scroll-down. Este déficit en la información puede generar conclusiones erróneas al estudiar la mejor estructura para un site. Por ello dicha información debería ser registrada en logs generados por los browsers o por una applet Java. A este déficit de información se suma que el identificador de usuario no siempre está disponible en el log. Debido al uso de proxy servers por parte de los proveedores del servicio de Internet y de firewalls por parte de las corporaciones comerciales, la verdadera dirección IP del cliente no se encuentra disponible para 3
4 el servidor de web. En vez de tener varias direcciones IP distintas para varios clientes distintos, la misma dirección del proxy server o firewall es guardada en el log representando los requerimientos de diferentes usuarios que llegan al servidor desde el mismo proxy server o firewall. Esto genera cierta ambigüedad en los datos del log. Para solucionar este problema, generalmente se requiere que los usuarios completen un formulario de registración, se implementa algún tipo de log-in o se utilizan cookies entre el servidor y el browser del cliente. De esta manera, el servidor puede identificar distintos requerimientos realizados por los usuarios, pero se viola la privacidad de los mismos ya que gereralmente ellos desean permanecer anónimos lo más que se pueda. Por este motivo, los servidores no solicitan registraciones ni utilizan cookies; por lo tanto el análisis para identificar el comportamiento de los usuarios debe basarse sólo en las entradas del log El Proceso de Knowledge Discovery Antes de aplicar cualquier técnica de data mining es necesario realizar una transformación de los datos para que éstos puedan ser operados eficientemente. A este proceso se lo conoce como el proceso de Knowledge Discovery. En el marco de dicho proceso se filtrarán datos que no interesan y en general se transformará el log en una estructura más manipulable (por ejemplo una base de datos relacional). Es necesario el conocimiento de la estructura del Web server para poder determinar a partir de los accesos cual es la acción que quiere realizar el usuario. Se han encontrado diferentes enfoques de cómo realizar este proceso que abarcan desde el filtrado o no de pedidos de recursos multimedia, la conversión de un conjunto de requerimientos en la supuesta acción requerida por el usuario llegando hasta la creación de un cubo n-dimensional. Para poder aplicar las técnicas de data mining sobre los datos del log del servidor es necesario, además de aplicar las transformaciones en los datos típicas del proceso de KDD, realizar una adaptación en la definición de las transacciones y los ítems que las componen para los distintos algoritmos. Esto se debe a que en este caso no se tiene la noción de transacción como en una base de datos transaccional en donde existe un identificador de transacción. Aquí para poder delimitar una transacción se debe utilizar por ejemplo una combinación entre el identificador del usuario que interactua con el servidor y un período máximo de tiempo aceptado entre accesos. Por ejemplo si un usuario accede a una página del servidor a las 9:00 hs, y hasta las 9:15 hs navega dentro del site; y luego vuelve a acceder por la tarde, esto es considerado como dos transacciones distintas. Cada herramienta utiliza su propios modelos de transacción y de ítems, aunque en general estos modelos son similares entre sí. 4
5 Técnicas de Data Mining En el Web Mining en los servidores de Web es posible aplicar cualquiera de las técnicas de data mining conocidas, por ejemplo Association Rules, Sequential Patterns, Clasificación o Clustering; cada una de las cuales serán analizadas a continuación Association Rules El descubrimiento de association rules es generalmente aplicado a Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica (con un grado de confianza) la presencia de otros ítems. En el contexto de Web Mining este problema tiende a descubrir la correlación entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transacción está compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor. Utilizando association rules, se puede descubrir, por ejemplo, lo siguiente: 60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html. Esta técnica, además, considera el soporte para las reglas encontradas. El soporte es una medida basada en el número de ocurrencias de los ítems dentro del log de transacciones. En Web Mining existen otros factores que pueden ayudar a podar el espacio de búsqueda de las reglas. En general, los sites están organizados jerárquicamente y la estructura de esta jerarquía es conocida con anticipación. Por ejemplo, si el soporte de /company/products/ es bajo, se puede inferir que la búsqueda de association rules en las páginas /company/products/product1.html y /company/products/product2.html no van a tener el soporte necesario. El descubrimiento de estas reglas en el ámbito del comercio electrónico pueden ayudar en el desarrollo de las estrategias de marketing. Además las association rules pueden ayudar a mejorar la organización de la estructura del site. Por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta 5
6 información debería ser movida a /company/products para aumentar el acceso a file2.html Sequential Patterns En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. Con esto, se puede determinar por ejemplo: 60% de los clientes que emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso). En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen Clasificación y Clustering Las técnicas de clasificación permiten desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. 6
7 En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: Clientes que frecuentemente emiten una orden on-line en /company/products/product3.html tienden a ser de instituciones educativas. 50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering. La utilización de la técnica de clustering sobre el log del Web Server, puede ser utilizado para estrategias de marketing dirigido según las clases obtenidas. Por ejemplo si se reconoce un grupo de potenciales clientes se les podría enviar las ofertas por correo sólo a ellos Beneficios y Problemas En general aplicar técnicas de data mining sobre el log de los servidores puede brindar las siguientes ventajas: Mejorar la performance del servidor Mejorar la navegabilidad del site Mejorar el diseño de las aplicaciones del Web Descubrir potenciales clientes de comercio electrónico Identificar lugares y horarios principales para colocar publicidades Actualmente existen varios problemas que afectan a la exactitud de los resultados obtenidos al realizar el análisis. Entre ellos podemos destacar: Imposibilidad de registrar los accesos a páginas cacheadas o descubrir fehacientemente el uso del backtracking u otras funcionen del browser Dificultades en delimitar transacciones o sesiones del usuario 7
8 Datos ambiguos en el log debido a cambios de identidad realizados por proxys y firewalls Estructura de los logs no adecuada para aplicar las técnicas de data mining Como se puede ver, actualmente los logs no almacenan toda la información necesaria para hacer un buen análisis. Debido a que hace poco se comenzó con la aplicación de estas técnicas de data mining, logrando importantes avances, es de esperar que muy pronto se produzcan mejoras como la mayor cooperación entre browsers y servidores y posiblemente la adecuación de la estructura de los logs para que éstos puedan ser analizados más eficientemente. Quizás, en el futuro, se puede lograr la aplicación de data mining on-line para adaptar rápidamente la estructura y la imagen de los servidores de acuerdo a las necesidades del momento. Mientras tanto se debe encontrar la mejor manera de aprovechar los datos insuficientes y ambiguos con que se cuenta. Para ello es muy importante realizar un buen proceso de KDD aprovechando el conocimiento que se tenga sobre el dominio de la aplicación Web Mining en Clientes de Web El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario Agentes Inteligentes Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. 8
9 En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: Agentes de Búsqueda Inteligentes: Buscan información relevante utilizando las características de un dominio (y quizás un perfil de usuario) en particular para organizar e interpretar la información descubierta. Por ejemplo FAQ-Finder ([Hammond, 1995]). Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher Diferencias entre un Documento Web y un Hipertexto Clásico La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico ([Spertus, 1997]). Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a que tipo pertenecen. Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. 9
10 Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino ([Spertus, 1997]) Técnicas de Data Mining En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (ver [Han, 1998] y [Moore, 1998]). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos ([Broder, 1997]). Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. 10
11 Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones Nuevos Métodos de Clustering Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente ARHP: Association Rules Hypergraph Partitioning ([Broder, 1997]) En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. 11
12 Principal Component Analysis (PCA) Partitioning Algorithm ([Broder, 1997]) En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters Syntactic Clustering ([Han, 1998]) Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal) } Dados dos documentos A y B se define la similitud entre ellos como: r (A,B) = S (A) S(B) S (A) S(B) También podemos definir el grado de contención como: c (A,B) = S (A) S(B) S (A) Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. El algoritmo funciona de la siguiente manera: Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de 12
13 documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster Beneficios y Problemas En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: No dependen de la elección de la función de distancia No son sensitivos a las dimensiones de los datos Son linealmente escalables La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda Conclusiones sobre Web Mining Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. 13
14 Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le avise al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar donde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma on-line. Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener siempre actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todos el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varía constantemente. Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los 14
15 buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida. Bibliografía [Broder, 1997] A. Broder, S. Glassman, M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science University of California, Berkeley [Hammond, 1995] K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation. In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, [Han, 1996] Han J., WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University [Han, 1998] E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar, B. Mobasher & J. Moore, WebACE: A Web Agent for Document Categorization and Exploration. Department of Computer Science and Engineering University of Minesota [Luotonen, 1995] A. Luotonen, The Common Log File Format [Moore, 1998] J. Moore, E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar & B. Mobasher, Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering. Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis [Spertus, 1997] 15
16 E. Spertus, ParaSite: Mining Structural Information on the Web. MIT Artificial Inteligence Lab and University of Washington Dept. of CSE
CONSIDERACIONES GENERALES DEL WEB MINING
CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los
Más detallesMineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Más detallesSistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining
Revista Tecnológica ESPOL, Vol. xx, N. xx, pp-pp, (Mes, 200x) Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Patricio Alcivar 1, Fanny Idrovo 2, Víctor Macas
Más detallesCatoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final
Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de
Más detallesIntroducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas
Más detallesPropuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA
Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)
Más detallesUtilidades de la base de datos
Utilidades de la base de datos Desde esta opcion del menú de Access, podemos realizar las siguientes operaciones: Convertir Base de datos Compactar y reparar base de datos Administrador de tablas vinculadas
Más detallesMódulo I Unidad Didáctica 2
Módulo I Unidad Didáctica 2 Introducción Tal como un periódico, por ejemplo, no es sólo una colección de artículos, un sitio Web no puede ser simplemente una colección de páginas. Qué se busca al diseñar
Más detallesCreación y administración de grupos de dominio
Creación y administración de grupos de dominio Contenido Descripción general 1 a los grupos de Windows 2000 2 Tipos y ámbitos de los grupos 5 Grupos integrados y predefinidos en un dominio 7 Estrategia
Más detallesBase de datos en Excel
Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de
Más detallesUn primer acercamiento a la CMDB.
Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com
Más detallesEstas visiones de la información, denominadas vistas, se pueden identificar de varias formas.
El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los
Más detallesIngeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007
Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el
Más detallesTEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín
TEMA 4: EMPEZANDO A ESCUELA UNIVERSITARIA DE INFORMÁTICA NAVEGAR Raúl Martín Martín SERVICIOS DE INTERNET SERVICIOS DE INTERNET Las posibilidades que ofrece Internet se denominan servicios. Hoy en día,
Más detallesCapítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas
Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes
Más detallesPor: Ing. Hernán Cárdenas y Ing. Franco Di Biase
EL APORTE TECNOLÓGICO A LA GESTIÓN DOCUMENTAL ( CASO CORRESPONDENCIA ) (Revista Informática Julio Agosto 2006) Por: Ing. Hernán Cárdenas y Ing. Franco Di Biase Introducción Los procesos de negocios que
Más detallesWindows Server 2012: Infraestructura de Escritorio Virtual
Windows Server 2012: Infraestructura de Escritorio Virtual Módulo 1: Application Virtualization Módulo del Manual Autores: James Hamilton-Adams, Content Master Publicado: 5 de Octubre 2012 La información
Más detallesInstalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.
1/21 Instalación Interfaz gráfico Requerimientos Proceso de instalación Pantalla de login Pantalla principal Descripción de los frames y botones Programación de Backups Botones generales Botones de programación
Más detallesManual del Usuario. Sistema de Help Desk
Manual del Usuario Sistema de Help Desk Objetivo del Manual El siguiente manual tiene como objetivo proveer la información necesaria para la correcta utilización del sistema Help Desk. Describe los procedimientos
Más detallesConciliación bancaria en CheqPAQ Cargado de estado de cuenta
Conciliación bancaria en CheqPAQ Cargado de estado de cuenta Introducción Con la finalidad de mantenerte informado respecto a todos los cambios y mejoras de los productos de CONTPAQ i, ponemos a tu disposición
Más detallesBASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación
UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto
Más detallesSistema de Gestión Portuaria Sistema de Gestión Portuaria Uso General del Sistema
Sistema de Gestión Portuaria Uso General del Sistema Uso General del Sistema Página 1 de 21 Contenido Contenido... 2 1.Ingreso al Sistema... 3 2.Uso del Menú... 6 3.Visualizar Novedades del Sistema...
Más detallesLINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN
LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN Tabla de Contenidos LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN... 1 Tabla de Contenidos... 1 General... 2 Uso de los Lineamientos Estándares...
Más detallesCOPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA
COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA Autor: Carlos Javier Martín González. Licenciado en Física Teórica por la Universidad Autónoma de Madrid. Analista programador y funcional. Desarrollador
Más detallesLa inteligencia de marketing que desarrolla el conocimiento
La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece
Más detallesARQUITECTURA DE DISTRIBUCIÓN DE DATOS
4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia
Más detallesUNIDADES DE ALMACENAMIENTO DE DATOS
1.2 MATÉMATICAS DE REDES 1.2.1 REPRESENTACIÓN BINARIA DE DATOS Los computadores manipulan y almacenan los datos usando interruptores electrónicos que están ENCENDIDOS o APAGADOS. Los computadores sólo
Más detallesAcronis License Server. Guía del usuario
Acronis License Server Guía del usuario TABLA DE CONTENIDO 1. INTRODUCCIÓN... 3 1.1 Generalidades... 3 1.2 Política de licencias... 3 2. SISTEMAS OPERATIVOS COMPATIBLES... 4 3. INSTALACIÓN DE ACRONIS LICENSE
Más detallese-mailing Solution La forma más efectiva de llegar a sus clientes.
e-mailing Solution La forma más efectiva de llegar a sus clientes. e-mailing Solution Es muy grato para nosotros presentarles e-mailing Solution, nuestra solución de e-mail Marketing para su empresa. E-Mailing
Más detallesGuÍa rápida de uso. westlaw chile
GuÍa rápida de uso westlaw chile guía rápida de uso de westlaw chile Área legal como acceder Ingreso Para acceder a nuestra nueva plataforma de información, debe ingresar a nuestro sitio oficial www.puntolex.cl
Más detalles"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios
"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se
Más detallesMANUAL COPIAS DE SEGURIDAD
MANUAL COPIAS DE SEGURIDAD Índice de contenido Ventajas del nuevo sistema de copia de seguridad...2 Actualización de la configuración...2 Pantalla de configuración...3 Configuración de las rutas...4 Carpeta
Más detallesAutenticación Centralizada
Autenticación Centralizada Ing. Carlos Rojas Castro Herramientas de Gestión de Redes Introducción En el mundo actual, pero en especial las organizaciones actuales, los usuarios deben dar pruebas de quiénes
Más detallesMANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora
MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA Perfil Entidad Proveedora El objetivo del módulo de Gestión de Solicitudes vía Internet es facilitar el trabajo
Más detallesTABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.
TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.
Más detallesAdicionalmente, en función de su objetivo, las Cookies puedes clasificarse de la siguiente forma:
Cookies policy a) Utilización de Cookies y Web Bugs b) Tipología, finalidad y funcionamiento de las Cookies c) Cómo deshabilitar las Cookies y los Web Bugs en los principales navegadores d) Qué ocurre
Más detallesDiseño de bases de datos Diapositiva 1
Diseño o de bases de datos Objetivos del Diseño Principios del Diseño de BD Proceso de Diseño Normalización Diseño de Tablas: Claves Relaciones Integridad referencial Convenciones de nomenclatura Diseño
Más detallesBase de datos II Facultad de Ingeniería. Escuela de computación.
Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,
Más detallesAdelacu Ltda. www.adelacu.com Fono +562-218-4749. Graballo+ Agosto de 2007. Graballo+ - Descripción funcional - 1 -
Graballo+ Agosto de 2007-1 - Índice Índice...2 Introducción...3 Características...4 DESCRIPCIÓN GENERAL...4 COMPONENTES Y CARACTERÍSTICAS DE LA SOLUCIÓN...5 Recepción de requerimientos...5 Atención de
Más detallesInternet Information Server
Internet Information Server Internet Information Server (IIS) es el servidor de páginas web avanzado de la plataforma Windows. Se distribuye gratuitamente junto con las versiones de Windows basadas en
Más detallesGUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII
GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples
Más detallesModulo I. Introducción a la Programación Web. 1.1 Servidor Web.
Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados
Más detallesSAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento
SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para Empresas en Crecimiento Portfolio SAP BusinessObjects Soluciones SAP para Empresas en Crecimiento Resumen Ejecutivo Inteligencia
Más detallesCOMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS
COMPRAS CEPAS A TRAVÉS DE INTERNET PORTAL CEPAS Es un sistema que describe las funcionalidades claves a través de Internet. Se pueden efectuar las compras, ver la trazabilidad de los pedidos y visualizar
Más detallesOperación Microsoft Access 97
Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe
Más detallesÍndice INTERNET MARKETING 1
INTERNET MARKETING 1 Índice Manual de Google Analytics... 2 Qué es Google Analytics?... 2 Cómo funciona Google Analytics?... 2 Iniciar Sesión en Google Analytics... 3 Visualizar las estadísticas... 3 Resumen
Más detallesHERRAMIENTAS DE ACCESS ACCESS 2010. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE
HERRAMIENTAS DE ACCESS ACCESS 2010 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE HERRAMIENTAS DE ACCESS En esta unidad veremos algunas de las herramientas incorporadas de Access que
Más detallesRedes de área local: Aplicaciones y servicios WINDOWS
Redes de área local: Aplicaciones y servicios WINDOWS 4. Servidor DNS 1 Índice Definición de Servidor DNS... 3 Instalación del Servidor DNS... 5 Configuración del Servidor DNS... 8 2 Definición de Servidor
Más detallesSistemas de Gestión de Calidad. Control documental
4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4
Más detallese-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.
Comercio electrónico. (e-commerce) Las empresas que ya están utilizando la red para hacer comercio ven como están cambiando las relaciones de la empresa con sus clientes, sus empleados, sus colaboradores
Más detallesGUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000
1 INTRODUCCIÓN Dos de los objetivos más importantes en la revisión de la serie de normas ISO 9000 han sido: desarrollar un grupo simple de normas que sean igualmente aplicables a las pequeñas, a las medianas
Más detallesMinería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/
Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy
Más detallesServicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005
Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005 1. Acerca de este documento Este documento describe el servicio de estadísticas del que actualmente disfrutan algunas de las páginas
Más detallesINFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):
INFORMÁTICA IE MÓDULO INTERNET Términos a conocer y conceptos básicos World Wide Web (WWW): Digamos, simplemente, que es un sistema de información, el sistema de información propio de Internet. Sus características
Más detallesPortafolio de Servicios y Productos
Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios
Más detallesIntroducción a las redes de computadores
Introducción a las redes de computadores Contenido Descripción general 1 Beneficios de las redes 2 Papel de los equipos en una red 3 Tipos de redes 5 Sistemas operativos de red 7 Introducción a las redes
Más detallesIntroducción a las Redes de Computadoras. Obligatorio 2 2011
Introducción a las Redes de Computadoras Obligatorio 2 2011 Facultad de Ingeniería Instituto de Computación Departamento de Arquitectura de Sistemas Nota previa - IMPORTANTE Se debe cumplir íntegramente
Más detallesforma de entrenar a la nuerona en su aprendizaje.
Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo
Más detallesCAPÍTULO 3 Servidor de Modelo de Usuario
CAPÍTULO 3 Servidor de Modelo de Usuario Para el desarrollo del modelado del estudiante se utilizó el servidor de modelo de usuario desarrollado en la Universidad de las Américas Puebla por Rosa G. Paredes
Más detallesPROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO...
Tabla de Contenido PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO... 2 1. LA PRESENCIA DE INFORMACIÓN Y AYUDA ÚTIL PARA COMPLETAR LOS TRÁMITES EN LÍNEA.... 2 2. LA DISPONIBILIDAD DE DIVERSOS
Más detallesCapítulo 12: Indexación y asociación
Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación
Más detallesLa explicación la haré con un ejemplo de cobro por $100.00 más el I.V.A. $16.00
La mayor parte de las dependencias no habían manejado el IVA en los recibos oficiales, que era el documento de facturación de nuestra Universidad, actualmente ya es formalmente un CFD pero para el fin
Más detallesGESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD
GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD Manual de usuario 1 - ÍNDICE 1 - ÍNDICE... 2 2 - INTRODUCCIÓN... 3 3 - SELECCIÓN CARPETA TRABAJO... 4 3.1 CÓMO CAMBIAR DE EMPRESA O DE CARPETA DE TRABAJO?...
Más detalles1.4.1.2. Resumen... 1.4.2. ÁREA DE FACTURACIÓN::INFORMES::Pedidos...27 1.4.2.1. Detalle... 1.4.2.2. Resumen... 1.4.3. ÁREA DE
MANUAL DE USUARIO DE ABANQ 1 Índice de contenido 1 ÁREA DE FACTURACIÓN......4 1.1 ÁREA DE FACTURACIÓN::PRINCIPAL...4 1.1.1. ÁREA DE FACTURACIÓN::PRINCIPAL::EMPRESA...4 1.1.1.1. ÁREA DE FACTURACIÓN::PRINCIPAL::EMPRESA::General...4
Más detallesIndicaciones específicas para los análisis estadísticos.
Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por
Más detallesMANUAL DE USUARIO APLICACIÓN SYSACTIVOS
MANUAL DE USUARIO APLICACIÓN SYSACTIVOS Autor Edwar Orlando Amaya Diaz Analista de Desarrollo y Soporte Produce Sistemas y Soluciones Integradas S.A.S Versión 1.0 Fecha de Publicación 19 Diciembre 2014
Más detalles1 http://www.sencilloyrapido.com/
1 Contenido Introducción 3 Que son las encuestas pagadas por internet?. 5 Como ganar dinero con las encuestas pagadas por internet. 7 Pueden las encuestas pagadas generarte un ingreso decente?.. 9 Conclusión.
Más detallesComponentes de Integración entre Plataformas Información Detallada
Componentes de Integración entre Plataformas Información Detallada Active Directory Integration Integración con el Directorio Activo Active Directory es el servicio de directorio para Windows 2000 Server.
Más detallesIntroducción a Spamina
Spamina Introducción a Spamina El servicio de seguridad que se le ofrece al contratar el servicio de Exchange con Alestra es conocido como Spamina Cloud Email Firewall que protege de Spam, Virus y Phishing
Más detallesPOLITICA DE PRIVACIDAD. www.tuboleta.com
http://vive.tuboleta.com/content/privatepolicy.aspx POLITICA DE PRIVACIDAD Tu Boleta respeta la privacidad de todos sus clientes y contactos comerciales, y está comprometido a salvaguardar la información
Más detallesServicios y aplicaciones clave de la web 2.0
Servicios y aplicaciones clave de la web 2.0 Etiquetado y social bookmarking La web 2,0 ha permitido crear comunidades llamadas Social Bookmarking o marcadores sociales, las cuales son una forma en la
Más detallesAyuda En-línea para SIG
Sistema De Información Geográfica (SIG) de Republica Dominicana Ayuda En-línea para SIG Acerca de SIG SIG es una herramienta que facilita el proceso de revisión ambiental y la planificación de proyectos
Más detallesCentro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)
Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN
Más detallesTEMA 2: Representación de la Información en las computadoras
TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario
Más detallesII. Relación con Terceros
II. Relación con Terceros Introducción a la Relación con Terceros Los terceros se refieren a las entidades con las cuales se realizan transacciones en la organización. Hay tres tipos de terceros, están:
Más detallesSesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto
INFORMÁTICA INFORMÁTICA 1 Sesión No. 4 Nombre: Procesador de Texto Contextualización La semana anterior revisamos los comandos que ofrece Word para el formato del texto, la configuración de la página,
Más detallesCapítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable
Capítulo 3 Diseño del Sistema de Administración de Información de Bajo Costo para un Negocio Franquiciable 1. Introducción. El Sistema de Administración de Información de un Negocio Franquiciable (SAINF)
Más detallesTips & Buenas Prácticas. del Email Marketing POR QUÉ EMAIL MARKETING. Ventajas y desventajas del Email Marketing
Tips & Buenas Prácticas del Email Marketing POR QUÉ EMAIL MARKETING Ventajas y desventajas del Email Marketing (+5411) 3220.1410 info@perfit.com.ar www.perfit.com.ar Ventajas y Desventajas del Email Marketing
Más detallesCRM. Qué es CRM. Información para la Gestión
CRM Qué es CRM Es una estrategia de negocios orientada a la fidelización de clientes, enfocándose en que cada empleado de la empresa tenga información actualizada y confiable de los mismos, con el objetivo
Más detallesAlumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.
Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre. Tema: Sistemas Subtema: Base de Datos. Materia: Manejo de aplicaciones
Más detallesPRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE
PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,
Más detallesPOSICIONAMIENTO EN LA WEB (SEM Y SEO)
POSICIONAMIENTO EN LA WEB (SEM Y SEO) POSICIONAMIENTO EN LA WEB (SEM Y SEO) 1 Sesión No. 3 Nombre: Keywords Contextualización Qué son las Keywords? Debemos de tener en claro la definición de keywords para
Más detallesMaxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd
Maxpho Commerce 11 Gestión CSV Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd Índice general 1 - Introducción... 3 1.1 - El archivo CSV... 3 1.2 - Módulo CSV en Maxpho... 3 1.3 - Módulo CSV
Más detallesVentajas del almacenamiento de correo electrónico
Ventajas del almacenamiento de correo electrónico El correo electrónico no es solo uno de los medios de comunicación más importantes, sino también una de las fuentes de información más extensas y de mayor
Más detallesPlataforma e-ducativa Aragonesa. Manual de Administración. Bitácora
Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar
Más detallesSistemas de Información Geográficos (SIG o GIS)
Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos
Más detallesHost. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que
CONCEPTOS BASICOS. Usuario. Un usuario es toda persona que utilice una computadora. Host. En este texto, entenderemos por host toda máquina - léase computadora - conectada a InterNet. También se les llaman
Más detallesTutorial: Primeros Pasos con Subversion
Tutorial: Primeros Pasos con Subversion Introducción Subversion es un sistema de control de versiones open source. Corre en distintos sistemas operativos y su principal interfaz con el usuario es a través
Más detallesSERVIDORES LINUX. Elaborado por Ing. Fausto Rolando Félix C. Gerente General Corporación Powerfast Cía. Ltda. Quito Ecuador
SERVIDORES LINUX MANUAL BASICO DE ADMINISTRACION DE UNA RED LAN CON EL SERVIDOR DE COMUNICACIONES THUNDERCACHE REPORTE DE NAVEGACION DE USUARIOS SARG (SQUID-REPORTS) Elaborado por Ing. Fausto Rolando Félix
Más detallesQUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL?
QUÉ ACTIVIDADES PODEMOS HABILITAR EN EL CAMPUS VIRTUAL? En este tutorial presentamos los distintos tipos de actividades disponibles en el Campus Virtual UNER. Para agregar una actividad dentro de un tema:
Más detallesDiseño orientado al flujo de datos
Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos
Más detallesResumen. Funcionamiento. Advertencia
Resumen Módulo: Librería: IMPEXP.DLL Acoplable a: FactuCont 5, versiones monopuesto y red Descripción: Permite exportar datos de documentos, clientes, proveedores y artículos en un solo fichero para poder
Más detallesUnidad 1. Fundamentos en Gestión de Riesgos
1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.
Más detallesK2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2
K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.
Más detallesCaso práctico de Cuadro de Mando con Tablas Dinámicas
1 Caso práctico de Cuadro de Mando con Tablas Dinámicas Luis Muñiz Socio Director de SisConGes & Estrategia Introducción Hay una frase célebre que nos permite decir que: Lo que no se mide no se puede controlar
Más detallesLas Relaciones Públicas en el Marketing social
Las Relaciones Públicas en el Marketing social El marketing social es el marketing que busca cambiar una idea, actitud o práctica en la sociedad en la que se encuentra, y que intenta satisfacer una necesidad
Más detallesQué es una página web?, qué conoces al respecto?, sabes crear una página
Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual
Más detallesEJEMPLO. Práctica de clustering
Práctica de clustering Preparación de los ficheros binarios Para operar los ficheros binarios se ha utilizado una aplicación en Delphi que permite montar los ficheros ".arff" que usa Weka. La aplicación
Más detallesSistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández.
Sistema para el control y tramitación de documentos SITA MSc. María de la Caridad Robledo Gómez y Ernesto García Fernández. CITMATEL Ave 47 e/18 A y 20, Playa, Ciudad de La habana, CP 10300 Cuba. E mail:
Más detalles