Qué es Minería de Texto?

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Qué es Minería de Texto?"

Transcripción

1 MINERÍA DE TEXTO

2 Qué es Minería de Texto? encontrar regularidades interesantes en conjuntos de datos textuales enormes (Usama Fayad) donde interesante significad : no-trivial, escondido, previamente desconocido y potencialmente útil. encontrar información semántica y abstracta de la forma superficial a los datos textuales

3 Qué áreas están activas en el análisis de datos de procesamiento de texto?

4 Por qué texto es difícil? (M.Hearst 97) Conceptos abstractos son difíciles de representar. Incontables combinaciones de sutilezas, Relaciones abstractas entre conceptos. Muchas formas de representar conceptos similares E.g. nave especial, objeto volador, UFO Conceptos son difíciles de visualizar Alta dimensionalidad Decenas o cientos de miles de características

5 Por qué texto es fácil? Data altamente redundante la mayoría de los métodos cuentan sobre esta propiedad Cualquier simple algoritmo puede conseguir Buenos resultados para tareas simples: Extraer (Pull out) frases importantes. Encontrar palabras relacionadas significativas. Crear algún tipo de resumen de documentos.

6 Niveles de Procesamiento de Texto 1/6 Nivel Palabra Propiedades de palabras. Stop-Words. Origen (Stemming). N-Gramos frecuentes. Thesaurus (WordNet) Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

7 Propiedades de Palabra Relaciones entre palabras, formas superficiales y sus sentidos: Homonomía: misma forma, pero diferente significado (e.g. banco: banco rio, institución financiera). Polisemia: misma forma, significado relacionado (e.g. banco: banco de sangre, institución financiera). Sinonimia: formas diferentes, significado igual (e.g. cantante, vocalista). Hiponimia: una palabra denota una sub clase de otra (e.g. desayuno, comida) Frecuencias de Palabras tiene distribuciones importantes: pequeño número de palabras muy frecuentes. gran número de palabras de poca frecuencia

8 Stop-words Stop-words son palabras que desde el punto de vista no linguístico no traen información importante. tienen principalmente un rol functional. usualmente las removemos para ayudar a los métodos funcionar mejor Dependencia natural del lenguaje: Inglés: A, ABOUT, ABOVE, ACROSS, AFTER, AGAIN,AGAINST, ALL, ALMOST, ALONE, ALONG, ALREADY, ALSO,... Slovenio: A, AH, AHA, ALI, AMPAK, BAJE, BODISI, BOJDA,BRŽKONE, BRŽCAS, BREZ, CELO, DA, DO,... Croata: A, AH, AHA, ALI, AKO, BEZ, DA, IPAK, NE, NEGO,... Español: un, una, unas, unos, uno, sobre, todo, también,

9 Texto original Information Systems Asia Web provides research, IS-related commercial materials, interaction, and even research sponsorship by interested corporations with a focus on Asia Pacific region. Survey of Information Retrieval guide to IR, with an emphasis on web-based projects. Includes a glossary, and pointers to interesting papers. Después de remover stop words Information Systems Asia Web provides research IS-related commercial materials interaction research sponsorship interested corporations focus Asia Pacific region Survey Information Retrieval guide IR emphasis web-based projects Includes glossary pointers interesting papers

10 Derivación(I) Diferentes formas de la misma palabra son usualmente problemáticas para el análisis de text, porque tienen diferente deletreo y significado similar (e.g. learns, learned, learning, ) Es el proceso de transformar una palabra en su raíz (forma normalizada)

11 Derivación(II) Para el inglés no es un gran problema, algoritmos públicos han dado Buenos resultados, El más usado es Porter para inglés. Ejemplo: en Eslovenio existen de 10 a 20 maneras que corresponden a la misma palabra : Ejm: ( to laugh in Slovenian): smej, smejal, smejala, smejale, smejali, smejalo, smejati, smejejo, smejeta, smejete, smejeva, smeješ, smejemo, smejiš, smeje, smejoc, smejta, smejte, smejva

12 Reglas en cascada de ejemplo usadas en Porter ATIONAL -> ATE relational -> relate TIONAL -> TION conditional -> condition ENCI -> ENCE valenci -> valence ANCI -> ANCE hesitanci -> hesitance IZER -> IZE digitizer -> digitize ABLI -> ABLE conformabli -> conformable ALLI -> AL radicalli -> radical ENTLI -> ENT differentli -> different ELI -> E vileli - > vile OUSLI -> OUS analogousli -> analogous

13 Letras en Español incluyen acentos á é í ó ú ü ñ Vocales: a e i o u á é í ó ú ü

14 Definir R1 y R2 La mayoría de las podadoras usan al menos una de las definiciones de región R1 y R2. Definidas como sigue: R1 es la región después de la primera letra consonante siguiendo una vocal o es región nula al final de la palabra en el caso que no exista tal consonante. R2 es la region después de la primera consonante que siga una vocal en R1, o es la region nula al final de la palabra si no hay tal consonante. La definición de vocal varía de lenguaje a lenguaje. En francés por ejemplo, é es una vocal, en italiano i entre dos vocals no es una vocal. La clase de letras que son vocales deben ser claras para cada podador. R1 y R2 son mostradas para un número de palabras en Inglés. b e a u t i f u l < > R1 <-----> R2

15 Word Steam Word Steam che che torá tor checa chec tórax torax checar chec torcer torc checo chec toreado tor checoslovaquia checoslovaqui toreados tor

16 Frases en la forma de N-Gramos frecuentes Forma simple de generar frases con ngrams frecuentes: N-Gram es una secuencia de n palabras consecutivas (e.g. aprendizaje de máquina es 2-gram) n-grams frecuentes son los únicos que aparecen en todos los documentos observados MinFreq o más veces. N-grams son interesantes a causa de lo simple y eficiente del algoritmo de programación dinámica: Dado: Conjunto de documentos (cada documento es una secuencia de documentos), MinFreq (frecuencia mínima de n-gram), MaxNGramSize (máxima longitud de n-gram) For Len = 1 to MaxNGramSize do Generar n-grams candidatos como secuencias de palabras de tamaño Len que usan n-grams frecuentes de longitud Len-1 Eliminar n-grams candidatos con la frecuencia menor que MinFreq

17 Generación de n-grams frecuentes para 50,000 documentos de Yahoo # features 1.6M 1.4M 1.2M 1M

18 Original text on the Yahoo Web page: 1.Top:Reference:Libraries:Library and Information Science:Information Retrieval 3.Idomeneus - IR \& DB repository - These pages mostly contain IR related resources such as test collections, stop lists, stemming algorithms, and links to other IR sites. 2.UK Only 4.University of Glasgow - Information Retrieval Group - information on the resources and people in the Glasgow IR group. 5.Centre for Intelligent Information Retrieval (CIIR). 6.Information Systems Asia Web - provides research, IS-related commercial materials, interaction, and even research sponsorship by interested corporations with a focus on Asia Pacific region. 7.Seminar on Cataloging Digital Documents 8.Survey of Information Retrieval - guide to IR, with an emphasis on web-based projects. Includes a glossary, and pointers to interesting papers. 9.University of Dortmund - Information Retrieval Group Document represented by n-grams: 1."REFERENCE LIBRARIES LIBRARY INFORMATION SCIENCE (\#3 LIBRARY INFORMATION SCIENCE) INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL)" 2."UK" 3."IR PAGES IR RELATED RESOURCES COLLECTIONS LISTS LINKS IR SITES" 4."UNIVERSITY GLASGOW INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GROUP INFORMATION RESOURCES (\#2 INFORMATION RESOURCES) PEOPLE GLASGOW IR GROUP" 5."CENTRE INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL)" 6."INFORMATION SYSTEMS ASIA WEB RESEARCH COMMERCIAL MATERIALS RESEARCH ASIA PACIFIC REGION" 7."CATALOGING DIGITAL DOCUMENTS" 8."INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GUIDE IR EMPHASIS INCLUDES GLOSSARY INTERESTING" 9."UNIVERSITY INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GROUP"

19 WordNet Bases de Datos de relaciones léxicas WordNet es la base de datos más desarrollada y ampliamente utilizada para Inglés consiste de 4 bases de datos (sustantivos, adverbios, adjetivos y verbos). - Cada base de datos consiste de entradas de un conjunto sinónimos: musician, instrumentalist, player person, individual, someone life form, organism, being

20 Relaciones de WordNet Relación Definición Ejemplo Hipernimia De conceptos a subordinados Desayuno comida Hiponimia De conceptos a subtipos Comida - cena Tiene Miembros De grupos a sus miembros Facultad - profesor Miembro de De miembros a sus grupos Copiloto - tripulación Tiene parte De todos a partes Mesa - pata Parte de De partes a todos Curso comida Antónimos Opuestos Lider - seguidor

21 Niveles de Procesamiento de Texto 2/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

22 Niveles de Procesamiento de Texto 3/6 Nivel Palabra Nivel de Oración Nivel de Documento Resúmenes Visualización de Documentos Simples Segmentación de Texto Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

23 Resúmenes La tarea es producir una versión resumida del documento original. Dos principales aproximaciones del problema: Riqueza de Conocimiento realizar análisis semántico, representando el significado y generación el texto que satisfaga restricciones de longitud. Basados en Selección

24 Resúmenes basados en selección Tres fases principales: Analizar el texto fuente. Determinar sus puntos importantes. Sintetizar una salida apropiada. La mayoría de los métodos adoptan modelos por pesos cada unidad del texto (sentencia) es evaluada por: Peso(U)=Ubicación en el texto(u)+frase(u)+estadísticas(u)+presenciasadicionales(u) un montón de heurística y afinamiento de parámetros La salida consiste en las unidades de texto más frecuentes.

25

26 Por qué es difícil la visualización de un simple documento? La visualización de grandes textos es una tarea más fácil a causa de la cantidad de información: estadísticas empiezan a trabajar. la mayoría de aproximaciones están basadas en estadísticas. Visualización de un simple documento (corto) es una tarea más difícil: no podemos contar con propiedades estadísticas del texto (faltan datos). Debemos confiar en estructuras sintácticas y estructura lógica del documento

27 Aproximación Simple El texto está dividido en oraciones. Cada oración está altamente dividida (parser) en su forma lógica. Resolución anáfora es hecha en todas las oraciones. todas las referencias él, ella, ellos, de él, su son reemplazadas por su nombre propio. De la oración se extrae [Sujeto Predicado Objetos triples] (SPO). La forma SPO se enlaza al gráfico. finalmente, dibujamos un gráfico

28

29

30 Segmentación de Textos Problema: dividir el texto que no tienen una estructura en segmentos de similar contenido. Ejemplos de aplicación. Seguimiento de noticias. Identificación del tema en bases de datos textuales no estructuradas.

31 Algoritmos para Segmentación de Texto Algoritmo: Dividir el texto en oraciones. Representar cada oración con palabras o frases que contiene. Calcular la similitud entre pares de oraciones. Encontrar un segmento (secuencias de delimitadores), de tal formar que la similitud entre las oraciones en el mismo segmento es maximizada y minimizada entre segmentos. Las aproximaciones puede ser definidas como un problema de optimización o ventana deslizante.

32 Niveles de Procesamiento de Texto 4/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Representación. Selección de características. Similitud de Documentos. Cambio de Representación (LSI). Categorización (lineal, jerárquica). Agrupamiento (lineal, jerárquica). Visualización. Extracción de información Nivel de Colección de Documentos Enlazados Nivel de Aplicación

33 Representación de Bolsa de palabras

34 Peso de palabras En la representación de bolsa de palabras cada palabra es representada como una variable separada que tiene un peso numérico. El esquema más popular es la frecuencia de palabras normalizada TFIDF: Tf(w) frecuencias de términos(número de ocurrencias de la palabra en un documento). Df(w) frecuencia del documento (número de documentos que contienen la palabra. N número de todos los documentos. TFIDF(w) importancia relativa de la palabra en el documento

35 Documento de Ejemplo y su representación en vector TRUMP MAKES BID FOR CONTROL OF RESORTS Casino owner and real estate Donald Trump has offered to acquire all Class B common shares of Resorts International Inc, a spokesman for Trump said. The estate of late Resorts chairman James M. Crosby owns 340,783 of the 752,297 Class B shares. Resorts also has about 6,432,000 Class A common shares outstanding. Each Class B share has 100 times the voting power of a Class A share, giving the Class B stock about 93 pct of Resorts' voting power. [RESORTS:0.624] [CLASS:0.487] [TRUMP:0.367] [VOTING:0.171] [ESTATE:0.166] [POWER:0.134] [CROSBY:0.134] [CASINO:0.119] [DEVELOPER:0.118] [SHARES:0.117] [OWNER:0.102] [DONALD:0.097] [COMMON:0.093] [GIVING:0.081] [OWNS:0.080] [MAKES:0.078] [TIMES:0.075] [SHARE:0.072] [JAMES:0.070] [REAL:0.068] [CONTROL:0.065] [ACQUIRE:0.064] [OFFERED:0.063] [BID:0.063] [LATE:0.062] [OUTSTANDING:0.056] [SPOKESMAN:0.049] [CHAIRMAN:0.049] [INTERNATIONAL:0.041] [STOCK:0.035] [YORK:0.035] [PCT:0.022] [MARCH:0.011]

36 Selección de subconjunto de características

37 Selección de subconjunto de características Seleccionar solamente las mejores características (diferentes formas para definir el mejor diferente medidas de evaluación de características. El más frecuente. El más informativo relacionado a todos los valores de clase. El más informativo relacionado al valor de clase positivo.

38 Evaluación de características individuales Ganancia de Información Entropía cruzada. Información Mutua. Pesaje de EVID. Ratio de posibilidades. Frecuencias.

39 Ejemplo de mejores características Odds Ratio feature score [P(F pos), P(F neg)] IR 5.28 [0.075, ] INFORMATION RETRIEVAL RETRIEVAL 4.77 [0.075, ] GLASGOW 4.72 [0.03, ] ASIA 4.32 [0.03, ] PACIFIC 4.02 [0.015, ] INTERESTING 4.02[0.015, ] EMPHASIS 4.02 [0.015, ] GROUP 3.64 [0.045, ] MASSACHUSETTS 3.46 [0.015,...] COMMERCIAL 3.46 [0.015,0.0005] REGION 3.1 [0.015, ] Information Gain feature score [P(F pos), P(F neg)] LIBRARY 0.46 [0.015, 0.091] PUBLIC 0.23 [0, 0.034] PUBLIC LIBRARY 0.21 [0, 0.029] UNIVERSITY 0.21 [0.045, 0.028] LIBRARIES [0.015, 0.026] INFORMATION 0.17 [0.119, 0.021] REFERENCES [0.015, 0.012] RESOURCES 0.11 [0.029, ] COUNTY [0, ] INTERNET [0, ] LINKS [0.015, ] SERVICES [0, ]

40 Similitud de Documentos Similitud por Coseno Cada documento es representada como un vector de pesos D = <x>. Similitud entre vectores es estimada por la similitud entre su vector de representación (coseno del ángulo entre ventores):

41 Indexación Semántica Latente (LSI) Es una técnica estadística que trata de estimar el contenido oculto de la estructura del documento: Usa técnicas de algebra lineal Descomposición de valor singular (SVD). Descubre estadísticamente las co-ocurrencias más significativas de términos.

42 Ejemplo de LSI

43 Categorización de Texto

44 Categorización de Documento Aprendizaje de Máquinas Documentos No etiquetados Documentos etiquetados Clasificador de Documentos Categoría de Documentos (etiqueta)

45 Categorización Automática de Documentos Dado un conjunto de documentos etiquetados con categorías de contenido. La meta es: construir un modelo que automáticamente asigne las categorías del contenido a documentos no etiquetados. Las categorías puede ser: No estructuradas (Ejm: Reuters) o Estructurados (Ejm: Yahoo, Dmoz, Medline)

46 Algoritmos para aprendizaje de clasificación Algoritmos populares para categorización de texto: Máquina de Soporte Vectorial. Regresión Logística. Perceptrón. Naive Bayes. Winnow. Vecino más cercano

47 Perceptrón Entrada: conjunto de documentos pre-clasificados. Salida: modelo, un peso para cada palabra del vocabulario. Algoritmo: Inicializar el modelo configurando los pesos a 0. Iterar a través de los documentos N veces. Clasificar el documento X representado como una bolsa de palabras. Predecir clases positivas caso contrario clases negativas Si la clasificación está mal entonces ajustar pesos de todas las palabras que aparecen en el documento Sign(positive) = 1 Sign(positive) = -1

48 Medidas de Éxito Precisión de la Clasificación. Punto de evento de quiebre (precisión = rellamada) F-measure (precisión, rellamada = sensibilidad)

49 Conjunto de Datos Reuters Categorización a categorías lineales Los documentos clasificados por editores en una o más categorías. Disponibles públicamente las noticias de Reuters principalmente desde 1987: 120 categorías dando el contenido del documento, tales como: oreja, adquirir, maíz, arroz, los trabajos, las semillas oleaginosas, el oro, el café, vivienda, ingresos,.. desde el 2000 está disponible un nuevo conjunto de datos de documentos Reuters disponibles para investigación.

50 Distribución de Documentos (Reuters-21578)

51 Ejemplos de modelo de Perceptrón para la categoría «acquisition» de Reuters Feature Positive ClassWeight STAKE 11.5 MERGER 9.5 TAKEOVER 9 ACQUIRE 9 ACQUIRED 8 COMPLETES 7.5 OWNERSHIP 7.5 SALE 7.5 OWNERSHIP 7.5 BUYOUT 7 ACQUISITION 6.5 UNDISCLOSED 6.5 BUYS 6.5 ASSETS 6 BID 6 BP 6 DIVISION 5.5

52 SVM, Perceptrón y Winnow Rendimiento para categorización de texto en Reuters con diferentes representaciones

53 Comparación usando SVM o poda de 1-gramo con resultados relacionados

54 Categorización de Texto en jerarquía de categorías Existen algunas jerarquías (taxonomías) de documentos de texto: Yahoo, DMOZ, Medline, Diferentes personas usan diferentes aproximaciones: series de clasificadores organizados jerárquicamente. conjunto de clasificadores independientes para hojas. conjunto de clasificadores independientes para todos los nodos.

55 Jerarquía Yahoo! Jerarquía de documentos-web construidas por humanos. Existe en algunos lenguajes (inglés). Fácil acceder y actualización de regularidades. Capturar la mayoría de temas del internet. Versión en Inglés incluyen cerca de 2M páginas categorizadas en 50, 000 categorías. Contiene acerca 250Mb de archivos HTML

56 Documento a categorizar: CFP para CoNLL-2000

57 Algunas categorías generadas

58 Web Arquitectura del Sistema Construcción de Características Vectores n-grams Documentos etiquetados Jerarquía Yahoo! Definición de subproblemas Selección de Características Construcción de Clasificadores Documentos no etiquetados Clasificador de Documentos

59 Contenido de Categorías Para cada categoría de contenido existe un clasificador separado que predice la probabilidad para un nuevo documento que pertenece a esta categoría.

60 Considerando Sólo Categorías prometedoras (Naive Bayes) Documentos representados como un conjunto de secuencias de palabras W. Cada clasificador tiene dos distribuciones: P(W pos), P(W neg) Categorías prometedoras. Calcular P(pos Doc) significa alta que el clasificador tiene P(W pos) > 0 para al menos algún W del documento (de otra forma, la probabilidad a priori se retorna, P(neg) es casí 0,90

61 Resumen de Resultados Experimentales Dominio Probabilidad Ranking Precisión Rellamada Entretenimiento 0, ,44 0,80 Arte 0, ,4 0,83 Computadoras 0, ,4 0,84 Educación 0,99 9 0,57 0,65 Referencia 0,99 3 0,51 0,81

62 Agrupación de Documentos

63 Agrupación de Documentos Agrupación es un proceso de encontrar grupos naturalmente en datos de una forma no supervisada (sin etiquetas de clases preasignadas a documentos). La Mayoría de Métodos populares de agrupamiento son: K-Means Agrupamiento jerárquico Aglomerativo. EM (Mezcla gausiana)

64 Agrupamiento K-Means Dado: Conjunto de documentos (vectores TFIDF). Medidas de distancia (coseno). K (número de grupos). Para cada K grupos inicializa su centroide con un documento aleatorio. Mientras no converja. Cada documento es asignado al grupo más cercano (representado por su centroide). Para cada grupo se calculo un nuevo centroide (punto de grupo de masa, documento promedio de grupo)

65 Por qué visualización? para tener una vista de alto nivel de los temas. para ver relaciones entre los temas. para entender mejor que está sucediendo. para mostrar la naturaleza altamente estructurada del contenido textual de una forma simple. para mostrar dimensiones principales de espacios altamente dimensionales de documentos de texto.

66 Ejemplos de Visualización de Texto Visualización de Texto. Websom. ThemeScape. Visualización basada en grafos. Visualización basada en mosaico. Colección de aproximaciones disponibles:

67 WebSOM Mapas organizados para Exploración de Internet. Un mapa ordenado del espacio del documento es provisto: documentos similares se encuentran uno cerca del otro en el mapa. algoritmos que automáticamente organizan los documentos en mallas de dos dimensiones de manera que los documentos relacionados aparecen cerca a otro. basado en mapas auto organizados de Kohonen s. Demo en

68 Visualización WebSOM

69 ThemeScape Gráficamente muestra imágenes basadas en similitudes de palabras y temas en texto. Temas dentro de espacios de documentos aparecen en la pantalla del computador como un mapa de alivio de terreno natural. Las montañas indican donde los temas son dominantes, los valles dominantes indican temas débiles. Temas relacionados en concepto serán relacionados visualmente basados en muchas relaciones dentro del espacio textual. Técnicas similares de visualización

70 Visualización de Documento ThemeScape

71 Visualización Basada en Grafos El boceto del algoritmo: Documentos son transformados en la bolsa de palabras bajo la representación de vectores dispersos. A las palabras en el vector se les asigna pesos usando TFIDF. Algoritmo de Agrupamiento K-Means divide el documento en K grupos. Cada grupo consiste en documentos similares. Los documentos son comparados usando similitud por coseno. K grupos forman un grupo: Grupos son nodos en el grafo; grupos similares son enlazados. Cada grupo se representa por palabras claves características. Usando un simulador se dibuja un grafo

72 Ejemplo de visualización, Proyecto Eu IST Corpora La descripción de 1700 proyectos. Descargado de Cada documento es pocos cientos de palabras describiendo un proyecto financiado por CE. la idea es entender la estructura t relaciones entra las áreas de CE.

73

74

75 Cómo extraemos palabras claves? Palabras características para un grupo de documentos son las palabras con peso más alto en el centroide del cluster. centroide del grupo puede ser entendido como un «documento promedio» para un grupo específico de documentos. se usa el efecto provisto por el esquema TFIDF para pesar la importancia de las palabras. solución eficiente.

76 Peso TFIDF para palabras en representación de vector En recuperación de información, el esquema de pesaje más popular es la frecuencia de palabras TFIDF: Tf(w) frecuencia de términos (número de ocurrencia de palabras en un documento) Df(w) frecuencia de documentos (número de documentos que contienen la palabra) N número de todos los documentos. Tfidf(w) imporetancia relativa de la palabra en el documento

77 Visualización basada en mosaicos El boceto del algoritmo: Documentos son transformados en bolsa de palabras y representaciones de vectores dispersos. Palabras en los vectores son pesados usando TFIDF Agrupamiento top-down de dos formas construyen uan jerarquía de clusters. La jerarquía es un equivalente artificial de sujetos de índices jerárquicos (como Yahoo). Los nodos hoja de la jerarquía (nivel más bajo) son usados para visualizar los documentos. Cada hoja es representada por palabras características. Cada división binaria jerárquica divide recursivamente el área rectangular en dos sub áreas.

78

79

80 Rio de Temas (Theme River) El sistema visualiza variaciones temáticas sobre el tiempo en una colección de documentos. El rio fluye a través del tiempo, cambiando el ancho para visualizar cambios en la longitud esquemática de documentos temporalmente ubicados. Temas o tópicos son representados como corrientes «coloreados» fluyendo en el rio que incrementa o disminuye su ancho

81 Flujo de tópicos Theme River

82 Extracción de Información

83 Extrayendo Ofertas de Trabajo de la Web

84 IE de Papers

85 Qué es «Extracción de Información» Llenar espacios en una base de datos de sub segmentos de texto October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying

86 Qué es «Extracción de Información» October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying

87 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + agrupación + asociación Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation

88 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + agrupación + asociación October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman Founder Free Software Foundation

89 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + asociación + agrupación

90

91 IE en Contexto Crear Ontología Spider Filtrar por relevancia Segmentar Clasificar Asociar Agrupar Colección de Documentos Datos etiquetados de entrenamiento

92 Aproximaciones a IE Reglas/modelos hechas a mano. Aprendizaje de máquinas usada en datos manualmente etiquetados. Problemas de clasificación en ventanas deslizantes. ejemplos son tomados de ventas deslizantes. modelos clasifican segmentos cortos de texto tales commo título, nombre, institución. Limitaciones de ventana deslizante porque no toma en cuenta su naturaleza de conteo secuencial del texto. Entrenar máquinas de estado finito. reconstrucción probabilística de secuencias.

93 Niveles de Procesamiento de Texto 5/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados. Etiquetado de datos. Entrenamiento. Nivel de Aplicación

94 Etiquetando Datos

95 Usando Datos etiquetados Números pequeños de documentos etiquetados y un gran número de documentos no etiquetados, ejem., clasificar un artículo en uno de los 20 grupos de noticias, clasificar páginas web como estudiante, facultad, curso, proyecto,. Descripción de aproximación (EM + Naive Bayes): Entrenar un clasificador con sólo documentos etiquetados, Asignar etiquetas de pesos-probabilísticos a documentos no etiquetados, Entrenar un nuevo clasificador usando todos los documentos. Iterar hasta que el clasificador no tenga cambios.

96 Usando Datos no Etiquetados con Esperanza Máxima Inicializar: Aprender de etiquetados solamente E-step: Estimar etiquetas de documentos No etiquetados Naive Bayes M-step: Usar todos los documentos para reconstruir clasificadores Garantiza máximo local y parámetros aposteriori

97 Co-Entrenamiento Mejor rendimiento en etiquetado de datos comparado con el enfoque EM

98 Aprendizaje Bootstrap para Clasificar Páginas Web (co-entrenamiento) Dado: un conjunto de documentos donde cada documento está descrito por dos conjuntos independientes de atributos (Ej: texto + hiperenlaces) 12 páginas etiquetadas Clasificador de Páginas Clasificador de Enlaces Contenido del Documento Hyperlink, Apuntando al documento

99 Niveles de Procesamiento de Texto 5/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados. Etiquetado de datos. Entrenamiento. Nivel de Aplicación Preguntas y Respuestas. Combinando Fuentes de Datos (KDD Copa)

100 Preguntas y Respuestas Sistemas QA son respuestas cortas y precisas a preguntas tales como: Cuál es la altura del Monte Everest? Cuántos litros hay en un galón? Pueden ser clasificados en los siguientes niveles de sofisticación: Llenado de espacios preguntas fáciles, tecnología IE. Dominios limitados diccionarios artesanales & ontologías. Dominio abierto inferencia, analizadores de comandos.

101 Arquitectura de Preguntas y Respuestas PREGUNTAS Analizar y Clasificar Preguntas Generar Consultas de Palabras Claves RESPUESTAS Recuperar Documento Rankear y preparar respuesta Respuestas de Segmento Coincidir segmento con pregunta Ranking de Segmentos Analizar Segmentos Top

102 Ejemplo de Preguntas y Respuestas Ejemplo de pregunta y respuesta: Q: De qué color es el gras? A: Verde La respuesta puede venir del documento que dice: «el gras es verde» sin mencionar «color» con la ayuda de WordNet teniendo jerarquía de hipernimia: Verde, color cromático, color, propiedad visual, propiedad

103 Combinando Fuentes de Datos Aproximadamente papers de «teoría de alta energía» de arvix.org (Cornell University). Para cada paper: Texto completo (archivo TeX, por lo general sucio) Promedio de 60 Kb por paper. Total 1,7 Gb Metada en un archivo estructurado (autor, título, resumen, clases, etc.) Tarea: Cuántas veces ciertos papers han sido descargados en los primeros 60 días desde su publicación en arxiv

104 Solución Los documentos textuales han sido tratados tradicionalmente como «bolsas de palabras». El número de ocurrencias de cada palabra importa, pero el orden de las palabras es ignorado. Eficientemente representado por vectores dispersos. Los extendemos para incluir otros artículos junto a palabras («bolsa de X»). La mayoría del trabajo fue orientado a tratar varias características y ajustar sus pesos. Se usó regresión de soporte de vectores para entrenar un modelo lienal, el cual es usado para predecir los conteos. Soluciones fueron basadas en el modelo entrenado de la siguiente representación: AA + 0,005 in-degree + 0,5 in-links + 0,7 out-links + 0,3 jurnal + 0,004 title-chars + 0,6 (year 2000) + 0,15 ClusDIAvg

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013 Presentación de Trabajo de Fin de Máster PROPUESTA DE BÚSQUEDA SEMÁNTICA: APLICACIÓN AL CATÁLOGO DE MAPAS, PLANOS Y DIBUJOS DEL ARCHIVO GENERAL DE SIMANCAS Máster en Lenguajes y Sistemas Informáticos:

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Introducción. Metadatos

Introducción. Metadatos Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de

Más detalles

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN GESTIÓN DE PROYECTOS CON PLANNER AVC APOYO VIRTUAL PARA EL CONOCIMIENTO GESTIÓN DE PROYECTOS CON PLANNER Planner es una poderosa herramienta de software

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

La Administración de Proyectos

La Administración de Proyectos La Administración de Proyectos La administración de proyectos es el proceso de planear, organizar y administrar tareas y recursos para alcanzar un objetivo concreto, generalmente con delimitaciones de

Más detalles

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes: PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes: 1. Proporcionar una guía de actividades para el trabajo en equipo. (Guía detallada para el desarrollo

Más detalles

Sistemas de Recuperación de Información

Sistemas de Recuperación de Información Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Manual de usuario del Centro de Control

Manual de usuario del Centro de Control Manual de usuario del Centro de Control www.ximdex.com Tabla de contenidos 1. Centro de Control...4 2. Gestor de Canales...5 2.1. Añadir un nuevo canal...6 2.2. Modificar las propiedades del canal...6

Más detalles

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012 Bases de Datos Documentales Curso 2011/2012 Miguel Ángel Rodríguez Luaces Laboratorio de Bases de Datos Universidade da Coruña Introducción Hemos dedicado la primera mitad del curso a diseñar e implementar

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

Proceso del KDD (minería de datos o DataMining)

Proceso del KDD (minería de datos o DataMining) Qué es el KDD? Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente utiles y fundamentalmente entendibles en los datos. es como se reconoce de manera teoria

Más detalles

MANUAL ECOMMERCE 2.0

MANUAL ECOMMERCE 2.0 MANUAL ECOMMERCE 2.0 1.- INTRODUCCIÓN Nuevas características añadidas al módulo: - Gestión de atributos de productos. - Gestión de cupones - Mejoras en métodos de envío - Descuentos a nivel de productos,

Más detalles

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Qué es una página web?, qué conoces al respecto?, sabes crear una página Semana 13 13 Empecemos! Bienvenidos a una nueva sesión, llena de aprendizajes! En semanas anteriores estudiamos lo que son bases de datos, estructuras de datos y métodos de ordenamientos, todo lo cual

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

PREPARATORIA DIURNA DE CUAUTLA

PREPARATORIA DIURNA DE CUAUTLA PREPARATORIA DIURNA DE CUAUTLA Taller de computación II Profr. ING. AARON TABOADA LOMEZ Tecnologías de la Información y Comunicación (TIC) Son aquellas herramientas computacionales que procesan, almacenan,

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

forma de entrenar a la nuerona en su aprendizaje.

forma de entrenar a la nuerona en su aprendizaje. Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES MODULO DE CONTENIDOS DE MATERIALES En prácticamente cualquier tipo de asignatura existirá

Más detalles

Los procesos tecnológicos

Los procesos tecnológicos Los procesos tecnológicos Casi todos los objetos que conocemos han sido elaborados por el ser humano y la gran mayoría de los que están a nuestro alcance son generalmente productos industriales. Los productos

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta Conciliación bancaria en CheqPAQ Cargado de estado de cuenta Introducción Con la finalidad de mantenerte informado respecto a todos los cambios y mejoras de los productos de CONTPAQ i, ponemos a tu disposición

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Entidad Formadora: Plan Local De Formación Convocatoria 2010 Entidad Formadora: Enterprise Architect Comenzando Puede iniciar Enterprise Architect desde el ícono que se creó en su escritorio de Windows durante la instalación, o alternativamente: 1. Abrir el menú

Más detalles

Elaboración de Mapas Conceptuales

Elaboración de Mapas Conceptuales UNIVERSIDAD PEDAGOGICA LIBERTADOR INSTITUTO PEDAGÓGICO DE CARACAS. DEPARTAMENTO DE PEDAGOGIA. SOCIOLOGIA DE LA EDUCACIÓN (PHB-104) Prof. Robert Rodríguez Raga PAGINA WEB http://sociologiaeducacion.tripod.com

Más detalles

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP Características del Explorador de Windows El Explorador de Windows es una de las aplicaciones más importantes con las que cuenta Windows. Es una herramienta indispensable

Más detalles

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes

Más detalles

ORIENTACIONES SIMCE TIC

ORIENTACIONES SIMCE TIC ORIENTACIONES SIMCE TIC Sistema Nacional de Medición de Competencias TIC en Estudiantes ORIENTACIONES SIMCE TIC Sistema Nacional de Medición de Competencias TIC en Estudiantes INDICE Introducción 7 Prueba

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Capítulo 1 Documentos HTML5

Capítulo 1 Documentos HTML5 Capítulo 1 Documentos HTML5 1.1 Componentes básicos HTML5 provee básicamente tres características: estructura, estilo y funcionalidad. Nunca fue declarado oficialmente pero, incluso cuando algunas APIs

Más detalles

MOC-50413 Mastering Microsoft Project 2010

MOC-50413 Mastering Microsoft Project 2010 MOC-50413 Mastering Microsoft Project 2010 Introducción Este curso presenta el software de gestión de proyectos más populares para la dirección de proyectos. Proporciona a los asistentes el conocimiento

Más detalles

Introducción a la plataforma Moodle Aníbal de la Torre 2006. Plataforma Moodle. Accediendo a los contenidos

Introducción a la plataforma Moodle Aníbal de la Torre 2006. Plataforma Moodle. Accediendo a los contenidos Plataforma Moodle Accediendo a los contenidos Formatos ----------------------------------------------------------------------- 2 Glosarios -----------------------------------------------------------------------

Más detalles

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo. GLOSARIO Actor: Un actor es un usuario del sistema. Esto incluye usuarios humanos y otros sistemas computacionales. Un actor usa un Caso de Uso para ejecutar una porción de trabajo de valor para el negocio.

Más detalles

Administración de proyectos. Organizar, planificar y programar los proyectos de software

Administración de proyectos. Organizar, planificar y programar los proyectos de software Administración de proyectos Organizar, planificar y programar los proyectos de software Administración de proyectos Trata de las actividades que hay que realizar para asegurar que el software se entregará

Más detalles

CONSTRUCCIÓN DEL PROCESO ADMINISTRADOR DE PROYECTOS SEIS SIGMA Bizagi Process Modeler

CONSTRUCCIÓN DEL PROCESO ADMINISTRADOR DE PROYECTOS SEIS SIGMA Bizagi Process Modeler ADMINISTRADOR DE PROYECTOS SEIS Bizagi Process Modeler Copyright 2011 - bizagi Contenido CONSTRUCCIÓN DEL PROCESO... 1 1. DIAGRAMA DEL PROCESO... 3 Sub proceso Fase... 4 Sub proceso Crear Entregable...

Más detalles

Registro (record): es la unidad básica de acceso y manipulación de la base de datos.

Registro (record): es la unidad básica de acceso y manipulación de la base de datos. UNIDAD II 1. Modelos de Bases de Datos. Modelo de Red. Representan las entidades en forma de nodos de un grafo y las asociaciones o interrelaciones entre estas, mediante los arcos que unen a dichos nodos.

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

SIIGO Pyme. Informes de Saldos y Movimientos de Inventarios. Cartilla I

SIIGO Pyme. Informes de Saldos y Movimientos de Inventarios. Cartilla I SIIGO Pyme Informes de Saldos y Movimientos de Inventarios Cartilla I Tabla de Contenido 1. Presentación 2. Qué son Inventarios? 3. Qué son Informes? 4. Qué son Informes de Saldos y Movimientos en Inventarios?

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

Protección de Contenido en Microsoft Internet Explorer 6 y superior.

Protección de Contenido en Microsoft Internet Explorer 6 y superior. Protección de Contenido en Microsoft Internet Explorer 6 y superior. Para activar el Asesor de contenido, debe configurarse como Supervisor de contenido con una contraseña: 1) En el menú Herramientas de

Más detalles

MANUAL DE USUARIO EDITOR Y AUTOR PROPUESTA DIDACTICA A. ESTRUCTURA DE LA APLICACIÓN PARA AUTORES Y EDITORES

MANUAL DE USUARIO EDITOR Y AUTOR PROPUESTA DIDACTICA A. ESTRUCTURA DE LA APLICACIÓN PARA AUTORES Y EDITORES MANUAL DE USUARIO EDITOR Y AUTOR PROPUESTA DIDACTICA Objetivo: Reconocer e interiorizar la estructura y función del sistema de publicación de contenidos Aplication Action. A. ESTRUCTURA DE LA APLICACIÓN

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Resumen de la conferencia Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Ponente: Luis Muñiz Socio Director de Sisconges & Estrategia y experto en Sistemas

Más detalles

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI Ricardo Köller Jemio Departamento de Ciencias Exactas e Ingeniería, Universidad

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

El Proceso Unificado de Desarrollo de Software

El Proceso Unificado de Desarrollo de Software El Proceso de Desarrollo de Software Ciclos de vida Métodos de desarrollo de software El Proceso Unificado de Desarrollo de Software 1 Fases principales del desarrollo de software Captura de requisitos:

Más detalles

HADOOP, como una plataforma de procesamiento masivo de datos

HADOOP, como una plataforma de procesamiento masivo de datos HADOOP, como una plataforma de procesamiento masivo de datos Esquema de Trabajo Objetivo Alcances Limitaciones Fundamentos Teóricos Análisis Preliminar Herramientas Estructura del Cluster Resultados Desarrollo

Más detalles

MOODLE PARA ASESORES, GUIA DE APOYO.

MOODLE PARA ASESORES, GUIA DE APOYO. FORTALECIMIENTO DE LAS CAPACIDADES, COMPETENCIAS Y HABILIDADES EN CIENCIA, TECNOLOGÍA E INNOVACIÓN EN NIÑOS, NIÑAS, JÓVENES E INVESTIGADORES DEL PUTUMAYO. MOODLE PARA ASESORES, GUIA DE APOYO. El concepto

Más detalles

PREGUNTAS FRECUENTES DE LA ICDL

PREGUNTAS FRECUENTES DE LA ICDL PREGUNTAS FRECUENTES DE LA ICDL PARA EDITORES, AUTORES, ILUSTRADORES Y OTROS TITULARES DE LOS DERECHOS REVISADO EL 18.03.05 Qué es la Biblioteca Digital Infantil Internacional (International Children s

Más detalles

Fundamentos del diseño 3ª edición (2002)

Fundamentos del diseño 3ª edición (2002) Unidades temáticas de Ingeniería del Software Fundamentos del diseño 3ª edición (2002) Facultad de Informática necesidad del diseño Las actividades de diseño afectan al éxito de la realización del software

Más detalles

Qué son los protocolos de enrutamiento Dinámico?

Qué son los protocolos de enrutamiento Dinámico? Sistemas Operativos SISTEMAS OPERATIVOS 1 Sesión No. 4 Nombre: Protocolos de enrutamiento dinámico Contextualización Qué son los protocolos de enrutamiento Dinámico? Los protocolos de enrutamiento dinámico

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un

ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un efecto positivo o negativo sobre al menos un objetivo del proyecto, como tiempo,

Más detalles

Campos de tareas. Costo real (campo de tareas) Duración real (campo de tareas) Fin real (campo de tareas)

Campos de tareas. Costo real (campo de tareas) Duración real (campo de tareas) Fin real (campo de tareas) s de tareas indica que el campo es nuevo en Project 2007. Campo Costo real (campo de Duración real (campo de Fin real (campo de En el campo Costo real se muestran los costos del trabajo ya realizado por

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

BANCO CENTRAL DE RESERVA DEL PERÚ

BANCO CENTRAL DE RESERVA DEL PERÚ CONSULTA DE DATOS ESTADÍSTICOS DEL BCRP GUÍA DE USO ÍNDICE 1. Organización de las series y zonas de la pantalla 2. Acceso a las series y consultas 3. Suscripción de usuarios 4. Manejo de listas personalizadas

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles

Métodos Heurísticos en Inteligencia Artificial

Métodos Heurísticos en Inteligencia Artificial Métodos Heurísticos en Inteligencia Artificial Javier Ramírez rez-rodríguez Ana Lilia Laureano-Cruces Universidad Autónoma Metropolitana Métodos Heurísticos en Inteligencia Artificial Los problemas de

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

Seminario Aplicaciones de las Redes Neuronales (WebSOM)

Seminario Aplicaciones de las Redes Neuronales (WebSOM) Seminario Aplicaciones de las Redes Neuronales (WebSOM) Inteligencia Artificial 5 o Informática IA curso 2012-2013 CCIA Noviembre 2012 IA 1213 (CCIA) Seminario WebSOM Noviembre-2012 1 / 12 Usos de los

Más detalles

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos Resultados del Proyecto ÍNDICE 1. Detección automática de B2C 2. Análisis de demanda de profesionales TICC y programas formativos 3. Análisis

Más detalles

Contenido. Sistema de archivos. Operaciones sobre archivos. Métodos de acceso a archivos. Directorio. Sistema de archivos por capas.

Contenido. Sistema de archivos. Operaciones sobre archivos. Métodos de acceso a archivos. Directorio. Sistema de archivos por capas. Contenido Sistema de archivos Operaciones sobre archivos Métodos de acceso a archivos Directorio Sistema de archivos por capas Espacio libre Sistema de archivos Proporciona el mecanismo para el almacenamiento

Más detalles

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc. Página 1 BUSCADORES EN INTERNET Internet es una red de redes informáticas distribuidas por todo el mundo que intercambian información entre sí mediante protocolos 1 TCP/IP. Puede imaginarse Internet como

Más detalles

Formularios. Formularios Diapositiva 1

Formularios. Formularios Diapositiva 1 Formularios Crear un formulario utilizando el Asistente para formularios Modificación en vista Diseño Adición de Controles a un Formulario Adición de un Subformulario a un formulario Formularios Diapositiva

Más detalles

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto INFORMÁTICA INFORMÁTICA 1 Sesión No. 4 Nombre: Procesador de Texto Contextualización La semana anterior revisamos los comandos que ofrece Word para el formato del texto, la configuración de la página,

Más detalles

Utilización del sistema operativo GNU/ Linux en las netbooks

Utilización del sistema operativo GNU/ Linux en las netbooks Utilización del sistema operativo GNU/ Linux en las netbooks El sistema operativo es la pieza de software básica de un sistema, que permite manejar los recursos de la computadora, abrir programas, manejar

Más detalles

MS OFFICE PROJECT 2010: MANEJO DE PROYECTOS

MS OFFICE PROJECT 2010: MANEJO DE PROYECTOS MS OFFICE PROJECT 2010: MANEJO DE PROYECTOS OBJETIVO: Este curso proporciona a los alumnos los conocimientos y habilidades para planificar y administrar proyectos con Microsoft Project 2010. Para obtener

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

Proyecto Scratch: http://scratch.mit.edu/projects/38518614/

Proyecto Scratch: http://scratch.mit.edu/projects/38518614/ Proyecto Scratch: http://scratch.mit.edu/projects/38518614/ SISTEMAS DE NUMERACÍON Dos de los sistemas de numeración más utilizados son el sistema decimal, que se emplea en la vida cotidiana, y el sistema

Más detalles

Motores de Búsqueda Web Tarea Tema 2

Motores de Búsqueda Web Tarea Tema 2 Motores de Búsqueda Web Tarea Tema 2 71454586A Motores de Búsqueda Web Máster en Lenguajes y Sistemas Informáticos - Tecnologías del Lenguaje en la Web UNED 30/01/2011 Tarea Tema 2 Enunciado del ejercicio

Más detalles

Operación de Microsoft Word

Operación de Microsoft Word Generalidades y conceptos Combinar correspondencia Word, a través de la herramienta combinar correspondencia, permite combinar un documento el que puede ser una carta con el texto que se pretende hacer

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

CRECE EN INTERNET. Llegar a buen puerto: buscando información

CRECE EN INTERNET. Llegar a buen puerto: buscando información CRECE EN INTERNET Llegar a buen puerto: buscando información Llegar a buen puerto: buscando información Internet es una red mundial que vincula miles de ordenadores que almacenan gran cantidad de documentos

Más detalles

http://www.nicasoft.com.ni

http://www.nicasoft.com.ni BSC-RH es un sistema automatizado de planificación estratégica y gestión, utilizado en empresas para direccionar las actividades del negocio a la visión y estrategia de la organización. Mejora la comunicación

Más detalles

Manual de uso de la Consola de Administración para usuarios Administradores.

Manual de uso de la Consola de Administración para usuarios Administradores. Manual de uso de la Consola de Administración para usuarios Administradores. I. ACCESO A LA CONSOLA DE ADMINISTRACIÓN 1. Para acceder a la consola de administración abra desde Internet Explorer la dirección

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión)

ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB. (Modificada en 2008) (IV Difusión) ANEXO 26-A COMITÉ PERMANENTE DE INTERPRETACIÓN SIC N 32 ACTIVOS INTANGIBLES COSTOS DE SITIOS WEB (Modificada en 2008) (IV Difusión) Interpretación SIC-32 Activos Intangibles - Costos de Sitios Web Referencias

Más detalles

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON) 3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON) 3.1.1 Introducción Este método proporciona un soporte para el diseño creativo de productos de software, inclusive a escala industrial.

Más detalles

Algoritmos sobre Grafos

Algoritmos sobre Grafos Sexta Sesión 27 de febrero de 2010 Contenido Deniciones 1 Deniciones 2 3 4 Deniciones sobre Grafos Par de una lista de nodos y una lista de enlaces, denidos a su vez como pares del conjunto de nodos.

Más detalles

Modelo Entidad-Relación

Modelo Entidad-Relación Modelo Entidad-Relación El modelo de datos de entidad-relación (ER) se basa en una percepción de un mundo real que consiste en un conjunto de objetos básicos llamados entidades y de relaciones entre estos

Más detalles

Proceso de desarrollo del software modelo en cascada

Proceso de desarrollo del software modelo en cascada Proceso de desarrollo del software modelo en cascada Análisis: Necesidades del usuario especificaciones Diseño: Descomposición en elementos que puedan desarrollarse por separado especificaciones de cada

Más detalles