Qué es Minería de Texto?

Transcripción

1 MINERÍA DE TEXTO

2 Qué es Minería de Texto? encontrar regularidades interesantes en conjuntos de datos textuales enormes (Usama Fayad) donde interesante significad : no-trivial, escondido, previamente desconocido y potencialmente útil. encontrar información semántica y abstracta de la forma superficial a los datos textuales

3 Qué áreas están activas en el análisis de datos de procesamiento de texto?

4 Por qué texto es difícil? (M.Hearst 97) Conceptos abstractos son difíciles de representar. Incontables combinaciones de sutilezas, Relaciones abstractas entre conceptos. Muchas formas de representar conceptos similares E.g. nave especial, objeto volador, UFO Conceptos son difíciles de visualizar Alta dimensionalidad Decenas o cientos de miles de características

5 Por qué texto es fácil? Data altamente redundante la mayoría de los métodos cuentan sobre esta propiedad Cualquier simple algoritmo puede conseguir Buenos resultados para tareas simples: Extraer (Pull out) frases importantes. Encontrar palabras relacionadas significativas. Crear algún tipo de resumen de documentos.

6 Niveles de Procesamiento de Texto 1/6 Nivel Palabra Propiedades de palabras. Stop-Words. Origen (Stemming). N-Gramos frecuentes. Thesaurus (WordNet) Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

7 Propiedades de Palabra Relaciones entre palabras, formas superficiales y sus sentidos: Homonomía: misma forma, pero diferente significado (e.g. banco: banco rio, institución financiera). Polisemia: misma forma, significado relacionado (e.g. banco: banco de sangre, institución financiera). Sinonimia: formas diferentes, significado igual (e.g. cantante, vocalista). Hiponimia: una palabra denota una sub clase de otra (e.g. desayuno, comida) Frecuencias de Palabras tiene distribuciones importantes: pequeño número de palabras muy frecuentes. gran número de palabras de poca frecuencia

8 Stop-words Stop-words son palabras que desde el punto de vista no linguístico no traen información importante. tienen principalmente un rol functional. usualmente las removemos para ayudar a los métodos funcionar mejor Dependencia natural del lenguaje: Inglés: A, ABOUT, ABOVE, ACROSS, AFTER, AGAIN,AGAINST, ALL, ALMOST, ALONE, ALONG, ALREADY, ALSO,... Slovenio: A, AH, AHA, ALI, AMPAK, BAJE, BODISI, BOJDA,BRŽKONE, BRŽCAS, BREZ, CELO, DA, DO,... Croata: A, AH, AHA, ALI, AKO, BEZ, DA, IPAK, NE, NEGO,... Español: un, una, unas, unos, uno, sobre, todo, también,

9 Texto original Information Systems Asia Web provides research, IS-related commercial materials, interaction, and even research sponsorship by interested corporations with a focus on Asia Pacific region. Survey of Information Retrieval guide to IR, with an emphasis on web-based projects. Includes a glossary, and pointers to interesting papers. Después de remover stop words Information Systems Asia Web provides research IS-related commercial materials interaction research sponsorship interested corporations focus Asia Pacific region Survey Information Retrieval guide IR emphasis web-based projects Includes glossary pointers interesting papers

10 Derivación(I) Diferentes formas de la misma palabra son usualmente problemáticas para el análisis de text, porque tienen diferente deletreo y significado similar (e.g. learns, learned, learning, ) Es el proceso de transformar una palabra en su raíz (forma normalizada)

11 Derivación(II) Para el inglés no es un gran problema, algoritmos públicos han dado Buenos resultados, El más usado es Porter para inglés. Ejemplo: en Eslovenio existen de 10 a 20 maneras que corresponden a la misma palabra : Ejm: ( to laugh in Slovenian): smej, smejal, smejala, smejale, smejali, smejalo, smejati, smejejo, smejeta, smejete, smejeva, smeješ, smejemo, smejiš, smeje, smejoc, smejta, smejte, smejva

12 Reglas en cascada de ejemplo usadas en Porter ATIONAL -> ATE relational -> relate TIONAL -> TION conditional -> condition ENCI -> ENCE valenci -> valence ANCI -> ANCE hesitanci -> hesitance IZER -> IZE digitizer -> digitize ABLI -> ABLE conformabli -> conformable ALLI -> AL radicalli -> radical ENTLI -> ENT differentli -> different ELI -> E vileli - > vile OUSLI -> OUS analogousli -> analogous

13 Letras en Español incluyen acentos á é í ó ú ü ñ Vocales: a e i o u á é í ó ú ü

14 Definir R1 y R2 La mayoría de las podadoras usan al menos una de las definiciones de región R1 y R2. Definidas como sigue: R1 es la región después de la primera letra consonante siguiendo una vocal o es región nula al final de la palabra en el caso que no exista tal consonante. R2 es la region después de la primera consonante que siga una vocal en R1, o es la region nula al final de la palabra si no hay tal consonante. La definición de vocal varía de lenguaje a lenguaje. En francés por ejemplo, é es una vocal, en italiano i entre dos vocals no es una vocal. La clase de letras que son vocales deben ser claras para cada podador. R1 y R2 son mostradas para un número de palabras en Inglés. b e a u t i f u l < > R1 <-----> R2

15 Word Steam Word Steam che che torá tor checa chec tórax torax checar chec torcer torc checo chec toreado tor checoslovaquia checoslovaqui toreados tor

16 Frases en la forma de N-Gramos frecuentes Forma simple de generar frases con ngrams frecuentes: N-Gram es una secuencia de n palabras consecutivas (e.g. aprendizaje de máquina es 2-gram) n-grams frecuentes son los únicos que aparecen en todos los documentos observados MinFreq o más veces. N-grams son interesantes a causa de lo simple y eficiente del algoritmo de programación dinámica: Dado: Conjunto de documentos (cada documento es una secuencia de documentos), MinFreq (frecuencia mínima de n-gram), MaxNGramSize (máxima longitud de n-gram) For Len = 1 to MaxNGramSize do Generar n-grams candidatos como secuencias de palabras de tamaño Len que usan n-grams frecuentes de longitud Len-1 Eliminar n-grams candidatos con la frecuencia menor que MinFreq

17 Generación de n-grams frecuentes para 50,000 documentos de Yahoo # features 1.6M 1.4M 1.2M 1M

18 Original text on the Yahoo Web page: 1.Top:Reference:Libraries:Library and Information Science:Information Retrieval 3.Idomeneus - IR \& DB repository - These pages mostly contain IR related resources such as test collections, stop lists, stemming algorithms, and links to other IR sites. 2.UK Only 4.University of Glasgow - Information Retrieval Group - information on the resources and people in the Glasgow IR group. 5.Centre for Intelligent Information Retrieval (CIIR). 6.Information Systems Asia Web - provides research, IS-related commercial materials, interaction, and even research sponsorship by interested corporations with a focus on Asia Pacific region. 7.Seminar on Cataloging Digital Documents 8.Survey of Information Retrieval - guide to IR, with an emphasis on web-based projects. Includes a glossary, and pointers to interesting papers. 9.University of Dortmund - Information Retrieval Group Document represented by n-grams: 1."REFERENCE LIBRARIES LIBRARY INFORMATION SCIENCE (\#3 LIBRARY INFORMATION SCIENCE) INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL)" 2."UK" 3."IR PAGES IR RELATED RESOURCES COLLECTIONS LISTS LINKS IR SITES" 4."UNIVERSITY GLASGOW INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GROUP INFORMATION RESOURCES (\#2 INFORMATION RESOURCES) PEOPLE GLASGOW IR GROUP" 5."CENTRE INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL)" 6."INFORMATION SYSTEMS ASIA WEB RESEARCH COMMERCIAL MATERIALS RESEARCH ASIA PACIFIC REGION" 7."CATALOGING DIGITAL DOCUMENTS" 8."INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GUIDE IR EMPHASIS INCLUDES GLOSSARY INTERESTING" 9."UNIVERSITY INFORMATION RETRIEVAL (\#2 INFORMATION RETRIEVAL) GROUP"

19 WordNet Bases de Datos de relaciones léxicas WordNet es la base de datos más desarrollada y ampliamente utilizada para Inglés consiste de 4 bases de datos (sustantivos, adverbios, adjetivos y verbos). - Cada base de datos consiste de entradas de un conjunto sinónimos: musician, instrumentalist, player person, individual, someone life form, organism, being

20 Relaciones de WordNet Relación Definición Ejemplo Hipernimia De conceptos a subordinados Desayuno comida Hiponimia De conceptos a subtipos Comida - cena Tiene Miembros De grupos a sus miembros Facultad - profesor Miembro de De miembros a sus grupos Copiloto - tripulación Tiene parte De todos a partes Mesa - pata Parte de De partes a todos Curso comida Antónimos Opuestos Lider - seguidor

21 Niveles de Procesamiento de Texto 2/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

22 Niveles de Procesamiento de Texto 3/6 Nivel Palabra Nivel de Oración Nivel de Documento Resúmenes Visualización de Documentos Simples Segmentación de Texto Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados Nivel de Aplicación

23 Resúmenes La tarea es producir una versión resumida del documento original. Dos principales aproximaciones del problema: Riqueza de Conocimiento realizar análisis semántico, representando el significado y generación el texto que satisfaga restricciones de longitud. Basados en Selección

24 Resúmenes basados en selección Tres fases principales: Analizar el texto fuente. Determinar sus puntos importantes. Sintetizar una salida apropiada. La mayoría de los métodos adoptan modelos por pesos cada unidad del texto (sentencia) es evaluada por: Peso(U)=Ubicación en el texto(u)+frase(u)+estadísticas(u)+presenciasadicionales(u) un montón de heurística y afinamiento de parámetros La salida consiste en las unidades de texto más frecuentes.

25

26 Por qué es difícil la visualización de un simple documento? La visualización de grandes textos es una tarea más fácil a causa de la cantidad de información: estadísticas empiezan a trabajar. la mayoría de aproximaciones están basadas en estadísticas. Visualización de un simple documento (corto) es una tarea más difícil: no podemos contar con propiedades estadísticas del texto (faltan datos). Debemos confiar en estructuras sintácticas y estructura lógica del documento

27 Aproximación Simple El texto está dividido en oraciones. Cada oración está altamente dividida (parser) en su forma lógica. Resolución anáfora es hecha en todas las oraciones. todas las referencias él, ella, ellos, de él, su son reemplazadas por su nombre propio. De la oración se extrae [Sujeto Predicado Objetos triples] (SPO). La forma SPO se enlaza al gráfico. finalmente, dibujamos un gráfico

28

29

30 Segmentación de Textos Problema: dividir el texto que no tienen una estructura en segmentos de similar contenido. Ejemplos de aplicación. Seguimiento de noticias. Identificación del tema en bases de datos textuales no estructuradas.

31 Algoritmos para Segmentación de Texto Algoritmo: Dividir el texto en oraciones. Representar cada oración con palabras o frases que contiene. Calcular la similitud entre pares de oraciones. Encontrar un segmento (secuencias de delimitadores), de tal formar que la similitud entre las oraciones en el mismo segmento es maximizada y minimizada entre segmentos. Las aproximaciones puede ser definidas como un problema de optimización o ventana deslizante.

32 Niveles de Procesamiento de Texto 4/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Representación. Selección de características. Similitud de Documentos. Cambio de Representación (LSI). Categorización (lineal, jerárquica). Agrupamiento (lineal, jerárquica). Visualización. Extracción de información Nivel de Colección de Documentos Enlazados Nivel de Aplicación

33 Representación de Bolsa de palabras

34 Peso de palabras En la representación de bolsa de palabras cada palabra es representada como una variable separada que tiene un peso numérico. El esquema más popular es la frecuencia de palabras normalizada TFIDF: Tf(w) frecuencias de términos(número de ocurrencias de la palabra en un documento). Df(w) frecuencia del documento (número de documentos que contienen la palabra. N número de todos los documentos. TFIDF(w) importancia relativa de la palabra en el documento

35 Documento de Ejemplo y su representación en vector TRUMP MAKES BID FOR CONTROL OF RESORTS Casino owner and real estate Donald Trump has offered to acquire all Class B common shares of Resorts International Inc, a spokesman for Trump said. The estate of late Resorts chairman James M. Crosby owns 340,783 of the 752,297 Class B shares. Resorts also has about 6,432,000 Class A common shares outstanding. Each Class B share has 100 times the voting power of a Class A share, giving the Class B stock about 93 pct of Resorts' voting power. [RESORTS:0.624] [CLASS:0.487] [TRUMP:0.367] [VOTING:0.171] [ESTATE:0.166] [POWER:0.134] [CROSBY:0.134] [CASINO:0.119] [DEVELOPER:0.118] [SHARES:0.117] [OWNER:0.102] [DONALD:0.097] [COMMON:0.093] [GIVING:0.081] [OWNS:0.080] [MAKES:0.078] [TIMES:0.075] [SHARE:0.072] [JAMES:0.070] [REAL:0.068] [CONTROL:0.065] [ACQUIRE:0.064] [OFFERED:0.063] [BID:0.063] [LATE:0.062] [OUTSTANDING:0.056] [SPOKESMAN:0.049] [CHAIRMAN:0.049] [INTERNATIONAL:0.041] [STOCK:0.035] [YORK:0.035] [PCT:0.022] [MARCH:0.011]

36 Selección de subconjunto de características

37 Selección de subconjunto de características Seleccionar solamente las mejores características (diferentes formas para definir el mejor diferente medidas de evaluación de características. El más frecuente. El más informativo relacionado a todos los valores de clase. El más informativo relacionado al valor de clase positivo.

38 Evaluación de características individuales Ganancia de Información Entropía cruzada. Información Mutua. Pesaje de EVID. Ratio de posibilidades. Frecuencias.

39 Ejemplo de mejores características Odds Ratio feature score [P(F pos), P(F neg)] IR 5.28 [0.075, ] INFORMATION RETRIEVAL RETRIEVAL 4.77 [0.075, ] GLASGOW 4.72 [0.03, ] ASIA 4.32 [0.03, ] PACIFIC 4.02 [0.015, ] INTERESTING 4.02[0.015, ] EMPHASIS 4.02 [0.015, ] GROUP 3.64 [0.045, ] MASSACHUSETTS 3.46 [0.015,...] COMMERCIAL 3.46 [0.015,0.0005] REGION 3.1 [0.015, ] Information Gain feature score [P(F pos), P(F neg)] LIBRARY 0.46 [0.015, 0.091] PUBLIC 0.23 [0, 0.034] PUBLIC LIBRARY 0.21 [0, 0.029] UNIVERSITY 0.21 [0.045, 0.028] LIBRARIES [0.015, 0.026] INFORMATION 0.17 [0.119, 0.021] REFERENCES [0.015, 0.012] RESOURCES 0.11 [0.029, ] COUNTY [0, ] INTERNET [0, ] LINKS [0.015, ] SERVICES [0, ]

40 Similitud de Documentos Similitud por Coseno Cada documento es representada como un vector de pesos D = <x>. Similitud entre vectores es estimada por la similitud entre su vector de representación (coseno del ángulo entre ventores):

41 Indexación Semántica Latente (LSI) Es una técnica estadística que trata de estimar el contenido oculto de la estructura del documento: Usa técnicas de algebra lineal Descomposición de valor singular (SVD). Descubre estadísticamente las co-ocurrencias más significativas de términos.

42 Ejemplo de LSI

43 Categorización de Texto

44 Categorización de Documento Aprendizaje de Máquinas Documentos No etiquetados Documentos etiquetados Clasificador de Documentos Categoría de Documentos (etiqueta)

45 Categorización Automática de Documentos Dado un conjunto de documentos etiquetados con categorías de contenido. La meta es: construir un modelo que automáticamente asigne las categorías del contenido a documentos no etiquetados. Las categorías puede ser: No estructuradas (Ejm: Reuters) o Estructurados (Ejm: Yahoo, Dmoz, Medline)

46 Algoritmos para aprendizaje de clasificación Algoritmos populares para categorización de texto: Máquina de Soporte Vectorial. Regresión Logística. Perceptrón. Naive Bayes. Winnow. Vecino más cercano

47 Perceptrón Entrada: conjunto de documentos pre-clasificados. Salida: modelo, un peso para cada palabra del vocabulario. Algoritmo: Inicializar el modelo configurando los pesos a 0. Iterar a través de los documentos N veces. Clasificar el documento X representado como una bolsa de palabras. Predecir clases positivas caso contrario clases negativas Si la clasificación está mal entonces ajustar pesos de todas las palabras que aparecen en el documento Sign(positive) = 1 Sign(positive) = -1

48 Medidas de Éxito Precisión de la Clasificación. Punto de evento de quiebre (precisión = rellamada) F-measure (precisión, rellamada = sensibilidad)

49 Conjunto de Datos Reuters Categorización a categorías lineales Los documentos clasificados por editores en una o más categorías. Disponibles públicamente las noticias de Reuters principalmente desde 1987: 120 categorías dando el contenido del documento, tales como: oreja, adquirir, maíz, arroz, los trabajos, las semillas oleaginosas, el oro, el café, vivienda, ingresos,.. desde el 2000 está disponible un nuevo conjunto de datos de documentos Reuters disponibles para investigación.

50 Distribución de Documentos (Reuters-21578)

51 Ejemplos de modelo de Perceptrón para la categoría «acquisition» de Reuters Feature Positive ClassWeight STAKE 11.5 MERGER 9.5 TAKEOVER 9 ACQUIRE 9 ACQUIRED 8 COMPLETES 7.5 OWNERSHIP 7.5 SALE 7.5 OWNERSHIP 7.5 BUYOUT 7 ACQUISITION 6.5 UNDISCLOSED 6.5 BUYS 6.5 ASSETS 6 BID 6 BP 6 DIVISION 5.5

52 SVM, Perceptrón y Winnow Rendimiento para categorización de texto en Reuters con diferentes representaciones

53 Comparación usando SVM o poda de 1-gramo con resultados relacionados

54 Categorización de Texto en jerarquía de categorías Existen algunas jerarquías (taxonomías) de documentos de texto: Yahoo, DMOZ, Medline, Diferentes personas usan diferentes aproximaciones: series de clasificadores organizados jerárquicamente. conjunto de clasificadores independientes para hojas. conjunto de clasificadores independientes para todos los nodos.

55 Jerarquía Yahoo! Jerarquía de documentos-web construidas por humanos. Existe en algunos lenguajes (inglés). Fácil acceder y actualización de regularidades. Capturar la mayoría de temas del internet. Versión en Inglés incluyen cerca de 2M páginas categorizadas en 50, 000 categorías. Contiene acerca 250Mb de archivos HTML

56 Documento a categorizar: CFP para CoNLL-2000

57 Algunas categorías generadas

58 Web Arquitectura del Sistema Construcción de Características Vectores n-grams Documentos etiquetados Jerarquía Yahoo! Definición de subproblemas Selección de Características Construcción de Clasificadores Documentos no etiquetados Clasificador de Documentos

59 Contenido de Categorías Para cada categoría de contenido existe un clasificador separado que predice la probabilidad para un nuevo documento que pertenece a esta categoría.

60 Considerando Sólo Categorías prometedoras (Naive Bayes) Documentos representados como un conjunto de secuencias de palabras W. Cada clasificador tiene dos distribuciones: P(W pos), P(W neg) Categorías prometedoras. Calcular P(pos Doc) significa alta que el clasificador tiene P(W pos) > 0 para al menos algún W del documento (de otra forma, la probabilidad a priori se retorna, P(neg) es casí 0,90

61 Resumen de Resultados Experimentales Dominio Probabilidad Ranking Precisión Rellamada Entretenimiento 0, ,44 0,80 Arte 0, ,4 0,83 Computadoras 0, ,4 0,84 Educación 0,99 9 0,57 0,65 Referencia 0,99 3 0,51 0,81

62 Agrupación de Documentos

63 Agrupación de Documentos Agrupación es un proceso de encontrar grupos naturalmente en datos de una forma no supervisada (sin etiquetas de clases preasignadas a documentos). La Mayoría de Métodos populares de agrupamiento son: K-Means Agrupamiento jerárquico Aglomerativo. EM (Mezcla gausiana)

64 Agrupamiento K-Means Dado: Conjunto de documentos (vectores TFIDF). Medidas de distancia (coseno). K (número de grupos). Para cada K grupos inicializa su centroide con un documento aleatorio. Mientras no converja. Cada documento es asignado al grupo más cercano (representado por su centroide). Para cada grupo se calculo un nuevo centroide (punto de grupo de masa, documento promedio de grupo)

65 Por qué visualización? para tener una vista de alto nivel de los temas. para ver relaciones entre los temas. para entender mejor que está sucediendo. para mostrar la naturaleza altamente estructurada del contenido textual de una forma simple. para mostrar dimensiones principales de espacios altamente dimensionales de documentos de texto.

66 Ejemplos de Visualización de Texto Visualización de Texto. Websom. ThemeScape. Visualización basada en grafos. Visualización basada en mosaico. Colección de aproximaciones disponibles:

67 WebSOM Mapas organizados para Exploración de Internet. Un mapa ordenado del espacio del documento es provisto: documentos similares se encuentran uno cerca del otro en el mapa. algoritmos que automáticamente organizan los documentos en mallas de dos dimensiones de manera que los documentos relacionados aparecen cerca a otro. basado en mapas auto organizados de Kohonen s. Demo en

68 Visualización WebSOM

69 ThemeScape Gráficamente muestra imágenes basadas en similitudes de palabras y temas en texto. Temas dentro de espacios de documentos aparecen en la pantalla del computador como un mapa de alivio de terreno natural. Las montañas indican donde los temas son dominantes, los valles dominantes indican temas débiles. Temas relacionados en concepto serán relacionados visualmente basados en muchas relaciones dentro del espacio textual. Técnicas similares de visualización

70 Visualización de Documento ThemeScape

71 Visualización Basada en Grafos El boceto del algoritmo: Documentos son transformados en la bolsa de palabras bajo la representación de vectores dispersos. A las palabras en el vector se les asigna pesos usando TFIDF. Algoritmo de Agrupamiento K-Means divide el documento en K grupos. Cada grupo consiste en documentos similares. Los documentos son comparados usando similitud por coseno. K grupos forman un grupo: Grupos son nodos en el grafo; grupos similares son enlazados. Cada grupo se representa por palabras claves características. Usando un simulador se dibuja un grafo

72 Ejemplo de visualización, Proyecto Eu IST Corpora La descripción de 1700 proyectos. Descargado de Cada documento es pocos cientos de palabras describiendo un proyecto financiado por CE. la idea es entender la estructura t relaciones entra las áreas de CE.

73

74

75 Cómo extraemos palabras claves? Palabras características para un grupo de documentos son las palabras con peso más alto en el centroide del cluster. centroide del grupo puede ser entendido como un «documento promedio» para un grupo específico de documentos. se usa el efecto provisto por el esquema TFIDF para pesar la importancia de las palabras. solución eficiente.

76 Peso TFIDF para palabras en representación de vector En recuperación de información, el esquema de pesaje más popular es la frecuencia de palabras TFIDF: Tf(w) frecuencia de términos (número de ocurrencia de palabras en un documento) Df(w) frecuencia de documentos (número de documentos que contienen la palabra) N número de todos los documentos. Tfidf(w) imporetancia relativa de la palabra en el documento

77 Visualización basada en mosaicos El boceto del algoritmo: Documentos son transformados en bolsa de palabras y representaciones de vectores dispersos. Palabras en los vectores son pesados usando TFIDF Agrupamiento top-down de dos formas construyen uan jerarquía de clusters. La jerarquía es un equivalente artificial de sujetos de índices jerárquicos (como Yahoo). Los nodos hoja de la jerarquía (nivel más bajo) son usados para visualizar los documentos. Cada hoja es representada por palabras características. Cada división binaria jerárquica divide recursivamente el área rectangular en dos sub áreas.

78

79

80 Rio de Temas (Theme River) El sistema visualiza variaciones temáticas sobre el tiempo en una colección de documentos. El rio fluye a través del tiempo, cambiando el ancho para visualizar cambios en la longitud esquemática de documentos temporalmente ubicados. Temas o tópicos son representados como corrientes «coloreados» fluyendo en el rio que incrementa o disminuye su ancho

81 Flujo de tópicos Theme River

82 Extracción de Información

83 Extrayendo Ofertas de Trabajo de la Web

84 IE de Papers

85 Qué es «Extracción de Información» Llenar espacios en una base de datos de sub segmentos de texto October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying

86 Qué es «Extracción de Información» October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying

87 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + agrupación + asociación Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation

88 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + agrupación + asociación October 14, 2002, 4:00 a.m. PT For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a superimportant shift for us in terms of code access. Richard Stallman, founder of the Free Software Foundation, countered saying Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman Founder Free Software Foundation

89 Qué es «Extracción de Información» Extracción de Information = segmentación + clasificación + asociación + agrupación

90

91 IE en Contexto Crear Ontología Spider Filtrar por relevancia Segmentar Clasificar Asociar Agrupar Colección de Documentos Datos etiquetados de entrenamiento

92 Aproximaciones a IE Reglas/modelos hechas a mano. Aprendizaje de máquinas usada en datos manualmente etiquetados. Problemas de clasificación en ventanas deslizantes. ejemplos son tomados de ventas deslizantes. modelos clasifican segmentos cortos de texto tales commo título, nombre, institución. Limitaciones de ventana deslizante porque no toma en cuenta su naturaleza de conteo secuencial del texto. Entrenar máquinas de estado finito. reconstrucción probabilística de secuencias.

93 Niveles de Procesamiento de Texto 5/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados. Etiquetado de datos. Entrenamiento. Nivel de Aplicación

94 Etiquetando Datos

95 Usando Datos etiquetados Números pequeños de documentos etiquetados y un gran número de documentos no etiquetados, ejem., clasificar un artículo en uno de los 20 grupos de noticias, clasificar páginas web como estudiante, facultad, curso, proyecto,. Descripción de aproximación (EM + Naive Bayes): Entrenar un clasificador con sólo documentos etiquetados, Asignar etiquetas de pesos-probabilísticos a documentos no etiquetados, Entrenar un nuevo clasificador usando todos los documentos. Iterar hasta que el clasificador no tenga cambios.

96 Usando Datos no Etiquetados con Esperanza Máxima Inicializar: Aprender de etiquetados solamente E-step: Estimar etiquetas de documentos No etiquetados Naive Bayes M-step: Usar todos los documentos para reconstruir clasificadores Garantiza máximo local y parámetros aposteriori

97 Co-Entrenamiento Mejor rendimiento en etiquetado de datos comparado con el enfoque EM

98 Aprendizaje Bootstrap para Clasificar Páginas Web (co-entrenamiento) Dado: un conjunto de documentos donde cada documento está descrito por dos conjuntos independientes de atributos (Ej: texto + hiperenlaces) 12 páginas etiquetadas Clasificador de Páginas Clasificador de Enlaces Contenido del Documento Hyperlink, Apuntando al documento

99 Niveles de Procesamiento de Texto 5/6 Nivel Palabra Nivel de Oración Nivel de Documento Nivel de Colección de Documentos Nivel de Colección de Documentos Enlazados. Etiquetado de datos. Entrenamiento. Nivel de Aplicación Preguntas y Respuestas. Combinando Fuentes de Datos (KDD Copa)

100 Preguntas y Respuestas Sistemas QA son respuestas cortas y precisas a preguntas tales como: Cuál es la altura del Monte Everest? Cuántos litros hay en un galón? Pueden ser clasificados en los siguientes niveles de sofisticación: Llenado de espacios preguntas fáciles, tecnología IE. Dominios limitados diccionarios artesanales & ontologías. Dominio abierto inferencia, analizadores de comandos.

101 Arquitectura de Preguntas y Respuestas PREGUNTAS Analizar y Clasificar Preguntas Generar Consultas de Palabras Claves RESPUESTAS Recuperar Documento Rankear y preparar respuesta Respuestas de Segmento Coincidir segmento con pregunta Ranking de Segmentos Analizar Segmentos Top

102 Ejemplo de Preguntas y Respuestas Ejemplo de pregunta y respuesta: Q: De qué color es el gras? A: Verde La respuesta puede venir del documento que dice: «el gras es verde» sin mencionar «color» con la ayuda de WordNet teniendo jerarquía de hipernimia: Verde, color cromático, color, propiedad visual, propiedad

103 Combinando Fuentes de Datos Aproximadamente papers de «teoría de alta energía» de arvix.org (Cornell University). Para cada paper: Texto completo (archivo TeX, por lo general sucio) Promedio de 60 Kb por paper. Total 1,7 Gb Metada en un archivo estructurado (autor, título, resumen, clases, etc.) Tarea: Cuántas veces ciertos papers han sido descargados en los primeros 60 días desde su publicación en arxiv

104 Solución Los documentos textuales han sido tratados tradicionalmente como «bolsas de palabras». El número de ocurrencias de cada palabra importa, pero el orden de las palabras es ignorado. Eficientemente representado por vectores dispersos. Los extendemos para incluir otros artículos junto a palabras («bolsa de X»). La mayoría del trabajo fue orientado a tratar varias características y ajustar sus pesos. Se usó regresión de soporte de vectores para entrenar un modelo lienal, el cual es usado para predecir los conteos. Soluciones fueron basadas en el modelo entrenado de la siguiente representación: AA + 0,005 in-degree + 0,5 in-links + 0,7 out-links + 0,3 jurnal + 0,004 title-chars + 0,6 (year 2000) + 0,15 ClusDIAvg