Text Mining Introducción a Minería de Datos



Documentos relacionados
Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Base de datos II Facultad de Ingeniería. Escuela de computación.

Darío Álvarez Néstor Lemo

CLASIFICACIÓN NO SUPERVISADA

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Análisis Estadístico de Datos Climáticos

Trabajo final de Ingeniería

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

Análisis y cuantificación del Riesgo

Proceso del KDD (minería de datos o DataMining)

Ciclo de vida del software

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Análisis de Asociaciones

Minería de Datos. Vallejos, Sofia

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Data Mining Técnicas y herramientas

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

CONSIDERACIONES GENERALES DEL WEB MINING

ANALISIS MULTIVARIANTE

Similaridad y Clustering

Optimización de Procesos

Creación y administración de grupos de dominio

Patrones de software y refactorización de código

Cuestionario: 1) Utilizas o haz utilizado la línea de colectivo 128? Sí, No? 2) Crees qué se encuentra en buen estado de servicio? Sí, No?

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Indicaciones específicas para los análisis estadísticos.

Entender el funcionamiento de los relojes permitiría lidiar con ciertas patologías en humanos. 28 ACTUALIDAD EN I+D RIA / Vol. 41 / N.

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina)

ESTIMACIÓN. puntual y por intervalo

INGENIERÍA DEL SOFTWARE

Habilidades y Herramientas para trabajar con datos

Encuesta Permanente de Hogares

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

*TALLER DE MATEMÁTICAS. Primer grado 2012

La inteligencia de marketing que desarrolla el conocimiento

Fundamentos del diseño 3ª edición (2002)

Apoyo para la preparación de los estudios de Ingeniería y Arquitectura Física (Preparación a la Universidad) Unidad 4: Vectores

"Módulo OOWS para StarUML" INTRODUCCIÓN

CAPÍTULO I. Introducción. En la industria del hospedaje a través del tiempo se han dado diversos cambios en la

Metadatos en Plataformas ECM

Parte I: Introducción

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Un nombre de usuario de 30 caracteres o menos, sin caracteres especiales y que inicie con una letra.

Capítulo 12: Indexación y asociación

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

TEMA 7: Análisis de la Capacidad del Proceso

PARA QUÉ NÚMEROS REALES... 2 SUCESIONES... 3 NÚMEROS COMPLEJOS... 5 CÓNICAS... 6 FUNCIÓN INVERSA... 7 FUNCIONES CUADRÁTICAS... 8

ARREGLOS DEFINICION GENERAL DE ARREGLO

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Administración de proyectos. Organizar, planificar y programar los proyectos de software

Medidas de tendencia central o de posición: situación de los valores alrededor

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Minería de Datos. Vallejos, Sofia

Clasificación Bayesiana de textos y páginas web

Trabajo Practico N 12

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Testing ágil en las Empresas de Software del. Cluster TIC Villa María

La metodologia Cuantitativa. Encuestas y muestras

Portafolio de Servicios y Productos

MUESTREO TIPOS DE MUESTREO

Finanzas e Investigación de Mercados"

30 oct. SAP Fraud Management. El Camino a la transparencia. La necesidad Gestionar en tiempo real. El medio Una plataforma in-memory

UNIVERSIDAD DR. JOSE MATIAS DELGADO Facultad de Economía, Empresas y Negocios

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

Registro (record): es la unidad básica de acceso y manipulación de la base de datos.

Q-flow 3.1: Enterprise Edition

Sistemas de Información Geográficos (SIG o GIS)

UNIDADES DE ALMACENAMIENTO DE DATOS

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare.

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

SEGURIDAD Y PROTECCION DE FICHEROS

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

1.1. Introducción y conceptos básicos

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.1 UML: Introducción

REPUTACIÓN LO QUE TOMA AÑOS CONSTRUIR PUEDE VERSE AFECTADO CRITICAMENTE POR UN SOLO EVENTO

La selección del mercado meta es esencialmente idéntica, sin importar si una firma vende un bien o servicio.

TEMA 3: Ayuda a la toma de decisiones

Visión global del KDD

Tema 3. Medidas de tendencia central Introducción. Contenido

Procesamiento de Texto y Modelo Vectorial

Implementación del sistema

Método k-medias. [ U n a i n t r o d u c c i ó n ]

PUEDE MEDIRSE EL PODER DE VENTAS DE LOS ANUNCIOS BASADOS EN UN MENSAJE DE VENTA EMOCIONAL?

Transcripción:

Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008

qué es la minería de datos? A technique using software tools geared for the user who typically does not know exactly what he s searching for, but is looking for particular patterns or trends. http://www.dmreview.com/rg/resources/glossary.cfm Discovery mode of data analysis, or analyzing detail data to unearth unsuspected or unknown relationships, patterns and associations that might be of value to the organization. Most often associated with predictive analysis. http://it.csumb.edu/departments/data/glossary.html áreas relacionadas: exploratory data analysis machine learning

qué es la minería de datos? A technique using software tools geared for the user who typically does not know exactly what he s searching for, but is looking for particular patterns or trends. http://www.dmreview.com/rg/resources/glossary.cfm Discovery mode of data analysis, or analyzing detail data to unearth unsuspected or unknown relationships, patterns and associations that might be of value to the organization. Most often associated with predictive analysis. http://it.csumb.edu/departments/data/glossary.html áreas relacionadas: exploratory data analysis looking at data to form hypotheses worth testing machine learning

qué es la minería de datos? A technique using software tools geared for the user who typically does not know exactly what he s searching for, but is looking for particular patterns or trends. http://www.dmreview.com/rg/resources/glossary.cfm Discovery mode of data analysis, or analyzing detail data to unearth unsuspected or unknown relationships, patterns and associations that might be of value to the organization. Most often associated with predictive analysis. http://it.csumb.edu/departments/data/glossary.html áreas relacionadas: exploratory data analysis machine learning discover patterns in the data that relate data attributes with a target (class) attribute. These patterns are then utilized to predict the values of the target attribute in future data instances.

qué es la minería de datos? A technique using software tools geared for the user who typically does not know exactly what he s searching for, but is looking for particular patterns or trends. http://www.dmreview.com/rg/resources/glossary.cfm Discovery mode of data analysis, or analyzing detail data to unearth unsuspected or unknown relationships, patterns and associations that might be of value to the organization. Most often associated with predictive analysis. http://it.csumb.edu/departments/data/glossary.html áreas relacionadas: exploratory data analysis machine learning The data have no target attribute. We want to explore the data to find some intrinsic structures in them.

diferencias entre minería de datos y minería de texto en la minería de texto encontramos input no estructurado, es necesario identificar entidades identificar relaciones falta de abstracción, porque los ejemplos no están clasificados (etiquetados) o las clases son muy chicas alta dimensionalidad difícil de interpretar no está conectado con otros tipos de conocimiento rango de resultados totalmente desconocido

algunas técnicas de minería de datos técnicas no supervisadas reglas de asociación vs. reglas orientadas a clases minado de secuencias clustering vs. clasificación

reglas de asociación las reglas de asociación son el ejemplo prototípico de minería de datos, y su aplicación típica, el análisis de la canasta de mercado los datos son categóricos (y los contínuos?) I = {i 1, i 2,..., i n } un conjunto de items la transacción t es un conjunto de items t I la base de datos es un conjunto de transacciones T = {t 1, t 2,..., t n } qué serían items, transacciones, etc. en una base de datos de un hipermercado? qué serían items, transacciones, etc. en una base de datos de un e-comerciante? qué serían items, transacciones, etc. en una base de datos de documentos?

el modelo: las reglas un itemset X es un conjunto de items en I, X I el concepto de frequent itemset es básico para varios algoritmos una transacción t contiene un itemset X si X t una regla es una implicación de forma X Y, donde X, I I y X Y = en un conjunto de transacciones T, el soporte de una regla es el porcentaje de transacciones T que contienen X Y (s = Pr(X Y )) la confianza de una regla es el porcentaje de transacciones de T que contienen X y también Y (c = Pr(Y X )) el usuario especifica un soporte y confianza mínimos puede haber diferentes valores (especialmente de soporte) para diferentes items, condicionados por la probabilidad de ocurrencia de cada item (así recuperamos reglas con items que ocurren poco)

cuestiones sobre las reglas se encuentran todas las reglas (pueden ser muchas) se representa a los items de forma atómica, simplificando (sin atributos como precio, cantidad, etc.) muchos algoritmos: Apriori es uno de los más eficientes, se basa en frequent itemsets Rakesh Agrawal, Ramakrishnan Srikant. 1994. Fast Algorithms for Mining Association Rules. Proc. 20th Int. Conf. on Very Large Data Bases, VLDB. no se puede aplicar si se usan diferentes valores de soporte no hay objetivos predefinidos en la parte derecha de la regla por eso es no supervisado si el usuario está interesado en ciertos items usa reglas de asociación de clases (CARs) ejemplos de clases que nos podrían interesar en un hipermercado? en una colección de documentos?

reglas de asociación vs. reglas de asociación de clase (CARs) en las CARs, hay que encontrar los ruleitems que superan el soporte mínimo especificado un ruleitem es una tupla (conjunto de condiciones, clase) un conjunto de condiciones es un itemset una CAR tiene la forma conjunto de condiciones clase se pueden usar diferentes soportes y confianzas mínimos para diferentes clases si no queremos que se generen reglas para una clase, podemos determinar que su soporte mínimo sea de 100%

minado en secuencias asunción básica: el orden importa (vs. reglas simples, sin orden) objetivo: encontrar patrones en secuencias, por ejemplo: orden de compra de productos (para eso las tarjetas de fidelización!) comportamiento navegacional de usuarios uso de disco, red, etc. adn, proteínas el texto es una secuencia!!!!

el modelo en minado de secuencias una secuencia es una lista ordenada de itemsets, donde cada itemset es un elemento de la secuencia el tamaño de una secuencia es su cantidad de elementos (itemsets) la longitud de una secuencia es su cantidad de items el soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto de secuencias S las secuencias frecuentes (o patrones secuenciales) son las subsecuencias de una secuencia que tienen un soporte mínimo

qué es clustering? Clustering is a process of partitioning a set of data into subsets or clusters such that a data element belonging to a cluster is more similar to data elements belonging to the same cluster than the data elements belonging to other clusters. http://www.dmreview.com/rg/resources/glossary.cfm cómo se representan los objetos? cómo se calcula la semejanza? cómo se agrupan los elementos? cómo sabemos si una solución de clustering es buena?

qué es clustering? Clustering is a process of partitioning a set of data into subsets or clusters such that a data element belonging to a cluster is more similar to data elements belonging to the same cluster than the data elements belonging to other clusters. http://www.dmreview.com/rg/resources/glossary.cfm cómo se representan los objetos? los objetos se representan como vectores, donde cada característica es una dimensión se requiere buen conocimiento del dominio y también de cómo funcionan las técnicas de clustering cómo se calcula la semejanza? cómo se agrupan los elementos? cómo sabemos si una solución de clustering es buena?

qué es clustering? Clustering is a process of partitioning a set of data into subsets or clusters such that a data element belonging to a cluster is more similar to data elements belonging to the same cluster than the data elements belonging to other clusters. http://www.dmreview.com/rg/resources/glossary.cfm cómo se representan los objetos? cómo se calcula la semejanza? medidas de distancia geométrica en un espacio vectorial: distancia eucĺıdea, coseno de los vectores, etc. medidas de diferencia de distribuciones de probabilidad: divergencia de Kullback-Leibler cómo se agrupan los elementos? cómo sabemos si una solución de clustering es buena?

qué es clustering? Clustering is a process of partitioning a set of data into subsets or clusters such that a data element belonging to a cluster is more similar to data elements belonging to the same cluster than the data elements belonging to other clusters. http://www.dmreview.com/rg/resources/glossary.cfm cómo se representan los objetos? cómo se calcula la semejanza? cómo se agrupan los elementos? métodos jerárquicos vs. planos métodos partitivos vs. aglomerativos k-means diferentes criterios (algoritmos) para crear o dividir clusters: el cluster con mayor semejanza, con mayor disparidad, media cómo sabemos si una solución de clustering es buena?

qué es clustering? Clustering is a process of partitioning a set of data into subsets or clusters such that a data element belonging to a cluster is more similar to data elements belonging to the same cluster than the data elements belonging to other clusters. http://www.dmreview.com/rg/resources/glossary.cfm cómo se representan los objetos? cómo se calcula la semejanza? cómo se agrupan los elementos? cómo sabemos si una solución de clustering es buena? un experto inspecciona el contenido de los clusters se ofrece contenido representativo: el medoide, las características más frecuentes pureza: mayor semejanza entre los elementos de un cluster, mayor disparidad entre los elementos de distintos clusters poder clasificador del modelo resultante comparación con algunas clases parcialmente supervisado

para qué sirve el clustering? agrupar clientes con el mismo comportamiento con los mismos gustos, para recomendar a unos lo que gustó a los otros (p.ej., Netflix Prize) detectar clientes con un alto riesgo para una compañía aseguradora detectar pacientes con un alto riesgo de desarrollar cáncer predecir el tiempo? ;) en tratamiento del lenguaje natural agrupar palabras que se comportan igual co-ocurren con las mismas palabras ocurren en las mismas estructuras sintácticas ocurren en los mismos contextos de documentos identificar grupos de significados parecidos identificar temas (topics), posiblemente armando una jerarquía de temas (deportes futbol Bundesliga...)

k-means: el método más simple 1. el usuario determina k = número de clusters 2. se eligen como centros de clusters (centroides) iniciales k puntos en el espacio de objetos (al azar o con algún criterio) 3. cada objeto se asigna al centroide más cercano 4. se re-calculan los centroides en base a la población de cada cluster 5. si no se llegó al criterio de convergencia, volver a 2. criterio de convergencia: no hay ningún cambio en los centroides o en la assignación de objetos a clusters

propiedades de k-means se puede usar con datos en disco, no necesariamente en memoria muy simple, fácil de entender e implementar eficiente converge a un óptimo local (el global es muy difícil de encontrar, mucha complejidad) es sensible a las semillas iniciales, principal razón para converger a un óptimo global sólo se puede aplicar si se puede definir una media de los valores de las características (dimensiones de los vectores) difícil para valores categóricos k es especificado por el usuario es sensible a outliers se puede usar sampling no es capaz de reconocer formas distintas a gaussianos (hiper-esferas)

clustering jerárquico produce una secuencia de clusters anidados, dendrograma

tipos de clustering jerárquico aglomerativo (bottom-up): une los dos elementos (o clusters) más semejantes partitivo (top-down): divide el cluster que contiene elementos más distintos diferentes criterios para medir la semejanza entre clusters: single link: distancia entre los dos puntos más cercanos produce clusters con forma alargada O(n 2 ) complete link: distancia entre los dos puntos más lejanos sensible a outliers O(n 2 logn) average link: media de las distancias entre todos los pares de puntos O(n 2 logn) centroides: distancia entre los centroides para reducir complejidad, se puede usar sampling o métodos de escalado