Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Documentos relacionados
APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

CRITERIOS DE SELECCIÓN DE MODELOS

Aprendizaje Automatizado

Capítulo 8. Análisis Discriminante

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Cómo se usa Data Mining hoy?

Técnicas de Minería de Datos

Minería de datos (Fases de la minería de datos)

CÁLCULO DE PROBABILIDADES

Clasificador Jerárquico de Imágenes utilizando Naive Bayes

Aprendizaje Automatizado. Árboles de Clasificación

Tema AA-4: Sesgo inductivo

Aprendizaje Supervisado K - Vecinos más cercanos Knn-Method

Ricardo Aler Mur CLASIFICADORES KNN-I

Minería de Datos. Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria

Unidad 5: MODELO DE COMPORTAMIENTO - ESQUEMA DE DATOS CARACTERÍSTICAS DEL ESQUEMA DE DATOS DIAGRAMA ENTIDAD RELACIÓN (D.E.R.)

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Inteligencia Artificial Técnicas de clasificación

3. Árboles de decisión

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

Tema 7: Aprendizaje de árboles de decisión

Taller Minería de datos aplicados a la educación

Aplicaciones empresariales

Capítulo 3. Polinomios

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

SISTEMAS INTELIGENTES

Itinerario: Inteligencia Computacional

Facultad de Ingeniería Civil y Ambiental Análisis Espacial.

Análisis de imágenes digitales

Introducción a la Minería de Datos

Nivel I: Pensamiento Memorístico (demuestra conocimiento en forma igual o casi igual a como lo aprendido).

2 OBJETIVOS TERMINALES Como resultado de aprender adecuadamente los contenidos del curso el estudiante estará en capacidad de:

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

PRÁCTICA I. Ejercicios Teóricos

Generación de Variables Aleatorias. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Vecinos próximos (IB1/IBk) Vecinos próximos

Reconocimiento Automático de Voz

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

Aprendizaje Automatizado

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Aprendizaje Supervisado Árboles de Decisión

MÉTODOS DE APRENDIZAJE INDUCTIVO

FACULTAD DE INGENIERÍA

Conceptos básicos útiles. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Primera aproximación al aprendizaje automático.

Probabilidad y Estadística

Aprendizaje basado en ejemplos.

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: ANÁLISIS DEL RIESGO ACTUARIAL Y FINANCIERO

Modelo Predictivo del Crimen para la Región Metropolitana

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

INDICADORES DE GESTION

Complejidad de los Algoritmos

Reconocimiento automático de rostros

Aux 6. Introducción a la Minería de Datos

Tema 2 Primeros Modelos Computacionales

CNCA. Colaboratorio Nacional de Computación Avanzada Centro Nacional de Alta Tecnología. Proyectos de uso de la e-infraestructura en RedCLARA

Geometría de las superficies

CONCLUSIONES. La teoría de Redes Neuronales Artificiales, presenta grandes ventajas con

Aprendizaje de conceptos. El aprendizaje como generalización

4º E.S.O. Matemáticas A

DES: Materia requisito:

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Consumir Servicios Web SOAP. CI-2454 Servicios Web Prof. Braulio José Solano Rojas ECCI, UCR

Probabilidad. 1. Conceptos previos. Teoría de conjuntos. Conceptos básicos

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

MATEMÁTICAS APLICADAS A LAS CCSS II. 1. Resolver sistemas de ecuaciones lineales mediante el método de Gauss.

Visión global del KDD

Guía docente 2007/2008

TEMARIOS EXAMEN DE ADMISIÓN 2017 EDUCACIÓN BÁSICA Y MEDIA: MATEMÁTICA. Contenido

INGENIERÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

MATEMÁTICAS APLICADAS A LAS CCSS II (2º BACHILLERATO)

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

Matemáticas I Grado de Administración y Dirección de Empresas Examen de Febrero Curso 2011/ ?

TEMARIO: CONTENIDOS, OBJETIVOS MÍNIMOS Y TIEMPO.

Tema 15: Combinación de clasificadores

Bases Formales de la Computación: Redes de Bayes (segunda parte)

Metodología de la Investigación: Validez y Confiabilidad. Prof. Reinaldo Mayol Arnao

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Variables aleatorias bidimensionales discretas

Métodos basados en instancias. K-vecinos, variantes

Asignaturas antecedentes y subsecuentes

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Ejercicio 1 (20 puntos)

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

CONTENIDO OBJETIVOS TEMÁTICOS HABILIDADES ESPECIFICAS

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Intensificación en "Lenguajes e Inteligencia Artificial"

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje

Observación: El método de Euler, es el método de Taylor de orden 1.

Transcripción:

Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Probablemente la tarea más familiar y más popular de la minería de datos. 2 de 33

Tareas de la minería de datos: clasificación Ejemplos de aplicación: Calificación de crédito (credit scoring), reconocimiento de imágenes y patrones, diagnóstico médico, detección de fallos en aplicaciones industriales, clasificar tendencias de mercados financieros,... Métodos: Análisis discriminante, árboles de decisión, reglas de clasificación, redes neuronales.

Tareas de la minería de datos: clasificación Ejemplo simple: En EE.UU. los maestros clasifican a los estudiantes en A, B, C, D o F según sus notas. Utilizando simplemente límites (60, 70, 80, 90), las siguientes clasificaciones son posibles: 90 <= nota A 80 <= nota <= 90 B 70 <= nota <= 80 C 60 <= nota < 70 D Nota < 60 F

Clasificación contra predicción En alguna literatura de minería de datos se considera a la clasificación como el emparejamiento contra clases (etiquetas de valores), mientras que la predicción está asociada a valores continuos. Es decir, en el conjunto de entrenamiento la variable objetivo es una variable continua. Finalmente, clasificación y predicción vienen siendo lo mismo, aunque se pueden hacer la diferenciación según el tipo de variable.

Clasificación: aprendizaje 6 de 33

Clasificación: pruebas 7 de 33

Preparación de los datos para clasificación y predicción Limpieza de los datos Tratamiento del ruido y de valores faltantes. Análisis de relevancia Algunos atributos en los datos pueden ser irrelevantes o redundantes. Eliminar dichos atributos mejora la eficiencia y la eficacia. Transformación de datos Se pueden hacer generalizaciones de los datos a conceptos de mayor nivel. También se pueden normalizar los datos. 8 de 33

Evaluación de métodos de clasificación Precisión en la predicción Capacidad de predecir correctamente. Eficiencia Costos computacionales. Robustez Habilidad para funcionar con ruido y ausencia de ciertos valores. Escalabilidad Habilidad para trabajar con grandes cantidades de datos. Interpretabilidad Entendimiento y comprensión que brinda. 9 de 33

Clasificación: definición formal Dada una base de datos D = {t 1, t 2,, t n } de tuplas (elementos, registros) y un conjunto de clases C = {C 1,, C m }, el problema de clasificación trata de definir un mapeo f : D C donde cada t i se asigna a una clase. Una clase C j contiene precisamente aquellas tuplas mapeadas a ella; esto es, C j = { t i f(t i ) = C j, 1<=i<=n y t i ϵ D }. 10 de 33

Clasificación: algoritmos Estadísticos Regresión simple, regresión múltiple, bayes,... Distancia k vecinos más cercanos,... Árboles de decisión ID3, C4.5, CART,... Redes neuronales Retropropagación,... Reglas Reglas de asociación,... 11 de 33

Clasificación por inducción de árboles de decisión El aprendizaje por árboles de decisión es un método comúnmente utilizado en minería de datos. El objetivo es crear un modelo que prediga el valor de una variable objetivo basándose en varias variables de entrada. Se muestra un ejemplo en las dos filminas siguientes. Cada nodo interior corresponde a a una de las variables de entrada. Hay aristas hacia un hijo para cada uno de los posibles valores de dicha variable de entrada. Cada hoja representa un valor de la variable objetivo dados los valores de las variables entrada representadas por el camino de la raíz a la hoja. 12 de 33

Clasificación por inducción de árboles de decisión edad ingreso estudiante calificación_crédito clase:compra_computador <=30 alto no suficiente no <=30 alto no excelente no 31...40 alto no suficiente sí >40 medio no suficiente sí >40 bajo sí suficiente sí >40 bajo sí excelente no 31...40 bajo sí excelente sí <=30 medio no suficiente no <=30 bajo sí suficiente sí >40 medio sí suficiente sí <=30 medio sí excelente sí 31...40 medio no excelente sí 31...40 alto sí suficiente sí >40 medio no excelente no 13 de 33

Clasificación por inducción de árboles de decisión 14 de 33

Clasificación por inducción de árboles de decisión Un árbol puede ser aprendido separando el conjunto fuente en subconjuntos basados en una prueba de valor de atributo. Este proceso es repetido en cada subconjunto derivado de una manera recursiva llamada particionamiento recursivo. La recursión termina cuando el subconjunto en un nodo tiene para todos sus miembros el mismo valor de la variable objetivo o cuando separar ya no agrega valor a la predicción. 15 de 33

Clasificación por inducción de árboles de decisión Los datos vienen en registros de la forma: (x,y) = (x 1, x 2, x 3,..., x k, Y) La variable dependiente Y es la variable objetivo que se está tratando de explicar, clasificar o generalizar. El vector x está compuesto de las variables de entrada The vector x is composed of the input variables x 1, x 2, x 3, etc., que son usadas para la tarea de minería. 16 de 33

Clasificación por inducción de árboles de decisión 17 de 33

Clasificación por los k vecinos más cercanos (KNN) Esquema de clasificación común, basado en el uso de medidas de distancia. Es un tipo de aprendizaje por analogía. La técnica asume que el conjunto completo de entrenamiento incluye no sólo los datos sino también la clasificación deseada. Los datos de entrenamiento son entonces el modelo. 18 de 33

Clasificación por los k vecinos más cercanos (KNN) Cuando se va a clasificar un nuevo elemento (t) se determina su distancia contra todos los elementos en el conjunto de entrenamiento. Luego sólo se consideran los K elementos más cercanos al nuevo elemento (t). El nuevo elemento (t) es entonces clasificado en la clase mayoritaria de los vecinos cercanos. 19 de 33

Clasificación por los k vecinos más cercanos (KNN) De manera más formal: El conjunto de entrenamiento es descrito por atributos numéricos n-dimensionales. Cada individuo representa un punto en un espacio n-dimensional. Así, el conjunto de entrenamiento es almacenado en un espacio patrón n-dimensional. Cuando se clasifica un individuo nuevo se busca en el espacio patrón los k individuos más cercanos al nuevo individuo. 20 de 33

Clasificación por los k vecinos más cercanos (KNN) La cercanía es usualmente definida en términos de la distancia euclidiana, donde la distancia entre dos puntos, X=(x 1, x 2,, x n ) y Y=(y 1, y 2,, y n ) es d ( X,Y )= i=1 n (x i y i ) 2 El nuevo individuo es asignado a la clase más común o mayoritaria entre sus k vecinos más cercanos. Cuando k=1 se asigna la clase del elemento más cercano. 21 de 33

Clasificación por los k vecinos más cercanos (KNN): ejemplo 22 de 33

Clasificación por los k vecinos más cercanos (KNN): algoritmo 23 de 33

Clasificación por los k vecinos más cercanos (KNN) La técnica KNN es muy sensible a la escogencia de k. Una regla práctica es k menor o igual a la raíz del número de elementos de entrenamiento. Los clasificadores de vecinos más cercanos son aprendizaje basados en instancia o aprendizaje flojo (lazy learning). Tienen mayor eficiencia en el entrenamiento. Sin embargo, los costos computacionales pueden ser caros en la clasificación si los individuos de entrenamiento (el modelo) son muchos. 24 de 33

Regresión lineal simple 25 de 33

Regresión lineal simple 26 de 33

Regresión lineal simple 27 de 33

Regresión lineal simple 28 de 33

Regresión lineal simple 29 de 33

Clasificación bayesiana ingenua Sea X un conjunto de datos cuya clase es desconocida. Sea H alguna hipótesis tal que el conjunto de datos pertenece a una clase C. Se desea entonces determinar P(H X), la probabilidad de que la hipótesis H sea válida dados los datos observados en X. P(H X) es la probabilidad posterior, o la probabilidad a posteriori, de H condicionada en X. 30 de 33

Clasificación bayesiana ingenua El teorema de Bayes es útil en el hecho de que provee una manera de calcular la probabilidad posterior, P(H X), de P(H), P(X) y P(X H). El teorema de Bayes adaptado a la clasificación es: P(H X )= P ( X H ) P(H ) P( X ) 31 de 33

Clasificación bayesiana ingenua: ejemplo edad ingreso estudiante calificación_crédito clase:compra_computador <=30 alto no suficiente no <=30 alto no excelente no 31...40 alto no suficiente sí >40 medio no suficiente sí >40 bajo sí suficiente sí >40 bajo sí excelente no 31...40 bajo sí excelente sí <=30 medio no suficiente no <=30 bajo sí suficiente sí 31...40 medio sí suficiente sí <=30 medio sí excelente sí >40 medio no excelente sí >40 alto sí suficiente sí 31...40 medio no excelente no 32 de 33

Gracias por su atención! Preguntas?