Técnicas de Preprocesado

Documentos relacionados
Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Visión global del KDD

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

Aprendizaje basado en ejemplos.

M1. FUNDAMENTOS DE MINERÍA DE DATOS

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

Selección de fuentes de datos y calidad de datos

CERTIFICADO DE APTITUD PEDAGÓGICA -CAP- 2007/2008

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Fundamentos de Estadística y Simulación Básica

Análisis de imágenes digitales

METODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012

Resolución de problemas de búsqueda

Preparación de Datos. Preparación de datos

Cómo se usa Data Mining hoy?

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Construcción de Gráficas en forma manual y con programados

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Data Mining utilizando Redes Neuronales. Juan M. Ale Facultad de Ingeniería Universidad de Buenos Aires

CURSO CORTO DE MONITOREO ESTRUCTURAL DICTADO POR CHARLES FARRAR Y MICHAEL TODD. EXPERTOS DE LOS ALAMOS DYNAMICS.

Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

SISTEMAS INTELIGENTES

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

Tema 3: El Método Simplex. Algoritmo de las Dos Fases.

Acuerdo del Consejo de Gobierno de fecha 22 de julio de 2009 en el que se aprueba la unificación de los sistemas de calificación.

Aprendizaje: Boosting y Adaboost

Fase 2. Estudio de mercado: ESTADÍSTICA

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Campos gravitatorios en el espacio muestral

INFORMÁTICA Y COMUNICACIONES

Weka como herramienta de data mining

DOCUMENTO DE APOYO PARA PROYECTOS

Unidad 5 Control Estadístico de la Calidad. Administración de Operaciones III

BÚSQUEDA Y CARACTERIZACIÓN DE SUBGRUPOS DE POBREZA MEDIANTE LA APLICACIÓN DE ALGUNAS TÉCNICAS DE MINERÍA DE DATOS

Text Mining Introducción a Minería de Datos

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

CÁLCULO DE PROBABILIDADES

Preprocesado de Datos

ESTADISTICA DESCRIPTIVA Y PROBABILIDAD

Inteligencia en Redes de Comunicaciones

Introducción a la Minería de Datos

Introducción al paquete estadístico SPSS:

INDICE 1. Introducción a la Contabilidad de Costos y la Administración de Costos Parte 1. Conceptos Básicos de la Administración de Costos

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Índice. Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Data Mining Técnicas y herramientas

Medidas de Tendencia Central. Dra. Noemí L. Ruiz Limardo Derechos de Autor Reservados Revisado 2010

EPB 603 Sistemas del Conocimiento

Determinación del radio de la Tierra y de los radios y distancias en el sistema Tierra-Luna-Sol

Profesor(a): Ing. Miriam Cerón Brito

Página 1 de 11. Apartado 7.9: Filtro de partículas Se incluye este apartado sobre el filtro interno de partículas del analizador.

Localización. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Curso de Excel CURSO DE

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

ADMINISTRACIÓN DE BASE DE DATOS EN ACCESS

Métodos Numéricos. Carrera: BQM Participantes. Representantes de las academias de Ingeniería Bioquímica. Academia de Ingeniería

ACCESS XP. Objetivos. Duración. 64 horas. Contenidos. Módulo 1: Introducción. Parte 1 Bienvenida Certificado MOUS Resumen

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

IBM SPSS Data Preparation

Especialidades en GII-TI

Wialon Logistics. La nueva solución de gestión de pedidos

MANUAL DE USO PROGRAMA SENSIBAR

ESTADÍSTICA I Código: 8219

MEDIDAS DE CENTRALIZACIÓN, POSICIÓN Y DISPERSIÓN. Matemáticas PAI 5 (4ºESO)

Estadística Inferencial. Estadística Descriptiva

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)

Grupo de investigación en Minería de Datos

Desambigüación del sentido de las palabras (WSD)

Porqué analizar imágenes?

El ejemplo: Una encuesta de opinión

PRÁCTICA DE CHATTER SUPERVISIÓN AUTOMÁTICA DE PROCESOS

1. Introducción 2. Esquema básico 3. Codificación 4. Evaluación 5. Selección 6. Operadores 7. Ejemplo. Algoritmos genéticos

Tema 15: Combinación de clasificadores

I. Estadística Descriptiva de una variable

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MICROSOFT OFFICE 2010

Buenas Prácticas en Bases de Datos. María del Pilar Angeles. Posgrado de la Facultad de Ingeniería, UNAM.

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I)

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

Universidad Nacional Autónoma de Nicaragua UNAN-Managua. Curso de Investigación de Operaciones

NOMBRE DEL CURSO: Excel 2010 Intermedio

Operadores aritméticos: suma (+), resta (-), producto (*), cociente (/) y potencia (**).

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

Ricardo Aler Mur CLASIFICADORES KNN-I

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje

Generación de Variables Aleatorias. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EMPRESA PRODUCTORA EMPRESA COMERCIAL EMPRESA DE SERVICIOS INMOVILIZADO EXISTENCIAS VALORACIÓN EXISTENCIAS EFICIENCIA

Trabajo de Estadística 3º ESO

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA Juan Pedro Febles KDD y MD

Estadística Descriptiva

SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.

CM0244. Suficientable

Transcripción:

Técnicas de Preprocesado Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1

Contenido Por qué preprocesar p los datos? Técnicas de filtro Depuración Tratamiento de valores ausentes (Missing) Detección de Outliers Trasformación Normalización Estandarización Atributos Calculados Discretización No Supervisada (Igual anchura/frecuencia) Supervisada: Fayyad e Irani, 1Rule, USD 2

Por qué preprocesar los datos? Los datos reales están sucios Datos incompletos: valores de atributos inexistentes Datos con ruido: errores de precisión, ió errores de medición, errores de almacenamiento Datos inconsistentes: outliers Para obtener conclusiones válidas y útiles al aplicar minería de datos, es necesario una adecuada preparación de los datos previa al proceso de minería 3

Técnicas de filtro: Depuración Tratamiento de Missings: Eliminar ejemplos con atributos missings Pérdida de información Asignar una constante t Mala interpretación WEKA t -ió Filtro: del algoritmo de aprendizaje Unsupervised Attribute ReplaceMissingValue s Sustituir por valores con influencia mínima: Continuos: Media Discretos Moda Predecir el valor (clasificación, regresión) Muy costoso 4

Técnicas de filtro: Depuración Detección de Outliers WEKA Clusterers SimplekMeans WEKA Clusterers EM Para la detección y eliminación outliers se suelen aplicar técnicas de agrupamiento (clustering): K-Means EM (Expectation Maximization) Procedimiento: Agrupar en clusters y eliminar clusters poco densos y/o lejanos 5

Técnicas de filtro: Transformación Normalización Trasforma el rango de valores a un intervalo determinado (normalmente [0,1]) ValorNorm Valor Min Max Min Es necesario si se van a aplicar algoritmos de aprendizaje aje basados en distancias para que todos los atributos estén en el mismo rango. WEKA: Filters Unsupervised Attribute Normalize 6

Técnicas de filtro: Transformación Estandarización Transforma los valores de los atributos para que tengan media 0 y desviación 1 Sólo si la distribución es normal ValorEst Valor Media Desviación WEKA: Filters Unsupervised Attribute Standardize 7

Técnicas de filtro: Nuevos atributos Se trata de añadir nuevos atributos aplicando una expresión matemática a atributos ya existentes en el conjunto de datos. Ejemplo: sepalarea = sepallength x sepalwidth WEKA: Filters Unsupervised Attribute AddExpresionp p 8

Técnicas de filtro: Discretización Hay algoritmos de aprendizaje que sólo operan con atributos discretos Transformación de atributos continuos a discretos (rango finito de valores). Consiste en dividir el rango de valores continuos en un conjunto o finito de intervalos aos (o cortes). Ejemplo: Notas [0,10] {Suspenso, Aprobado, Notable, Sobresaliente} No Supervisado: Igual Anchura: k intervalos de igual anchura Igual Frecuencia: k intervalos de N/k valores cada uno WEKA: Unsupervised Attribute Discretize Supervisado: Fayyad e Irani, Kononenko, 1Rule, USD 9

Técnicas de filtro: Discretización Fayyad e Irani: Basados en criterios de entropía mínima y longitud de decripción mínima (MDL) La mejor descripción del conjunto de datos es la que minimiza la longitud de la descripción de todo el conjunto de datos U.M. Fayyad, K.B. Irani. Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning. XIII International Joint Conference on Artificial Intelligence, pp. 1022-1029, France, 1993 Los puntos de corte serán aquellos que formen barreras entre clases después de ordenar los valores de las características continuas WEKA: Filters: Supervised Attribute Discretize (Use Kohonenko = false) 10

Técnicas de filtro: Discretización 1Rule: Clasificación como discretización R.C. Holte, Very simple classification rules perform well on most commonly used datasets, t Machine Learning, Vol. 11, pp. 63-91, 1993. Idea Algoritmo: Para cada atributo: Ordena los valores Recorre el conjunto de datos estableciendo cortes que cumplan: Hay al menos una clase óptima para más de un número mínimo (SMALL) de valores en el intervalo. (Esta restricción no se aplica al último intervalo). Un intervalo no puede tener la misma clase óptima que el intervalo o valor inmediatamente anterior o posterior. WEKA: Classify: Rules OneR 11

Técnicas de filtro: Discretización USD (Unparametrized Supervised Discretization) : Raúl Giráldez et al. Discretization Oriented to Decision Rule Generation (KES). IOS Press, pp.275-279, 279 2002. Intervalos generados: Debe obtener un conjunto finito de intervalos disjuntos para cada atributo continuo que cubra todo el rango de valores. Precisión: El error introducido por la discretización debe ser mínimo Discretización Supervisada. Número de intervalos: A menor número de intervalos, menor será el espacio de búsqueda. Eficiencia: El método debe ser de un coste computacional reducido 12

Técnicas de filtro: Discretización Inicialización: Cortes básicos maximizando el nivel de pureza. Refinamiento: Une intervalos adyacentes si la bondad de la unión es mayor que la bondad media de los intervalos participantes. Ejemplo Inicialización i ió Inicialización Refinamiento 1ª IteraciónRefinamiento 13

Ejercicio Discretización del ozono en 3 etiquetas que correspondan con ozono bajo, ozono medio y ozono alto Discretización del ozono en 4 etiquetas que correspondan con ozono bajo, ozono medio, ozono alto y ozono muy alto Analizar las dependencias entre el ozono y las otras variables Cuáles son las variables más influyentes en el ozono? De dichas variables, cuáles son los rangos de valores que más afectan? 14