Técnicas de Preprocesado

Técnicas de Preprocesado Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1

Contenido Por qué preprocesar p los datos? Técnicas de filtro Depuración Tratamiento de valores ausentes (Missing) Detección de Outliers Trasformación Normalización Estandarización Atributos Calculados Discretización No Supervisada (Igual anchura/frecuencia) Supervisada: Fayyad e Irani, 1Rule, USD 2

Por qué preprocesar los datos? Los datos reales están sucios Datos incompletos: valores de atributos inexistentes Datos con ruido: errores de precisión, ió errores de medición, errores de almacenamiento Datos inconsistentes: outliers Para obtener conclusiones válidas y útiles al aplicar minería de datos, es necesario una adecuada preparación de los datos previa al proceso de minería 3

Técnicas de filtro: Depuración Tratamiento de Missings: Eliminar ejemplos con atributos missings Pérdida de información Asignar una constante t Mala interpretación WEKA t -ió Filtro: del algoritmo de aprendizaje Unsupervised Attribute ReplaceMissingValue s Sustituir por valores con influencia mínima: Continuos: Media Discretos Moda Predecir el valor (clasificación, regresión) Muy costoso 4

Técnicas de filtro: Depuración Detección de Outliers WEKA Clusterers SimplekMeans WEKA Clusterers EM Para la detección y eliminación outliers se suelen aplicar técnicas de agrupamiento (clustering): K-Means EM (Expectation Maximization) Procedimiento: Agrupar en clusters y eliminar clusters poco densos y/o lejanos 5

Técnicas de filtro: Transformación Normalización Trasforma el rango de valores a un intervalo determinado (normalmente [0,1]) ValorNorm Valor Min Max Min Es necesario si se van a aplicar algoritmos de aprendizaje aje basados en distancias para que todos los atributos estén en el mismo rango. WEKA: Filters Unsupervised Attribute Normalize 6

Técnicas de filtro: Transformación Estandarización Transforma los valores de los atributos para que tengan media 0 y desviación 1 Sólo si la distribución es normal ValorEst Valor Media Desviación WEKA: Filters Unsupervised Attribute Standardize 7

Técnicas de filtro: Nuevos atributos Se trata de añadir nuevos atributos aplicando una expresión matemática a atributos ya existentes en el conjunto de datos. Ejemplo: sepalarea = sepallength x sepalwidth WEKA: Filters Unsupervised Attribute AddExpresionp p 8

Técnicas de filtro: Discretización Hay algoritmos de aprendizaje que sólo operan con atributos discretos Transformación de atributos continuos a discretos (rango finito de valores). Consiste en dividir el rango de valores continuos en un conjunto o finito de intervalos aos (o cortes). Ejemplo: Notas [0,10] {Suspenso, Aprobado, Notable, Sobresaliente} No Supervisado: Igual Anchura: k intervalos de igual anchura Igual Frecuencia: k intervalos de N/k valores cada uno WEKA: Unsupervised Attribute Discretize Supervisado: Fayyad e Irani, Kononenko, 1Rule, USD 9

Técnicas de filtro: Discretización Fayyad e Irani: Basados en criterios de entropía mínima y longitud de decripción mínima (MDL) La mejor descripción del conjunto de datos es la que minimiza la longitud de la descripción de todo el conjunto de datos U.M. Fayyad, K.B. Irani. Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning. XIII International Joint Conference on Artificial Intelligence, pp. 1022-1029, France, 1993 Los puntos de corte serán aquellos que formen barreras entre clases después de ordenar los valores de las características continuas WEKA: Filters: Supervised Attribute Discretize (Use Kohonenko = false) 10

Técnicas de filtro: Discretización 1Rule: Clasificación como discretización R.C. Holte, Very simple classification rules perform well on most commonly used datasets, t Machine Learning, Vol. 11, pp. 63-91, 1993. Idea Algoritmo: Para cada atributo: Ordena los valores Recorre el conjunto de datos estableciendo cortes que cumplan: Hay al menos una clase óptima para más de un número mínimo (SMALL) de valores en el intervalo. (Esta restricción no se aplica al último intervalo). Un intervalo no puede tener la misma clase óptima que el intervalo o valor inmediatamente anterior o posterior. WEKA: Classify: Rules OneR 11

Técnicas de filtro: Discretización USD (Unparametrized Supervised Discretization) : Raúl Giráldez et al. Discretization Oriented to Decision Rule Generation (KES). IOS Press, pp.275-279, 279 2002. Intervalos generados: Debe obtener un conjunto finito de intervalos disjuntos para cada atributo continuo que cubra todo el rango de valores. Precisión: El error introducido por la discretización debe ser mínimo Discretización Supervisada. Número de intervalos: A menor número de intervalos, menor será el espacio de búsqueda. Eficiencia: El método debe ser de un coste computacional reducido 12

Técnicas de filtro: Discretización Inicialización: Cortes básicos maximizando el nivel de pureza. Refinamiento: Une intervalos adyacentes si la bondad de la unión es mayor que la bondad media de los intervalos participantes. Ejemplo Inicialización i ió Inicialización Refinamiento 1ª IteraciónRefinamiento 13

Ejercicio Discretización del ozono en 3 etiquetas que correspondan con ozono bajo, ozono medio y ozono alto Discretización del ozono en 4 etiquetas que correspondan con ozono bajo, ozono medio, ozono alto y ozono muy alto Analizar las dependencias entre el ozono y las otras variables Cuáles son las variables más influyentes en el ozono? De dichas variables, cuáles son los rangos de valores que más afectan? 14