Preprocesado de Datos

Documentos relacionados

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos

Polinomios. 1.- Funciones cuadráticas

Colegio Beato Carlos Manuel Rodríguez Departamento de Matemáticas. Mapa curricular Algebra I 8 vo grado

Métodos basados en instancias. K-vecinos, variantes

Contenidos mínimos 4B ESO. 1. Contenidos. Bloque I: Aritmética y álgebra.

Explorando la ecuación de la recta pendiente intercepto

CALIDAD 1 JOSÉ MANUEL DOMENECH ROLDÁN PROFESOR DE ENSEÑANZA SECUNDARIA

Fracciones numéricas enteras

Teoría de la decisión Estadística

3. VARIABLES ALEATORIAS

3.2. Conceptos generales. (A) Una fracción es el cociente, razón o división de dos números enteros. El dividendo se llama

CURSO MINERÍA DE DATOS BÁSICO

Herramienta de Alineación Curricular - Resumen a través de las unidades Departamento de Educación de Puerto Rico Matemáticas 8vo Grado

Estadística Avanzada y Análisis de Datos

4. Medidas de tendencia central

FUNCIONES CUADRÁTICAS. PARÁBOLAS

UNIDAD II FUNCIONES. Ing. Ronny Altuve Esp.

Filtros digitales dominio del espacio dominio de la frecuencia

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

Tema 3. Números racionales

En efecto, todo natural, todo número entero, acepta una escritura en forma de fracción:

Universidad Rey Juan Carlos HOJA DE PROBLEMAS TEMA 3: REPRESENTACIÓN DE LA INFORMACIÓN

Medidas de Dispersión

Curso Completo de Electrónica Digital Simplificación de funciones booleanas

SESIÓN 1 PRE-ALGEBRA, CONCEPTOS Y OPERACIONES ARITMÉTICAS BÁSICAS

Estructuras de datos: Conjuntos disjuntos

MATEMÁTICAS - 6º curso

Los números enteros. > significa "mayor que". Ejemplo: 58 > 12 < significa "menor que". Ejemplo: 3 < 12 Cualquier número positivo siempre es mayor

CURSOSO. Aritmética: Númerosnaturalesyenteros. Númerosracionalesyfraciones. MATEMÁTICAS. AntonioF.CostaGonzález

4. " $#%&' (#) para todo $#* (desigualdad triangular).

Matemáticas domésticas: Compras, facturas, ingresos

Representación gráfica de funciones. De la fórmula a la tabla. Resolución de problemas

Julio Deride Silva. 27 de agosto de 2010

DIBUJO TÉCNICO II BLOQUE 1_TRAZADOS GEOMÉTRICOS

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA INDUSTRIAL CONTROL #3

Estándares de Contenido Sencillos de Entender Para Padres y Estudiantes: Matemáticas Estándares del Kindergarten de Matemáticas

Sistemas de Ecuaciones Lineales

Capítulo 4 Representación interna de los Datos

Nociones de Estadística Descriptiva. Medidas de tendencia central y de variabilidad

Herramienta de Alineación Curricular - Resumen a través de las unidades Departamento de Educación de Puerto Rico Matemáticas 4to Grado

CARRERA PROFESIONAL DE CONTABILIDAD SILABO

SOLUCIONES MINIMOS 2º ESO TEMA 7 TEOREMA DE PITÁGORAS.SEMEJANZA

FRACCIONES: INTERPRETACIONES ESCOLARES 1

CONCEPTOS BÁSICOS DE ESTADÍSTICA

Ecuaciones de segundo grado

D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO

Lección 10: Representación gráfica de algunas expresiones algebraicas

FUNCIONES RACIONALES. HIPÉRBOLAS

2.5. Asimetría y apuntamiento

Tema 1 Sistemas de numeración

UNIDAD 5. FRACCIONES Y OPERACIONES

Utiliza los números ordinales al resolver problemas planteados de manera oral.

EJERCICIOS PARA PREPARAR EL CONTROL DE MATEMÁTICAS. a) Agrupa los datos en cuatro clases y escribe la tabla de frecuencias.

Ejercicio 1: Realiza las siguientes divisiones por el método tradicional y por Ruffini: a)

Un sistema formado por dos ecuaciones y dos incógnitas, se puede escribir como sigue:

Introducción al análisis numérico

Combinación Lineal. Departamento de Matemáticas, CCIR/ITESM. 10 de enero de 2011

PRÁCTICA 1. Mediciones

IES Juan García Valdemora NÚMEROS REALES Departamento de Matemáticas NÚMEROS REALES

1 Números racionales

DOCUMENTO 3: DISTRIBUCIÓN DE PROBABILIDAD DE V. A. CONTINUA: LA DISTRIBUCIÓN NORMAL

83 ESO. 6x 4. «La clave de todo es la paciencia. Un pollo se obtiene empollando el huevo, no rompiéndolo.»

CRITERIOS DE EVALUACIÓN

Estadística descriptiva. Representación de datos descriptivos

Cálculo científico y técnico con HP49g/49g+/48gII/50g Módulo 3: Aplicaciones Tema 3.2 Determinación aproximada de extremos: Método de Newton-Raphson

Teoría 3_10 Gráficos!

Notas del curso de Introducción a los métodos cuantitativos

SEGMENTOS RECTILÍNEOS: DIRIGIDOS Y NO DIRIGIDOS

1.4 SISTEMAS HOMOGÉNEOS DE ECUACIONES. 36 CAPÍTULO 1 Sistemas de ecuaciones lineales y matrices

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

21. Círculo y recta Matemáticas II, 2012-II. Por qué el círculo y la recta son tan importantes?

REGRESIÓN LINEAL CON SPSS

SISTEMAS INTELIGENTES

Optimización en Ingeniería

Expresiones algebraicas

Lección 13: Resolución algebraica de sistemas de ecuaciones

POLINOMIOS. Matemática Intermedia Profesora Mónica Castro

PROBLEMAS DE DIAMANTE 2.1.1

Dirección de Desarrollo Curricular Secretaría Académica

FUNDAMENTOS DE PROGRAMACIÓN. Practica 5 Números aleatorios

Estadística Descriptiva. SESIÓN 12 Medidas de dispersión

TRATAMIENTO METODOLÓGICO DE LA UNIDAD 3 DE 9NO GRADO SISTEMA DE ECUACIONES LINEALES

Tema 6 Lenguaje Algebraico. Ecuaciones

TRANSFORMACIONES DE f (x) = x Ejemplo 1

Ámbito Científico-Tecnológico Módulo III Bloque 3 Unidad 2 Cuanto más, mejor y viceversa

Objetivos y Temario CURSO SQL SERVER 2012

1) Qué fracción de año representan 7 meses? Y 3 meses? Y 6 meses? 3) Cuántas manzanas son 2/5 de una caja que contiene 50 manzanas?

5 Relaciones entre variables.

Colegio Universitario Boston. Funciones

TUTORIAL INTRODUCTORIO DE MATLAB

FUERZA DE VENTAS. Administración. Séptima Edición CAPÍTULO CINCO. El papel estratégico de la información en la administración de ventas

SISTEMAS DE ECUACIONES Y DE INECUACIONES

DISTRIBUCIONES DE PROBABILIDAD

El promedio como punto típico de los datos es el valor al rededor del cual se agrupan los demás valores de la variable.

Tercer trimestre: PRUEBA A

Victoria Aguilera Fernández

Selectividad Junio 2007 JUNIO 2007

ESCALAS EN UN MAPA. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural

Asignatura: Horas: Total (horas): Obligatoria X Teóricas 4.5 Semana 4.5 Optativa Prácticas Semanas 72.0

Transcripción:

Preprocesado de Datos Juan A. Botía Departamento de Ingeniería de la Información y las Comunicaciones Universidad de Murcia Ingeniería Superior en Informática, UMU Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 1 / 19

Contenidos 1 Preprocesado de datos 2 3 Transformación de datos Normalización 4 Reducción de datos 5 Bibliografía uan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 2 / 19

Preprocesado de datos Data Preprocessing Vamos a intentar responder a la pregunta Preprocesado de datos cómo puedo preparar los datos para que el proceso de minería de datos (exploratorio o no) sea más fácil y efectivo? Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 3 / 19

Preprocesado de datos Tareas en el preproceso de datos Nos vamos a encontrar varios tareas propias de preprocesado de datos: o limpieza de datos, es el proceso orientado a eliminar datos con ruido o incorrectos, Data integration, trata de integrar diferentes fuentes de datos en un almacén coherente y homogéneo como un data warehouse o un data cube. Data transformation, o transformación de los datos como, por ejemplo, una normalización. Data reduction, o reducción de los datos, orientado a reducir el tamaño de los datos mediante la agregación y/o eliminación de características redundantes, o clustering. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 4 / 19

Data Cleanning Los datos del mundo real suelen presentarse en una forma incompleta, inconsistente y ruidosa, limpiaremos los datos mediante eliminando datos que faltan, suavizando el efecto del ruido, eliminando datos fuera de rango y corrigiendo inconsistencias. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 5 / 19

Qué hacer ante los datos nulos Recuerda que antes de ponernos manos a la obra con los datos nulos Hay que analizar la razón de su existencia!! Es significativo el hecho de que aparezcan nulos en los datos? Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 6 / 19

Diferentes tratamientos de valores nulos Las siguientes son formas de enfrentarnos a los valores nulos Ignorar la tupla (i.e. el dato que falta es el de la clase o existen nulos en varios de los atributos) Rellenar los datos de manera manual (inabordable en el data mining) Usar una constante global para rellenar los datos (i.e. cambiar cada ausente por unknown) Usar la media del atributo para sustitución Usar la media del atributo obtenida con todos los ejemplares que pertenecen a la misma clase que el ejemplar a modificar Utilizar técnicas de minería de datos para predecir el valor más probable en cada caso (e.g. un árbol de decisión) Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 7 / 19

Comentarios a los métodos Todos los métodos con sustitución automática introducen un sesgo en los datos (i.e. la sustitución puede no ser correcta) Usar minería es uno muy popular Se aprovecha la información que se tiene de los datos presentes para predecir valores ausentes Aumentamos la posibilidad de que el patrón sea el mismo que se obtiene con todos los datos [1] Para profundizar, el libro de texto de Pyle [2], viene con un estupendo material en el capítulo 8, dedicado a esta problemática particular. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 8 / 19

Datos con ruido El ruido en los datos se ve, tradicionalmente, como un error en las variables que se están midiendo. Este error se modela como una v.a., dada la v.a. X, se aproxima el valor de dicha variable con la expresión ˆX = X + e Cómo podemos suavizar los valores de ˆX de tal forma que minimicemos el error e? Tendremos binning, clustering y regresión Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 9 / 19

Métodos para aliviar el ruido El binning. En qué consiste en binning Una serie de valores ordenados se agrupan en porciones y luego se suaviza cada porción. De esta forma, lo que se hace es un tratamiento local del ruido ya que se actúa de manera individual en cada porción. Un ejemplo 4, 8, 15, 21, 21, 24, 25, 28, 34 Los dividimos en tres bins de la misma longitud Bin 1: 4, 8, 15, Bin 2: 21, 21, 24, Bin 3: 25, 28, 34. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 10 / 19

El binning Si sustituimos cada valor por la media, estamos suavizando mediante medias y nos queda Bin 1: 9, 9, 9, Bin 2: 22, 22, 22, Bin 3: 29, 29, 29. Ahora, si sustituimos los valores de cada porción por su valor del extremo del bin más cercano, tenemos Bin 1: 4, 4, 15, Bin 2: 21, 21, 24, Bin 3: 25, 25, 34. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 11 / 19

El binning (y II) Si ahora los representamos vemos que efectivamente, las curvas se suavizan El efecto del binning está en relación a la longitud de las porciones Podemos hacer división de la misma anchura (i.e. el mismo rango de valores por cada intervalo). Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 12 / 19

Métodos para aliviar el ruido (y II) Podemos reducir el ruido mediante procesos de clustering. Aquellos valores que caen fuera de los clusters pueden considerarse como valores fuera de rango Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 13 / 19

Métodos para aliviar el ruido (y III) Podeos reducir el ruido con la regresión lineal Dado un conjunto de tuplas representado por dos variables, hallamos la ĺınea recta que mejor se ajusta a esos datos Minimizamos un error basado en el cuadrado de diferencias cuadráticas entre puntos de la recta y reales Si el número de variables es mayor que dos tenemos regresión lineal múltiple En realidad buscamos una expresión matemática con la que reproducir los datos y elimar, así, el error en la medida de lo posible Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 14 / 19

Transformación de datos Data Transformation Tranformamos unos datos en otros equivalentes y así dejarlos listos para la minería Suavizado o eliminación del ruido (utilizamos binning, clustering, regresión, etc) Agregación: agregamos valores de atributos, e.g. agregamos ventas diarias en semanales y/o mensuales (i.e. ver los data cubes, en donde se usa típicamente este tipo de transformación). Generalización: mediante jerarquías de conceptos, sustituimos valores categóricos o numéricos por otros valores más abstractos (e.g. calle por ciudad, 30 por mediana edad). Normalización: escalamos el atributo a un cjto. de valores apropiado según el caso Construcción de atributos: mediante el cual construimos nuevos atributos cuando esto es conveniente para el proceso de minería. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 15 / 19

Transformación de datos Normalización Normalización Las formas más comunes de normalización Tenemos la normalización min/max, mediante la expresión v = v min A max A min A (newmax A newmin A ) + newmin A. Normalización de media cero (o z normalisation) v = v A σ A, en donde A y σ A son la media y desviación estándar, respectivamente. Normalización mediante escalado decimal Se mueve el punto decimal en los valores del atributo Las posiciones dependen del máximo en valor absoluto tal que v = v 10 j, en donde j es el entero más pequeño tal que Max( v ) < 1 Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 16 / 19

Transformación de datos Normalización Construcción de atributos Atributos nuevos, para qué y cómo? El añadir atributos ayuda a poner a los algoritmos la tarea de análisis un poco más fácil Si podemos combinar atributos mediante alguna expresión interesante, conseguimos que el algoritmo no tenga que descubrir dicha expresión Ejemplo: podemos crear un atributo área a partir de la altura y la anchura Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 17 / 19

Reducción de datos Construcción de atributos Para qué Cuando el cjto. de datos es realmente grande, es posible que las técnicas de minería de datos disponibles no sean adecuadas, hasta tal punto que sea totalmente imposible realizar un proceso de minería Cómo? Las siguientes son formas de reducir los datos que podemos aplicar: Agregación en data cubes Reducción de dimensiones Compresión de datos Reducción de la numerosidad (i.e. del número de tuplas) Discretización de atributos y generación de jerarquías de conceptos. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 18 / 19

Bibliografía Libros aconsejables Jiawei Han and Micheline Kamber. Data Mining. Concepts and Techniques. Morgan Kauffman Publisher, 2001. Dorian Pyle. Data Preparation for Data Mining. Morgan Kauffman Publisher, 1999. Juan A. Botía (Departamento de Ingeniería de la Información Preprocesado y las Comunicaciones de Datos Universidad de Murcia) TIIA 19 / 19