La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

Documentos relacionados
Proceso de Gestión de la Información Sectorial. Manual de Usuario - Herramienta de cargue de Archivos - SIUST. Elaborado por:

LECCIÓN 10 DASHBOARD. Cómo añadir Gráficos al Dashboard?

UNIVERSIDAD NACIONAL DE ASUNCION FACULTAD POLITÉCNICA CARRERA: LCIK MATERIA: Bases de Datos I Prof: Lic. Lilian Riveros Unidad 2: Modelo Relacional

Informática Aplicada a la Gestión de Empresas (IAGE) Parte III Excel e Internet Tema 2

Para aquellos que tengan conocimientos de Access es lo más parecido a una consulta de referencias cruzadas, pero con más interactividad.

CASO PRÁCTICO DISTRIBUCIÓN DE COSTES

El número de arriba de la fracción, el numerador, nos dice cuántas de las partes iguales están coloreadas.

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

Unidad II: Diseño de Bases de Datos y el modelo E-R. 2.1 El Proceso de Diseño

Análisis y cuantificación del Riesgo

Teórico 9 Del MER al MR

Sistema de Información de Compras y Contrataciones del Estado (SICE) Gestión y búsqueda de pedidos para compras comunes

Parte I: Introducción

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

BASE DE DATOS RELACIONALES

Curso Excel Básico - Intermedio

Lección 24: Lenguaje algebraico y sustituciones

CUESTIONES DE AUTOEVALUACIÓN (TEMA 1)

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

La ventana de Microsoft Excel

Construyendo gráficos estadísticos con ayuda de Microsoft Excel

Manual de ayuda para crear y gestionar Tareas, como actividad evaluable

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Teoría formal de la normalización de esquemas relacionales. Definición formal de las tres primeras Formas Normales

Instalación del programa PSPP y obtención de una distribución de frecuencias.

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

TEMA 5: HOJAS DE CÁLCULO. Edición de hojas de cálculo con OpenOffice Calc

Operaciones en el Modelo Relacional. Relacional. Relacional. Índice. Lenguajes de Consulta

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

BROKERMovil Online para SmartPhone Guía Rápida v1.0

ANÁLISIS DEL PRODUCTO

SIIT SISTEMA INFORMÁTICO DE INSPECCIONES DE TRABAJO. Modulo de Planificación Manual de Usuario

FISICA Y QUÍMICA 4º ESO 1.- TRABAJO MECÁNICO.

Institución Educativa Inem Felipe Pérez de Pereira 2012 Estrategia taller. AREA: Sistemas de información Taller Previsto

ANALISIS MULTIVARIANTE

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Proceso E.T.L Enfoque Kimball

Análisis de propuestas de evaluación en las aulas de América Latina

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Unidad VI: Supervisión y Revisión del proyecto

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

Manual WEBIECV. Público. Fecha de Aprobación Versión 2.0 Código DE-M-03

GENERAR DOCUMENTOS HTML USANDO LENGUAJE PHP. EJERCICIO RESUELTO EJEMPLO SENCILLO. (CU00733B)

CARGA MASIVA EMOV 7/1/2013

Base de datos relacional

Práctica 2 de Microsoft Access

ANÁLISIS FINANCIERO VERTICAL

NemoTPV SAT Manual de usuario 1. NemoTPV SAT APLICACIÓN DE GESTIÓN DE SERVICIO TÉCNICO PARA PUNTOS DE VENTA DE EUSKALTEL

Operación de Microsoft Excel. Guía del Usuario Página 79. Centro de Capacitación en Informática

Asignatura: Econometría. Conceptos MUY Básicos de Estadística

Aparece una ventana interactiva que nos permite ver una presentación preliminar del aspecto que tendrá un gráfico al generarlo.

FORMACIÓN DE EQUIPOS DE E-LEARNING 2.0 MÓDULO DE DISEÑO Y PRODUCCIÓN DE MATERIALES UNIDAD 6 B

TEMA 3: EN QUÉ CONSISTE?

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Combinar comentarios y cambios de varios documentos en un documento

Cómo puede mi organización registrar plazas de trabajo?

El Régimen Especial del IVA en el

Análisis de Resultados

Manual de usuario para Android de la aplicación PORTAFIRMAS MÓVIL

HERRAMIENTAS DE EXCEL PARA EL ANALISIS Y VALORACION DE PROYECTOS DE INVERSION (I)

CASO PRÁCTICO Nº Monitoreo y Ajuste de la Carga de Trabajo de los Recursos. - Control del Proyecto usando el Valor Ganado.

Análisis de Datos. Práctica de métodos predicción de en WEKA

Data Mining Técnicas y herramientas

Software para Seguimiento de Clientes. Descripción del Producto

Importador Universal - Operaciones

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

GUÍA DE EJERCICIOS UNIDAD 1 MACROECONOMÍA

Para crear formularios se utiliza la barra de herramientas Formulario, que se activa a través del comando Ver barra de herramientas.

UN PROBLEMA CON INTERÉS Y CALCULADORA

5.8. REGISTRO DE FACTURAS.

Manual para Empresas Prácticas Curriculares

Nota de Información al cliente ISO Proceso de auditoría

Versión 1.0 MANUAL DEL USUARIO

DIAGRAMA DE CLASES EN UML

Nivel Básico I Prof. Mariano Correa

ESTIMACIÓN. puntual y por intervalo

HERRAMIENTA DE CONTROL DE PLAGIOS MANUAL DE AYUDA

Ministerio de Educación. Diseño de Presentaciones en la Enseñanza. Módulo 9: Imprimir

Análisis y gestión de riesgo

5- Uso de sentencias avanzadas

Bases de datos en Excel

Estimado usuario. Tabla de Contenidos

GUÍA PARA LA FORMULACIÓN PROYECTOS

ÍNDICE 2. DIRECCIONES DE INTERÉS SOBRE TELETRABAJO Y DISCAPACIDAD BIBLIOGRAFÍA...

Tabla de contenido. Manual B1 Time Task

Módulo 8: Ofimática básica. Unidad didáctica 2: Conceptos fundamentales en un gestor de base de datos. Access

El palacio de la Alhambra: La primera expansión. El favor de los visires

ANÁLISIS DEL PRODUCTO

GOOGLE NOTICIAS Y ALERTAS

Centro de Capacitación en Informática

NOVEDADES Y MEJORAS. datahotel versión 9.00 TRABAJAR CON I.V.A INCLUIDO

Modelos y Bases de Datos

TÉCNICAS DE GESTIÓN ADMINISTRATIVA PARA PEQUEÑAS EMPRESAS

REPARACIÓN DE FICHEROS

Ejercicio de estadística para 3º de la ESO

Transcripción:

MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén íntegros, completos y consistentes (una buena limpieza e integración). [p.65] EL PROBLEMA No ha sido suficiente!! La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad. Es una realidad. Se dificulta el proceso de extracción de conocimiento!! Los sistemas siguen creciendo. En las bases de datos existe mucha información incorrecta respecto al dominio de la realidad. Existen datos inconsistentes. Si los datos provienen de diferentes fuentes, o los datos erróneos se suman, pero las inconsistencias se multiplican varias fuentes afirman cosas diferentes del mismo objeto. o normalmente hay disparidad de formatos, nombres y rangos. o podemos encontrar datos faltantes o duplicados. PREPROCESAMIENTO DE LOS DATOS, DATA COOKING, PREPARACIÓN DE LOS DATOS LOS OBJETIVOS Eliminación del mayor número posible de datos erróneos, inconsistentes e irrelevantes.

Presentar los datos de la manera más apropiada para la minería de datos. TÉCNICAS DE PREPROCESAMIENTO DE LOS DATOS De uso común, se encuentran en paquetes estadísticos, hojas de cálculo y herramientas de minería Técnicas que nos ayudan a la integración y limpieza: o Cálculo de medias, varianzas y correlaciones o Histogramas o Gráficos de dispersión o Detección de valores anómalos Transformaciones: o Redefinición de atributos Creación de nuevos atributos Separación de atributos o Discretización o Numerización o Sumarización o Pivotación o Generalización Mas artesanales Técnicas clásicas del análisis multivariante o Análisis de componentes principales Reducción de dimensionalidad o Análisis de correspondencias o Análisis escalado multidimensional Aumento en la dimnesionalidad Introducción de relaciones cuadráticas o Análisis de grupos (cluster análysis) o Descomposición de mezclas (mixture descomposition) Análisis factorial Técnicas de selección o Muestreo o Selección de atributos

No hay reglas de que técnicas aplicar en qué orden o cuantas veces, depende del dominio del problema y del conocimiento que se tenga de los datos. TIPOS DE DATOS: NUMERICOS NOMINALES o CON ORDEN o SIN ORDEN OTRAS CLASIFICACIONES CONTINUOS/DISCRETOS CUANTITATIVOS/CUALITITIVOS NUMÉRICOS/CATEGÓRICOS TERMINOLOGIA PERMITIDA PARA NOMBRAR A LOS ATRIBUTOS: VARIABLES COMPONENTES CARACTERISTICAS CAMPOS INTEGRACIÓN. La integración es un proceso que se realiza durante la recopilación de los datos. Si hay un almacén de datos, este proceso se realiza mediante procesos ETL. EL PROBLEMA DEL ESCLARECIMIENTO DE IDENTIDAD Para la integración se debe identificar los objetos, es decir, necesitamos que : datos sobre el mismo objeto se unifiquen y datos de diferentes objetos permanezcan separados. Durante la integración pueden ocurrir dos tipos de errores: Dos o más objetos diferentes se unifican.

Dos o más fuentes del mismo objeto se dejan separadas. (Es muy problemático cuando se utilizan valores agregados como total de compras de una persona.) rfc nombre edo. civil f.nac. CURP nombre soltero edad rfc nombre edo. civil f.nac. CURP nombre soltero edad La unificación generalmente se realiza mediante identificadores externos como número de identidad o matrícula entre otros. También se pueden utilizar identificadores internos. El primer error no es tan frecuente. Generalmente se es conservador, si se tiene duda a la hora de unificar, se deja los objetos separados. Se pueden encuentran problemas de unificación de formatos. Se puede encontrar diferentes unidades de medición. Si el dato está en una fuente, pero no en la otra, se generan datos faltantes. Es común que aparezcan datos redundantes total o parcialmente como edad y fecha de nacimiento, ciudad y CP, etc. A la hora de unificar, los datos inconsistentes, normalmente se convierten en faltantes, ya que ante la duda, se deja el campo faltante. (También se puede elegir la media o la moda o un valor por defecto.)

RECONOCIMIENTO. Una vez integrados los datos Informe de estado: resumen de las características de los atributos. Se puede hacer por tabla o para toda la base de datos. Las características a mostrar para cada atributo son: Nombre de la tabla Tipo de datos (nominal o numérico) Total de instancias Cantidad de nulos o faltantes Distancia entre los atributos Media Desviación estándar Moda Valor mínimo Valor máximo entre otros En una tabla resumen se puede visualizar fácilmente esta información, se puede construir fácilmente a partir de consultas SQL. También se puede visualizar la información en un histograma que muestra la distribución para los diferentes valores de un atributo. Para el caso de los atributos numéricos se realiza por intervalos. Un diagrama de caja muestra la información resumida de los histogramas. Para visualizar dos variables se pueden construir histogramas tridimensionales, podemos ver la distribución de una variable o atributo respecto a otro. Una gráfica de dispersión también nos muestra la información de dos variables y es muy útil en atributos numéricos. Se pude agregar otra dimensión marcando utilizando una marca diferente para cada valor del tercer atributo. Para cuatro variables se pueden obtener todas gráficas para las posibles combinaciones de atributos, generando una tabla de gráficas de dispersión.

VALORES FALTANTES (MISSING VALUES) Razones para remplazar un missing value Missing values, debemos hablar de su detección, su reconocimiento y su tratamiento Si el método de minería de datos que vamos a utilizar no le da un adecuado tratamiento a dichos valores. o Ignora los ejemplos con datos faltantes, podemos tener un sesgo importante en los datos. o Si tiene un método de remplazo no apropiado, pues desconoce el contexto de los datos. Para realizar agregaciones que nos permitan crear otras vistas minables de los datos. DETECCIÓN Iniciamos revisando la tabla resumen. A veces los campos faltantes no están representados como nulos 1. Valores fuera de formato 2. Valores fuera de rango 3. Texto indicados como no tiene 4. Números indicados como -1 o 99 Las restricciones de las aplicaciones o las restricciones de integridad referencial a veces ayudan a evitar los datos faltantes, pero a veces son las que causan los peores problemas. Si no tenemos un valor para un atributo y la aplicación lo permite, simplemente no lo ponemos, este faltante será fácil de detectar. Si la aplicación no permite dejar el campo vacio, entonces ocurren casos como el 3 y 4 que se conoce como nulos camuflados. QUE PUEDEN REPRESENTAR LOS VALORES FALTANTES: Características relevantes: la falta de un celular puede representar una persona que no desea que se le contacte por ese medio.

Valores no existentes: a veces en verdad representan datos que no existen, por ejemplo un cliente nuevo que no ha realizado consumos. Datos incompletos: pueden ser en realizad datos incompletos comúnmente generados en procesos de integración. TRATAMIENTO Ignorar. Eliminar: quitar el atributo para todos los ejemplos (la columna). Filtrar: quitar las filas. Remplazar: manual o automático. Se sugiere en casos donde no haya muchos. Normalmente la media para atributos numéricos o la moda para atributos nominales. Predecir: (Imputación de datos faltantes). Se puede intentar predecir el valor a partir de otros ejemplos. Ej. Predecir el sexo a partir del nombre. Segmentar: Separar las tuplas y generar modelos diferentes para las tuplas con datos faltantes. Esperar: que los datos faltantes estén disponibles. VALORES ERRONEOS Debemos hablar de su detección, y de su tratamiento DETECCIÓN Para atributos nominales Datos que no se ajustan al formato. Datos con valores no permitidos. Datos inconsistentes, que se ajustan al formato y que son permitidos pero que representan una situación que no se presenta o no está permitida en la realidad, ej. Matriculas nuevas para autos viejos. Para datos erróneos que se ajusten al formato será muy complicada o imposible su detección.

Para atributos numéricos Buscar datos anómalos, atípicos, extremos, aislados. Conocidos como outliers. Un valor anómalo no representa siempre un valor erróneo. Un valor dentro de la normalidad puede ser un dato erróneo. Hay datos anómalos que no son erróneos y que no son convenientes para algunas técnicas de minería de datos. Fuente: 1. Introducción a la Minería de Datos. José Hernández Orallo; Ma. José Ramírez Quintana; César Ferri Ramírez. PEARSON, Prentice Hall. 2008.