Data Mining: Conceptos y Técnicas Preprocesamiento de Datos
|
|
- María del Pilar Godoy Rojas
- hace 8 años
- Vistas:
Transcripción
1 Cap. 3: Preprocesamiento de Datos Data Mining: Conceptos y Técnicas Preprocesamiento de Datos (Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada Por qué preprocesar los datos? Limpieza de datos (Data cleaning) Integración y transformación de datos Discretización y generación de jerarquías de conceptos Síntesis 1 2 Por qué preprocesar datos? Los datos del mundo real son sucios.. incompletos: carecen de valores para ciertos atributos, carecen de atributos de interes o contienen solo datos agregados ruidosos: contienen errores o outliers inconsistentes: contienen discrepancias en códigos o nombres. Sin datos de calidad, no hay calidad en los resultados de mining! Decisiones calificadas ->basadas en datos calificados Data warehouse necesita integración consistente de datos calificados Medidas multidimensionales de la Calidad de los Datos Una visión multi-dimensional aceptada : Exactitud Completitud Consistencia Timeliness Credibilidad Valor agregado Interpretabilidad Accesibilidad Categorías amplias: intrínsecos, contextuales, representacionales, y accesibles. 3 4 Principales tareas en Preprocesamiento de Datos Formas de preprocesamiento de datos Limpieza de Datos Completar valores perdidos, ablandar datos ruidosos, identificar o remover outliers, y resolver inconsistencias Integración de datos Integración de BD múltiples, cubos de datos o archivos. Transformación de datos Normalización y agregación Obtener representación reducida en volumen, pero produce resultados analíticos iguales o similares. Discretización de datos Parte de la reducción de datos, pero con particular importancia para los datos numéricos
2 Cap. 3: Preprocesamiento de Datos Limpieza de Datos Por qué preprocesar los datos? Limpieza de datos (Data cleaning) Integración y transformación de datos Discretización y generación de jerarquías de conceptos Síntesis Principales tareas en Data cleaning Completar valores faltantes Identificar outliers y ablandar los datos ruidosos. Corregir datos inconsistentes. 7 8 Datos faltantes Los datos no siempre están disponibles: E.g., muchas tuplas pueden no tener valor asociado para ciertos atributos. Ej: ingreso mensual en los datos de un determinado cliente. Los datos faltantes pueden deberse a: errores técnicos (de equipamiento) inconsistencia con otros datos almacenados (y por ende borrados) Datos no ingresados Considerados irrelevantes al momento de ser cargados no se registró la historia o cambios de los datos Los datos faltantes puede que tengan que ser inferidos. Cómo tratar a Datos Faltantes? Ignorar la tupla: usuamente se hace cuando falta la etiqueta de clase (no efectivo cuando el % de valores faltantes por atributo varía considerablemente). Completar el dato faltante a mano: tedioso y poco factible Usar una constante global para completar el dato faltante: e.g., n/d, o crear una nueva clase. Usar el valor medio del atributo para completar el dato faltante. Usar el valor medio del atributo para todas las muestras que pertenezcan a la misma clase para completar el valor faltante (más astuto). Usar el valor más probable para completar el valor faltante: basado en inferencia como fórmulas bayesianas o árboles de decisión Datos con Ruido Ruido: error aleatorio o varianza en una variable medida Valores de atributos incorrectos debido a: Instrumentos de medición erróneos Problemas en la entrada de datos Problemas en la transmisión Limitaciones tecnológicas Otros problemas que requieren data cleaning Registros duplicados datos incompletos datos inconsistentes Cómo tratar los datos con ruido? Método de cubas (Binning method): Ordenar primero los datos, y particionarlos en cubas de igual profundidad (=cant. de valores). Luego se puede suavizar (smooth) por media de cubas, mediana de cubas, frontera de cubas, etc. Clustering Detectar y remover outliers Inspección combinada humano-computadora Detectar valores sospechosos automáticamente y contrastarlos con opinión humana Regresión suavizar ajustando los datos a través de funciones de regresión
3 Métodos Simples de Discretización: Binning Particionamiento según Igual Distancia (tamaño) : Se divide el rango en N intervalos de igual tamaño (grilla uniforme). Si A y B son los valores menores y mayores del atributo, el ancho de los intervalos será : W = (B-A)/N. Es el más directo... Pero los outliers pueden dominar la presentación Los datos sesgados ( skewed ) no son manejados bien.. Particionamiento por igual profundidad (frecuencia) : Se divide al rango en N intervalos, c/u conteniendo aproximadamente el mismo nro. de muestras. Bueno para escalar datos Métodos de Binning * Datos ordenados por Precio (en $): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partición en cubas de igual profundidad: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Alisamiento utilizando promedios de cubas: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Alisamiento por fronteras de cubas: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, Cluster Analysis Regresión y Y1 Y1 y = x + 1 X1 x Cap. 3: Preprocesamiento de Datos Por qué preprocesar los datos? Limpieza de datos (Data cleaning) Integración y transformación de datos Discretización y generación de jerarquías de conceptos Síntesis Integración de Datos Integración de Datos: se combinan datos de múltiples fuentes en un almacenamiento coherente. Integración de esquemas: integrar metadatos de distintas fuentes Problema de identificación de entidades: identificar entidades del mundo real a partir de fuentes de datos múltiples, e.g., A.cust-id B.cust-# Detección y resolución de conflictos de valores de datos: Para la misma entidad del mundo real, los valores de atributos de distintas fuentes pueden ser diferentes Razones posibles: representaciones distintas, escalas distintas. Ej: sistema métrico vs. no métrico
4 Tratamiento de Datos Redundantes al Integrar Datos Los datos redundantes aparecen a menudo cuando se integran múltiples bases de datos El mismo atributo puede tener diferentes nombres en diferentes bases de datos. Un atributo puede ser un atributo derivado en otra tabla (ej: ganancia anual) Los datos redundantes pueden detectarse por análisis de correlación La integración cuidadosa de datos de múltiples fuentes puede ayudar a reducir/evitar redundancias e inconsistencias y mejorar la velocidad y la calidad del datamining. Correlación Dados atributos A y B, su correlación puede expresarse como r A,B = [ Σ(A-prom(A))(B-prom(B)) ] (n-1) σ A σ B Donde n=nro. de tuplas, prom(a) y prom(b) son promedios de A y B, y σ A, σ B corresponde a los desvíos estándar. Si r A,B > 0, ent. hay correlación positiva (los valores de A se incrementan cuando los valores de B se incrementan). A mayor valor, mayor vínculo entre ambos atributos. Puede usarse para detectar correlación entre atributos (ej: nro_cliente y ident_cliente) Transformación de Datos Suavizamiento: remover ruido de los datos Agregación: sintetización, construcción de cubos de datos Generalización: trepar en la jerarquía de conceptos Normalización: se ajusta a una escala para caer en un rango pequeño y especificado. Normalización min-max Normalización z-score Normalización por escala decimal Construcción de atributos/características Construir nuevos atributos a partir de los dados Transf. de Datos: Normalización Normalización min-max v mina v ' = ( new_ maxa new_ mina) + new_ min maxa mina Se hace una transf. lineal sobre los datos originales. min A y max A son mínimos y máximos originales, y new_min A y new_max A son los nuevos extremos. A Transf. de Datos: Normalización Normalización z-score v = (v -prom(a)) / σ A También llamada zero-mean normalization. Aqui los valores del atributo A se normalizan con respecto a la media prom(a) y al desvío estándar de A. Util cuando el mínimo y máximo de A son desconocidos, o cuando hay outliers que dominan la normalización minmax. Transf. de Datos: Normalización Normalización por escala decimal v = v / 10 j Donde j es el entero más pequeño tal que Max( v )<1 Ej: si el valor de A varía entre -986 y 917, el valor máximo de A en val.abs. es 986. Para normalizar se divide entonces por 1000: normalizado-->
5 Estrategias de Reducción de Datos Warehousing puede resultar en terabytes de datos: Tareas complejas de datamining pueden demorar mucho tiempo en ejecutarse sobre el cjto. completo de datos... : Obtiene una representación reducida del cjto. de datos que es mucho más pequeña en volumen pero produce los mismos (o casi iguales) resultados analíticos. Estrategias en la reducción de datos Agregación del cubo de datos Reducción de la dimensionalidad Reducción de Numerosidad Discretización y generación de jerarquías de conceptos Reducción de Dimensionalidad Selección de características (ie, selección de subcjto de atributos): Seleccionar un cjto. mínimo de características tq. la distribución de probabilidad de diferentes clases (dados los valores para esas características) sea tan pequeña como sea posible con respecto a la distribución original dados los valores de todas las características. reducir # de patrones en los patrones (más fácil de entender) Métodos heurísticos (por el nro. exponencial de elecciones): Selección paso a paso hacia adelante (step-wise forward) Eliminación paso a paso hacia atrás (step-wise backward) Combinación de las dos anteriores. Inducción de árboles de decisión Ej. de Inducción de Arbol de Decisión Cjto de atributos inicial: {A1, A2, A3, A4, A5, A6} A4? A1? A6? Clase 1 Clase 2 Clase 1 Clase 2 Cjto. de atributos reducido: {A1, A4, A6} Métodos Heurísticos para Selección de Características Hay 2 d sub-características posibles dadas d características Hay muchos métodos de selección de características basados en heurísticas: Se elige la mejor característica (de 1 atributo) bajo la suposición de que hay independencia entre ellos (elegir por test de significancia). Se arma luego paso a paso la mejor característica: Se elige nuevamente el próximo mejor atributo.. Y así sucesivamente. Eliminación de características paso a paso: Eliminar repetidamente la peor característica. Selección y eliminación combinada Compresión de Datos Compresión de cadenas Hay numerosos desarrollos teóricos y algoritmos específicos Típicamente sin pérdida. Solo es posible una manipulación limitada sin expansión. Compresión de audio/video Típicamente compresión con pérdida, con refinamiento progresivo Algunas veces pequeños fragmentos de señal pueden reconstruirse sin reconstruir el todo. Secuencia temporal (Time sequence) no es audio Típicamente corta y varía lentamente con el tiempo Compresión de Datos Datos Originales Aproximación a Datos Originales Datos Comprimidos sin pérdida con pérdida
6 Discretización Síntesis Tres tipos de atributos: Nominales (valores de un cjto. no ordenado) Ordinales (valores de un cjto. ordenado) Continuos (nros. reales) Discretización: dividir el rango de un atributo continuo en intervalos Algunos algoritmos de clasificación sólo aceptan atributos categóricos.. Reducir tamaño de datos por discretización. Preparar para análisis posterior Preparación de datos: importante para data warehousing y datamining La preparación de datos involucra: Limpieza e integración de los datos y selección de características Discretización Muchos métodos han sido desarrollados (pero aún es un área de investigación activa) Referencias D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42:73-78, Jagadish et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), December D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, T. Redman. Data Quality: Management and Technology. Bantam Books, New York, Y. Wand and R. Wang. Anchoring data quality dimensions ontological foundations. Communications of ACM, 39:86-95, R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7: ,
PREPROCESADO DE DATOS PARA MINERIA DE DATOS
Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado
Más detallesParte I: Introducción
Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one
Más detallesContenido del Curso. Descubrimiento de Conocimiento a partir de datos. Introducción. Motivación
Contenido del Curso Descubrimiento de Conocimiento a partir de Datos ISISTAN UNCPBA sschia@exa.unicen.edu.ar http://www.exa.unicen.edu.ar/catedras/dbdiscov/ Introducción al KDD Etapas Pre-procesamiento
Más detallesLa calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.
MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén
Más detallesIntroducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012
Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces
Más detallesAprendizaje Automático y Data Mining. Bloque IV DATA MINING
Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones
Más detallesData Mining Técnicas y herramientas
Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos
Más detallesCómo se usa Data Mining hoy?
Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta
Más detallesMinería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/
Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy
Más detallesEvaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial
Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de
Más detallesEl diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias
El diseño de la base de datos de un Data Warehouse Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El modelo Multidimensional Principios básicos Marta Millan millan@eisc.univalle.edu.co
Más detallesTEMA 7: Análisis de la Capacidad del Proceso
TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad
Más detallesESTIMACIÓN. puntual y por intervalo
ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio
Más detallesSistemas de Información 12/13 La organización de datos e información
12/13 La organización de datos e información Departamento Informática e Ingeniería de Sistemas Universidad de Zaragoza (raqueltl@unizar.es) " Guión Introducción: Data Warehouses Características: entornos
Más detallesCURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.
SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones
Más detallesVisión global del KDD
Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento
Más detallesAPOYO PARA LA TOMA DE DECISIONES
APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES
Más detallesCASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION
CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION INTRODUCCIÓN Este caso describe el enfoque de caracterizaciones interculturales de consumidores (Cross Cultural Consumer Characterizations; 4C) de Young &
Más detallesAnálisis de Sistemas de Medición MSA. Ing. Victor Reyes - TRAINix ASQ Ambos Nogales
Análisis de Sistemas de Medición MSA Ing. Victor Reyes - TRAINix ASQ Ambos Nogales Agenda Sistemas de Medición Qué son? Uso de los datos de la medición Calidad de los datos El MSA y las normas de gestión
Más detallesPruebas de. Hipótesis
Pruebas de ipótesis Pruebas de ipótesis Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar
Más detallesService Desk Institute Latinoamérica. La importancia de un diagnostico eficaz Registración y derivación
Service Desk Institute Latinoamérica La importancia de un diagnostico eficaz Registración y derivación CONTENIDO Service Desk la importancia del Diagnostico y la asignación Dentro del flujo del proceso
Más detallesforma de entrenar a la nuerona en su aprendizaje.
Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo
Más detallesHERRAMIENTAS DE LA CALIDAD
HERRAMIENTAS DE LA CALIDAD Ayudan en la medición, análisis e implementación de mejoramientos. Para mejorar Las principales herramientas de la calidad se agrupan en dos categorías: las siete herramientas
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos
Más detallesIngeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007
Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el
Más detallesCAPÍTULO I. Introducción. En la industria del hospedaje a través del tiempo se han dado diversos cambios en la
CAPÍTULO I En la industria del hospedaje a través del tiempo se han dado diversos cambios en la prestación de servicios tal es el caso de la certificación, ésta no asegura el éxito que la organización
Más detallesPreparación de Datos. Preparación de datos
Preparación de Datos Dr. Ing. Biom. Elmer A. Fernández Universidad Católica de Córdoba Fac. Ingeniería Preparación de datos Esta es una etapa crítica. En esta etapa se acondicionan los datos que luego
Más detallesLA MEDIDA Y SUS ERRORES
LA MEDIDA Y SUS ERRORES Magnitud, unidad y medida. Magnitud es todo aquello que se puede medir y que se puede representar por un número. Para obtener el número que representa a la magnitud debemos escoger
Más detallesBase de datos II Facultad de Ingeniería. Escuela de computación.
Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,
Más detallesCapítulo 12: Indexación y asociación
Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación
Más detallesNo se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.
RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este
Más detallesTÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA
TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una
Más detallesUnidad 1. Fundamentos en Gestión de Riesgos
1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.
Más detallesAnálisis de Datos. Práctica de métodos predicción de en WEKA
SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation
Más detallesDiseño de una Base de Datos. Fases del Diseño
de una Base de Datos Fases del Análisis de Requerimientos Conceptual (Entidad-relación) Lógico (ELKA) Físico (Almacenamiento y Acceso) 1 Análisis de Requerimientos Descripción operacional. Fase de adquisición
Más detallesLas 7 Herramientas Fundamentales de la Calidad
Las 7 Herramientas Fundamentales de la Calidad Se utilizarán los métodos estadísticos elementales, dado que está dirigido a todos los funcionarios, desde la alta dirección hasta los operarios de base (Ej:
Más detallesPronósticos. Pronósticos y gráficos Diapositiva 1
Pronósticos Pronósticos Información de base Media móvil Pronóstico lineal - Tendencia Pronóstico no lineal - Crecimiento Suavización exponencial Regresiones mediante líneas de tendencia en gráficos Gráficos:
Más detallesNORMA INTERNACIONAL DE AUDITORÍA 501
NORMA INTERNACIONAL DE AUDITORÍA 501 EVIDENCIA DE AUDITORÍA-CONSIDERACIONES ADICIONALES PARA PARTIDAD ESPECÍFICAS (En vigor para auditorías de estados financieros por periodos que comiencen en o después
Más detallesOtros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas
Más detallesCurso Comparabilidad de resultados
Curso Comparabilidad de resultados Director: Gabriel A. Migliarino. Docente: Evangelina Hernández. Agenda Introducción. n. Protocolos iniciales de comparación de métodos. m * EP9-A2. CLSI. * Comparación
Más detallesPreprocesamiento de datos estructurados
Preprocesamiento de datos estructurados Structured Data Preprocessing * Claudia L. Hernández G. ** Jorge E. Rodríguez R. Fecha de recepción: 13 de marzo de 2008 Fecha de aceptación: 20 de abril de 2008
Más detallesNormalización. Universidad Nacional de Colombia Facultad de Ingeniería
Normalización Preparó: Ismael Castañeda Fuentes Fuente principal: Database Systems A Practical Approach to Design, Implementation, and Management. Thomas Connolly, Carolyn Begg Universidad Nacional de
Más detallesII. ANÁLISIS DE SISTEMAS DE MEDICIÓN
II. ANÁLISIS DE SISTEMAS DE MEDICIÓN INTRODUCCIÓN Siempre que registramos o medimos los resultados de un proceso nos encontramos con cierta variación en los datos obtenidos. Esta variación puede provenir
Más detallesMinería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP
Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas
Más detallesSistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)
Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA) Agenda 1. Introducción 2. Concepto Documento Electrónico 3. A que se le denomina Documento Electrónico 4. Componentes de un Documento Electrónico
Más detallesSISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL
SISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL INTRODUCCIÓN Los sistemas de reconocimiento facial son sistemas de seguridad basados en aplicaciones que detectan e identifican automáticamente rostros humanos.
Más detallesTema: Configuración de arreglos redundantes de discos duros (RAID).
1 Tema: Configuración de arreglos redundantes de discos duros (RAID). Objetivo general Configurar arreglos RAID en discos duros para obtener una mayor tolerancia a fallos, rendimiento y capacidad. Objetivos
Más detallesContenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS
Contenido: CARTAS DE CONTROL Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS TEST DE MEDIANAS CEL: 72488950 1 Antes de querer utilizar cualquier
Más detalles8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
Más detallesNORMA INTERNACIONAL DE AUDITORÍA 520
NORMA INTERNACIONAL DE AUDITORÍA 520 PROCEDIMIENTOS ANALíTICOS (En vigor para auditorías de estados financieros por periodos que comiencen en, o después del, 15 de diciembre de 2004)* CONTENIDO Párrafo
Más detallesClasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco
Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a
Más detalles1.2 SISTEMAS DE PRODUCCIÓN
19 1.2 SISTEMAS DE PRODUCCIÓN Para operar en forma efectiva, una empresa manufacturera debe tener sistemas que le permitan lograr eficientemente el tipo de producción que realiza. Los sistemas de producción
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es
Más detallesCONTROLES DE CALIDAD
CONTROLES DE CALIDAD Los controles de calidad aplicados a la información están agrupados en primer lugar, los concernientes a los datos de la estación (QC0) y, en segunda instancia los relativos al perfil
Más detallesNorma Técnica ICONTEC 5854 ACCESIBILIDAD A PAGINAS WEB
Norma Técnica ICONTEC 5854 ACCESIBILIDAD A PAGINAS WEB Esta norma tiene por objeto establecer los requisitos de accesibilidad que se deben implementar en las páginas web en los niveles de conformidad A,
Más detallesGUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000
1 INTRODUCCIÓN Dos de los objetivos más importantes en la revisión de la serie de normas ISO 9000 han sido: desarrollar un grupo simple de normas que sean igualmente aplicables a las pequeñas, a las medianas
Más detallesEstas visiones de la información, denominadas vistas, se pueden identificar de varias formas.
El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los
Más detallesMINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)
MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio
Más detallesEPB 603 Sistemas del Conocimiento!"#$ %& $ %'
Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de
Más detallesTEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)
VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El
Más detallesContenido. Práctica 1. Configuración de sistemas operativos. Vista clásica. Configuración y personalización
Práctica 1. Configuración de sistemas operativos Licenciado en Traducción e Interpretación Curso: 2010/2011 2 Configuración de sistemas operativos Configuración y personalización Panel de control Centro
Más detallesTécnicas de valor presente para calcular el valor en uso
Normas Internacionales de Información Financiera NIC - NIIF Guía NIC - NIIF NIC 36 Fundación NIC-NIIF Técnicas de valor presente para calcular el valor en uso Este documento proporciona una guía para utilizar
Más detallesIntroducción. Metadatos
Introducción La red crece por momentos las necesidades que parecían cubiertas hace relativamente poco tiempo empiezan a quedarse obsoletas. Deben buscarse nuevas soluciones que dinamicen los sistemas de
Más detalles1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.
1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS
Más detallesv.1.0 Clase 5 Docente: Gustavo Valencia Zapata
v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería
Más detallesSISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta
SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,
Más detallesTÓPICOS AVANZADOS DE BASES DE DATOS
TÓPICOS AVANZADOS DE BASES DE DATOS 1. DATOS DE LA ASIGNATURA. Nombre de la asignatura: TÓPICOS AVANZADOS DE BASES DE DATOS Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: Modulo
Más detallesBASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES
BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES El modelo relacional se basa en dos ramas de las matemáticas: la teoría de conjuntos y la lógica de predicados de primer orden. El hecho de que
Más detallesNorma Técnica ICONTEC 5854 ACCESIBILIDAD A PAGINAS WEB
Norma Técnica ICONTEC 5854 ACCESIBILIDAD A PAGINAS WEB Esta norma tiene por objeto establecer los requisitos de accesibilidad que se deben implementar en las páginas web en los niveles de conformidad A,
Más detallesEl Proceso Unificado de Desarrollo de Software
El Proceso de Desarrollo de Software Ciclos de vida Métodos de desarrollo de software El Proceso Unificado de Desarrollo de Software 1 Fases principales del desarrollo de software Captura de requisitos:
Más detallesANALISIS MULTIVARIANTE
ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,
Más detallesDe qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información:
Datamining y Aprendizaje Automatizado Prof. Carlos Iván Chesñevar Email: cic@cs.uns.edu.ar Http:\\cs.uns.edu.ar\~cic Departamento de Cs. e Ing. de la Computación Universidad Nacional del Sur Bahía Blanca,
Más detallesBREVE APUNTE SOBRE EL PROBLEMA DE LA MULTICOLINEALIDAD EN EL MODELO BÁSICO DE REGRESIÓN LINEAL
BREVE APUNTE SOBRE EL PROBLEMA DE LA MULTICOLINEALIDAD EN EL MODELO BÁSICO DE REGRESIÓN LINEAL Ramón Mahía Febrero 013 Prof. Ramón Mahía ramon.mahia@uam.es Qué se entiende por Multicolinealidad en el marco
Más detallesAnálisis e Interpretación de Datos Unidad XI. Prof. Yanilda Rodríguez MSN Prof. Madeline Fonseca MSN Prof. Reina del C.Rivera MSN
Análisis e Interpretación de Datos Unidad XI Prof. Yanilda Rodríguez MSN Prof. Madeline Fonseca MSN Prof. Reina del C.Rivera MSN Competencias de Aprendizaje Al finalizar la actividad los estudiantes serán
Más detallesAlgoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo
1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal
Más detallesIndicaciones específicas para los análisis estadísticos.
Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por
Más detallesMineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Más detallesIntroducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina
Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera
Más detallesDATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT
DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza
Más detallesMOLAP REALIZADO POR: JOSE E. TABOADA RENNA
MOLAP REALIZADO POR: JOSE E. TABOADA RENNA BASE DE DATOS Conjunto de datos estructurados, fiables y homogéneos organizados independientemente en máquina, m accesibles en tiempo real, compatible por usuarios
Más detallesMEJORA EN LA EFICIENCIA DE GENERACIÓN DE MODELOS
MEJORA EN LA EFICIENCIA DE GENERACIÓN DE MODELOS MODELO DE BEHAVIOR SCORING Por: Rosario Zolezzi Diners Club Perú Agenda Antecedentes Problemática Objetivos Fases del Modelamiento Uso de la herramienta
Más detallesPrecio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.
Series Temporales Introducción Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instantes
Más detallesAnexo 11. Manual de Administración
PONTIFICIA UNIVERSIDAD JAVERIANA Anexo 11. Manual de Administración Para mantenimiento a los modelos y código fuente Alex Arias 28/05/2014 El presente documento muestra los requerimientos necesarios para
Más detallesMODELADO DEL DOMINIO (MODELO CONCEPTUAL)
MODELADO DEL DOMINIO (MODELO CONCEPTUAL) Es el Artefacto más importante en el Análisis Orientado a Objetos. Explica los conceptos más significativos en un dominio del problema. Previo a esto es fundamental
Más detallesMatemáticas 2º BTO Aplicadas a las Ciencias Sociales
Matemáticas 2º BTO Aplicadas a las Ciencias Sociales CONVOCATORIA EXTRAORDINARIA DE JUNIO 2014 MÍNIMOS: No son contenidos mínimos los señalados como de ampliación. I. PROBABILIDAD Y ESTADÍSTICA UNIDAD
Más detallesVersión final 8 de junio de 2009
GRUPO DE EXPERTOS «PLATAFORMA PARA LA CONSERVACIÓN DE DATOS ELECTRÓNICOS PARA CON FINES DE INVESTIGACIÓN, DETECCIÓN Y ENJUICIAMIENTO DE DELITOS GRAVES» ESTABLECIDO POR LA DECISIÓN 2008/324/CE DE LA COMISIÓN
Más detallesEnfoque del Marco Lógico (EML)
Enfoque del Marco Lógico (EML) Qué es el EML? Es una herramienta analítica que se utiliza para la mejorar la planificación y la gestión de proyectos tanto de cooperación al desarrollo como de proyectos
Más detallesTRANSMISION DIGITAL. PCM, Modulación por Codificación de Pulsos
MODULACIÓN TRANSMISION DIGITAL La amplia naturaleza de las señales analógicas es evidente, cualquier forma de onda está disponible con toda seguridad en el ámbito analógico, nos encontramos con una onda
Más detallesBASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación
UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto
Más detallesMicrosoft SQL Server Conceptos.
Microsoft Conceptos. Microsoft 2005 es una plataforma de base de datos a gran escala de procesamiento de transacciones en línea (OLTP) y de procesamiento analítico en línea (OLAP). La siguiente tabla muestra
Más detallesApéndice A Herramientas utilizadas
Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje
Más detallesPara obtener la información requerida para realizar un DI, a menudo se usa la técnica de Lluvia de ideas.
1.4.4. DIAGRAMA DE ISHIKAWA (O DE CAUSA EFECTO) Una vez que se ha localizado dónde, cuándo y bajo qué circunstancias ocurre un problema importante, entonces es el momento de localizar la causa fundamental
Más detallesMinería de Datos. Preprocesamiento: Reducción de Datos - Discretización
Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com
Más detallesGuía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor
Guía de Preparación de Muestras para PLASTICOS para el Software de Formulación de Datacolor 1. Generalidades 2. Qué se necesita para comenzar? 3. Qué hacer para sistemas opacos y translúcidos? 4. Qué hacer
Más detallesBusiness Intelligence
2012 Business Intelligence Agenda Programas Diferencias de OLTP vs OLAP Arquitectura de una solución de BI Tecnologías Microsoft para BI Diferencias entre OLTP v/s OLAP Alineación de Datos OLTP Datos organizados
Más detallesMUESTREO TIPOS DE MUESTREO
MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de
Más detallesResumen de técnicas para resolver problemas de programación entera. 15.053 Martes, 9 de abril. Enumeración. Un árbol de enumeración
5053 Martes, 9 de abril Ramificación y acotamiento () Entregas: material de clase Resumen de técnicas para resolver problemas de programación entera Técnicas de enumeración Enumeración completa hace una
Más detallesCAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
Más detallesSAQQARA. Correlación avanzada y seguridad colaborativa_
SAQQARA Correlación avanzada y seguridad colaborativa_ Tiene su seguridad 100% garantizada con su SIEM?_ Los SIEMs nos ayudan, pero su dependencia de los eventos y tecnologías, su reducida flexibilidad
Más detalles