30/08/2017. Pasos KDD. 1. Entendimiento del dominio de establecimiento de objetivos
|
|
- María Jesús Sáez Agüero
- hace 5 años
- Vistas:
Transcripción
1 Pasos KDD 1. Entendimiento del dominio de establecimiento de objetivos 1
2 Objetivos KDD Los datos a integrar dependen de los objetivos de KDD, que, a su vez, dependen de los objetivos de negocio, por ejemplo: Objetivo de negocio: Reducir colas Objetivo de negocio refinado: Asignar recursos más ajustados en cajas según la afluencia de clientes. Objetivo de minería de datos: Predecir con antelación la afluencia de clientes de una tienda en cualquier tramo del día. Objetivos KDD El resultado de la fase de definición del problema o de establecimiento de los objetivos debe contemplar: Lista de objetivos de minería de datos y su correspondencia con objetivos de negocio. Esclarecimiento de qué datos, tanto internos como externos pueden ser necesarios para cada uno de ellos. Priorización de los mismos según la facilidad de llevarlo a cabo (datos necesarios, recursos, etc.) y el impacto en el objetivo de negocio esperado. Empezaremos por los primeros de la lista. 2
3 Objetivos KDD Una vez definidos y seleccionados los objetivos de análisis es necesario esclarecer qué datos son necesarios para poder obtener los modelos deseados Existen dos posibles opciones: a) Recoger exclusivamente los datos necesarios para el objetivo u objetivos de análisis en cuestión. b) Crear un repositorio de datos para permitir este y otros análisis ulteriores. Es por tanto, SELECCIONAR, RECOPILAR e INTEGRAR los datos 2. Selección e integración de fuentes de datos a minarse 3
4 Selección Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. muchas de estas fuentes son las que se utilizan para el trabajo transaccional. Selección Aparte de información interna de la organización, los almacenes de datos pueden recopilar información externa: Demografías (censo), páginas amarillas, psicografías (perfiles por zonas), uso de Internet, información de otras organizaciones. Datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. Datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, deportivas, catástofres,.. Bases de datos externas compradas a otras compañías 4
5 Factores de la selección que influirán posteriormente en la minería Fuente de datos: OLAP u OLTP. Datawarehouse o copia con el esquema original. ROLAP o MOLAP. Tipo de usuario: Usuarios que se dedican fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros, controlar valores anómalos, etc. Usuarios encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos. TAREA: Entrar al INEGI y bajar unos archivos Factores de la selección que influirán posteriormente en la minería El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. La forma mas sencilla de realizar una minería de datos puntual u ocasional es: Crear un repositorio de datos. La forma mas adecuada de realizar minería de datos con continuidad y abierta a nuevos objetivos de análisis es: Crear un almacén de datos o añadir un datamart a un almacén de datos existente. 5
6 Selección Problema Calidad de datos Información no siempre adecuada: Datos insuficientes, p.e., en almacenes grandes se pide la nacionalidad del cliente, pero no los hábitos alimenticios o el tipo de trabajo. Por tanto, éstos factores no podrán entrar en el análisis. Datos incompletos o de baja calidad, p.e., el formulario permite dejar algunos campos vacíos. Por tanto, los datos no se actualizan si el cliente cambia de domicilio, de trabajo, de estado civil, REFLEXION Es necesario siempre tener un almacén de datos para hacer minería de datos? NO Es conveniente tener un almacén de datos para hacer minería de datos de una manera regular si el volumen de datos es importante? SÍ Si existe ya un almacén de datos en la organización, puedo usarlo para la minería de datos? NO SIEMPRE. Depende de si tiene la suficiente granularidad y las dimensiones necesarias para el análisis. 6
7 3. Limpieza y preprocesamiento de datos Limpieza y pre procesamiento de datos La preparación de datos es una de las fases del proceso de extracción de conocimiento a partir de datos (KDD). Esta fase suele suponer cerca de la mitad del esfuerzo del proceso de extracción de conocimiento. 7
8 Limpieza y pre procesamiento de datos Después de la selección e integración de datos: El objetivo de la Limpieza y pre procesamiento es obtener una VISTA MINABLE, es decir, a partir de datos inadecuados, faltantes, erróneos, irrelevantes, dispersos, etc. obtener a traves de limpieza, pre procesamiento y transformación datos limpios y adecuados para el posterior proceso de mineria de datos. Limpieza y pre procesamiento de datos 8
9 Limpieza de datos/data Cleansing Limpieza datos: Primero se debe realizar un estudio sobre los datos para diagnosticar que tan sucios están los datos (data profiling o visualización) para despues limpiarlos: Se deben eliminar el mayor número posible de datos erróneos o inconsistentes e irrelevantes. Puede ser por métodos estadísticos. resúmenes e histogramas (detección de datos anómalos). selección de datos (muestreo, ya sea verticalmente, eliminando atributos, denominado selección de características, u horizontalmente, eliminando tuplas, denominado muestreo ). redefinición de atributos (agrupación o separación). Data profiling El primer paso consiste en conocer y comprender los datos: un resumen de características es útil: 9
10 Profiling por visualización Técnicas de visualización (TableLens) Data profiling por visualización Las técnicas de visualización ayudan a comprender los datos, (scatterplot, surveyplot) 10
11 Data profiling, estimación de calidad de datos Accuracy Completeness Timeliness Etc. Registros duplicados: En una sola base de datos o al integrar varias bases de datos Si se desea implementar una mejora de calidad de datos en una empresa (independientemente del KDD, minería) Qué reglas de integridad, consistencia, negocio NO están implementados? Qué procesos de aseguramiento de calidad se implantarán para prevenir mala calidad? Políticas, programas, capacitación, etc. Detección de heterogeneidades Detección de Heterogeneidades Semánticas, 11
12 Data profiling Atributos Numéricos: Debemos analizar con detalle cada uno de los atributos:podemos detectar: Valores anómalos, Distribuciones en los datos. Otra alternativa útil para los atributos numéricos son las gráficas de dispersión
13 Transformaciones globales: p.ej. filas por columnas. Creación o modificación de atributos: Discretización y Numerización. Normalización. Atributos derivados. Reducción de atributos. Selecciones verticales (sobre las características / atributos): Selección de características. Selecciones Horizontales (sobre las instancias): Muestreo. Reducción de datos: La proporción de dimensiones (variables) respecto a la cantidad de instancias puede marcar la calidad de los modelos. Maldición de la dimensionalidad Una manera de intentar resolver este problema es mediante la reducción de dimensiones, por: a) selección de un subconjunto de atributos, o b) sustitución del conjunto de atributos iniciales por otros diferentes. 13
14 Intercambio de Dimensiones: (filasporcolumnas) EJEMPLO: Una tabla de carritos de compra o mandado, donde cada atributo indica si el producto se ha comprado o no. Objetivo: Ver si dos productos se compran conjuntamente (regla de asociación). Es muy costoso: hay que mirar al menos la raíz cuadrada de todas las relaciones (carritos de compra). Y puede haber millones en una semana... Sin embargo... Productos sólo hay unos Intercambio de Dimensiones: p.e., si se intercambian filas por columnas tenemos: Sólo es necesario combinar dos filas para saber si hay asociación 14
15 En otras ocasiones añadir atributos nuevos puede mejorar el proceso de aprendizaje. El conocimiento del dominio es el factor que más determina la creación de buenos atributos derivados Creación de atributos derivados con base a experto en el negocio 15
16 La discretización, o cuantización (también llamada binning ) es la conversión de un valor numérico en un valor nominal ordenado. La discretización se debe realizar cuando: a) El error en la medida puede ser grande b) Existen umbrales significativos (p.e. notas) c) En ciertas zonas el rango de valores es más importante que en otras (interpretación no lineal) d) Se desea aplicar ciertas tareas de MD que sólo soportan atributos nominales (p.e. reglas de asociación) 16
17 La numerización es el proceso inverso a la Discretización, consiste en convertir un atributo nominal en numérico. La numerización se debe realizar cuando se quieren aplicar ciertas técnicas de MD que sólo soportan atributos numéricos (p.e. Regresión, métodos basados en distancias Numerización 1 a n : Si una variable nominal x tiene posibles valores creamos n variables numéricas, con valores 0 o 1 dependiendo de si la variable nominal toma ese valor o no.p.e., Convertir el campo tarjeta que contiene los valores: { VISA, 4B, Amer, Maestro } en cuatro atributos binarios. Numerización 1 a 1 : Se aplica si existe un cierto orden o magnitud en los valores del atributo nominal.p.e., si tenemos categorías del estilo {niño, joven, adulto, anciano} podemos crear un único atributo y numerar los valores de 1 a 4. 17
18 Algunos métodos de aprendizaje funcionan mejor con los atributos numéricos normalizados entre 0 y 1. Algunos tipos de normalización lineal uniforme sigmoidal Ejemplo: Los tíckets semanales pasan de estar entre 0 y 15 a estar entre 0 y 1. La técnica más conocida para reducir la dimensionalidad por transformación se denomina principal component analysis, PCA. PCA transforma los m atributos originales en otro conjunto de atributos p donde p m. Este proceso se puede ver geométricamente como un cambio de ejes en la representación (proyección). Los nuevos atributos se generan de tal manera que son independientes entre sí y, además, los primeros tienen más relevancia (más contenido informacional) que los últimos. 18
19 : Muestreo Permite reducir el tamaño de datos de trabajo. Muestreo más habitual: Aleatorio Simple: con reemplazamiento, o sin reemplazamiento. Otros: Aleatorio Estratificado. De grupos. Exhaustivo. : Muestreo Con cúantos datos es preferible trabajar? Depende, en general, del número de atributos, de sus valores. del método de aprendizaje, de su expresividad (por ejemplo una regresión lineal requiere muchos menos ejemplos que una red neuronal). Se utiliza una estrategia incremental, en el que se va haciendo la muestra cada vez más grande (y diferente si es posible) hasta que se vea que los resultados no varían significativamente entre un modelo y otro. 19
20 : Deduplicación de registros : Limpieza de datos durante la fusión de registros Acciones ante datos anómalos (outliers) o faltantes: ignorar. filtrar (eliminar o sustituir) la columna (data fusion) filtrar la fila. reemplazar el valor por un valor de media o predicho (funciones de transformación) segmentar las filas entre las de datos correctos y el resto y trabajar separadamente. discretizar los atributos numéricos. Desistir y modificar la política de calidad de datos para la próxima vez. 20
21 Después de la transformación El resultado es un conjunto de filas y columnas denominado: Vista minable La vista minable integra datos de diferentes fuentes, los limpia, selecciona, transforma, le asigna un tipo común o necesario, con el fin de prepararlos para la modelización. 5,6,7. Minería de datos 21
22 Minería de datos A) Elección de tarea de minería de datos: Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrón quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de minería de datos a utilizar. Según como sea la búsqueda del conocimiento se puede distinguir entre: Directed data mining: se sabe claramente lo que se busca, generalmente predecir unos ciertos datos o clases. En algunos sistemas de minería de datos se encargan generalmente de elegir el algoritmo más idóneo entre los disponibles para un determinado tipo de patrón a buscar Undirected data mining: no se sabe lo que se busca, se trabaja con los datos ( hasta que confiesen!). Minería de datos Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos. Un modelo predictivo responde preguntas sobre datos futuros. Cuáles serán las ventas el año próximo? Es esta transacción fraudulenta? Qué tipo de seguro es más probable que contrate el cliente X? Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: Los clientes que compran pañales suelen comprar cerveza. El tabaco y el alcohol son los factores más importantes en la enfermedad Y. Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto. 22
23 Técnicas de Minería de datos Evaluación e Interpretación 23
24 La fase anterior produce una o más hipótesis de modelos. Para seleccionar y validar estos modelos es necesario el uso de criterios de evaluación de hipótesis. Por ejemplo: 1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos independiente del que se ha utilizado para aprender el modelo. Se puede elegir el mejor modelo. 2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quería utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de clientes y evaluar la fiabilidad del modelo. Conocimiento descubierto, visualización e integración El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementación o interpretación: El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas fraudulentas). El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de zonas geográficas según la distribución de los productos vendidos). El modelo puede tener muchos usuarios y necesita difusión: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organización (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes). 24
MINERÍA DE DATOS - INTRODUCCIÓN INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS INTRODUCCIÓN A LA MINERÍA DE DATOS
MINERÍA DE - INTRODUCCIÓN INTRODUCCIÓNA A LA MINERÍA DE. EL PROCESO DE KDD - TÉCNICAS DE MINERÍA DE Y PRINCIPALES. FASE DE SELECCIÓN EN MINERÍA DE. FASE DE EXPLORACIÓN EN MINERÍA DE. TRANSFORMACIÓN DE.
Más detallesIntroducción a la Prospección de Datos Masivos ( Data Mining )
Introducción a la Prospección de Datos Masivos ( Data Mining ) José Hernández Orallo jorallo@dsic.upv.es Transparencias y otra documentación en: http://www.dsic.upv.es/~jorallo/master/ Máster de Ingeniería
Más detallesModelos de Mercadotecnia. SESIÓN # 2. Bases de datos.
Modelos de Mercadotecnia SESIÓN # 2. Bases de datos. Contextualización La definición de una base de datos se puede simplificar en una sola palabra: colección. Este concepto se define como la recopilación
Más detallesModelos de Mercadotecnia Tema 1: Dimensión del Marketing
Tema 1: Dimensión del Marketing Sesión 2: Bases de Datos Objetivo de la Sesión: Al concluir la sesión el alumno reconocerá el proceso para llevar a cabo la minería de datos y describirá cómo las herramientas
Más detallesMinería de datos (Fases de la minería de datos)
Minería de datos (Fases de la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 12-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 23 Fase de
Más detallesMinería de Datos. Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria
Minería de Datos Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria 1 Que es un conjunto de datos? Es una colección de objetos con sus respectivo atributos. Un atributo es una propiedad
Más detallesIntroducción a la minería de datos
Introducción a la minería de datos 1 Temario Qué es minería de datos? Quién usa minería de datos? Por qué de la minería de datos? Ciclo virtuoso de la minería de datos 2 Definición de minería de datos
Más detallesTaller #3. Carlos Reveco Cinthya Vergara
Taller #3 Carlos Reveco creveco@dcc.uchile.cl Cinthya Vergara cvergarasilv@ing.uchile.cl 1 Taller#3 - Uso de RapidMiner 5.0 Limpieza y selección de datos Data Cleansing: Eliminación de valores nulos o
Más detallesMódulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Metodologías Las tres metodologías dominantes para el proceso de la minería
Más detallesIntroducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos
Más detallesDirección General de Estudios de Postgrado Área de Ingeniería Programa: Maestría Sistemas de Información
Dirección General de Estudios de Postgrado Área de Ingeniería Programa: Maestría Sistemas de Información Caracas, Abril 2016 Integrantes: Areiza, Elvis Pérez, Dalila Rivas, Juan Puntos a tratar: 1.- Almacén
Más detallesDATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE
VII Reunión sobre casos prácticos de inspección y vigilancia de mercados y entidades. Santiago de Chile DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE Marcelo García
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesResumen Inteligencia de Negocios
Resumen Inteligencia de Negocios La inteligencia de Negocios es una tendencia dentro de la Tecnología de Información, recordemos que la Tecnología de Información ayuda a hacer eficientes muchos de los
Más detallesConceptos de Inteligencia Empresarial
Conceptos de Inteligencia Empresarial Business Intelligence Se denomina inteligencia empresarial, inteligencia de negocios o BI (del inglés business intelligence), al conjunto de estrategias, aplicaciones,
Más detallesMetamodelo de una Bodega de Datos para el Descubrimiento de Conocimiento
Metamodelo de una Bodega de Datos para el Descubrimiento de Conocimiento Claudia Jiménez Ramírez Fernán Villa Garzón Martín Rico Herrera Universidad Nacional de Colombia Sede Medellín Bogotá, 14 y 15 de
Más detallesUnidad 10. Almacenes de Datos
Unidad 10 Almacenes de Datos Introducción Definición Los Almacenes de Datos (data warehouse) son colecciones de datos orientadas a la toma de decisiones Almacenes de Datos y Bases de Datos La principal
Más detallesPrimera sustentación Proyectos de Sistemas II
Primera sustentación Proyectos de Sistemas II Alcántara Mori, Alvaro Asesor : MBA Ing. Carlos Zorrilla Vargas Planteamiento del Problema Carrera Área : Informática : Base de Datos Asignatura : Minería
Más detallesÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1
ÍNDICE Introducción... XI Capítulo 1. Técnicas de minería de datos y herramientas... 1 Clasificación de las técnicas de minería de datos y herramientas más comunes... 1 Modelado originado por la teoría
Más detallesSISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS.
SISTEMA INTEGRAL PARA LA PROYECCIÓN Y DETECCIÓN DE LA PREVENCIÓN DEL DELITO, MEDIANTE MINERÍA DE DATOS. MTIE. Erik Guerrero Bravo. Universidad Tecnológica Tula - Tepeji. Introducción Sistemas Transaccionales
Más detallesIntroducción a la Minería de Datos
Introducción a la Minería de Datos Introducción a la Minería de Datos Estamos viviendo en la era de la información Vivimos en la era de los datos WWW ( Tera o Pentha bytes de data) Almacenamiento de datos
Más detalles1. IDENTIFICACIÓN DEL CURSO Nombre de la materia
1. IDENTIFICACIÓN DEL CURSO Nombre de la materia Minería de datos Clave de la Horas de Horas de Total de Horas: Valor en materia: teoría: práctica: créditos: I0191 48 16 64 7 Tipo de curso: (Marque con
Más detallesMódulo Minería de Datos
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Preprocesamiento de Datos Preparación de datos El propósito fundamental
Más detallesAPLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra
APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU Luis Azaña Bocanegra TEMARIO CONCEPTOS DEFINICION DE MINERIA DE DATOS USOS DE LA MINERIA DE DATOS TECNICAS DE MINERIA DE DATOS ETAPAS DE UN PROYECTO DE
Más detallesTareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR
Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos
Más detallesAdministración de las Bases de Datos
Universidad Alonso de Ojeda Facultad de Ingeniería Administración de las Bases de Datos Base de Datos II Profesora: Anaylen López Base de Datos Distribuidas Concepto "Base de datos distribuida" es en realidad
Más detallesSeminario 55. Excel Experto
Seminario 55. Excel Experto Contenidos 1. Introducción 2. Funciones lógicas 3. Funciones estadísticas 4. Funciones de búsqueda y referencia 5. Filtros básicos y filtros avanzados 6. Tablas dinámicas 7.
Más detallesÍndice. Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19
Índice Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19 Capítulo 1. Introducción a la Minería de Datos 21 1. Minería de datos 21 1.1. Tipos de datos 24
Más detallesAseguramiento de la calidad estadística en el Sistema Estadístico Nacional: Autoevaluación y Certificación
Aseguramiento de la calidad estadística en el Sistema Estadístico Nacional: Autoevaluación y Certificación Contenido: Procesos de Aseguramiento de la Calidad Autoevaluación Sistema de Certificación de
Más detallesAnexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN 165 ENCUESTA DE COMPORTAMIENTOS Y TIPOLOGÍAS DE VISITANTES EN EUSKADI 166 ANEXO I. CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Más detalles10 EXÁMENES
10 EXÁMENES 2014-2018 Convocatoria Extraordinaria de Septiembre 1 de Septiembre de 2014 1. (1 pto.) a) Aunque por abuso del lenguaje hemos hablado de minería de datos y de KDD como sinónimos, indica las
Más detallesRegistros Un campo: Registro:
Agenda 1) 2) registros ordenados registros desordenado Agenda 3) Organización de. 4) desordenado Organización de. Un campo: es el elemento de datos básico. Un campo individual contiene un valor único.
Más detallesTareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja
Más detallesUNIDAD I. Universidad del Zulia Costa Oriental del Lago. Conceptos Básicos
Costa Oriental del Lago UNIDAD I Conceptos Básicos Comandos internos y externos. Estructura básicas: entidad, atributo, base de datos, clave primaria y secundaria, registro y archivo de datos empresas
Más detallesInteligencia de mercados e investigación en base de datos
Inteligencia de mercados e investigación en base de datos Objetivos de aprendizaje Conocer los elementos básicos de los diseños de inteligencia de mercados. Explicar el papel de la minería de datos en
Más detallesEL PLAN DE ANALISIS. Patricio Suárez Gil Julio Alonso Lorenzo. La Fresneda, Asturias 2011 Programa MFyC
EL PLAN DE ANALISIS Patricio Suárez Gil Julio Alonso Lorenzo La Fresneda, Asturias 2011 Programa MFyC Qué es investigar? En esencia es RESPONDER PREGUNTAS FASES DE UN PROYECTO Formular una PREGUNTA Antecedente
Más detallesArquitectura de un data warehouse Funcionamiento detallado de un data warehouse
El modelo multidimensional Data a Warehousing OLAP vs. OLTP Data Warehousing El modelo multidimensional Dimensiones, medidas y hechos Arquitectura de un data warehouse Funcionamiento detallado de un data
Más detallesMinería de Datos Para la Inteligencia de Negocios
Minería de Datos Para la Inteligencia de Negocios Luis Francisco Zaldivar, MSE www.modelacionderiesgos.com Porqué el Análisis de Datos Tradicional es Limitado? 1. Tremenda y creciente cantidad de información
Más detallesAplicaciones empresariales
KDD y Data Minig Descubrimiento de Conocimiento en Bases de Datos Se define como la extracción no trivial de información implícita, desconocida, y potencialmente útil de los datos. La palabra descubrimiento
Más detallesAnálisis exploratorio de datos. Análisis Exploratorio de Datos - Claudia Jiménez R
Análisis exploratorio de datos 1 Métodos de recolección de datos Censo Muestreo Diseño de experimentos Muestra Población Etdíti Estadística descriptiva Inferencia inductiva 2 Variables Son aquellas características
Más detalles2.1. Introducción Análisis exploratorio Análisis exploratorio para variables con muchas modalidades
Tema 2 Análisis gráfico Contenido 2.1. Introducción............................. 1 2.2. Análisis exploratorio......................... 2 2.2.1. Análisis exploratorio para variables con pocas modalidades
Más detallesCONTENIDOS MÍNIMOS BLOQUE 6. ESTADÍSTICA Y PROBABILIDAD.
CONTENIDOS Y CRITERIOS DE EVALUACIÓN DE MATEMÁTICAS 3º ESO Bloque 1: Contenidos Comunes Este bloque de contenidos será desarrollado junto con los otros bloques a lo largo de todas y cada una de las unidades
Más detallesTEMA 8 EL MUESTREO Y EL TRABAJO DE CAMPO
TEMA 8 EL MUESTREO Y EL TRABAJO DE CAMPO 8.1. El Control de la muestra 8.. La Cantidad / Calidad de la información 8.3. El error muestral y no muestral 8.4. El trabajo de campo 8.5. Los entrevistadores
Más detalles15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:
15. Regresión lineal Este tema, prácticamente íntegro, está calacado de los excelentes apuntes y transparencias de Bioestadística del profesor F.J. Barón López de la Universidad de Málaga. Te recomiendo
Más detallesPrefacio... xvii. 1 La imaginación estadística... 1
ÍNDICE Prefacio... xvii 1 La imaginación estadística... 1 Introducción... 1 Pensamiento proporcional... 3 La imaginación estadística... 8 Enlace de la imaginación estadística con la imaginación sociológica...
Más detallesDE LAS BD A LOS ALMACENES DE DATOS (DW) FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN
DE LAS BD A LOS ALMACENES DE DATOS (DW)... ALMACENES DE DATOS (DATA WAREHOUSES Y DATA MARTS), OLAP (PROCESO ANALÍTICO EN LÍNEA) Y. DE LAS BD A LOS DW 1 DE LAS BD A LOS DW 2 LA INFORMACIÓN REDUCE NUESTRA
Más detallesUniversidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)
Universidad Autónoma del Estado de México Material didáctico multimedia Sólo visión La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining) Unidad de Aprendizaje Minería de Datos
Más detallesHerramientas Estadísticas en el Informe de Investigación
DPTO. INVESTIGACIÓN G-MIO GEODE TALLER Investigación científica: hacia un informe de investigación exitoso Herramientas Estadísticas en el Informe de Investigación Prof. Néstor Díaz Herramientas Estadísticas
Más detallesBASES DE DATOS AVANZADAS. Facultad de Estadística e Informática
BASES DE DATOS AVANZADAS Clase 26 Agenda Integración de datos osistemas de mediación odata Warehousing Integración de datos CÓMPUTO EN LA NUBE Qué es? La integración de datos la podemos definir como el
Más detallesJesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS
Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS En esta clase concluimos el curso de Análisis de Datos con una visión de las metodologías del análisis de datos. Como se ha visto, este es un campo
Más detallesFases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:
Minería de 2. El Proceso de KDD José Hernández Orallo jorallo@dsic.upv.es Máster y Cursos de Postgrado del DSIC Universitat Politècnica de València Temario 1. Introducción a la Minería de (DM) 1.1. Motivación
Más detallesConsultor en investigación social y de mercados y analista web.
Consultor en investigación social y de mercados y analista web 23 años de experiencia en investigación de mercados Amplio conocimiento de metodologías Manejo de SPSS y de modelos multivariantes Analista
Más detallesEdif. El Greco, Piso 14 Insurgentes Sur 105 casi esq. Niza Col. Juárez México, D.F. Cel.
CURSOS DE MINERÍA DE DATOS (DATA MINING), DATA WAREHOUSING (DATOTECAS), Y USO DE DATOS DEL CENSO INEGI Fecha de elaboración: 21/Abr/2015 Vigencia: 60 días naturales a partir de esta fecha Semblanza del
Más detallesSYLLABUS de la Asignatura Inteligencia de Negocios
Escuela de Informática Sazié 2325 +56 2 2661 8256 contactofi@unab.cl SYLLABUS de la Asignatura Negocios 1. Descripción de la asignatura Este curso presenta el diseño y análisis de sistemas de información
Más detallesEstadística Descriptiva - Tema 1. Conceptos Básicos
Estadística Descriptiva - Tema 1 Conceptos Básicos La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar
Más detallesImplementación de modelos de minería online para la detección de fraude en tarjetas de crédito
make connections share ideas be inspired Implementación de modelos de minería online para la detección de fraude en tarjetas de crédito C o p y r i g h t 2 0 1 3, S A S I n s t i t u t e I n c A l l r
Más detallesGráfico de Desgaste de Herramientas
Gráfico de Desgaste de Herramientas Resumen El procedimiento Gráfico de Desgaste de Herramientas crea cuadros de control para una sola variable numérica donde se espera que cambien las cantidades en un
Más detallesProf. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística
Prof. Angel Zambrano ENERO 009 Universidad de Los Andes Escuela de Estadística Muestreo: Es una metodología que apoyándose en la teoría estadística y de acuerdo a las características del estudio, indica
Más detallesCurso Superior. Experto en Data Mining
Curso Superior Experto en Data Mining Índice Experto en Data Mining 1. Sobre Inesem 2. Experto en Data Mining Descripción / Para que te prepara / Salidas Laborales / Resumen / A quién va dirigido / Objetivos
Más detallesFase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
Más detallesYO, CIENCIA DE DATOS. BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016
YO, CIENCIA DE DATOS BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016 Qué es CIENCIA DE DATOS? La ciencia de datos es un campo interdisciplinario que involucra los procesos y sistemas
Más detallesTema 2. El proceso del descubrimiento de conocimiento a partir de bases de datos (KDD)
Tema 2 El proceso del descubrimiento de conocimiento a partir de bases de datos (KDD) Tema 2. El proceso de extracción de conocimiento a partir de bases de datos Objetivos: Entender el objetivo del proceso
Más detallesTema 8. Análisis de dos variables Ejercicios resueltos 1
Tema 8. Análisis de dos variables Ejercicios resueltos 1 Ejercicio resuelto 8.1 La siguiente tabla muestra la distribución del gasto mensual en libros y el gasto mensual en audiovisual en euros en los
Más detallesTema 12: Introducción a la Estadística.
MOLEDO GUGLIOTTA VICTOR Tratamiento de los datos Tema 12: Introducción a la Estadística. Al intentar interpretar la realidad a través de las herramientas que nos aporta la Estadística, lo primero que se
Más detallesORIENTACIONES PARA LA MATERIA DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II. EBAU 2018
ORIENTACIONES PARA LA MATERIA DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II. EBAU 2018 Criterios de evaluación Criterios específicos NÚMEROS Y ÁLGEBRA Matrices 1. Conocer el concepto de matriz y
Más detallesNota de los autores... vi
ÍNDICE Nota de los autores... vi 1 Qué es la estadística?... 1 1.1 Introducción... 2 1.2 Por qué se debe estudiar estadística?... 2 1.3 Qué se entiende por estadística?... 4 1.4 Tipos de estadística...
Más detallesTema 1(parte 2): Introducción a la Estadística 1.1-1
1 Tema 1(parte 2): Introducción a la Estadística 1.1-1 Muestreo Muestra Es un subconjunto de la población. Objetivo del muestreo: El objetivo del muestreo es obtener la mayor cantidad de información posible
Más detallesBI (Business Intelligence o inteligencia de negocio) ING. MSC. GABRIELA BOBADILLA ING. LOURDES DELGADO ING. KATIA AYALA
BI (Business Intelligence o inteligencia de negocio) ING. MSC. GABRIELA BOBADILLA ING. LOURDES DELGADO ING. KATIA AYALA Cuántos de ustedes disponen de más información y de menos tiempo para analizarla?
Más detallesAUTORA Ing. Sonia Alejandra Formia. DIRECTORA Prof. Lic. Laura C. Lanzarini. ASESOR ACADEMICO Dr. Waldo Hasperué
La deserción en cursos universitarios. Construcción de modelos sobre datos de la Universidad Nacional de Río Negro usando técnicas de Extracción de Conocimiento. AUTORA Ing. Sonia Alejandra Formia DIRECTORA
Más detallesEXCEL I UNIDAD 1 EMPEZANDO A TRABAJAR CON EXCEL (SEMANA 1)
EXCEL I UNIDAD 1 EMPEZANDO A TRABAJAR CON EXCEL (SEMANA 1) 1.1.- Conceptos de Excel EXCEL: es una aplicación para crear hojas de cálculo que está divida en filas y columnas, al cruce de estas se le denomina
Más detallesExperto en Data Mining
titulación de formación continua bonificada expedida por el instituto europeo de estudios empresariales Experto en Data Mining duración total: precio: 0 * modalidad: Online * hasta 100 % bonificable para
Más detallesUniversidad de Ciencias Empresariales y Sociales
Universidad de Ciencias Empresariales y Sociales Curso para Docentes Investigadores TALLER DE SPSS Tema 2 Organización de los datos Docente a cargo Segundo Cuatrimestre 2012 1 OBJETIVOS DE APRENDIZAJE
Más detallesDIPLOMADO EN MICROSOFT SQL SERVER 2008
DIPLOMADO EN MICROSOFT SQL SERVER 2008 El departamento de TI de las empresas se está sometiendo a una transformación integral. Está preparado? Aproveche la mejor oportunidad para capacitarse, ampliar sus
Más detallesRepaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
Más detallesBodegas de Datos y OLAP. Introducción a la Bodegas de Datos
Bodegas de Datos y OLAP Introducción a la Bodegas de Datos Contenido SI-Definición y Clasificación MIS Vs DSS DSS-Definición y Características DW-Definición, Elementos, Características, Arquitectura, OLTP
Más detallesSelección de fuentes de datos y calidad de datos
Selección de fuentes de datos y calidad de datos ESCUELA COMPLUTENSE DE VERANO 2014 MINERIA DE DATOS CON SAS E INTELIGENCIA DE NEGOCIO Juan F. Dorado José María Santiago . Valores atípicos. Valores faltantes.
Más detallesINTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 8) TEMA Nº 8 ESTIMACIÓN
OBJETIVOS DE APRENDIZAJE: TEMA Nº 8 ESTIMACIÓN Conocer las relaciones entre muestra, análisis estadístico descriptivo y análisis estadístico inferencial. Conocer los conceptos de muestra aleatoria y muestra
Más detallesGuía de uso Grupo Editorial v1_r3 2
DILVE Distribuidor de información del libro español en venta Guía de uso Usuario Grupo editorial v1_r3-05/2012 1 2 La primera herramienta para compartir información rica y actualizada del libro español
Más detallesNIA 530 Muestreo de auditoría Noviembre 2016
NIA 530 Muestreo de auditoría Noviembre 2016 NORMAS INTERNACIONALES DE ASEGURAMIENTO DE LA INFORMACIÓN NAI Concepto de muestreo y definiciones (1/9) Métodos de selección de partidas para evaluación a)
Más detallesPRACTICA Nº 4 AUTOCORRELACIÓN ESPACIAL
CARRERA DE POSGRADO ESPECIALIZACIÓN EN TECNOLOGÍAS DE LA INFORMACIÓN GEOGRÁFICA (TIG) -------------------------------------------------------------------------------------------------------------------------
Más detallesPrograma de Extensión Universitaria y Vinculación (PEUVI), Departamento de Matemáticas.
Programa de Extensión Universitaria y Vinculación (PEUVI), Departamento de Matemáticas. DIPLOMADO EN MINERÍA DE DATOS. Coordinadora académica: Dra. Amparo López Gaona. MODULO I: INTRODUCCIÓN A LAS BASES
Más detallesMinería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez
Minería de datos Unidad 2. El proceso KDD Evaluación, difusión y uso M en I Sara Vera Noguez El proceso KDD Hernández, 2008 p.20 La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface
Más detallesCI2355 Almacenes de datos y OLAP
CI2355 Almacenes de datos y OLAP Arquitectura 2012/03/12 CI2355 - Almacenes de datos y OLAP 2 Propiedades esenciales Separación El procesamiento transaccional y el analítico deben mantenerse lo más separados
Más detallesCONTENIDOS 2º de ESO. Primer trimestre.
CONTENIDOS 2º de ESO. Primer trimestre. 1. DIVISIBILIDAD Y NÚMEROS ENTEROS La relación de divisibilidad. Números primos y compuestos. Mínimo común múltiplo de dos o más números. Máximo común divisor de
Más detallesMODULO 1. Herramientas Básicas De Gestión. Ing. Carlos Enrique Ríos
MODULO 1 Herramientas Básicas De Gestión Métodos para la Solución de Problemas Qué es un Problema? Es el resultado indeseado d de un proceso. Es una meta no alcanzada. Es la diferencia existente entre
Más detallesMétodos para la Solución de Problemas. Es el resultado indeseado de un proceso.
MODULO Herramientas Básicas De Gestión Métodos para la Solución de Problemas Qué es un Problema? Es el resultado indeseado de un proceso. Es una meta no alcanzada. Es la diferencia existente entre el resultado
Más detallesComputación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 10
Computación Aplicada Universidad de Las Américas Aula virtual de Computación Aplicada Módulo de Excel 2013 LIBRO 10 Contenido GRÁFICOS... 3 GRÁFICOS DESCRIPCION... 4 TIPOS DE GRÁFICOS... 6 GRÁFICOS DE
Más detallesÍndice general. Prefacio...5
Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de
Más detallesRÚBRICAS POR ÁREA. Matemáticas Aplicadas a las Cien. Soc.II 2014/2015
Criterio [BAII02C01]: Utilizar el lenguaje matricial como instrumento para organizar y codificar la información proveniente de situaciones con datos estructurados en forma de tablas o grafos, y aplicar
Más detallesInvestigación de Mercados. SESIÓN # 11: Elaboración y presentación del informe de investigación
Investigación de Mercados SESIÓN # 11: Elaboración y presentación del informe de investigación Contextualización En la penúltima sesión se espera que puedas comprender los pasos de edición, codificación
Más detallesBACHILLERES UGM ORIZABA CLAVE: 30PBH0591P
Ciclo Escolar: FEB2017/JUN2017 Introducción a Microsoft Access 2010 Generalidades Microsoft Access 2010 es un potente sistema de administración de bases de datos relacionales el cual permite la gestión
Más detallesGUÍA DE STATGRAPHICS 5.1
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA UNIVERSITARIA DE ARQUITECTURA TÉCNICA DEPARTAMENTO DE MATEMÁTICA APLICADA A LA ARQUITECTURA TÉCNICA GUÍA DE STATGRAPHICS 5.1 (Versión castellana) GUÍA DE STATGRAPHICS
Más detallesFILTROS EN EXCEL. Filtro Básico
FILTROS EN EXCEL Filtro Básico Descripción breve Hablaremos de Filtro. Este contenido es propio y edición gracias a algunos temas recopilados en AulaClic, y se usa para fines educativos. Urcia Vega, Carlos
Más detallesDATA ANALYTICS EL VALOR INTRINSECO EN EL DATO INNOVATION QUANT ANALYSIS BIG DATA STRATEGY
DATA ANALYTICS EL VALOR INTRINSECO EN EL DATO INNOVATION QUANT ANALYSIS BIG DATA STRATEGY DATA ANALYTICS ANTES DE LA APARICIÓN DE INTERNET Y REDES SOCIALES Pentaquark posee una metodología que se basa
Más detallesTrabajemos con los datos. Cecilia Ruz
Trabajemos con los datos Cecilia Ruz 1 Agenda Que son los datos? Por que preprocesar los datos? Limpieza de datos Integración y transformación de los datos Reducción de datos Resumen 2 Agenda Que son los
Más detalles