Índice general. Prefacio...5

Documentos relacionados
YO, CIENCIA DE DATOS. BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016

Programa de Extensión Universitaria y Vinculación (PEUVI), Departamento de Matemáticas.

Guía docente 2007/2008

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje

INDICE. 81 Operadores lógicos Funciones exponenciales y logarítmicas Funciones trigonométricas

Técnicas de aprendizaje automático en el análisis de datos de DP. Dr. Carlos Fernández Lozano Juan de la Cierva-Formación

Big Analytics: de la información al conocimiento

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

BIG DATA SCIENCE & ANALYTICS

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Capítulo 1 Introducción...1 Capítulo 2 Aprendizaje Automático 10 Capítulo 3 Riesgo Crediticio y Loss Given Default 18

Itinerario: Inteligencia Computacional

R for Data Mining Análisis de datos, segmentación y técnicas de predicción con R. web

ÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1

Línea de Especialización Control de Sistemas

INDICE Capitulo 1. Entorno de Trabajo e SPSS Capitulo 2. Operadores y Funciones. Aplicaciones

Técnicas de aprendizaje sobre series temporales

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Aspectos generales sobre la Minería de Datos

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Sistemas de Percepción Visión por Computador

Índice general. Introducción... 23

Pontificia Universidad Católica del Ecuador

Aprendizaje Automático

DIPLOMADO EN DATA MINING

MD - Minería de Datos

PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS

RECONOCIMIENTO DE PAUTAS

FACULTAD DE CIENCIAS MATEMÁTICAS CURSO 2012/13 CALENDARIO DE EXÁMENES DE SEPTIEMBRE 2013 APROBADO EN JUNTA DE FACULTAD DE 17 DE JULIO DE 2012 GRADOS

ANX-PR/CL/ GUÍA DE APRENDIZAJE

Programa Big Analytics: de la información al conocimiento

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

VIII Jornadas de Usuarios de R

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM.

GUÍA DE APRENDIZAJE ASIGNATURA SISTEMAS BASADOS EN APRENDIZAJE AUTOMATICO. CURSO ACADÉMICO - SEMESTRE Primer semestre

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Diplomado en Estadística e Investigación Científica

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

CONCEPTOS BÁSICOS DE ANÁLISIS CUANTITATIVO. La analítica y el mundo cuantitativo en mercadeo La analítica y el mundo cuantitativo en mercadeo

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

ÍNDICE. Introducción... Capítulo 1. Investigación de mercados y muestreo. Muestreo aleatorio simple y sistemático... 1

Clasificación de estados cerebralesusando neuroimágenes funcionales

Estadística con R. Clasificadores

240AR022 - Reconocimiento de Formas y Aprendizaje Automático

Métodos Predictivos en Minería de Datos

DEPARTAMENTO DE MATEMÁTICAS Página 1

PROFESIONALES [PRESENCIAL]

Nuevo plan de estudios. Especialización en Inteligencia de Negocios. Marzo de Curso Descripción Corta Contenidos

TEMA 0 Y SUS APLICACIONES. Redes Neuronales Artificiales y sus Aplicaciones

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

INDICE. Prólogo a la Segunda Edición

Universidad de Puerto Rico Recinto de Río Piedras Facultad de Ciencias Naturales Departamento de Matemáticas

TABLA DE CONTENIDO. Resumen Introducción Entorno relevante asociado al proyecto Contexto de la Industria...

CURSOS CONENTO. Una puerta abierta para que puedas desarrollar tus propios análisis

CURSO ECONOMETRÍA AVANZADA MULTISOFTWARE

UNIVERSIDAD AUTÓNOMA DE GUERRERO

FACULTAD DE CIENCIAS MATEMÁTICAS CURSO 2014/15 CALENDARIO DE EXÁMENES DE SEPTIEMBRE 2015 APROBADO EN JUNTA DE FACULTAD DEL 15 DE JULIO DE 2014 GRADOS

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

PROGRAMA DE CURSO. Código Nombre ESTADISTICA PARA ECONOMIA Y GESTION Nombre en Inglés STATISTICS FOR BUSINESS AND ECONOMICS Unidades

Aprendizaje Automatizado

Inteligencia Artificial: Su uso para la investigación

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

DIPLOMADO EN ESTADÍSTICA APLICADA

Herramientas geoestadísticas en la construcción de Modelos Digitales de Elevación (MDE) Ing. Agrim. Eduardo Sierra setiembre de 2014

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Introducción a la Estadística para Data Science (con Python)

DEPARTAMENTO DE MATEMÁTICAS Página 1

CARACTERÍSTICAS GENERALES

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

INTRODUCTION TO MACHINE LEARNING ISABELLE GUYON

INTELIGENCIA DE NEGOCIO

BOOSTING CON REDES NEURONALES RBF. ANÁLISIS SESGO-VARIANZA EN UN PROBLEMA DE CLASIFICACIÓN José María Matías Fernández 1 RESUMEN

BIOESTADÍSTICA APLICADA EN CIENCIAS DE LA SALUD (I EDICIÓN)

Teórica básica. Incluimos. - Temas

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

EL ANÁLISIS DE DATOS Y POSIBLES IMPACTOS EN LA CADENA DE VALOR DE LAS COMPAÑÍAS DE SEGUROS

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

1 Descripción de datos con gráficas 7. 2 Descripción de datos con medidas numéricas 47. Contenido. 2.1 Descripción de un conjunto de datos mediante

Diplomado en Estadística Aplicada

INDICE Prefacio Como usar este libro Capitulo 1. Introducción Capitulo 2. Análisis exploratorio de los datos

GUIA DOCENTE DE LA ASIGNATURA ESTADÍSTICA CRIMINAL Curso (Fecha última actualización: 10/06/14) MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

ESCUELA PROFESIONAL DE ESTADÍSTICA Sumillas

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Seminario-Taller Ciencia de Datos con Python

CURSO ECONOMETRÍA BÁSICA MULTISOFTWARE

Transcripción:

Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de análisis de datos..22 1.6 Aplicaciones...25 1.6.1 Marketing...25 1.6.2 Compañías de seguros...26 1.6.3 Banca...26 1.6.4 Telecomunicaciones...27 1.6.5 Medicina...27 1.6.6 Industria farmacéutica...27 1.6.7 Biología...28 1.6.8 Minería de textos...28 1.6.9 Minería de datos web...29 1.6.10 Redes sociales...30 1.7 Modelos y tareas...31 1.7.1 Tareas descriptivas...32 1.7.1.1 Agrupamiento... 32 1.7.1.2 Correlaciones y factorizaciones... 32 1.7.1.3 Reglas de asociación... 33 1.7.1.4 Dependencias funcionales... 33 1.7.2 Tareas predictivas...34 1.7.2.1 Clasificación... 34 1.7.2.2 Clasificación suave... 35 1.7.2.3 Categorización... 35 1.7.2.4 Preferencias o priorización... 35 1.7.2.5 Regresión... 36 1.8 Métodos y técnicas...36 1.8.1 Técnicas algebraicas y estadísticas...36 1.8.2 Técnicas bayesianas...37 1.8.3 Técnicas basadas en conteos de frecuencias y tablas de contingencia...37 7

1.8.4 Técnicas basadas en árboles de decisión y sistemas de aprendizaje de reglas...37 1.8.5 Técnicas relacionales, declarativas y estructurales...37 1.8.6 Técnicas basadas en redes neuronales artificiales...37 1.8.7 Técnicas basadas en núcleo y máquinas de soporte vectorial...38 1.8.8 Técnicas estocásticas y difusas...38 1.8.9 Técnicas basadas en casos, en densidad o distancia...38 Capítulo 2 Análisis estadístico de datos...39 2.1 Introducción...39 2.2 Análisis de una variable. Estadística descriptiva e inferencia...40 2.2.1 Estadísticos de variable continua...41 2.2.2 Histograma...42 2.2.3 Estadísticos de variables nominales...44 2.3 Contrastes de hipótesis...46 2.3.1 Distribuciones de probabilidad...46 2.3.1.1 Distribución normal... 47 2.3.2 Inferencia...49 2.3.3 Evaluación de hipótesis...51 2.4 Análisis de relaciones entre variables. Evaluación de hipótesis...54 2.4.1 Relación entre variables nominales-nominales...54 2.4.2 Relaciones numéricas-nominales...56 2.4.2.1 Comparación de dos medias... 56 2.4.2.2 Análisis de la varianza... 58 2.4.3 Relaciones numéricas-numéricas...61 Capítulo 3 Introducción al lenguaje R. Lectura, procesado y visualización de datos: data wrangling...63 3.1 Carga y transformaciones de datos...63 3.1.1 Estructura básica de datos...64 3.1.2 Lectura de fichero...65 8

3.2 Estadística descriptiva...68 3.2.1 Variables categóricas...84 3.2.2 Correlación...88 3.2.2.1 Visualización... 88 3.2.3 Test de hipótesis...97 3.2.4 Representación de datos...100 Capítulo 4 Predicción y clasificación con técnicas numéricas...117 4.1 Técnicas numéricas de predicción...117 4.1.1 Regresión lineal...117 4.1.1.1 Regresión lineal simple... 118 4.1.1.2 Regresión lineal múltiple... 119 4.1.1.3 Regresión lineal ponderada localmente... 121 4.1.1.4 Atributos nominales... 123 4.1.2 Evaluación del modelo de regresión...124 4.1.2.1 Error de regresión y selección de variables... 126 4.1.3 Regresión no lineal...130 4.1.3.1 Transformaciones sencillas... 131 4.1.3.2 Otras transformaciones... 133 4.1.4 Ejemplos de regresión lineal...133 4.2 Técnicas numéricas de clasificación...136 4.2.1 Clasificación mediante regresión lineal...138 4.2.2 Clasificación mediante regresión logística...139 4.2.3 Clasificación bayesiana...141 4.2.3.1 Clasificación bayesiana de atributos numéricos... 141 4.2.3.2 Clasificación bayesiana con atributos nominales... 146 4.2.4 Ejemplos de clasificación bayesiana...147 Capítulo 5 Predicción y clasificación con R...153 5.1 Regresión...153 5.1.1 Regresión lineal...153 5.1.2 Selección de atributos...165 5.1.3 Regresión no lineal...169 5.1.4 Regresión de atributos no continuos...172 5.1.5 Modelos lineales generalizados...179 9

5.2 Algoritmos de clasificación...185 5.2.1 Detección de valores atípicos...186 5.2.2 LDA, Linear Discriminant Analysis...195 5.2.3 Clasificadores probabilísticos...200 5.2.3.1 Naive bayesiano... 201 5.2.3.2 Redes bayesianas... 202 Capítulo 6 Técnicas de minería de datos...205 6.1 Técnicas de minería de datos...205 6.2 Clustering...207 6.2.1 Clustering numérico (k-medias)...209 6.2.2 Clustering conceptual (COBWEB)...210 6.2.3 Clustering probabilístico (EM)...214 6.3 Reglas de asociación...217 6.4 Predicción numérica...220 6.4.1 Predicción no lineal con árboles de regresión...220 6.4.2 Estimador de núcleos...225 6.4.2.1 Aplicación a problemas multivariantes... 228 6.4.2.2 Aplicación a problemas de clasificación... 229 6.5 Clasificación...231 6.5.1 Tabla de decisión...231 6.5.2 Árboles de decisión...233 6.5.3 Reglas de clasificación...245 6.5.4 Clasificación bayesiana...251 6.5.5 Aprendizaje basado en ejemplares...257 6.5.5.1 Algoritmo de los k-vecinos más próximos... 258 6.5.5.2 Algoritmo k-estrella... 260 6.5.5.3 Probabilidad de transformación para los atributos permitidos... 261 6.5.5.4 Combinación de atributos... 262 6.5.5.5 Selección de los parámetros aleatorios... 262 6.5.5.6 Clasificación de un ejemplo... 264 6.5.6 Máquinas de vectores de soporte (SVM)...265 6.5.6.1 SVM lineal... 266 6.5.6.2 SVM lineal de margen blando (soft margin)... 270 6.5.6.3 SVM no lineal. Funciones kernel... 272 6.5.6.4 Clasificación multiclase... 276 6.5.7 Redes de neuronas...277 6.5.7.1 Estructura de las redes de neuronas... 278 6.5.7.2 Proceso de entrenamiento (retropropagación)... 279 6.5.8 Lógica borrosa (fuzzy logic)...281 6.5.9 Técnicas genéticas: algoritmos genéticos (genetic algorithms)...282 10

Capítulo 7 Técnicas de minería de datos en R...285 7.1 Agrupamiento. Clustering...285 7.1.1 Agrupamiento jerárquico...286 7.1.2 Número óptimo de agrupaciones...289 7.1.3 Agrupamiento por particionamiento...299 7.1.4 Agrupamiento basado en modelos...305 7.1.5 Agrupamiento borroso (fuzzy)...312 7.1.6 Otras técnicas de agrupamiento...314 7.1.7 Representación y análisis de las clases...323 7.1.8 Validación de resultados...326 7.2 Clasificación...329 7.2.1 Selección de atributos...329 7.2.2 Reducción de la dimensionalidad...340 7.2.3 Árboles de decisión...347 7.2.3.1 RPART (Recursive Partitioning and Regression Trees)... 347 7.2.3.2 Árboles de inferencia condicional, CTREE... 350 7.2.3.3 C5.0... 351 7.2.4 Metaalgoritmos...354 7.2.4.1 AdaBoost (ADAptative BOOSTing)... 355 7.2.4.2 GBM (Gradient Boosting Machine)... 356 7.2.4.3 Random forest... 358 7.2.5 SVM, máquinas de vectores de soporte...359 7.2.6 K vecinos próximos. k-nn (k-nearest Neighbors)...361 7.2.7 Redes de neuronas artificiales...363 Capítulo 8 Internet de las cosas y análisis de series temporales...369 8.1 Internet de las cosas...369 8.2 Thinger.io IoT...371 8.2.1 Hardware...372 8.2.2 Configuración de la plataforma...374 8.2.3 Software del dispositivo...376 8.2.4 Visualización y exportación de la información...379 8.3 Series temporales...381 8.3.1 Predicción con series temporales...382 8.3.1.1 Predicción lineal (autorregresión)... 382 8.3.1.2 Error de predicción... 384 8.3.1.3 Predicción no lineal... 385 8.3.2 Análisis y descomposición de series...386 8.3.2.1 Tendencia y estacionariedad... 386 8.3.2.2 Modelos ARMA/ARIMA... 389 11

8.4 Análisis de series con R...390 8.4.1 Componentes de la serie temporal...392 8.4.2 Modelos de predicción...400 8.4.3 Detección de anomalías...408 Capítulo 9 Análisis de datos espaciales...411 9.1 Introducción...411 9.1.1 Datos de tipo espacial...412 9.1.2 Latitud, longitud...413 9.1.3 La clase de datos Spatial en RStudio...414 9.1.4 Datos...414 9.2 Tipos de datos...416 9.2.1 Creación de objetos SpatialPoints...416 9.2.2 Creación de objetos SpatialGrid...420 9.3 Visualización de datos espaciales...421 9.4 Análisis estadístico (interpolación)...423 9.4.1 Análisis exploratorio de datos...424 9.4.1.1 Crear grid Ávila-Madrid... 424 9.4.2 Interpolación IDW (Inverse Distance Weighted)...427 9.4.2.1 Presentación de resultados IDW... 428 9.4.3 Correlación espacial (variograma)...428 9.4.3.1 Selección modelo de variograma... 428 9.4.3.2 Presentación de resultados... 430 Bibliografía...431 12