Analizando patrones de datos SQL Server DM, Excel DM, Azure ML y R Ana María Bisbé York @ambynet http://amby.net/
Temario Introducción a Minería de datos MS Office Excel Herramientas de tabla y Minería de datos SQL Server Data Tools Analysis Services SQL Server Management Studio Data Mining Extensions (DMX) Lenguaje R MS Azure Machine Learning 2
Introducción Minería de datos y Machine Learning
Análisis de datos para conocer por qué? Descubrir las razones del éxito y el fracaso de la gestión Entender los productos, clientes, y a nosotros mismos En resumen: Obtener el conocimiento para dirigir el negocio sobre la base del análisis de datos Riesgo de un crédito a un cliente Agrupación de clientes Productos o servicios que se adquieren juntos Previsión de ventas Previsión de clientes potenciales 4
La minería de datos en el proceso de búsqueda de conocimiento http://www.csd.uwo.ca/faculty/ling/cs435/fayyad.pdf - 1997 5
El modelo CRISP https://es.wikipedia.org/wiki/cross_industry_standard_process_for_data_mining 6
Algoritmos Directos o supervisados Variable a predecir Clasificación Estimación Previsión Indirectos o no supervisados Patrones Agrupación por afinidad Clustering Descripción 7
Herramientas http://www.techrepublic.com/blog/big-data-analytics/data-scientists-can-find-big-money-inopen-source/ 8
Explorar con TSQL 9
Papel de las estadísticas Permiten tener una idea de los valores Media, mediana, MIN, MAX Descubrir correlaciones sencillas Validar algunas asunciones Visualizar con precisión Histogramas y gráficos de caja (boxplots) 10
Pasos en un proceso de minería de datos Definir (inicializar) el modelo Entrenar el modelo procesar un % de los casos conocidos Validar modelo para puntuar (score) procesar un % de los casos conocidos Comparar las predicciones con datos reales 11
MS Office Excel Herramientas de tabla y Minería de datos
Minería de datos con MS Excel
Detección fraudes o anomalías con DM Excel
SQL Server Analysis Services Data Tools
Validar modelos
Realizar predicciones en SSAS
SQL Server Management Studio Visores
Naive Bayes en SSAS
Redes neuronales en SSAS
Clustering en SSAS
Árbol de decisión en SSAS
Contenido Genérico del modelo
SQL Server Management Studio Data Mining Extensions (DMX)
Contenido del modelo
Detección de fraudes o anomalías con DMX
Realizar predicciones
Lenguaje R
Lenguaje R Código abierto, gratuito Disponible para Windows, Mac, Unix http://cran.r-project.org Comunidad enorme y muy activa Todo incluido: lenguaje e IDE Más de 5000 paquetes Visible desde Azure ML 29
Explorar datos con R - Raffle
Explorar datos con R - Raffle
Correlación en datos con R - Raffle
Modelado desde R - Rattle
R para desarrollador SQL Paquete dplyr Ejemplos de comandos Filter Select Arrange Mutate Summarise Group_By Base de datos SQL Tabla Columna o campo Fila Programación R Data frame Columna o variable Observación 34
R Estadísticas
R para obtener gráficos Paquete ggplot ggplot (df_dm, aes(región, fill=educación)) + geom_bar() ggplot(df_dm, aes(ocupación) ) + geom_histogram(color = "white") + facet_grid(estadocivil ~.) 36
MS Azure Machine Learning
Algoritmos MS Azure Machine Learning
Microsoft Azure Machine Learning
Azure ML - Cargar datos
Azure ML - Experimento
Azure ML Explorar datos
Azure ML Seleccionar columnas
Azure ML Dividir la muestra
Azure ML Algoritmos de clasificación
Azure ML Entrenar modelos
Azure ML Medir (score)
Azure ML Evaluar modelos
Azure ML Visualizar resultados
Conclusiones Minería de datos Búsqueda de conocimiento Mayor parte del proyecto Exploración de datos Limpieza Definición de atributos o variables Modelado Evaluación Implementación 50
Gracias por su atención Follow @pass24hop Comparta sus opinions con hashtags #pass24hop & #sqlpass
Preguntas?