Introducción al Business Intelligence. Marta Zorrilla Universidad de Cantabria 2007/08



Documentos relacionados
Introducción al Business Intelligence. Marta Zorrilla Universidad de Cantabria 2010/11

Inteligencia de Negocios. Cecilia Ruz

TOMA DE DECISIONES II

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

BUSINESS INTELLIGENCE

FUENTES SECUNDARIAS INTERNAS

BI Business Intelligence Un Mercado de Alto Crecimiento

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Fundamentos de la Inteligencia de Negocios

SOLUCIONES E-BUSINESS

UN PASEO POR BUSISNESS INTELLIGENCE

ALCANCE DEL SERVICIO INDICADORES EN ÁREAS CLAVE DE LA EMPRESA

Sistemas de Información 12/13 La organización de datos e información

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Definición Historia y Evolución Conceptos Importantes Beneficios Soluciones Aplicaciones Business Intelligence Hoy Futuro del Business Intelligence

Descripción del Servicio

El uso de los sistemas de información para la toma de decisiones estratégicas. Egdares Futch H. Presentación para UNITEC Alumni

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

DATA WAREHOUSE DATA WAREHOUSE

Gestión de la Información

Capítulo 2 Tecnología data warehouse

Visión Ampliada del Management: Enterprise Performance Management

RAUL RENALES 05/11/2015. CISO & IT Project Manager en Ayla DT Analista Riesgos IT Seguridad Informática Integrador tecnológico

Fundamentos de la Inteligencia de Negocios

Inteligencia de Negocios. & Microsoft Excel 2013

LOS SISTEMAS DE PLANIFICACION DE LOS RECURSOS DE LA EMPRESA (ERPs) Carlos Suárez Rey

INTELIGENCIA DE NEGOCIO

Estrategia de negocio basada en clientes: Software CRM

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

INTELIGENCIA DE NEGOCIO

DIAGNÓSTICO DEL MARKETING INDUSTRIAL EN CHILE AGOSTO, 2011

Business Intelligence y Cuadro de Mando Integral: Herramientas para la Dirección Estratégica de las Organizaciones

Presentación de Pyramid Data Warehouse

Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Diseño de soluciones y propuestas de tecnologías para la organi

Sistemas de Información Gerencial

Tecnología de Gestión y Comunicación - TGC

3.3.3 Tecnologías Mercados Datos

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Parte I: Introducción

Kais Analytics Business Intelligence

Cómo empezar? Fernando Quesada abcq Solutions

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Business Intelligence

everis, líder en implantación de soluciones de Business Intelligence

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

La siguiente generación de Datawarehouse : Más allá del Data Warehouse permitir information on demand. IBM Information Management

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

CRM Customer Relationship Manager

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS

Quienes Somos? Valor. Estrategia

BUSINESS INTELLIGENCE

activuspaper Text Mining and BI Abstract

Convierta sus datos en conocimiento para generar utilidades.

Oferta formativa 2014

Definición de CRM. CRM es una estrategia de negocio que permite optimizar la rentabilidad, las ventas y la satisfacción del cliente.

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Sistemas de Información Gerencial ii. Los SI en la empresa

El nuevo rey: Chief Executive Customer

Indicadores de calidad de los títulos universitarios. Evaluación y análisis mediante sistemas de ayuda a la toma de decisiones

EL MARKETING RELACIONAL Y NUEVAS TENDENCIAS DE MARKETING

LOS SISTEMAS DE PLANIFICACION DE LOS RECURSOS DE LA EMPRESA (ERPs) Carlos Suárez Rey

Innovación para su Contact Center

La metodología ABM como piedra angular de Performance Management pd

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

MINERIA DE DATOS Y Descubrimiento del Conocimiento

REPOSITORIO COR O P R OR O A R T A I T VO V

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa.

Datamining Introducción

Servicio Business Intellingence integrado con Data Management & Big Data Del dato al conocimiento

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz

Business Intelligence

PROCESS INTELLIGENCE. Análisis de rendimiento para procesos de negocios

Desarrollo de aplicaciones para la sociedad de la información Bloque II- Dominios de aplicaciones sociales Tema 3- Gestión de procesos de negocio

MICROSOFT NAVISION CURSO ESPECIALIZADO EN. CUÁNDO Del 27 de enero al 29 de septiembre de DÓNDE ESIC Zaragoza

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Tecnologías de la Información en la Gestión Empresarial

Clasificación de los Sistemas de Información

Sistema de análisis de información. Resumen de metodología técnica

Técnicas de venta (nueva versión)

ARTÍCULOS Y REFLEXIONES

TECNOLOGÍA SOFTWARE PARA EL DESARROLLO DE SISTEMAS DE INFORMACIÓN. Sistemas Informacionales (BI Business Intelligence) Sonia Marrero Cáceres

INTELIGENCIA DE NEGOCIOS

Sistemas de Data Warehousing

Contact Center Comunicación multicanal integrada

BI BUSINESS INTELLIGENCE

SAS Activity Based Costing / Management. Fernando Mogetta

Corporate Performance Management: Como crear valor con sistemas Gerenciales. PRISCILA SIQUEIRA - EPM Manager Latino América

IBM Cognos Enterprise: Inteligencia de negocio y gestión del rendimiento potente y escalable

L O G Í S T I C A. Oscar Mario Gil Ríos

Consultora tecnológica especializada en optimizar su gestión empresarial

CURSO DE ESPECIALISTA EN MARKETING PARA ORGANIZACIONES: INDUSTRIAL, INTERNACIONAL Y E-MARKETING

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Transcripción:

Introducción al Business Intelligence Marta Zorrilla Universidad de Cantabria

Tabla de contenido Qué es Business Intelligence? Situación del mercado y campos de aplicación Evolución de los sistemas de gestión de datos hacia los sistemas de soporte a la decisión Data warehouse y OLAP Componentes de un sistema BI/DW Data mining. El proceso KDD 2

Situación actual en las organizaciones Entorno competitivo y globalizado Optimizar procesos Reducir costes, rentabilidad financiera Anticiparse a la competencia, análisis del mercado Innovar, búsqueda de nuevos productos o estrategias Ganar y fidelizar al cliente : Personalizar simular que cada cliente es único Las empresas maneja cantidades ingentes de información: Fuentes internas (Sistemas corporativos propios, aplicaciones departamentales, etc. ) Fuentes externas (INE, INEM, colegios profesionales, encuestas, hasta un 20%) Problemas Saturación de información Difícil de acceder No selectiva Business Intelligence 3

Qué es Business Intelligence? Convertir datos en información Es lograr que los gerentes y directivos de las organizaciones, y por extensión todos los usuarios de la información, tomen las mejores decisiones cada día accediendo de forma directa a la información clave de su negocio de manera ágil y sencilla. BI suministra el marco para: Definir y medir los indicadores relevantes del negocio, y entender su comportamiento Procesar, resumir, reportar y distribuir la información relevante a tiempo Gestionar y compartir el conocimiento del negocio con la organización Analizar y optimizar los procesos que actúan sobre los indicadores Incluye aplicaciones software, tecnología y metodologías para realizar el análisis de datos: Bases de datos Aplicaciones analíticas (OLAP) Reporting y querying Data mining, web mining, text mining, data streaming Técnicas de visualización de datos Herramientas ETL Decision Support System (DSS): sinónimo de BI 4

Business Intelligence Fact Gap Gartner Group (2001) denominó Business Intelligence Fact Gap a la diferencia que existe entre la información disponible en la empresa y la capacidad de tomar decisiones basándose en dicha información. V o l u m e n Número de Decisiones Críticas Business Intelligence Fact Gap Capacidad Business Intelligence Tiempo "In the absence of BI, a 'fact gap' exists: a condition where users make decisions and assess risk and opportunities based upon anecdotal, incomplete or outdated information. This isn't much better than guessing, leaving most businesses seriously exposed. (Gartner Group 07/01 ) A recent research study by the BusinessWeek Market Advisory Board (07/2004) surveyed 675 executives throughout North America and Europe and found that 43% indicated they did not trust their internal systems, and an amazing 77% indicated that they were aware of bad decisions that had been made within their organizations because of a lack of accurate information. 5

Situación del mercado Se estima que este mercado BI tendrá un tasa de crecimiento anual del 8,5% hasta el 2007 (Colleen Graham, analyst in Gartner Research feb. 04) Consolidación de vendedores: en 2003, Business Objects compró Crystal Decisions e Hyperion Solutions compró Brio Software. Convergencia de los distintos segmentos del mercado BI (BI suites, reporting, BI platforms) lo que permitirá estandarizar y reducir costes de desarrollo. El mercado de software BI alcanzará $3 billones en 2009. En 2006, se estima que alcance los $2.5 billones, un 6% más que en 2005. (Gartner Research abril 06) El mercado OLAP registró en 2004 un crecimiento del 16% respecto el año anterior ($4.300 Millones en software y servicios), aunque en 2005, el crecimiento bajó 2 puntos (OLAP report marzo 06) Durante 2005/06, según Meta Group, las aplicaciones de reporting y cuadros de mandos se implantarán en las empresas atendiendo a miles de usuarios. 6

Campos de aplicación Science astronomy, bioinformatics, drug discovery, Business CRM (Customer Relationship management), fraud detection, e- commerce, manufacturing, sports/entertainment, telecom, targeted marketing, health care, Web: search engines, advertising, web and text mining, Government surveillance, crime detection, profiling tax cheaters, 7

Sistemas de información en las empresas Sistemas de información donde se debe aplicar BI: CRM, Gestión de la Relación con el Cliente (Customer Relationship Management). SCM, Gestión de la Cadena de Suministros (Supply Chain Management). ERP, Planificación de los Recursos Empresariales (Enterprise Resource Planning) La mejor base para construir un sistema BI es un sólido Data Warehouse (Kevin H. Strange, research director in Gartner Research) 8

CRM (Customer Relationship Management) Conjunto global de procesos tecnológicos, humanos y funcionales destinados a proporcionar servicios integrales personalizados a la estructura de clientes de una Compañía o Corporación Aumentar la fidelización de clientes Aumentar ventas y rentabilidad Motivar al personal de ventas Seguimiento del cumplimiento de los objetivos Reducir la morosidad y el fraude Reducir el tiempo, coste y errores de los procesos administrativos Reducir riesgos y aprovechar oportunidades 9

CRM Estrategia empresarial que coordina los diferentes procesos de gestión del cliente a través de la cooperación de las operativas realizadas en todos los canales de comunicación de la empresa Operational CRM Analytical CRM Back Office Front Office Mobile Office Customer Interaction ERP/ERM Order Manag. Service Automation Supply Chain Mgmt. Order Prom. Marketing Automation INTERACCIÓN CON EL CLIENTE Voice (IVR, ACD) Mobile Sales Conferencing Web Conferencing Legacy Systems Sales Automation Field Service E-mail Closed-Loop Processing (EAI Toolkits, Embedded/Mobile Agents DIFUSIÓN DEL CONOCIMIENTO Response Management Customer Activity Collaborative CRM Vertical Apps. Category Mgmt. Fax Letter Data Warehouse CONOCIMIENTO DEL CLIENTE Customers Products Marketing Automation Campaign Mgmt. Direct Interaction 10

Evolución de las tecnologías de bases de datos Hito histórico Pregunta de Negocio Tecnología que lo posibilita Suministrador Característica principal Data Collection (1960s) Cuáles fueron mis ingresos en los últimos 5 años? Ordenadores, cintas, discos, DBMS jerárquicos (IMS) y en red IBM, CDC Datos históricos Data Access (1980s) Cuántas unidades vendí el mes pasado en España? Bases de datos relacionales (RDBMS, SQL, ODBC) Oracle, Sybase, Informix, IBM, Microsoft Datos dinámicos a nivel de registro (histórico) Data Warehousing & Decision Support (1990s) Cuántas unidades vendí el mes pasado en España en relación con Europa? On-line analytic processing (OLAP), gestores multidimensionales Cognos, Business Objects, Microstrategy, NCR, SPSS, Comshare, etc. Datos dinámicos en múltiples niveles o jerarquías (histórico) Data Mining (2000s) Cuáles serán las ventas del próximo mes en Europa? Por qué? algoritmos avanzados (data stream, weblog, bio-data ), RDBMS SPSS/Clementi ne, Lockheed, IBM, SGI, SAS, NCR, Oracle, etc. Datos de prospección (análisis de mercado, de riesgos, ) 11

Situación Actual: Por qué un Data Warehouse? La información generalmente se encuentra en las BD relacionales (3FN). Su estructura no es la adecuada para responder de forma ágil a consultas complejas, con cálculo de agregados y para ser analizadas bajo diferentes perspectivas. Se han de integrar diferentes fuentes de datos (uds de medida, convención de nombres y formatos ) Por lo que se requieren sistemas específicos sintonizados para ello. Estos generalmente se apoyan en una estructura de datos multidimensional. Fuentes de datos internas Compras Contabilidad. RR/HH Web log,.. Fuentes de datos externas INE, INEM, DATA WAREHOUSE ANALISTAS DE NEGOCIO (ayuda a la toma de decisiones) Medir Cómo es mi negocio? INFORMES Actuar Qué debemos hacer? PLAN Investigar Por qué es así? ANÁLISIS Simular Qué ocurre si hacemos esto? MODELIZACIÓN 12

Cuál es el proceso? Fuentes de datos internas Compras 2 Estos datos se procesan (agrupación, cálculos, etc.) y cargan en el data warehouse 3 Los datos se almacenan de forma que permita verlos fácilmente bajo diferentes perspectivas, así como cruzarlos entre ellos Contabilidad. RR/HH Web log,.. DATA WAREHOUSE ANALISTAS DE NEGOCIO (ayuda a la toma de decisiones) Medir Cómo es mi negocio? INFORMES Actuar Qué debemos hacer? PLAN Investigar Por qué es así? ANÁLISIS Simular Qué ocurre si hacemos esto? MODELIZACIÓN Fuentes de datos externas INE, INEM, 1 Como resultado del trabajo diario los empleados registran la actividad de lo que está pasando 4 Los datos se explotan mediante aplicaciones específicas de análisis de información 13

Análisis del negocio A qué responden? Qué hacen? Informes Data Mining Qué está pasando? Generan informes y alarmas por perfiles de usuario. Informes estáticos predefinidos Informes dinámicos configurables por el usuario: simples/complejos Visualización de resultados (Gráficos, herramientas GIS) Por qué está pasando? Identifican patrones (tendencias, regularidades, correlaciones) existentes en las BD Modelo descriptivos (indirecto) a) Asociación b) Segmentación Modelos predictivos (directo) c) Clasificación d) Estimación Simulación / Optimización Qué pasaría si...? Cuál es la mejor opción para...? Escenarios futuros y búsqueda de la mejor solución. Diseño de la estrategia óptima Simulación: dinámica de Sistemas (Jay Forrester M.I.T.) Optimización: Investigación operativa Cuál es el papel de los usuarios? Cómo se obtienen resultados? Ejemplo El usuario introduce una teoría sobre una posible relación en la base de datos, convirtiéndola en una consulta (query) Razonamiento deductivo Informes con alarmas en función de la evolución de determinadas medidas El usuario no necesita asumir nada, el modelo se encarga de identificar patrones. Los datos conducen Razonamiento inductivo Identificar qué factores (actividad, sector, región, época, etc.) influyen en la evolución de esas medidas El usuario introduce hipótesis sobre valores futuros y el modelo detecta las mejores soluciones Análisis de escenarios + hipótesis Determinar cómo evolucionaría una determinada medida (por ejemplo ventas) si se realizara una determinada acción (p. ejemplo una campaña publicitaria del tipo 2 por 1) 14

Informe OLAP Los informes permiten mostrar la información con diferentes niveles de agrupación. Vistas de la misma información según características de la información (dimensiones) Navegación multi-dimensional para investigar en los datos Ventas por Sector Actividad Total Agricultura 1 Comercio 34 Construcción 10 Resto 5 Transporte 10 Total 60 VENTAS POR REGIÓN Región Total Centro 33 Norte 10 Sur 17 Total 60 VENTAS POR REGIÓN Y SECTOR Región Agricultura Comercio Construcción Resto Transporte Total Centro 1 14 3 5 10 33 Norte 6 4 10 Sur 14 3 17 Total 1 34 10 5 10 60 VENTAS POR REGIÓN, SECTOR Y TAMAÑO Agricultura Cons- Trans- Agricultura Comer- Comer- Construcción Transporte Total cio cio Total trucción Total porte Total Región Mediana Grande Mediana Pequeña Grande Mediana Pequeña Grande Mediana Pequeña Centro 1 1 4 4 6 14 1 1 1 3 4 4 2 10 Norte 2 2 2 6 2 1 1 4 Sur 4 4 6 14 1 1 1 3 Grand Total 1 1 10 10 14 34 4 3 3 10 4 4 2 10 15

Cuadros de mando 16

Data mining: Caso segmentación Ejemplo: evaluar qué segmentos de población cambian de establecimiento de compra habitual Cambio N: 75.70% n=1514 S: 24.30% n= 486 Estudios realizados Cambio de establecimiento Variable más discriminante SIN ESTUDIOS N: 89.10% n=278 S: 10.90% n= 34 CON ESTUDIOS N: 73.22% n=1236 S: 26.78% n= 452 Estructura familiar Estructura familiar UNIFAMILIAR N: 93.10% n=54 S: 6.9% n= 4 PAREJA SIN HIJOS N: 75% n= 54 S: 25% n= 18 PAREJA CON HIJOS N: 93.41% n=170 S: 6.59% n= 12 UNIFAMILIAR N: 58.44% n=90 S: 41.56% n= 64 PAREJAS N: 74.71% n=1146 S: 25.29% n= 388 Estudios realizados Edad Seg.1 Seg.2 Seg.3 BACHILLER UNIVERSITARIOS < 40 > 40 N: 73.33% n=66 S: 26.67% n= 24 N: 37.50% n=24 S: 62.50% n= 40 N: 73.40% n=936 S: 26.60% n= 340 N: 81.25% n=208 S: 18.75% n= 48 25% cambia de los cuales,el 71% corresponden a los seg. 4, 5 y 6 Seg.4 Seg. 5 Seg. 6 Seg.7 Nodos Finales: Población Segmentada 17

Qué es un Data Warehouse? Ralph Kimball (práctico): Copia de los datos transaccionales estructurados específicamente para su consulta y análisis. Bill Inmom (teórico): Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia. 18

Qué es un Data Warehouse? Almacén de datos con información estratégica para la toma de decisiones. Su información se puede utilizar para analizar datos, detectar tendencias y diseñar estrategias. Es una base de datos que: Contiene datos que provienen de diferentes sistemas operacionales (integración), consolidados a una determinada fecha (variante en el tiempo) y centrados en una determinada materia de negocio (ventas, consumos, uso del sitio Web...). Su estructura se diseña para dar respuesta ágil a las consultas y facilitar la distribución de sus datos, no para soportar procesos de gestión. No se actualizan sus datos, sólo son incrementados (no volátil). 19

Componentes de un sistema BI/DW Fuentes de datos internas Herramientas de análisis y consulta Compras BD Relacional (OLTP) Solución Web Contabilidad. RR/HH ETL Staging Area ETL Datos detalle ROLAP / HOLAP Solución aplicativa Web log,.. Fuentes de datos externas MOLAP agregados Hipercubos de datos Hipercubos de datos Hipercubos de datos Data mining EIS INE, INEM, Hipercubos de datos Hipercubos de datos 20

Herramientas de análisis y consulta Cuál es la diferencia entre EIS y OLAP? Un EIS (Executive Information System) es un sistema de información y un conjunto de herramientas asociadas: Proporciona a los directivos acceso a la información de estado y sus actividades de gestión. Está especializado en analizar el estado diario de la organización (mediante indicadores clave) para informar rápidamente sobre cambios a los directivos. La información solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma gráfica al estilo de las hojas de cálculo. Las herramientas OLAP (On-Line Analyitical Processing) son más genéricas: Funcionan sobre un sistema de información (relacional o dimensional) Estructura de almacenamiento que permite realizar diferentes agregaciones y combinaciones de datos según distintas perspectivas de observación. 21

Herramientas de análisis y consulta Cuál es la diferencia entre informes avanzados y OLAP? Los sistemas de informes o consultas avanzadas: están basados, generalmente, en sistemas relacionales u objetorelacionales, utilizan los operadores clásicos: concatenación, proyección, selección, agrupamiento, (en SQL y extensiones). el resultado se presenta de una manera tabular. Las herramientas OLAP Están basadas, generalmente, en sistemas o interfaces multidimensionales, Utilizando operadores específicos (además de los clásicos): drill, roll, pivot, slice & dice, El resultado se presenta de una manera matricial o híbrida. 22

Herramientas de análisis y consulta Cuál es la diferencia entre OLAP y minería de datos? Las herramientas OLAP proporcionan facilidades para manejar y transformar los datos. producen otros datos (más agregados, combinados). ayudan a analizar los datos porque producen diferentes vistas de los mismos. Las herramientas de Minería de Datos: son muy variadas: permiten extraer patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. producen reglas o patrones ( conocimiento ). 23

OLTP vs OLAP Almacena datos actuales Almacena datos históricos Almacena datos de detalle Almacena datos de detalle y datos agregados a distintos niveles Datos dinámicos Datos estáticos Integridad de datos Desnormalización, redundancia Dedicado al procesamiento de datos (transacción simple) Dedicado al análisis de datos (consultas complejas) Nº de transacciones elevado Nº de transacciones bajo Orientado a los procesos de la Orientado a la información organización (aplicación) relevante (negocio) Soporta decisiones diarias Soporta decisiones estratégicas Sirve a muchos usuarios Sirve a técnicos de dirección Tamaño BD : 100 Mb-Gb Tamaño BD : 100 Gb-Tb 24

DW y OLAP La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener DW sin OLAP y viceversa 25

Knowledge Discovery Process Piatetsky-Shapiro 26

Data mining: definición Knowledge discovery: the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (from Fayyad, U.M., Piatetsky- Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press.) the process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and results. (Berry &Linoff, 1997, 2000) Data mining sometimes refers to the whole process of knowledge discovery and sometimes to the specific machine learning phase. 27

Qué es (y no) Data Mining? Qué no es DM? buscar el producto más vendido preguntar a un motor de búsqueda por estrellas de cine conocer el estado de las cuentas de un cliente Qué es DM? conocer los productos que se compran juntos Agrupar documentos similares retornados por un motor de búsqueda de acuerdo a su contexto conocer la probabilidad de que devuelva un crédito 28

Data mining Data mining es un proceso que trata de buscar relaciones y patrones existentes en grandes bases de datos Tareas principales: Clasificación: predecir a qué clase pertenece un ítem Clustering: encontrar clusters en los datos Asociaciones: datos o eventos que ocurren frecuentemente Estimación: predecir un valor continuo Link Analysis: encontrar relaciones Visualización COMERCIAL CIENTIFICO 29

Disciplinas relacionadas Machine Learning Visualization Data Mining and Knowledge Discovery Statistics Databases 30

Statistics, Machine Learning and Data Mining Statistics: more theory-based more focused on testing hypotheses Machine learning more heuristic focused on improving performance of a learning agent also looks at real-time learning and robotics areas not part of data mining Data Mining and Knowledge Discovery integrates theory and heuristics focus on the entire process of knowledge discovery, including data cleaning, learning, and integration and visualization of results Distinctions are fuzzy 31

Por qué ahora se habla tanto de DM? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de los ordenadores Fuerte presión de la competencia Software de data mining específico e integración de algoritmos de DM en gestores de BD 32

Importante La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa 33

A recordar Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos 34

The Hype Curve for Data Mining and Knowledge Discovery Piatetsky-Shapiro 35

Business intelligence pyramid (Kirk Tyson) decisión análisis organización adquisición The wealth of information that is available in any business can be seen as a pyramid 36