Modelos matemáticos para la Minería de Datos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Modelos matemáticos para la Minería de Datos"

Transcripción

1 Modelos matemáticos para la Minería de Datos Emilio Carrizosa Facultad de Matemáticas, Universidad de Sevilla SCTM, Marzo de 2005

2 en colaboración con... Rafael Blanquero, Universidad de Sevilla Eduardo Conde, Universidad de Sevilla Belén Martín-Barragán, Universidad de Sevilla Frank Plastria, Vrije Universiteit Brussel Dolores Romero-Morales, University of Oxford

3 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

4 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

5 Introducción Campos de aplicación + Info y Software

6 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive (http://www.archive.org): 300 Tb en (1Tb = 2 40 bytes)

7 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive (http://www.archive.org): 300 Tb en (1Tb = 2 40 bytes)

8 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive (http://www.archive.org): 300 Tb en (1Tb = 2 40 bytes)

9 El siglo de los datos? Introducción Campos de aplicación + Info y Software Necesaria tecnología capaz de sacar provecho de esta información

10 Introducción Campos de aplicación + Info y Software

11 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

12 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

13 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

14 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

15 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

16 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

17 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

18 Quién será Mariam Abacha? Introducción Campos de aplicación + Info y Software Página 1 de emilio Carrizosa De: "Mrs Mariam Abacha." Para: Enviado: jueves, 22 de abril de :02 Asunto: DO YOUR POSSIBLE BEST TO HELP ME AND MY CHILDREN OUT OF THIS BONDAGE. From:HAJIA Mariam Abacha, Address: Kano State-Nigeria. God Bless your entire household, Following the sudden death of my husband General Sani Abacha the late former head of state of Nigeria in june 1998, I have been thrown into a state of utter confusion, frustration and hopelessness by the present civilian administration, I have been subjected to physical and psychological torture by the security agents in the country. My son was just released from detention some months ago by the Nigerian Government for an offence he did not commit. As a widow that is so traumatized, I have lost confidence with anybody within the country. You must have heard over the media reports and the internet on the recovery of various huge sums of money deposited by my husband in different security firms abroad, some companies willingly give up their secrets and disclosed our money confidently lodged there or many outright blackmail. In fact the total sum discovered by the Government so far is in the tune of $700. Million dollars. And they are not relenting to make me poor for life. I got your contacts through my personal research, and out of desperation decided to reach you through this medium. I will give you more information as to this regard as soon as you reply.i repose great confidence in you hence my approach to you due to security network placed on my day to day affairs I cannot afford to visit the embassy so that is why I decided to contact you and I hope you will not betray my confidence in you. I have deposited the sum of $ million dollars with a security firm abroad whose name is witheld for now until we open communication.i shall be grateful if you could receive this fund into your account for safe keeping.

19 Análisis de la cesta de la compra Introducción Campos de aplicación + Info y Software Pañales y cerveza Cerveza, tartas de fresa y huracanes, o What they know about you (NYT, 14/11/04)

20 De cómo ganar en Bolsa Introducción Campos de aplicación + Info y Software

21 Introducción Campos de aplicación + Info y Software Identificación de patologías y diagnóstico médico Title: Wisconsin Breast Cancer Database (January 8, 1991) # Attribute Domain Sample code number id number 2. Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses Class: (2 for benign, 4 for malignant) Missing attribute values: 16 There are 16 instances that contain a single missing (i.e., unavailable) attribute value, now denoted by "?". 9. Class distribution: Benign: 458 (65.5%) Malignant: 241 (34.5%)

22 Filtro colaborador Introducción Campos de aplicación + Info y Software

23 Terrorismo internacional Introducción Campos de aplicación + Info y Software Total Information Awareness

24 Terrorismo internacional Introducción Campos de aplicación + Info y Software Multistate Anti-TeRorism Information exchange

25 Introducción Campos de aplicación + Info y Software Análisis de riesgo en créditos bancarios

26 Introducción Campos de aplicación + Info y Software Análisis de secuencias de genes y proteínas

27 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

28 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

29 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

30 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

31 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

32 Minería de Datos recreativa ;-) Introducción Campos de aplicación + Info y Software

33 Introducción Campos de aplicación + Info y Software

34 Introducción Campos de aplicación + Info y Software C. Apte, The big (data) dig, OR/MS Today, Febrero M. Berthold, D.J. Hand, Intelligent Data Analysis: An introduction, Springer, P.S. Bradley, U.M. Fayyad, O.L. Mangasarian, Mathematical Programming for Data Mining: Formulations and challenges, INFORMS Journal on Computing 11 (1999) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, Wadsworth & Brooks/Cole, C. Burges, A tutorial on Support Vector Machines, Knowledge Discovery and Data Mining 2 (1998)

35 Introducción Campos de aplicación + Info y Software N. Cristianini, J. Shaw-Taylor, An introduction to Support Vector Machines, Cambridge University Press, R. Giráldez, J.C. Riquelme y J.S. Aguilar-Ruiz, Tendencias de la Minería de Datos en España. Red Española de Minería de Datos, T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning, Springer, J. Hernández Orallo, M.J. Ramírez Quintana, C. Ferri Ramírez, Introducción a la Minería de Datos, Pearson Prentice Hall, W. Klösgen, Żytkow, Handbook of data mining and knowledge discovery, Oxford University Press, 2002.

36 Asociaciones Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software EURO Working Group on Continuous Optimization ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, INFORMS Section on Data Mining,

37 Introducción Campos de aplicación + Info y Software XLMiner. Minería de Datos en Excel

38 Matlab. Stats toolbox Introducción Campos de aplicación + Info y Software

39 SPSS Clementine Introducción Campos de aplicación + Info y Software

40 WEKA Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

41 SAS Enterprise Miner Introducción Campos de aplicación + Info y Software

42 CART Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

43 A medida... Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

44 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

45 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

46 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

47 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

48 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

49 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

50 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

51 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

52 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

53 Las más usadas... Fases y ejemplos Reglas de asociación Análisis de conglomerados... solas o en compañía

54 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

55 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

56 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

57 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

58 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

59 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

60 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

61 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

62 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

63 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

64 Fases y ejemplos Reglas de asociación Análisis de conglomerados x j = i x j = 1 j f ij x i j

65 Fases y ejemplos Reglas de asociación Análisis de conglomerados x = xf e x = 1

66 Esto es el PageRank de Google Fases y ejemplos Reglas de asociación Análisis de conglomerados Larry Page Sergey Brin

67 Fases y ejemplos Reglas de asociación Análisis de conglomerados

68 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

69 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

70 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

71 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

72 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

73 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

74 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

75 Fases y ejemplos Reglas de asociación Análisis de conglomerados Sábado 10de00VieImede 2001 La verdad C Caravaca de la Cruz JUAN F. ROBLES. CARAVACA DE LA CRUZ La amenaza de nieve y frío no asustan a los caballistas de Caravaca. Aún no ha llegado el mes de mayo, ni tampoco las Fiestas de la c -qruz, pero esta tarde,a partir de las 15.30, El-nuevo marcador electrónico esuna novedad importante que los caballistas esperaban desde hace tiempo, ya que, como en cualquier carrera de velocidad, las diferencias en la subida a la cuesta del castillo suelen ser habitualmente mínimas, y una milésima de segundo puede dar el, triunfo a un caballo o a otro. Hasta el año pasado el sistema incluía el disparo automático en la salida,, ahora se quiere incorporar el dis- ", " paro automático también en la :-.. negada. ~~ El Bando de los Caballos del!s:c Vmo no ha emitido Emilio ninguna Carrizosa, infor- horas, un grupo de caballistasrealizará una carrera de 108 Caballos del Vmo especial para comprobar el funcionamiento del nuevo sistema de cronometraje de esta competición que tiene lugar todos los años en la mañana del día 2 de mayo. Paralelamente a este sistema de medir los tiempos, profesores de Matemáticas de las Universidades de Murcia y Sevilla preparan un nuevo sistema de votación para el concurso de EJIjaezamiento. J t i i f C c M d s y

76 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

77 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

78 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

79 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

80 Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación

81 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

82 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

83 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

84 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

85 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

86 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

87 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

88 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

89 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

90 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

91 Fases y ejemplos Reglas de asociación Análisis de conglomerados Análisis de conglomerados

92 Análisis de conglomerados Fases y ejemplos Reglas de asociación Análisis de conglomerados Dados N individuos, agruparlos, de modo que individuos similares queden en la misma clase.

93 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados... entre puntos x, y R N : Distancia eucĺıdea (ponderada), N d(x, y) = i=1 ω i(x i y i ) 2 = (x y) (x y) ( N ) 1/p Distancia l p (ponderada), d(x, y) = i=1 ω i x i y i p Distancia de Mahalanobis, d(x, y) = (x y) Σ 1 (x y), con Σ : matriz de covarianzas.... Cuando estamos en R N, pero hay valores perdidos... ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) D(u) : variables conocidas de u. si D(u) D(v) c.c.

94 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

95 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

96 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

97 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

98 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

99 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

100 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

101 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

102 Fases y ejemplos Reglas de asociación Análisis de conglomerados Regresión

103 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

104 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

105 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

106 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

107 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

108 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

109 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

110 Sobreajuste: la palabra maldita Fases y ejemplos Reglas de asociación Análisis de conglomerados Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, )

111 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

112 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

113 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

114 Datos de prueba Fases y ejemplos Reglas de asociación Análisis de conglomerados

115 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

116 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

117 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

118 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

119 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

120 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

121 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

122 Ejemplo. Lirios de Fisher (1936) Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

123 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

124 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

125 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

126 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

127 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

128 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

129 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

130 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

131 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

132 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

133 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

134 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

135 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

136 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

137 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

138 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

139 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

140 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

141 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

142 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

143 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Y no es esto mucho suponer?

144 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Proyecto Elvira,

145 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Vecino más cercano

146 El vecino más cercano. Prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase elegimos prototipos de cada clase regla de clasificación: asignamos un objeto a la clase del prototipo más parecido

147 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

148 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

149 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase o?

150 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

151 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

152 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

153 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

154 Selección de k prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R : Conjunto de candidatos a prototipos (e.g. los de la muestra de aprendizaje) { 1, si s es seleccionado como prototipo x s = s R 0, c.c. { 1, si s : prototipo más cercano a i y is = i I, s R 0, c.c.

155 Formulación como un IP Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión min s. a i I s R r c s c i y is s R c x s 1 s R x s = k s R y is = 1 x s y is t R is x t y is x s x s {0, 1} c C i I (i, s) I R (i, s) I R s R y is [0, 1] (i, s) I R.

156 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

157 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

158 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

159 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

160 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) * MAXT * MAXT * MAXT Fisher Fisher

161 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

162 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

163 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

164 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

165 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

166 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

167 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

168 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Máquinas de Vector de Apoyo

169 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

170 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

171 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

172 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

173 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

174 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

175 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

176 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

177 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

178 Maximización del margen Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo Hiperplano de máximo margen: max min y u (ω x u + β) ω,β u I ω

179 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

180 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

181 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

182 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

183 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

184 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

185 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

186 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

187 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

188 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

189 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

190 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

191 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

192 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

193 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

194 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

195 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

196 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

197 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

198 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Árboles de clasificación (y regresión)

199 CART Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión CART: metodología unificada de predicción de variables categóricas (luego apta para el caso de la clasificación) variables numéricas (y, por tanto, también utilizable en los problemas de regresión) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, nuevos problemas de clasificación y regresión, surgidos en el campo de la Minería de Datos, los que han popularizado la técnica.

200 Esquema del algoritmo Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Construcción secuencial de árbol binario mediante preguntas con respuestas sí-no En cada etapa, estudiar, para cada variable, el efecto que produciría ramificar de acuerdo a dicha variable seleccionar la variable que produzca la mayor ganancia en pureza repetir recursivamente En cada nodo terminal n del árbol, establecemos una regla de clasificación: todos los individuos que pertenezcan al nodo n serán asignados a una misma clase, ϕ(n). Lo que distinguirá a unas variantes de otras es el método utilizado para seleccionar en cada etapa la pregunta por la que ramificar el árbol (medida de pureza).

201 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

202 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Mejor por x 1, no?

203 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Mejor por x 1, no?

204 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

205 Índices de diversidad Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Si población está dividida en m clases, con frecuencias f 1,..., f m, definimos Entropía: Gini: DKM: m j=1 f 1/2 j... m f j log f j j=1 1 m j=1 cuanto menores sean, tanto mayor la pureza de la población f 2 j

206 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Para determinar la variable x i de ramificación a usar podemos agregar los índices I (x i = j) en un único índice I (x i ) Esto se hace tomando una media ponderada de los I (x i = j) correspondientes: I (x i ) = j N j k N I (x i = j), k donde N j es el número de individuos con x i = j.

207 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

208 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

209 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

210 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión En la práctica Emilio Carrizosa, probabilidades no se pueden calcular, por Asociamos a cada árbol t su coste esperado c(t), definido como c(t) = n π(n t)c(n t), donde n es el conjunto de nodos terminales del árbol π(n t) es la probabilidad de que, en el árbol t, un individuo pertenezca al nodo final n. c(n t) es el coste esperado de clasificación incorrecta de un individuo del nodo n. Como todos los individuos del nodo n son asignados a un mismo grupo, ϕ(n), tenemos que m c(n t) = c iϕ(n) π i (n t), i=1 donde π i (n t) es la probabilidad de que un individuo del nodo n pertenezca al grupo i.

211 Poda del árbol Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, ) Desarrollar el árbol hasta el final puede producir sobreajuste Se plantea podar ramas del árbol Criterios: e.g. minimizar impureza + C número de nodos terminales

212 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión SPAM DATABASE ATTRIBUTES (in.names format) 48 continuous real [0,100] attributes of type word_freq_word = percentage of words in the that match WORD, i.e. 100 * (number of times the WORD appears in the ) / total number of words in . A "word" in this case is any string of alphanumeric characters bounded by non-alphanumeric characters or end-of-string. 6 continuous real [0,100] attributes of type char_freq_char = percentage of characters in the that match CHAR, i.e. 100 * (number of CHAR occurences) / total characters in 1 continuous real [1,...] attribute of type capital_run_length_average = average length of uninterrupted sequences of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_longest = length of longest uninterrupted sequence of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_total = sum of length of uninterrupted sequences of capital letters = total number of capital letters in the 1 nominal {0,1} class attribute of type spam = denotes whether the was considered spam (1) or not (0), i.e. unsolicited commercial . For more information, see file 'spambase.documentation' at the UCI Machine Learning Repository: ~mlearn/mlrepository.html 1, 0. spam, non-spam classes

213 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x53 < x7 < spam no spam spam

214 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Muestra de aprendizaje spam no spam es spam no es spam

215 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. x53 < x52 < x7 < spam x7 < spam no spam spam no spam spam

216 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

217 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. x53 < x7 < 0.01 x7 < spam no spam x27 < 0.08 no spam spam spam no spam

218 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

219 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles)

220 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles)

Problemas de clasificación: problemas de localización

Problemas de clasificación: problemas de localización Problemas de clasificación: problemas de localización Emilio Carrizosa Facultad de Matemáticas Universidad de Sevilla ecarrizosa@us.es Belén Martín-Barragán Facultad de Matemáticas Universidad de Sevilla

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

1. DATOS DE LA ASIGNATURA

1. DATOS DE LA ASIGNATURA 1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Grupo de investigación en Minería de Datos http://mida.usal.es

Grupo de investigación en Minería de Datos http://mida.usal.es Departamento de Informática y Automática Postgrado en Informática y Automática MÁSTER EN SISTEMAS INTELIGENTES ASIGNATURAS Introducción a la Minería de Datos Minería Web María N. Moreno García http://avellano.usal.es/~mmoreno

Más detalles

El fenómeno Big Data y los títulos en Estadística en España.

El fenómeno Big Data y los títulos en Estadística en España. El fenómeno Big Data y los títulos en Estadística en España. Daniel Peña Rector Universidad Carlos III de Madrid V Conferencia Interuniversitaria sobre Titulaciones en Estadística UCM, enero 2014 Indice

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de 2012. Dept. Matesco, Universidad de Cantabria

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de 2012. Dept. Matesco, Universidad de Cantabria Minería de Datos Presentación de la asignatura Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Cuestiones Factuales De índole práctica Personal e

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

MANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó

MANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó MANUAL EASYCHAIR La URL para enviar su propuesta a la convocatoria es: https://easychair.org/conferences/?conf=genconciencia2015 Donde aparece la siguiente pantalla: Se encuentran dos opciones: A) Ingresar

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Arquitectura de un sistema de almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacen de Datos, Datawarehouse,

Más detalles

Daly Elementary. Family Back to School Questionnaire

Daly Elementary. Family Back to School Questionnaire Daly Elementary Family Back to School Questionnaire Dear Parent(s)/Guardian(s), As I stated in the welcome letter you received before the beginning of the school year, I would be sending a questionnaire

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 En los dispositivos móviles como tablets o teléfonos celulares se tiene la opción de implementar o no un sistemas

Más detalles

Lump Sum Final Check Contribution to Deferred Compensation

Lump Sum Final Check Contribution to Deferred Compensation Memo To: ERF Members The Employees Retirement Fund has been asked by Deferred Compensation to provide everyone that has signed up to retire with the attached information. Please read the information from

Más detalles

CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1

CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1 CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1 Carolina Segovia csegovia@analytics.cl - Luis Aburto luaburto@analytics.cl Marcel Goic mgoic@dii.uchile.cl Resumen

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación 5.5.1. Denominación: Introducción a la Minería de Datos 5.5.2. Breve Descripción del Contenido: Introducción a la minería de datos. Aprendizaje supervisado, modelos no paramétricos y modelos generalizados

Más detalles

GUÍA DOCENTE TITULACIONES DE GRADO

GUÍA DOCENTE TITULACIONES DE GRADO GUÍA DOCENTE TITULACIONES DE GRADO TITULACIÓN: GRADO EN INGENIERIA INFORMATICA DE SISTEMAS DE INFORMACIÓN CURSO 2015/2016 ASIGNATURA: MINERÏA DE DATOS Nombre del Módulo o Materia al que pertenece la asignatura.

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo Minería de Datos Óscar Palomo Miñambres Universidad Carlos III de Madrid Avda. De la Universidad, 30 28911, Leganés (Madrid-España) 100049074@alumnos.uc3m.es Abstract En este artículo analizaremos las

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

ANÁLISIS MULTIVARIANTE. Créditos. Teóricos: 6 Prácticos: 3 Total: 9. Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi

ANÁLISIS MULTIVARIANTE. Créditos. Teóricos: 6 Prácticos: 3 Total: 9. Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi Presentación ANÁLISIS MULTIVARIANTE MATEMÁTICAS SEGUNDO CICLO OPTATIVA SEGUNDO CUATRIMESTRE Créditos. Teóricos: 6 Prácticos: 3 Total: 9 Profesoras: Agurtzane Amparan, Silvia Marcaida y Arantza Urkaregi

Más detalles

INTELIGENCIA DE NEGOCIO 2014-2015

INTELIGENCIA DE NEGOCIO 2014-2015 INTELIGENCIA DE NEGOCIO 2014-2015 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos Tema 4. Modelos de Predicción: Clasificación, regresión

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w

Más detalles

Tarjetas de crédito Visa y Mastercard a través de la pagina de inscripción al curso. (En Argentina no se acepta Amex)

Tarjetas de crédito Visa y Mastercard a través de la pagina de inscripción al curso. (En Argentina no se acepta Amex) Terminos y Condiciones PAGOS El pago del curso deberá en todos los casos efectivizado como mínimo - 72 horas antes del comienzo del mismo. La vacante será confirmada contra el pago del curso, hasta ese

Más detalles

Text Mining Introducción a Minería de Datos

Text Mining Introducción a Minería de Datos Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008 qué es la minería de datos? A technique using software tools

Más detalles

Voter Information Guide and Sample Ballot

Voter Information Guide and Sample Ballot Voter Information Guide and Sample Ballot Special Election San Bernardino Mountains Community Hospital District Tuesday, June 4, 2013 Elections Office of the Registrar of Voters 777 East Rialto Ave. San

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Secretaría de Docencia Dirección de Estudios Profesionales

Secretaría de Docencia Dirección de Estudios Profesionales I. IDENTIFICACIÓN DEL CURSO PROGRAMA DE ESTUDIO POR COMPETENCIAS Minería de Datos ORGANISMO ACADÉMICO: FACULTAD DE INGENIERÍA Programa Educativo: Ingeniería en Computación Área de docencia: Tratamiento

Más detalles

CURSO ESTADÍSTICA APLICADA CON R

CURSO ESTADÍSTICA APLICADA CON R CURSO ESTADÍSTICA APLICADA CON R Organizado por: Instituto IMDEA Alimentación Facultad de Ciencias de la Universidad Autónoma de Madrid MADRID, de Septiembre a Diciembre de 2015 Estadística Aplicada con

Más detalles

Screener for Peer Supporters

Screener for Peer Supporters Screener for Peer Supporters Primary Recruiter: Secondary Recruiter: Potential Peer Supporter Name: Phone #1: Home/Cell Phone #2: Home/Cell Address: City: Zip: Contact 1: Date: / / Contact 2: Date: / /

Más detalles

Introducción. Growing on the CRM industry during 2001. Significant. decrease 4% Ns/nc 2% Slight decrease 4% Remains 5% Significant.

Introducción. Growing on the CRM industry during 2001. Significant. decrease 4% Ns/nc 2% Slight decrease 4% Remains 5% Significant. Introducción During next decade the number of Data Mining projects will increase dramatically (more than 300%) to improve the relationship with the customer and help companies to listen to their customers

Más detalles

Vermont Mini-Lessons: Leaving A Voicemail

Vermont Mini-Lessons: Leaving A Voicemail Vermont Mini-Lessons: Leaving A Voicemail Leaving a Voice Mail Message Learning Objective 1) When to leave a message 2) How to leave a message Materials: 1) Voice Mail Template blanks & samples 2) Phone

Más detalles

ENSIA 605 Inteligencia de Negocios y Minería de Datos

ENSIA 605 Inteligencia de Negocios y Minería de Datos ENSIA 605 Inteligencia de Negocios y Minería de Datos Profesor: Jaime Miranda P. E mail profesor: jmirandap@fen.uchile.cl OBJETIVOS DEL CURSO OBJETIVO GENERAL Estudiar, analizar, diseñar y aplicar tecnologías

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

INTELIGENCIA DE NEGOCIO 2015-2016

INTELIGENCIA DE NEGOCIO 2015-2016 INTELIGENCIA DE NEGOCIO 2015-2016 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos. Ciencia de Datos Tema 4. Modelos de Predicción: Clasificación,

Más detalles

Contratación e Integración de Personal

Contratación e Integración de Personal Contratación e Integración de Personal Bizagi Suite Contratación e Integración de Personal 1 Tabla de Contenido Contratación e Integración... 2 Elementos del proceso... 5 Viene de Selección y Reclutamiento?...

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

INTELIGENCIA DE NEGOCIO 2014-2015

INTELIGENCIA DE NEGOCIO 2014-2015 INTELIGENCIA DE NEGOCIO 2014-2015 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos. Ciencia de Datos Tema 4. Modelos de Predicción: Clasificación,

Más detalles

OLAP y Minería de Datos: Introducción

OLAP y Minería de Datos: Introducción OLAP y Minería de Datos: Introducción Carlos Hurtado L. churtado@dcc.uchile.cl Departamento de Ciencias de la Computación Universidad de Chile OLAP y Minería de Datos: Introducción, DCC, U. de Chile, 2do

Más detalles

Lengua adicional al español IV

Lengua adicional al español IV Lengua adicional al español IV Topic 11 Life little lessons Introduction In this lesson you will study: Time clauses are independent clauses. These are the clauses that tell you the specific time when

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Prontuario. I. Titulo del curso: Minería de Datos. II. Codificación: ESTA 5504. Horas / Crédito: 3 horas semanales / 3 Créditos

Prontuario. I. Titulo del curso: Minería de Datos. II. Codificación: ESTA 5504. Horas / Crédito: 3 horas semanales / 3 Créditos Universidad de Puerto Rico Recinto de Rio Piedras Facultad de Administración de Empresas 1 2 I. Titulo del curso: Minería de Datos Prontuario II. Codificación: ESTA 5504 III. Horas / Crédito: 3 horas semanales

Más detalles

PROGRAMA DE ASIGNATURA

PROGRAMA DE ASIGNATURA PROGRAMA DE ASIGNATURA 01. Carrera Lic. En Administración de Negocios Internacionales Lic. En Dirección del Factor Humano Lic. En Comercialización x Lic. En Tecnología Informática Lic. En Administración

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Módulo Titulación TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN TECNOLOGÍAS ESPECÍFICAS GRADO EN INGENIERÍA INFORMÁTICA Plan 545 Código 46932 Periodo de

Más detalles

Promotion of electronic resources by consortia and libraries

Promotion of electronic resources by consortia and libraries Promotion of electronic resources by consortia and libraries Report template 2014 competition Applicant details Country Consortium/Institutio n name Address Applicant s name Nicaragua Universidad Nacional

Más detalles

CPOA Webinar Comunicación con Coaches

CPOA Webinar Comunicación con Coaches CPOA Webinar Comunicación con Coaches Primeros Contactos Hi! My name is Mr. Coach! I am the Head Tennis Coach here at Great University, in USA! I found your profile at CPOA, and I would like to take a

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Clase 19: 21 de Abril de 2011. Certificados Digitales (HTTPS) Eduardo Mercader Orta emercade [at] nic. cl

Clase 19: 21 de Abril de 2011. Certificados Digitales (HTTPS) Eduardo Mercader Orta emercade [at] nic. cl Taller de Administración de Servidores Linux CC5308 Clase 19: 21 de Abril de 2011 Certificados Digitales (HTTPS) Eduardo Mercader Orta emercade [at] nic. cl Copyright 2011 Creative Commons 3.0-cl by-nc-sa

Más detalles

ADAPTACIÓN DE REAL TIME WORKSHOP AL SISTEMA OPERATIVO LINUX

ADAPTACIÓN DE REAL TIME WORKSHOP AL SISTEMA OPERATIVO LINUX ADAPTACIÓN DE REAL TIME WORKSHOP AL SISTEMA OPERATIVO LINUX Autor: Tomás Murillo, Fernando. Director: Muñoz Frías, José Daniel. Coordinador: Contreras Bárcena, David Entidad Colaboradora: ICAI Universidad

Más detalles

Introducción al DataMining

Introducción al DataMining Introducción al DataMining Lluís Garrido garrido@ecm.ub.es Universitat de Barcelona Índice Qué es el DataMining? Qué puede hacer el DataMining? Cómo hacer el DataMining? Técnicas Metodología del DataMining

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Introducción a la Minería de Datos y al Aprendizaje Automático

Introducción a la Minería de Datos y al Aprendizaje Automático Introducción a la Minería de Datos y al Aprendizaje Automático Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Juan José Rodriguez Diez Grupo

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

Algoritmos Genéticos Y

Algoritmos Genéticos Y Algoritmos Genéticos Y Optimización n Heurística Dr. Adrian Will Grupo de Aplicaciones de Inteligencia Artificial Universidad Nacional de Tucumán awill@herrera.unt.edu.ar Optimización n Tradicional Problemas

Más detalles

Northwestern University, Feinberg School of Medicine

Northwestern University, Feinberg School of Medicine Improving Rates of Repeat Colorectal Cancer Screening Appendix Northwestern University, Feinberg School of Medicine Contents Patient Letter Included with Mailed FIT... 3 Automated Phone Call... 4 Automated

Más detalles

PROYECTO DE NIVELACION 2013

PROYECTO DE NIVELACION 2013 TEACHER: SANDRA GUIO ESTUDIANTE: FECHA: CALIFICACIÓN: INTRUCCIONES GENERALES Este es el proyecto de nivelación que se debe desarrollar para la materia de Inglés debe cumplir en su totalidad con los siguientes

Más detalles

Guide to Health Insurance Part II: How to access your benefits and services.

Guide to Health Insurance Part II: How to access your benefits and services. Guide to Health Insurance Part II: How to access your benefits and services. 1. I applied for health insurance, now what? Medi-Cal Applicants If you applied for Medi-Cal it will take up to 45 days to find

Más detalles

Nombre Clase Fecha. committee has asked a volunteer to check off the participants as they arrive.

Nombre Clase Fecha. committee has asked a volunteer to check off the participants as they arrive. SITUATION You are participating in an International Student Forum. The organizing committee has asked a volunteer to check off the participants as they arrive. TASK As the volunteer, greet the participants

Más detalles

Pistas Separadas TÉRMINOS Y CONDICIONES

Pistas Separadas TÉRMINOS Y CONDICIONES Pistas Separadas POETA MUSIC PRODUCTIONS le da un control total sobre lo que se hace con la grabación original. Ahora, usted puede agregar diferentes sonidos voses teclados derivados como desee ( añada

Más detalles

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Learning Vector Quantization.

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

Your response will be used by Facebook to improve your experience. You can't edit the details of this audience because it was created by someone else and shared with you. La respuesta será usada por Facebook

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Welcome to the CU at School Savings Program!

Welcome to the CU at School Savings Program! Welcome to the CU at School Savings Program! Thank you for your interest in Yolo Federal Credit Union s CU at School savings program. This packet of information has everything you need to sign your child

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

PRINTING INSTRUCTIONS

PRINTING INSTRUCTIONS PRINTING INSTRUCTIONS 1. Print the Petition form on 8½ X 11inch paper. 2. The second page (instructions for circulator) must be copied on the reverse side of the petition Instructions to print the PDF

Más detalles

DETECCIÓN DE INSTRUMENTOS DÉBILES AL CORREGIR ENDOGENEIDAD EN MODELOS LOGIT BINARIOS

DETECCIÓN DE INSTRUMENTOS DÉBILES AL CORREGIR ENDOGENEIDAD EN MODELOS LOGIT BINARIOS DETECCIÓN DE INSTRUMENTOS DÉBILES AL CORREGIR ENDOGENEIDAD EN MODELOS LOGIT BINARIOS Pedro Pablo Navarro Lucic, Universidad de los Andes, Chile pnavarro@miuandes.cl C. Angelo Guevara, Universidad de los

Más detalles

QUE ES EL CANCER DE MAMA PDF

QUE ES EL CANCER DE MAMA PDF QUE ES EL CANCER DE MAMA PDF ==> Download: QUE ES EL CANCER DE MAMA PDF QUE ES EL CANCER DE MAMA PDF - Are you searching for Que Es El Cancer De Mama Books? Now, you will be happy that at this time Que

Más detalles