Modelos matemáticos para la Minería de Datos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Modelos matemáticos para la Minería de Datos"

Transcripción

1 Modelos matemáticos para la Minería de Datos Emilio Carrizosa Facultad de Matemáticas, Universidad de Sevilla SCTM, Marzo de 2005

2 en colaboración con... Rafael Blanquero, Universidad de Sevilla Eduardo Conde, Universidad de Sevilla Belén Martín-Barragán, Universidad de Sevilla Frank Plastria, Vrije Universiteit Brussel Dolores Romero-Morales, University of Oxford

3 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

4 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

5 Introducción Campos de aplicación + Info y Software

6 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)

7 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)

8 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)

9 El siglo de los datos? Introducción Campos de aplicación + Info y Software Necesaria tecnología capaz de sacar provecho de esta información

10 Introducción Campos de aplicación + Info y Software

11 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

12 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

13 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

14 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

15 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

16 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

17 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

18 Quién será Mariam Abacha? Introducción Campos de aplicación + Info y Software Página 1 de emilio Carrizosa De: "Mrs Mariam Abacha." <maryambacha@netscape.net> Para: <ecarrizosa@us.es> Enviado: jueves, 22 de abril de :02 Asunto: DO YOUR POSSIBLE BEST TO HELP ME AND MY CHILDREN OUT OF THIS BONDAGE. From:HAJIA Mariam Abacha, Address: maryambacha@latinmail.com Kano State-Nigeria. God Bless your entire household, Following the sudden death of my husband General Sani Abacha the late former head of state of Nigeria in june 1998, I have been thrown into a state of utter confusion, frustration and hopelessness by the present civilian administration, I have been subjected to physical and psychological torture by the security agents in the country. My son was just released from detention some months ago by the Nigerian Government for an offence he did not commit. As a widow that is so traumatized, I have lost confidence with anybody within the country. You must have heard over the media reports and the internet on the recovery of various huge sums of money deposited by my husband in different security firms abroad, some companies willingly give up their secrets and disclosed our money confidently lodged there or many outright blackmail. In fact the total sum discovered by the Government so far is in the tune of $700. Million dollars. And they are not relenting to make me poor for life. I got your contacts through my personal research, and out of desperation decided to reach you through this medium. I will give you more information as to this regard as soon as you reply.i repose great confidence in you hence my approach to you due to security network placed on my day to day affairs I cannot afford to visit the embassy so that is why I decided to contact you and I hope you will not betray my confidence in you. I have deposited the sum of $ million dollars with a security firm abroad whose name is witheld for now until we open communication.i shall be grateful if you could receive this fund into your account for safe keeping.

19 Análisis de la cesta de la compra Introducción Campos de aplicación + Info y Software Pañales y cerveza Cerveza, tartas de fresa y huracanes, o What they know about you (NYT, 14/11/04)

20 De cómo ganar en Bolsa Introducción Campos de aplicación + Info y Software

21 Introducción Campos de aplicación + Info y Software Identificación de patologías y diagnóstico médico Title: Wisconsin Breast Cancer Database (January 8, 1991) # Attribute Domain Sample code number id number 2. Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses Class: (2 for benign, 4 for malignant) Missing attribute values: 16 There are 16 instances that contain a single missing (i.e., unavailable) attribute value, now denoted by "?". 9. Class distribution: Benign: 458 (65.5%) Malignant: 241 (34.5%)

22 Filtro colaborador Introducción Campos de aplicación + Info y Software

23 Terrorismo internacional Introducción Campos de aplicación + Info y Software Total Information Awareness

24 Terrorismo internacional Introducción Campos de aplicación + Info y Software Multistate Anti-TeRorism Information exchange

25 Introducción Campos de aplicación + Info y Software Análisis de riesgo en créditos bancarios

26 Introducción Campos de aplicación + Info y Software Análisis de secuencias de genes y proteínas

27 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

28 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

29 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

30 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

31 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

32 Minería de Datos recreativa ;-) Introducción Campos de aplicación + Info y Software

33 Introducción Campos de aplicación + Info y Software

34 Introducción Campos de aplicación + Info y Software C. Apte, The big (data) dig, OR/MS Today, Febrero M. Berthold, D.J. Hand, Intelligent Data Analysis: An introduction, Springer, P.S. Bradley, U.M. Fayyad, O.L. Mangasarian, Mathematical Programming for Data Mining: Formulations and challenges, INFORMS Journal on Computing 11 (1999) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, Wadsworth & Brooks/Cole, C. Burges, A tutorial on Support Vector Machines, Knowledge Discovery and Data Mining 2 (1998)

35 Introducción Campos de aplicación + Info y Software N. Cristianini, J. Shaw-Taylor, An introduction to Support Vector Machines, Cambridge University Press, R. Giráldez, J.C. Riquelme y J.S. Aguilar-Ruiz, Tendencias de la Minería de Datos en España. Red Española de Minería de Datos, T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning, Springer, J. Hernández Orallo, M.J. Ramírez Quintana, C. Ferri Ramírez, Introducción a la Minería de Datos, Pearson Prentice Hall, W. Klösgen, Żytkow, Handbook of data mining and knowledge discovery, Oxford University Press, 2002.

36 Asociaciones Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software EURO Working Group on Continuous Optimization ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, INFORMS Section on Data Mining,

37 Introducción Campos de aplicación + Info y Software XLMiner. Minería de Datos en Excel

38 Matlab. Stats toolbox Introducción Campos de aplicación + Info y Software

39 SPSS Clementine Introducción Campos de aplicación + Info y Software

40 WEKA Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

41 SAS Enterprise Miner Introducción Campos de aplicación + Info y Software

42 CART Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

43 A medida... Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

44 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

45 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

46 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

47 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

48 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

49 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

50 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

51 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

52 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

53 Las más usadas... Fases y ejemplos Reglas de asociación Análisis de conglomerados... solas o en compañía

54 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

55 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

56 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

57 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

58 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

59 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

60 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

61 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

62 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

63 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

64 Fases y ejemplos Reglas de asociación Análisis de conglomerados x j = i x j = 1 j f ij x i j

65 Fases y ejemplos Reglas de asociación Análisis de conglomerados x = xf e x = 1

66 Esto es el PageRank de Google Fases y ejemplos Reglas de asociación Análisis de conglomerados Larry Page Sergey Brin

67 Fases y ejemplos Reglas de asociación Análisis de conglomerados

68 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

69 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

70 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

71 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

72 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

73 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

74 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

75 Fases y ejemplos Reglas de asociación Análisis de conglomerados Sábado 10de00VieImede 2001 La verdad C Caravaca de la Cruz JUAN F. ROBLES. CARAVACA DE LA CRUZ La amenaza de nieve y frío no asustan a los caballistas de Caravaca. Aún no ha llegado el mes de mayo, ni tampoco las Fiestas de la c -qruz, pero esta tarde,a partir de las 15.30, El-nuevo marcador electrónico esuna novedad importante que los caballistas esperaban desde hace tiempo, ya que, como en cualquier carrera de velocidad, las diferencias en la subida a la cuesta del castillo suelen ser habitualmente mínimas, y una milésima de segundo puede dar el, triunfo a un caballo o a otro. Hasta el año pasado el sistema incluía el disparo automático en la salida,, ahora se quiere incorporar el dis- ", " paro automático también en la :-.. negada. ~~ El Bando de los Caballos del!s:c Vmo no ha emitido Emilio ninguna Carrizosa, infor- ecarrizosa@us.es horas, un grupo de caballistasrealizará una carrera de 108 Caballos del Vmo especial para comprobar el funcionamiento del nuevo sistema de cronometraje de esta competición que tiene lugar todos los años en la mañana del día 2 de mayo. Paralelamente a este sistema de medir los tiempos, profesores de Matemáticas de las Universidades de Murcia y Sevilla preparan un nuevo sistema de votación para el concurso de EJIjaezamiento. J t i i f C c M d s y

76 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

77 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

78 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

79 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

80 Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación

81 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

82 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

83 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

84 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

85 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

86 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

87 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

88 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

89 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

90 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

91 Fases y ejemplos Reglas de asociación Análisis de conglomerados Análisis de conglomerados

92 Análisis de conglomerados Fases y ejemplos Reglas de asociación Análisis de conglomerados Dados N individuos, agruparlos, de modo que individuos similares queden en la misma clase.

93 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados... entre puntos x, y R N : Distancia eucĺıdea (ponderada), N d(x, y) = i=1 ω i(x i y i ) 2 = (x y) (x y) ( N ) 1/p Distancia l p (ponderada), d(x, y) = i=1 ω i x i y i p Distancia de Mahalanobis, d(x, y) = (x y) Σ 1 (x y), con Σ : matriz de covarianzas.... Cuando estamos en R N, pero hay valores perdidos... ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) D(u) : variables conocidas de u. si D(u) D(v) c.c.

94 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

95 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

96 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

97 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

98 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

99 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

100 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

101 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

102 Fases y ejemplos Reglas de asociación Análisis de conglomerados Regresión

103 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

104 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

105 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

106 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

107 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

108 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

109 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

110 Sobreajuste: la palabra maldita Fases y ejemplos Reglas de asociación Análisis de conglomerados Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, )

111 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

112 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

113 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

114 Datos de prueba Fases y ejemplos Reglas de asociación Análisis de conglomerados

115 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

116 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

117 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

118 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

119 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

120 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

121 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

122 Ejemplo. Lirios de Fisher (1936) Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

123 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

124 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

125 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

126 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

127 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

128 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

129 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

130 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

131 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

132 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

133 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

134 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

135 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

136 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

137 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

138 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

139 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

140 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

141 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

142 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

143 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Y no es esto mucho suponer?

144 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Proyecto Elvira,

145 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Vecino más cercano

146 El vecino más cercano. Prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase elegimos prototipos de cada clase regla de clasificación: asignamos un objeto a la clase del prototipo más parecido

147 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

148 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

149 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase o?

150 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

151 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

152 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

153 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

154 Selección de k prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R : Conjunto de candidatos a prototipos (e.g. los de la muestra de aprendizaje) { 1, si s es seleccionado como prototipo x s = s R 0, c.c. { 1, si s : prototipo más cercano a i y is = i I, s R 0, c.c.

155 Formulación como un IP Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión min s. a i I s R r c s c i y is s R c x s 1 s R x s = k s R y is = 1 x s y is t R is x t y is x s x s {0, 1} c C i I (i, s) I R (i, s) I R s R y is [0, 1] (i, s) I R.

156 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

157 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

158 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

159 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

160 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) * MAXT * MAXT * MAXT Fisher Fisher

161 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

162 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

163 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

164 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

165 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

166 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

167 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

168 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Máquinas de Vector de Apoyo

169 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

170 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

171 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

172 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

173 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

174 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

175 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

176 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

177 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

178 Maximización del margen Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo Hiperplano de máximo margen: max min y u (ω x u + β) ω,β u I ω

179 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

180 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

181 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

182 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

183 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

184 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

185 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

186 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

187 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

188 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

189 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

190 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

191 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

192 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

193 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

194 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

195 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

196 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

197 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

198 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Árboles de clasificación (y regresión)

199 CART Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión CART: metodología unificada de predicción de variables categóricas (luego apta para el caso de la clasificación) variables numéricas (y, por tanto, también utilizable en los problemas de regresión) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, nuevos problemas de clasificación y regresión, surgidos en el campo de la Minería de Datos, los que han popularizado la técnica.

200 Esquema del algoritmo Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Construcción secuencial de árbol binario mediante preguntas con respuestas sí-no En cada etapa, estudiar, para cada variable, el efecto que produciría ramificar de acuerdo a dicha variable seleccionar la variable que produzca la mayor ganancia en pureza repetir recursivamente En cada nodo terminal n del árbol, establecemos una regla de clasificación: todos los individuos que pertenezcan al nodo n serán asignados a una misma clase, ϕ(n). Lo que distinguirá a unas variantes de otras es el método utilizado para seleccionar en cada etapa la pregunta por la que ramificar el árbol (medida de pureza).

201 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

202 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Mejor por x 1, no?

203 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Mejor por x 1, no?

204 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

205 Índices de diversidad Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Si población está dividida en m clases, con frecuencias f 1,..., f m, definimos Entropía: Gini: DKM: m j=1 f 1/2 j... m f j log f j j=1 1 m j=1 cuanto menores sean, tanto mayor la pureza de la población f 2 j

206 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Para determinar la variable x i de ramificación a usar podemos agregar los índices I (x i = j) en un único índice I (x i ) Esto se hace tomando una media ponderada de los I (x i = j) correspondientes: I (x i ) = j N j k N I (x i = j), k donde N j es el número de individuos con x i = j.

207 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

208 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

209 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

210 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión En la práctica Emilio Carrizosa, estasecarrizosa@us.es probabilidades no se pueden calcular, por Asociamos a cada árbol t su coste esperado c(t), definido como c(t) = n π(n t)c(n t), donde n es el conjunto de nodos terminales del árbol π(n t) es la probabilidad de que, en el árbol t, un individuo pertenezca al nodo final n. c(n t) es el coste esperado de clasificación incorrecta de un individuo del nodo n. Como todos los individuos del nodo n son asignados a un mismo grupo, ϕ(n), tenemos que m c(n t) = c iϕ(n) π i (n t), i=1 donde π i (n t) es la probabilidad de que un individuo del nodo n pertenezca al grupo i.

211 Poda del árbol Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, ) Desarrollar el árbol hasta el final puede producir sobreajuste Se plantea podar ramas del árbol Criterios: e.g. minimizar impureza + C número de nodos terminales

212 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión SPAM DATABASE ATTRIBUTES (in.names format) 48 continuous real [0,100] attributes of type word_freq_word = percentage of words in the that match WORD, i.e. 100 * (number of times the WORD appears in the ) / total number of words in . A "word" in this case is any string of alphanumeric characters bounded by non-alphanumeric characters or end-of-string. 6 continuous real [0,100] attributes of type char_freq_char = percentage of characters in the that match CHAR, i.e. 100 * (number of CHAR occurences) / total characters in 1 continuous real [1,...] attribute of type capital_run_length_average = average length of uninterrupted sequences of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_longest = length of longest uninterrupted sequence of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_total = sum of length of uninterrupted sequences of capital letters = total number of capital letters in the 1 nominal {0,1} class attribute of type spam = denotes whether the was considered spam (1) or not (0), i.e. unsolicited commercial . For more information, see file 'spambase.documentation' at the UCI Machine Learning Repository: ~mlearn/mlrepository.html 1, 0. spam, non-spam classes

213 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x53 < x7 < spam no spam spam

214 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Muestra de aprendizaje spam no spam es spam no es spam

215 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. x53 < x52 < x7 < spam x7 < spam no spam spam no spam spam

216 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

217 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. x53 < x7 < 0.01 x7 < spam no spam x27 < 0.08 no spam spam spam no spam

218 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

219 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es

220 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])

Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una

Más detalles

Problemas de clasificación: problemas de localización

Problemas de clasificación: problemas de localización Problemas de clasificación: problemas de localización Emilio Carrizosa Facultad de Matemáticas Universidad de Sevilla ecarrizosa@us.es Belén Martín-Barragán Facultad de Matemáticas Universidad de Sevilla

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

1. DATOS DE LA ASIGNATURA

1. DATOS DE LA ASIGNATURA 1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Grupo de investigación en Minería de Datos http://mida.usal.es

Grupo de investigación en Minería de Datos http://mida.usal.es Departamento de Informática y Automática Postgrado en Informática y Automática MÁSTER EN SISTEMAS INTELIGENTES ASIGNATURAS Introducción a la Minería de Datos Minería Web María N. Moreno García http://avellano.usal.es/~mmoreno

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

PROCEDIMIENTO HEURÍSTICO PARA MINIMIZAR EL C max EN CELDAS ROBOTIZADAS CON BUFFERS FINITOS Y PIEZAS DISTINTAS

PROCEDIMIENTO HEURÍSTICO PARA MINIMIZAR EL C max EN CELDAS ROBOTIZADAS CON BUFFERS FINITOS Y PIEZAS DISTINTAS 27 Congreso Nacional de Estadística e Investigación Operativa Lleida, 8 11 de abril de 2003 PROCEDIMIENTO HEURÍSTICO PARA MINIMIZAR EL C max EN CELDAS ROBOTIZADAS CON BUFFERS FINITOS Y PIEZAS DISTINTAS

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Análisis de componentes principales

Análisis de componentes principales Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los

Más detalles

Generación de números aleatorios

Generación de números aleatorios Generación de números aleatorios Marcos García González (h[e]rtz) Verano 2004 Documento facilitado por la realización de la asignatura Métodos informáticos de la física de segundo curso en la universidad

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

VENTAS EFECTIVAS EN UN CALL CENTER CON INTERVALOS DE CONFIANZA

VENTAS EFECTIVAS EN UN CALL CENTER CON INTERVALOS DE CONFIANZA 1 VENTAS EFECTIVAS EN UN CALL CENTER CON INTERVALOS DE CONFIANZA FERNANDA ORTIZ H. DIEGO RODRIGUEZ FACULTAD DE CIENCIAS CONTABLE Y EMPRESARIALES RESUMEN Las llamadas telefónicas en centros de Call Center

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

SOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE TRANSPORTE Y ASIGNACION.

SOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE TRANSPORTE Y ASIGNACION. UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA DE LA PRODUCCIÓN INGENIERÍA INDUSTRIAL SOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE

Más detalles

Support Vector Machines

Support Vector Machines Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de 2012. Dept. Matesco, Universidad de Cantabria

Minería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de 2012. Dept. Matesco, Universidad de Cantabria Minería de Datos Presentación de la asignatura Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Cuestiones Factuales De índole práctica Personal e

Más detalles

IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN

IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN Ing. Fredy Ruiz Ph.D. ruizf@javeriana.edu.co Maestría en Ingeniería Electrónica Pontificia Universidad Javeriana 2013 CONSIDERACIONES PRÁCTICAS

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

Un programa entero de dos variables. 15.053 Jueves, 4 de abril. La región factible. Por qué programación entera? Variables 0-1

Un programa entero de dos variables. 15.053 Jueves, 4 de abril. La región factible. Por qué programación entera? Variables 0-1 15.053 Jueves, 4 de abril Un programa entero de dos variables Introducción a la programación entera Modelos de programación entera Handouts: material de clase maximizar 3x + 4y sujeto a 5x + 8y 24 x, y

Más detalles

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación 5.5.1. Denominación: Introducción a la Minería de Datos 5.5.2. Breve Descripción del Contenido: Introducción a la minería de datos. Aprendizaje supervisado, modelos no paramétricos y modelos generalizados

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

COMUNICADO Nro. 49763 08/11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de 2010. Tarjetas de Crédito

COMUNICADO Nro. 49763 08/11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de 2010. Tarjetas de Crédito "2010 - AÑO DEL BICENTENARIO DE LA REVOLUCION DE MAYO" COMUNICADO Nro. 49763 08/11/2010 Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de 2010. Tarjetas de Crédito

Más detalles

Sistemas de Recuperación de Información

Sistemas de Recuperación de Información Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La

Más detalles

Curso del Data Mining al Big Data

Curso del Data Mining al Big Data Curso del Data Mining al Big Data Instructor: Dr. Luis Carlos Molina Félix Presentación. Las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento y

Más detalles

MATLAB en 30 minutos

MATLAB en 30 minutos MATLAB en 30 minutos Rafael Collantes. Octubre 200. Introducción MATLAB nació como un programa para cálculo matricial, pero en la actualidad MATLAB es un sistema que permite no solamente realizar todo

Más detalles

MANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó

MANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó MANUAL EASYCHAIR La URL para enviar su propuesta a la convocatoria es: https://easychair.org/conferences/?conf=genconciencia2015 Donde aparece la siguiente pantalla: Se encuentran dos opciones: A) Ingresar

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO OBJETIVO GENERAL El curso es de un nivel matemático intermedio y tiene

Más detalles

MANUAL EASYCHAIR. https://www.easychair.org/account/signin.cgi?conf=cnicc2013

MANUAL EASYCHAIR. https://www.easychair.org/account/signin.cgi?conf=cnicc2013 MANUAL EASYCHAIR La URL para enviar su artículo al congreso es: https://www.easychair.org/account/signin.cgi?conf=cnicc2013 Donde aparece la siguiente pantalla: En este punto hay dos opciones: A) Teclear

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Contratación e Integración de Personal

Contratación e Integración de Personal Contratación e Integración de Personal Bizagi Suite Contratación e Integración de Personal 1 Tabla de Contenido Contratación e Integración... 2 Elementos del proceso... 5 Viene de Selección y Reclutamiento?...

Más detalles

TEMA 7: Análisis de la Capacidad del Proceso

TEMA 7: Análisis de la Capacidad del Proceso TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad

Más detalles

Método k-medias. [ U n a i n t r o d u c c i ó n ]

Método k-medias. [ U n a i n t r o d u c c i ó n ] Método k-medias [ U n a i n t r o d u c c i ó n ] Método K-Means (Nubes Dinámicas) 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6

Más detalles

320514 - APTM - Análisis de Procesos Textiles y de Mercados

320514 - APTM - Análisis de Procesos Textiles y de Mercados Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2015 320 - EET - Escuela de Ingeniería de Terrassa 714 - ETP - Departamento de Ingeniería Textil y Papelera MÁSTER UNIVERSITARIO

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Programación Lineal Entera

Programación Lineal Entera Programación Lineal Entera Los modelos de programación entera son una extensión de los modelos lineales en los que algunas variables toman valores enteros. Con frecuencia las variables enteras sólo toman

Más detalles

5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA

5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA 5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA 1. EL ÁREA DE PRODUCCIÓN DE LA EMPRESA: PRODUCIR: consiste en incrementar la utilidad de los bienes para satisfacer necesidades humanas. Ello implica realizar todas

Más detalles

Pruebas de Acceso a las Universidades de Castilla y León

Pruebas de Acceso a las Universidades de Castilla y León Pruebas de Acceso a las Universidades de Castilla y León MATEMÁTICA APLICADA A LA CIENCIA OCIALE EJERCICIO Nº páginas 2 Tablas OPTATIVIDAD: EL ALUMNO DEBERÁ ECOGER UNA DE LA DO OPCIONE Y DEARROLLAR LA

Más detalles

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Learning Vector Quantization.

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Direcciones IP y máscaras de red

Direcciones IP y máscaras de red También en este nivel tenemos una serie de protocolos que se encargan de la resolución de direcciones: ARP (Address Resolution Protocol): cuando una maquina desea ponerse en contacto con otra conoce su

Más detalles

Definición 2.1.1. Se llama suceso aleatorio a cualquier subconjunto del espacio muestral.

Definición 2.1.1. Se llama suceso aleatorio a cualquier subconjunto del espacio muestral. Capítulo 2 Probabilidades 2. Definición y propiedades Al realizar un experimento aleatorio nuestro interés es obtener información sobre las leyes que rigen el fenómeno sometido a estudio. El punto de partida

Más detalles

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Introducción al Control Estadístico de Procesos TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Curso Superior. Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS

Curso Superior. Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS Curso Superior Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS Índice Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS 1. Sobre Inesem 2. Curso Superior en Estadística

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

MÁQUINAS DE VECTORES DE SOPORTE

MÁQUINAS DE VECTORES DE SOPORTE MÁQUINAS DE VECTORES DE SOPORTE Introducción Se tiene información de N individuos codificada de la forma Las variables X son vectores que reúnen información numérica del individuo, las variables Y indican

Más detalles

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación Validation Validación Psicométrica L art de l évaluation Validation Central Test Central Test Centraltest L art de l évaluation CENTRAL test.com El arte de la evaluación www.centraltest.com Propiedades

Más detalles

2 Resolución de algunos ejemplos y ejercicios del tema 2.

2 Resolución de algunos ejemplos y ejercicios del tema 2. INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE. 8 2 Resolución de algunos ejemplos y ejercicios del tema 2. 2.1 Ejemplos. Ejemplo 13 La siguiente tabla de frecuencias absolutas corresponde a 200 observaciones

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

Gestión de Redes IP. Presentación realizada por: Ing. Pablo Borrelli. Gestión de Redes IP 1

Gestión de Redes IP. Presentación realizada por: Ing. Pablo Borrelli. Gestión de Redes IP 1 Gestión de Redes IP Lugar: Sala de I.T.I. (Instituto Tecnológico de Informática) Presentación realizada por: Ing. Pablo Borrelli Gestión de Redes IP 1 Presentación e introducción. Gestión de la Red de

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

Sección Tutoriales en PDF. Hosting COMO Y POR QUÉ TENER UNA IP PRIVADA EN GVO

Sección Tutoriales en PDF. Hosting COMO Y POR QUÉ TENER UNA IP PRIVADA EN GVO Sección Tutoriales en PDF Hosting COMO Y POR QUÉ TENER UNA IP PRIVADA EN GVO Qué es una IP IP = Internet Protocol En términos sencillos IP es una dirección con que en la web (www) se identifica a cada

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Tema 8: Análisis Discriminante. Clasificación. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. Análisis discriminante

Tema 8: Análisis Discriminante. Clasificación. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. Análisis discriminante Aurea Grané. Máster en Estadística. Universidade Pedagógica. 1 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 2 Análisis discriminante Tema 8: Análisis Discriminante y Clasificación Aurea

Más detalles

Pruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León

Pruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León Pruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES EJECICIO Nº Páginas OPTATIVIDAD: EL ALUMNO DEBEÁ ESCOGE UNA DE LAS DOS OPCIONES

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

Inteligencia aplicada a la protección de infraestructuras

Inteligencia aplicada a la protección de infraestructuras Inteligencia aplicada a la protección de infraestructuras En la última década, la mayor conciencia sobre las amenazas potenciales hacia la seguridad sobre las personas y las infraestructuras han hecho

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Titulación: GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS. Asignatura: ECO Análisis avanzado de datos. Semestre: Primero.

Titulación: GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS. Asignatura: ECO Análisis avanzado de datos. Semestre: Primero. Titulación: GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Asignatura: ECO Análisis avanzado de datos Semestre: Primero Econometría [1] Asignatura: ECO Análisis avanzadas de datos Formación: Obligatoria

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Arquitectura de un sistema de almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacen de Datos, Datawarehouse,

Más detalles

La inteligencia de marketing que desarrolla el conocimiento

La inteligencia de marketing que desarrolla el conocimiento La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece

Más detalles

1.1 EL ESTUDIO TÉCNICO

1.1 EL ESTUDIO TÉCNICO 1.1 EL ESTUDIO TÉCNICO 1.1.1 Definición Un estudio técnico permite proponer y analizar las diferentes opciones tecnológicas para producir los bienes o servicios que se requieren, lo que además admite verificar

Más detalles

Framework basado en Colonias de Hormigas artificiales para la resolución de problemas de optimización

Framework basado en Colonias de Hormigas artificiales para la resolución de problemas de optimización Universidad Central de Venezuela Facultad de Ciencias Escuela de Computación Laboratorio de Inteligencia Artificial Framework basado en Colonias de Hormigas artificiales para la resolución de problemas

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

CORRELACIONES CON SPSS

CORRELACIONES CON SPSS ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta

Más detalles

Algoritmos Genéticos Y

Algoritmos Genéticos Y Algoritmos Genéticos Y Optimización n Heurística Dr. Adrian Will Grupo de Aplicaciones de Inteligencia Artificial Universidad Nacional de Tucumán awill@herrera.unt.edu.ar Optimización n Tradicional Problemas

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

INTELIGENCIA DE NEGOCIO 2014-2015

INTELIGENCIA DE NEGOCIO 2014-2015 INTELIGENCIA DE NEGOCIO 2014-2015 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos Tema 4. Modelos de Predicción: Clasificación, regresión

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Pruebas de Acceso a las Universidades de Castilla y León

Pruebas de Acceso a las Universidades de Castilla y León Pruebas de cceso a las Universidades de Castilla y León MTEMÁTICS PLICDS LS CIENCIS SOCILES EJERCICIO Nº páginas 2 Tablas OPTTIVIDD: EL LUMNO DEBERÁ ESCOGER UN DE LS DOS OPCIONES Y DESRROLLR LS PREGUNTS

Más detalles

Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS

Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS Contenido: CARTAS DE CONTROL Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS TEST DE MEDIANAS CEL: 72488950 1 Antes de querer utilizar cualquier

Más detalles