Modelos matemáticos para la Minería de Datos
|
|
- Sofia Catalina San Segundo Roldán
- hace 8 años
- Vistas:
Transcripción
1 Modelos matemáticos para la Minería de Datos Emilio Carrizosa Facultad de Matemáticas, Universidad de Sevilla SCTM, Marzo de 2005
2 en colaboración con... Rafael Blanquero, Universidad de Sevilla Eduardo Conde, Universidad de Sevilla Belén Martín-Barragán, Universidad de Sevilla Frank Plastria, Vrije Universiteit Brussel Dolores Romero-Morales, University of Oxford
3 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :
4 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :
5 Introducción Campos de aplicación + Info y Software
6 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)
7 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)
8 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)
9 El siglo de los datos? Introducción Campos de aplicación + Info y Software Necesaria tecnología capaz de sacar provecho de esta información
10 Introducción Campos de aplicación + Info y Software
11 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?
12 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?
13 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?
14 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones
15 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones
16 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones
17 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones
18 Quién será Mariam Abacha? Introducción Campos de aplicación + Info y Software Página 1 de emilio Carrizosa De: "Mrs Mariam Abacha." <maryambacha@netscape.net> Para: <ecarrizosa@us.es> Enviado: jueves, 22 de abril de :02 Asunto: DO YOUR POSSIBLE BEST TO HELP ME AND MY CHILDREN OUT OF THIS BONDAGE. From:HAJIA Mariam Abacha, Address: maryambacha@latinmail.com Kano State-Nigeria. God Bless your entire household, Following the sudden death of my husband General Sani Abacha the late former head of state of Nigeria in june 1998, I have been thrown into a state of utter confusion, frustration and hopelessness by the present civilian administration, I have been subjected to physical and psychological torture by the security agents in the country. My son was just released from detention some months ago by the Nigerian Government for an offence he did not commit. As a widow that is so traumatized, I have lost confidence with anybody within the country. You must have heard over the media reports and the internet on the recovery of various huge sums of money deposited by my husband in different security firms abroad, some companies willingly give up their secrets and disclosed our money confidently lodged there or many outright blackmail. In fact the total sum discovered by the Government so far is in the tune of $700. Million dollars. And they are not relenting to make me poor for life. I got your contacts through my personal research, and out of desperation decided to reach you through this medium. I will give you more information as to this regard as soon as you reply.i repose great confidence in you hence my approach to you due to security network placed on my day to day affairs I cannot afford to visit the embassy so that is why I decided to contact you and I hope you will not betray my confidence in you. I have deposited the sum of $ million dollars with a security firm abroad whose name is witheld for now until we open communication.i shall be grateful if you could receive this fund into your account for safe keeping.
19 Análisis de la cesta de la compra Introducción Campos de aplicación + Info y Software Pañales y cerveza Cerveza, tartas de fresa y huracanes, o What they know about you (NYT, 14/11/04)
20 De cómo ganar en Bolsa Introducción Campos de aplicación + Info y Software
21 Introducción Campos de aplicación + Info y Software Identificación de patologías y diagnóstico médico Title: Wisconsin Breast Cancer Database (January 8, 1991) # Attribute Domain Sample code number id number 2. Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses Class: (2 for benign, 4 for malignant) Missing attribute values: 16 There are 16 instances that contain a single missing (i.e., unavailable) attribute value, now denoted by "?". 9. Class distribution: Benign: 458 (65.5%) Malignant: 241 (34.5%)
22 Filtro colaborador Introducción Campos de aplicación + Info y Software
23 Terrorismo internacional Introducción Campos de aplicación + Info y Software Total Information Awareness
24 Terrorismo internacional Introducción Campos de aplicación + Info y Software Multistate Anti-TeRorism Information exchange
25 Introducción Campos de aplicación + Info y Software Análisis de riesgo en créditos bancarios
26 Introducción Campos de aplicación + Info y Software Análisis de secuencias de genes y proteínas
27 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...
28 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...
29 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...
30 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...
31 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...
32 Minería de Datos recreativa ;-) Introducción Campos de aplicación + Info y Software
33 Introducción Campos de aplicación + Info y Software
34 Introducción Campos de aplicación + Info y Software C. Apte, The big (data) dig, OR/MS Today, Febrero M. Berthold, D.J. Hand, Intelligent Data Analysis: An introduction, Springer, P.S. Bradley, U.M. Fayyad, O.L. Mangasarian, Mathematical Programming for Data Mining: Formulations and challenges, INFORMS Journal on Computing 11 (1999) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, Wadsworth & Brooks/Cole, C. Burges, A tutorial on Support Vector Machines, Knowledge Discovery and Data Mining 2 (1998)
35 Introducción Campos de aplicación + Info y Software N. Cristianini, J. Shaw-Taylor, An introduction to Support Vector Machines, Cambridge University Press, R. Giráldez, J.C. Riquelme y J.S. Aguilar-Ruiz, Tendencias de la Minería de Datos en España. Red Española de Minería de Datos, T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning, Springer, J. Hernández Orallo, M.J. Ramírez Quintana, C. Ferri Ramírez, Introducción a la Minería de Datos, Pearson Prentice Hall, W. Klösgen, Żytkow, Handbook of data mining and knowledge discovery, Oxford University Press, 2002.
36 Asociaciones Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software EURO Working Group on Continuous Optimization ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, INFORMS Section on Data Mining,
37 Introducción Campos de aplicación + Info y Software XLMiner. Minería de Datos en Excel
38 Matlab. Stats toolbox Introducción Campos de aplicación + Info y Software
39 SPSS Clementine Introducción Campos de aplicación + Info y Software
40 WEKA Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software
41 SAS Enterprise Miner Introducción Campos de aplicación + Info y Software
42 CART Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software
43 A medida... Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software
44 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones
45 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones
46 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones
47 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones
48 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones
49 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...
50 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...
51 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...
52 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...
53 Las más usadas... Fases y ejemplos Reglas de asociación Análisis de conglomerados... solas o en compañía
54 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
55 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
56 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
57 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
58 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
59 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
60 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
61 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
62 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
63 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j
64 Fases y ejemplos Reglas de asociación Análisis de conglomerados x j = i x j = 1 j f ij x i j
65 Fases y ejemplos Reglas de asociación Análisis de conglomerados x = xf e x = 1
66 Esto es el PageRank de Google Fases y ejemplos Reglas de asociación Análisis de conglomerados Larry Page Sergey Brin
67 Fases y ejemplos Reglas de asociación Análisis de conglomerados
68 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
69 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
70 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
71 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
72 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
73 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
74 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j
75 Fases y ejemplos Reglas de asociación Análisis de conglomerados Sábado 10de00VieImede 2001 La verdad C Caravaca de la Cruz JUAN F. ROBLES. CARAVACA DE LA CRUZ La amenaza de nieve y frío no asustan a los caballistas de Caravaca. Aún no ha llegado el mes de mayo, ni tampoco las Fiestas de la c -qruz, pero esta tarde,a partir de las 15.30, El-nuevo marcador electrónico esuna novedad importante que los caballistas esperaban desde hace tiempo, ya que, como en cualquier carrera de velocidad, las diferencias en la subida a la cuesta del castillo suelen ser habitualmente mínimas, y una milésima de segundo puede dar el, triunfo a un caballo o a otro. Hasta el año pasado el sistema incluía el disparo automático en la salida,, ahora se quiere incorporar el dis- ", " paro automático también en la :-.. negada. ~~ El Bando de los Caballos del!s:c Vmo no ha emitido Emilio ninguna Carrizosa, infor- ecarrizosa@us.es horas, un grupo de caballistasrealizará una carrera de 108 Caballos del Vmo especial para comprobar el funcionamiento del nuevo sistema de cronometraje de esta competición que tiene lugar todos los años en la mañana del día 2 de mayo. Paralelamente a este sistema de medir los tiempos, profesores de Matemáticas de las Universidades de Murcia y Sevilla preparan un nuevo sistema de votación para el concurso de EJIjaezamiento. J t i i f C c M d s y
76 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias
77 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias
78 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?
79 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?
80 Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación
81 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)
82 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)
83 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori
84 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori
85 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori
86 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori
87 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori
88 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)
89 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)
90 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)
91 Fases y ejemplos Reglas de asociación Análisis de conglomerados Análisis de conglomerados
92 Análisis de conglomerados Fases y ejemplos Reglas de asociación Análisis de conglomerados Dados N individuos, agruparlos, de modo que individuos similares queden en la misma clase.
93 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados... entre puntos x, y R N : Distancia eucĺıdea (ponderada), N d(x, y) = i=1 ω i(x i y i ) 2 = (x y) (x y) ( N ) 1/p Distancia l p (ponderada), d(x, y) = i=1 ω i x i y i p Distancia de Mahalanobis, d(x, y) = (x y) Σ 1 (x y), con Σ : matriz de covarianzas.... Cuando estamos en R N, pero hay valores perdidos... ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) D(u) : variables conocidas de u. si D(u) D(v) c.c.
94 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
95 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
96 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
97 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
98 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
99 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...
100 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados
101 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados
102 Fases y ejemplos Reglas de asociación Análisis de conglomerados Regresión
103 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...
104 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...
105 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...
106 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...
107 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?
108 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?
109 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?
110 Sobreajuste: la palabra maldita Fases y ejemplos Reglas de asociación Análisis de conglomerados Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, )
111 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap
112 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap
113 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap
114 Datos de prueba Fases y ejemplos Reglas de asociación Análisis de conglomerados
115 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión
116 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
117 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
118 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
119 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
120 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
121 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.
122 Ejemplo. Lirios de Fisher (1936) Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión
123 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé
124 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé
125 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé
126 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario
127 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario
128 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario
129 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.
130 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.
131 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.
132 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades
133 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades
134 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades
135 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I
136 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I
137 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I
138 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I
139 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j
140 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j
141 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j
142 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j
143 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Y no es esto mucho suponer?
144 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Proyecto Elvira,
145 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Vecino más cercano
146 El vecino más cercano. Prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase elegimos prototipos de cada clase regla de clasificación: asignamos un objeto a la clase del prototipo más parecido
147 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase
148 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase
149 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase o?
150 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...
151 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...
152 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...
153 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...
154 Selección de k prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R : Conjunto de candidatos a prototipos (e.g. los de la muestra de aprendizaje) { 1, si s es seleccionado como prototipo x s = s R 0, c.c. { 1, si s : prototipo más cercano a i y is = i I, s R 0, c.c.
155 Formulación como un IP Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión min s. a i I s R r c s c i y is s R c x s 1 s R x s = k s R y is = 1 x s y is t R is x t y is x s x s {0, 1} c C i I (i, s) I R (i, s) I R s R y is [0, 1] (i, s) I R.
156 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.
157 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.
158 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher
159 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher
160 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) * MAXT * MAXT * MAXT Fisher Fisher
161 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher
162 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher
163 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher
164 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher
165 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher
166 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn
167 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn
168 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Máquinas de Vector de Apoyo
169 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1
170 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1
171 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1
172 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1
173 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =
174 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =
175 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?
176 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?
177 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?
178 Maximización del margen Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo Hiperplano de máximo margen: max min y u (ω x u + β) ω,β u I ω
179 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen
180 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen
181 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen
182 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen
183 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.
184 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.
185 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.
186 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0
187 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0
188 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,
189 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,
190 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,
191 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)
192 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)
193 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)
194 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I
195 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I
196 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I
197 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I
198 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Árboles de clasificación (y regresión)
199 CART Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión CART: metodología unificada de predicción de variables categóricas (luego apta para el caso de la clasificación) variables numéricas (y, por tanto, también utilizable en los problemas de regresión) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, nuevos problemas de clasificación y regresión, surgidos en el campo de la Minería de Datos, los que han popularizado la técnica.
200 Esquema del algoritmo Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Construcción secuencial de árbol binario mediante preguntas con respuestas sí-no En cada etapa, estudiar, para cada variable, el efecto que produciría ramificar de acuerdo a dicha variable seleccionar la variable que produzca la mayor ganancia en pureza repetir recursivamente En cada nodo terminal n del árbol, establecemos una regla de clasificación: todos los individuos que pertenezcan al nodo n serán asignados a una misma clase, ϕ(n). Lo que distinguirá a unas variantes de otras es el método utilizado para seleccionar en cada etapa la pregunta por la que ramificar el árbol (medida de pureza).
201 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?
202 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Mejor por x 1, no?
203 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Mejor por x 1, no?
204 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?
205 Índices de diversidad Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Si población está dividida en m clases, con frecuencias f 1,..., f m, definimos Entropía: Gini: DKM: m j=1 f 1/2 j... m f j log f j j=1 1 m j=1 cuanto menores sean, tanto mayor la pureza de la población f 2 j
206 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Para determinar la variable x i de ramificación a usar podemos agregar los índices I (x i = j) en un único índice I (x i ) Esto se hace tomando una media ponderada de los I (x i = j) correspondientes: I (x i ) = j N j k N I (x i = j), k donde N j es el número de individuos con x i = j.
207 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,
208 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,
209 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,
210 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión En la práctica Emilio Carrizosa, estasecarrizosa@us.es probabilidades no se pueden calcular, por Asociamos a cada árbol t su coste esperado c(t), definido como c(t) = n π(n t)c(n t), donde n es el conjunto de nodos terminales del árbol π(n t) es la probabilidad de que, en el árbol t, un individuo pertenezca al nodo final n. c(n t) es el coste esperado de clasificación incorrecta de un individuo del nodo n. Como todos los individuos del nodo n son asignados a un mismo grupo, ϕ(n), tenemos que m c(n t) = c iϕ(n) π i (n t), i=1 donde π i (n t) es la probabilidad de que un individuo del nodo n pertenezca al grupo i.
211 Poda del árbol Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, ) Desarrollar el árbol hasta el final puede producir sobreajuste Se plantea podar ramas del árbol Criterios: e.g. minimizar impureza + C número de nodos terminales
212 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión SPAM DATABASE ATTRIBUTES (in.names format) 48 continuous real [0,100] attributes of type word_freq_word = percentage of words in the that match WORD, i.e. 100 * (number of times the WORD appears in the ) / total number of words in . A "word" in this case is any string of alphanumeric characters bounded by non-alphanumeric characters or end-of-string. 6 continuous real [0,100] attributes of type char_freq_char = percentage of characters in the that match CHAR, i.e. 100 * (number of CHAR occurences) / total characters in 1 continuous real [1,...] attribute of type capital_run_length_average = average length of uninterrupted sequences of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_longest = length of longest uninterrupted sequence of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_total = sum of length of uninterrupted sequences of capital letters = total number of capital letters in the 1 nominal {0,1} class attribute of type spam = denotes whether the was considered spam (1) or not (0), i.e. unsolicited commercial . For more information, see file 'spambase.documentation' at the UCI Machine Learning Repository: ~mlearn/mlrepository.html 1, 0. spam, non-spam classes
213 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x53 < x7 < spam no spam spam
214 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Muestra de aprendizaje spam no spam es spam no es spam
215 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. x53 < x52 < x7 < spam x7 < spam no spam spam no spam spam
216 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam
217 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. x53 < x7 < 0.01 x7 < spam no spam x27 < 0.08 no spam spam spam no spam
218 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam
219 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es
220 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es
MINERIA DE DATOS Y Descubrimiento del Conocimiento
MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de
Más detallesPuede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0])
Regresión logística Puede considerarse un caso especial de l análisis de regresión en donde la variable dependiente es dicotómica («Sí» [1] o «No» [0]) Se trata de calcular la probabilidad en la que una
Más detallesProblemas de clasificación: problemas de localización
Problemas de clasificación: problemas de localización Emilio Carrizosa Facultad de Matemáticas Universidad de Sevilla ecarrizosa@us.es Belén Martín-Barragán Facultad de Matemáticas Universidad de Sevilla
Más detallesMineria de datos y su aplicación en web mining data Redes de computadores I ELO 322
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción
Más detallesMÁQUINA DE VECTORES DE SOPORTE
MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas
Más detallesOPTATIVA I: MINERIA DE DATOS
UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la
Más detalles1. DATOS DE LA ASIGNATURA
1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Curso Avanzado de Estadística Titulación: Máster en Matemáticas y aplicaciones Código Breve Descripción: El curso está centrado en dos temas relativamente
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T11: Métodos Kernel: Máquinas de vectores soporte {jdiez, juanjo} @ aic.uniovi.es Índice Funciones y métodos kernel Concepto: representación de datos Características y ventajas Funciones
Más detallesCURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.
SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es
Más detallesTrabajo final de Ingeniería
UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción
Más detallesGrupo de investigación en Minería de Datos http://mida.usal.es
Departamento de Informática y Automática Postgrado en Informática y Automática MÁSTER EN SISTEMAS INTELIGENTES ASIGNATURAS Introducción a la Minería de Datos Minería Web María N. Moreno García http://avellano.usal.es/~mmoreno
Más detallesAprendizaje Automático y Data Mining. Bloque IV DATA MINING
Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones
Más detallesCLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)
CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE
Más detallesCLASIFICACIÓN NO SUPERVISADA
CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL
Más detallesVisión global del KDD
Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento
Más detallesIntroducción a la Minería de Datos
Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de
Más detallesRedes de Kohonen y la Determinación Genética de las Clases
Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados
Más detallesPROCEDIMIENTO HEURÍSTICO PARA MINIMIZAR EL C max EN CELDAS ROBOTIZADAS CON BUFFERS FINITOS Y PIEZAS DISTINTAS
27 Congreso Nacional de Estadística e Investigación Operativa Lleida, 8 11 de abril de 2003 PROCEDIMIENTO HEURÍSTICO PARA MINIMIZAR EL C max EN CELDAS ROBOTIZADAS CON BUFFERS FINITOS Y PIEZAS DISTINTAS
Más detallesAprendizaje Computacional. Eduardo Morales y Jesús González
Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas
Más detallesMinera de datos aplicada a la detección de Cáncer de Mama
Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid
Más detallesDES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:
: : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.
Más detallesComparación de métodos de clasificación aplicados a textos Científicos y No Científicos
I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among
Más detallesCovarianza y coeficiente de correlación
Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también
Más detallesAnálisis de componentes principales
Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los
Más detallesGeneración de números aleatorios
Generación de números aleatorios Marcos García González (h[e]rtz) Verano 2004 Documento facilitado por la realización de la asignatura Métodos informáticos de la física de segundo curso en la universidad
Más detallesArtículos de Minería de Datos de Dataprix Introducción a la minería de datos
Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería
Más detallesVENTAS EFECTIVAS EN UN CALL CENTER CON INTERVALOS DE CONFIANZA
1 VENTAS EFECTIVAS EN UN CALL CENTER CON INTERVALOS DE CONFIANZA FERNANDA ORTIZ H. DIEGO RODRIGUEZ FACULTAD DE CIENCIAS CONTABLE Y EMPRESARIALES RESUMEN Las llamadas telefónicas en centros de Call Center
Más detalles1.1. Introducción y conceptos básicos
Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................
Más detallesEvaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial
Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es
Más detallesCredit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)
Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le
Más detallesSOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE TRANSPORTE Y ASIGNACION.
UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INGENIERÍA DE LA PRODUCCIÓN INGENIERÍA INDUSTRIAL SOLUCION DE MODELOS DE PROGRAMACION LINEAL EN UNA HOJA DE CALCULO. PROBLEMAS DE
Más detallesSupport Vector Machines
Support Vector Machines Separadores lineales Clasificacion binaria puede ser vista como la tarea de separar clases en el espacio de caracteristicas w T x + b > 0 w T x + b = 0 w T x + b < 0 f(x) = sign(w
Más detalles8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...
Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación
Más detallesMinería de Datos. Presentación de la asignatura. Fac. Ciencias Ing. Informática Otoño de 2012. Dept. Matesco, Universidad de Cantabria
Minería de Datos Presentación de la asignatura Cristina Tîrnăucă Dept. Matesco, Universidad de Cantabria Fac. Ciencias Ing. Informática Otoño de 2012 Cuestiones Factuales De índole práctica Personal e
Más detallesIDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN
IDENTIFICACIÓN DE SISTEMAS ASPECTOS PRÁCTICOS EN IDENTIFICACIÓN Ing. Fredy Ruiz Ph.D. ruizf@javeriana.edu.co Maestría en Ingeniería Electrónica Pontificia Universidad Javeriana 2013 CONSIDERACIONES PRÁCTICAS
Más detallesInteligencia de Negocio
UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:
Más detallesIngeniería en Informática
Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se
Más detallesUn programa entero de dos variables. 15.053 Jueves, 4 de abril. La región factible. Por qué programación entera? Variables 0-1
15.053 Jueves, 4 de abril Un programa entero de dos variables Introducción a la programación entera Modelos de programación entera Handouts: material de clase maximizar 3x + 4y sujeto a 5x + 8y 24 x, y
Más detallesMáster Universitario en Modelización e Investigación Matemática, Estadística y Computación
5.5.1. Denominación: Introducción a la Minería de Datos 5.5.2. Breve Descripción del Contenido: Introducción a la minería de datos. Aprendizaje supervisado, modelos no paramétricos y modelos generalizados
Más detallesNaive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases
Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive
Más detallesCOMUNICADO Nro. 49763 08/11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de 2010. Tarjetas de Crédito
"2010 - AÑO DEL BICENTENARIO DE LA REVOLUCION DE MAYO" COMUNICADO Nro. 49763 08/11/2010 Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de 2010. Tarjetas de Crédito
Más detallesSistemas de Recuperación de Información
Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La
Más detallesCurso del Data Mining al Big Data
Curso del Data Mining al Big Data Instructor: Dr. Luis Carlos Molina Félix Presentación. Las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento y
Más detallesMATLAB en 30 minutos
MATLAB en 30 minutos Rafael Collantes. Octubre 200. Introducción MATLAB nació como un programa para cálculo matricial, pero en la actualidad MATLAB es un sistema que permite no solamente realizar todo
Más detallesMANUAL EASYCHAIR. A) Ingresar su nombre de usuario y password, si ya tiene una cuenta registrada Ó
MANUAL EASYCHAIR La URL para enviar su propuesta a la convocatoria es: https://easychair.org/conferences/?conf=genconciencia2015 Donde aparece la siguiente pantalla: Se encuentran dos opciones: A) Ingresar
Más detallesRecuperación de Información en Internet Tema 3: Principios de Recuperación de Información
Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad
Más detallesIntroducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina
Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera
Más detallesUNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO
UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO OBJETIVO GENERAL El curso es de un nivel matemático intermedio y tiene
Más detallesMANUAL EASYCHAIR. https://www.easychair.org/account/signin.cgi?conf=cnicc2013
MANUAL EASYCHAIR La URL para enviar su artículo al congreso es: https://www.easychair.org/account/signin.cgi?conf=cnicc2013 Donde aparece la siguiente pantalla: En este punto hay dos opciones: A) Teclear
Más detallesAnálisis Estadístico de Datos Climáticos
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación
Más detallesFundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos
Más detallesContratación e Integración de Personal
Contratación e Integración de Personal Bizagi Suite Contratación e Integración de Personal 1 Tabla de Contenido Contratación e Integración... 2 Elementos del proceso... 5 Viene de Selección y Reclutamiento?...
Más detallesTEMA 7: Análisis de la Capacidad del Proceso
TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad
Más detallesMétodo k-medias. [ U n a i n t r o d u c c i ó n ]
Método k-medias [ U n a i n t r o d u c c i ó n ] Método K-Means (Nubes Dinámicas) 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6
Más detalles320514 - APTM - Análisis de Procesos Textiles y de Mercados
Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2015 320 - EET - Escuela de Ingeniería de Terrassa 714 - ETP - Departamento de Ingeniería Textil y Papelera MÁSTER UNIVERSITARIO
Más detallesANÁLISIS DISCRIMINANTE
ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente
Más detallesProgramación Lineal Entera
Programación Lineal Entera Los modelos de programación entera son una extensión de los modelos lineales en los que algunas variables toman valores enteros. Con frecuencia las variables enteras sólo toman
Más detalles5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA
5: LA FUNCIÓN PRODUCTIVA DE LA EMPRESA 1. EL ÁREA DE PRODUCCIÓN DE LA EMPRESA: PRODUCIR: consiste en incrementar la utilidad de los bienes para satisfacer necesidades humanas. Ello implica realizar todas
Más detallesPruebas de Acceso a las Universidades de Castilla y León
Pruebas de Acceso a las Universidades de Castilla y León MATEMÁTICA APLICADA A LA CIENCIA OCIALE EJERCICIO Nº páginas 2 Tablas OPTATIVIDAD: EL ALUMNO DEBERÁ ECOGER UNA DE LA DO OPCIONE Y DEARROLLAR LA
Más detallesMAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES
MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Learning Vector Quantization.
Más detallesParte I: Introducción
Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one
Más detallesDirecciones IP y máscaras de red
También en este nivel tenemos una serie de protocolos que se encargan de la resolución de direcciones: ARP (Address Resolution Protocol): cuando una maquina desea ponerse en contacto con otra conoce su
Más detallesDefinición 2.1.1. Se llama suceso aleatorio a cualquier subconjunto del espacio muestral.
Capítulo 2 Probabilidades 2. Definición y propiedades Al realizar un experimento aleatorio nuestro interés es obtener información sobre las leyes que rigen el fenómeno sometido a estudio. El punto de partida
Más detallesTEMA 4: Introducción al Control Estadístico de Procesos
TEMA 4: Introducción al Control Estadístico de Procesos 1 Introducción 2 Base estadística del diagrama de control 3 Muestreo y agrupación de datos 4 Análisis de patrones en diagramas de control 1. Introducción
Más detallesCAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de
CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.
Más detallesCurso Superior. Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS
Curso Superior Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS Índice Curso Superior en Estadística Aplicada. Análisis de Datos y SPSS 1. Sobre Inesem 2. Curso Superior en Estadística
Más detallesTema 7. Introducción al reconocimiento de objetos
Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción
Más detallesIngeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?
Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento
Más detallesMÁQUINAS DE VECTORES DE SOPORTE
MÁQUINAS DE VECTORES DE SOPORTE Introducción Se tiene información de N individuos codificada de la forma Las variables X son vectores que reúnen información numérica del individuo, las variables Y indican
Más detallesValidation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación
Validation Validación Psicométrica L art de l évaluation Validation Central Test Central Test Centraltest L art de l évaluation CENTRAL test.com El arte de la evaluación www.centraltest.com Propiedades
Más detalles2 Resolución de algunos ejemplos y ejercicios del tema 2.
INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE. 8 2 Resolución de algunos ejemplos y ejercicios del tema 2. 2.1 Ejemplos. Ejemplo 13 La siguiente tabla de frecuencias absolutas corresponde a 200 observaciones
Más detallesAnálisis de los datos
Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización
Más detallesESTIMACIÓN. puntual y por intervalo
ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio
Más detallesTEMA 1. Introducción
TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático
Más detallesGestión de Redes IP. Presentación realizada por: Ing. Pablo Borrelli. Gestión de Redes IP 1
Gestión de Redes IP Lugar: Sala de I.T.I. (Instituto Tecnológico de Informática) Presentación realizada por: Ing. Pablo Borrelli Gestión de Redes IP 1 Presentación e introducción. Gestión de la Red de
Más detallesIntroducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento
Más detallesSección Tutoriales en PDF. Hosting COMO Y POR QUÉ TENER UNA IP PRIVADA EN GVO
Sección Tutoriales en PDF Hosting COMO Y POR QUÉ TENER UNA IP PRIVADA EN GVO Qué es una IP IP = Internet Protocol En términos sencillos IP es una dirección con que en la web (www) se identifica a cada
Más detallesCómo se usa Data Mining hoy?
Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta
Más detallesTema 8: Análisis Discriminante. Clasificación. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. Análisis discriminante
Aurea Grané. Máster en Estadística. Universidade Pedagógica. 1 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 2 Análisis discriminante Tema 8: Análisis Discriminante y Clasificación Aurea
Más detallesPruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León
Pruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES EJECICIO Nº Páginas OPTATIVIDAD: EL ALUMNO DEBEÁ ESCOGE UNA DE LAS DOS OPCIONES
Más detallesIndicaciones específicas para los análisis estadísticos.
Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por
Más detallesInteligencia aplicada a la protección de infraestructuras
Inteligencia aplicada a la protección de infraestructuras En la última década, la mayor conciencia sobre las amenazas potenciales hacia la seguridad sobre las personas y las infraestructuras han hecho
Más detallesClasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco
Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a
Más detallesCapítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.
Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por
Más detallesTitulación: GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS. Asignatura: ECO Análisis avanzado de datos. Semestre: Primero.
Titulación: GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Asignatura: ECO Análisis avanzado de datos Semestre: Primero Econometría [1] Asignatura: ECO Análisis avanzadas de datos Formación: Obligatoria
Más detallesData Mining Técnicas y herramientas
Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos
Más detallesÁrea Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas
Área Académica: Sistemas Computacionales Tema: Arquitectura de un sistema de almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacen de Datos, Datawarehouse,
Más detallesLa inteligencia de marketing que desarrolla el conocimiento
La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece
Más detalles1.1 EL ESTUDIO TÉCNICO
1.1 EL ESTUDIO TÉCNICO 1.1.1 Definición Un estudio técnico permite proponer y analizar las diferentes opciones tecnológicas para producir los bienes o servicios que se requieren, lo que además admite verificar
Más detallesFramework basado en Colonias de Hormigas artificiales para la resolución de problemas de optimización
Universidad Central de Venezuela Facultad de Ciencias Escuela de Computación Laboratorio de Inteligencia Artificial Framework basado en Colonias de Hormigas artificiales para la resolución de problemas
Más detallesTema 3. Medidas de tendencia central. 3.1. Introducción. Contenido
Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6
Más detallesCORRELACIONES CON SPSS
ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta
Más detallesAlgoritmos Genéticos Y
Algoritmos Genéticos Y Optimización n Heurística Dr. Adrian Will Grupo de Aplicaciones de Inteligencia Artificial Universidad Nacional de Tucumán awill@herrera.unt.edu.ar Optimización n Tradicional Problemas
Más detallesPROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso
PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal
Más detallesINTELIGENCIA DE NEGOCIO 2014-2015
INTELIGENCIA DE NEGOCIO 2014-2015 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos Tema 4. Modelos de Predicción: Clasificación, regresión
Más detallesPREPROCESADO DE DATOS PARA MINERIA DE DATOS
Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado
Más detallesPruebas de Acceso a las Universidades de Castilla y León
Pruebas de cceso a las Universidades de Castilla y León MTEMÁTICS PLICDS LS CIENCIS SOCILES EJERCICIO Nº páginas 2 Tablas OPTTIVIDD: EL LUMNO DEBERÁ ESCOGER UN DE LS DOS OPCIONES Y DESRROLLR LS PREGUNTS
Más detallesContenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS
Contenido: CARTAS DE CONTROL Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS TEST DE MEDIANAS CEL: 72488950 1 Antes de querer utilizar cualquier
Más detalles