Análisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores

Documentos relacionados
PRÁCTICA I. Ejercicios Teóricos

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Sistemas de Reconocimiento de Patrones

Análisis de Datos. Teoría de decisión Bayesiana. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje Automático

Análisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores

Repaso de Estadística

Análisis multivariante II

Clasificación estadística de patrones

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Estimación de distribuciones desconocidas: métodos no paramétricos. Profesor: Dr. Wilfrido Gómez Flores

Examen de Teoría de (Introducción al) Reconocimiento de Formas

Clasificación. Aurea Grané. Análisis Discriminante

Elementos de máquinas de vectores de soporte

Estadística II Tema 1: Distribución normal multivariante

Análisis de Datos. Red de función de base radial. Profesor: Dr. Wilfrido Gómez Flores

METODOS ESTADÍSTICOS

Distribuciones multivariadas

Bases estadísticas del reconocimiento de patrones

Repaso de conceptos de álgebra lineal

TEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES. Variable aleatoria (Real)

Distribución Gaussiana Multivariable

Estadística. Tema 2. Variables Aleatorias Funciones de distribución y probabilidad Ejemplos distribuciones discretas y continuas

Prof. Eliana Guzmán U. Semestre A-2015

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.

Tema 3 Normalidad multivariante

Tema 9. Análisis factorial discriminante

Análisis de imágenes digitales

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Support Vector Machines

Capítulo 5: Probabilidad e inferencia

Análisis de Datos. Métodos de mínimos cuadrados. Profesor: Dr. Wilfrido Gómez Flores

Métodos Estadísticos Multivariados

Material introductorio

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

CLASIFICACIÓN AFÍN DE CÓNICAS

Sistemas de Percepción Visión por Computador

Introducción. Existen dos aproximaciones para resolver el problema de clasificación: Aproximación Generativa (vista en el Tema 3) Basada en:

Teoría Moderna de Decisión y Estimación, Notas Introductorias: Cálculo de probabilidades y

Univ. Michoacana de San Nicolas de Hgo. Facultad de Ingeniería Eléctrica División de estudios de Postgrado Maestría y Doctorado en Ciencias en Ing

Métodos de Inteligencia Artificial

Introducción. Distribución Gaussiana. Procesos Gaussianos. Eduardo Morales INAOE (INAOE) 1 / 47

Tema 8. Fundamentos de Análisis discriminante

Ejercicio 1. Ejercicio 2

Clase 3: Vectores gaussianos *

Tema 5. Variables Aleatorias Conjuntas.

Repaso de Teoría de la Probabilidad

Probabilidad y Estadística

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones

Clasificación Supervisada

Resumen de Probabilidad

Análisis de imágenes digitales

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Estadística I Tema 5: Modelos probabiĺısticos

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

TEMA 2.- VARIABLES ALEATORIAS UNIDIMENSIONALES.- CURSO 17/18

ANALISIS FACTORIAL. Jorge Galbiati R.

Estadísticas y distribuciones de muestreo

Distribuciones de probabilidad bidimensionales o conjuntas

TÉCNICAS DE AGRUPAMIENTO

DISTRIBUCIONES MULTIDIMENSIONALES DE PROBABILIDAD

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Cálculo de probabilidad. Tema 3: Variables aleatorias continuas

Tema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM)

VARIABLES ALEATORIAS CONTINUAS

Tema 6: Distribuciones Multivariantes

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Variables Aleatorias y Distribución de Probabilidades

Eigenvalores y eigenvectores

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

Técnicas Cuantitativas para el Management y los Negocios I

Econometría 1. Karoll GOMEZ Segundo semestre 2017

VARIABLES ALEATORIAS CONTINUAS

ANÁLISIS DE DATOS. Jesús García Herrero

Vectores Aleatorios. Vectores Aleatorios. Vectores Discretos. Vectores Aleatorios Continuos

Repaso de álgebra de matrices y probabilidad. Javier Santibáñez (IIMAS, UNAM) Regresión Semestre / 58

Reconocimiento e Interpretación

Reconocimiento de Patrones

Estadística Descriptiva y Probabilidad FORMULARIO

1º BACHILLERATO HUMANIDADES Y CIENCIAS SOCIALES MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I PENDIENTES

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

Definición Se dice que una variable aleatoria X es continua si su conjunto de posibles valores es todo un intervalo (finito o infinito) de números

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

Ejemplos de funciones de covarianza

Introducción al Diseño de Experimentos.

Ruido en los sistemas de comunicaciones

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Probabilidad y Estadística

UTILIDAD RELATIVA DE UN SISTEMA DE MEDICIÓN

Mínimos cuadrados generalizados y máxima verosimilitud

Transcripción:

Análisis de Datos Clasificación Bayesiana para distribuciones normales Profesor: Dr. Wilfrido Gómez Flores 1

Funciones discriminantes Una forma útil de representar clasificadores de patrones es a través de funciones discriminantes g i (x, i=1,,c, donde el clasificador asigna a un vector de características x la clase ω i si g i (x > g j (x, i j (1 El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante más grande. Acción Clasificación Riesgos Funciones discriminantes... g 1 (x g 2 (x g C (x Entrada... x 1 x 2 x 3 x D 2

Funciones discriminantes Para el caso de un clasificador que minimiza la tasa de error de clasificación se tiene g i (x p(ω i x = C j =1 p(x ω i p(ω i p(x ω j p(ω j y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe como: g i (x p(ω i x = p(x ω i p(ω i donde p(x ω i es la función de verosimilitud y expresa qué tan probable son los datos observados dada la clase ω i. De acuerdo a la definición en (3, el teorema de Bayes se define de manera informal como: (2 (3 posterior verosimilitud prior (4 3

Funciones discriminantes Las funciones discriminantes dividen el espacio de características en C regiones de decisión (R 1,, R C, separadas por fronteras de decisión. p(x ω 1 p(ω 1 p(x ω 2 p(ω 2 R 1 R R 2 2 Frontera de decisión 4

Funciones discriminantes En la práctica, es más conveniente maximizar el logaritmo de la función de verosimilitud, lo cual simplifica el análisis matemático. Debido a que el logaritmo es una función monótonamente creciente en su argumento, maximizar el logaritmo de una función es equivalente a maximizar la misma función original. Por tanto, el logaritmo de la función discriminante en (3 se expresa como: para i=1,,c. g i (x = ln { p(x ω i p(ω i } = ln p(x ω i + ln p(ω i (5 5

Funciones discriminantes En el caso especial de dos clases, en lugar de usar dos funciones discriminantes g 1 y g 2 y asignar x a ω 1 si g 1 >g 2, es más común definir una sola frontera de decisión g(x g 1 (x g 2 (x y se usa la regla de decisión: clasificar ω 1 si g(x>0. (6 La función discriminante que minimiza la tasa de error de clasificación se escribe como g(x = p(ω 1 x p(ω 2 x (7 y en términos de la función logaritmo: g(x = ln p(x ω 1 p(x ω 2 + ln p(ω 1 p(ω 2 (8 6

Distribución Gaussiana univariante La distribución Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo. Para el caso xxxxx x 2 R: p(x = N (x µ,σ 2 = 1 1 exp (2πσ 2 1/2 (x µ2 2 2σ (9 la cual es gobernada por dos parámetros: µ, llamada la media, y σ 2, llamada la varianza. La raíz cuadrada de la varianza, dada por σ, es llamada la desviación estándar, y el recíproco de la varianza, escrito como β=1/σ 2, es llamada la precisión. 7

Distribución Gaussiana univariante N (x µ,σ 2 σ 2.5% 2.5% µ 2σ µ σ µ µ + σ µ + 2σ La distribución normal univariante tiene aproximadamente 95% de su área en el rango x µ 2σ. x 8

Distribución Gaussiana univariante La distribución Gaussiana en (9 satisface N (x µ, σ 2 > 0. También, la distribución Gaussiana está normalizada tal que: N (x µ,σ 2 dx = 1 (10 El valor esperado de x bajo la distribución Gaussiana, también llamado el promedio, está dado por: E[x] = N (x µ,σ 2 x dx = µ (11 De manera similar, el momento de segundo orden se define como: E[x 2 ] = N (x µ,σ 2 x 2 dx = µ 2 + σ 2 (12 A partir de (11 y (12 se obtiene la varianza de x, también conocido como momento centralizado de segundo orden: var[x] = E[x 2 ] E[x] 2 = σ 2 (13 9

Teorema del límite central La distribución Gaussiana sigue el teorema del límite central (TLC. Este teorema describe las características de la población de medias creada a partir de las medias de un número infinito de muestras de tamaño N tomadas aleatoriamente de una población padre. El TLC establece que independientemente de la distribución de la población padre: La media de la población de medias es siempre igual a la media de la población padre de donde fueron tomadas las muestras. La varianza de la población de medias es siempre igual a la varianza de la población padre dividida por el tamaño de la muestra N. La distribución de las medias se aproxima a una distribución normal cuando el tamaño de la muestra N. 10

Distribución Gaussiana multivariante Para el caso x 2 R D : p(x = N (x µ, Σ 1 = exp 1 (2π D 2 Σ 1 2 2 (x µt Σ 1 (x µ (14 donde el vector D-dimensional µ es la media y se define como: µ E[x] = N (x µ, Σxdx (15 y la matriz de covarianza Σ de tamaño D D se define como: Σ E[(x µ(x µ T ] = (x µ(x µ T dx (16 11

Distribución Gaussiana multivariante El vector de medias contiene la media de cada variable. Características de la matriz de covarianza: La matriz de covarianza siempre es simétrica y semidefinida positiva, y su determinante debe ser estrictamente positivo. Los elementos de la diagonal σ ii son las varianzas de sus respectivas variables x i. Los elementos fuera de la diagonal σij son las covarianzas de las variables x i y x j. Si xi y x j son estadísticamente independientes, entonces σ ij =0. 12

Distribución Gaussiana multivariante p(x p(x p(x p(x x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 1 σ 11 = σ 22 y σ 12 = σ 21 = 0 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 σ 21 0 x 1 13

Distribución Gaussiana multivariante Si x i es la i-ésima componente de x, µ i el i-ésimo componente de µ, y σ ij el ij-ésimo componente de Σ entonces: µ i = E[x i ] y σ ij = E[(x i µ i (x j µ j ] (17 x 2 µ x 1 Muestras tomadas de una distribución Gaussiana bidimensional caen en una nube centrada en µ, cuya forma está determinada por Σ. La posición de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a µ es constante. 14

Funciones discriminantes para la distribución Gaussiana El clasificador Bayesiano describe la distribución de los datos en cada una de las clases mediante funciones de verosimilitud p(x ω i, i=1,,c, las cuales son distribuciones Gaussianas multivariantes: p(x ω i 1 exp 1 (2π D 2 1 2 Σ 2 (x µ i T Σ 1 i (x µ i i (18 Sustituyendo (18 en (5 se tiene la función discriminante: g i (x = 1 2 (x µ i T Σ i 1 (x µ i D 2 ln 2π 1 2 ln Σ i + ln p(ω i (19 Diferentes casos especiales de la función discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada. 15

Caso 1: Σ i =σ 2 I El caso más simple ocurre cuando las características son estadísticamente independientes con varianzas iguales para todas las clases. La función discriminante en (19 se reescribe como: g i (x = 1 2 (x µ i T (σ 2 I 1 (x µ i + ln p(ω i = 1 2σ 2 (x µ i T (x µ i + ln p(ω i (20 Expandiendo la forma cuadrática (x µ T (x µ se tiene: g i (x = 1 2σ 2 [xt x 2µ T i x + µ it µ i ] + ln p(ω i (21 16

Caso 1: Σ i =σ 2 I Eliminando el término cuadrático x T x en (21, el cual es independiente de i, se obtiene la función discriminante lineal: g i (x = w i T x + w i0 (22 donde w i = 1 σ 2 µ i (23 y el umbral o bias para la i-ésima clase es w i0 = 1 2σ µ T 2 i µ i + ln p(ω i (24 Un clasificador que utiliza funciones discriminantes lineales se le conoce como máquina lineal. 17

Caso 1: Σ i =σ 2 I Las fronteras de decisión de una máquina lineal son los hiperplanos g i (x=g j (x para dos clases con las probabilidades posteriores más altas y pueden ser escritos como: donde w T (x x 0 = 0 (25 y w = µ i µ j (26 x 0 = 1 2 (µ i + µ j σ 2 ln p(ω i 2 µ i µ p(ω j (µ i µ j (27 j El hiperplano pasa a través del punto x 0 y es ortogonal al vector w. 18

Caso 1: Σ i =σ 2 I p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 p(ω 2 = 0.5 ω 1 ω 2 R 1 p(ω 1 = 0.5 x R 2 p(ω 1 = 0.5 R 2 p(ω 2 = 0.5 R 1 p(ω 2 = 0.5 p(ω 1 = 0.5 p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 ω 1 p(ω 2 = 0.2 x p(ω 2 = 0.2 p(ω 1 = 0.8 ω 2 R 1 p(ω 1 = 0.7 R 2 p(ω 2 = 0.3 p(ω 1 = 0.8 R 1 R 2 Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esféricas en D dimensiones y la frontera es un hiperplano en D 1. 19

Caso 1: Σ i =σ 2 I El caso especial cuando p(ω i es igual para i=1,,c se tiene el clasificador de mínima distancia: g i (x = 1 2σ 2 (x µ i T (x µ i (28 Además, si σ=1, entonces se tiene el clasificador de mínima distancia Euclidiana que usa la regla de decisión Asignar x a ω i * donde i * = arg min i=1,,c donde la norma Euclidiana cuadrada es: x µ i 2 (29 x µ i 2 = (x µi T (x µ i (30 20

Caso 2: Σ i =Σ Las matrices de covarianza para todas las clases son idénticas y arbitrarias. Esta simplificación deriva en la función discriminante: g i (x = 1 2 (x µ i T Σ 1 (x µ i + ln p(ω i (31 Expandiendo la forma cuadrática (x µ T Σ 1 (x µ se tiene: g i (x = 1 2 (xt Σ 1 x 2µ i T Σ 1 x + µ i T Σ 1 µ i + ln p(ω i (32 Eliminando el término cuadrático x T Σ 1 x, el cual es independiente de i, se tiene: g i (x = µ T i Σ 1 x 1 2 µ T i Σ 1 µ i + ln p(ω i (33 21

Caso 2: Σ i =Σ Reescribiendo la función discriminante en (33 se obtiene una vez más la función discriminante lineal: g i (x = w i T x + w i0 (34 donde w i = Σ 1 µ i y w i0 = 1 2 µ i T Σ 1 µ i + ln p(ω i (35 Las fronteras de decisión se escriben como: w T (x x 0 = 0 donde w = Σ 1 (µ i µ j y x 0 = 1 2 (µ ln[p(ω i + µ j i p(ω j ] (µ i µ j T Σ 1 (µ i µ j (µ i µ j (36 (37 (38 El hiperplano pasa a través del punto x 0 aunque no es necesariamente ortogonal a la línea entre las medias. 22

Caso 2: Σ i =Σ ω 2 ω 1 ω 2 ω 1 p(ω 2 = 0.5 R 2 R 1 R 1 p(ω1 = 0.5 R 2 p(ω 2 = 0.9 p(ω 1 = 0.1 R 1 R 1 p(ω 1 = 0.5 R 2 R 2 p(ω 1 = 0.1 ω 2 p(ω 2 = 0.5 ω 2 p(ω 2 = 0.9 Distribuciones de probabilidades Gaussianas y sus fronteras de decisión. 23

Caso 2: Σ i =Σ Si las probabilidades a priori p(ω i son las mismas para todas las clases, entonces el segundo término en (31 puede eliminarse. En este caso, se tiene el clasificador de mínima distancia Mahalanobis que usa la regla de decisión: Asignar x a ω i * donde i * = arg min{ [(x µ i T Σ 1 (x µ i ] 1 2 } (39 i=1,,c La elipse azul representa una línea de puntos equidistantes en términos de la distancia Mahalanobis. x 2 x 1 Los puntos verdes tienen la misma distancia Mahalanobis al centro, sin embargo, en términos de la distancia Euclidiana las distancias son diferentes (círculos rojos. 24

Caso 3: Σ i Σ j En el caso general, las matrices de covarianza son diferentes para cada clase, resultando en la función discriminante cuadrática: donde g i (x = x T W i x + w i T x + w i0 (40 W i = 1 2 Σ i 1 w i = Σ i 1 µ i w i0 = 1 2 µ i T Σ i 1 µ i 1 2 ln Σ i + ln p(ω i (41 (42 (43 Las superficies de decisión son hipercuadráticas y pueden tener las siguientes formas: hiperplanos, pares de hiperplanos, hiperesferas, hiperelipsoides e hiperparaboloides. 25

Caso 3: Σ i Σ j p(x ω i ω 2 ω 1 x R 3 R 2 R 4 R 1 R 2 R 1 R 1 Regiones de decisión no conectadas para una misma clase pueden generarse en una dimensión para Gaussianas que tienen varianzas diferentes. Regiones de decisión para cuatro distribuciones normales. Aún teniendo un bajo número de clases, las fronteras de decisión pueden tener formas complejas. 26

Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas bidimensionales que generan fronteras de decisión hipercuadráticas. 27

Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas tridimensionales que generan fronteras de decisión hipercuadráticas. 28

Clasificador naive-bayes De acuerdo al TLC, para tener una buena estimación de la función de densidad Gaussiana se requiere que el número de patrones sea los suficientemente grande (N. Si se requieren N patrones de entrenamiento para estimar una densidad Gaussiana univariante, entonces se necesitarían N D muestras para un espacio D-dimensional (ver Apéndice. Entonces, a medida que aumenta N y D, el cómputo de la función g(x se vuelve más costoso: g(x = 1! 2 (x µ O(ND! T Σ 1 O(ND 3 (x µ D 2 O(1!" # $# O(D 3!"# ln 2π 1 2 ln Σ O(N!" # $# + ln p(ω Además, previamente se debe computar la matriz de covarianza cuya complejidad es xxxxxxxx. O(ND 2 29

Clasificador naive-bayes Una forma de reducir la complejidad computacional es asumir independencia estadística entre las características, de modo que su probabilidad conjunta se expresa como: D p(x ω i = p(x j ω i, i = 1,,C (44 j =1 Bajo este escenario, estimar las D funciones de densidad unidimensionales para cada clase requiere de DN muestras para obtener una buena estimación en vez de N D. Esto deriva en el clasificador denominado naive-bayes, cuya regla de decisión es: D ω* = arg max ω i p(ω i p(x j ω i, i = 1,,C j =1 = arg max ω i p(ω i D j =1 1 2 2πσ i,j exp 1 2 2σ (x µ j i,j 2 i,j (45 (46 30

Clasificador naive-bayes Clasificador Euclidiano Clasificador Cuadrático Clasificador naive-bayes Distribuciones de probabilidad Gaussianas para diferentes clasificadores entrenados con el mismo conjunto de datos con tres clases y dos características. 31

Probabilidad de error Considerando el caso de clasificación binaria, supóngase que un clasificador dividió el espacio en dos regiones R 1 y R 2 de una manera no óptima (x*. El error de clasificación ocurre cuando x cae en R 2 y su estado de naturaleza es ω 1 o viceversa. La probabilidad de error es: p(error = p(x ω 2 p(ω 2 dx + p(x ω 1 p(ω 1 dx R 1 (47 R 2 p(x ω i P(ω i ω 1 Error reducible ω 2 R 1 x Bayes x * R 2 x 32

Probabilidad de error En el caso multiclase, la probabilidad de aciertos: p(correcto = C p(x ω i p(ω i dx (48 i=1 R i Una manera de calcular la similitud entre dos distribuciones de probabilidad Gaussianas es mediante la distancia Bhattacharyya: D B = 1 8 (µ 2 µ 1 T! Σ 1 (µ 2 µ 1 + 1 2 ln! Σ Σ 1 Σ 2 (49 donde!σ = (Σ 1 + Σ 2 2. Entonces, el límite superior de Bhattacharyya sobre el error es: p(error p(ω 1 p(ω 2 e D B (50 33

Ejemplo Calcular la frontera de decisión y el límite de Bhattacharyya para el siguiente conjunto de datos bidimensional con dos clases equiprobables. µ 1 µ 2 ω 1 ω 2 Los parámetros de las distribuciones son: µ 1 = µ 2 = 3 6 3 2 ; 1 = ; 2 = 1 2 0 0 2 2 0 0 2 y Las matrices inversas son entonces: 1 1 = 2 0 0 1 2 y 1 2 = 1 2 0 0 1 2 Sustituyendo en las Ecuaciones 40-43 y haciendo g 1 (x=g 2 (x la frontera de decisión es: x 2 = 3.5142 1.125x 1 + 0.1875x 1 2 De acuerdo con las ecuaciones 49 y 50, el límite de Bhattacharyya es: p(error 0.008191 34

Apéndice La maldición de la dimensionalidad es un concepto que se refiere a los problemas asociados con el análisis multivariante de datos conforme la dimensionalidad incrementa. Considérese el problema de clasificación de tres clases, donde el espacio de características es dividido en segmentos uniformemente separados, de modo que un patrón arbitrario es clasificado en la clase predominante de un segmento específico. 1. Considerando una única característica y dividiendo el espacio en tres segmentos: se observa que existe mucho traslape entre las clases, por lo que se incorpora una nueva característica. x 1 35

Apéndice 2. Si se preserva la granularidad de cada eje, el número de segmentos aumenta de 3 (en 1D a 3 2 =9 (en 2D. En relación a la cantidad de patrones habrá que decidir: a. si se mantiene la densidad de patrones, la cantidad de muestras aumenta de 9 (en 1D a 27 (en 2D; ó b. si se mantiene el número de patrones se genera mucha dispersión. x 2 Densidad constante x 2 Número de muestras constante x 1 x 1 36

Apéndice 3. Aumentando a tres características el problema se vuelve más complejo, ya que el número de segmentos aumenta a 3 3 =27; si se mantiene la densidad el número de muestras aumenta a 81; si se mantiene la cantidad de patrones el espacio de características estará casi vacío. x 3 x 1 x 2 37