Análisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores
|
|
- Magdalena Ponce Palma
- hace 5 años
- Vistas:
Transcripción
1 Análisis de Datos Clasificación Bayesiana para distribuciones normales Profesor: Dr. Wilfrido Gómez Flores 1
2 Funciones discriminantes Una forma útil de representar clasificadores de patrones es a través de funciones discriminantes g i (x, i=1,,c, donde el clasificador asigna a un vector de características x la clase ω i si g i (x > g j (x, i j (1 El clasificador es una red que computa C funciones discriminantes y selecciona la clase que obtiene al discriminante más grande. Acción Clasificación Riesgos Funciones discriminantes... g 1 (x g 2 (x g C (x Entrada... x 1 x 2 x 3 x D 2
3 Funciones discriminantes Para el caso de un clasificador que minimiza la tasa de error de clasificación se tiene g i (x p(ω i x = C j =1 p(x ω i p(ω i p(x ω j p(ω j y quitando el término de normalización, el cual es común a las C funciones discriminantes, se reescribe como: g i (x p(ω i x = p(x ω i p(ω i donde p(x ω i es la función de verosimilitud y expresa qué tan probable son los datos observados dada la clase ω i. De acuerdo a la definición en (3, el teorema de Bayes se define de manera informal como: (2 (3 posterior verosimilitud prior (4 3
4 Funciones discriminantes Las funciones discriminantes dividen el espacio de características en C regiones de decisión (R 1,, R C, separadas por fronteras de decisión. p(x ω 1 p(ω 1 p(x ω 2 p(ω 2 R 1 R R 2 2 Frontera de decisión 4
5 Funciones discriminantes En la práctica, es más conveniente maximizar el logaritmo de la función de verosimilitud, lo cual simplifica el análisis matemático. Debido a que el logaritmo es una función monótonamente creciente en su argumento, maximizar el logaritmo de una función es equivalente a maximizar la misma función original. Por tanto, el logaritmo de la función discriminante en (3 se expresa como: para i=1,,c. g i (x = ln { p(x ω i p(ω i } = ln p(x ω i + ln p(ω i (5 5
6 Funciones discriminantes En el caso especial de dos clases, en lugar de usar dos funciones discriminantes g 1 y g 2 y asignar x a ω 1 si g 1 >g 2, es más común definir una sola frontera de decisión g(x g 1 (x g 2 (x y se usa la regla de decisión: clasificar ω 1 si g(x>0. (6 La función discriminante que minimiza la tasa de error de clasificación se escribe como g(x = p(ω 1 x p(ω 2 x (7 y en términos de la función logaritmo: g(x = ln p(x ω 1 p(x ω 2 + ln p(ω 1 p(ω 2 (8 6
7 Distribución Gaussiana univariante La distribución Gaussiana es ampliamente utilizada para modelar vectores de patrones de valores continuos que son versiones aleatoriamente corrompidas de un vector prototipo. Para el caso xxxxx x 2 R: p(x = N (x µ,σ 2 = 1 1 exp (2πσ 2 1/2 (x µ2 2 2σ (9 la cual es gobernada por dos parámetros: µ, llamada la media, y σ 2, llamada la varianza. La raíz cuadrada de la varianza, dada por σ, es llamada la desviación estándar, y el recíproco de la varianza, escrito como β=1/σ 2, es llamada la precisión. 7
8 Distribución Gaussiana univariante N (x µ,σ 2 σ 2.5% 2.5% µ 2σ µ σ µ µ + σ µ + 2σ La distribución normal univariante tiene aproximadamente 95% de su área en el rango x µ 2σ. x 8
9 Distribución Gaussiana univariante La distribución Gaussiana en (9 satisface N (x µ, σ 2 > 0. También, la distribución Gaussiana está normalizada tal que: N (x µ,σ 2 dx = 1 (10 El valor esperado de x bajo la distribución Gaussiana, también llamado el promedio, está dado por: E[x] = N (x µ,σ 2 x dx = µ (11 De manera similar, el momento de segundo orden se define como: E[x 2 ] = N (x µ,σ 2 x 2 dx = µ 2 + σ 2 (12 A partir de (11 y (12 se obtiene la varianza de x, también conocido como momento centralizado de segundo orden: var[x] = E[x 2 ] E[x] 2 = σ 2 (13 9
10 Teorema del límite central La distribución Gaussiana sigue el teorema del límite central (TLC. Este teorema describe las características de la población de medias creada a partir de las medias de un número infinito de muestras de tamaño N tomadas aleatoriamente de una población padre. El TLC establece que independientemente de la distribución de la población padre: La media de la población de medias es siempre igual a la media de la población padre de donde fueron tomadas las muestras. La varianza de la población de medias es siempre igual a la varianza de la población padre dividida por el tamaño de la muestra N. La distribución de las medias se aproxima a una distribución normal cuando el tamaño de la muestra N. 10
11 Distribución Gaussiana multivariante Para el caso x 2 R D : p(x = N (x µ, Σ 1 = exp 1 (2π D 2 Σ (x µt Σ 1 (x µ (14 donde el vector D-dimensional µ es la media y se define como: µ E[x] = N (x µ, Σxdx (15 y la matriz de covarianza Σ de tamaño D D se define como: Σ E[(x µ(x µ T ] = (x µ(x µ T dx (16 11
12 Distribución Gaussiana multivariante El vector de medias contiene la media de cada variable. Características de la matriz de covarianza: La matriz de covarianza siempre es simétrica y semidefinida positiva, y su determinante debe ser estrictamente positivo. Los elementos de la diagonal σ ii son las varianzas de sus respectivas variables x i. Los elementos fuera de la diagonal σij son las covarianzas de las variables x i y x j. Si xi y x j son estadísticamente independientes, entonces σ ij =0. 12
13 Distribución Gaussiana multivariante p(x p(x p(x p(x x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 2 x 1 x 2 x 1 σ 11 = σ 22 y σ 12 = σ 21 = 0 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 = σ 21 = 0 x 1 σ 11 σ 22 y σ 12 σ 21 0 x 1 13
14 Distribución Gaussiana multivariante Si x i es la i-ésima componente de x, µ i el i-ésimo componente de µ, y σ ij el ij-ésimo componente de Σ entonces: µ i = E[x i ] y σ ij = E[(x i µ i (x j µ j ] (17 x 2 µ x 1 Muestras tomadas de una distribución Gaussiana bidimensional caen en una nube centrada en µ, cuya forma está determinada por Σ. La posición de puntos de densidad constante son elipses para los cuales la distancia Mahalanobis de x a µ es constante. 14
15 Funciones discriminantes para la distribución Gaussiana El clasificador Bayesiano describe la distribución de los datos en cada una de las clases mediante funciones de verosimilitud p(x ω i, i=1,,c, las cuales son distribuciones Gaussianas multivariantes: p(x ω i 1 exp 1 (2π D Σ 2 (x µ i T Σ 1 i (x µ i i (18 Sustituyendo (18 en (5 se tiene la función discriminante: g i (x = 1 2 (x µ i T Σ i 1 (x µ i D 2 ln 2π 1 2 ln Σ i + ln p(ω i (19 Diferentes casos especiales de la función discriminante se pueden definir de acuerdo a la forma de la matriz de covarianza utilizada. 15
16 Caso 1: Σ i =σ 2 I El caso más simple ocurre cuando las características son estadísticamente independientes con varianzas iguales para todas las clases. La función discriminante en (19 se reescribe como: g i (x = 1 2 (x µ i T (σ 2 I 1 (x µ i + ln p(ω i = 1 2σ 2 (x µ i T (x µ i + ln p(ω i (20 Expandiendo la forma cuadrática (x µ T (x µ se tiene: g i (x = 1 2σ 2 [xt x 2µ T i x + µ it µ i ] + ln p(ω i (21 16
17 Caso 1: Σ i =σ 2 I Eliminando el término cuadrático x T x en (21, el cual es independiente de i, se obtiene la función discriminante lineal: g i (x = w i T x + w i0 (22 donde w i = 1 σ 2 µ i (23 y el umbral o bias para la i-ésima clase es w i0 = 1 2σ µ T 2 i µ i + ln p(ω i (24 Un clasificador que utiliza funciones discriminantes lineales se le conoce como máquina lineal. 17
18 Caso 1: Σ i =σ 2 I Las fronteras de decisión de una máquina lineal son los hiperplanos g i (x=g j (x para dos clases con las probabilidades posteriores más altas y pueden ser escritos como: donde w T (x x 0 = 0 (25 y w = µ i µ j (26 x 0 = 1 2 (µ i + µ j σ 2 ln p(ω i 2 µ i µ p(ω j (µ i µ j (27 j El hiperplano pasa a través del punto x 0 y es ortogonal al vector w. 18
19 Caso 1: Σ i =σ 2 I p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 p(ω 2 = 0.5 ω 1 ω 2 R 1 p(ω 1 = 0.5 x R 2 p(ω 1 = 0.5 R 2 p(ω 2 = 0.5 R 1 p(ω 2 = 0.5 p(ω 1 = 0.5 p(x ω i ω 1 ω 2 ω 1 ω 2 R 2 R 1 ω 1 p(ω 2 = 0.2 x p(ω 2 = 0.2 p(ω 1 = 0.8 ω 2 R 1 p(ω 1 = 0.7 R 2 p(ω 2 = 0.3 p(ω 1 = 0.8 R 1 R 2 Si las matrices de covarianza de dos distribuciones son iguales y proporcionales a la matriz identidad, entonces las distribuciones son esféricas en D dimensiones y la frontera es un hiperplano en D 1. 19
20 Caso 1: Σ i =σ 2 I El caso especial cuando p(ω i es igual para i=1,,c se tiene el clasificador de mínima distancia: g i (x = 1 2σ 2 (x µ i T (x µ i (28 Además, si σ=1, entonces se tiene el clasificador de mínima distancia Euclidiana que usa la regla de decisión Asignar x a ω i * donde i * = arg min i=1,,c donde la norma Euclidiana cuadrada es: x µ i 2 (29 x µ i 2 = (x µi T (x µ i (30 20
21 Caso 2: Σ i =Σ Las matrices de covarianza para todas las clases son idénticas y arbitrarias. Esta simplificación deriva en la función discriminante: g i (x = 1 2 (x µ i T Σ 1 (x µ i + ln p(ω i (31 Expandiendo la forma cuadrática (x µ T Σ 1 (x µ se tiene: g i (x = 1 2 (xt Σ 1 x 2µ i T Σ 1 x + µ i T Σ 1 µ i + ln p(ω i (32 Eliminando el término cuadrático x T Σ 1 x, el cual es independiente de i, se tiene: g i (x = µ T i Σ 1 x 1 2 µ T i Σ 1 µ i + ln p(ω i (33 21
22 Caso 2: Σ i =Σ Reescribiendo la función discriminante en (33 se obtiene una vez más la función discriminante lineal: g i (x = w i T x + w i0 (34 donde w i = Σ 1 µ i y w i0 = 1 2 µ i T Σ 1 µ i + ln p(ω i (35 Las fronteras de decisión se escriben como: w T (x x 0 = 0 donde w = Σ 1 (µ i µ j y x 0 = 1 2 (µ ln[p(ω i + µ j i p(ω j ] (µ i µ j T Σ 1 (µ i µ j (µ i µ j (36 (37 (38 El hiperplano pasa a través del punto x 0 aunque no es necesariamente ortogonal a la línea entre las medias. 22
23 Caso 2: Σ i =Σ ω 2 ω 1 ω 2 ω 1 p(ω 2 = 0.5 R 2 R 1 R 1 p(ω1 = 0.5 R 2 p(ω 2 = 0.9 p(ω 1 = 0.1 R 1 R 1 p(ω 1 = 0.5 R 2 R 2 p(ω 1 = 0.1 ω 2 p(ω 2 = 0.5 ω 2 p(ω 2 = 0.9 Distribuciones de probabilidades Gaussianas y sus fronteras de decisión. 23
24 Caso 2: Σ i =Σ Si las probabilidades a priori p(ω i son las mismas para todas las clases, entonces el segundo término en (31 puede eliminarse. En este caso, se tiene el clasificador de mínima distancia Mahalanobis que usa la regla de decisión: Asignar x a ω i * donde i * = arg min{ [(x µ i T Σ 1 (x µ i ] 1 2 } (39 i=1,,c La elipse azul representa una línea de puntos equidistantes en términos de la distancia Mahalanobis. x 2 x 1 Los puntos verdes tienen la misma distancia Mahalanobis al centro, sin embargo, en términos de la distancia Euclidiana las distancias son diferentes (círculos rojos. 24
25 Caso 3: Σ i Σ j En el caso general, las matrices de covarianza son diferentes para cada clase, resultando en la función discriminante cuadrática: donde g i (x = x T W i x + w i T x + w i0 (40 W i = 1 2 Σ i 1 w i = Σ i 1 µ i w i0 = 1 2 µ i T Σ i 1 µ i 1 2 ln Σ i + ln p(ω i (41 (42 (43 Las superficies de decisión son hipercuadráticas y pueden tener las siguientes formas: hiperplanos, pares de hiperplanos, hiperesferas, hiperelipsoides e hiperparaboloides. 25
26 Caso 3: Σ i Σ j p(x ω i ω 2 ω 1 x R 3 R 2 R 4 R 1 R 2 R 1 R 1 Regiones de decisión no conectadas para una misma clase pueden generarse en una dimensión para Gaussianas que tienen varianzas diferentes. Regiones de decisión para cuatro distribuciones normales. Aún teniendo un bajo número de clases, las fronteras de decisión pueden tener formas complejas. 26
27 Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas bidimensionales que generan fronteras de decisión hipercuadráticas. 27
28 Caso 3: Σ i Σ j Distribuciones de probabilidad Gaussianas tridimensionales que generan fronteras de decisión hipercuadráticas. 28
29 Clasificador naive-bayes De acuerdo al TLC, para tener una buena estimación de la función de densidad Gaussiana se requiere que el número de patrones sea los suficientemente grande (N. Si se requieren N patrones de entrenamiento para estimar una densidad Gaussiana univariante, entonces se necesitarían N D muestras para un espacio D-dimensional (ver Apéndice. Entonces, a medida que aumenta N y D, el cómputo de la función g(x se vuelve más costoso: g(x = 1! 2 (x µ O(ND! T Σ 1 O(ND 3 (x µ D 2 O(1!" # $# O(D 3!"# ln 2π 1 2 ln Σ O(N!" # $# + ln p(ω Además, previamente se debe computar la matriz de covarianza cuya complejidad es xxxxxxxx. O(ND 2 29
30 Clasificador naive-bayes Una forma de reducir la complejidad computacional es asumir independencia estadística entre las características, de modo que su probabilidad conjunta se expresa como: D p(x ω i = p(x j ω i, i = 1,,C (44 j =1 Bajo este escenario, estimar las D funciones de densidad unidimensionales para cada clase requiere de DN muestras para obtener una buena estimación en vez de N D. Esto deriva en el clasificador denominado naive-bayes, cuya regla de decisión es: D ω* = arg max ω i p(ω i p(x j ω i, i = 1,,C j =1 = arg max ω i p(ω i D j = πσ i,j exp 1 2 2σ (x µ j i,j 2 i,j (45 (46 30
31 Clasificador naive-bayes Clasificador Euclidiano Clasificador Cuadrático Clasificador naive-bayes Distribuciones de probabilidad Gaussianas para diferentes clasificadores entrenados con el mismo conjunto de datos con tres clases y dos características. 31
32 Probabilidad de error Considerando el caso de clasificación binaria, supóngase que un clasificador dividió el espacio en dos regiones R 1 y R 2 de una manera no óptima (x*. El error de clasificación ocurre cuando x cae en R 2 y su estado de naturaleza es ω 1 o viceversa. La probabilidad de error es: p(error = p(x ω 2 p(ω 2 dx + p(x ω 1 p(ω 1 dx R 1 (47 R 2 p(x ω i P(ω i ω 1 Error reducible ω 2 R 1 x Bayes x * R 2 x 32
33 Probabilidad de error En el caso multiclase, la probabilidad de aciertos: p(correcto = C p(x ω i p(ω i dx (48 i=1 R i Una manera de calcular la similitud entre dos distribuciones de probabilidad Gaussianas es mediante la distancia Bhattacharyya: D B = 1 8 (µ 2 µ 1 T! Σ 1 (µ 2 µ ln! Σ Σ 1 Σ 2 (49 donde!σ = (Σ 1 + Σ 2 2. Entonces, el límite superior de Bhattacharyya sobre el error es: p(error p(ω 1 p(ω 2 e D B (50 33
34 Ejemplo Calcular la frontera de decisión y el límite de Bhattacharyya para el siguiente conjunto de datos bidimensional con dos clases equiprobables. µ 1 µ 2 ω 1 ω 2 Los parámetros de las distribuciones son: µ 1 = µ 2 = ; 1 = ; 2 = y Las matrices inversas son entonces: 1 1 = y 1 2 = Sustituyendo en las Ecuaciones y haciendo g 1 (x=g 2 (x la frontera de decisión es: x 2 = x x 1 2 De acuerdo con las ecuaciones 49 y 50, el límite de Bhattacharyya es: p(error
35 Apéndice La maldición de la dimensionalidad es un concepto que se refiere a los problemas asociados con el análisis multivariante de datos conforme la dimensionalidad incrementa. Considérese el problema de clasificación de tres clases, donde el espacio de características es dividido en segmentos uniformemente separados, de modo que un patrón arbitrario es clasificado en la clase predominante de un segmento específico. 1. Considerando una única característica y dividiendo el espacio en tres segmentos: se observa que existe mucho traslape entre las clases, por lo que se incorpora una nueva característica. x 1 35
36 Apéndice 2. Si se preserva la granularidad de cada eje, el número de segmentos aumenta de 3 (en 1D a 3 2 =9 (en 2D. En relación a la cantidad de patrones habrá que decidir: a. si se mantiene la densidad de patrones, la cantidad de muestras aumenta de 9 (en 1D a 27 (en 2D; ó b. si se mantiene el número de patrones se genera mucha dispersión. x 2 Densidad constante x 2 Número de muestras constante x 1 x 1 36
37 Apéndice 3. Aumentando a tres características el problema se vuelve más complejo, ya que el número de segmentos aumenta a 3 3 =27; si se mantiene la densidad el número de muestras aumenta a 81; si se mantiene la cantidad de patrones el espacio de características estará casi vacío. x 3 x 1 x 2 37
PRÁCTICA I. Ejercicios Teóricos
PRÁCTICA I TEORÍA DE LA DECISIÓN BAYESIANA Ejercicios Teóricos Ejercicio. En el caso de dos categorías, en la regla de decisión de Bayes el error condicional está dado por la ecuación (7). Incluso si las
Más detallesMÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesAnálisis de Datos. Teoría de decisión Bayesiana. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Teoría de decisión Bayesiana Profesor: Dr. Wilfrido Gómez Flores 1 Teoría de decisión Bayesiana La teoría de probabilidad provee un marco teórico para los procesos de cuantificación y
Más detallesAnálisis de Datos. Análisis lineal discriminante. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Análisis lineal discriminante Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Para reducir el error de clasificación algunas veces es necesario identificar el subconjunto de características
Más detallesAprendizaje Automático
Regresión Lineal: Descenso de Gradiente Árboles de Regresión: M5 Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática
Más detallesAnálisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Regresión logística Profesor: Dr. Wilfrido Gómez Flores 1 Regresión logística Supóngase que se tiene una variable binaria de salida Y, y se desea modelar la probabilidad condicional P(Y=1
Más detallesRepaso de Estadística
Teoría de la Comunicación I.T.T. Sonido e Imagen 25 de febrero de 2008 Indice Teoría de la probabilidad 1 Teoría de la probabilidad 2 3 4 Espacio de probabilidad: (Ω, B, P) Espacio muestral (Ω) Espacio
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 1: Introducción Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa Pedro Galeano
Más detallesClasificación estadística de patrones
Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesAnálisis de Datos. Estimación de distribuciones desconocidas: métodos no paramétricos. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Estimación de distribuciones desconocidas: métodos no paramétricos Profesor: Dr. Wilfrido Gómez Flores 1 Introducción La estimación de densidad con modelos paramétricos asumen que las
Más detallesExamen de Teoría de (Introducción al) Reconocimiento de Formas
Examen de Teoría de (Introducción al) Reconocimiento de Formas Facultad de Informática, Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Enero de 007 Apellidos:
Más detallesClasificación. Aurea Grané. Análisis Discriminante
Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis discriminante Análisis Discriminante y Clasificación Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Supongamos
Más detallesElementos de máquinas de vectores de soporte
Elementos de máquinas de vectores de soporte Clasificación binaria y funciones kernel Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Seminario de Control y Sistemas Estocásticos
Más detallesEstadística II Tema 1: Distribución normal multivariante
Estadística II Tema 1: Distribución normal multivariante José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Algunas propiedades de los vectores aleatorios Sea X = (X 1,..., X
Más detallesAnálisis de Datos. Red de función de base radial. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Red de función de base radial Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Las funciones de base radial han sido utilizadas en diversas técnicas de reconocimiento de patrones como
Más detallesMETODOS ESTADÍSTICOS
METODOS ESTADÍSTICOS Introducción. Uno de los objetivos de la asignatura de Hidrología, es mostrar a los alumnos, las herramientas de cálculo utilizadas en Hidrología Aplicada para diseño de Obras Hidráulicas.
Más detallesDistribuciones multivariadas
Distribuciones multivariadas Si X 1,X 2,...,X p son variables aleatorias discretas, definiremos la función de probabilidad conjunta de X como p(x) =p(x 1,x 2,...,x k )=P (X 1 = x 1,X 2 = x 2,...,X p =
Más detallesBases estadísticas del reconocimiento de patrones
Bases estadísticas del reconocimiento de patrones César Martínez cmartinez _AT_ fich.unl.edu.ar Inteligencia Computacional FICH-UNL Percepción humana Tarea muuuuy simple: Cuántas llaves hay? Inteligencia
Más detallesRepaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
Más detallesTEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES. Variable aleatoria (Real)
TEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES Grado Ing Telemática (UC3M) Teoría de la Comunicación Variable Aleatoria / 26 Variable aleatoria (Real) Función que asigna un valor
Más detallesDistribución Gaussiana Multivariable
Distribución Gaussiana Multivariable Carlos Belaustegui Goitia, Juan Augusto Maya 8 de Agosto de Resumen En este documento presentamos la deducción de la expresión de la función densidad de probabilidad
Más detallesEstadística. Tema 2. Variables Aleatorias Funciones de distribución y probabilidad Ejemplos distribuciones discretas y continuas
Estadística Tema 2 Variables Aleatorias 21 Funciones de distribución y probabilidad 22 Ejemplos distribuciones discretas y continuas 23 Distribuciones conjuntas y marginales 24 Ejemplos distribuciones
Más detallesProf. Eliana Guzmán U. Semestre A-2015
Unidad III. Variables aleatorias Prof. Eliana Guzmán U. Semestre A-2015 Variable Aleatoria Concepto: es una función que asigna un número real, a cada elemento del espacio muestral. Solo los experimentos
Más detallesESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.
ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. APRENDIZAJE AUTOMÁTICO, ESTIMACIÓN Y DETECCIÓN Introducción
Más detallesTema 3 Normalidad multivariante
Aurea Grané Máster en Estadística Universidade Pedagógica Aurea Grané Máster en Estadística Universidade Pedagógica Tema 3 Normalidad multivariante 3 Normalidad multivariante Distribuciones de probabilidad
Más detallesTema 9. Análisis factorial discriminante
Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. 9.1. Introducción. Tema 9. Análisis factorial discriminante Supongamos que están denidos I grupos,
Más detallesAnálisis de imágenes digitales
Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en color INTRODUCCIÓN La segmentación de imágenes a color se puede realizar mediante técnicas de clasificación supervisada.
Más detallesEstadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación
Estadística Tema 3 Esperanzas 31 Esperanza Propiedades 32 Varianza y covarianza Correlación 33 Esperanza y varianza condicional Predicción Objetivos 1 Medidas características distribución de VA 2 Media
Más detallesSupport Vector Machines
Support Vector Machines Métodos Avanzados en Aprendizaje Artificial Luis F. Lago Fernández Manuel Sánchez-Montañés Ana González Universidad Autónoma de Madrid 6 de abril de 2010 L. Lago - M. Sánchez -
Más detallesCapítulo 5: Probabilidad e inferencia
Capítulo 5: Probabilidad e inferencia estadística (Fundamentos Matemáticos de la Biotecnología) Departamento de Matemáticas Universidad de Murcia Contenidos Principios de la probabilidad Conceptos básicos
Más detallesAnálisis de Datos. Métodos de mínimos cuadrados. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Métodos de mínimos cuadrados Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Recordemos que los clasificadores lineales se utilizan ampliamente debido a que son computacionalmente
Más detallesMétodos Estadísticos Multivariados
Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 34 Álgebra matricial y vectores aleatorios Una matriz es un arreglo
Más detallesMaterial introductorio
Material introductorio Nombre del curso: Teoría Moderna de la Detección y Estimación Autores: Vanessa Gómez Verdejo Índice general. Variables aleatorias unidimensionales..................................
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesCLASIFICACIÓN AFÍN DE CÓNICAS
Álgebra lineal y Geometría I Gloria Serrano Sotelo Departamento de MATEMÁTICAS CLASIFICACIÓN AFÍN DE CÓNICAS Sea E un R-espacio vectorial de dimensión. Sean E = e 1, e un plano vectorial de E y e 0 un
Más detallesSistemas de Percepción Visión por Computador
Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión
Más detallesIntroducción. Existen dos aproximaciones para resolver el problema de clasificación: Aproximación Generativa (vista en el Tema 3) Basada en:
Introducción Eisten dos aproimaciones para resolver el problema de clasificación: Aproimación Generativa (vista en el Tema 3) Basada en: Modelar p(,w)=p( w)p(w) p( w) es la distribución condicional de
Más detallesTeoría Moderna de Decisión y Estimación, Notas Introductorias: Cálculo de probabilidades y
Profesores de TMDE Teoría Moderna de Decisión y Estimación, Notas Introductorias: Cálculo de probabilidades y estadística Monograph 9 de septiembre de 23 Springer Índice general. Variables aleatorias
Más detallesUniv. Michoacana de San Nicolas de Hgo. Facultad de Ingeniería Eléctrica División de estudios de Postgrado Maestría y Doctorado en Ciencias en Ing
Univ. Michoacana de San Nicolas de Hgo. Facultad de Ingeniería Eléctrica División de estudios de Postgrado Maestría y Doctorado en Ciencias en Ing Eléctrica Opción Sistemas Computacionales Notas de Reconocimiento
Más detallesMétodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador
Más detallesIntroducción. Distribución Gaussiana. Procesos Gaussianos. Eduardo Morales INAOE (INAOE) 1 / 47
Eduardo Morales INAOE (INAOE) 1 / 47 Contenido 1 2 3 (INAOE) 2 / 47 Normalmente, en los algoritmos de aprendizaje que hemos visto, dado un conjunto de ejemplos de entrenamiento se busca encontrar el mejor
Más detallesTema 8. Fundamentos de Análisis discriminante
Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. Tema 8. Fundamentos de Análisis discriminante 8.1. Introducción. Empezamos deniendo el problema discriminante.
Más detallesEjercicio 1. Ejercicio 2
Guía de Ejercicios Ejercicio. Calcular los momentos de primer y segundo orden (media y varianza) de una variable aleatoria continua con distribución uniforme entre los límites a y b.. Sabiendo que la función
Más detallesClase 3: Vectores gaussianos *
Clase 3: Vectores gaussianos * Índice 1. Vectores gaussianos 1. Simulación de vectores gaussianos.1. Simulación de variables gaussianas: el método de Box-Muller.. Simulation of bi-dimensional Gaussian
Más detallesTema 5. Variables Aleatorias Conjuntas.
Tema 5. Variables Aleatorias Conjuntas. Objetivo: El alumno conocerá el concepto de variables aleatorias conjuntas podrá analizar el comportamiento probabilista, conjunta e individualmente, de las variables
Más detallesRepaso de Teoría de la Probabilidad
Repaso de Teoría de la Probabilidad Luis Mendo Tomás Escuela Politécnica Superior Universidad Autónoma de Madrid Febrero de 2008 1. Introducción Este documento contiene, de forma esquemática, los conceptos
Más detallesProbabilidad y Estadística
Probabilidad y Estadística Grado en Ingeniería Informática Tema 4 Vectores aleatorios Javier Cárcamo Departamento de Matemáticas Universidad Autónoma de Madrid javier.carcamo@uam.es Javier Cárcamo PREST.
Más detallesTópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones
Tópicos Selectos en Aprendizaje Maquinal Guía de Trabajos Prácticos N 1 Algoritmos para Reconocimiento de Patrones 18 de septiembre de 2014 1. Objetivos Introducir conceptos básicos de aprendizaje automático.
Más detallesClasificación Supervisada
Clasificación Supervisada Ricardo Fraiman 26 de abril de 2010 Resumen Reglas de Clasificación Resumen Reglas de Clasificación Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y
Más detallesResumen de Probabilidad
Definiciones básicas * Probabilidad Resumen de Probabilidad Para calcular la probabilidad de un evento A: P (A) = N o decasosfavorables N o decasosposibles * Espacio muestral (Ω) Es el conjunto de TODOS
Más detallesAnálisis de imágenes digitales
Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en texturas INTRODUCCIÓN La textura provee información sobre la distribución espacio-local del color o niveles de intensidades
Más detallesAnálisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Validación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción La mayoría de los clasificadores que se han visto requieren de uno o más parámetros definidos libremente,
Más detallesEstadística I Tema 5: Modelos probabiĺısticos
Estadística I Tema 5: Modelos probabiĺısticos Tema 5. Modelos probabiĺısticos Contenidos Variables aleatorias: concepto. Variables aleatorias discretas: Función de probabilidad y Función de distribución.
Más detallesIntroducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
Más detallesTEMA 2.- VARIABLES ALEATORIAS UNIDIMENSIONALES.- CURSO 17/18
TEMA 2.- VARIABLES ALEATORIAS UNIDIMENSIONALES.- CURSO 17/18 2.1. Concepto de variable aleatoria. Tipos de variables aleatorias: discretas y continuas. 2.2. Variables aleatorias discretas. Diagrama de
Más detallesANALISIS FACTORIAL. Jorge Galbiati R.
ANALISIS FACTORIAL Jorge Galbiati R El análisis factorial es un modelo matamático que pretende explicar la correlación entre un conjunto grande de variables observadas y un pequeño conjunto de factores
Más detallesEstadísticas y distribuciones de muestreo
Estadísticas y distribuciones de muestreo D I A N A D E L P I L A R C O B O S D E L A N G E L 7/11/011 Estadísticas Una estadística es cualquier función de las observaciones en una muestra aleatoria que
Más detallesDistribuciones de probabilidad bidimensionales o conjuntas
Distribuciones de probabilidad bidimensionales o conjuntas Si disponemos de dos variables aleatorias podemos definir distribuciones bidimensionales de forma semejante al caso unidimensional. Para el caso
Más detallesTÉCNICAS DE AGRUPAMIENTO
TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento
Más detallesDISTRIBUCIONES MULTIDIMENSIONALES DE PROBABILIDAD
DISTRIBUCIONES MULTIDIMENSIONALES DE PROBABILIDAD FUNCIÓN DE DISTRIBUCIÓN ( CONJUNTA ) DE UN VECTOR ALEATORIO FUNCIÓN DE CUANTÍA ( CONJUNTA) DE VECTORES ALETORIOS DISCRETOS FUNCIÓN DE DENSIDAD (CONJUNTA)
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.
Más detallesCálculo de probabilidad. Tema 3: Variables aleatorias continuas
Cálculo de probabilidad Tema 3: Variables aleatorias continuas Guión Guión 3.1. La función de densidad de probabilidad Definición 3.1 Sea P una medida de probabilidad en un espacio muestral Ω. Se dice
Más detallesTema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM)
Tema 6 Extensiones y aplicaciones (Máquinas de vectores soporte, SVM) José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Contenidos del tema 6 El problema de clasificación supervisada:
Más detallesVARIABLES ALEATORIAS CONTINUAS
VARIABLES ALEATORIAS CONTINUAS El zoo binomial: las probabilidades en la distribución binomial. Tutorial 5, sección 2 X = número de éxitos al repetir n veces un experimento con probabilidaf de éxito p
Más detallesTema 6: Distribuciones Multivariantes
Tema : Distribuciones Multivariantes. Distribución conjunta de un vector aleatorio. Distribución conjunta de un vector aleatorio. Distribuciones marginales condicionadas.3 Independencia entre variables
Más detallesESCUELA SUPERIOR POLITÉCNICA DEL LITORAL
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL FACULTAD DE CIENCIAS NATURALES Y MATEMÁTICAS DEPARTAMENTO DE MATEMÁTICAS TEMA 1 (20 puntos): RUBRICA La magnitud de temblores registrados en una región de América
Más detallesVariables Aleatorias y Distribución de Probabilidades
Variables Aleatorias y Distribución de Probabilidades Julio Deride Silva Área de Matemática Facultad de Ciencias Químicas y Farmcéuticas Universidad de Chile 27 de mayo de 2011 Tabla de Contenidos Variables
Más detallesEigenvalores y eigenvectores
Eigenvalores y eigenvectores Los dos problemas principales del álgebra lineal son: resolver sistemas lineales de la forma Ax = b y resolver el problema de eigenvalores. En general, una matriz actúa sobre
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin
Más detallesPart I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas
Part I unidimensionales de s de s Definición Dado un experimento aleatorio, con espacio muestral asociado Ω, una es cualquier función, X, X : Ω R que asocia a cada suceso elemental un número real, verificando
Más detallesTécnicas Cuantitativas para el Management y los Negocios I
Técnicas Cuantitativas para el Management y los Negocios I Licenciado en Administración Módulo II: ESTADÍSTICA INFERENCIAL Contenidos Módulo II Unidad 4. Probabilidad Conceptos básicos de probabilidad:
Más detallesEconometría 1. Karoll GOMEZ Segundo semestre 2017
Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017 II. El modelo de regresión lineal Esperanza condicional I Ejemplo: La distribución de los salarios
Más detallesVARIABLES ALEATORIAS CONTINUAS
VARIABLES ALEATORIAS CONTINUAS M. en C. Juan Carlos Gutiérrez Matus Instituto Politécnico Nacional Primavera 2004 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus Definición de una V.A.C. Definición de una V.A.C.
Más detallesANÁLISIS DE DATOS. Jesús García Herrero
ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar
Más detallesVectores Aleatorios. Vectores Aleatorios. Vectores Discretos. Vectores Aleatorios Continuos
Definición Dado un espacio muestral S, diremos que X =(X 1, X 2,, X k ) es un vector aleatorio de dimension k si cada una de sus componentes es una variable aleatoria X i : S R, para i = 1, k. Notemos
Más detallesRepaso de álgebra de matrices y probabilidad. Javier Santibáñez (IIMAS, UNAM) Regresión Semestre / 58
Repaso de álgebra de matrices y probabilidad Javier Santibáñez (IIMAS, UNAM) Regresión Semestre 2017-2 1 / 58 Preliminares Definición (matriz) Una matriz de dimensión m n es un arreglo rectangular de números
Más detallesReconocimiento e Interpretación
Capítulo 7 Reconocimiento e Interpretación Concluiremos el estudio del procesmiento de imágenes digitales desarrollando varias técnicas que hacen posible su reconocimiento e interpretación. La materia
Más detallesReconocimiento de Patrones
Reconocimiento de Patrones Tarea 6 - Fecha de entrega: 8 de Noviembre 1 Introducción En este proyecto se aplicará lo visto en el curso para desarrollar un detector de epilepsia a partir de señales de EEG.
Más detallesEstadística Descriptiva y Probabilidad FORMULARIO
Estadística Descriptiva y Probabilidad FORMULARIO Departament d Estadística i Investigació Operativa Universitat de València Angel Corberán Francisco Montes 2 3 Capítulo 1 Estadística Descriptiva 1.1.
Más detalles1º BACHILLERATO HUMANIDADES Y CIENCIAS SOCIALES MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I PENDIENTES
1º BACHILLERATO HUMANIDADES Y CIENCIAS SOCIALES MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I PENDIENTES 1.- INTRODUCCIÓN AL NÚMERO REAL Realización de operaciones con números reales. Ordenación de los
Más detallesCapítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales
Capítulo 2 Medidas Estadísticas Básicas 2.1. Medidas estadísticas poblacionales Sea X una variable aleatoria con función de probabilidad p(x) si es discreta, o función de densidad f(x) si es continua.
Más detallesDefinición Se dice que una variable aleatoria X es continua si su conjunto de posibles valores es todo un intervalo (finito o infinito) de números
IV. Variables Aleatorias Continuas y sus Distribuciones de Probabilidad 1 Variable Aleatoria Continua Definición Se dice que una variable aleatoria X es continua si su conjunto de posibles valores es todo
Más detallesEstadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10
Estadistica II Tema 0. Repaso de conceptos básicos Curso 2009/10 Tema 0. Repaso de conceptos básicos Contenidos Variables aleatorias y distribuciones de probabilidad La distribución normal Muestras aleatorias,
Más detallesEjemplos de funciones de covarianza
Capítulo 5 Ejemplos de funciones de covarianza De lo explicado hasta el momento, se concluye que la regresión basada en Procesos Gaussianos se reduce a calcular la matriz de covarianza C n a partir de
Más detallesIntroducción al Diseño de Experimentos.
Introducción al Diseño de Experimentos www.academia.utp.ac.pa/humberto-alvarez Introducción Una población o universo es una colección o totalidad de posibles individuos, especímenes, objetos o medidas
Más detallesRuido en los sistemas de comunicaciones
Capítulo 2 Ruido en los sistemas de comunicaciones Cuando una señal se transmite a través de un canal de comunicaciones hay dos tipos de imperfecciones que hacen que la señal recibida sea diferente de
Más detallesEconometría 1. Karoll GOMEZ Segundo semestre 2017
Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017 II. El modelo de regresión lineal Esperanza condicional I Ejemplo: La distribución de los salarios
Más detallesProbabilidad y Estadística
Probabilidad y Estadística Grado en Ingeniería Informática Tema 5 Esperanza y momentos Javier Cárcamo Departamento de Matemáticas Universidad Autónoma de Madrid javier.carcamo@uam.es Javier Cárcamo PREST.
Más detallesUTILIDAD RELATIVA DE UN SISTEMA DE MEDICIÓN
UTILIDAD RELATIVA DE UN SISTEMA DE MEDICIÓN G. Américo Rivas C. Prof. De la Escuela de Ingeniería Industrial. Área de Postgrado. Maestría en Ingeniería Industrial. Universidad de Carabobo e. Mail: arivas@postgrado.uc.edu.ve
Más detallesMínimos cuadrados generalizados y máxima verosimilitud
CAPíTULO 9 Mínimos cuadrados generalizados y máxima verosimilitud 9.1. Introducción En el marco del modelo clásico, los supuestos de homocedasticidad, E(u 2 i ) = σ2 u (i = 1, 2,... n), y ausencia de autocorrelación,
Más detalles