1. Análisis de Conglomerados

Tamaño: px
Comenzar la demostración a partir de la página:

Download "1. Análisis de Conglomerados"

Transcripción

1 1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas de otros grupos. Generalmente no se sabe el número de grupos (denotado por k), ni sus tamaños (denotado por n k ). La parte interesante es definir qué es similar. Si por ejemplo el rango de las disimilitudes corre de 0 a C, podríamos definir que dos unidades son consideradas similares si su disimilitud es menor a 1C. 2 Existen métodos jerárquicos y no- jerárquicos. Dentro de los jerárquicos están los aglomerativos y los divisivos Métodos Jerárquicos Los métodos jerárquicos aglomerativos dan origen a un gráfico llamado dendograma. Estos método son iterativos y en cada paso debe recalcularse la matriz de distancias, en los casos en que se tienen muchas observaciones esto puede llevar mucho tiempo de cómputo. A continuación se presentan varios de estos métodos: Liga sencilla o del vecino más cercano: Al redefinir la distancia entre dos conglomerados, se toma la mínima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Este método tiende a tener un buen desempeño cuando hay grupos de forma elongada, conocidos como tipo cadena. d AB = mín i A,j B (d ij) Liga completa o del vecino más lejano: Al redefinir la distancia entre dos conglomerados, se toma la máxima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen 1

2 los dos conglomerados más cercanos. Se desempeña bien cuando los conglomerados son de forma circular. d AB = máx i A,j B (d ij) Liga promedio: Al redefinir la distancia entre dos conglomerados, se toma el promedio de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Funciona bien para conglomerados tanto tipo cadena como circulares. d AB = 1/(n A n B ) i A (d ij ) Liga centroide: Al redefinir la distancia entre dos conglomerados se toma la diferencia entre las medias (centroide) de cada conglomerado. j B Se unen los dos conglomerados más cercanos. Liga mediana: Al redefinir la distancia entre dos conglomerados se toma la diferencia ponderada entre las medias (centroide) de cada conglomerado, la ponderación está dada por el tamaño (número de unidades del conglomerado) de los conglomerados. Se unen los dos conglomerados más cercanos. Se espera un mejor rendimiento que el del centroide cuando los grupos varían mucho en tamaño. Método de Ward: Establece que la distancia entre dos clusters A, B es el incremento a la suma de los cuadrados de las distancias al nuevo centro d AB = i A B x i x A B 2 i A x i x A 2 i B x i x B 2 = n A n B (n A + n B ) x A x B 2 donde x j es el centro del cluster j y n j es el número de elementos en él. d AB se conoce como el costo por unir los clusters A y B. 2

3 Se comienza con una suma de cuadrados igual a cero, porque cada punto es un cluster, y luego crece con cada unión. Murtagh y Legendre en Journal of Classification (2014) muestran que la suma de distancias al cuadrado de los objetos al centro puede ser expresada a través de los datos originales yo como función de las distancias entre las observaciones. Dados dos pares de clusters cuyos centros están igual de apartados, este método tiende a unir primero los que tiene menos elementos. La suma de cuadrados de distancias final depende del orden en que va haciendo las uniones, esto puede significar que para una k dada, la suma de los cuadrados de las distancias por el método de Ward sea mayor que el mínimo para esa k. Conviene para mejorarlo usar este agrupamiento como punto inicial en un k-means. Sólo las dos primeras ligas son invariantes ante transformaciones monótonas de las disimilitudes d ij. Cabe hacer notar que en algunos casos se puede trabajar con sólo la matriz de disimilitudes, y en otros se requiere de los datos originales. Se construye el dendograma y se hace un corte a la altura de la disimilitud ( máxima) que se fije para considerar a dos sujetos como similares. En R la función hclust lo hace. Pros y contras Tiene la ventaja de que su cómputo es rápido para muestras de tamaño pequeño. Otra ventaja es que el dendrograma da una visión de como se arman los grupos, para distintas opciones de C. La mayor desventaja es que una vez que dos conglomerados se unen ya no pueden separarse más adelante en el algoritmo. 3

4 Son ineficientes para muestras de tamaño grande Métodos No-Jerárquicos De Partición Se fija la k y se busca la mejor partición posible para esa k. No se busca sobre todas las particiones posibles. Es un método iterativo, por lo que requiere de una agrupación inicial, Se va optimizando una función objetivo. Estos métodos analizan más particiones que los métodos jerárquicos. Se recomienda correr el algoritmo para varias opciones de k k-medias (k means) Este es el método de partición más conocido. En cada paso se reasignan los elementos del conglomerado de manera tal que la suma de distancias al cuadrado, de los puntos al centro de su conglomerado sea mínima. La distancia del punto a su centro se define como: d(x, x c ) 2 = (x x c ) (x x c ) con x = (x 1, x 2,..., x p ) y x c es el centroide del conglomerado c El objetivo es entonces minimizar W SS = k d(x i, m c ) 2 c=1 i c No se puede asegurar que se alcance el mínimo global, sino un mínimo local, así que se recomienda correr el algortimo con distintas particiones iniciales. En R la función kmeans lo hace. 4

5 k-medoides Este método es muy semejante al de k-medias, pero como para poder correr aquel algoritmo se necesitan la matriz X, y en ocasiones solo se tiene la matriz de distancias, este método en vez de usar el centroide usa un elemento representante al que llama medoide. Y ahora se busca minimizar Crit, Crit = k d(x i, x c ) 2 c=1 i c donde m c es el medoide, el elemnto más representativo del conglomerado c. En R la función pam del paquete cluster lo hace Método basado en modelo de mezcla de normales Los métodos jerárquicos y los de partición no suponen ninguna distribución. El método de conglomerados basado en modelos supone la existencia de k subpoblaciones que corresponden a los conglomerados que se buscan. Propuestos originalmente por Scott and Symons (1971) y recientemente desarrolados por Banfield and Raftery (1993) and Fraley and Raftery (2002). Sea γ = [γ 1, γ 2,..., γ n ] el vector de etiquetas de pertenencia, γ i significa que x i pertenece a la población j. = j Las densidades de las subpoblaciones son denotadas por f j (x; θ j ), y θ j representa a los parámetros desconocidos. la verosimilitud está dada por: L(θ 1,..., θ k, γ) = n f γi (x i ; θ γj ) i=1 5

6 El modelo consiste en elegir θ 1,..., θ k, γ de manera que esa verosimilitud se maximize. γ es el vector que define los conglomerados. Generalmente se supone normalidad multivariada. En la función de logverosimilitud se sustituye las medias µ j por x j. Para cada conglomerado se supone una estructura de covarianza Σ j. La más sencilla es Σ j tamaño parecido. = σ 2 I que tiende a formar grupos esféricos de La estructura Σ j dirección. = Σ produce conglomerados elípticos con la misma La estructura Σ j = Σ j a cada conglomerados le da una estructura diferente. El paquete mclust tiene la función Mclust que hace este tipo de conglomerados basados en modelos, permite opciones de elegir los grupos de tamaños y formas diferentes. Se trabaja con varias estructuras de covarianza y se elige aquella que arroje el menor BIC Algoritmos de dos pasos en SPSS : se recomienda cuando se tienen muchos datos. 1. Formación de Preconglomerados. La idea es reducir el tamaño de la matriz de distancias entre todos los posibles elementos. Los preconglomerados son conglomerados hechos con algunos de los datos originales, con los que se arman grupos usando un método jerárquico. Después, se lee 6

7 un caso, el algoritmo decide si se une a los conglomerados ya existentes, o forma un nuevo conglomerado. Una vez acabado el proceso de preaconglomeramiento, cada conglomerado es tratado como un solo elemento, la nueva matriz de distancias se reduce al número de preconglomerados. 2. Agrupación de preconglomerados. Se usa un método jerárquico estándar usando como elementos a los preconglomerados. En general cada método puede llevar a una agrupación diferente. Se recomienda usar varios métodos para identificar los individuos que brincan de un grupo a otro según el método usado, tambien para definir los tamaños de los grupos. 7

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los

Más detalles

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no

Más detalles

Minería de Datos Web. Cursada 2018

Minería de Datos Web. Cursada 2018 Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los

Más detalles

Análisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)

Análisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters) Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema

Más detalles

TÉCNICAS DE AGRUPAMIENTO

TÉCNICAS DE AGRUPAMIENTO TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento

Más detalles

Aprendizaje No Supervisado

Aprendizaje No Supervisado Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

INTRODUCCION AL ANALISIS DE CLUSTER

INTRODUCCION AL ANALISIS DE CLUSTER -1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)

Más detalles

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos

Más detalles

Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como:

Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como: Familia Exponencial Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como: f (y; θ) = s(y)t(θ)exp[a(y)b(θ)] = exp[a(y)b(θ)+c(θ)+d(y)] (1) con s(y)

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002

Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002 Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más

Más detalles

Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los

Más detalles

CLASIFICACIÓN PROBLEMA SOLUCIÓN

CLASIFICACIÓN PROBLEMA SOLUCIÓN Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),

Más detalles

Técnicas de agrupamiento (clustering)

Técnicas de agrupamiento (clustering) Técnicas de agrupamiento (clustering) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Duda, Hart, Stork. Pattern Classification, capítulo 10. Jain, Duin, Mao. Statistical Pattern Recognition:

Más detalles

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos

Más detalles

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales

Más detalles

Reconocimiento de Formas

Reconocimiento de Formas Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o

Más detalles

Aprendizaje no supervisado

Aprendizaje no supervisado Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado

Más detalles

Análisis de agrupamiento (Cluster nmds)

Análisis de agrupamiento (Cluster nmds) Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre

Más detalles

INTELIGENCIA DE NEGOCIO

INTELIGENCIA DE NEGOCIO INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y

Más detalles

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación

Más detalles

Introducción a las técnicas estadísticas de

Introducción a las técnicas estadísticas de Introducción a las técnicas estadísticas de clasificación y regresión. Aprendizaje no supervisado - Clustering Laura Aspirot, Sebastián Castro Universidad de la República (UdelaR) Jueves 21 y viernes 22

Más detalles

Técnicas de Clustering

Técnicas de Clustering Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.

Más detalles

Comunidades. Buscando grupos naturales de nodos

Comunidades. Buscando grupos naturales de nodos Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico

Más detalles

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media: Modelo Lineal Generalizado GAMMA Distribución gamma: Otra parametrización mediante el parámetro de forma y la media: La distribución gamma es de tipo exponencial: 1 Supongamos que se dispone de r subpoblaciones

Más detalles

Análisis de Conglomerados

Análisis de Conglomerados Análisis de Conglomerados Resumen El procedimiento Análisis de Conglomerados esta diseñado para agrupar observaciones o variables en conglomerados basados en similaridades entre ellos. Los renglones de

Más detalles

Clasificación estadística de patrones

Clasificación estadística de patrones Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

CLUSTERING. Bases de Datos Masivas

CLUSTERING. Bases de Datos Masivas 1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto

Más detalles

Examen de Teoría de (Introducción al) Reconocimiento de Formas

Examen de Teoría de (Introducción al) Reconocimiento de Formas Examen de Teoría de (Introducción al) Reconocimiento de Formas Facultad de Informática, Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Enero de 007 Apellidos:

Más detalles

Prof. Dra. Silvia Schiaffino ISISTAN

Prof. Dra. Silvia Schiaffino ISISTAN Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)

Más detalles

Análisis de datos Categóricos

Análisis de datos Categóricos Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1 Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores

Más detalles

Análisis de Conglomerados

Análisis de Conglomerados Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las

Más detalles

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento

Más detalles

Factorización QR Método iterativo de Jacobi

Factorización QR Método iterativo de Jacobi Clase No. 13: MAT 251 Factorización QR Método iterativo de Jacobi Dr. Alonso Ramírez Manzanares CIMAT A.C. e-mail: alram@ cimat.mx web: http://www.cimat.mx/ alram/met_num/ Dr. Joaquín Peña Acevedo CIMAT

Más detalles

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido

Más detalles

Introducción a Aprendizaje no Supervisado

Introducción a Aprendizaje no Supervisado Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación

Más detalles

5. Análisis de cúmulos

5. Análisis de cúmulos 5. Análisis de cúmulos OBJETIVO: Dividir a los individuos de una base de datos en grupos, llamados cúmulos (clusters), de tal manera que los individuos de un mismo cúmulo tengan características semejantes

Más detalles

RESUMEN ANÁLISIS CLUSTER

RESUMEN ANÁLISIS CLUSTER RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados

Más detalles

Métodos no supervisados: Agrupamiento

Métodos no supervisados: Agrupamiento Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos

Más detalles

COMPONENTES PRINCIPALES

COMPONENTES PRINCIPALES COMPONENTES PRINCIPALES Jorge Galbiati R. El método de Componentes Principales tiene por objeto reducir la dimensionalidad de un problema de múltiples variables, aplicando una sucesión de transformaciones

Más detalles

Selección de Portafolios Óptimos Usando Clusters

Selección de Portafolios Óptimos Usando Clusters Selección de Portafolios Óptimos Usando Clusters DJ ES 21 de noviembre de 2013 DJ ES (Quantil Matemáticas Aplicadas) Selección de Portafolios Óptimos 21 de noviembre de 2013 1 / 68 Contenido 1 Motivación

Más detalles

OPTIMIZACIÓN VECTORIAL

OPTIMIZACIÓN VECTORIAL OPTIMIZACIÓN VECTORIAL Métodos de Búsqueda Directa Utilizan sólo valores de la función Métodos del Gradiente Métodos de Segundo Orden Requieren valores aproimados de la primera derivada de f) Además de

Más detalles

Sistemas de Reconocimiento de Patrones

Sistemas de Reconocimiento de Patrones Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.

Más detalles

Nota técnica Estratificación multivariada

Nota técnica Estratificación multivariada Instituto Nacional de Estadística y Geografía Nota técnica Estratificación multivariada Censo de Población y Vivienda 2010 NOTA TÉCNICA ESTRATIFICACIÓN MULTIVARIADA Con la finalidad de que el usuario pueda

Más detalles

CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS

CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS TURISTAS DE CRUCEROS MEDIANTE TÉCNICAS DE DATAMINING Silvia Altmark, Ramón Alvarez, Florencia Santiñaque IESTA Buenos Aires,17 de Setiembre Silvia Altmark,

Más detalles

ANÁLISIS DE COMPONENTES PRINCIPALES

ANÁLISIS DE COMPONENTES PRINCIPALES ANÁLISIS DE COMPONENTES PRINCIPALES INTRODUCCIÓN El objetivo principal de la mayoría de las técnicas numéricas de análisis multivariado, es reducir la dimensión de nuestros datos. Por supuesto, si esta

Más detalles

TEMA 6 ANÁLISIS DE CONGLOMERADOS

TEMA 6 ANÁLISIS DE CONGLOMERADOS TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante

Más detalles

Estimación Máxima Verosimilitud

Estimación Máxima Verosimilitud Estimación Máxima Verosimilitud Microeconomía Cuantitativa R. Mora Departmento of Economía Universidad Carlos III de Madrid Outline Motivación 1 Motivación 2 3 4 5 Estrategias generales de estimación Hay

Más detalles

Clase No. 13: Factorización QR MAT 251. Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) / 16

Clase No. 13: Factorización QR MAT 251. Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) / 16 Clase No 13: Factorización QR MAT 251 Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) 03102011 1 / 16 Factorización QR Sea A R m n con m n La factorización QR de A es A = QR = [Q 1 Q 2 ] R1 = Q 0 1 R

Más detalles

Barabasi Ch9. Detección de Comunidades

Barabasi Ch9. Detección de Comunidades Barabasi Ch9 Detección de Comunidades 2 hipótesis para que funcione 1. Suponemos que existe una estructura en comunidades embebida en la red, i.e. en A ij Existen realmente grupos? Existen metodologías

Más detalles

Métodos Estadísticos Multivariados

Métodos Estadísticos Multivariados Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 20 Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre

Más detalles

Análisis multivariante II

Análisis multivariante II Análisis multivariante II Tema 2: Análisis de conglomerados Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa

Más detalles

Teorema Central del Límite

Teorema Central del Límite Teorema Central del Límite TCL: indica que, en condiciones muy generales, la distribución de la suma de v.a. tiende a una distribución normal cuando la cantidad de variables es muy grande. 156 Sea X 1,

Más detalles

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir

Más detalles

Regresión Lineal Múltiple

Regresión Lineal Múltiple Universidad Nacional Agraria La Molina 2011-2 Efectos de Diagnósticos de Dos predictores X 1 y X 2 son exactamente colineales si existe una relación lineal tal que C 1 X 1 + C 2 X 2 = C 0 para algunas

Más detalles

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET

Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET (wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:

Más detalles

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población. Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)

Más detalles

Transformaciones y esperanza

Transformaciones y esperanza Capítulo 3 Transformaciones y esperanza 3.1. Introducción Por lo general estamos en condiciones de modelar un fenómeno en términos de una variable aleatoria X cuya función de distribución acumulada es

Más detalles

Introducción Métodos Jerárquicos Métodos Particionantes. Cluster Analysis. Graciela Boente 1/71

Introducción Métodos Jerárquicos Métodos Particionantes. Cluster Analysis. Graciela Boente 1/71 Cluster Analysis Graciela Boente 1/71 Datos de Planetas Enanos Nombre Nodo 1 Inclinación 2 Eje 3 1935RF 130.916 4.659 2.2562 1941FD 132.200 4.700 2.1300 195QT 130.070 4.790 2.1893 1940YL 338.333 16.773

Más detalles

Ejercicio 1. Ejercicio 2

Ejercicio 1. Ejercicio 2 Guía de Ejercicios Ejercicio. Calcular los momentos de primer y segundo orden (media y varianza) de una variable aleatoria continua con distribución uniforme entre los límites a y b.. Sabiendo que la función

Más detalles

Estimación de homografías

Estimación de homografías Estimación de homografías Visión en Robótica 1er cuatrimestre de 2013 1 Introducción del problema Una homografía es una transformación proyectiva que determina una correspondencia entre puntos El problema

Más detalles

Clasificación Supervisada. Métodos jerárquicos. CART

Clasificación Supervisada. Métodos jerárquicos. CART Clasificación Supervisada. Métodos jerárquicos. CART Ricardo Fraiman 2 de abril de 2010 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d.

Más detalles

Algebra de Matrices 1

Algebra de Matrices 1 Algebra de Matrices Definición Una matriz es un arreglo rectangular de valores llamados elementos, organizados por filas y columnas. Ejemplo: Notas: A 6. Las matrices son denotadas con letras mayúsculas..

Más detalles

Ejemplos de análisis cluster

Ejemplos de análisis cluster Ejemplos de análisis cluster Objetivos: 1. Una aproximación a la terminología del análisis cluster o de conglomerados 2. Uso de las funciones oportunas de R para realizar el análisis 3. Interpretación

Más detalles

Estimación por intervalos

Estimación por intervalos Capítulo 9 Estimación por intervalos 9.1. Introducción En este capítulo se desarrolla la estimación por intervalos donde el proceso de inferencia se realiza de la forma θ C, donde C = Cx) es un conjunto

Más detalles

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:

Más detalles

Introducción. 2.2 Transformaciones de coordenadas: matriz de rotación y ángulos de Euler.

Introducción. 2.2 Transformaciones de coordenadas: matriz de rotación y ángulos de Euler. Agosto 2011 Introducción El análisis cinemático directo nos permite determinar en donde se encuentra el elemento terminal del robot (mano) si se conoce la posición de todas las articulaciones. 15 50 Posición?

Más detalles

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE

Más detalles

Contenido. 2 Operatoria con matrices. 3 Determinantes. 4 Matrices elementales. 1 Definición y tipos de matrices

Contenido. 2 Operatoria con matrices. 3 Determinantes. 4 Matrices elementales. 1 Definición y tipos de matrices elementales Diciembre 2010 Contenido Definición y tipos de matrices elementales 1 Definición y tipos de matrices 2 3 4 elementales 5 elementales Definición 1.1 (Matriz) Una matriz de m filas y n columnas

Más detalles

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. APRENDIZAJE AUTOMÁTICO, ESTIMACIÓN Y DETECCIÓN Introducción

Más detalles

Análisis del artículo

Análisis del artículo Análisis del artículo Mean Shift: A Robust Approach toward Feature Space Analysis Dorin Comaniciu - Peter Meer R. Omar Chávez Garcia - Pável Herrera Domínguez 25 de mayo de 2009 Conceptos básicos Dorin

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur KNN: VECINO(S) MAS CERCANO(S) K NEAREST NEIGHBORS (KNN) Altura Niño Adulto Mayor Se guardan todos los ejemplos

Más detalles

Tema 2: Análisis Discriminante

Tema 2: Análisis Discriminante Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece? Guión 1. Motivación 2. Clasificación

Más detalles

EXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 2006

EXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 2006 EXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 6 Problema ( ptos) Considera un experimento aleatorio con espacio muestral Ω. a) Definir una σ-álgebra A sobre Ω. b) Dar

Más detalles

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:

Más detalles

Redes de Neuronas de Base Radial

Redes de Neuronas de Base Radial Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta

Más detalles

Métodos Estadísticos Multivariados

Métodos Estadísticos Multivariados Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 34 Álgebra matricial y vectores aleatorios Una matriz es un arreglo

Más detalles

Análisis multivariante II

Análisis multivariante II Análisis multivariante II Tema 1: Introducción Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa Pedro Galeano

Más detalles

Algebra Lineal XIX: Rango de una Matriz y Matriz Inversa.

Algebra Lineal XIX: Rango de una Matriz y Matriz Inversa. Algebra Lineal XIX: Rango de una Matriz y Matriz Inversa José María Rico Martínez Departamento de Ingeniería Mecánica Facultad de Ingeniería Mecánica Eléctrica y Electrónica Universidad de Guanajuato email:

Más detalles

Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: agrupamiento CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).

Más detalles

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos

Más detalles

Clasificación. Agrupación de las partes de una imagen de forma homogénea

Clasificación. Agrupación de las partes de una imagen de forma homogénea Clasificación Agrupación de las partes de una imagen de forma homogénea Clasificación o clustering Intenta clasificar los píxeles directamente en clases, en función de ciertas características de cada píxel.

Más detalles

Detección y segmentación de objetos

Detección y segmentación de objetos 24 de abril de 2013 ¾Qué es segmentación? Segmentación Objetivo El objetivo de la segmentación de una imagen es el agrupamiento de ciertos píxeles de la imagen en regiones correspondientes a objetos contenidos

Más detalles

Técnicas Cuantitativas para el Management y los Negocios

Técnicas Cuantitativas para el Management y los Negocios Técnicas Cuantitativas para el Management y los Negocios Contador Público Módulo I: ESTADÍSTICA DESCRIPTIVA Contenidos Módulo I Unidad 1. Introducción y conceptos básicos Conceptos básicos de Estadística.

Más detalles

Clasificación y su comunicación.

Clasificación y su comunicación. Clasificación y su comunicación. Ruth Fuentes García Facultad de Ciencias-UNAM Congreso de Actuaría. Enero 24, 2013. Contenido 1 Objetivo 2 Algunos enfoques de análisis 3 Mi trabajo en el área 4 Clasificar

Más detalles

b) Use la salida de SPSS para reproducir lo que pueda de los cálculos que hace SPSS. Estadísticos de contraste b TIEMPO

b) Use la salida de SPSS para reproducir lo que pueda de los cálculos que hace SPSS. Estadísticos de contraste b TIEMPO Ejercicios resueltos de Métodos no paramétricos 1. Una agencia publicitaria está investigando a qué tipo de avisos le prestan más atención los adolescentes. Se observan a 11 niños, a 6 se les muestra avisos

Más detalles

Definición Una hipótesis es una afirmación acerca de un parámetro.

Definición Una hipótesis es una afirmación acerca de un parámetro. Capítulo 8 Prueba de hipótesis Existen dos áreas de interés en el proceso de inferencia estadística: la estimación puntual y las pruebas de hipótesis. En este capítulo se presentan algunos métodos para

Más detalles

Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos para Segmentación de Alumnos

Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos para Segmentación de Alumnos Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos para Segmentación de Alumnos Leticia Laura Ochoa, Mg 1, Karina Rosas Paredes, Mg 1, José Esquicha Tejada, Mg 1 1 Universidad Católica

Más detalles

Técnicas de Muestreo Métodos

Técnicas de Muestreo Métodos Muestreo aleatorio: Técnicas de Muestreo Métodos a) unidad muestral elemental: a.1) muestreo aleatorio simple a.2) muestreo (seudo)aleatorio sistemático a.3) muestreo aleatorio estratificado b) unidad

Más detalles

Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s.

Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s. Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s. Víctor Aguirre Torres Departamento de Estadística, ITAM. Seminario de Estadística, CIMAT. 5 de Nov 2007. Créditos Trabajo

Más detalles

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

Diseño de Bloques al azar. Diseño de experimentos p. 1/25 Diseño de Bloques al azar Diseño de experimentos p. 1/25 Introducción En cualquier experimento, la variabilidad proveniente de un factor de ruido puede afectar los resultados. Un factor de ruido es un

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

Introducción al Análisis Multivariante

Introducción al Análisis Multivariante al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012 Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos

Más detalles

3. Clasificación no supervisada

3. Clasificación no supervisada 3. El presente capítulo y el siguiente tratan de clasificación, es por ello que antes de abordar el tema específico de este capítulo, previamente se hará una introducción al tema de clasificación. 3.1

Más detalles

Tema 9. Análisis factorial discriminante

Tema 9. Análisis factorial discriminante Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. 9.1. Introducción. Tema 9. Análisis factorial discriminante Supongamos que están denidos I grupos,

Más detalles

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin

Más detalles

METODOS ESTADÍSTICOS

METODOS ESTADÍSTICOS METODOS ESTADÍSTICOS Introducción. Uno de los objetivos de la asignatura de Hidrología, es mostrar a los alumnos, las herramientas de cálculo utilizadas en Hidrología Aplicada para diseño de Obras Hidráulicas.

Más detalles

Gráfico de Control T-Cuadrada Multivariada

Gráfico de Control T-Cuadrada Multivariada Gráfico de Control T-Cuadrada Multivariada STATGRAPHICS Rev. 25/04/2007 Resumen El procedimiento Gráfico de Control T-Cuadrada Multivariada crea diagramas de control para dos o más variables numéricas.

Más detalles