1. Análisis de Conglomerados
|
|
- Felisa Venegas Cárdenas
- hace 5 años
- Vistas:
Transcripción
1 1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas de otros grupos. Generalmente no se sabe el número de grupos (denotado por k), ni sus tamaños (denotado por n k ). La parte interesante es definir qué es similar. Si por ejemplo el rango de las disimilitudes corre de 0 a C, podríamos definir que dos unidades son consideradas similares si su disimilitud es menor a 1C. 2 Existen métodos jerárquicos y no- jerárquicos. Dentro de los jerárquicos están los aglomerativos y los divisivos Métodos Jerárquicos Los métodos jerárquicos aglomerativos dan origen a un gráfico llamado dendograma. Estos método son iterativos y en cada paso debe recalcularse la matriz de distancias, en los casos en que se tienen muchas observaciones esto puede llevar mucho tiempo de cómputo. A continuación se presentan varios de estos métodos: Liga sencilla o del vecino más cercano: Al redefinir la distancia entre dos conglomerados, se toma la mínima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Este método tiende a tener un buen desempeño cuando hay grupos de forma elongada, conocidos como tipo cadena. d AB = mín i A,j B (d ij) Liga completa o del vecino más lejano: Al redefinir la distancia entre dos conglomerados, se toma la máxima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen 1
2 los dos conglomerados más cercanos. Se desempeña bien cuando los conglomerados son de forma circular. d AB = máx i A,j B (d ij) Liga promedio: Al redefinir la distancia entre dos conglomerados, se toma el promedio de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Funciona bien para conglomerados tanto tipo cadena como circulares. d AB = 1/(n A n B ) i A (d ij ) Liga centroide: Al redefinir la distancia entre dos conglomerados se toma la diferencia entre las medias (centroide) de cada conglomerado. j B Se unen los dos conglomerados más cercanos. Liga mediana: Al redefinir la distancia entre dos conglomerados se toma la diferencia ponderada entre las medias (centroide) de cada conglomerado, la ponderación está dada por el tamaño (número de unidades del conglomerado) de los conglomerados. Se unen los dos conglomerados más cercanos. Se espera un mejor rendimiento que el del centroide cuando los grupos varían mucho en tamaño. Método de Ward: Establece que la distancia entre dos clusters A, B es el incremento a la suma de los cuadrados de las distancias al nuevo centro d AB = i A B x i x A B 2 i A x i x A 2 i B x i x B 2 = n A n B (n A + n B ) x A x B 2 donde x j es el centro del cluster j y n j es el número de elementos en él. d AB se conoce como el costo por unir los clusters A y B. 2
3 Se comienza con una suma de cuadrados igual a cero, porque cada punto es un cluster, y luego crece con cada unión. Murtagh y Legendre en Journal of Classification (2014) muestran que la suma de distancias al cuadrado de los objetos al centro puede ser expresada a través de los datos originales yo como función de las distancias entre las observaciones. Dados dos pares de clusters cuyos centros están igual de apartados, este método tiende a unir primero los que tiene menos elementos. La suma de cuadrados de distancias final depende del orden en que va haciendo las uniones, esto puede significar que para una k dada, la suma de los cuadrados de las distancias por el método de Ward sea mayor que el mínimo para esa k. Conviene para mejorarlo usar este agrupamiento como punto inicial en un k-means. Sólo las dos primeras ligas son invariantes ante transformaciones monótonas de las disimilitudes d ij. Cabe hacer notar que en algunos casos se puede trabajar con sólo la matriz de disimilitudes, y en otros se requiere de los datos originales. Se construye el dendograma y se hace un corte a la altura de la disimilitud ( máxima) que se fije para considerar a dos sujetos como similares. En R la función hclust lo hace. Pros y contras Tiene la ventaja de que su cómputo es rápido para muestras de tamaño pequeño. Otra ventaja es que el dendrograma da una visión de como se arman los grupos, para distintas opciones de C. La mayor desventaja es que una vez que dos conglomerados se unen ya no pueden separarse más adelante en el algoritmo. 3
4 Son ineficientes para muestras de tamaño grande Métodos No-Jerárquicos De Partición Se fija la k y se busca la mejor partición posible para esa k. No se busca sobre todas las particiones posibles. Es un método iterativo, por lo que requiere de una agrupación inicial, Se va optimizando una función objetivo. Estos métodos analizan más particiones que los métodos jerárquicos. Se recomienda correr el algoritmo para varias opciones de k k-medias (k means) Este es el método de partición más conocido. En cada paso se reasignan los elementos del conglomerado de manera tal que la suma de distancias al cuadrado, de los puntos al centro de su conglomerado sea mínima. La distancia del punto a su centro se define como: d(x, x c ) 2 = (x x c ) (x x c ) con x = (x 1, x 2,..., x p ) y x c es el centroide del conglomerado c El objetivo es entonces minimizar W SS = k d(x i, m c ) 2 c=1 i c No se puede asegurar que se alcance el mínimo global, sino un mínimo local, así que se recomienda correr el algortimo con distintas particiones iniciales. En R la función kmeans lo hace. 4
5 k-medoides Este método es muy semejante al de k-medias, pero como para poder correr aquel algoritmo se necesitan la matriz X, y en ocasiones solo se tiene la matriz de distancias, este método en vez de usar el centroide usa un elemento representante al que llama medoide. Y ahora se busca minimizar Crit, Crit = k d(x i, x c ) 2 c=1 i c donde m c es el medoide, el elemnto más representativo del conglomerado c. En R la función pam del paquete cluster lo hace Método basado en modelo de mezcla de normales Los métodos jerárquicos y los de partición no suponen ninguna distribución. El método de conglomerados basado en modelos supone la existencia de k subpoblaciones que corresponden a los conglomerados que se buscan. Propuestos originalmente por Scott and Symons (1971) y recientemente desarrolados por Banfield and Raftery (1993) and Fraley and Raftery (2002). Sea γ = [γ 1, γ 2,..., γ n ] el vector de etiquetas de pertenencia, γ i significa que x i pertenece a la población j. = j Las densidades de las subpoblaciones son denotadas por f j (x; θ j ), y θ j representa a los parámetros desconocidos. la verosimilitud está dada por: L(θ 1,..., θ k, γ) = n f γi (x i ; θ γj ) i=1 5
6 El modelo consiste en elegir θ 1,..., θ k, γ de manera que esa verosimilitud se maximize. γ es el vector que define los conglomerados. Generalmente se supone normalidad multivariada. En la función de logverosimilitud se sustituye las medias µ j por x j. Para cada conglomerado se supone una estructura de covarianza Σ j. La más sencilla es Σ j tamaño parecido. = σ 2 I que tiende a formar grupos esféricos de La estructura Σ j dirección. = Σ produce conglomerados elípticos con la misma La estructura Σ j = Σ j a cada conglomerados le da una estructura diferente. El paquete mclust tiene la función Mclust que hace este tipo de conglomerados basados en modelos, permite opciones de elegir los grupos de tamaños y formas diferentes. Se trabaja con varias estructuras de covarianza y se elige aquella que arroje el menor BIC Algoritmos de dos pasos en SPSS : se recomienda cuando se tienen muchos datos. 1. Formación de Preconglomerados. La idea es reducir el tamaño de la matriz de distancias entre todos los posibles elementos. Los preconglomerados son conglomerados hechos con algunos de los datos originales, con los que se arman grupos usando un método jerárquico. Después, se lee 6
7 un caso, el algoritmo decide si se une a los conglomerados ya existentes, o forma un nuevo conglomerado. Una vez acabado el proceso de preaconglomeramiento, cada conglomerado es tratado como un solo elemento, la nueva matriz de distancias se reduce al número de preconglomerados. 2. Agrupación de preconglomerados. Se usa un método jerárquico estándar usando como elementos a los preconglomerados. En general cada método puede llevar a una agrupación diferente. Se recomienda usar varios métodos para identificar los individuos que brincan de un grupo a otro según el método usado, tambien para definir los tamaños de los grupos. 7
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Más detallesRECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no
Más detallesMinería de Datos Web. Cursada 2018
Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los
Más detallesAnálisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema
Más detallesTÉCNICAS DE AGRUPAMIENTO
TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento
Más detallesAprendizaje No Supervisado
Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesINTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Más detallesIntroducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
Más detallesPropiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como:
Familia Exponencial Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como: f (y; θ) = s(y)t(θ)exp[a(y)b(θ)] = exp[a(y)b(θ)+c(θ)+d(y)] (1) con s(y)
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesDefinición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más
Más detallesMódulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los
Más detallesCLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Más detallesTécnicas de agrupamiento (clustering)
Técnicas de agrupamiento (clustering) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Duda, Hart, Stork. Pattern Classification, capítulo 10. Jain, Duin, Mao. Statistical Pattern Recognition:
Más detallesANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos
Más detallesSistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.
Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales
Más detallesReconocimiento de Formas
Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o
Más detallesAprendizaje no supervisado
Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado
Más detallesAnálisis de agrupamiento (Cluster nmds)
Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y
Más detallesMáster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación
Más detallesIntroducción a las técnicas estadísticas de
Introducción a las técnicas estadísticas de clasificación y regresión. Aprendizaje no supervisado - Clustering Laura Aspirot, Sebastián Castro Universidad de la República (UdelaR) Jueves 21 y viernes 22
Más detallesTécnicas de Clustering
Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.
Más detallesComunidades. Buscando grupos naturales de nodos
Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico
Más detallesModelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:
Modelo Lineal Generalizado GAMMA Distribución gamma: Otra parametrización mediante el parámetro de forma y la media: La distribución gamma es de tipo exponencial: 1 Supongamos que se dispone de r subpoblaciones
Más detallesAnálisis de Conglomerados
Análisis de Conglomerados Resumen El procedimiento Análisis de Conglomerados esta diseñado para agrupar observaciones o variables en conglomerados basados en similaridades entre ellos. Los renglones de
Más detallesClasificación estadística de patrones
Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de
Más detallesANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.
ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos
Más detallesCLUSTERING. Bases de Datos Masivas
1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto
Más detallesExamen de Teoría de (Introducción al) Reconocimiento de Formas
Examen de Teoría de (Introducción al) Reconocimiento de Formas Facultad de Informática, Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Enero de 007 Apellidos:
Más detallesProf. Dra. Silvia Schiaffino ISISTAN
Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)
Más detallesAnálisis de datos Categóricos
Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1 Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores
Más detallesAnálisis de Conglomerados
Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las
Más detallesEL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)
EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento
Más detallesFactorización QR Método iterativo de Jacobi
Clase No. 13: MAT 251 Factorización QR Método iterativo de Jacobi Dr. Alonso Ramírez Manzanares CIMAT A.C. e-mail: alram@ cimat.mx web: http://www.cimat.mx/ alram/met_num/ Dr. Joaquín Peña Acevedo CIMAT
Más detallesClustering: Auto-associative Multivariate Regression Tree (AAMRT)
Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido
Más detallesIntroducción a Aprendizaje no Supervisado
Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación
Más detalles5. Análisis de cúmulos
5. Análisis de cúmulos OBJETIVO: Dividir a los individuos de una base de datos en grupos, llamados cúmulos (clusters), de tal manera que los individuos de un mismo cúmulo tengan características semejantes
Más detallesRESUMEN ANÁLISIS CLUSTER
RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados
Más detallesMétodos no supervisados: Agrupamiento
Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos
Más detallesCOMPONENTES PRINCIPALES
COMPONENTES PRINCIPALES Jorge Galbiati R. El método de Componentes Principales tiene por objeto reducir la dimensionalidad de un problema de múltiples variables, aplicando una sucesión de transformaciones
Más detallesSelección de Portafolios Óptimos Usando Clusters
Selección de Portafolios Óptimos Usando Clusters DJ ES 21 de noviembre de 2013 DJ ES (Quantil Matemáticas Aplicadas) Selección de Portafolios Óptimos 21 de noviembre de 2013 1 / 68 Contenido 1 Motivación
Más detallesOPTIMIZACIÓN VECTORIAL
OPTIMIZACIÓN VECTORIAL Métodos de Búsqueda Directa Utilizan sólo valores de la función Métodos del Gradiente Métodos de Segundo Orden Requieren valores aproimados de la primera derivada de f) Además de
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesNota técnica Estratificación multivariada
Instituto Nacional de Estadística y Geografía Nota técnica Estratificación multivariada Censo de Población y Vivienda 2010 NOTA TÉCNICA ESTRATIFICACIÓN MULTIVARIADA Con la finalidad de que el usuario pueda
Más detallesCARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS
CARACTERIZACIÓN DE LOS COMPONENTES DEL GASTO DE LOS TURISTAS DE CRUCEROS MEDIANTE TÉCNICAS DE DATAMINING Silvia Altmark, Ramón Alvarez, Florencia Santiñaque IESTA Buenos Aires,17 de Setiembre Silvia Altmark,
Más detallesANÁLISIS DE COMPONENTES PRINCIPALES
ANÁLISIS DE COMPONENTES PRINCIPALES INTRODUCCIÓN El objetivo principal de la mayoría de las técnicas numéricas de análisis multivariado, es reducir la dimensión de nuestros datos. Por supuesto, si esta
Más detallesTEMA 6 ANÁLISIS DE CONGLOMERADOS
TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante
Más detallesEstimación Máxima Verosimilitud
Estimación Máxima Verosimilitud Microeconomía Cuantitativa R. Mora Departmento of Economía Universidad Carlos III de Madrid Outline Motivación 1 Motivación 2 3 4 5 Estrategias generales de estimación Hay
Más detallesClase No. 13: Factorización QR MAT 251. Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) / 16
Clase No 13: Factorización QR MAT 251 Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) 03102011 1 / 16 Factorización QR Sea A R m n con m n La factorización QR de A es A = QR = [Q 1 Q 2 ] R1 = Q 0 1 R
Más detallesBarabasi Ch9. Detección de Comunidades
Barabasi Ch9 Detección de Comunidades 2 hipótesis para que funcione 1. Suponemos que existe una estructura en comunidades embebida en la red, i.e. en A ij Existen realmente grupos? Existen metodologías
Más detallesMétodos Estadísticos Multivariados
Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 20 Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 2: Análisis de conglomerados Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa
Más detallesTeorema Central del Límite
Teorema Central del Límite TCL: indica que, en condiciones muy generales, la distribución de la suma de v.a. tiende a una distribución normal cuando la cantidad de variables es muy grande. 156 Sea X 1,
Más detallesClasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Más detallesRegresión Lineal Múltiple
Universidad Nacional Agraria La Molina 2011-2 Efectos de Diagnósticos de Dos predictores X 1 y X 2 son exactamente colineales si existe una relación lineal tal que C 1 X 1 + C 2 X 2 = C 0 para algunas
Más detallesClusters. Walter Sosa Escudero. Universidad de San Andres y CONICET
(wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:
Más detallesTema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.
Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)
Más detallesTransformaciones y esperanza
Capítulo 3 Transformaciones y esperanza 3.1. Introducción Por lo general estamos en condiciones de modelar un fenómeno en términos de una variable aleatoria X cuya función de distribución acumulada es
Más detallesIntroducción Métodos Jerárquicos Métodos Particionantes. Cluster Analysis. Graciela Boente 1/71
Cluster Analysis Graciela Boente 1/71 Datos de Planetas Enanos Nombre Nodo 1 Inclinación 2 Eje 3 1935RF 130.916 4.659 2.2562 1941FD 132.200 4.700 2.1300 195QT 130.070 4.790 2.1893 1940YL 338.333 16.773
Más detallesEjercicio 1. Ejercicio 2
Guía de Ejercicios Ejercicio. Calcular los momentos de primer y segundo orden (media y varianza) de una variable aleatoria continua con distribución uniforme entre los límites a y b.. Sabiendo que la función
Más detallesEstimación de homografías
Estimación de homografías Visión en Robótica 1er cuatrimestre de 2013 1 Introducción del problema Una homografía es una transformación proyectiva que determina una correspondencia entre puntos El problema
Más detallesClasificación Supervisada. Métodos jerárquicos. CART
Clasificación Supervisada. Métodos jerárquicos. CART Ricardo Fraiman 2 de abril de 2010 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d.
Más detallesAlgebra de Matrices 1
Algebra de Matrices Definición Una matriz es un arreglo rectangular de valores llamados elementos, organizados por filas y columnas. Ejemplo: Notas: A 6. Las matrices son denotadas con letras mayúsculas..
Más detallesEjemplos de análisis cluster
Ejemplos de análisis cluster Objetivos: 1. Una aproximación a la terminología del análisis cluster o de conglomerados 2. Uso de las funciones oportunas de R para realizar el análisis 3. Interpretación
Más detallesEstimación por intervalos
Capítulo 9 Estimación por intervalos 9.1. Introducción En este capítulo se desarrolla la estimación por intervalos donde el proceso de inferencia se realiza de la forma θ C, donde C = Cx) es un conjunto
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesIntroducción. 2.2 Transformaciones de coordenadas: matriz de rotación y ángulos de Euler.
Agosto 2011 Introducción El análisis cinemático directo nos permite determinar en donde se encuentra el elemento terminal del robot (mano) si se conoce la posición de todas las articulaciones. 15 50 Posición?
Más detallesCurso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal
Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE
Más detallesContenido. 2 Operatoria con matrices. 3 Determinantes. 4 Matrices elementales. 1 Definición y tipos de matrices
elementales Diciembre 2010 Contenido Definición y tipos de matrices elementales 1 Definición y tipos de matrices 2 3 4 elementales 5 elementales Definición 1.1 (Matriz) Una matriz de m filas y n columnas
Más detallesESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.
ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda. APRENDIZAJE AUTOMÁTICO, ESTIMACIÓN Y DETECCIÓN Introducción
Más detallesAnálisis del artículo
Análisis del artículo Mean Shift: A Robust Approach toward Feature Space Analysis Dorin Comaniciu - Peter Meer R. Omar Chávez Garcia - Pável Herrera Domínguez 25 de mayo de 2009 Conceptos básicos Dorin
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur KNN: VECINO(S) MAS CERCANO(S) K NEAREST NEIGHBORS (KNN) Altura Niño Adulto Mayor Se guardan todos los ejemplos
Más detallesTema 2: Análisis Discriminante
Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece? Guión 1. Motivación 2. Clasificación
Más detallesEXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 2006
EXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 6 Problema ( ptos) Considera un experimento aleatorio con espacio muestral Ω. a) Definir una σ-álgebra A sobre Ω. b) Dar
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesRedes de Neuronas de Base Radial
Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta
Más detallesMétodos Estadísticos Multivariados
Métodos Estadísticos Multivariados Victor Muñiz ITESM Victor Muñiz (ITESM) Métodos Estadísticos Multivariados Agosto-Diciembre 2011 1 / 34 Álgebra matricial y vectores aleatorios Una matriz es un arreglo
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 1: Introducción Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa Pedro Galeano
Más detallesAlgebra Lineal XIX: Rango de una Matriz y Matriz Inversa.
Algebra Lineal XIX: Rango de una Matriz y Matriz Inversa José María Rico Martínez Departamento de Ingeniería Mecánica Facultad de Ingeniería Mecánica Eléctrica y Electrónica Universidad de Guanajuato email:
Más detallesTareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: agrupamiento CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesClasificación. Agrupación de las partes de una imagen de forma homogénea
Clasificación Agrupación de las partes de una imagen de forma homogénea Clasificación o clustering Intenta clasificar los píxeles directamente en clases, en función de ciertas características de cada píxel.
Más detallesDetección y segmentación de objetos
24 de abril de 2013 ¾Qué es segmentación? Segmentación Objetivo El objetivo de la segmentación de una imagen es el agrupamiento de ciertos píxeles de la imagen en regiones correspondientes a objetos contenidos
Más detallesTécnicas Cuantitativas para el Management y los Negocios
Técnicas Cuantitativas para el Management y los Negocios Contador Público Módulo I: ESTADÍSTICA DESCRIPTIVA Contenidos Módulo I Unidad 1. Introducción y conceptos básicos Conceptos básicos de Estadística.
Más detallesClasificación y su comunicación.
Clasificación y su comunicación. Ruth Fuentes García Facultad de Ciencias-UNAM Congreso de Actuaría. Enero 24, 2013. Contenido 1 Objetivo 2 Algunos enfoques de análisis 3 Mi trabajo en el área 4 Clasificar
Más detallesb) Use la salida de SPSS para reproducir lo que pueda de los cálculos que hace SPSS. Estadísticos de contraste b TIEMPO
Ejercicios resueltos de Métodos no paramétricos 1. Una agencia publicitaria está investigando a qué tipo de avisos le prestan más atención los adolescentes. Se observan a 11 niños, a 6 se les muestra avisos
Más detallesDefinición Una hipótesis es una afirmación acerca de un parámetro.
Capítulo 8 Prueba de hipótesis Existen dos áreas de interés en el proceso de inferencia estadística: la estimación puntual y las pruebas de hipótesis. En este capítulo se presentan algunos métodos para
Más detallesEstudio Comparativo de Técnicas no Supervisadas de Minería de Datos para Segmentación de Alumnos
Estudio Comparativo de Técnicas no Supervisadas de Minería de Datos para Segmentación de Alumnos Leticia Laura Ochoa, Mg 1, Karina Rosas Paredes, Mg 1, José Esquicha Tejada, Mg 1 1 Universidad Católica
Más detallesTécnicas de Muestreo Métodos
Muestreo aleatorio: Técnicas de Muestreo Métodos a) unidad muestral elemental: a.1) muestreo aleatorio simple a.2) muestreo (seudo)aleatorio sistemático a.3) muestreo aleatorio estratificado b) unidad
Más detallesAlgunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s.
Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s. Víctor Aguirre Torres Departamento de Estadística, ITAM. Seminario de Estadística, CIMAT. 5 de Nov 2007. Créditos Trabajo
Más detallesDiseño de Bloques al azar. Diseño de experimentos p. 1/25
Diseño de Bloques al azar Diseño de experimentos p. 1/25 Introducción En cualquier experimento, la variabilidad proveniente de un factor de ruido puede afectar los resultados. Un factor de ruido es un
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.
Más detallesIntroducción al Análisis Multivariante
al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012 Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos
Más detalles3. Clasificación no supervisada
3. El presente capítulo y el siguiente tratan de clasificación, es por ello que antes de abordar el tema específico de este capítulo, previamente se hará una introducción al tema de clasificación. 3.1
Más detallesTema 9. Análisis factorial discriminante
Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. 9.1. Introducción. Tema 9. Análisis factorial discriminante Supongamos que están denidos I grupos,
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin
Más detallesMETODOS ESTADÍSTICOS
METODOS ESTADÍSTICOS Introducción. Uno de los objetivos de la asignatura de Hidrología, es mostrar a los alumnos, las herramientas de cálculo utilizadas en Hidrología Aplicada para diseño de Obras Hidráulicas.
Más detallesGráfico de Control T-Cuadrada Multivariada
Gráfico de Control T-Cuadrada Multivariada STATGRAPHICS Rev. 25/04/2007 Resumen El procedimiento Gráfico de Control T-Cuadrada Multivariada crea diagramas de control para dos o más variables numéricas.
Más detalles