Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
|
|
- Vicente Maldonado Juárez
- hace 6 años
- Vistas:
Transcripción
1 ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1
2 Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación n general de las técnicas t estadísticas: sticas: ESTADÍSTICA STICA DESCRIPTIVA ESTADÍSTICA STICA AVANZADA 2 Medidas Tendencia Central Medidas de Dispersión Medidas de Distribución Análisis de Correspondencias Análisis Factorial ANÁLISIS CLUSTER (Tema 2)
3 2.1 Consideraciones generales. Se basa en el concepto de clasificación: En general, es el proceso o acto de asignar un nuevo caso u observación en su lugar correspondiente dentro de un conjunto de categorías establecido. En estadística, es un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados clusters. 3 En matemática, dado un conjunto d m objetos individuales cada uno de los cuales viene descrito por un conjunto de n características o variables, trata de deducir una división útil en un número de clases que deben ser determinadas a priori.
4 Una herramienta muy útil: el análisis cluster se puede utilizar para: En la taxonomía, para agrupar especies naturales (animales o plantas). En marketing, facilita la clasificación de consumidores tipo dentro del conjunto de la población. En medicina, permite clasificar seres vivos con los mismos síntomas y características patológicas. Se emplea en técnicas de reconocimiento de patrones o perfiles (clientes de bancos, de seguros, poblaciones de riesgo, enfermedades, etc.). 4 Para formar grupos de pixels de imágenes digitalizadas enviadas por un satélite con el fin de identificar las características de los terrenos.
5 2.2 Análisis cluster, análisis multivariante. Es un tipo de técnicas estadísticas de análisis multivariante Permite un mejor entendimiento del fenómeno objeto de estudio OBJETIVOS del análisis multivariante: Proporcionar métodosm que otras técnicas estadísticas son incapazes de conseguir. 5 Ayudar al analista o investigador a tomar decisiones óptimas.
6 2.3 Análisis Cluster: definiciones. a) AC es el nombre genérico de una amplia variedad de procedimientos que pueden ser usados para crear una clasificación. b) AC es un procedimiento estadístico multivariante que comienza con un conjunto de datos conteniendo información (variables) sobre una población (o una muestra) e intenta reorganizarlos en grupos o conglomerados relativamente homogéneos a los que se denomina clusters. 6 c) Es una técnica de clasificación de datos, cuyo principal objetivo es formar e identificar un número pequeño y óptimo de grupos de individuos homogéneos respecto a un conjunto de características (variables) que pueden ser cuantitativas o cualitativas.
7 2.4 Selección de la medida de Similitud o Distancia. La similitud (símilaridad) es una medida de semejanza entre los casos que van a ser agrupados. El procedimiento del AC = medir la similitud en términos de distancias. Los individuos más parecidos = características similares = más cercanos = un mismo grupo/cluster. Métodos usados en la medición de la similitud: Medidas de correlación (variables) (datos cuantitativos) Medidas de distancia (casos) Medidas de asociación (casos) (datos cualitativos) 7
8 FUNDAMENTAL!!!! El resultado final del AC depende radicalmente de la medida de ASOCIACIÓN/SIMILITUD/DISTANCIA utilizada. PORQUÉ? La medidas de distancia son sensibles a las diferencias de escalas entre las variables No todas las variables tienen el mismo peso en el resultado final. 8 Especialmente las variables con una gran dispersión (valores grandes de sus desviaciones típicas) tienen más impacto.
9 Transformación o Estandarización de datos. Eliminar los perjuicios de las diferencias en las escalas de los distintos atributos (variables). Puede afectar al resultado del análisis Puntuaciones Z: Es la forma más común. Consiste es la conversión de cada variable en puntuaciones típicas. Factorización: Puede resultar interesante realizar el AC con factores en lugar de con variables. 9
10 2.4.1 Medidas de Correlación Para clasificar variables. a) Coeficiente de congruencia (CRS): Es conveniente utilizarlo con variables tipo razón. No se ve afectado por cambios de escala. Es el coseno del ángulo que forman los vectores entre los casos. b) Coeficiente de correlación (RRS): No se ve afectado por cambios de escala. Si los objetos r y s son variables, mide el grado de asociación lineal existente entre ambas (r 2 ). 10
11 2.4.2 Medidas de distancia. a) Medidas para variables cuantitativas No son invariantes a cambios de escala => estandarizar los datos. No tienen en cuenta las relaciones existentes entre las variables. 1) Distancia euclídea y distancia euclídea al cuadrado 2) Distancia métrica de Chebychev t 3) Distancia de Manhattan (en SPSS, City-Block) dij = ( Xik X k = 1 4) Distancia de Mahalanobis b) Medidas para datos binarios jk ) )Distancia euclídea al cuadrado
12 2.5 Clasificación de la técnicas clusters o Procedimientos de Agrupación. 1. CONGLOMERADOS JERÁRQUICOS (ESTRUCTURA PROGRESIVA EN ARBOL) JERÁRQUICOS AGLOMERATIVOS Distancia mínima (single linkage) Distancia máxima (complete linkage) Distancia entre centros (centroide) Distancia mediana (median) Distancia promedio Método de Ward JERÁRQUICOS DIVISIVOS CONGLOMERADOS NO JERÁRQUICOS (K-MEDIAS) OPTIMIZACIÓN
13 13
14 2.5.1 Procedimientos Jerárquicos. Conceptos Objetivo = permitir tomar una decisión sobre cuál es el número idóneo de conglomerados Estructura jerárquica en forma de árbol. Cada caso forma parte de un cluster u otro en función de las distancias que existen entre ellos. Variables brutas (originales) o transformaciones de estandarización. 14
15 2.5.1 Procedimientos Jerárquicos. Métodos Los Métodos Jerárquicos pueden ser de dos tipos: i. Aglomerativos. Los métodos aglomerativos comienzan con n clusters de un caso cada uno. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los 2 casos o grupos más similares (más próximo). El algoritmo acaba con 1 cluster conteniendo todos los elementos. ii. Divisivos. 15 Los métodos divisivos comienzan con 1 cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el caso o grupo más heterogéneo (más lejano). El algoritmo acaba con n clusters de un elemento cada uno.
16 2.5.1 Procedimientos Jerárquicos. Métodos Método jerárquico aglomerativo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 Elemento 5 Método jerárquico divisivo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 16 Elemento 5
17 2.5.1 Procedimientos Jerárquicos. Métodos El método de enlace sencillo (single linkage) Distancia mínima o la regla del vecino más próximo. Se identifica la distancia más próxima entre dos casos, un caso y un conglomerado o dos conglomerados. Los clusters se unen considerando la menor de las distancias existentes entre los miembros más cercanos de distintos grupos. 17 El método de enlace completo (complete linkage) Distancia máxima o la regla del vecino más lejano. Se identifica la distancia más lejana entre dos casos, un caso y un conglomerado o dos conglomerados. Los grupos se unen considerando la menor de las distancias existentes entre los miembros más lejanos de distintos grupos.
18 2.5.1 Procedimientos Jerárquicos. Métodos El método de Ward Se basa en la varianza intragrupos de la estructura formada. El procedimiento: 1. En cada grupo se calculan las medias de todas las variables. 2. Se calcula la distancia euclidiana al cuadrado de cada caso con respecto a las medias anteriores. 3. Se suman todas esas distancias para cada caso. 4. En cada etapa se combinarán los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados. 18
19 2.5.1 Procedimientos Jerárquicos. Métodos El método del Centroide Distancia media entre los centroides de dos grupos. Dos cluster próximos tienen centroides semejantes. Cada vez que se agrupan los objetos, se calcula un centroide nuevo. 19 DE LOS MÉTODOS JERÁRQUICOS, LOS DE ENLACE (linkaje) Y EL DE WARD HAN DEMOSTRADO UN MEJOR DESEMPEÑO QUE LOS OTROS.
20 2.5.2 Procedimientos No Jerárquicos. Conceptos Se conoce como de K Medias. Es un procedimiento de optimizante o partitivo. Consiste en formar un número (K) prefijado de grupos homogéneos, excluyentes x las distancias existentes entre casos y/o variables. Técnica de agregación alrededor de centros de gravedad móviles: los casos se agrupan en cada etapa cambiando el centro de gravedad 1 de los grupos. 1) Punto de un cluster en el que la suma de las distancias euclídeas al cuadrado de cada individuo con dicho centro es mínima. 20
21 2.5.2 Procedimientos No Jerárquicos. Conceptos Es necesario fijar de antemano el número de grupos (K): Seleccionando a priori el número de centros (K). Cuando no se tiene ninguna idea del número de grupos, escogiendo un número aleatorio de centros. En este caso, esta técnica puede usarse con carácter exploratorio. 21
22 Procedimientos No Jerárquicos. Métodos El método del Umbral Secuencial Se selecciona un centro de grupo y a partir de él se agrupan todos los casos dentro de un umbral (valor de distancia que se especifica previamente). El método del Umbral Paralelo Similar al anterior excepto en que se seleccionan varios centros de grupo simultáneamente y se agrupan los casos dentro el umbral del centro más próximo. El método de división para la Optimización Difiere de los otros dos procedimientos en que los casos pueden reasignarse a otros grupos en posteriores etapas de análisis.
23 2.7 Procedimiento del AC con SPSS Formulación del Problema Análisis de Conglomerados Jerárquicos Análisis de k Medias (No Jerárquico).
24 Procedimiento del Análisis de Conglomerados 24
25 2.7.1 Formulación del Problema y Diseño de la Investigación. i. Selección de la población ii. Selección de variables (1) No incluir ni elegir variables indiscriminadamente (1) iii. Transformación Atención!! Si las variables no tienen las mismas unidades de medida. 25
26 2.7.2 Análisis de Conglomerados Jerárquicos (SPSS). a) Escoger la medida de la distancia. Establecer una medida de similaridad entre cada par de casos según el tipo de datos que sean (2) (intervalo, frecuencia, binario) (3) : CASOS: medidas de distancia (datos cuantitativos) (3) (2) Medidas de asociación (datos cualitativos) VARIABLES: Medidas de proximidad (4) 26 Si fuera necesario, se procede a la transformación de los datos (4).
27 b) Escoger el método de agrupamiento. No existe un criterio estadístico Cada AC variará su solución según el método escogido. Dependerá de la propia estructura de los datos. Los métodos de agrupamientos recomendados son: Vecino más lejano. 27 Método de Ward.
28 c) Conocer el Historial de Aglomeración: Este gráfico muestra información sobre: a) las etapas en las que se van uniendo los casos (5) b) el par de casos que se unen en cada etapa y a la distancia que se ha unido (6); c) las etapas previas y posteriores en la que aparecen los casos implicados (7). (5) (6) (7) 28
29 d) Conocer las distancias entre pares de individuos: Matriz de Distancias (4): muestra la distancias que hay entre cada par de casos. El tipo de matriz obtenida de distancias dependerá de la medida y del método seleccionados. (4) 29 Matriz de distancias distancia euclídea al cuadrado Caso ,0933 1,0147 2,6317 1, ,0933 0,4825 4,0386 1, ,0147 0,4825 1,8699 2, ,6317 4,0386 1,8699 6, ,1164 1,9940 2,7496 6, ,7736 1,2262 3,1072 9,2487 1, ,8044 2,5238 3,2590 6,0174 0,4242
30 30 Máster en Ordenación y Gestión del Desarrollo Territorial y Local e) Determinar el número óptimo de grupos o clusters (I): No existen criterios determinar el número óptimo de grupos, Dendograma Es un gráfico que muestra las etapas de fusión y las distancias de unión. Los conglomerados se representan mediante trazos horizontales (9) y las etapas de fusión o clusters mediante trazos verticales (10). DENDOGRAMA A medida que se van formando grupos, éstos son menos homogéneos (8). (10) (9) (8)
31 EJEMPLO: dos opciones: Con La primera opción se pueden identificar dos grupos considerando la distancia 1000 (en la variable Height) (línea naranja). En la segunda opción se consideraría cuatro clusters partiendo del corte en una distancia 250 (en la variable Height) (línea negra). 31
32 e) Determinar el número óptimo de grupos o clusters (II): Para determinar el número óptimo de grupos: TABLA DEL CONGLOMERADO DE PERTENENCIA. 32 Listado de todos los casos analizados indicando el conglomerado al que han sido asignados (11) Permiten observar el cluster en el que estaría cada caso (luego de haber establecido una distancia y un método de agrupamiento) escogiendo el número de grupos previamente (una única solución o un rango de ellas) (11).
33 2.7.3 Análisis de k Medias (No Jerárquico) (SPSS). Elegir una partición inicial de grupos y después intercambiar los miembros de esos clusters para obtener una partición mejor. RECOMENDACIONES: a) Los datos deben ser cuantitativos. b) Seleccione las variables estandarizadas. c) Escoja el método Iterar y clasificar para obtener la máxima eficacia. 33
34 d) Elegir el número de conglomerados finales: Si no se conocen el número (k) de grupos realizar diferentes diagramas de dispersión 34
35 e) Resultados = Tabla de centros de conglomerados. Determina las principales características grupo (11). de cada Centros iniciales de los conglomerados REGR factor score 1 for analysis 3 REGR factor score 2 for analysis 3 REGR factor score 3 for analysis 3 Conglomerado , , , , ,25993, , , ,19647,51473, , REGR factor score 1 for analysis 3 REGR factor score 2 for analysis 3 REGR factor score 3 for analysis 3 Centros de los conglomerados finales (11) Conglomerado , , , , ,09801,44972, ,85493,41929,02320, ,18482
36 f) Resultados = Número de casos que tienen cada cluster. La tabla que nos informa sobre el número de casos asignados a cada cluster o grupo (12). Es habitual que algunos grupos contengan pocos casos e incluso un solo individuo (casos atípicos). 36 Número de de casos en en cada conglomerado (12) Conglomerado 1 4, , , ,000 Válidos 12,000 Perdidos 3,000
37 g) Guardar la información del conglomerado de pertenencia: Se almacena como nuevas variables en el fichero de datos (*.sav). Dichas variables son: El Conglomerado de pertenencia. Esta nueva variable indica el conglomerado final. La Distancia desde centro del conglomerado. Esta nueva variable indica la distancia euclídea 1 entre cada caso y su centro de clasificación. 37 1) El procedimiento de ANÁLISIS DE K MEDIAS siempre mide la distancia euclídea entre los casos.
38 Una herramienta muy útil: en Geografía Regional: 38 DEFINICIÓN N DE UNA TIPOLOGÍA A DE REGIONES EUROPEAS OBJETIVO: Elaborar una clasificación n y caracterizar el espacio socioeconómico europeo en base unos indicadores. Valorar la intensidad de las problemas regionales (la mayoría a de los estudios son realizados bajo una visión unidimensional de los indicadores). Los indicadores considerados son: tasa de actividad total (TACTO), tasa de actividad de las mujeres (TMU), relación n entre activos e inactivos (GRD), tasa de desempleo total (TDT), MUCHAS tasa de desempleo para las mujeres (TDM) y VARIABLES!! para los hombres (TDV), ocupación n en agricultura (OAGR), ocupación n en industria (OIND), ocupación n en servicios (OSER), y PIB por habitante (PIB/H P).
39 UNA TIPOLOGÍA A DE REGIONES EUROPEAS... METODOLOGÍA: El método m más m adecuado para detectar proximidades y diferencias en bienestar entre regiones europeas: analizar simultáneamente un conjunto de indicadores demográficos, de mercado de trabajo y PIB por habitante. Mediate el Análisis Cluster: : se parte del conjunto de datos con información relevante de esos indicadores regionales e intentan reorganizarlos en grupos homogéneos. 39 Las variables finalmente incorporadas en el modelo,, ordenadas de mayor a menor contribución n a la discriminación n entre los seis grupos: 1. Tasa de desempleo de las mujeres. 2. PIB/habitante en paridad de poder de compra. 3. Ocupación n agraria. 4. Grado de dependencia. 5. Ocupación n industrial.
40 UNA TIPOLOGÍA A DE REGIONES EUROPEAS... CONCLUSIONES FACTORES EXPLICATIVOS. Alto poder diferenciador de las variables tasa de desempleo de la mujer y de capacidad adquisitiva (PIB/habitante) en la valoración n (aportación) ) de las desigualdades regionales (factor 1º). 1 INTERPRETACIÓN: N: este indicador presenta una alta capacidad discriminatoria entre espacios (regiones) comunitarios lo que parece poner de relieve. Las variables estructura de la producción grado de dependencia (tasa de actividad) las que mejor explican las diferencias regionales en la Unión n Europea (factor2ª). 40 IDENTIFICACIÓN N DE GRUPOS. Tales diferencias dan lugar a seis grupos de regiones,, cuyas características más m s relevantes son: Grupo 1: regiones de desarrollo medio, con importantes problemas en el mercado de trabajo. Son las regiones más m s desarrolladas de... Grupo 2:...
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos
Más detallesRECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no
Más detallesCLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Más detallesIntroducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
Más detallesAnexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN 165 ENCUESTA DE COMPORTAMIENTOS Y TIPOLOGÍAS DE VISITANTES EN EUSKADI 166 ANEXO I. CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Más detallesANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Más detallesTema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.
Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)
Más detallesTEMA 6 ANÁLISIS DE CONGLOMERADOS
TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante
Más detallesINTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Más detallesMinería de Datos Web. Cursada 2018
Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los
Más detallesANÁLISIS DE CONGLOMERADOS NO JERÁRQUICO
Análisis de conglomerados no jerárquico ANÁLISIS DE CONGLOMERADOS NO JERÁRQUICO El análisis de conglomerados es un procedimiento estadístico de clasificación que pretende identificar grupos relativamente
Más detallesRESUMEN ANÁLISIS CLUSTER
RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados
Más detallesAnálisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema
Más detallesIntroducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación
Introducción Clasificación Ord. + Clas. Geobotánica Tema 12 y clasificación Copyright: 2011 Francisco Alcaraz Ariza. Esta obra está bajo una licencia de Reconocimiento-No Comercial de Creative Commons
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 2: Análisis de conglomerados Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa
Más detallesAnálisis de Conglomerados
Análisis de Conglomerados Resumen El procedimiento Análisis de Conglomerados esta diseñado para agrupar observaciones o variables en conglomerados basados en similaridades entre ellos. Los renglones de
Más detalleso Análisis de Conglomerados
Análisis de ClusterCapítulo 9 o Análisis de Conglomerados Capítulo 9 1. Introducción El análisis de cluster, o de conglomerados, es una técnica de análisis que se centra, más que en las variables, en
Más detallesAnálisis de agrupamiento (Cluster nmds)
Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre
Más detallesFUNDACIÓN UNIVERSITARIA LOS LIBERTADORES DEPARTAMENTO DE CIENCIAS BÁSICAS ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
UNA SEGMENTACIÓN DE CLIENTES QUE ADQUIRIERON CRÉDITOS DE LIBRE INVERSIÓN EN UNA ENTIDAD FINANCIERA COLOMBIANA I SEMESTRE 2015 OSCAR TUMBIA JAIRO MARTINEZ OMAR BELTRAN FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
Más detalles1. Análisis de Conglomerados
1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas
Más detallesCLUSTERING. Bases de Datos Masivas
1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto
Más detallesTema 12: Introducción a la Estadística.
MOLEDO GUGLIOTTA VICTOR Tratamiento de los datos Tema 12: Introducción a la Estadística. Al intentar interpretar la realidad a través de las herramientas que nos aporta la Estadística, lo primero que se
Más detallesINDICE Capitulo 1. Entorno de Trabajo e SPSS Capitulo 2. Operadores y Funciones. Aplicaciones
INDICE Introducción XV Capitulo 1. Entorno de Trabajo e SPSS 1 Introducción y manejo de datos en SPSS 1 Lectura e importación de datos SPSS 6 Importación de datos de hoja de cálculo 8 Importación de archivos
Más detallesAnálisis de Conglomerados
Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las
Más detallesEstadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
Más detallesCurso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal
Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE
Más detallesClasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Más detallesQué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)
Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión
Más detallesTEMA 8: ESTADÍSTICA DESCRIPTIVA.
I.E.S. Salvador Serrano de Alcaudete Departamento de Matemáticas º ESO 0 / TEMA 8: ESTADÍSTICA DESCRIPTIVA. 8. Introducción. La palabra ESTADÍSTICA procede del vocablo Estado, pues era función principal
Más detallesSesión 3: Análisis Exploratorio de Datos Espaciales (AEDE): Técnicas básicas
Sesión 3: Análisis Exploratorio de Datos Espaciales (AEDE): Técnicas básicas Profesora: Coro Chasco Yrigoyen Universidad Autónoma de Madrid 17 a 21 de mayo, 2010 2010, Coro Chasco Yrigoyen Índice del Curso
Más detallesAnálisis Cluster en SPSS
Análisis Cluster en SPSS M. D olores M artínez M iranda Profesora del D pto. E stadística e I.O. U niversidad de G ranada Referencias bibliográficas 1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black,
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 1: Introducción Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa Pedro Galeano
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesClasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Más detallesCENTRO DE ENSEÑANZA SUPERIOR COLEGIO UNIVERSITARIO CARDENAL CISNEROS ADSCRITO A LA UNIVERSIDAD COMPLUTENSE DE MADRID
CENTRO DE ENSEÑANZA SUPERIOR COLEGIO UNIVERSITARIO CARDENAL CISNEROS ADSCRITO A LA UNIVERSIDAD COMPLUTENSE DE MADRID GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS CURSO 4º ANALISIS DE DATOS PROGRAMA
Más detalles6. Aportación y propuesta para al estudio de noticias en prensa con técnicas estadísticas multivariantes: Análisis cluster
6. Aportación y propuesta para al estudio de noticias en prensa con técnicas estadísticas multivariantes: Análisis cluster En este estudio sobre discapacidad queremos realizar una propuesta de aplicación
Más detallesIntroducción al Análisis Multivariante
al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012 Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos
Más detallesGLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.
GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos
Más detallesCapítulo 21. Análisis de conglomerados (I): El procedimiento Conglomerados de K medias. Introducción
Capítulo 21 Análisis de conglomerados (I): El procedimiento Conglomerados de K medias Introducción El análisis de conglomerados (en inglés, cluster analisys) es una técnica multivariante que permite agrupar
Más detallesCapítulo 21 Análisis de conglomerados (I): El procedimiento Conglomerados de K medias Introducción
Capítulo Análisis de conglomerados (I): El procedimiento Conglomerados de K medias Introducción El análisis de conglomerados (en inglés, cluster analisys) es una técnica multivariante que permite agrupar
Más detallesBLOQUE III. ANÁLISIS MULTIVARIANTE
BLOQUE III. ANÁLISIS MULTIVARIANTE CAPÍTULO 7 Teoría sobre análisis multivariante. El análisis multivariante engloba un grupo de técnicas o métodos estadísticos cuya finalidad es analizar simultáneamente
Más detallesCapítulo 8. Análisis Discriminante
Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables
Más detallesAnálisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero
Análisis Cluster Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València Abril 2011 Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València
Más detallesIntroducción a las técnicas de. Análisis multivariante
Introducción a las técnicas de Análisis Multivariante Fco. Javier Burguillo Universidad de Salamanca Objetivo: estudio de varias variables simultáneamente: X X X3 X4 X5 Objeto 34 6 0. 0.7 Objeto 4 36 3
Más detallesEl análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)
El análisis de correspondencias Ana María López Jiménez Dept. Psicología Experimental (USE) 4. El análisis de correspondencias 4.. Introducción 4.2. Tabla de correspondencias 4.3. Dependencia e independencia
Más detallesClasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Más detallesPROCESO DE PREPARACIÓN DE DATOS
Partes incompletas Funcionamiento de los cuestionarios Incomprensión Entrega tardía Persona incorrecta PROCESO DE PREPARACIÓN DE DATOS FUENTE: Malhotra, N pag. 426 y sgtes Edición Codificación Trascripción
Más detallesMaterial del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez
Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos
Más detallesÍNDICE. Introducción... Capítulo 1. Técnicas de minería de datos y herramientas... 1
ÍNDICE Introducción... XI Capítulo 1. Técnicas de minería de datos y herramientas... 1 Clasificación de las técnicas de minería de datos y herramientas más comunes... 1 Modelado originado por la teoría
Más detallesSegún el número de variables a analizar se definen varios niveles de análisis de datos:
Según el número de variables a analizar se definen varios niveles de análisis de datos: Univariante Bivariante Multivariante Univariante Se toma en cuenta cada una de las variables pudiendo extraer las
Más detallesMASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: ANÁLISIS DEL RIESGO ACTUARIAL Y FINANCIERO
MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN 2009 Nombre de asignatura: ESTADÍSTICA ACTUARIAL III: ANÁLISIS MULTIVARIANTE DE DATOS Código: 603377 Materia: ESTADÍSTICA ACTUARIAL Módulo: ANÁLISIS DEL
Más detallesPráctica 3. Para comenzar esta práctica abrimos el programa SPSS.
Análisis de Datos Licenciatura en Biología Curso oo9/o0 Práctica 3 El fichero de datos necesario para realizar esta práctica, turtlefmxls, se encuentra en la página web http//wwwuames/danielfaraco La ruta
Más detallesDefinición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más
Más detallesANÁLISIS DE CLÚSTERS (CLUSTERING)
ANÁLISIS DE CLÚSTERS (CLUSTERING) Marcela Gómez González May 26, 2008 Abstract El objetivo de éste artículo es conocer los métodos y algorítmos que nos permiten agrupar casos sobre los cuáles se miden
Más detallesNúmeros reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.
MATEMÁTICAS I Contenidos. Aritmética y álgebra: Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos. Resolución e interpretación gráfica de ecuaciones e
Más detallesTALLER DE ANÁLISIS DE DATOS ESPACIALES
TALLER DE ANÁLISIS DE DATOS ESPACIALES ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES José Antonio Huitrón Mendoza Jaime Alberto Prudencio Vázquez Ángel Rodolfo Reynoso Cruz Seminario de Análisis Regional y
Más detallesLaura de la Fuente Crespo. Análisis Cluster
Laura de la Fuente Crespo Análisis Cluster Análisis Cluster ÍNDICE Teoría Análisis Cluster... 1 Análisis Cluster No Jerárquico con SPSS... 25 Análisis Cluster Jerárquico con SPSS... 36 Análisis Cluster
Más detallesEstadística. Conceptos de Estadística Descriptiva
Estadística Conceptos de Estadística Descriptiva Estadística Descriptiva Recordemos que : Es la rama de la Estadística que trata básicamente sobre la recolección, organización, presentación, descripción,
Más detallesEstadística Descriptiva y Probabilidad FORMULARIO
Estadística Descriptiva y Probabilidad FORMULARIO Departament d Estadística i Investigació Operativa Universitat de València Angel Corberán Francisco Montes 2 3 Capítulo 1 Estadística Descriptiva 1.1.
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesGRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Cuarto curso
GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Cuarto curso Asignatura Análisis de datos Código 802301 Módulo Formación transversal Materia Carácter Créditos 4 Optativa Presenciales 2,2 No presenciales
Más detallesGRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Cuarto curso
GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS Cuarto curso Asignatura Análisis de datos Código 802301 Módulo Formación transversal Materia Carácter Créditos 4 Optativa Presenciales 1.8 No presenciales
Más detallesPRACTICA Nº 4 AUTOCORRELACIÓN ESPACIAL
CARRERA DE POSGRADO ESPECIALIZACIÓN EN TECNOLOGÍAS DE LA INFORMACIÓN GEOGRÁFICA (TIG) -------------------------------------------------------------------------------------------------------------------------
Más detallesProf. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada
Clustering Análisis de segmentación Prof. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International
Más detallesANÁLISIS DE CONGLOMERADOS. Prof. Esperanza Ayuga Téllez
ANÁLISIS DE CONGLOMERADOS Prof. Esperanza Ayuga Téllez Tiene por objeto agrupar elementos en grupos homogéneos en función de las similitudes entre ellos. Detecta grupos internamente homogéneos (y (y heterogéneos
Más detalles2.- Tablas de frecuencias
º BACHILLERATO MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II TEMA 3.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ -----------------------------------------------------------------------------------------------------------------------------------------------------------------
Más detallesGuía docente 2007/2008
Guía docente 2007/2008 Plan 247 Lic.Investigación y Tec.Mercado Asignatura 43579 METODOS CUANTITATIVOS PARA LA INVESTIGACION DE MERCADOS Grupo 1 Presentación Métodos y técnicas cuantitativas de investigación
Más detallesANÁLISIS DE CONGLOMERADOS
ANÁLISIS DE CONGLOMERADOS 1.- Introducción... 2 2.- Conglomerados jerárquicos... 2 2.1.- Historial de la conglomeración... 5 2.2.- Gráfico de témpanos... 6 2.3.- Dendrograma... 6 2.4.- Guardar conglomerados...
Más detallesDepartamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.
TEMA 9 DESCRIPTIVOS El submenú Estadísticos descriptivos está en el menú Analizar, y ofrece una serie de opciones para analizar datos de una forma sencilla. En este capítulo serán descritos estos procedimientos.
Más detallesDiferencias y nuevos espacios territoriales
Capítulo Diferencias y nuevos espacios territoriales 10 Capítulo 10 Diferencias y nuevos espacios territoriales 183 Hacia una propuesta de conformación de espacios territoriales Este último capítulo se
Más detallesDpto. de Matemáticas IES Las Breñas CONTENIDOS MÍNIMOS del ÁREA DE MATEMÁTICAS Septiembre 2.016
Dpto. de Matemáticas IES Las Breñas CONTENIDOS MÍNIMOS del ÁREA DE MATEMÁTICAS Septiembre 2.016 4º ESO OPCIÓN A U1: Estadística. Estadística. Nociones generales - Individuo, población, muestra, caracteres,
Más detallesVariables y Elementos medibles en Estadísticas
Variables y Elementos medibles en Estadísticas Población: Es el universo que se quiere estudiar Pacientes de un hospital Doctores de una clínica Personas enfermas en una comunidad Personas en una feria
Más detallesVARIABLE Modalidad 1... Modalidad k Total f 1... f k n
Apuntes de Métodos Estadísticos I Prof. Gudberto J. León R. I- 18 Estudio descriptivo de una colección de datos Cuando se ha recolectado la información correspondiente al fenómeno que se está investigando,
Más detallesIndice
Índice Prólogo.... 15 Capítulo 1. Preliminares... 17 1.1. Introducción............................. 17 1.2. Nombres nuevos para conocidos métodos clásicos........ 17 1.3. *Algunos elementos matemáticos
Más detallesMINICURSO Introducción al análisis multivariado de datos químicos (Quimiometría) Dr. Roberto Pellerano
MINICURSO Introducción al análisis multivariado de datos químicos (Quimiometría) Dr. Roberto Pellerano Descripción breve del curso: El análisis multivariado de datos químicos (Quimiometría) es el conjunto
Más detallesUNIDAD 8. ESTADÍSTICA
UNIDAD 8. ESTADÍSTICA La Estadística es la rama de las Matemáticas que se ocupa de la recopilación y ordenación de datos para su posterior análisis. 1. Población y muestra. Población. Es el conjunto de
Más detallesGRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS CUARTO CURSO
GRADO EN ADMINISTRACIÓN Y DIRECCIÓN DE EMPRESAS CUARTO CURSO Asignatura ANÁLISIS DE DATOS Código 802301 Módulo FORMACIÓN TRANVERSAL Materia MÉTODOS CUANTITATIVOS Carácter OPTATIVA Créditos 4 Presenciales
Más detallesIntroducción al Procesamiento de Imágenes Satelitales con Software Libre. Módulo 03
Introducción al Procesamiento de Imágenes Satelitales con Software Libre Módulo 03 Dirección de Formación de Capital Humano Especializado en el Campo Espacial Agencia Espacial Mexicana www.gob.mx/aem Plan
Más detallesÍNDICE. Introducción... Capítulo 1. Investigación de mercados y muestreo. Muestreo aleatorio simple y sistemático... 1
Introducción... XI Capítulo 1. Investigación de mercados y muestreo. Muestreo aleatorio simple y sistemático... 1 Las técnicas de muestreo y la investigación de mercados... 1 Población, marco y muestra...
Más detallesIntroducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos
Más detallesConjunto de datos multivariados Matriz de datos de doble entrada
Conjunto de datos multivariados Matriz de datos de doble entrada Fuentes - Applied Multivariate Statistics for Ecology and Conservation Course website: http://www.umass.edu/landeco/teaching/multivariate/multivariate.html
Más detallesESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)
ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com) ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS... 1 DEFINICIONES BÁSICAS... 1 Estadística... 1 Estadística descriptiva... 1 Estadística inferencial...
Más detallesEl Análisis de Correspondencias tiene dos objetivos básicos:
Tema 8 Análisis de correspondencias El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de mapas percentuales. Los mapas percentuales se basan en la asociación entre
Más detallesReconocimiento de Formas
Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o
Más detallesY accedemos al cuadro de diálogo Descriptivos
SPSS: DESCRIPTIVOS PROCEDIMIENTO DE ANÁLISIS INICIAL DE DATOS: DESCRIPTIVOS A diferencia con el procedimiento Frecuencias, que contiene opciones para describir tanto variables categóricas como cuantitativas
Más detallesFACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ
PRESENTACIÓN DEL MÉTODO DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES EDU DUARDO CRIVISQ RIVISQUI PRESENTACIÓN DE LOS MÉTODOS DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES
Más detallesNombre: Curso: Fecha:
REPASO Y APOYO RECONOCER Y DIFERENCIAR LOS CONCEPTOS DE POBLACIÓN Y MUESTRA OBJETIVO 1 La Estadística es la ciencia encargada de recoger, analizar e interpretar los datos relativos a un conjunto de elementos.
Más detallesTema 3: Estadística Descriptiva
Tema 3: Estadística Descriptiva Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 1 / 27 Índice
Más detallesTema: Validación de Cuestionarios con SPSS
Tema: Validación de Cuestionarios con SPSS 1.- Análisis de fiabilidad 1.1.- Introducción El análisis de fiabilidad permite estudiar las propiedades de las escalas de medición y de los elementos que las
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y
Más detallesEjemplos de análisis cluster
Ejemplos de análisis cluster Objetivos: 1. Una aproximación a la terminología del análisis cluster o de conglomerados 2. Uso de las funciones oportunas de R para realizar el análisis 3. Interpretación
Más detalles1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k
1. Estadística Definición: La estadística es un ciencia inductiva que permite inferir características cualitativas y cuantitativas de un conjunto mediante los datos contenidos en un subconjunto del mismo.
Más detalles1. DATOS INFORMATIVOS
1. DATOS INFORMATIVOS UNIVERSIDAD CENTRAL DEL ECUADOR 1.1. FACULTAD: CIENCIAS ECONÓMICAS 1.2. CARRERA: ESTADÍSTICA 1.3. ASIGNATURA: METODOS MULTIDIMENSIONALES II 1.4. CÓDIGO DE ASIGNATURA: 63704 1.5. CRÉDITOS:
Más detallesReducción de la Dimensionalidad en Análisis de Datos. Análisis de Componentes Principales.
Reducción de la Dimensionalidad en Análisis de. Análisis de Componentes Principales. A. Jiménez, A. Murillo, E. Piza, M. Villalobos, J. Trejos. April 27, 2010 Contenido 1 Objetivo. 2 Solución. 3. Calidad
Más detallesESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:
ESTADISTICA Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos: a) Estadística como enumeración de datos. b) Estadística como descripción, es decir, a través de un análisis
Más detallesUniversidad Autónoma de Sinaloa
Séptima Edición del Diplomado en Estadística Mc. José V. Jiménez Ramírez Director de la Escuela de Ciencias Fisico-Matemáticas Tel. : 7 16 11 54 vidaljr@uas.uasnet.mx Dr. René Castro Montoya Coordinador
Más detalles