Técnicas de análisis multivariante para agrupación

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Técnicas de análisis multivariante para agrupación"

Transcripción

1 TEMA 2: TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA AGRUPACIÓN Métodos cluster Técnicas de segmentación Clasificación no supervisada Ana Justel 1

2 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 2

3 El problema de clasificación/asignación/agrupación Se trata de clasificar en dos o más grupos a individuos en los que hemos observado varias variables. CLASIFICACIÓN NO SUPERVISADA: Identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos Utilizaremos Métodos basados en particiones Métodos jerárquicos Todos son métodos exploratorios de datos, Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo del método. Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos. CLASIFICACIÓN SUPERVISADA: identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos y con la información de una muestra de entrenamiento 3

4 Ejemplo: Sostenibilidad municipal Disponemos de datos de consumo per cápita en 103 municipios de la Comunidad de Madrid durante 20 años Nos interesa identificar si hay grupos de municipios con una tendencia similar en el consumo de agua para identificar buenas prácticas para la sostenibilidad y zonas problemáticas por alto consumo 4

5 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 5

6 Las técnicas de análisis cluster han sido tradicionalmente utilizadas en muchas disciplinas, por ejemplo Astronomía. Cluster = galaxias, super galaxias, etc. Marketing. Segmentación de mercados. Biología. Taxonomía. Microarrays. Ciencias Ambientales. Clasificación de ríos para establecer tipologías según la calidad de las aguas (directiva marco europea) 6

7 QUÉ es un CLUSTER? Un CLUSTER es un grupo de individuos que, cuando la dimensión lo permite, el ojo humano identifica como homogéneos entre sí y separados de los individuos de los otros clusters. 7

8 QUÉ es un CLUSTER? Incluso en dos dimensionesi no siempre está claro cuántos cluster hay y cómo se agrupan los individuos. 8

9 Ejemplo: Lirios (iris.txt) En un estudio del estadístico y genetista Sir Ronald A. Fisher se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica. 9

10 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters 10

11 Técnicas para encontrar clusters Cuando conocemos cuántos grupos hay: CLUSTER POR PARTICIONES. Producen una partición de los objetos en un número especificado de grupos siguiendo un criterio de optimización Cuando no conocemos cuántos grupos hay: CLUSTER JERÁRQUICO. Producen una secuencia de particiones, juntando o separando clusters. En cada paso se juntan o separan dos clusters siguiendo algún criterio especificado 11

12 Ejemplo: Agrupación jerárquica y por particiones de un conjunto de datos Jerárquica No jerárquica 12

13 Técnicas para encontrar clusters En general, se busca HOMOGENEIDAD dentro de los grupos y HETEROGENEIDAD entre grupos Los criterios para identificar los clusters se basan siempre en MEDIDAS de SIMILITUD odediscrepancia entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar conociendo sólo la MATRIZ de DISCREPANCIAS 13

14 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 5. Decidir el número de clusters 14

15 Estandarización de los datos La mayoría de los métodos cluster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente. SOLUCIÓN: Si queremos que todas las variables tengan la misma importancia en el análisis, podemos estandarizar los datos variable por variable de varias maneras: - Puntuaciones Z: restar la media y dividir por la desviación típica. - Rango -1 a 1: dividir por el rango. - Rango 0 a 1: restar el mínimo y dividir por el rango. - Magnitud máxima de 1: dividir por el máximo valor. - Media de 1: dividir por la media. - Desviación típica 1: dividir por la desviación típica. 15

16 Estandarización de los datos Permite comparar las variables que vienen expresadas en distintas unidades o tienen diferentes magnitudes. Las puntuaciones Z son las estandarizaciones habituales de los datos univariantes z ij x ij s j x j La transformación se aplica a cada elemento de la matriz de datos, restando la media y dividiendo por la desviación típica, por variables (columnas) Propiedades: El vector de medias de los datos estandarizados es un vector de ceros. La matriz de covarianzas de los datos estandarizados d es la matriz de correlaciones de los datos. 16

17 Estandarización de los datos Ejemplo de puntuaciones Z: Datos: x Puntuaciones Z: y 17

18 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias 18

19 Clusters por particiones Existen distintos métodos que difieren en alguna característica K-MEDIAS. Es el que se usa más habitualmente. Fácil de programar y da resultados razonables Decisiones i que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD 5. Decidir el número de clusters 19

20 Algoritmo de k-medias (KMEDIAS KMEANS) KMEDIAS tiene por objetivo separar las observaciones en k clusters, de manera que cada dato pertenezca aungrupoy sólo a uno El algoritmo de K-MEDIAS busca con un método iterativo: - Los centroides (medias, medianas, ) de los k clusters. -Asignar cada individuo a un cluster. C1 C2 El objetivo de OPTIMALIDAD quesepersiguees maximizar la homogeneidad dentro de los grupos C3 C4 20

21 Algoritmo de k-medias (KMEDIAS KMEANS) Una forma de cuantificar el criterio i de optimalidad d es: - Minimizar la media ponderada (por el tamaño del grupo) de las varianzas dentro de cada grupo para todas las variables SSW K p 2 n k s j, k k 1 j 1 Od dicho con otras palabras - Minimizar la suma de los cuadrados de las diferencias entre cada dato y la media de su grupo SSW K n k k k 2 xi x k 1 i 1 21

22 Pasos del Algoritmo de k-medias Partiendo de un conjunto inicial de k centroides, m 1 (1),,m k (1), que se pueden elegir al azar para evitar sesgos o por cualquier otro procedimiento, el algoritmo va alternando los dos siguientes pasos: PASO DE ASIGNACIÓN. Cada observación se asigna al cluster con el centroide más próximo (siguiendo el criterio de optimalidad), con la distancia euclidea. PASO DE CENTRALIZACIÓN. Para los clusters modificados se calculan los nuevos centroides. El algoritmo se considera que ha alcanzado la convergencia cuando en una iteración no se produce ningún cambio, o se cumple un criterio de parada. 22

23 Pasos del Algoritmo de k-medias 23

24 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration 2 3 Iteration y y y x x x 3 Iteration 4 3 Iteration 5 3 Iteration y y y x Tan, Steinbach, Kumar. Introduction to Data Mining x x 24

25 Pasos del Algoritmo de k-medias Reglas de parada del SPSS: Cit Criterio i de convergencia: El algoritmo se detendrá d si en una iteración completa ninguno de los centros se desplaza una distancia superior a un porcentaje previamente especificado de la distancia más corta entre cualquiera de los centros iniciales. Máximo numero de iteraciones: Para evitar que el algoritmo entre en un bucle infinito, se detendrá después de un número de iteraciones pre-determinado determinado, aunque el criterio de convergencia no se cumpla. 25

26 Ejemplo: Tortugas Buscamos con KMEANS dos clusters (machos y hembras) en cuatro tortugas pintadas (trachemys scripta). En cada tortuga se midió la longitud, el ancho y la altura del caparazón. Id. Longitud Ancho Alto m m f f Inicialmente, asignamos al azar la mitad de los datos a cada grupo y calculamos los dos centroides con las medias de los datos que hay en cada grupo. En este caso ha salido m1 y f1 en el primer grupo y m2 y f2 en el segundo 26

27 Ejemplo: Tortugas Revisamos la asignación de cada dato y recalculamos las medias de cada cluster cuando hay cambios Id. Grupo inicial Dist. a media g1 Dist. a Media g2 Grupo final Nueva media g1 Nueva media g2 m1 1 26,8 25,7 2 [ ,0 63] [131, ,0] m ,4 2 [ ,0 63] [131, ,0] f ,8 1 [ ,0 63] [131, ,0] f ,3 1 [ ,5 63] [119, ,5] Repetimos hasta que no hay ningún cambio Id. Grupo Dist. a Dist. a Grupo Nueva media iniciali i media g1 Media g2 final g1 Nueva media g2 m1 2 51,5 2,1 2 [ ,5 63] [119, ,5] m2 2 49,8 2,1 2 [ ,5 63] [119, ,5] f1 1 2,5 52,9 1 [ ,5 63] [119, ,5] f2 1 2,5 48,4 1 [ ,5 63] [119, ,5] 27

28 Ejemplo: Contaminación atmosférica en ciudades de USA Los datos incluyen una variable de contaminación atmosférica, cuatro variables climáticas y dos indicadores de ecología humana en 41 ciudades de Estados Unidos. SO2 contenido de SO2 en aire, en mg/m 3 TEMP Temperatura media anual, en F MANUF Número de empresas manufactureras con 20 empleados o más POP Tamaño de la población, en miles WIND Velocidad media del viento, en millas por hora PRECI Precipitación media anual, en pulgadas DAYS Número medio de días con precipitación al año 28

29 Ejemplo: Contaminación atmosférica en ciudades de USA El objetivo del análisis cluster es agrupar optimamente las ciudades en cuatro cluster en función de las variables climáticas y ecológicas. Se emplea el algoritmo de Localización espacial de los clusters k-medias, con k igual a cuatro. Como las variables se miden en distintas unidades, los datos se estandarizan previamente para que tengan desviación típica 1. 29

30 Ejemplo: Contaminación atmosférica en ciudades de USA G1 (Sureste de USA) Clima Localización espacial de los clusters Medias de cada variable en cada grupo húmedo: Abundante precipitación y altas temperaturas. G2 (Nordeste de USA) Clima húmedo, frio y ventoso: Alto número de días con precipitación, baja temperatura a y vientos fuertes. G3 (Oeste de USA) Clima seco: Baja precipitación. G4 Densidad alta de población: Valores altos de los indicadores de ecología humana (Chicago, Filadelfia, etc.) SO2 no se usa para hacer el cluster pero se incluye para validar el interés de las agrupaciones Los clusters están relacionados con los niveles de SO2. Por tanto, las variables de ecología humana y clima son buenos predictores de la calidad d del aire. 30

31 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. Ejemplo: Lirios i KMEANS falla a menudo cuando trata de separar las tres especies. Con k = 2, se identifican los dos clusters visibles (uno conteniendo dos especies), mientras que con k = 3 uno de los dos clusters se divide en dos partes iguales. 31

32 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. 32

33 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration y y x x y 3 Iteration 3 3 Iteration 4 3 Iteration y y x x x Tan, Steinbach, Kumar. Introduction to Data Mining 33

34 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. Como el algoritmo suele ser muy rápido, se suele ejecutar varias veces con distintos centroides iniciales. El número k de clusters es un input, por tanto, una elección inapropiada de k puede conducir a un mal resultado. Cuando usamos KMEDIAS es importante chequear distintas opciones para determinar el número de posibles clusters que hay en el conjunto de datos. 34

35 Decidir el número de clusters 1. Una regla empirica para seleccionar el número de clusters es introducir un nuevo cluster (pasar de K a K+1) cuando F SSW ( K) SSW ( K SSW ( K 1) n K 1) Chequear con herramientas como el ANOVA si los grupos son significativamente distintos ( cómo de validos son los grupos?) 35

36 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 36

37 Clusters jerárquicos Los divisivos requieren muchos cálculos, casi no se usan MÉTODOS DIVISIVOS. Parten de un único cluster con todos los datos que se va dividiendo paso a paso, hasta obtener tantos clusters como datos. MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos clusters siguiendo algún criterio especificado hasta obtener un único cluster con todos los datos. Cada método se diferencia por la estrategia de fusión en cada etapa. Y todos tienen en común que la primera unión es entre los individuos más similares. La elección de la estrategia de fusión dependerá de los objetivos de la investigación. 37

38 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 38

39 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma 39

40 DENDROGRAMA Es una representación gráfica en forma de árbol. Los clusters están representados mediante trazos horizontales (verticales) y las etapas de fusión mediante trazos verticales (horizontales). La separación entre las etapas de fusión es proporcional a la distancia i a la que están los grupos que se funden en esa etapa. 40

41 DENDROGRAMA 103 municipios de la Comunidad de Madrid Genetic diversity of viruses in an Antarctic lake A. López-Bueno et al., Science 326, (2009) A. Justel, et al. (2004) Published by AAAS

42 DENDROGRAMA El SPSS representa las distancias entre grupos rescaladas, por tanto son difíciles de interpretar, nos fijaremos sólo en la forma. Para más información nos fijamos en el Historial de conglomeración. Cuando se combinan dos clusters, el SPSS asigna al nuevo cluster la etiqueta menor entre las que tienen los cluster que se combinan. Los coeficientes son una medida de distancia/similitud entre clusters. 42

43 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos 43

44 Distancias entre datos continuos (en SPSS) Distancia euclídea. Raíz cuadrada de la suma de cuadrados de las diferencias entre los valores. Es la medida por defecto para datos de intervalo Distancia euclídea al cuadrado. Suma de cuadrados de las diferencias entre los valores Correlación de Pearson. Correlación producto-momento entre dos vectores de valores Coseno. Coseno del ángulo entre dos vectores de valores Chebychev. Diferencia absoluta máxima entre los valores Bloque. Suma de las diferencias absolutas entre los valores. También se conoce como distancia de Manhattan Minkowski. Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores Personalizada. Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos Mahalanobis distance. 44

45 Distancias entre datos continuos Distancia Euclídea Distancia Euclídea estandarizada, o Euclídea entre datos estandarizados Distancia de Mahalanobis 45

46 Similitudes entre datos cualitativos binarios Para calcular la similitud entre dos individuos para los que se observan p variables binarias tipo presencia/ausencia se calculan todas las situaciones posibles Individuo x 1 x 2 x 3 x p i j a: Número de veces en las p variables que ambas observaciones son 1. b: Número de veces en las p variables que una observación es 1 y la otra 0. c: Número de veces en las p variables que una observación es 0 y la otra 1. d: Número de veces en las p variables que ambas observaciones son 0. 46

47 Similitudes entre datos cualitativos binarios Individuo x 1 x 2 x 3 x p i j Individ duo j Individuo i 1 0 Total 1 a b a+b 0 c d c+d Total a+c b+d p=a+b+c+d Concordancia simple Coeficiente de Jaccard Coeficientes menos usados: Sokal y Sneath: Czekanowski y Sorensen: 47

48 Ejemplo: Presencia/ausencia de tres especies Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas. Coeficiente de concordancia simple Coeficiente de Jaccard La ausencia no sabemos si es porque no existe la especie o porque no la hemos observado 48

49 Ejemplo: Presencia/ausencia de tres especies Utilizando el coeficiente de concordancia simple, Briza media es más parecida a Cynosurus cristatus que a Agrostis tenuis Caso Coeficiente de concordancia simple : Agrostis tenuis 1,000,600,333 2: Bi Briza media,600 1,000,733 3: Cynosurus cristatus,333,733 1,000 Utilizando el coeficiente de Jaccard, Agrostis tenuis es más parecida a Briza media que a Cynosurus cristatus. Caso Coeficiente i de Jaccard : Agrostis tenuis 1,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 49

50 Similitudes entre datos categóricos Para variables cualitativas con más de dos categorías la medida de similitud más utilizada es una generalización del coeficiente de concordancia simple a 1 : es el número de veces que ambas observaciones son 1. a 2 : es el número de veces que ambas observaciones son 2. a k : es el número de veces que ambas observaciones son k. d: es el número de veces que ambas observaciones son 0. 50

51 Ejemplo: Presencia/ausencia de cinco especies Presencia (1) o ausencia (0) de cinco especies en 15 parcelas Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 51

52 Ejemplo: Presencia/ausencia de cinco especies 1. Empezamos con 5 clusters (cada individuo en uno) y buscamos los dos más similares en la matriz: Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1, Creamos el nuevo cluster y actualizamos la matriz de similaridad. Caso Coeficiente de Jaccard ,000????????? 2: Briza media??? 1,000,333,500 3: Cynosurus cristatus???,333 1,000, Dactylis glomerata???,500,167 1,000 52

53 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 53

54 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 54

55 Criterios para unir grupos en métodos jerárquicos Los métodos de enlace (linkage) utilizan la proximidad entre pares de individuos para unir grupos de individuos. 1. Enlace sencillo (SINGLE LINKAGE): utiliza la mínima distancia/disimilitud entre dos individuos de cada grupo (útil para identificar atípicos) 2. Enlace completo (COMPLETE LINKAGE): utiliza la máxima distancia/disimilitud entre dos individuos de cada grupo. 3. Enlace promedio (AVERAGE LINKAGE): utiliza la media (mediana) de las distancias/disimilitud entre todos los individuos de los dos grupos. 4. Enlace de centroides (CENTROID LINKAGE): utiliza la distancia/disimilitud entre los centros de los grupos. 5. Método de Ward (WARD LINKAGE): utiliza la suma de las distancias al cuadrado a los centros de los grupos. 55

56 Criterios para unir grupos en métodos jerárquicos Enlace sencillo Enlace completo Enlace medio Enlace centroide Centroide para datos cuantitativos: la media para cada variable de todos los individuos del grupo Medioide para datos categóricos: el individuo con la menor disimilitud media con el resto de los miembros del grupo 56

57 Ejemplo: Presencia/ausencia de cinco especies Enlace simple: La similitud entre dos clusters es igual a la máxima similitud entre dos individuos de cada cluster (individuos más cercanos) Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 La nueva matriz de similitudes es: 57

58 Ejemplo: Presencia/ausencia de cinco especies 3. Repetir los pasos 1 y 2 Caso Coeficiente de Jaccard ,000,500,167,733 2: Briza media,500 1,000,333,500 3: Cynosurus cristatus,167,333 1,000, Dactylis glomerata,733,500,167 1,000 Coeficiente de Jaccard Caso ,000?????? 2: Briza media??? 1,000,333 3: Cynosurus cristatus???,333 1,000 58

59 Ejemplo: Presencia/ausencia de cinco especies Repetir los pasos 1 y 2 Coeficiente de Jaccard Caso ,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 Caso Coeficiente de Jaccard ,000??? 3: Cynosurus cristatus??? 1,000 Coeficiente de Jaccard Caso ,000,333 3: Cynosurus cristatus,333 1,000 59

60 Ejemplo: Presencia/ausencia de cinco especies Diferentes criterios dan lugar a diferentes agrupaciones Enlace sencillo Enlace centroide 60

61 Comentarios sobre el cluster jerárquico Hacer las jerarquías en conjuntos de datos grandes es problemático ya que un árbol con más de 50 individuos es difícil de representar e interpretar. Una desventaja general es la imposibilidad de reasignar los individuos a los clusters en los casos en que la clasificación haya sido dudosa en las primeras etapas del análisis. Debido a que el análisis cluster implica la elección entre e diferentes entes medidas y procedimientos, con frecuencia es difícil juzgar la veracidad de los resultados. A veces, hacer cluster se considera más un arte que una ciencia. Cuidado con los "abusos! Se recomienda comparar los resultados con diferentes métodos de hacer el cluster. Soluciones similares generalmente indican la existencia de una estructura en los datos. Soluciones muy diferentes probablemente indican una estructura pobre. En ultimo caso, la validez de los clusters se juzga mediante una interpretación cualitativa que puede ser subjetiva. 61

62 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 62

63 El número de cluster en un método jerárquico depende de por dónde cortemos el dendrograma Cuántos cluster hay? Test formales Conocimiento del problema (intuición) Es conveniente elegir un número de clusters que sepamos interpretar. Para interpretar los cluster podemos utilizar: ANOVA ANÁLISIS FACTORIAL ANÁLISIS DISCRIMINANTE SENTIDO COMÚN 63

64 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 64

65 Ejemplo: Mamíferos G1 - Alto contenido en agua y lactosa G2 Niveles intermedios entre G1 y G3 G3 - Similar al G4, menos grasa y más ceniza G4 - Alto contenido en grasas Ficha Técnica: Variables estandarizadas desviación típica 1. Distancia euclídea. Enlace promedio 65

66 Ejemplo: Sostenibilidad municipal Datos de consumo per cápita en 103 municipios de la Comunidad de Madrid en 20 años Ficha Técnica: Variables originales. Distancia euclídea. Enlace simple Fuente: A. Justel,

67 Ejemplo: Sostenibilidad municipal 67

68 Ejemplo: Sostenibilidad municipal Para interpretar los clusters, se utiliza una variable auxiliar que no se ha empleado en la construcción de los clusters: Porcentaje de segundas viviendas. (Los habitantes consumen recursos pero no están empadronados y su consume se asigna a los residentes) Volumen medio Existen diferencias significativas entre los porcentajes de segunda vivienda (ANOVA p-valor<0,0001). 0001) En particular, las comparaciones múltiples muestran diferencias entre el cluster de mayor porcentaje de segundas viviendas, Actividad económica rural y el resto, excepto el cluster Próximos a las principales i vías de comunicación ió (tamaño medio) 69

69 Ejemplo: Sostenibilidad municipal Densidad de población 70

70 Ejemplo: Gastos de las familias por provincias 71

71 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward 72

72 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward G2 G3 G1 73

73 Ejemplo: Gastos de las familias por provincias Clusters con k-medias G1 G2 * G3 G2 G1 * * * * * G3 Enlace con Método de Ward 74

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS.

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS. Universitat de Barcelona. Institut de Ciències de l Educació Cómo aplicar un cluster jerárquico en SPSS Ruth Vilà-Baños, María-José Rubio-Hurtado, Vanesa Berlanga-Silvente, Mercedes Torrado-

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Materia: Estadística Aplicada a la Investigación Profesora: Dra. Hebe Goldenhersh Octubre del 2002 1 Determinación de

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN:

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN: IDEA CONCEPTUAL BÁSICA: La heterogeneidad de una población constituye la materia prima del análisis cuantitativo...... sin embargo, en ocasiones, el individuo u objeto particular, aislado, resulta un "recipiente"

Más detalles

Santiago de la Fuente Fernández. Análisis Conglomerados

Santiago de la Fuente Fernández. Análisis Conglomerados Santiago de la Fuente Fernández Análisis Conglomerados Santiago de la Fuente Fernández Análisis Conglomerados ANÁLISIS DE CONGLOMERADOS Análisis de Conglomerados El Análisis Cluster, conocido como Análisis

Más detalles

ANALISIS DE CONGLOMERADOS

ANALISIS DE CONGLOMERADOS ANALISIS DE CONGLOMERADOS Jorge Galbiati R Consiste en buscar grupos (conglomerados) en un conjunto de observaciones de forma tal que aquellas que pertenecen a un mismo grupo se parecen, mientras que aquellas

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO INSTITUTO DE CIENCIAS BÁSICAS E INGENIERÍA ÁREA ACADÉMICA DE INGENIERÍA TÉCNICAS ESTADÍSTICAS DE CLASIFICACIÓN, UN EJEMPLO DE ANÁLISIS CLUSTER M O N O G R A F

Más detalles

Introducción al Análisis Cluster. Consideraciones generales.

Introducción al Análisis Cluster. Consideraciones generales. Capítulo 1 Introducción al Análisis Cluster. Consideraciones generales. 1.1. El problema de la clasificación. Una de las actividades más primitivas, comunes y básicas del hombre consiste en clasificar

Más detalles

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA N. QUEIPO, S. PINTOS COPYRIGHT 2005 FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA N. QUEIPO, S. PINTOS COPYRIGHT 2005 FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES DEFINICIÓN: AGRUPAR UN CONJUNTO DE n OBJETOS, DEFINIDOS POR p VARIABLES, EN c CLASES, DONDE EN CADA CLASE LOS ELEMENTOS POSEAN CARACTERÍSTICAS AFINES Y SEAN MÁS SIMILARES ENTRE SÍ QUE RESPECTO AELEMENTOS

Más detalles

ANÁLISIS DE DATOS MULTIVARIANTE

ANÁLISIS DE DATOS MULTIVARIANTE ANÁLISIS DE DATOS MULTIVARIANTE Verdaderamente no hay cultura más que cuando el espíritu se ensancha a la dimensión de lo universal J. Leclercq. Prof. Esperanza Ayuga Téllez NTRODUCCIÓN DEFINICIÓN: El

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población. Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

DYANE Versión 4 Diseño y Análisis de Encuestas

DYANE Versión 4 Diseño y Análisis de Encuestas DYANE Versión 4 Diseño y Análisis de Encuestas Miguel Santesmases Mestre 1. DESCRIPCIÓN GENERAL DEL PROGRAMA DYANE 1. FINALIDAD Y MÉTODO DEL PROGRAMA DYANE (Diseño y Análisis de Encuestas) es un programa

Más detalles

ANÁLISIS DESCRIPTIVO CON SPSS

ANÁLISIS DESCRIPTIVO CON SPSS ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:

Más detalles

6.3.4. 4 Etapa : Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3)

6.3.4. 4 Etapa : Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3) 6.3.4. 4 Etapa : Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3) - Resultados y conclusiones Las tres variables contribuyen significativamente a caracterizar las clases de

Más detalles

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Eduardo CRIVISQUI

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Eduardo CRIVISQUI PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN Eduardo CRIVISQUI ADVERTENCIA SÓLO EL CONOCIMIENTO DE LAS PROPIEDADES LÓGICAS DE LOS MÉTODOS ESTADÍSTICOS PERMITE EVITAR EL EMPLEO «A CIEGAS» DE LOS MISMOS.

Más detalles

Clase 2: Estadística

Clase 2: Estadística Clase 2: Estadística Los datos Todo conjunto de datos tiene al menos dos características principales: CENTRO Y DISPERSIÓN Los gráficos de barra, histogramas, de puntos, entre otros, nos dan cierta idea

Más detalles

1 Introducción al SPSS

1 Introducción al SPSS Breve guión para las prácticas con SPSS 1 Introducción al SPSS El programa SPSS está organizado en dos bloques: el editor de datos y el visor de resultados. En la barra de menú (arriba de la pantalla)

Más detalles

Lección n 5. Modelos de distribución n potencial de especies

Lección n 5. Modelos de distribución n potencial de especies Lección n 5. Modelos de distribución n potencial de especies 1. Elaboración de modelos de distribución de especies. a. Planteamiento. El modelado del nicho ambiental se basa en el principio de que la distribución

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles

Práctica 2 ESTADÍSTICA DESCRIPTIVA

Práctica 2 ESTADÍSTICA DESCRIPTIVA Práctica 2. Estadística descriptiva 1 Práctica 2 ESTADÍSTICA DESCRIPTIVA Objetivos: En esta práctica utilizaremos el paquete SPSS para calcular estadísticos descriptivos de una muestra. Se representarán

Más detalles

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1 STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico STATGRAPHICS ofrece más de 230 procedimientos de Análisis Exploratorio de Datos, Estadística Descriptiva e Inferencial, Modelos

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,

Más detalles

Capítulo 20. Análisis factorial: El procedimiento Análisis factorial. Introducción

Capítulo 20. Análisis factorial: El procedimiento Análisis factorial. Introducción Capítulo 20 Análisis factorial: El procedimiento Análisis factorial Introducción El análisis factorial es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables a partir

Más detalles

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma:

Los modelos que permite construir el ANOVA pueden ser reducidos a la siguiente forma: Ignacio Martín Tamayo 25 Tema: ANÁLISIS DE VARIANZA CON SPSS 8.0 ÍNDICE --------------------------------------------------------- 1. Modelos de ANOVA 2. ANOVA unifactorial entregrupos 3. ANOVA multifactorial

Más detalles

Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático)

Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático) Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático) 10 10 Modelo general de los métodos de Clasificación Id Reembolso Estado Civil Ingresos Anuales 1 Sí Soltero 125K No 2 No Casado 100K

Más detalles

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval.

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval. Título Estudio Estadístico de Base de Datos Comercial de una Empresa Distribuidora de Energía Eléctrica. Nº de Registro 231 Empresa o Entidad C.A Electricidad de Valencia Autores del Trabajo Nombre País

Más detalles

Anexo 4. Herramientas Estadísticas

Anexo 4. Herramientas Estadísticas Anexo 4 Herramientas Estadísticas La estadística descriptiva es utilizada como una herramienta para describir y analizar las características de un conjunto de datos, así como las relaciones que existen

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 12 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Fundamentos de clustering Ejemplo inicial Aplicaciones

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Clase 2: Estadística

Clase 2: Estadística Clase 2: Estadística Los datos Todo conjunto de datos tiene al menos dos características principales: CENTRO Y DISPERSIÓN Los gráficos de barra, histogramas, de puntos, entre otros, nos dan cierta idea

Más detalles

ANÁLISIS DE LA PEQUEÑA Y MEDIANA EMPRESA DEL SECTOR DE ALIMENTACIÓN DE LA COMUNIDAD DE MADRID

ANÁLISIS DE LA PEQUEÑA Y MEDIANA EMPRESA DEL SECTOR DE ALIMENTACIÓN DE LA COMUNIDAD DE MADRID FUNDACIÓN UNIVERSIDAD CARLOS III ANÁLISIS DE LA PEQUEÑA Y MEDIANA EMPRESA DEL SECTOR DE ALIMENTACIÓN DE LA COMUNIDAD DE MADRID AÑO 2001 Madrid, Noviembre 2003 ÍNDICE INTRODUCCIÓN... 1 PRIMERA PARTE: ANÁLISIS

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Población, muestra y variable estadística

Población, muestra y variable estadística Población, muestra y variable estadística La estadística es la parte de las Matemáticas que estudia cómo recopilar y resumir gran cantidad de información para extraer conclusiones. La población de un estudio

Más detalles

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I

Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Práctica 6: Regresión Logística I Fundamentos de Biología Aplicada I Estadística Curso 2011-2012 Índice 1. Objetivos de la práctica 2 2. Estimación de un modelo de regresión logística con SPSS 2 2.1. Ajuste de un modelo de regresión logística.............................

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Aplicación de mapas autoorganizados (SOM) a la visualización de datos. Modelos Computacionales Fernando José Serrano García

Aplicación de mapas autoorganizados (SOM) a la visualización de datos. Modelos Computacionales Fernando José Serrano García Aplicación de mapas autoorganizados (SOM) a la visualización de datos Modelos Computacionales Fernando José Serrano García 2 Contenido Introducción... 3 Estructura... 3 Entrenamiento... 3 Aplicación de

Más detalles

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características

Más detalles

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila Ramón Álvarez 1 Flavio Pazos 2 Adrián Valentín 2 Curso de data Mining-2012,Instituto Pasteur 1 IESTA(Instituto de Estadística)

Más detalles

Tema 4:Segmentación de imágenes

Tema 4:Segmentación de imágenes Tema 4:Segmentación de imágenes La segmentación de imágenes divide la imagen en sus partes constituyentes hasta un nivel de subdivisión en el que se aíslen las regiones u objetos de interés. Los algoritmos

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

Capítulo 14. Análisis de varianza de un factor: El procedimiento ANOVA de un factor

Capítulo 14. Análisis de varianza de un factor: El procedimiento ANOVA de un factor Capítulo 14 Análisis de varianza de un factor: El procedimiento ANOVA de un factor El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata,

Más detalles

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS 1 MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS Medidas de tendencia central Menú Analizar: Los comandos del menú Analizar (Estadística) ejecutan los procesamientos estadísticos. Sus comandos están

Más detalles

La metodologia Cuantitativa. Encuestas y muestras

La metodologia Cuantitativa. Encuestas y muestras La metodologia Cuantitativa. Encuestas y muestras Técnicas «cuantitativas» y «cualitativas» «Las técnicas cuantitativas»: Recogen la información mediante cuestiones cerradas que se planteal sujeto de forma

Más detalles

Indicadores de la Variable.- Son aquellas cualidades o propiedades del objeto que pueden ser directamente observadas y cuantificadas en la práctica.

Indicadores de la Variable.- Son aquellas cualidades o propiedades del objeto que pueden ser directamente observadas y cuantificadas en la práctica. Las variables de un estudio. La variable es determinada característica o propiedad del objeto de estudio, a la cual se observa y/o cuantifica en la investigación y que puede variar de un elemento a otro

Más detalles

Escalado Multidimensional. (Análisis de Coordenadas Principales) Aurea Grané. Departamento de Estadística Universidad Carlos III de Madrid

Escalado Multidimensional. (Análisis de Coordenadas Principales) Aurea Grané. Departamento de Estadística Universidad Carlos III de Madrid Diplomatura en Estadística 1 Diplomatura en Estadística 2 Distancias estadísticas y Escalado Multidimensional (Análisis de Coordenadas Principales) Aurea Grané Departamento de Estadística Universidad Carlos

Más detalles

Análisis de Cluster y Arboles de Clasificación

Análisis de Cluster y Arboles de Clasificación Análisis de Cluster y Arboles de Clasificación Introducción Elanálisisdeclusteresunatécnicacuyaideabásicaesagruparunconjuntodeobservaciones en un número dado de clusters o grupos. Este agrupamiento se

Más detalles

Los mapas auto-organizados de Kohonen (SOM )

Los mapas auto-organizados de Kohonen (SOM ) Los mapas auto-organizados de Kohonen (SOM ) Introducción En 1982 T. Kohonen presentó un modelo de red denominado mapas auto-organizados o SOM (Self-Organizing Maps), basado en ciertas evidencias descubiertas

Más detalles

Statgraphics Centurión

Statgraphics Centurión Facultad de Ciencias Económicas y Empresariales. Universidad de Valladolid 1 Statgraphics Centurión I.- Nociones básicas El paquete Statgraphics Centurión es un programa para el análisis estadístico que

Más detalles

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE

APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE TRAINING 2007 APROVECHE AL MÁXIMO EL MEJOR SOFTWARE DE ANÁLISIS DE DATOS, ASISTA A LOS CURSOS DE CAPACITACIÓN DE SPSS CHILE Fundamentos en el Uso y Aplicaciones con SPSS Introducción a la Sintaxis Estadísticas

Más detalles

Curso. Análisis Estadístico de Datos Climáticos

Curso. Análisis Estadístico de Datos Climáticos Curso I-1 Análisis Estadístico de Datos Climáticos Distribuciones de Probabilidad Mario Bidegain (FC) Alvaro Diaz (FI) Universidad de la República Montevideo, Uruguay 2011 I-2 DISTRIBUCIONES DE PROBABILIDAD

Más detalles

Comparación de proporciones

Comparación de proporciones 11 Comparación de proporciones Neus Canal Díaz 11.1. Introducción En la investigación biomédica se encuentran con frecuencia datos o variables de tipo cualitativo (nominal u ordinal), mediante las cuales

Más detalles

Parámetros y estadísticos

Parámetros y estadísticos Parámetros y estadísticos «Parámetro»: Es una cantidad numérica calculada sobre una población y resume los valores que esta toma en algún atributo Intenta resumir toda la información que hay en la población

Más detalles

Análisis de componentes principales

Análisis de componentes principales Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los

Más detalles

Capítulo 15. Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante

Capítulo 15. Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante Capítulo 15 Análisis de varianza factorial El procedimiento Modelo lineal general: Univariante Los modelos factoriales de análisis de varianza (factorial = más de un factor) sirven para evaluar el efecto

Más detalles

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS UNIVERSIDAD DE LOS ANDES FACULTAD DE ODONTOLOGIA MERIDA EDO. MERIDA PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS Mérida, Febrero 2010. Integrantes: Maria A. Lanzellotti L. Daniela Paz U. Mariana

Más detalles

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL 1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

Universidad del CEMA Master en Finanzas 2006

Universidad del CEMA Master en Finanzas 2006 Universidad del CEMA Master en Finanzas 2006 La Simulación como una herramienta para el manejo de la incertidumbre Fabián Fiorito ffiorito@invertironline.com Tel.: 4000-1400 Hoy en día la simulación es

Más detalles

USAC FACULTAD DE INGENIERÍA ÁREA DE ESTADÍSTICA Coordinación

USAC FACULTAD DE INGENIERÍA ÁREA DE ESTADÍSTICA Coordinación USAC FACULTAD DE INGENIERÍA ÁREA DE ESTADÍSTICA Coordinación MANUAL DE ESTADÍSTICA DESCRIPTIVA Guatemala, noviembre 011 ÍNDICE DE CONTENIDOS página ESTADÍSTICA DESCRIPTIVA 1 DÍA 1 1 I UNIDAD: INTRODUCCIÓN

Más detalles

Tema 2: Estadística Descriptiva Multivariante

Tema 2: Estadística Descriptiva Multivariante Tema 2: Estadística Descriptiva Multivariante Datos multivariantes: estructura y notación Se llama población a un conjunto de elementos bien definidos. Por ejemplo, la población de las empresas de un país,

Más detalles

Técnicas Clásicas de Segmentación de Imagen

Técnicas Clásicas de Segmentación de Imagen Técnicas Clásicas de Segmentación de Imagen Marcos Martín 21 de mayo de 2002 1. Introducción El primer paso en cualquier proceso de análisis de imagen es la segmentación. Mediante la segmentación vamos

Más detalles

Cuantificación de la estructura del paisaje y de la región

Cuantificación de la estructura del paisaje y de la región Cuantificación de la estructura del paisaje y de la región Cuantificación de la estructura Reducir la complejidad de la configuración espacial a unos pocos valores numéricos o índices Estructura del paisaje

Más detalles

Curso de Estadística no-paramétrica

Curso de Estadística no-paramétrica Curso de Estadística no-paramétrica Sesión 1: Introducción Inferencia no Paramétrica David Conesa Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació

Más detalles

CORRELACIÓN Y PREDICIÓN

CORRELACIÓN Y PREDICIÓN CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una

Más detalles

ANÁLISIS DE ENCUESTAS

ANÁLISIS DE ENCUESTAS ANÁLISIS DE ENCUESTAS TÉCNICAS MULTIVARIANTES 1. Introducción 2. Clasificación de las técnicas 3. Etapas de análisis 4. Supuestos básicos 5. Valores perdidos y anómalos introducción Definición. i ió -

Más detalles

EVALUACIÓN DE LA SUBRASANTE

EVALUACIÓN DE LA SUBRASANTE EVALUACIÓN DE LA SUBRASANTE CONTENIDO Exploración de la subrasante Definición del perfil y delimitación de áreas homogéneas Determinación de la resistencia o respuesta de diseño para cada área homogénea

Más detalles

25906 Metodología de la Investigación I Prof. Angel Barrasa Curso 2008-09 http://www.unizar.es/abarrasa/tea/200809_25906 CONTENIDOS

25906 Metodología de la Investigación I Prof. Angel Barrasa Curso 2008-09 http://www.unizar.es/abarrasa/tea/200809_25906 CONTENIDOS 25906 Metodología de la Investigación I Prof. Angel Barrasa Curso 2008-09 http://www.unizar.es/abarrasa/tea/200809_25906 CONTENIDOS A. MÉTODOS Y DISEÑOS DE INVESTIGACIÓN EN PSICOLOGÍA 1. Psicología, Ciencia

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

Métodos de la Minería de Datos

Métodos de la Minería de Datos This is page i Printer: Opaue this Métodos de la Minería de Datos Dr. Oldemar Rodríguez Rojas de noviembre de 2005 ii Contents This is page iii Printer: Opaue this iv This is page v Printer: Opaue this

Más detalles

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68. Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción

Más detalles

Otras medidas descriptivas usuales

Otras medidas descriptivas usuales Tema 7 Otras medidas descriptivas usuales Contenido 7.1. Introducción............................. 1 7.2. Medidas robustas.......................... 2 7.2.1. Media recortada....................... 2 7.2.2.

Más detalles

320514 - APTM - Análisis de Procesos Textiles y de Mercados

320514 - APTM - Análisis de Procesos Textiles y de Mercados Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2015 320 - EET - Escuela de Ingeniería de Terrassa 714 - ETP - Departamento de Ingeniería Textil y Papelera MÁSTER UNIVERSITARIO

Más detalles

Introducción al uso de Modelos de Efectos Mixtos como técnica estadística para analizar datos agrupados; Ejemplos con SPSS y R

Introducción al uso de Modelos de Efectos Mixtos como técnica estadística para analizar datos agrupados; Ejemplos con SPSS y R Introducción al uso de Modelos de Efectos Mixtos como técnica estadística para analizar datos agrupados; Ejemplos con SPSS y R Marta Angulo-Martinez PhD student Estación Experimental Aula Dei-CSIC, Zaragoza,

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

LECCION 1ª Introducción a la Estadística Descriptiva

LECCION 1ª Introducción a la Estadística Descriptiva LECCION 1ª Introducción a la Estadística Descriptiva La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela,

Más detalles

INVESTIGACION COMERCIAL

INVESTIGACION COMERCIAL ASIGNATURA: INVESTIGACION COMERCIAL Curso 2014/2015 (Código:01425020) 1.OBJETIVOS En la medida en que el Marketing es un cuerpo científico de conocimientos aplica el método científico al proceso de investigación

Más detalles

Tema 2 Estadística Descriptiva

Tema 2 Estadística Descriptiva Estadística Descriptiva 1 Tipo de Variables 2 Tipo de variables La base de datos anterior contiene la información de 2700 individuos con 8 variables. Los datos provienen de una encuesta nacional realizada

Más detalles

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Suponga que le pedimos a un grupo de estudiantes de la asignatura de estadística que registren su peso en kilogramos. Con los datos del peso de los estudiantes

Más detalles

T. 5 Inferencia estadística acerca de la relación entre variables

T. 5 Inferencia estadística acerca de la relación entre variables T. 5 Inferencia estadística acerca de la relación entre variables 1. El caso de dos variables categóricas 2. El caso de una variable categórica y una variable cuantitativa 3. El caso de dos variables cuantitativas

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Tema 4 Técnicas de reducción de la dimensión

Tema 4 Técnicas de reducción de la dimensión Tema 4 Técnicas de reducción de la dimensión José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid En qué dirección es conveniente proyectar? 2 1 0 1 2 1 0 1 2 Componentes principales

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Análisis de Correlación Simple, Múltiple, Parcial

Análisis de Correlación Simple, Múltiple, Parcial Capítulo VIII Análisis de Correlación Simple, Múltiple, Parcial Correlación Es la medida del grado de relación entre dos o más variables. Con variables nominales suele utilizarse el término Asociación

Más detalles

Text Mining Introducción a Minería de Datos

Text Mining Introducción a Minería de Datos Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008 qué es la minería de datos? A technique using software tools

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

T. 8 Estadísticos de asociación entre variables

T. 8 Estadísticos de asociación entre variables T. 8 Estadísticos de asociación entre variables. Concepto de asociación entre variables. Midiendo la asociación entre variables.. El caso de dos variables categóricas.. El caso de una variable categórica

Más detalles

UNIVERSIDAD CARLOS III DE MADRID CURSO DE FORMACION ESTADISTICA CHEMO MANUAL DE STATGRAPHICS I. INTRODUCCIÓN Y MANEJO DE DATOS

UNIVERSIDAD CARLOS III DE MADRID CURSO DE FORMACION ESTADISTICA CHEMO MANUAL DE STATGRAPHICS I. INTRODUCCIÓN Y MANEJO DE DATOS UNIVERSIDAD CARLOS III DE MADRID CURSO DE FORMACION ESTADISTICA CHEMO MANUAL DE STATGRAPHICS I. INTRODUCCIÓN Y MANEJO DE DATOS Curso de Formación Estadistica. CHEMO Manual de Statgraphics 1 INTRODUCCION

Más detalles