Técnicas de análisis multivariante para agrupación

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Técnicas de análisis multivariante para agrupación"

Transcripción

1 TEMA 2: TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA AGRUPACIÓN Métodos cluster Técnicas de segmentación Clasificación no supervisada Ana Justel 1

2 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 2

3 El problema de clasificación/asignación/agrupación Se trata de clasificar en dos o más grupos a individuos en los que hemos observado varias variables. CLASIFICACIÓN NO SUPERVISADA: Identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos Utilizaremos Métodos basados en particiones Métodos jerárquicos Todos son métodos exploratorios de datos, Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo del método. Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos. CLASIFICACIÓN SUPERVISADA: identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos y con la información de una muestra de entrenamiento 3

4 Ejemplo: Sostenibilidad municipal Disponemos de datos de consumo per cápita en 103 municipios de la Comunidad de Madrid durante 20 años Nos interesa identificar si hay grupos de municipios con una tendencia similar en el consumo de agua para identificar buenas prácticas para la sostenibilidad y zonas problemáticas por alto consumo 4

5 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 5

6 Las técnicas de análisis cluster han sido tradicionalmente utilizadas en muchas disciplinas, por ejemplo Astronomía. Cluster = galaxias, super galaxias, etc. Marketing. Segmentación de mercados. Biología. Taxonomía. Microarrays. Ciencias Ambientales. Clasificación de ríos para establecer tipologías según la calidad de las aguas (directiva marco europea) 6

7 QUÉ es un CLUSTER? Un CLUSTER es un grupo de individuos que, cuando la dimensión lo permite, el ojo humano identifica como homogéneos entre sí y separados de los individuos de los otros clusters. 7

8 QUÉ es un CLUSTER? Incluso en dos dimensionesi no siempre está claro cuántos cluster hay y cómo se agrupan los individuos. 8

9 Ejemplo: Lirios (iris.txt) En un estudio del estadístico y genetista Sir Ronald A. Fisher se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica. 9

10 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters 10

11 Técnicas para encontrar clusters Cuando conocemos cuántos grupos hay: CLUSTER POR PARTICIONES. Producen una partición de los objetos en un número especificado de grupos siguiendo un criterio de optimización Cuando no conocemos cuántos grupos hay: CLUSTER JERÁRQUICO. Producen una secuencia de particiones, juntando o separando clusters. En cada paso se juntan o separan dos clusters siguiendo algún criterio especificado 11

12 Ejemplo: Agrupación jerárquica y por particiones de un conjunto de datos Jerárquica No jerárquica 12

13 Técnicas para encontrar clusters En general, se busca HOMOGENEIDAD dentro de los grupos y HETEROGENEIDAD entre grupos Los criterios para identificar los clusters se basan siempre en MEDIDAS de SIMILITUD odediscrepancia entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar conociendo sólo la MATRIZ de DISCREPANCIAS 13

14 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 5. Decidir el número de clusters 14

15 Estandarización de los datos La mayoría de los métodos cluster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente. SOLUCIÓN: Si queremos que todas las variables tengan la misma importancia en el análisis, podemos estandarizar los datos variable por variable de varias maneras: - Puntuaciones Z: restar la media y dividir por la desviación típica. - Rango -1 a 1: dividir por el rango. - Rango 0 a 1: restar el mínimo y dividir por el rango. - Magnitud máxima de 1: dividir por el máximo valor. - Media de 1: dividir por la media. - Desviación típica 1: dividir por la desviación típica. 15

16 Estandarización de los datos Permite comparar las variables que vienen expresadas en distintas unidades o tienen diferentes magnitudes. Las puntuaciones Z son las estandarizaciones habituales de los datos univariantes z ij x ij s j x j La transformación se aplica a cada elemento de la matriz de datos, restando la media y dividiendo por la desviación típica, por variables (columnas) Propiedades: El vector de medias de los datos estandarizados es un vector de ceros. La matriz de covarianzas de los datos estandarizados d es la matriz de correlaciones de los datos. 16

17 Estandarización de los datos Ejemplo de puntuaciones Z: Datos: x Puntuaciones Z: y 17

18 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias 18

19 Clusters por particiones Existen distintos métodos que difieren en alguna característica K-MEDIAS. Es el que se usa más habitualmente. Fácil de programar y da resultados razonables Decisiones i que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD 5. Decidir el número de clusters 19

20 Algoritmo de k-medias (KMEDIAS KMEANS) KMEDIAS tiene por objetivo separar las observaciones en k clusters, de manera que cada dato pertenezca aungrupoy sólo a uno El algoritmo de K-MEDIAS busca con un método iterativo: - Los centroides (medias, medianas, ) de los k clusters. -Asignar cada individuo a un cluster. C1 C2 El objetivo de OPTIMALIDAD quesepersiguees maximizar la homogeneidad dentro de los grupos C3 C4 20

21 Algoritmo de k-medias (KMEDIAS KMEANS) Una forma de cuantificar el criterio i de optimalidad d es: - Minimizar la media ponderada (por el tamaño del grupo) de las varianzas dentro de cada grupo para todas las variables SSW K p 2 n k s j, k k 1 j 1 Od dicho con otras palabras - Minimizar la suma de los cuadrados de las diferencias entre cada dato y la media de su grupo SSW K n k k k 2 xi x k 1 i 1 21

22 Pasos del Algoritmo de k-medias Partiendo de un conjunto inicial de k centroides, m 1 (1),,m k (1), que se pueden elegir al azar para evitar sesgos o por cualquier otro procedimiento, el algoritmo va alternando los dos siguientes pasos: PASO DE ASIGNACIÓN. Cada observación se asigna al cluster con el centroide más próximo (siguiendo el criterio de optimalidad), con la distancia euclidea. PASO DE CENTRALIZACIÓN. Para los clusters modificados se calculan los nuevos centroides. El algoritmo se considera que ha alcanzado la convergencia cuando en una iteración no se produce ningún cambio, o se cumple un criterio de parada. 22

23 Pasos del Algoritmo de k-medias 23

24 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration 2 3 Iteration y y y x x x 3 Iteration 4 3 Iteration 5 3 Iteration y y y x Tan, Steinbach, Kumar. Introduction to Data Mining x x 24

25 Pasos del Algoritmo de k-medias Reglas de parada del SPSS: Cit Criterio i de convergencia: El algoritmo se detendrá d si en una iteración completa ninguno de los centros se desplaza una distancia superior a un porcentaje previamente especificado de la distancia más corta entre cualquiera de los centros iniciales. Máximo numero de iteraciones: Para evitar que el algoritmo entre en un bucle infinito, se detendrá después de un número de iteraciones pre-determinado determinado, aunque el criterio de convergencia no se cumpla. 25

26 Ejemplo: Tortugas Buscamos con KMEANS dos clusters (machos y hembras) en cuatro tortugas pintadas (trachemys scripta). En cada tortuga se midió la longitud, el ancho y la altura del caparazón. Id. Longitud Ancho Alto m m f f Inicialmente, asignamos al azar la mitad de los datos a cada grupo y calculamos los dos centroides con las medias de los datos que hay en cada grupo. En este caso ha salido m1 y f1 en el primer grupo y m2 y f2 en el segundo 26

27 Ejemplo: Tortugas Revisamos la asignación de cada dato y recalculamos las medias de cada cluster cuando hay cambios Id. Grupo inicial Dist. a media g1 Dist. a Media g2 Grupo final Nueva media g1 Nueva media g2 m1 1 26,8 25,7 2 [ ,0 63] [131, ,0] m ,4 2 [ ,0 63] [131, ,0] f ,8 1 [ ,0 63] [131, ,0] f ,3 1 [ ,5 63] [119, ,5] Repetimos hasta que no hay ningún cambio Id. Grupo Dist. a Dist. a Grupo Nueva media iniciali i media g1 Media g2 final g1 Nueva media g2 m1 2 51,5 2,1 2 [ ,5 63] [119, ,5] m2 2 49,8 2,1 2 [ ,5 63] [119, ,5] f1 1 2,5 52,9 1 [ ,5 63] [119, ,5] f2 1 2,5 48,4 1 [ ,5 63] [119, ,5] 27

28 Ejemplo: Contaminación atmosférica en ciudades de USA Los datos incluyen una variable de contaminación atmosférica, cuatro variables climáticas y dos indicadores de ecología humana en 41 ciudades de Estados Unidos. SO2 contenido de SO2 en aire, en mg/m 3 TEMP Temperatura media anual, en F MANUF Número de empresas manufactureras con 20 empleados o más POP Tamaño de la población, en miles WIND Velocidad media del viento, en millas por hora PRECI Precipitación media anual, en pulgadas DAYS Número medio de días con precipitación al año 28

29 Ejemplo: Contaminación atmosférica en ciudades de USA El objetivo del análisis cluster es agrupar optimamente las ciudades en cuatro cluster en función de las variables climáticas y ecológicas. Se emplea el algoritmo de Localización espacial de los clusters k-medias, con k igual a cuatro. Como las variables se miden en distintas unidades, los datos se estandarizan previamente para que tengan desviación típica 1. 29

30 Ejemplo: Contaminación atmosférica en ciudades de USA G1 (Sureste de USA) Clima Localización espacial de los clusters Medias de cada variable en cada grupo húmedo: Abundante precipitación y altas temperaturas. G2 (Nordeste de USA) Clima húmedo, frio y ventoso: Alto número de días con precipitación, baja temperatura a y vientos fuertes. G3 (Oeste de USA) Clima seco: Baja precipitación. G4 Densidad alta de población: Valores altos de los indicadores de ecología humana (Chicago, Filadelfia, etc.) SO2 no se usa para hacer el cluster pero se incluye para validar el interés de las agrupaciones Los clusters están relacionados con los niveles de SO2. Por tanto, las variables de ecología humana y clima son buenos predictores de la calidad d del aire. 30

31 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. Ejemplo: Lirios i KMEANS falla a menudo cuando trata de separar las tres especies. Con k = 2, se identifican los dos clusters visibles (uno conteniendo dos especies), mientras que con k = 3 uno de los dos clusters se divide en dos partes iguales. 31

32 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. 32

33 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration y y x x y 3 Iteration 3 3 Iteration 4 3 Iteration y y x x x Tan, Steinbach, Kumar. Introduction to Data Mining 33

34 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. Como el algoritmo suele ser muy rápido, se suele ejecutar varias veces con distintos centroides iniciales. El número k de clusters es un input, por tanto, una elección inapropiada de k puede conducir a un mal resultado. Cuando usamos KMEDIAS es importante chequear distintas opciones para determinar el número de posibles clusters que hay en el conjunto de datos. 34

35 Decidir el número de clusters 1. Una regla empirica para seleccionar el número de clusters es introducir un nuevo cluster (pasar de K a K+1) cuando F SSW ( K) SSW ( K SSW ( K 1) n K 1) Chequear con herramientas como el ANOVA si los grupos son significativamente distintos ( cómo de validos son los grupos?) 35

36 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 36

37 Clusters jerárquicos Los divisivos requieren muchos cálculos, casi no se usan MÉTODOS DIVISIVOS. Parten de un único cluster con todos los datos que se va dividiendo paso a paso, hasta obtener tantos clusters como datos. MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos clusters siguiendo algún criterio especificado hasta obtener un único cluster con todos los datos. Cada método se diferencia por la estrategia de fusión en cada etapa. Y todos tienen en común que la primera unión es entre los individuos más similares. La elección de la estrategia de fusión dependerá de los objetivos de la investigación. 37

38 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 38

39 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma 39

40 DENDROGRAMA Es una representación gráfica en forma de árbol. Los clusters están representados mediante trazos horizontales (verticales) y las etapas de fusión mediante trazos verticales (horizontales). La separación entre las etapas de fusión es proporcional a la distancia i a la que están los grupos que se funden en esa etapa. 40

41 DENDROGRAMA 103 municipios de la Comunidad de Madrid Genetic diversity of viruses in an Antarctic lake A. López-Bueno et al., Science 326, (2009) A. Justel, et al. (2004) Published by AAAS

42 DENDROGRAMA El SPSS representa las distancias entre grupos rescaladas, por tanto son difíciles de interpretar, nos fijaremos sólo en la forma. Para más información nos fijamos en el Historial de conglomeración. Cuando se combinan dos clusters, el SPSS asigna al nuevo cluster la etiqueta menor entre las que tienen los cluster que se combinan. Los coeficientes son una medida de distancia/similitud entre clusters. 42

43 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos 43

44 Distancias entre datos continuos (en SPSS) Distancia euclídea. Raíz cuadrada de la suma de cuadrados de las diferencias entre los valores. Es la medida por defecto para datos de intervalo Distancia euclídea al cuadrado. Suma de cuadrados de las diferencias entre los valores Correlación de Pearson. Correlación producto-momento entre dos vectores de valores Coseno. Coseno del ángulo entre dos vectores de valores Chebychev. Diferencia absoluta máxima entre los valores Bloque. Suma de las diferencias absolutas entre los valores. También se conoce como distancia de Manhattan Minkowski. Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores Personalizada. Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos Mahalanobis distance. 44

45 Distancias entre datos continuos Distancia Euclídea Distancia Euclídea estandarizada, o Euclídea entre datos estandarizados Distancia de Mahalanobis 45

46 Similitudes entre datos cualitativos binarios Para calcular la similitud entre dos individuos para los que se observan p variables binarias tipo presencia/ausencia se calculan todas las situaciones posibles Individuo x 1 x 2 x 3 x p i j a: Número de veces en las p variables que ambas observaciones son 1. b: Número de veces en las p variables que una observación es 1 y la otra 0. c: Número de veces en las p variables que una observación es 0 y la otra 1. d: Número de veces en las p variables que ambas observaciones son 0. 46

47 Similitudes entre datos cualitativos binarios Individuo x 1 x 2 x 3 x p i j Individ duo j Individuo i 1 0 Total 1 a b a+b 0 c d c+d Total a+c b+d p=a+b+c+d Concordancia simple Coeficiente de Jaccard Coeficientes menos usados: Sokal y Sneath: Czekanowski y Sorensen: 47

48 Ejemplo: Presencia/ausencia de tres especies Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas. Coeficiente de concordancia simple Coeficiente de Jaccard La ausencia no sabemos si es porque no existe la especie o porque no la hemos observado 48

49 Ejemplo: Presencia/ausencia de tres especies Utilizando el coeficiente de concordancia simple, Briza media es más parecida a Cynosurus cristatus que a Agrostis tenuis Caso Coeficiente de concordancia simple : Agrostis tenuis 1,000,600,333 2: Bi Briza media,600 1,000,733 3: Cynosurus cristatus,333,733 1,000 Utilizando el coeficiente de Jaccard, Agrostis tenuis es más parecida a Briza media que a Cynosurus cristatus. Caso Coeficiente i de Jaccard : Agrostis tenuis 1,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 49

50 Similitudes entre datos categóricos Para variables cualitativas con más de dos categorías la medida de similitud más utilizada es una generalización del coeficiente de concordancia simple a 1 : es el número de veces que ambas observaciones son 1. a 2 : es el número de veces que ambas observaciones son 2. a k : es el número de veces que ambas observaciones son k. d: es el número de veces que ambas observaciones son 0. 50

51 Ejemplo: Presencia/ausencia de cinco especies Presencia (1) o ausencia (0) de cinco especies en 15 parcelas Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 51

52 Ejemplo: Presencia/ausencia de cinco especies 1. Empezamos con 5 clusters (cada individuo en uno) y buscamos los dos más similares en la matriz: Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1, Creamos el nuevo cluster y actualizamos la matriz de similaridad. Caso Coeficiente de Jaccard ,000????????? 2: Briza media??? 1,000,333,500 3: Cynosurus cristatus???,333 1,000, Dactylis glomerata???,500,167 1,000 52

53 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 53

54 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 54

55 Criterios para unir grupos en métodos jerárquicos Los métodos de enlace (linkage) utilizan la proximidad entre pares de individuos para unir grupos de individuos. 1. Enlace sencillo (SINGLE LINKAGE): utiliza la mínima distancia/disimilitud entre dos individuos de cada grupo (útil para identificar atípicos) 2. Enlace completo (COMPLETE LINKAGE): utiliza la máxima distancia/disimilitud entre dos individuos de cada grupo. 3. Enlace promedio (AVERAGE LINKAGE): utiliza la media (mediana) de las distancias/disimilitud entre todos los individuos de los dos grupos. 4. Enlace de centroides (CENTROID LINKAGE): utiliza la distancia/disimilitud entre los centros de los grupos. 5. Método de Ward (WARD LINKAGE): utiliza la suma de las distancias al cuadrado a los centros de los grupos. 55

56 Criterios para unir grupos en métodos jerárquicos Enlace sencillo Enlace completo Enlace medio Enlace centroide Centroide para datos cuantitativos: la media para cada variable de todos los individuos del grupo Medioide para datos categóricos: el individuo con la menor disimilitud media con el resto de los miembros del grupo 56

57 Ejemplo: Presencia/ausencia de cinco especies Enlace simple: La similitud entre dos clusters es igual a la máxima similitud entre dos individuos de cada cluster (individuos más cercanos) Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 La nueva matriz de similitudes es: 57

58 Ejemplo: Presencia/ausencia de cinco especies 3. Repetir los pasos 1 y 2 Caso Coeficiente de Jaccard ,000,500,167,733 2: Briza media,500 1,000,333,500 3: Cynosurus cristatus,167,333 1,000, Dactylis glomerata,733,500,167 1,000 Coeficiente de Jaccard Caso ,000?????? 2: Briza media??? 1,000,333 3: Cynosurus cristatus???,333 1,000 58

59 Ejemplo: Presencia/ausencia de cinco especies Repetir los pasos 1 y 2 Coeficiente de Jaccard Caso ,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 Caso Coeficiente de Jaccard ,000??? 3: Cynosurus cristatus??? 1,000 Coeficiente de Jaccard Caso ,000,333 3: Cynosurus cristatus,333 1,000 59

60 Ejemplo: Presencia/ausencia de cinco especies Diferentes criterios dan lugar a diferentes agrupaciones Enlace sencillo Enlace centroide 60

61 Comentarios sobre el cluster jerárquico Hacer las jerarquías en conjuntos de datos grandes es problemático ya que un árbol con más de 50 individuos es difícil de representar e interpretar. Una desventaja general es la imposibilidad de reasignar los individuos a los clusters en los casos en que la clasificación haya sido dudosa en las primeras etapas del análisis. Debido a que el análisis cluster implica la elección entre e diferentes entes medidas y procedimientos, con frecuencia es difícil juzgar la veracidad de los resultados. A veces, hacer cluster se considera más un arte que una ciencia. Cuidado con los "abusos! Se recomienda comparar los resultados con diferentes métodos de hacer el cluster. Soluciones similares generalmente indican la existencia de una estructura en los datos. Soluciones muy diferentes probablemente indican una estructura pobre. En ultimo caso, la validez de los clusters se juzga mediante una interpretación cualitativa que puede ser subjetiva. 61

62 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 62

63 El número de cluster en un método jerárquico depende de por dónde cortemos el dendrograma Cuántos cluster hay? Test formales Conocimiento del problema (intuición) Es conveniente elegir un número de clusters que sepamos interpretar. Para interpretar los cluster podemos utilizar: ANOVA ANÁLISIS FACTORIAL ANÁLISIS DISCRIMINANTE SENTIDO COMÚN 63

64 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 64

65 Ejemplo: Mamíferos G1 - Alto contenido en agua y lactosa G2 Niveles intermedios entre G1 y G3 G3 - Similar al G4, menos grasa y más ceniza G4 - Alto contenido en grasas Ficha Técnica: Variables estandarizadas desviación típica 1. Distancia euclídea. Enlace promedio 65

66 Ejemplo: Sostenibilidad municipal Datos de consumo per cápita en 103 municipios de la Comunidad de Madrid en 20 años Ficha Técnica: Variables originales. Distancia euclídea. Enlace simple Fuente: A. Justel,

67 Ejemplo: Sostenibilidad municipal 67

68 Ejemplo: Sostenibilidad municipal Para interpretar los clusters, se utiliza una variable auxiliar que no se ha empleado en la construcción de los clusters: Porcentaje de segundas viviendas. (Los habitantes consumen recursos pero no están empadronados y su consume se asigna a los residentes) Volumen medio Existen diferencias significativas entre los porcentajes de segunda vivienda (ANOVA p-valor<0,0001). 0001) En particular, las comparaciones múltiples muestran diferencias entre el cluster de mayor porcentaje de segundas viviendas, Actividad económica rural y el resto, excepto el cluster Próximos a las principales i vías de comunicación ió (tamaño medio) 69

69 Ejemplo: Sostenibilidad municipal Densidad de población 70

70 Ejemplo: Gastos de las familias por provincias 71

71 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward 72

72 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward G2 G3 G1 73

73 Ejemplo: Gastos de las familias por provincias Clusters con k-medias G1 G2 * G3 G2 G1 * * * * * G3 Enlace con Método de Ward 74

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado Materia: Estadística Aplicada a la Investigación Profesora: Dra. Hebe Goldenhersh Octubre del 2002 1 Determinación de

Más detalles

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN:

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN: IDEA CONCEPTUAL BÁSICA: La heterogeneidad de una población constituye la materia prima del análisis cuantitativo...... sin embargo, en ocasiones, el individuo u objeto particular, aislado, resulta un "recipiente"

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS.

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS. Universitat de Barcelona. Institut de Ciències de l Educació Cómo aplicar un cluster jerárquico en SPSS Ruth Vilà-Baños, María-José Rubio-Hurtado, Vanesa Berlanga-Silvente, Mercedes Torrado-

Más detalles

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población. Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Otras medidas descriptivas usuales

Otras medidas descriptivas usuales Tema 7 Otras medidas descriptivas usuales Contenido 7.1. Introducción............................. 1 7.2. Medidas robustas.......................... 2 7.2.1. Media recortada....................... 2 7.2.2.

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

La metodologia Cuantitativa. Encuestas y muestras

La metodologia Cuantitativa. Encuestas y muestras La metodologia Cuantitativa. Encuestas y muestras Técnicas «cuantitativas» y «cualitativas» «Las técnicas cuantitativas»: Recogen la información mediante cuestiones cerradas que se planteal sujeto de forma

Más detalles

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL 1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

En cualquier caso, tampoco es demasiado importante el significado de la B, si es que lo tiene, lo interesante realmente es el algoritmo. Arboles-B Características Los árboles-b son árboles de búsqueda. La "B" probablemente se debe a que el algoritmo fue desarrollado por "Rudolf Bayer" y "Eduard M. McCreight", que trabajan para la empresa

Más detalles

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68. Departamento de Economía Aplicada: UDI de Estadística. Universidad Autónoma de Madrid Notas sobre el manejo de Excel para el análisis descriptivo y exploratorio de datos. (Descriptiva) 1 1 Introducción

Más detalles

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación Validation Validación Psicométrica L art de l évaluation Validation Central Test Central Test Centraltest L art de l évaluation CENTRAL test.com El arte de la evaluación www.centraltest.com Propiedades

Más detalles

ANÁLISIS DESCRIPTIVO CON SPSS

ANÁLISIS DESCRIPTIVO CON SPSS ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias: Iniciar con las interpretaciones de las medidas MEDIA VS MEDIANA VS MODA CUAL ES LA MEDIDA ADECUADA TAREA MEDIA PONDERADA Actividad de Medidas de Localización Problema 1. El problema de las tasas de delito.

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Análisis de componentes principales

Análisis de componentes principales Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los

Más detalles

UBICACIÓN DE LA PLANTA

UBICACIÓN DE LA PLANTA SECCIÓN II UBICACIÓN DE LA PLANTA La adecuada ubicación de la planta industrial, es tan importante para su éxito posterior, como lo es la elección del proceso mismo, y por lo tanto para lograr esto, se

Más detalles

Tema 7. Introducción al reconocimiento de objetos

Tema 7. Introducción al reconocimiento de objetos Tema 7. Introducción al reconocimiento de objetos En resumen, un sistema de reconocimiento de patrones completo consiste en: Un sensor que recoge las observaciones a clasificar. Un sistema de extracción

Más detalles

6. VECTORES Y COORDENADAS

6. VECTORES Y COORDENADAS 6. VECTORES Y COORDENADAS Página 1 Traslaciones. Vectores Sistema de referencia. Coordenadas. Punto medio de un segmento Ecuaciones de rectas. Paralelismo. Distancias Página 2 1. TRASLACIONES. VECTORES

Más detalles

Capítulo 10. Gráficos y diagramas

Capítulo 10. Gráficos y diagramas Capítulo 10. Gráficos y diagramas 1. Introducción Los gráficos y diagramas que se acostumbran a ver en libros e informes para visualizar datos estadísticos también se utilizan con propósitos cartográficos,

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 12 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Fundamentos de clustering Ejemplo inicial Aplicaciones

Más detalles

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. www.fundibeq.org DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación

Más detalles

Medidas de tendencia central o de posición: situación de los valores alrededor

Medidas de tendencia central o de posición: situación de los valores alrededor Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas

Más detalles

Cómo se sabe si una metodología científica es confiable y válida?

Cómo se sabe si una metodología científica es confiable y válida? Cómo se sabe si una metodología científica es confiable y válida? POR: Tupak Ernesto Obando Rivera Ingeniero en Geología. Master y Doctorado en Geología, y Gestión Ambiental por la Universidad Internacional

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II 28 febrero de 2012 Javier Marchamalo Martínez Universidad Rey Juan Carlos SABER INTERPRETAR LOS RATIOS SIGNIFICATIVOS EN LA GESTIÓN POR BENCHMARK Ratio

Más detalles

La ventana de Microsoft Excel

La ventana de Microsoft Excel Actividad N 1 Conceptos básicos de Planilla de Cálculo La ventana del Microsoft Excel y sus partes. Movimiento del cursor. Tipos de datos. Metodología de trabajo con planillas. La ventana de Microsoft

Más detalles

TEMA 3: EN QUÉ CONSISTE?

TEMA 3: EN QUÉ CONSISTE? Módulo 7 Sesión 3 5/16 TEMA 3: EN QUÉ CONSISTE? La metodología seguida para aplicar correctamente la técnica de RGT se basa en cuatro fases (Figura 1). En la primera de ellas, se seleccionan los elementos

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE

MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE MANUAL DE USUARIO Y EJEMPLO DE UTILIZACIÓN HERRAMIENTA DLP-DELPHI LEARNING PACKAGE PROFESOR: Creación y puesta en marcha de un proceso de aprendizaje Delphi: En esta fase el profesor debe realizar las

Más detalles

PRESENTACIÓN GRÁFICA DE LOS DATOS

PRESENTACIÓN GRÁFICA DE LOS DATOS PRESENTACIÓN GRÁFICA DE LOS DATOS Una imagen dice más que mil palabras, esta frase explica la importancia de presentar los datos en forma gráfica. Existe una gran variedad de gráficos y la selección apropiada

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Software de Particle Tracking Version 1.0

Software de Particle Tracking Version 1.0 Software de Particle Tracking Version 1.0 Martín Pastor Laboratorio de Medios Granulares Departamento de Física y Matemática Aplicada Universidad de Navarra Enero, 2007 Índice general 1. Introducción 3

Más detalles

MUESTREO TIPOS DE MUESTREO

MUESTREO TIPOS DE MUESTREO MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de

Más detalles

EL MODELO DE DATOS RASTER

EL MODELO DE DATOS RASTER EL MODELO DE DATOS RASTER El modelo de datos raster, como señala Bosque (1992), es el modelo de datos complementario al modelo vectorial presentado anteriormente. Tiene como principal característica el

Más detalles

ÍNDICE 1. INTRODUCCIÓN... 4 2. PARTICIPANTES... 5. 2.1. Participantes por sector... 5. 2.2. Participantes por edad... 6

ÍNDICE 1. INTRODUCCIÓN... 4 2. PARTICIPANTES... 5. 2.1. Participantes por sector... 5. 2.2. Participantes por edad... 6 INFORME DE RESULTADOS DEL ESTUDIO DE SATISFACCIÓN DE USUARIOS UNIVERSIDAD DE ALMERÍA 2012 SERVICIO DE PLANIFICACIÓN, EVALUACIÓN Y CALIDAD CALIDAD DE LOS SERVICIOS ENERO 2013 ÍNDICE 1. INTRODUCCIÓN...

Más detalles

Criterios para decidir qué gráfico usar en cada trabajo estadístico

Criterios para decidir qué gráfico usar en cada trabajo estadístico Criterios para decidir qué gráfico usar en cada trabajo estadístico No todos los tipos de gráficos son adecuados para un conjunto concreto de datos. Algunos de ellos sólo valen para un fin, y otros se

Más detalles

CORRELACIONES CON SPSS

CORRELACIONES CON SPSS ESCUEL SUPERIOR DE INFORMÁTIC Prácticas de Estadística CORRELCIONES CON SPSS 1.- INTRODUCCIÓN El concepto de relación o correlación entre dos variables se refiere al grado de parecido o variación conjunta

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Población, muestra y variable estadística

Población, muestra y variable estadística Población, muestra y variable estadística La estadística es la parte de las Matemáticas que estudia cómo recopilar y resumir gran cantidad de información para extraer conclusiones. La población de un estudio

Más detalles

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS

6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS 6 ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS Esquema del capítulo Objetivos 6.1. 6.. 6.3. 6.4. ANÁLISIS DE INDEPENDENCIA O ASOCIACIÓN ENTRE DOS ATRIBUTOS COEFICIENTES DE CONTINGENCIA LA

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

Capitulo V Administración de memoria

Capitulo V Administración de memoria Capitulo V Administración de memoria Introducción. Una de las tareas más importantes y complejas de un sistema operativo es la gestión de memoria. La gestión de memoria implica tratar la memoria principal

Más detalles

Ejercicio de estadística para 3º de la ESO

Ejercicio de estadística para 3º de la ESO Ejercicio de estadística para 3º de la ESO Unibelia La estadística es una disciplina técnica que se apoya en las matemáticas y que tiene como objetivo la interpretación de la realidad de una población

Más detalles

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco? BANCOS El Sistema de Gestión Administrativa permite el manejo de los movimientos bancarios. Seleccionada la opción de Bancos, el sistema presentara las siguientes opciones. Manejo de Bancos Manejo de movimientos

Más detalles

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información

Más detalles

Metodología de la Investigación. Dr. Cristian Rusu cristian.rusu@ucv.cl

Metodología de la Investigación. Dr. Cristian Rusu cristian.rusu@ucv.cl Metodología de la Investigación Dr. Cristian Rusu cristian.rusu@ucv.cl 6. Diseños de investigación 6.1. Diseños experimentales 6.1.1. Diseños preexperimentales 6.1.2. Diseños experimentales verdaderos

Más detalles

[8 ] Contenidos: tipologías y organización.

[8 ] Contenidos: tipologías y organización. [8 ] Contenidos: tipologías y organización. Con Drupal podemos construir casi cualquier tipo de web, definiendo tipos de contenidos, estructurados, permisos, sistema de registro de usuarios, sistemas de

Más detalles

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana. LECCIÓN CONDENSADA 2.1 Gráficas de caja En esta lección crearás e interpretarás las gráficas de caja para conjuntos de datos usarás el rango intercuartil (IQR) para identificar valores extremos potenciales

Más detalles

Para optimizar este proceso lo dividiremos en etapas y deberemos tener bien claro el objetivo que debemos alcanzar en cada una de ellas:

Para optimizar este proceso lo dividiremos en etapas y deberemos tener bien claro el objetivo que debemos alcanzar en cada una de ellas: ETAPAS DEL PROCESO DE SELECCIÓN DE PERSONAL EN LAS EMPRESAS FAMILIARES En la actualidad muchas empresas familiares han evolucionado intentando aplicar técnicas adecuadas para el proceso de Selección de

Más detalles

(Tomado de: http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuanti.html)

(Tomado de: http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuanti.html) VARIABLES CUANTITATIVAS (Tomado de: http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/var_cuanti.html) Variables ordinales y de razón. Métodos de agrupamiento: Variables cuantitativas:

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Procesos científicos básicos: Comunicar (Cómo trabajar en la sala de clases), 2ª. Parte

Procesos científicos básicos: Comunicar (Cómo trabajar en la sala de clases), 2ª. Parte Profesores Básica / Media / Recursos Procesos científicos básicos: Comunicar (Cómo trabajar en la sala de clases), 2ª. Parte 1 [Nota: material previsto para 8º básico y enseñanza media] Cómo construir

Más detalles

Anexo 4. Herramientas Estadísticas

Anexo 4. Herramientas Estadísticas Anexo 4 Herramientas Estadísticas La estadística descriptiva es utilizada como una herramienta para describir y analizar las características de un conjunto de datos, así como las relaciones que existen

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

Introducción al SPSS/PC. 1. El editor de datos. Taller de Estadística

Introducción al SPSS/PC. 1. El editor de datos. Taller de Estadística 1 Taller de Estadística Curso 2oo5/2oo6 Introducción al SPSS/PC SPSS: Statistical Package for the Social Sciences. Este programa estadístico está organizado en dos bloques: el editor de datos y el visor

Más detalles

Introducción a la Estadística con Excel

Introducción a la Estadística con Excel Introducción a la Estadística con Excel En el siguiente guión vamos a introducir el software Excel 2007 y la manera de trabajar con Estadística Descriptiva. Cargar o importar datos En Excel 2007 podemos

Más detalles

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1 TEMA 11: MÉTODOS DINÁMICOS DE SELECCIÓN DE INVERSIONES ESQUEMA DEL TEMA: 11.1. Valor actualizado neto. 11.2. Tasa interna

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Mantenimiento Limpieza

Mantenimiento Limpieza Mantenimiento Limpieza El programa nos permite decidir qué tipo de limpieza queremos hacer. Si queremos una limpieza diaria, tipo Hotel, en el que se realizan todos los servicios en la habitación cada

Más detalles

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son

Más detalles

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros TEMA 0: INTRODUCCIÓN Y REPASO 1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros desconocidos 4. Comparación

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Empresarial y Financiero NIVEL AVANZADO

Empresarial y Financiero NIVEL AVANZADO Curso de Excel Empresarial y Financiero NIVEL AVANZADO Rosa Rodríguez SESION 2: INDICE ANALISIS DE SENSIBILIDAD (3h) Validación de datos n Restricciones a la entrada de datos n Lista Dependiente n Administrador

Más detalles

RESPUESTAS A LAS PREGUNTAS DEL TEMA 3

RESPUESTAS A LAS PREGUNTAS DEL TEMA 3 RESPUESTAS A LAS PREGUNTAS DEL TEMA 3 Las respuestas en algún caso (primera pregunta) son más largas de lo requerido para que sirva de explicación 1. Explica brevemente qué significan cada una de las curvas

Más detalles

ESTADÍSTICA SEMANA 4

ESTADÍSTICA SEMANA 4 ESTADÍSTICA SEMANA 4 ÍNDICE MEDIDAS DE DISPERSIÓN... 3 APRENDIZAJES ESPERADOS... 3 DEfinición de Medida de dispersión... 3 Rango o Recorrido... 3 Varianza Muestral (S 2 )... 3 CÁLCULO DE LA VARIANZA...

Más detalles

CORRELACIÓN Y PREDICIÓN

CORRELACIÓN Y PREDICIÓN CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una

Más detalles

Práctica 11 SVM. Máquinas de Vectores Soporte

Práctica 11 SVM. Máquinas de Vectores Soporte Práctica 11 SVM Máquinas de Vectores Soporte Dedicaremos esta práctica a estudiar el funcionamiento de las, tan de moda, máquinas de vectores soporte (SVM). 1 Las máquinas de vectores soporte Las SVM han

Más detalles

Análisis de medidas conjuntas (conjoint analysis)

Análisis de medidas conjuntas (conjoint analysis) Análisis de medidas conuntas (conoint analysis). Introducción Como ya hemos dicho anteriormente, esta técnica de análisis nos sirve para analizar la importancia que dan los consumidores a cada uno de los

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

El desarrollo del pensamiento multiplicativo.

El desarrollo del pensamiento multiplicativo. El desarrollo del pensamiento multiplicativo. Análisis de las diferentes situaciones multiplicativas, su aplicación en el aula y en el desarrollo del pensamiento matemático. Autor: Mery Aurora Poveda,

Más detalles

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS ANÁLISIS DE DATOS Hoy día vamos a hablar de algunas medidas de resumen de datos: cómo resumir cuando tenemos una serie de datos numéricos, generalmente en variables intervalares. Cuando nosotros tenemos

Más detalles

Sistemas Digitales Ingeniería Técnica en Informática de Sistemas Curso 2006 2007 Aritmética binaria

Sistemas Digitales Ingeniería Técnica en Informática de Sistemas Curso 2006 2007 Aritmética binaria Oliverio J. Santana Jaria 3. Aritmética tica binaria Sistemas Digitales Ingeniería Técnica en Informática de Sistemas Curso 2006 2007 Para Los La en conocer muchos aritmética comprender otros binaria tipos

Más detalles

TEMA 4: Variables binarias

TEMA 4: Variables binarias TEMA 4: Variables binarias Econometría I M. Angeles Carnero Departamento de Fundamentos del Análisis Económico Curso 2011-12 Econometría I (UA) Tema 4: Variables binarias Curso 2011-12 1 / 51 Variables

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

Clase 2: Estadística

Clase 2: Estadística Clase 2: Estadística Los datos Todo conjunto de datos tiene al menos dos características principales: CENTRO Y DISPERSIÓN Los gráficos de barra, histogramas, de puntos, entre otros, nos dan cierta idea

Más detalles

Sistema Inteligente de Exploración

Sistema Inteligente de Exploración Observatorio Municipal de Estadística Sistema Inteligente de Exploración Capítulos 1. Consideraciones iniciales y requerimientos... 2 2. Navegación... 3 3. Consulta de indicadores... 5 3.1. Elaboración

Más detalles

... Formas alternativas de escribir un texto. Columnas. anfora CAPÍTULO 4

... Formas alternativas de escribir un texto. Columnas. anfora CAPÍTULO 4 CAPÍTULO 4. Formas alternativas de escribir un texto........ Columnas Para fijar columnas se posiciona el Punto de Inserción donde se desee que comiencen las columnas, o bien se selecciona el texto que

Más detalles

CONSULTAS DE RESUMEN SQL SERVER 2005. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

CONSULTAS DE RESUMEN SQL SERVER 2005. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE CONSULTAS DE RESUMEN SQL SERVER 2005 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE CONSULTAS DE RESUMEN Una de las funcionalidades de la sentencia SELECT es el permitir obtener resúmenes

Más detalles

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS

TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS TEMA 7 ANÁLISIS DE DATOS: INTRODUCCIÓN AL SPSS 1. Introducción 2. Definición de variables 3. Introducción de los datos 4. Análisis de los datos 5. Otras utilidades 1. INTRODUCCIÓN El SPSS es un paquete

Más detalles

1 Ejemplo de análisis descriptivo de un conjunto de datos

1 Ejemplo de análisis descriptivo de un conjunto de datos 1 Ejemplo de análisis descriptivo de un conjunto de datos 1.1 Introducción En este ejemplo se analiza un conjunto de datos utilizando herramientas de estadística descriptiva. El objetivo es repasar algunos

Más detalles

Test de Idioma Francés. Manual del evaluador

Test de Idioma Francés. Manual del evaluador Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas

Más detalles

ARREGLOS DEFINICION GENERAL DE ARREGLO

ARREGLOS DEFINICION GENERAL DE ARREGLO ARREGLOS DEFINICION GENERAL DE ARREGLO Conjunto de cantidades o valores homogéneos, que por su naturaleza se comportan de idéntica forma y deben de ser tratados en forma similar. Se les debe de dar un

Más detalles

Direccionamiento IPv4

Direccionamiento IPv4 Direccionamiento IPV4 Página 1 de 15 www.monografias.com Direccionamiento IPv4 1. Direccionamiento IP 2. Componentes de una dirección IP 3. Determinación de la clase de dirección 4. Determinación de los

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

Conceptos Generales en Joomla 1.7.2.

Conceptos Generales en Joomla 1.7.2. 1.- Tipos de usuarios en Joomla! JOOMLA 1.7 USUARIOS. Los usuarios de sitios web de Joomla! pueden dividirse en dos categorías principales: Invitados. Usuarios registrados. Los Invitados son sencillamente

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Metodología. del ajuste estacional. Tablero de Indicadores Económicos Metodología del ajuste estacional Tablero de Indicadores Económicos Metodología del ajuste estacional Componentes de una serie de tiempo Las series de tiempo están constituidas por varios componentes que,

Más detalles