clustering: Clasificación no Supervisada

Tamaño: px
Comenzar la demostración a partir de la página:

Download "clustering: Clasificación no Supervisada"

Transcripción

1 clustering: Clasificación no Supervisada Gráficas estadística y minería de datos con python Miguel Cárdenas Montes Centro de Investigaciones Energéticas Medioambientales y Tecnológicas, Madrid, Spain miguel.cardenas@ciemat.es de Abril de 2013 M. Cárdenas (CIEMAT) clustering de Abril de / 79

2 Tabla de Contenidos 1 Objetivos 2 Introducción 3 k-means 4 DBSCAN 5 Expectation-Maximization y Gaussian Mixture Model 6 Indices de Calidad M. Cárdenas (CIEMAT) clustering de Abril de / 79

3 Objetivos Conocer las técnicas más populares de clasificación no supervisada. Aspectos Técnicos scikit-learn API Kmeans, DBSCAN, Gaussian Mixture Model M. Cárdenas (CIEMAT) clustering de Abril de / 79

4 Introducción M. Cárdenas (CIEMAT) clustering de Abril de / 79

5 Análisis en clúster I Este tipo de análisis se aplica cuando se desconocen las etiquetas asociadas a los datos. Clustering es el proceso de agrupar los datos en clases o en clusteres, de tal forma que, los datos de un mismo clúster tienen una alta similitud y a su vez, son muy diferentes de los de otro clúster. Un clúster de objetos puede ser tratado colectivamente como un grupo o ser considerado como una forma de compresión de datos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

6 Análisis en clúster II Al hacer clusteres, se puede identificar regiones densas y regiones dispersas en el espacio de características, y por lo tanto, descubrir distribución de patrones y correlaciones entre los atributos. Esta técnica se puede utilizar también para la detección de anomaĺıas, aunque existen algoritmos específicos para esta acción. M. Cárdenas (CIEMAT) clustering de Abril de / 79

7 Análisis en clúster III En Machine Learning, clustering es un ejemplo de aprendizaje no supervisado. A diferencia de la clasificación, el clustering o aprendizaje no supervisado no requiere clases predifinidas (ni conjuntos de entrenamiento). Por esta razón, the clustering es un ejemplo de aprendizaje por observación, mientras que clasificación es un ejemplo de aprendizaje por ejemplos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

8 Categorías de métodos de clúster II Métodos basados en particiones Métodos jerárquicos Métodos basados en densidad Métodos basados en rejilla Métodos basados en modelos Métodos basados en distancia M. Cárdenas (CIEMAT) clustering de Abril de / 79

9 Métodos basados en particiones I 1 Dado un conjunto de objetos, n se construye k particiones o grupos con k < n. 2 Se asignan los puntos a los particiones 3 Se refina iterativamente el particionado mediante el cambio de ubicación de los objetos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

10 Métodos basados en particiones II Cada objeto solo puede pertenecer a una partición. Cada partición solo puede tener un objeto. En general el criterio para un buen particionado es que los objetos del mismo cluster sean cercanos o parecidos y los pertenientes a clusteres diferentes sean esencialmente diferentes. M. Cárdenas (CIEMAT) clustering de Abril de / 79

11 Métodos jerárquicos I Se crea a una descomposición jerárquica de los objetos. Dos aproximaciones pueden establecerse, divisor (arriba-abajo) o agregador (abajo-arriba). M. Cárdenas (CIEMAT) clustering de Abril de / 79

12 Métodos jerárquicos II Agregador. Inicialmente todos los puntos son clusteres de ellos individualmente. Sucesivamente se unen los clusteres que cumplen ciertos criterios, hasta que ningún cluster más se puede unir a ningún otro. M. Cárdenas (CIEMAT) clustering de Abril de / 79

13 Métodos jerárquicos III Agregador. Inicialmente todos los puntos forman un solo clúster. Sucesivamente se dividen los clusteres que cumplen ciertos criterios, hasta que ningún cluster se puede dividir. M. Cárdenas (CIEMAT) clustering de Abril de / 79

14 Métodos basados en densidad I Los métodos basados en la distancia tienen a funcionar bien con clusteres esféricos y mal con clusteres con otras formas. Para solucionar este problema otros métodos han desarrollado el concepto de densidad, el cual permite descubrir clusteres con formas arbitrarias. La idea subyacente es hacer crecer un clúster siempre y cuando del clúster exceda de un umbral. M. Cárdenas (CIEMAT) clustering de Abril de / 79

15 Métodos basados en rejilla I Estos métodos segmentan el espacio en un conjunto finito de celdas. Todas la operaciones son ejecutada en sobre las celdas. Si el volumen de datos es grande, estos métodos mantienen unos tiempos de ejecución moderados, a que dependerán más del número de celdas que del número de objetos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

16 Métodos basados en modelos I En este caso, se construyen clusteres funciones de densidad basadas en modelos estadísticos (por ejemplo gausianas). Capacidad de intepretación de los datos limitada por el modelo estadístico utilizado. Si los objetos quedan fuera de lo que se espera para el modelo, automáticamente se etiquetan como outliers. M. Cárdenas (CIEMAT) clustering de Abril de / 79

17 Detección de valores anómalos I Algunos algoritmos de clustering no asignan todos los puntos a clusteres. Por lo tanto, como residuo del proceso de clustering puntos ruidosos o anómalos (outliers) quedan fuera de los clusteres. Se han desarrollado métodos con el fin específico de la detección de puntos anómalos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

18 k-means M. Cárdenas (CIEMAT) clustering de Abril de / 79

19 Algoritmos de Particionado I k-means es el ejemplo más conocido de los algoritmos de particionado. k-medoids es otro ejemplo de algoritmo de particionado. En este tipo de algoritmos, un conjunto de datos formado por n objetos son agrupados en k grupos, con k < n. Finalmente, los elementos que pertenecen a un grupo deben ser similares entre ellos, y no similares a los elementos que pertenecen a otro grupo. M. Cárdenas (CIEMAT) clustering de Abril de / 79

20 Algoritmos de Particionado II En los algoritmos de particionados se tienen que dar dos condiciones: 1 Cada grupo tiene que tener al menos un objeto. 2 Cada objeto sólo puede pertener a un grupo. M. Cárdenas (CIEMAT) clustering de Abril de / 79

21 k-means I 1 Inicialmente, se eligen los k-centros de los grupos. Estos pueden ser puntos (puntos del espacio no coincidentes con tuplas) aleatorios o tuplas aleatorias. 2 Cada uno de los objetos restantes se asignan a un grupo por cercanía (medida de distancia). E = centros i=1 k p m i 2 3 Una vez revisados todos los puntos, se vuelve a calcular los centroides (media de los puntos) en función de los puntos que les pertenecen. Con los nuevos centroides, se vuelve a asignarles puntos. 4 Repetir los puntos anteriores hasta que se alcanza el nivel de convergencia adecuado. M. Cárdenas (CIEMAT) clustering de Abril de / 79

22 M. Cárdenas (CIEMAT) clustering de Abril de / 79

23 Ejemplo I import numpy as np import pylab as pl from sklearn.cluster import KMeans from sklearn.metrics.pairwise import euclidean_distances from sklearn.datasets.samples_generator import make_blobs ########################################################## # Generate sample data np.random.seed(0) batch_size = 45 centers = [[1, 1], [-1, -1], [1, -1]] n_clusters = len(centers) print n_clusters X, labels_true = make_blobs(n_samples=500, centers=centers,\ cluster_std=0.7) ########################################################## # Compute clustering with Means k_means = KMeans(init= k-means++, n_clusters=len(centers),\ n_init=10) k_means.fit(x) k_means_labels = k_means.labels_ k_means_cluster_centers = k_means.cluster_centers_ k_means_labels_unique = np.unique(k_means_labels) ########################################################## KMeans M. Cárdenas (CIEMAT) clustering de Abril de / 79

24 Ejemplo II # Plot result fig = pl.figure(figsize=(4, 4)) fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9) colors = [ #4EACC5, #FF9C34, #4E9A06 ] distance = euclidean_distances(k_means_cluster_centers, squared=true) order = distance.argmin(axis=1) KMeans # KMeans ax = fig.add_subplot(1, 1, 1) for k, col in zip(range(n_clusters), colors): my_members = k_means_labels == k cluster_center = k_means_cluster_centers[k] ax.plot(x[my_members, 0], X[my_members, 1], w,\ markerfacecolor=col, marker=. ) ax.plot(cluster_center[0], cluster_center[1], o,\ markerfacecolor=col, markeredgecolor= k, markersize=8) ax.set_title( KMeans ) ax.set_xticks(()) ax.set_yticks(()) pl.savefig( kmeans.eps ) pl.show() M. Cárdenas (CIEMAT) clustering de Abril de / 79

25 k-means II k-means funciona bien cuando los puntos está agrupados de forma natural (formando nubes esferoidales), y a su vez éstas están separadas. El algoritmo tiene un buen nivel de convergencia alcanzando un mínimo local. No requiere muchas iteraciones para ello. Habitualmente se emplea con k << n M. Cárdenas (CIEMAT) clustering de Abril de / 79

26 k-means III Debilidades Para ser útil los datos deben tener media, con lo que excluye los datos categóricos. La necesidad de la especificación del número de clusteres es una desventaja. No es útil para clusteres no convexos, ni con tamaños muy diferentes (por ejemplo, cara de ratón). No escala bien para grandes volúmenes de datos. Es sensible a la elección inicial de los centroides. M. Cárdenas (CIEMAT) clustering de Abril de / 79

27 k-medoids 1 K-means es muy sensible a los datos anómalos con valores extremos, ya que distorsionan la media del clúster. 2 Para disminuir esta sensibilidad, en vez de tomar un punto cualquiera como referencia del clúster, éste deber ser un punto del clúster. M. Cárdenas (CIEMAT) clustering de Abril de / 79

28 Alrededor de k-means I No es seguro que el proceso de optimización interno a kmeans termine con un buen resultado (mínimo local). Ni siquiera que el algoritmo termine. En algunos casos puede no encontrar solución. Cómo elegir el número de centros? Es un problema difícil. Como es un algoritmo exploratorio, se pueden probar diferentes configuraciones. Dependerá de la estructura de datos en el espacio de caracterísiticas. M. Cárdenas (CIEMAT) clustering de Abril de / 79

29 Alrededor de k-means II Para encontrar un buen mínimo hay que tener cuidado donde se emplazan los centros iniciales. Propuesta: 1 Emplazar el primer centro en un punto aleatorio del conjunto de datos. 2 Emplazar el segundo centro en un punto del conjunto de datos lo más alejado posible del anterior. 3 Emplazar el siguiente centro en un punto del conjunto de datos que maximice la distancia con los centros ya elegidos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

30 Alrededor de k-means III Kmeans tiene problemas para reconocer clusteres con diferentes tamaños y densidades (cara de ratón). KMeans M. Cárdenas (CIEMAT) clustering de Abril de / 79

31 Alrededor de k-means IV Kmeans tiene problemas para reconocer clusteres con diferentes tamaños y densidades (no esféricos). KMeans M. Cárdenas (CIEMAT) clustering de Abril de / 79

32 DBSCAN M. Cárdenas (CIEMAT) clustering de Abril de / 79

33 Alrededor de k-means III - DBSCAN lo soluciona 1.5 Estimated number of clusters: M. Cárdenas (CIEMAT) clustering de Abril de / 79

34 Alrededor de k-means IV - DBSCAN lo soluciona 1.0 Estimated number of clusters: M. Cárdenas (CIEMAT) clustering de Abril de / 79

35 DBSCAN No Es Mágico Qué pasa si tenemos un cluster disperso y uno compacto uno cercano al otro? M. Cárdenas (CIEMAT) clustering de Abril de / 79

36 DBSCAN No Es Mágico Qué pasa si tenemos un cluster disperso y uno compacto uno cercano al otro? 1.5 Estimated number of clusters: Estimated number of clusters: M. Cárdenas (CIEMAT) clustering de Abril de / 79

37 Métodos Basados en Densidad-Distancia DBSCAN es un método de clustering basado en densidad. La idea es hacer crecer un clúster siempre cuando la densidad en el entorno del objeto exceda de un umbral. Este tipo de método permite la detección de clusteres de forma arbitraria, sirviendo además para filtrar datos ruidosos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

38 DBSCAN I DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo basado en métodos de densidad. DBSCAN hace crecer regiones con suficiente alta densidad en grupos y descubre grupos con forma arbitraria. Estos grupos están separados por regiones de baja densidad de objetos (ruido). M. Cárdenas (CIEMAT) clustering de Abril de / 79

39 DBSCAN II Ejemplo con MinPts=3 y ǫ como el radio de los círculos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

40 DBSCAN III Los parámetros esenciales del algoritmo son el radio ǫ y el número de puntos mínimos MinPts. Los puntos: m, p, o son puntos nucleares (core) porque están en un ǫ-vecindario y continenen el número mínimo de puntos. Puntos fronterizos (border point): Son los puntos que tienen menos de MinPts vecinos dentro de su vecindario de radio ǫ, pero están en la vecindad de un punto nuclear. Por ejemplo q y r. Puntos ruidosos (noise point): Son aquellos puntos que no caen en ninguna de las dos categorías anteriores. Los que están fuera de los círculos y, por lo tanto fuera, de los grupos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

41 DBSCAN IV q es directamente densidad-alcanzable desde m, y m lo es desde p (y p desde m ). q es indirectamente densidad-alcanzable desde p porque q lo es directamente desde m y m lo es desde p. Sin embargo, p no es alcanzable desde q porque q no es core. De igual forma, r y s son alcanzables desde o, y o es alcanzable desde r. M. Cárdenas (CIEMAT) clustering de Abril de / 79

42 DBSCAN V M. Cárdenas (CIEMAT) clustering de Abril de / 79

43 DBSCAN VI Cómo funciona DBSCAN? DBSCAN busca clusteres comprobando en el ǫ-vecindario de cada punto. Si en el vecindario de un punto p hay más de MinPts, un nuevo clúster con p como núcleo es creado. DBSCAN iterativamente recolecta los puntos que son directamente alcanzables desde estos objetos núcleo. El proceso termina cuando no se pueden añadir nuevos puntos a ningún clúster. M. Cárdenas (CIEMAT) clustering de Abril de / 79

44 DBSCAN VII Fortalezas Encuentra clusteres no separables linealmente. No necesita asumir un número fi HUSA PRESIDENT PARK jo de clusteres. No depende de las condiciones de inicio. M. Cárdenas (CIEMAT) clustering de Abril de / 79

45 DBSCAN VIII Debilidades Asume densidades similares en todos los clusteres. Puede tener problemas al separar clusteres. M. Cárdenas (CIEMAT) clustering de Abril de / 79

46 Ejemplo I import numpy as np from scipy.spatial import distance from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets.samples_generator import make_blobs ############################################ # Generate sample data centers = [[1, 1], [-1, -1], [1, -1]] X, labels_true = make_blobs(n_samples=50, centers=centers, cluster_std=0.4) ############################################ # Compute similarities D = distance.squareform(distance.pdist(x)) S = 1 - (D / np.max(d)) Estimated number of clusters: 3 ############################################ # Compute DBSCAN db = DBSCAN(eps=0.95, min_samples=10).fit(s) core_samples = db.core_sample_indices_ labels = db.labels_ # Number of clusters in labels, ignoring noise if present. n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0) ############################################ M. Cárdenas (CIEMAT) clustering de Abril de / 79

47 Ejemplo II ############################################ # Plot result import pylab as pl from itertools import cycle pl.close( all ) pl.figure(1) pl.clf() 1.5 Estimated number of clusters: 3 # Black removed and is used for noise instead. 1.0 colors = cycle( bgrc ) for k, col in zip(set(labels), colors): if k == -1: 0.5 # Black used for noise. col = k 0.0 markersize = 6 class_members = [index[0] for index in np.argwhere(labels == 0.5k)] cluster_core_samples = [index for index in core_samples if labels[index] == k] for index in class_members: 1.0 x = X[index] if index in core_samples and k!= -1: markersize = 14 else: markersize = pl.plot(x[0], x[1], o, markerfacecolor=col, markeredgecolor= k, markersize=markersize) pl.title( Estimated number of clusters: %d % n_cl\ usters_) pl.show() M. Cárdenas (CIEMAT) clustering de Abril de / 79

48 OPTICS I El algoritmo DBSCAN está gobernado por dos parámetros: ǫ y MinPts, pero deja al usuario la responsabilidad de la elección de los valores más adecuados para ellos. Por otro lado, DBSCAN está optimizado para generar clusteres de igual densidad. Si los objetos forman clusteres de diferentes densidades, DBSCAN puede tener dificultades para su localización. Para solventar estas dificultades, se creó el algoritmo OPTICS (Ordering Points To Identify the Clustering Structure). M. Cárdenas (CIEMAT) clustering de Abril de / 79

49 OPTICS II OPTICS realiza un ordenamiento de los objetos representando la estructura de los objetos clusterizada basándose en la densidad. Los objetos se ordenan linealmente de formar que los puntos espacialmente más próximos se convierten en vecinos en tras el ordenamiento. Hay dos parámetros críticos en el algoritmo: core-distance de un objeto p es el valor más pequeño de ǫ que hace core a p. Si p no es core, esta distancia no está definida. reachability-distance de un objeto q con respecto a otro objeto p es el valor más alto entre la distancia euclidea entre p y q, y la core-distance de p. Si p no es core, esta distancia no está definida. M. Cárdenas (CIEMAT) clustering de Abril de / 79

50 OPTICS III M. Cárdenas (CIEMAT) clustering de Abril de / 79

51 OPTICS IV M. Cárdenas (CIEMAT) clustering de Abril de / 79

52 Expectation-Maximization M. Cárdenas (CIEMAT) clustering de Abril de / 79

53 Métodos de Clustering Basado en Modelos Los métodos de clustering basado en modelos trata de optimizar el conjunto de datos a un modelo matemático. En general estos métodos se basa en la suposición que los datos han sido generados por una mezcla de distribuciones de probabilidad. Gaussian Mixture y Expectation-Maximization son ejemplos de esta categoría. M. Cárdenas (CIEMAT) clustering de Abril de / 79

54 Expectation-Maximization I En estos modelos, se supone que los datos emergen de una mecla de distribuciones. Cada distribución se denomina como component distribution. Por lo tanto, los datos puede agruparse usando un modelo de mezcla de densidades de k distribución de probabilidades. El problema reside en estimar los parámetros de estas distribuciones para proveer del mejor ajuste posible a los datos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

55 Expectation-Maximization II Este algoritmo puede ser considerado como una extensión de k-means. Si k-means asigna cada objeto a un cluster en función de su media, EM asigna cada objeto a un cluster en función de un peso que representa la probabilidad de pertenencia al cluster. Esto requiere que se defina una distribución de probabilidad para los clusteres. M. Cárdenas (CIEMAT) clustering de Abril de / 79

56 Gaussian Mixture Model I Un modelo de mezcla gaussiano Gaussian Mixture Model (GMM) es una función de densidad de probabilidad representada por una suma de componentes gausianas. GMMs son usadas como modelos paramétricos de la distribución de probabilidad de medidas continuas. Los parámetros de GMM son estimados usando iterativamente mediante Expectation-Maximization. M. Cárdenas (CIEMAT) clustering de Abril de / 79

57 Gaussian Mixture Model II Un GMM es una suma con pesos de densidades gaussianas: p( x) = M w i N( x µ i,σ i ) i=1 donde x es un vector D-dimensional de datos, w i son los pesos con M i=1 w i = 1, y N( x µ i,σ i ) es la densidad gausiana: Por lo tanto, la caracterización se completa con la media, la matriz de covarianza y el peso de cada componente gaussiana. El número de componentes gausianos tiene que ser fijado al principio del algoritmo. M. Cárdenas (CIEMAT) clustering de Abril de / 79

58 GMM Pasos I 1 Inicialización: Para cada clase, un vector compuesto de la media y la matriz de covarianzas es construido. Este vector representa las características de la distribución gaussiana usada para caracterizar las entidades del conjunto de datos. Inicialmente estos valores son generados aleatoriamente. Posteriormente el algoritmo EM trata de aproximar los valores del vector a la distribución real de los datos. 2 Este paso es responsable de estimar la probabilidad de cada elemento de pertenecer a un cluster. M. Cárdenas (CIEMAT) clustering de Abril de / 79

59 GMM Pasos II 3 En este paso se estiman los parámetros de la distribución de probabilidad para el próximo ciclo. Primero se computa la media de la clase a través de la media de todos los puntos en función del grado de relevancia de cada punto. A continuación se calcula la matriz de covarianza. 4 Convergencia: Después de cada ciclo se ejecuta un test convergencia para verficar cuanto ha cambiado el vector de parámetros, y si la diferencia es menor que un umbral de tolerancia el algoritmo se detiene. También se puede detener el algoritmo por alcanzar un número máximo de ciclos. M. Cárdenas (CIEMAT) clustering de Abril de / 79

60 GMM visual I Step N. 1 Step N. 2 M. Cárdenas (CIEMAT) clustering de Abril de / 79

61 GMM visual II Step N. 2 Step N. 3 M. Cárdenas (CIEMAT) clustering de Abril de / 79

62 GMM visual III Step N. 3 Step N. 4 M. Cárdenas (CIEMAT) clustering de Abril de / 79

63 GMM visual IV Step N. 4 Step N. 5 M. Cárdenas (CIEMAT) clustering de Abril de / 79

64 GMM visual V Step N. 5 Step N. 6 M. Cárdenas (CIEMAT) clustering de Abril de / 79

65 GMM visual VI Step N. 6 Step N. 20 M. Cárdenas (CIEMAT) clustering de Abril de / 79

66 GMM Ejemplo I M. Cárdenas (CIEMAT) clustering de Abril de / 79

67 GMM Ejemplo II import numpy as np import pylab as pl from sklearn import mixture n_samples = 100 # generate random sample, two components np.random.seed(0) C = np.array([[0., -0.7], [1.5,.7]]) X_train = np.r_[np.dot(np.random.randn(n_samples, 2), C), np.random.randn(n_samples, 2) + np.array([10, 10])] clf = mixture.gmm(n_components=2, covariance_type= full ) clf.fit(x_train) x = np.linspace(-20.0, 30.0) y = np.linspace(-20.0, 30.0) X, Y = np.meshgrid(x, y) XX = np.c_[x.ravel(), Y.ravel()] Z = np.log(-clf.eval(xx)[0]) Z = Z.reshape(X.shape) CS = pl.contour(x, Y, Z) pl.scatter(x_train[:, 0], X_train[:, 1],.8) pl.savefig( GMM_ejemplo.eps ) pl.show() M. Cárdenas (CIEMAT) clustering de Abril de / 79

68 Indices de Calidad M. Cárdenas (CIEMAT) clustering de Abril de / 79

69 Indices de Calidad Indice de Dunn Indice de Davies-Bouldin Indice silueta M. Cárdenas (CIEMAT) clustering de Abril de / 79

70 Indices de Dunn I El objetivo de este índice es identificar un conjunto de clústeres que sean compactos, con una varianza pequeña entre los miembros del clúster, y que éstos estén bien separados de los miembros de otros clústeres. Un valor más alto del índice de Dunn indica un mejor rendimiento del algoritmo de clustering. El índice de Dunn tiene un valor entre cero y infinito, Por lo tanto, la distancia entre los miembros de un clúster debe ser los más baja posible, y la distancia entre los clústeres lo más alta posible. M. Cárdenas (CIEMAT) clustering de Abril de / 79

71 Indices de Dunn II { D = min 1 i n min 1 j n,i j { }} d(i, j) max 1 k n d (k) donde d(i,j) representa la distancia entre los clústeres i y j, y d (k) mide la distancia dentro del cluster k. M. Cárdenas (CIEMAT) clustering de Abril de / 79

72 Indices de Davies-Bouldin I El índice de Davies-Bouldin tiene una finalidad y construcción similar al de Dunn. DB = 1 n ( ) σi +σ j max n i j d(c i,c j ) i=1 donde n es el número de clústeres, c x denota el centroide del clúster x, σ x es la distancia media de todos los elementos del clúster x al centroide c x, y d(c i,c j ) es la distancia entre los centroides c i y c j. M. Cárdenas (CIEMAT) clustering de Abril de / 79

73 Indices de Silueta I Algo más elaborado que los anteriores: Dunn y Davies-Bouldin. El índice silueta es indicador del número ideal de clústeres. Un valor más alto de este índice indica un caso más deseable del número de clústeres. El coeficiente de Silueta para un conjunto está dato como la media del coeficiente de Silueta de cada objeto de la muestra, s(i). Se puede utilizar el índice tanto para un grupo de puntos (cluster) o para cada punto. M. Cárdenas (CIEMAT) clustering de Abril de / 79

74 Indices de Silueta II El coeficiente de Silueta para un objeto es: s(i) = b a max(a, b) donde: a es la distancia media entre el objeto y todos los otros objetos de la misma clase, y b es la distancia media entre el objeto y todos los otros objetos del clúster más próximo. M. Cárdenas (CIEMAT) clustering de Abril de / 79

75 Indices de Silueta III El valor de s(i) puede ser obtenido combinando los valores de a(i) y b(i) como se muestra a continuación: 1 a(i) b(i), if a(i) < b(i) s(i) = 0, if a(i) = b(i) b(i) 1, if a(i) > b(i) a(i) M. Cárdenas (CIEMAT) clustering de Abril de / 79

76 Indices de Silueta IV , las estructuras encontradas son sólidas , las estructuras encontradas con razonables , las estructuras encontradas con débiles y tienen a ser artificiales. Se deberían intentar métodos alternativos para el análisis de los datos. < 0.25, no se encuentran estructuras. M. Cárdenas (CIEMAT) clustering de Abril de / 79

77 Indices de Silueta V Un valor de s(i) cercano a cero indica que el objeto i está en la frontera de dos clusteres. Por el contrario si el valor de s(i) es negativo, entonces dicho objeto debería ser asignado al cluster más cercano. M. Cárdenas (CIEMAT) clustering de Abril de / 79

78 Indices de Silueta VI 4.0 Raw points with errorbars Cluster Silhouette Value Cluster Cluster Silhouette Value Silhouette Value M. Cárdenas (CIEMAT) clustering de Abril de / 79

79 Gracias Gracias Preguntas? Más preguntas? M. Cárdenas (CIEMAT) clustering de Abril de / 79

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

Programación Genética

Programación Genética Programación Genética Programación Genética consiste en la evolución automática de programas usando ideas basadas en la selección natural (Darwin). No sólo se ha utilizado para generar programas, sino

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

TEMA 7: Análisis de la Capacidad del Proceso

TEMA 7: Análisis de la Capacidad del Proceso TEMA 7: Análisis de la Capacidad del Proceso 1 Introducción Índices de capacidad 3 Herramientas estadísticas para el análisis de la capacidad 4 Límites de tolerancia naturales 1 Introducción La capacidad

Más detalles

SCOP++ Lidar. Metodología de filtrado

SCOP++ Lidar. Metodología de filtrado SCOP++ Lidar. Metodología de filtrado 1 Contenido 1 Estrategia de filtrado y clasificación... 4 Eliminate Building Step (eliminación de edificios)... 5 Thin Out Step (reducción de densidad del fichero

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

CORRELACIÓN Y PREDICIÓN

CORRELACIÓN Y PREDICIÓN CORRELACIÓN Y PREDICIÓN 1. Introducción 2. Curvas de regresión 3. Concepto de correlación 4. Regresión lineal 5. Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS

Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS Contenido: CARTAS DE CONTROL Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS TEST DE MEDIANAS CEL: 72488950 1 Antes de querer utilizar cualquier

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de CAPITULO 4 JUSTIFICACION DEL ESTUDIO En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de estudios previos y los alcances que justifican el presente estudio. 4.1. Justificación.

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Metodología. del ajuste estacional. Tablero de Indicadores Económicos Metodología del ajuste estacional Tablero de Indicadores Económicos Metodología del ajuste estacional Componentes de una serie de tiempo Las series de tiempo están constituidas por varios componentes que,

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Sistema Inteligente de Exploración

Sistema Inteligente de Exploración Observatorio Municipal de Estadística Sistema Inteligente de Exploración Capítulos 1. Consideraciones iniciales y requerimientos... 2 2. Navegación... 3 3. Consulta de indicadores... 5 3.1. Elaboración

Más detalles

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION INTRODUCCIÓN Este caso describe el enfoque de caracterizaciones interculturales de consumidores (Cross Cultural Consumer Characterizations; 4C) de Young &

Más detalles

INFORME EJECUTIVO DE IDC

INFORME EJECUTIVO DE IDC INFORME EJECUTIVO DE IDC De qué forma Big Data transforma la protección y el almacenamiento de datos Agosto 2012 Escrito por Carla Arend Patrocinado por CommVault Introducción: De qué forma Big Data transforma

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Descargado desde www.medwave.cl el 13 Junio 2011 por iriabeth villanueva Medwave. Año XI, No. 2, Febrero 2011. ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos Autor:

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Generación de ficheros PC-Axis desde Oracle mediante SAS

Generación de ficheros PC-Axis desde Oracle mediante SAS csiefum@gobiernodecanariasorg fojechi@gobiernodecanariasorg mespbae@gobiernodecanariasorg Instituto Canario de Estadística Resumen: El Instituto Canario de Estadística hace uso de la herramienta SAS en

Más detalles

Otras medidas descriptivas usuales

Otras medidas descriptivas usuales Tema 7 Otras medidas descriptivas usuales Contenido 7.1. Introducción............................. 1 7.2. Medidas robustas.......................... 2 7.2.1. Media recortada....................... 2 7.2.2.

Más detalles

ESTIMACIÓN. puntual y por intervalo

ESTIMACIÓN. puntual y por intervalo ESTIMACIÓN puntual y por intervalo ( ) Podemos conocer el comportamiento del ser humano? Podemos usar la información contenida en la muestra para tratar de adivinar algún aspecto de la población bajo estudio

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

QUERCUS PRESUPUESTOS MANUAL DEL USO

QUERCUS PRESUPUESTOS MANUAL DEL USO QUERCUS PRESUPUESTOS MANUAL DEL USO 2 Tabla de Contenido 1 Introducción 1 1.1 General 1 1.1.1 Que es Quercus Presupuestos? 1 1.1.2 Interfaz 1 1.1.3 Árbol de Navegación 2 1.1.4 Estructura de Datos de un

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Versión final 8 de junio de 2009

Versión final 8 de junio de 2009 GRUPO DE EXPERTOS «PLATAFORMA PARA LA CONSERVACIÓN DE DATOS ELECTRÓNICOS PARA CON FINES DE INVESTIGACIÓN, DETECCIÓN Y ENJUICIAMIENTO DE DELITOS GRAVES» ESTABLECIDO POR LA DECISIÓN 2008/324/CE DE LA COMISIÓN

Más detalles

PROGRAMACIÓN LINEAL Teoría General de Programación Lineal y Fase de Formulación y Construcción de Modelos.

PROGRAMACIÓN LINEAL Teoría General de Programación Lineal y Fase de Formulación y Construcción de Modelos. PROGRAMACIÓN LINEAL Objetivo: Proponer en forma cuantitativa acciones o decisiones a tomar para optimizar sistemas donde existan recursos escasos y se presenten relaciones lineales, mediante la teoría

Más detalles

BREVE MANUAL DE SOLVER

BREVE MANUAL DE SOLVER BREVE MANUAL DE SOLVER PROFESOR: DAVID LAHOZ ARNEDO PROGRAMACIÓN LINEAL Definición: Un problema se define de programación lineal si se busca calcular el máximo o el mínimo de una función lineal, la relación

Más detalles

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE) QUÉ SON CONCEPTOS PARAMÉTRICOS? Los conceptos paramétricos de Presto permiten definir de una sola vez una colección de conceptos similares a partir de los cuales se generan variantes o conceptos derivados

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.

Más detalles

Operational Risk Revision to the simpler approaches (Consultative document)

Operational Risk Revision to the simpler approaches (Consultative document) Management Solutions 2014. Todos los derechos reservados Operational Risk Revision to the simpler approaches (Consultative document) Basel Committee on Banking Supervision www.managementsolutions.com Investigación

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales Estadística 38 Tema 3: Variables aleatorias y vectores aleatorios bidimensionales El concepto de variable aleatoria surge de la necesidad de hacer más manejables matemáticamente los resultados de los experimentos

Más detalles

Aplicaciones de Estadística Descriptiva

Aplicaciones de Estadística Descriptiva Aplicaciones de Estadística Descriptiva Contenidos de la presentación Funciones estadísticas en Excel. Gráficos. El módulo de análisis de datos y las tablas dinámicas de Excel. Información Intentaremos

Más detalles

Control Estadístico de Procesos

Control Estadístico de Procesos Control Estadístico de Procesos Gráficos de Control Los gráficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Básicamente, una Carta de Control

Más detalles

Enfoque propuesto para la detección del humo de señales de video.

Enfoque propuesto para la detección del humo de señales de video. Capítulo 3 Enfoque propuesto para la detección del humo de señales de video. 3.1 Comportamiento del enfoque propuesto. Una visión general del método propuesto se muestra en la figura 2. El método genera

Más detalles

Retiro de activos y el stock de capital bruto

Retiro de activos y el stock de capital bruto From: Medición del capital - Manual OCDE 2009 Segunda edición Access the complete publication at: http://dx.doi.org/10.1787/9789264043695-es Retiro de activos y el stock de capital bruto Please cite this

Más detalles

Introducción a las redes de computadores

Introducción a las redes de computadores Introducción a las redes de computadores Contenido Descripción general 1 Beneficios de las redes 2 Papel de los equipos en una red 3 Tipos de redes 5 Sistemas operativos de red 7 Introducción a las redes

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

4.4.1 Servicio de Prevención Propio.

4.4.1 Servicio de Prevención Propio. 1 Si se trata de una empresa entre 250 y 500 trabajadores que desarrolla actividades incluidas en el Anexo I del Reglamento de los Servicios de Prevención, o de una empresa de más de 500 trabajadores con

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

La inteligencia de marketing que desarrolla el conocimiento

La inteligencia de marketing que desarrolla el conocimiento La inteligencia de marketing que desarrolla el conocimiento SmartFocus facilita a los equipos de marketing y ventas la captación de consumidores con un enfoque muy relevante y centrado en el cliente. Ofrece

Más detalles

Análisis de componentes principales

Análisis de componentes principales Capítulo 2 Análisis de componentes principales 2.1. INTRODUCCIÓN El Análisis de componentes principales trata de describir las características principales de un conjunto de datos multivariantes, en los

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides Introducción La visión artificial, también conocida como visión por computador

Más detalles

Espacios generados, dependencia lineal y bases

Espacios generados, dependencia lineal y bases Espacios generados dependencia lineal y bases Departamento de Matemáticas CCIR/ITESM 14 de enero de 2011 Índice 14.1. Introducción............................................... 1 14.2. Espacio Generado............................................

Más detalles

Figure 7-1: Phase A: Architecture Vision

Figure 7-1: Phase A: Architecture Vision Fase A Figure 7-1: Phase A: Architecture Vision Objetivos: Los objetivos de la fase A son: Enfoque: Desarrollar una visión de alto nivel de las capacidades y el valor del negocio para ser entregado como

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL 1. Introducción ESTADÍSTICA CO EXCEL La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en

Más detalles

ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto,

Más detalles

Ahorro de energía visualizando páginas Web en dispositivos móviles heterogéneos

Ahorro de energía visualizando páginas Web en dispositivos móviles heterogéneos ROC&C 06 Ahorro de energía visualizando páginas Web en dispositivos móviles heterogéneos Dr. Juan Gabriel González Serna. M.C. Juan Carlos Olivares Rojas. Acapulco, Guerrero, México, 2006. Agenda Introducción

Más detalles

Universidad Nacional de Quilmes Ing. en Automatización y Control Industrial Cátedra: Visión Artificial Agosto de 2005

Universidad Nacional de Quilmes Ing. en Automatización y Control Industrial Cátedra: Visión Artificial Agosto de 2005 Extracción de Frontera (Boundary Extraction) La frontera de un conjunto A, escrita como β(a), se puede obtener erosionando A por B y luego calcular la diferencia entre A y su erosión. Esto es β ( A) =

Más detalles

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información Mestrado Universitario Língua e usos profesionais Miguel A. Alonso Jesús Vilares Departamento de Computación Facultad

Más detalles

Bolsa POLÍTICA DE EJECUCIÓN DE ÓRDENES BANESTO BOLSA

Bolsa POLÍTICA DE EJECUCIÓN DE ÓRDENES BANESTO BOLSA BANESTO BOLSA INDICE 1. ALCANCE... 3 2. AMBITO DE APLICACIÓN... 4 3. CONSIDERACIÓN DE FACTORES... 6 a. Precio... 6 b. Costes... 6 c. Rapidez... 6 d. Probabilidad de la ejecución y la liquidación... 6 e.

Más detalles

CONSULTAS DE RESUMEN SQL SERVER 2005. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE

CONSULTAS DE RESUMEN SQL SERVER 2005. Manual de Referencia para usuarios. Salomón Ccance CCANCE WEBSITE CONSULTAS DE RESUMEN SQL SERVER 2005 Manual de Referencia para usuarios Salomón Ccance CCANCE WEBSITE CONSULTAS DE RESUMEN Una de las funcionalidades de la sentencia SELECT es el permitir obtener resúmenes

Más detalles

Diseño orientado al flujo de datos

Diseño orientado al flujo de datos Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos

Más detalles

Anexo 4. Herramientas Estadísticas

Anexo 4. Herramientas Estadísticas Anexo 4 Herramientas Estadísticas La estadística descriptiva es utilizada como una herramienta para describir y analizar las características de un conjunto de datos, así como las relaciones que existen

Más detalles

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases. BASES Y DIMENSIÓN Definición: Base. Se llama base de un espacio (o subespacio) vectorial a un sistema generador de dicho espacio o subespacio, que sea a la vez linealmente independiente. β Propiedades

Más detalles

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido

Tema 3. Medidas de tendencia central. 3.1. Introducción. Contenido Tema 3 Medidas de tendencia central Contenido 31 Introducción 1 32 Media aritmética 2 33 Media ponderada 3 34 Media geométrica 4 35 Mediana 5 351 Cálculo de la mediana para datos agrupados 5 36 Moda 6

Más detalles

Subespacios vectoriales en R n

Subespacios vectoriales en R n Subespacios vectoriales en R n Víctor Domínguez Octubre 2011 1. Introducción Con estas notas resumimos los conceptos fundamentales del tema 3 que, en pocas palabras, se puede resumir en técnicas de manejo

Más detalles

Formularios. Formularios Diapositiva 1

Formularios. Formularios Diapositiva 1 Formularios Crear un formulario utilizando el Asistente para formularios Modificación en vista Diseño Adición de Controles a un Formulario Adición de un Subformulario a un formulario Formularios Diapositiva

Más detalles

Comunicaciones Digitales - Ejercicios Tema 3

Comunicaciones Digitales - Ejercicios Tema 3 Comunicaciones Digitales - Ejercicios Tema 3 007. 1. Considere el diagrama de rejilla para un canal discreto equivalente genérico con 4 coeficientes no nulos (memoria K p = 3) y una constelación -PAM.

Más detalles

Operación de Microsoft Excel

Operación de Microsoft Excel Representación gráfica de datos Generalidades Excel puede crear gráficos a partir de datos previamente seleccionados en una hoja de cálculo. El usuario puede incrustar un gráfico en una hoja de cálculo,

Más detalles

PCLabs. Práctica de Ingeniería del Software I Curso 2008/09. Descripción del problema

PCLabs. Práctica de Ingeniería del Software I Curso 2008/09. Descripción del problema PCLabs Práctica de Ingeniería del Software I Curso 2008/09 Descripción del problema Introducción... 1 Organización de la empresa... 1 Gestión del almacén... 2 Gestión de pedidos de clientes... 3 Gestión

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Gestión de la Configuración

Gestión de la Configuración Gestión de la ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ESTUDIO DE VIABILIDAD DEL SISTEMA... 2 ACTIVIDAD EVS-GC 1: DEFINICIÓN DE LOS REQUISITOS DE GESTIÓN DE CONFIGURACIÓN... 2 Tarea EVS-GC 1.1: Definición de

Más detalles

SSTQB. Nivel Fundamentos. Examen ejemplo. Programa de estudios 2010

SSTQB. Nivel Fundamentos. Examen ejemplo. Programa de estudios 2010 SSTQB Nivel Fundamentos Examen ejemplo Página 1 de 12 Fecha publicación: 28 - octubre - 2015 Índice Preguntas... 3 Respuestas... 12 Página 2 de 12 Fecha publicación: 28 - octubre - 2015 Preguntas 1 2 Una

Más detalles

INSTITUTO TECNOLÓGICO DE COSTA RICA. Caso #09 - Chrysler. Administración de la Función de la Información

INSTITUTO TECNOLÓGICO DE COSTA RICA. Caso #09 - Chrysler. Administración de la Función de la Información INSTITUTO TECNOLÓGICO DE COSTA RICA Caso #09 - Chrysler Administración de la Función de la Información Álvaro Navarro Barquero 200944186 Alejandro Rodríguez Jiménez 200924533 09/05/2012 Contenido I Situación

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Ing. Claudia Salguero Ing. Alvaro Díaz Control Estadístico del Proceso Es un conjunto de herramientas estadísticas que permiten recopilar, estudiar y analizar la información

Más detalles

EJEMPLO. Práctica de clustering

EJEMPLO. Práctica de clustering Práctica de clustering Preparación de los ficheros binarios Para operar los ficheros binarios se ha utilizado una aplicación en Delphi que permite montar los ficheros ".arff" que usa Weka. La aplicación

Más detalles

Medidas de tendencia central o de posición: situación de los valores alrededor

Medidas de tendencia central o de posición: situación de los valores alrededor Tema 10: Medidas de posición y dispersión Una vez agrupados los datos en distribuciones de frecuencias, se calculan unos valores que sintetizan la información. Estudiaremos dos grandes secciones: Medidas

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Ejemplos de conversión de reales a enteros

Ejemplos de conversión de reales a enteros Ejemplos de conversión de reales a enteros Con el siguiente programa se pueden apreciar las diferencias entre las cuatro funciones para convertir de reales a enteros: program convertir_real_a_entero print

Más detalles

ANÁLISIS DESCRIPTIVO CON SPSS

ANÁLISIS DESCRIPTIVO CON SPSS ESCUELA SUPERIOR DE INFORMÁTICA Prácticas de Estadística ANÁLISIS DESCRIPTIVO CON SPSS 1.- INTRODUCCIÓN Existen dos procedimientos básicos que permiten describir las propiedades de las distribuciones:

Más detalles

Procedimientos para agrupar y resumir datos

Procedimientos para agrupar y resumir datos Procedimientos para agrupar y resumir datos Contenido Introducción Presentación de los primeros n valores Uso de funciones de agregado 4 Fundamentos de GROUP BY 8 Generación de valores de agregado dentro

Más detalles

Movimiento a través de una. José San Martín

Movimiento a través de una. José San Martín Movimiento a través de una curva José San Martín 1. Introducción Una vez definida la curva sobre la cual queremos movernos, el siguiente paso es definir ese movimiento. Este movimiento se realiza mediante

Más detalles

Unidad didáctica: Funcionamiento de un parking. Actividad: Funcionamiento de un parking de vehículos con entrada y salida automática con:

Unidad didáctica: Funcionamiento de un parking. Actividad: Funcionamiento de un parking de vehículos con entrada y salida automática con: Unidad didáctica: Funcionamiento de un parking Descripción: Actividad: Funcionamiento de un parking de vehículos con entrada y salida automática con: Detección del vehiculo entrante Recogida de ticket

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

EL FONDO DE MANIOBRA Y LAS NECESIDADES OPERATIVAS DE FONDOS

EL FONDO DE MANIOBRA Y LAS NECESIDADES OPERATIVAS DE FONDOS 2 EL FONDO DE MANIOBRA Y LAS NECESIDADES OPERATIVAS DE FONDOS Las inversiones de una empresa están reflejadas en su activo. Una forma de clasificación de las diferentes inversiones es en función del plazo

Más detalles

PCGeek. Descripción del problema

PCGeek. Descripción del problema PCGeek Descripción del problema Ejercicio de Ingeniería del Software I Ejercicio de Ingeniería del Software I Página 1 de 9 1 Introducción... 3 1.1 Organización de la empresa... 3 2 Gestión del almacén...

Más detalles

Operación Microsoft Access 97

Operación Microsoft Access 97 Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe

Más detalles