Metodos de validación de clusters

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Metodos de validación de clusters"

Transcripción

1 Metodos de validación de clusters Por qué es importante validar un cluster? Los métodos de clustering siempre van a encontrar grupos, aun cuando no haya patrones. Puede ser un primer paso para determinar el número correcto de clusters. Es una herramienta para comparar diferentes métodos de clustering aplicados al mismo dataset. Una breve introducción y algunas definiciones En algunas situaciones antes de comenzar con las tareas de clustering es necesario determinar si los datos realmente presentan alguna tendencia al agrupamiento. Asumiendo que esta tendencia existe, una vez que se realizan los análisis de agrupamiento se continúa con la validación. Validar un agrupamiento significa determinar si los clusters obtenidos reflejen la presencia de grupos en los datos y la separación de dichos grupos en el espacio de variables. La concordancia entre número de clusters y de grupos "reales" se puede evaluar de dos formas diferentes. Si existe algún información sobre la existencia de clases dentro del conjunto de datos y esa información sobre clases no se utilizó para el clustering, se puede realizar la validación externa de los clusters. Este es, calcular alguna métrica que revele la concordancia entre las clases conocidas y los clusters obtenidos. De manera complementaria, o como alternativa, si no se cuenta con información de clases, se puede realizar una validación interna. Este tipo de validación consiste en determinar si los clusters encontrados tienen suficiente separación entre si, y cohesión dentro de cada uno de ellos. Existen diferentes medidas de validación externa e interna y no existe un criterio único para determinar cuál es la mejor. Hay que tener en cuenta que no hay una medida única que se pueda usar para todos los métodos de clustering y en algunos casos la eficiencia de estas medidas todavía no se estudió en profundidad.

2 Dos criterios importantes: Cohesión: mide las proximidades de los miembros de un cluster con respecto al prototipo (centroide o medoide). Separación: es la proximidad entre miembros de diferentes clusters o entre prototipos de grupos y el prototipo general Y algunas fórmulas derivadas: Suma de los errores al cuadrado: Donde K es el número total de clusters, ci es el centroide del cluster Ci. La suma total de cuadrados (TSE) es igual a la suma de errores al cuadrado (SSE) más la suma de cuadrados de separación (SSB): Como material de referencia para este tema se puede consultar: El capítulo 8 de "Introduction to Data Mining" de Tan, Steinbach & Kumar (este capítulo está * disponible gratis aqui). El capítuo 23 de "Data Clustering. Algorithms and Applications", editado por Vipin Kumar. Una versión casi idéntica a este capítulo se encuentra en este artículo Preparación de un dataset Para poder tener control sobre los datos vamos a crear tres datasets, cada uno con 200 casos y 3 variables. La diferencia entre ellos es que las variables del primero no tienen ruido, y el segundo y tercero van a tener ruido creciente. a <- c(rep(2,40), rep(6,40), rep(12,40), rep(19,40), rep(26,40)) b <- c(rep(3,40), rep(6,40), rep(14,120)) c <- c(rep(12,80), rep(18,40), rep(2,40), rep(30,40)) a.r1 <- a + rnorm(200, 0, 0.5) b.r1 <- b + rnorm(200, 0, 0.5) c.r1 <- c + rnorm(200, 0, 0.5) a.r2 <- a + rnorm(200, 0, 3)

3 b.r2 <- b + rnorm(200, 0, 3) c.r2 <- c + rnorm(200, 0, 4) Ahora les asignamos clases a los objetos. La elección de los valores que toma cada variable determina cinco clases. Hay que tener en cuenta que el ruido agregado va a afectar a las posiciones de los objetos en el espacio muestral del segundo dataset. Esto significa que algunas asignaciones de clase pueden resultar arbitrarias. dat.clase <- c(rep("a",40), rep("b",40), rep("c",40), rep("d", 40), rep("e",40)) Agrupamos las variables con y sin ruido en dos matrices diferentes: # aleatorizamos el orden de los registros (para hacerlos parecer más "reales", no es necesario) randord <- sample(1:200, 200) # dat es la matriz original: dat <- as.matrix(cbind(a,b,c)) row.names(dat) <- paste0("obj", 1:200) dat <- dat[randord,] # dat.r1 es la matriz con ruido: dat.r1 <- as.matrix(cbind(a.r1, b.r1, c.r1)) row.names(dat.r1) <- paste0("obj", 1:200) dat.r1 <- dat.r1[randord,] # dat.r2 es la matriz con más ruido: dat.r2 <- as.matrix(cbind(a.r2, b.r2, c.r2)) row.names(dat.r2) <- paste0("obj", 1:200) dat.r2 <- dat.r2[randord,] # ordenamos las etiquetas de clase dat.clase <- dat.clase[randord] # Escalamos todos los datos entre 0 y 1 para simplificar los pasos que siguen esc01 <- function(x) { (x - min(x)) / (max(x) - min(x))} dat.nrm <- apply(dat, 2, esc01) dat.r1.nrm <- apply(dat.r1, 2, esc01) dat.r2.nrm <- apply(dat.r2, 2, esc01) Podemos mirar rápidamente el efecto del agregado de ruido en los tres datasets: dat.nrm.dist <- dist(dat.nrm) dat.clus <- hclust(dat.nrm.dist) dat.r1.dist <- dist(dat.r1.nrm) dat.r1.clus <- hclust(dat.r1.dist)

4 dat.r2.dist <- dist(dat.r2.nrm) dat.r2.clus <- hclust(dat.r2.dist) par(mfrow=c(1,3)) plot( as.dendrogram( dat.clus ), leaflab="none", main="dat.nrm") plot( as.dendrogram( dat.r1.clus ), leaflab="none", main="dat.r1.nrm") plot( as.dendrogram( dat.r2.clus ), leaflab="none", main="dat.r2.nrm") par(mfrow=c(1,1)) Medición de la tendencia al clustering Podemos plantearnos si, como sugieren los gráficos anteriores, el agregado de ruido aleatorio no pudo haber destruido cualquier tendencia al agrupamiento, especialmente en dat.r2.nrm. Esto es, Los datos quedaron dispersos de manera aleatoria en el espacio muestral? Para averiguar esto podemos usar el estadístico de Hopkins de tendencia al clustering, (está descrito en el libro "Introduction to Data Mining" de Tan, Steinbach & Kumar, p547). El método consiste en generar p puntos distribuidos al azar en el espacio muestral, y además extraer p puntos reales del dataset. Luego se calculan las distancias a los vecinos más próximos de los datos generados al azar (u) y de los datos extraídos del dataset (w), con estos se calcula:

5 Usamos el paquete RANN de R para determinar la distancia al vecino más cercano y asignamos a la variable cant.muestras el número de puntos que se van a analizar. if (!require("rann")) install.packages("rann") ## Loading required package: RANN library(rann) Creamos 20 puntos al azar en el espacio de muestreo: cant.muestras <- 20 rnd.pts <- cbind(runif(cant.muestras, 0, 1), runif(cant.muestras, 0, 1), runif(cant.muestras, 0, 1)) Y ahora seleccionamos al azar 20 indices de las tres matrices smp <- sample(nrow(dat.nrm), 20) smp.dat <- dat.nrm[smp,] smp.r1 <- dat.r1.nrm[smp,] smp.r2 <- dat.r2.nrm[smp,] Calculamos la tendencia al clustering de los datos sin ruido del primer dataset: # calculo de las distancias al vecino más cercano para los datos reales smp.pts.dist <- nn2(as.data.frame(dat.nrm), as.data.frame(smp.dat), k=2)$nn.dist[,2] # calculo de las distancias al vecino más cercano para datos al azar rnd.pts.dist <- nn2(as.data.frame(dat.nrm), as.data.frame(rnd.pts), k=1)$nn.dists # calculo del estadistico sum(smp.pts.dist) / (sum(smp.pts.dist) + sum(rnd.pts.dist)) ## [1] 0 Ahora para los datos con ruido intermedio: smp.pts.dist <- nn2(as.data.frame(dat.r1.nrm), as.data.frame(smp.r1), k=2)$nn.dist[,2] rnd.pts.dist <- nn2(as.data.frame(dat.r1.nrm), as.data.frame(rnd.pts), k=1)$nn.dists sum(smp.pts.dist) / (sum(smp.pts.dist) + sum(rnd.pts.dist)) ## [1]

6 Ahora para los datos con ruido intermedio smp.pts.dist <- nn2(as.data.frame(dat.r2.nrm), as.data.frame(smp.r2), k=2)$nn.dist[,2] rnd.pts.dist <- nn2(as.data.frame(dat.r2.nrm), as.data.frame(rnd.pts), k=1)$nn.dists sum(smp.pts.dist) / (sum(smp.pts.dist) + sum(rnd.pts.dist)) ## [1] : En el primer caso la tendencia al clustering es cero, indicando que es la más mayor posible. Esto sucede porque para cada clase hay varios elementos idénticos, por lo que la distancia al vecino más cercano va a ser cero para cualquier punto. Al aumentar el ruido la tendencia al clustering baja, pero no pasa el umbral de 0.5. Validación externa de un cluster La discusión que sigue está enfocada sobre en todo la validación de clusters obtenidos por el método de k-medias. En la validación externa de un agrupamiento se utiliza información que no está presente en los datos con los que se hace el agrupamiento. En nuestro caso la variable dat.clase, que habíamos construido antes, registra la pertenencia a las diferentes clases de cada uno de los 200 registros del dataset de prueba. Para poder validar primero necesitamos algunos cluster: dat.kmeans <- kmeans(dat.nrm, centers=5) head(dat.kmeans$cluster) ## obj127 obj114 obj45 obj128 obj194 obj175 ## dat.conf <- table(dat.kmeans$cluster, dat.clase, dnn = c("cluster", "clase")) dat.conf ## clase ## cluster a b c d e ## ## ## ## ## # K = 5. OK dat.r2.kmeans <- kmeans(dat.r2.nrm, centers=5) dat.r2.conf <- table(dat.r2.kmeans$cluster, dat.clase, dnn =

7 c("cluster", "clase")) dat.r2.conf ## clase ## cluster a b c d e ## ## ## ## ## # k = 2 dat.r2.kmeans.mal.1 <- kmeans(dat.r2.nrm, centers=2) dat.r2.mal.1.conf <- table(dat.r2.kmeans.mal.1$cluster, dat.clase, dnn = c("cluster", "clase")) dat.r2.mal.1.conf ## clase ## cluster a b c d e ## ## # k = 10 dat.r2.kmeans.mal.2 <- kmeans(dat.r2.nrm, centers=10) dat.r2.mal.2.conf <- table(dat.r2.kmeans.mal.2$cluster, dat.clase, dnn = c("cluster", "clase")) dat.r2.mal.2.conf ## clase ## cluster a b c d e ## ## ## ## ## ## ## ## ## ## En el capítulo recomendado de Xiong y Li (o el paper Wu, Xiong y Chen) se realiza una evaluación comparativa de diferentes medidas de validación externa y la que resulta mejor es la medida normalizada de van Dongen: A continuación, una función simplificada en R para calcular esta medida:

8 vdn <- function(matconf){ n2 <- 2 * sum(matconf) sum.i <- sum(apply(matconf,1,max)) sum.j <- sum(apply(matconf,2,max)) max.i <- max(rowsums(matconf)) max.j <- max(colsums(matconf)) vd.n <- (n2 - sum.i - sum.j) / (n2-max.i-max.j) return(vd.n) } Y la evaluación de la medida normalizada de van Dongen para los tres agrupamientos de k-medias anteriores (cuanto menor es el valor, mejor): vdn(dat.r2.conf) ## [1] vdn(dat.r2.mal.1.conf) ## [1] vdn(dat.r2.mal.2.conf) ## [1] Es importante hacer este tipo de evaluaciones porque el método de k-medias tiende a formar grupos de tamaño uniforme, aun cuando las clases sean claramente no balanceadas. Esto se llama el "efecto uniforme". Una forma rápida de evaluarlo es calcular el coeficiente de variación (CV = desvío estándar/media) de la distribución del tamaño de las clases. Por ejemplo supongamos dos datasets con 6 clases. En el primer dataset el tamaño de cada clase es bastante uniforme y el segundo es sesgado: ds1.n.clases <- c(55, 58, 51, 59, 49, 50) ds2.n.clases <- c(5, 17, 62, 30, 128, 80) cv.ds1.n.clases <- sd(ds1.n.clases) / mean(ds1.n.clases) cv.ds1.n.clases ## [1] cv.ds2.n.clases <- sd(ds2.n.clases) / mean(ds2.n.clases) cv.ds2.n.clases ## [1] En forma empírica se mostró que si las clases presentan un CV mayor que 0.85 es bastante posible que el método de k-medias vaya a introducir alguna distorsión en el resultado. Si se están probando variaciones de métodos o parámetros de

9 clustering, una forma rápida de evaluar el efecto uniforme es calcular diferencias entre el CV de las clases conocidas y las de los variantes probadas. El método de k-medias también puede ser sensible a diferencias en densidad de los grupos y a la presencia de grupos no esféricos. Validación interna: análisis con Silhouette en agrupamientos por partición El análisis de Silhouette es útil para analizar la cohesión y separación dentro de un grafo. Procedimiento: Para cada objeto i calcular su distancia promedio a todos los otros objetos de su cluster. Llamar a este valor ai. Para el objeto i y todos los otros clusters que no lo contienen, calcular las distancias promedio a todos los objetos de cada cluster. buscar el mínimo y llamarlo bi. El coeficiente Silhouette (si) del objeto i es: Algunos ejemplos en R: library(cluster) dat.r2.kmeans.sil <- silhouette(dat.r2.kmeans$cluster, dat.r2.dist) # salida tabulada: summary(dat.r2.kmeans.sil) ## Silhouette of 200 units in 5 clusters from silhouette.default(x = dat.r2.kmeans$cluster, dist = dat.r2.dist) : ## Cluster sizes and average silhouette widths: ## ## ## Individual silhouette widths: ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## summary(dat.r2.kmeans.sil)$avg.width ## [1]

10 summary(dat.r2.kmeans.sil)$clus.avg.widths ## ## # salida grafica plot(silhouette(dat.r2.kmeans$cluster, dat.r2.dist)) Calidad de clusters jerárquicos Anteriormente habíamos construido clusters jerárquicos para realizar un análisis exploratorio rápido. en esta sección vamos a profundizar la validación de este tipo de agrupamientos. Primero hacemos un gráfico de calor para estudiar las relaciones de distancia: library(lattice) levelplot(as.matrix(dat.nrm.dist))

11 Sirve? Qué pasó?. Es importante ordenar: # dat levelplot(as.matrix(dat.nrm.dist)[dat.clus$order, dat.clus$order], scales=list(y=list(at=c(1),labels=""), x=list(at=c(1),labels=""))) # dat.r1 levelplot(as.matrix(dat.r1.dist)[dat.r1.clus$order, dat.r1.clus$order], scales=list(y=list(at=c(1),labels=""), x=list(at=c(1),labels="")))

12 # dat.r1 levelplot(as.matrix(dat.r2.dist)[dat.r2.clus$order, dat.r2.clus$order], scales=list(y=list(at=c(1),labels=""), x=list(at=c(1),labels="")))

13 Cómo se interpretan estos resultados? Sobre la diagonal se ubican los clusters, que no deberían tener similitud con los otros clusters, que se observarían como zonas de color rosado alejados de la diagonal principal. Los dos clusters que se ubican en el extremo inferior izquierdo son clusters con datos relativamente similares entre sí (ver los dendrogramas de más arriba). A medida que aumenta el ruido, se pierde la separación clara entre clusters. El coeficiente de correlación cofenético Otra medida de calidad de los clusters jerárquicos es el cálculo del coeficiente de correlación cofenético, que mide la correlación entre la matris de distancia que dio origen al agrupamiento y los distancias extraidas del árbol. cor(dist(dat.nrm), cophenetic(dat.clus)) ## [1] cor(dist(dat.r1.nrm), cophenetic(dat.r1.clus)) ## [1] Técnicas de bootstraping Otra alternativa para evaluar la significación de las ramas de un agrupamiento jerárquicos es mediante la aplicación de técnicas de bootstraping. Este tema lo vamos a mirar con más atención un poco más adelante. Partición de un cluster jerárquico. Se pueden extraer grupos de un cluster jerárquico estableciendo un punto de corte, con esto se puede construir una matriz de confusión muy básica para realizar una validación externa de la calidad del cluster: dat.r.clus.gr <- cutree(dat.r1.clus, h=0.3) plot(dat.r1.clus) rect.hclust(dat.r1.clus, h=0.3, border="red")

14 table(dat.r.clus.gr, dat.clase) ## dat.clase ## dat.r.clus.gr a b c d e ## ## ## ## ##

CLUSTERING. Bases de Datos Masivas

CLUSTERING. Bases de Datos Masivas 1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto

Más detalles

Aprendizaje No Supervisado

Aprendizaje No Supervisado Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.

Más detalles

Métricas para la validación de Clustering

Métricas para la validación de Clustering Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

1. Análisis de Conglomerados

1. Análisis de Conglomerados 1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas

Más detalles

Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística Estadística I Guión de la Práctica Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística 1. Simulación de las variables aleatorias En Excel podemos simular valores de variables

Más detalles

EJERCICIOS RESUELTOS

EJERCICIOS RESUELTOS CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 10.1.- Generar 100 muestras de tamaño 200 de una variable aleatoria N(0,1). Calcular los correspondientes intervalos de confianza para la media al nivel

Más detalles

Medidas de centralización

Medidas de centralización 1 1. Medidas de centralización Medidas de centralización Hemos visto cómo el estudio del conjunto de los datos mediante la estadística permite realizar representaciones gráficas, que informan sobre ese

Más detalles

ESTADÍSTICA BASICA EN CONTROL DE CALIDAD

ESTADÍSTICA BASICA EN CONTROL DE CALIDAD ESTADÍSTICA BASICA EN CONTROL DE CALIDAD El control estadístico de la calidad, aplica la teoría del muestreo estadístico, al estudio de las características de calidad. Pretende determinar la variabilidad,

Más detalles

GEOESTADÍSTICA APLICADA

GEOESTADÍSTICA APLICADA UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO GEOESTADÍSTICA APLICADA Tema: Análisis Exploratorio de Datos Instructores: Dr. Martín A. Díaz Viera ([email protected]) Dr. Ricardo Casar González ([email protected]) 2009

Más detalles

2.2: Resumen numérico

2.2: Resumen numérico 2.2: Resumen numérico Medidas de localización. Medidas de dispersión. Medidas de forma. Lecturas recomendadas: Capítulos 2 a 6 del libro de Peña y Romo (1997) Capítulos 3 a 7 del libro de Portilla (2004)

Más detalles

Estadística Descriptiva 2da parte

Estadística Descriptiva 2da parte Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 2da parte 2 Cuatrimestre 2018 COMISIÓN :1. Prof. Dr. Juan Ignacio Pastore. Qué es la estadística? El contenido de la

Más detalles

DESCRIPCIÓN DE DATOS. Medidas Numéricas

DESCRIPCIÓN DE DATOS. Medidas Numéricas DESCRIPCIÓN DE DATOS Medidas Numéricas MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN MEDIA ARITMÉTICA O PROMEDIO Media poblacional Cualquier característica medible de una población recibe el nombre de parámetro

Más detalles

ÁREAS DE LA ESTADÍSTICA

ÁREAS DE LA ESTADÍSTICA QUÉ ES LA ESTADÍSTICA? Es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. ÁREAS DE LA ESTADÍSTICA Diseño: Planeamiento y desarrollo de investigaciones Descripción: Resumen

Más detalles

Ejercicios de estadística.

Ejercicios de estadística. Ejercicios de estadística..- Los siguientes números son el número de horas que intervienen alumnos en hacer deporte durante un mes:, 7,,, 5, 6, 7, 9,,, 5, 6, 6, 6, 7, 8,,, 5, 8 a) Calcula las tablas de

Más detalles

Ms. C. Marco Vinicio Rodríguez

Ms. C. Marco Vinicio Rodríguez Ms. C. Marco Vinicio Rodríguez [email protected] http://mvrurural.wordpress.com/ Uno de los objetivos de la estadística es saber acerca del comportamiento de parámetros poblacionales tales como:

Más detalles

Técnicas de Clustering

Técnicas de Clustering Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.

Más detalles

1. La Distribución Normal

1. La Distribución Normal 1. La Distribución Normal Los espacios muestrales continuos y las variables aleatorias continuas se presentan siempre que se manejan cantidades que se miden en una escala continua; por ejemplo, cuando

Más detalles

Ejemplo: Peso y altura de los estudiantes Función de Distribución -Coeficiente de correlación(de Pearson) Estadística Descriptiva.

Ejemplo: Peso y altura de los estudiantes Función de Distribución -Coeficiente de correlación(de Pearson) Estadística Descriptiva. -(de Pearson) Mayo 2014 Esquema de la Presentación 1 Ejemplo: Peso y altura de los estudiantes 2 3 Datos de estudiantes Tenemos los datos que corresponden a 51 estudiantes de UDA2 de la Facultad de Odontología

Más detalles

Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los

Más detalles

Intervalos de confianza con STATGRAPHICS

Intervalos de confianza con STATGRAPHICS Intervalos de confianza con STATGRAPHICS Ficheros empleados: TiempoaccesoWeb.sf3 ; TiempoBucle.sf3; 1. Ejemplo 1: Tiempo de acceso a una página Web Se desean construir intervalos de confianza para la media

Más detalles

Estadística I. Finanzas y contabilidad

Estadística I. Finanzas y contabilidad Estadística I. Finanzas y contabilidad Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad. Modelos probabilísticos.

Más detalles

Gráfico de la función de distribución empírica

Gráfico de la función de distribución empírica Función de Distribución Empírica 63 Supongamos que (x 1, x 2,..., x n ) es un lote de números. Fn ( x ) = 1 x x n (# i ) (1) F n (x) da la proporción de los datos que son menores o iguales que x, es decir,

Más detalles

Las técnicas para resumir la información ió contenida en un conjunto de datos x 1, x 2,,x n son: Tablas de frecuencias: por columnas, disponemos los

Las técnicas para resumir la información ió contenida en un conjunto de datos x 1, x 2,,x n son: Tablas de frecuencias: por columnas, disponemos los Las técnicas para resumir la información ió contenida en un conjunto de datos x 1, x 2,,x n son: Tablas de frecuencias: por columnas, disponemos los datos (si hay pocos distintos) o los intervalos (si

Más detalles

Estadística I Tema 5: Introducción a la inferencia estadística

Estadística I Tema 5: Introducción a la inferencia estadística Estadística I Tema 5: Introducción a la inferencia estadística Tema 5. Introducción a la inferencia estadística Contenidos Objetivos. Estimación puntual. Bondad de ajuste a una distribución. Distribución

Más detalles

CLASIFICACIÓN PROBLEMA SOLUCIÓN

CLASIFICACIÓN PROBLEMA SOLUCIÓN Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),

Más detalles

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión-

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión- Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión- 1. Introducción Fichero de datos empleado: VelVientos730.sf3 En este documento se analizarán, utilizando Statgraphics,

Más detalles

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster. K-Means Introducción El algoritmo k-means es el algoritmo de clustering más popular y ampliamente utilizado. Algoritmo Supongamos que queremos agrupar los siguientes datos en dos clusters Primero se inicializan

Más detalles

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.

Más detalles

Estadística Básica 1er Cuatrimestre 2012

Estadística Básica 1er Cuatrimestre 2012 Estadística Básica 1er Cuatrimestre 2012 En todo análisis y/o interpretación se pueden utilizar diversas medidas descriptivas que representan las propiedades de tendencia central, dispersión y forma, para

Más detalles

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Modelado y simulación en Ingeniería Química. Manuel Rodríguez ÍNDICE Modelos de caja gris Calibración de modelos Estimación de parámetros Análisis de la estimación Regresión no lineal 1. Modelos de caja gris Son modelos de un sistema (o proceso), donde: Desarrollados

Más detalles

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Lic. Esperanza García Cribilleros ANÁLISIS EXPLORATORIO DE DATOS Diagrama de tallo y hojas Diagrama de caja DESCRIPCIÓN N DE LOS DATOS Tablas

Más detalles

Estimación. Diseño Estadístico y Herramientas para la Calidad. Estimación. Estimación. Inferencia Estadística

Estimación. Diseño Estadístico y Herramientas para la Calidad. Estimación. Estimación. Inferencia Estadística Diseño Estadístico y Herramientas para la Calidad Estimación Epositor: Dr. Juan José Flores Romero [email protected] http://lsc.fie.umich.m/~juan M. en Calidad Total y Competitividad Estimación Inferencia

Más detalles

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos

Más detalles

PRÁCTICAS DE ESTADÍSTICA CON R

PRÁCTICAS DE ESTADÍSTICA CON R PRÁCTICAS DE ESTADÍSTICA CON R PRÁCTICA 1: INTRODUCCIÓN A R 1.1 Empezando a trabajar con R El programa R (software libre) se puede descargar en la siguiente dirección de internet: http://cran.r-project.org/.

Más detalles

Técnicas Cuantitativas para el Management y los Negocios

Técnicas Cuantitativas para el Management y los Negocios Técnicas Cuantitativas para el Management y los Negocios Contador Público Módulo I: ESTADÍSTICA DESCRIPTIVA Contenidos Módulo I Unidad 1. Introducción y conceptos básicos Conceptos básicos de Estadística.

Más detalles

Psicometría Tema 8 ANÁLISIS DE LA CALIDAD MÉTRICA DE LOS ÍTEMS

Psicometría Tema 8 ANÁLISIS DE LA CALIDAD MÉTRICA DE LOS ÍTEMS Psicometría Tema 8 ANÁLISIS DE LA CALIDAD MÉTRICA DE LOS ÍTEMS Psicometría Mª Isabel García Barbero, UNED. Universidad Nacional de Educación a Distancia, 2006 1 La evaluación de la calidad métrica de los

Más detalles

Estadística I Examen extraordinario, 25 de Junio Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER.

Estadística I Examen extraordinario, 25 de Junio Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER. Estadística I Examen extraordinario, 25 de Junio 2013. Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER. REGLAS DEL EXAMEN: 1) Usar cuadernillos diferentes para cada problema. 2) Hacer los cálculos

Más detalles

Estadística con R. Nivel Básico

Estadística con R. Nivel Básico Estadística con R. Nivel Básico Vanesa Jordá Departamento de Economía Universidad de Cantabria 11 de octubre de 2017 [email protected] 1 Índice: Estadística descriptiva u Datos univariantes: I. Medidas

Más detalles

Técnicas de Inferencia Estadística II. Tema 5. Estadísticos de orden

Técnicas de Inferencia Estadística II. Tema 5. Estadísticos de orden Técnicas de Inferencia Estadística II Tema 5. Estadísticos de orden M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2010/11 Tema 5. Estadísticos de orden Contenidos

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:

Más detalles

Medidas de dispersión

Medidas de dispersión Medidas de dispersión Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son: Rango o recorrido El rango es la diferencia

Más detalles

Estadística I Tema 2: Análisis de datos univariantes

Estadística I Tema 2: Análisis de datos univariantes Estadística I Tema 2: Análisis de datos univariantes Tema 2: Análisis de datos univariantes Contenidos Gráficas para datos categóricos (diagrama de barras, diagrama de sectores). Gráficas para datos numéricos

Más detalles

MEDIDAS DE VARIABILIDAD

MEDIDAS DE VARIABILIDAD MEDIDAS DE VARIABILIDAD 1 Medidas de variabilidad Qué son las medidas de variabilidad? Las medidas de variabilidad de una serie de datos, muestra o población, permiten identificar que tan dispersos o concentrados

Más detalles

ACTIVIDAD 2: La distribución Normal

ACTIVIDAD 2: La distribución Normal Actividad 2: La distribución Normal ACTIVIDAD 2: La distribución Normal CASO 2-1: CLASE DE BIOLOGÍA El Dr. Saigí es profesor de Biología en una prestigiosa universidad. Está preparando una clase en la

Más detalles

Análisis de agrupamiento (Cluster nmds)

Análisis de agrupamiento (Cluster nmds) Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre

Más detalles

Tema 13: Distribuciones de probabilidad. Estadística

Tema 13: Distribuciones de probabilidad. Estadística Tema 13: Distribuciones de probabilidad. Estadística 1. Variable aleatoria Una variable aleatoria es una función que asocia a cada elemento del espacio muestral, de un experimento aleatorio, un número

Más detalles

Prueba Integral Lapso /6

Prueba Integral Lapso /6 Prueba Integral Lapso 2 009-2 76 - /6 Universidad Nacional Abierta Probabilidad y Estadística I (76) Vicerrectorado Académico Cód. Carrera: 06-20 - 508 Fecha: 2-2 - 2 009 MODELO DE RESPUESTAS Objetivos,

Más detalles

Tema 4: Variables aleatorias.

Tema 4: Variables aleatorias. Estadística 46 Tema 4: Variables aleatorias. El concepto de variable aleatoria surge de la necesidad de hacer más manejables matemáticamente los resultados de los experimentos aleatorios, que en muchos

Más detalles

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa Materia: Estadística I Maestro: Dr. Francisco Javier Tapia Moreno Semestre: 015- Hermosillo, Sonora, a 14 de septiembre de

Más detalles

Práctica 4. Contraste de hipótesis

Práctica 4. Contraste de hipótesis Práctica 4. Contraste de hipótesis Estadística Facultad de Física Objetivos Ajuste a una distribución discreta uniforme Test χ 2 Comparación de muestras Ajuste a una distribución normal 1 Introducción

Más detalles

Capítulo. Distribución de probabilidad normal. Pearson Prentice Hall. All rights reserved

Capítulo. Distribución de probabilidad normal. Pearson Prentice Hall. All rights reserved Capítulo 37 Distribución de probabilidad normal 2010 Pearson Prentice Hall. All rights 2010 reserved Pearson Prentice Hall. All rights reserved La distribución de probabilidad uniforme Hasta ahora hemos

Más detalles

Introducción al Análisis Multivariante

Introducción al Análisis Multivariante al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012 Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos

Más detalles

Análisis Exploratorio de Datos Resumen gráfico y numérico

Análisis Exploratorio de Datos Resumen gráfico y numérico INSTITUTO DE MATEMÁTICA Y FIsiCA Análisis Exploratorio de Datos Resumen gráfico y numérico DOCENTE Gloria Correa Beltrán Etapas del Método Científico Pasos a seguir en el Análisis Exploratorio de Datos

Más detalles

Distribuciones Fundamentales de Muestreo. UCR ECCI CI-0115 Probabilidad y Estadística Prof. Kryscia Daviana Ramírez Benavides

Distribuciones Fundamentales de Muestreo. UCR ECCI CI-0115 Probabilidad y Estadística Prof. Kryscia Daviana Ramírez Benavides Distribuciones Fundamentales de Muestreo UCR ECCI CI-0115 Probabilidad y Estadística Prof. Kryscia Daviana Ramírez Benavides Distribuciones Muestrales La distribución de probabilidad de un estadístico

Más detalles

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS

TALLER DE INTRODUCCIÓN A LOS NEGOCIOS REGRESIÓN LINEAL SIMPLE INTRODUCCIÓN Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia

Más detalles

Métodos de Remuestreo Tema 2. Distribución Empírica

Métodos de Remuestreo Tema 2. Distribución Empírica Métodos de Remuestreo Tema 2. Distribución Empírica basado en B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap. O. Kirchkamp (2014). Resampling methods. Curso 2014/15 Parámetros, distribuciones

Más detalles

Estadística Descriptiva 2da parte

Estadística Descriptiva 2da parte Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 2da parte 1 Cuatrimestre 2014 Prof. Marina Tomei. Jueves de 8 a 10 hs. Mg. Stella Maris Figueroa. juevesde 13 a 105hs.

Más detalles

TEMA 6 ANÁLISIS DE CONGLOMERADOS

TEMA 6 ANÁLISIS DE CONGLOMERADOS TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante

Más detalles

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos Descripción numérica de datos: medidas descriptivas Centro Posición Variación Forma media cuartiles rango coef. asimetría

Más detalles

MEDIDAS. necesita de ciertas medidas (números) representativas que puedan resumirlos. distribuciones de frecuencias de datos univariados:

MEDIDAS. necesita de ciertas medidas (números) representativas que puedan resumirlos. distribuciones de frecuencias de datos univariados: MEDIDAS O Para describir los datos, se necesita de ciertas medidas (números) representativas que puedan resumirlos. O Sirven para caracterizar las distribuciones de frecuencias de datos univariados: O1-

Más detalles

TÉCNICAS DE AGRUPAMIENTO

TÉCNICAS DE AGRUPAMIENTO TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento

Más detalles

ESTADÍSTICA DESCRIPTIVA TEMA 2: MEDIDAS NUMÉRICAS

ESTADÍSTICA DESCRIPTIVA TEMA 2: MEDIDAS NUMÉRICAS UNIDAD 2 ESTADÍSTICA DESCRIPTIVA TEMA 2: MEDIDAS NUMÉRICAS Medidas numéricas de posición, dispersión, forma y asociación 1 Medidas numéricas de posición, dispersión, forma y asociación Si se calculan para

Más detalles

Preparación de los datos de entrada

Preparación de los datos de entrada Preparación de los datos de entrada Clase nro. 6 CURSO 2010 Objetivo Modelado de las características estocásticas de los sistemas. Variables aleatorias con su distribución de probabilidad. Por ejemplo:

Más detalles

Hoja de Problemas Tema 3 (Variables aleatorias multidimensionales)

Hoja de Problemas Tema 3 (Variables aleatorias multidimensionales) Depto. de Matemáticas Estadística (Ing. de Telecom.) Curso 2004-2005 Hoja de Problemas Tema 3 (Variables aleatorias multidimensionales) 1. Consideremos dos variables aleatorias independientes X 1 y X 2,

Más detalles

PRÁCTICAS DE ESTADÍSTICA CON R

PRÁCTICAS DE ESTADÍSTICA CON R PRÁCTICAS DE ESTADÍSTICA CON R PRÁCTICA 2: ESTADÍSTICA DESCRIPTIVA DE UNA VARIABLE 2.1 Lectura de datos En la mayor parte de los conceptos que vamos a ir viendo a lo largo de esta práctica se va a hacer

Más detalles

- Si se repite un experimento, en condiciones indistinguibles, los resultados presentan variabilidad.

- Si se repite un experimento, en condiciones indistinguibles, los resultados presentan variabilidad. Introducción Los modelos que vamos a estudiar son usados para averiguar si una o más variables o factores afectan nuestra variable de interés. Ejemplos donde esta disciplina puede ser utilizada son: -

Más detalles

Que es Crystal Ball?

Que es Crystal Ball? Francisco Parodi Que es Crystal Ball? Crystal Ball está Orientado hacia el manejo y administración de riesgo. Dirigido hacia personas vinculadas a procesos de decisiones sujetos a incertidumbre. Dirigido

Más detalles

Guía de Matemática Cuarto Medio

Guía de Matemática Cuarto Medio Guía de Matemática Cuarto Medio Aprendizaje Esperado: 1. Conocen distintas maneras de organizar y presentar información incluyendo el cálculo de algunos indicadores estadísticos, la elaboración de tablas

Más detalles

Parte de las notas tomadas de: Prof. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

Parte de las notas tomadas de: Prof. Edgar Acuña  UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ Estadística stica No Paramétrica Parte de las notas tomadas de: Prof. Edgar Acuña http://math.uprm math.uprm/edu/~edgar UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ METODOS ESTADISTICOS

Más detalles

Estadística descriptiva VARIABLES CUANTITATIVAS

Estadística descriptiva VARIABLES CUANTITATIVAS Estadística descriptiva VARIABLES CUANTITATIVAS DESCRIPTIVA Medidas de tendencia central Media Mediana Moda Medidas de dispersión Rango Varianza Desviación estándar Coeficiente de variación Cuantiles (

Más detalles