Análisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)
|
|
- Lidia Ferreyra Sáez
- hace 6 años
- Vistas:
Transcripción
1 Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011
2 Objetivo Idear una clasificación o esquema de agrupación que permita dividir datos en grupos o clases, llamados agrupamientos o clusters, de modo que los datos que estén dentro de una clase o grupo sean semejantes entre sí, u homogéneos, en tanto que los que pertenezcan a grupos diferentes no sean semejantes a los de los otros grupos. ( cohesión interna y aislamiento externo ) Nota: no debe confundirse este método con el análisis discriminante, en el cual, desde un principio se sabe cuántos grupos existen, y se tienen datos que provienen de cada uno de estos grupos.
3 Este método se utiliza en muchas áreas (biología, sicología, estudios climáticos, etc). En principio, supondremos que hay N datos, cada uno dado por un vector de M atributos o características (vector de R M ). Por ejemplo, un conjunto de N personas se puede clasificar de acuerdo a tres atributos: edad, nivel educativo y nivel de ingreso. O sea que M = 3, y podemos imaginar que tenemos N puntos u observaciones en el espacio de M = 3 dimensiones. Podremos organizar nuestros datos en una matriz de N x 3. Nuestro problema será agrupar los N puntos en G grupos (donde G no es conocido a priori).
4 Hablamos de semejanza entre los datos. También podríamos hablar de cercanía (o lejanía ) entre los datos, de acuerdo a algún criterio. Es deseable que, una vez formados los clusters, se cumpla que la distancia entre elementos dentro de un cluster sea menor que la distancia entre clusters. Entonces es necesario definir de alguna forma la distancia entre datos, y luego entre clusters.
5 Algunas definiciones usuales de distancia Sean dos datos: x = (x 1, x 2,, x M ) e y = (y 1, y 2,, y M ) Distancia euclidiana entre x e y : d ( x, y) = i = M i = 1 ( x 2 i - yi ) Es la distancia más usual, pero no necesariamente la mejor en todos los casos; en particular, si los elementos de x e y tienen unidades diferentes (como en el ejemplo anterior). Por eso se define también: Distancia euclidiana ponderada entre x e y : d i = M i = 1 2 ( x, y) = w i ( xi - yi ) donde w i son los coeficientes de ponderación o pesos
6 Los w i se pueden definir de varias formas. Un caso particular importante se da cuando los atributos tienen unidades diferentes, u órdenes de magnitudes diferentes. En ese caso es imprescindible usar ponderaciones. Una ponderación posible es: 1 w i = siendo si, i s i,i la varianza asociada al atributo i En este caso, tenemos la distancia de Karl-Pearson.
7 Ejemplo: se tienen 4 personas con tres atributos: edad, nivel de ingreso y nivel educativo. Es decir que hay 4 datos observados o puntos, con 3 atributos (N=4, M=3) Y se calcula la matriz de distancias: Si usamos la distancia euclidiana con los datos tal como vienen, la columna del ingreso tendría una mayor influencia (no deseada). Para ponderar, calculamos el vector de varianzas: [ ] D =
8 Sea cual sea la definición de distancia, siempre será posible construir una matriz de distancias (NxN), que tendrá N*(N-1)/2 valores potencialmente diferentes entre sí y diferentes de 0. Existen varias otras definiciones de distancia (ver p. ej., en Matlab función pdist, y también zscore para la ponderación). En particular, a veces se usa la correlación entre x e y, pero esta es una medida de semejanza, de modo que cuanto más grande sea, menor es la distancia entre x e y. Entonces, una posible definición de distancia es: 1 corr(x,y) Es importante señalar que la definición de distancia que se elija condiciona considerablemente los agrupamientos que se van a obtener.
9 Métodos jerárquicos En estos métodos, en etapas sucesivas se va construyendo una jerarquía de conjuntos de grupos, donde cada nuevo grupo se obtiene uniendo un par de grupos de la etapa anterior. A) Métodos aglomerativos usando la matriz de distancias. 1) Se comienza con N grupos, cada uno formado por un punto o dato observado. Con la matriz de distancias, se encuentran los dos puntos más próximos entre sí, de acuerdo a la distancia elegida. Se unen estos dos puntos, formándose así un grupo con 2 puntos, quedando en total (N-1) grupos.
10 Métodos jerárquicos (cont.) 2) Se buscan los dos grupos más cercanos y se unen. Para ello, previamente hay que definir lo que se entiende por distancia entre grupos, cuando estos contienen más de un dato. Hay también varias formas de definir la distancia entre grupos. Algunas de ellas son: Enlace simple (la distancia más corta entre un punto de uno y otro grupo) Enlace completo (la distancia más grande entre un punto de uno y otro grupo) Enlace promedio (la distancia promedio de todas las posibles distancias entre puntos de uno y otro grupo)
11 Distancia entre centroides de ambos grupos (los centroides son los promedios de los vectores en cada grupo). En Matlab, la función linkage hace estas agrupaciones según distintos criterios. 3) Se repite el paso 2) sucesivamente hasta que todos los puntos están en un solo grupo. Lo importante no es llegar a un solo grupo (lo cual es trivial), sino detectar en qué paso intermedio detenerse.
12 Métodos jerárquicos (cont.) B) Método de Ward No usa la matriz de distancias. En cada paso, se elige la unión de grupos que minimice la suma de varianzas sobre todos los grupos. (También el resultado de los agrupamientos depende de qué distancia se utilice.)
13 El diagrama de árbol jerárquico Muestra los pasos intermedios de formación de los grupos y puede proporcionar un criterio subjetivo para detener el proceso.. x 1. x 2. x5. x3. x4 Primero se unen x 3 y x 4 (son los más cercanos entre los 5), luego x 1 con x 2 y finalmente {x 3, x 4 } con x 5.
14 El diagrama de árbol jerárquico Primero se unen x 3 y x 4 (son los más cercanos entre los 5), luego x 1 con x 2 y finalmente {x 3, x 4 } con x 5. En Matlab, la función dendrogram construye el árbol.. x 1. x 2. x 5. x3. x4
15 Cuántos clusters retener? En general, en los métodos de agrupación jerárquica, no es obvio cuál es el número óptimo de clusters. A veces, la existencia de información previa o la propia naturaleza del problema pueden sugerir una determinada partición en grupos. En ausencia de toda otra información, existen varios criterios, algunos basados en las matrices de covarianza intra-grupos o inter-grupos. Veremos aquí un criterio parcialmente subjetivo.
16 Se trata de considerar, en cada etapa, la distancia entre los clusters que se combinan. Si se puede detectar alguna etapa del proceso en la que la distancia entre los clusters que se unen presenta un salto más o menos notorio, parece razonable detener el proceso allí ya que seguir agrupando implicaría unir grupos que están relativamente lejanos. Es recomendable reiterar el proceso cambiando la definición de distancia entre puntos y/o entre grupos, y comparar los distintos resultados finales obtenidos. La función cluster de Matlab permite detectar agrupamientos naturales de datos o cortar el árbol en un punto arbitrario. También la función clusterdata reúne a las funciones pdist, linkage y cluster.
17 Ejemplo: 28 estaciones caracterizadas por su temperatura y precipitación medias en Julio ( ) (Wilks, Cap. 14) (N = 28, M = 2) Se usa la distancia de Karl-Pearson entre puntos, y el criterio de enlace completo para la distancia entre grupos
18
19
20 Métodos no jerárquicos Una desventaja potencial de los métodos jerárquicos es que los puntos que en alguna etapa quedan en un mismo cluster, permanecerán juntos en adelante, no permitiendo reubicar puntos que pudieran haber sido mal clasificados. Los métodos no jerárquicos permiten esa reubicación.
21 El método de K-medias (K-means) El método presupone conocido el número final K de clusters al que se quiere llegar (lo cual podría verse como una desventaja del método). 1) Se comienza eligiendo K puntos como semillas Esos K puntos se tomarán como centroides de clusters. Alternativamente, se puede comenzar con K clusters. Esta elección inicial condiciona el resultado final. 2) Cada uno de los datos es asignado al centroide más cercano. Se tienen así clasificados todos los datos en K clusters. 3) Dentro de cada cluster se recalculan los centroides y se repite el paso 2. 4) Se reiteran los pasos 2) y 3) hasta que no se producen más reasignaciones. En Matlab, esto lo hace la función kmeans
22 Agrupamientos aglomerativos nucleados Es una combinación de un método jerárquico aglomerativo y uno no jerárquico (el de K-medias). Por un procedimiento iterativo se obtienen secuencialmente agrupaciones en un rango de número de clusters. Dado G final (el número de clusters final deseado), se comienza con un número mayor (G inicial > G final ). Se realiza el procedimiento K-medias para ese G inicial y luego: 1) siguiendo alguno de los métodos vistos (p. ej. el de Ward), se unen los dos clusters más cercanos.
23 2) Con los clusters obtenidos en 1), se aplica el K-medias. Se repiten 1) y 2) hasta llegar a tener un número de clusters igual a G final. (En los pasos intermedios se obtienen agrupaciones con número de clusters entre G inicial y G final.) Con este procedimiento, se disminuye en parte la influencia de la elección inicial arbitraria de semillas, permitiendo también reasignar puntos a los grupos.
24 Ejemplo: Regionalización del Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994) Ciclo anual Rivera Ciclo anual Melo
25 Se utilizaron datos mensuales de 100 estaciones pluviométricas en Uruguay en el período Cada estación se caracterizó por su ciclo anual promedio en ese período (un vector de R 12 para cada estación). Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 atributos o variables.) Se realizó una partición del Uruguay según el área de influencia de cada estación. Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional.
26 Para ello, primero se obtuvo la matriz de anomalías, es decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una. Las series no fueron estandarizadas ya que era de interés tanto la forma del ciclo anual como su intensidad. Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100). Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total. Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno. Se utilizó el método de agrupamientos aglomerativos nucleados.
27 Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales) Se determinó a priori en 4 el número de clusters finales. Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final)
28 Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters. Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos. Los ciclos anuales medios para cada una de las 4 regiones muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos. Correlaciones entre los ciclos anuales medios de las 4 regiones
29 Regionalización de la precipitación en Uruguay según su ciclo anual Terra y Pisciottano 1994
Análisis Estadístico de Datos Climáticos
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación
Más detallesANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Más detallesINTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Más detallesMáster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación
Más detallesAnálisis de Conglomerados
Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las
Más detallesCLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Más detallesTema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.
Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)
Más detallesRESUMEN ANÁLISIS CLUSTER
RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados
Más detallesANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos
Más detallesNota técnica Estratificación multivariada
Instituto Nacional de Estadística y Geografía Nota técnica Estratificación multivariada Censo de Población y Vivienda 2010 NOTA TÉCNICA ESTRATIFICACIÓN MULTIVARIADA Con la finalidad de que el usuario pueda
Más detalles1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k
1. Estadística Definición: La estadística es un ciencia inductiva que permite inferir características cualitativas y cuantitativas de un conjunto mediante los datos contenidos en un subconjunto del mismo.
Más detallesSe usa para encontrar un numero relativamente pequeño de variables nuevas que contengan la mayor cantidad de info posible del conjunto de datos
Analisis Estadístico de Datos Climáticos Análisis de componentes principales Analisis de componentes principales Se usa para encontrar un numero relativamente pequeño de variables nuevas que contengan
Más detallesDefinición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más
Más detallesAnálisis de Conglomerados
Análisis de Conglomerados Resumen El procedimiento Análisis de Conglomerados esta diseñado para agrupar observaciones o variables en conglomerados basados en similaridades entre ellos. Los renglones de
Más detallesEigenvalores y eigenvectores
Eigenvalores y eigenvectores Los dos problemas principales del álgebra lineal son: resolver sistemas lineales de la forma Ax = b y resolver el problema de eigenvalores. En general, una matriz actúa sobre
Más detalles> plot(salmon[,- 1],col=as.factor(salmon[,1]))
ANÁLISIS DISCRIMINANTE El análisis discriminante, se utiliza para identificar las características que permiten diferenciar a dos o más grupos de sujetos; además para clasificar nuevos casos como pertenecientes
Más detalles5. Análisis de cúmulos
5. Análisis de cúmulos OBJETIVO: Dividir a los individuos de una base de datos en grupos, llamados cúmulos (clusters), de tal manera que los individuos de un mismo cúmulo tengan características semejantes
Más detallesComunidades. Buscando grupos naturales de nodos
Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico
Más detallesPráctica 3. Para comenzar esta práctica abrimos el programa SPSS.
Análisis de Datos Licenciatura en Biología Curso oo9/o0 Práctica 3 El fichero de datos necesario para realizar esta práctica, turtlefmxls, se encuentra en la página web http//wwwuames/danielfaraco La ruta
Más detallesClasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Más detallesANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.
ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.
Más detalles2.4. Medidas de variabilidad o dispersión
2.4. MEDIDAS DE VARIABILIDAD O DISPERSIÓN 55 Q 3 = l i 1 + 3 n/4 N i 1 37, 5 35 a i = 7 + 5 = 9, 5 n i 5 2.4. Medidas de variabilidad o dispersión Los estadísticos de tendencia central o posición nos indican
Más detallesAnálisis de agrupamiento (Cluster nmds)
Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre
Más detallesCapítulo 8. Análisis Discriminante
Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables
Más detallesTema 2 Datos multivariantes
Aurea Grané Máster en Estadística Universidade Pedagógica 1 Aurea Grané Máster en Estadística Universidade Pedagógica 2 Tema 2 Datos multivariantes 1 Matrices de datos 2 Datos multivariantes 2 Medias,
Más detallesTema 2 Estadística descriptiva Conceptos y objetivos de la estadística descriptiva
Tema 2 Estadística descriptiva. Conceptos y objetivos de la estadística descriptiva ESTADÍSTICA: Conjunto de técnicas y métodos para: Clasificar, organizar, representar y resumir (en suma hacer entendible)
Más detallesANÁLISIS DISCRIMINANTE
DEFINICIÓN: Cómo técnica de análisis de dependencia: Pone en marcha un modelo de causalidad en el que la variable endógena es una variable NO MÉTRICA y las independientes métricas. Cómo técnica de análisis
Más detallesIntroducción Climatología y variabilidad climática (espacial y temporal). Datos climáticos. Revisión sobre el concepto de probabilidad.
Nombre de la Asignatura: Análisis Estadístico de Datos Climáticos Créditos: 10 Docentes responsables: Ciencias) Álvaro Díaz (F. Ingeniería) y Mario Bidegain (F. Objetivo de la asignatura: Desarrollar en
Más detallesEl análisis de datos como una herramienta para la planificación del minado
1er Workshop de Aplicaciones de Ciencias a la Minería: Planeamiento de Minado Superficial El análisis de datos como una herramienta para la planificación del minado (UNI-IMCA, Peru) UNI-Lima, 29 de Octubre,
Más detallesTema 1: Análisis de datos univariantes
Tema 1: Análisis de datos univariantes 1 En este tema: Conceptos fundamentales: muestra y población, variables estadísticas. Variables cualitativas o cuantitativas discretas: Distribución de frecuencias
Más detallesTema 12: Introducción a la Estadística.
MOLEDO GUGLIOTTA VICTOR Tratamiento de los datos Tema 12: Introducción a la Estadística. Al intentar interpretar la realidad a través de las herramientas que nos aporta la Estadística, lo primero que se
Más detallesCurso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal
Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE
Más detallesEjercicios de estadística.
Ejercicios de estadística..- Los siguientes números son el número de horas que intervienen alumnos en hacer deporte durante un mes:, 7,,, 5, 6, 7, 9,,, 5, 6, 6, 6, 7, 8,,, 5, 8 a) Calcula las tablas de
Más detallesAnálisis de datos cualitavos con análisis de correspondencias
Análisis de datos cualitavos con análisis de correspondencias Sesión 3 Campo Elías Pardo Universidad Nacional Sesión 3 - contenido 1. Algunos métodos de clasificación en espacios métricos (variables condnuas,
Más detallesINFORME TAREA N 4 CLUSTERING
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar
Más detallesÍNDICE INTRODUCCIÓN... 21
INTRODUCCIÓN... 21 CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS... 23 1. ORGANIZACIÓN DE LOS DATOS... 23 1.1. La distribución de frecuencias... 24 1.2. Agrupación en intervalos...
Más detallesTema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n
Tema 11. Clustering Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea 1 Introducción
Más detallesFundamentos de Estadística y Simulación Básica
Fundamentos de Estadística y Simulación Básica TEMA 2 Estadística Descriptiva Clasificación de Variables Escalas de Medición Gráficos Tabla de frecuencias Medidas de Tendencia Central Medidas de Dispersión
Más detalles3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS
1. INTRODUCCIÓN Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur MODELOS: ÁRBOLES DE DECISIÓN Y REGLAS Datos de entrada 91 71 75 81 Nublado 90 72 Nublado 70 75 80 75 70
Más detallesAsimetría Coeficiente de Asimetría de Fisher
Asimetría Si los valores de la serie de datos presenta la misma forma a izquierda y derecha de un valor central (media aritmética) se dice que es simétrica de lo contrario será asimétrica. Para medir el
Más detallesNombre: Curso: Fecha:
REPASO Y APOYO RECONOCER Y DIFERENCIAR LOS CONCEPTOS DE POBLACIÓN Y MUESTRA OBJETIVO 1 La Estadística es la ciencia encargada de recoger, analizar e interpretar los datos relativos a un conjunto de elementos.
Más detallesANÁLISIS DE COMPONENTES PRINCIPALES
CAPÍTULO 4 ANÁLISIS DE COMPONENTES PRINCIPALES 4.1 Introducción Al investigar un fenómeno desconocido se pretende abordarlo con muestras de diferentes variables, en las cuales muchas veces existe una fuerte
Más detallesAnálisis Estadístico de Datos Climáticos. Verificación y valor de los pronósticos
Análisis Estadístico de Datos Climáticos Verificación y valor de los pronósticos A. Díaz M. Bidegain - M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Verificación de pronósticos Una definición:
Más detallesUniversidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL
Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión
Más detallesEjemplos de análisis cluster
Ejemplos de análisis cluster Objetivos: 1. Una aproximación a la terminología del análisis cluster o de conglomerados 2. Uso de las funciones oportunas de R para realizar el análisis 3. Interpretación
Más detallesRepaso de conceptos de álgebra lineal
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso
Más detallesComponentes principales (II)
Componentes principales (II) Eliseo Martínez Herrera 1. Propiedades de los componentes Los componentes principales tienen las siguientes propiedades: 1 La suma de las varianzas de los componentes es igual
Más detallesAnálisis de Componentes Principales (ACP)
Sistemas de Visión en Manufactura Maestría en MIC, UDB Análisis de Componentes Principales (ACP) Presenta: Sergio Miguel García Pérez Enero de 2015 Introducción Cuando se recoge información de una muestra
Más detallesCurso de Estadística Básica
Curso de SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez Objetivo Conocer y calcular las medidas de tendencia central y medidas de dispersión
Más detallesReducción de la Dimensionalidad en Análisis de Datos. Análisis de Componentes Principales.
Reducción de la Dimensionalidad en Análisis de. Análisis de Componentes Principales. A. Jiménez, A. Murillo, E. Piza, M. Villalobos, J. Trejos. April 27, 2010 Contenido 1 Objetivo. 2 Solución. 3. Calidad
Más detallesEdgar Acuna/ ESMA 6665 Lecc La SVD y Componentes Principales
Edgar Acuna/ ESMA 6665 Lecc 7 75 6.2 La SVD y Componentes Principales El objetivo de componentes principales es hacer una reducción de la información disponible. Es decir, la información contenida en p
Más detallesINSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Más detallesEn ciencias e ingeniería (experimentales) es imprescindible realizar mediciones, que consisten en obtener
ERRORES DE MEDICION Y SU PROPAGACION En ciencias e ingeniería (experimentales) es imprescindible realizar mediciones, que consisten en obtener la magnitud fisica de algun atributo de objetos ( proceso,
Más detallesMETODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012
METODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012 Departamento de Pruebas Nacionales División de Evaluación de Logros de Aprendizaje AGENCIA DE CALIDAD DE LA EDUCACIÓN Índice 1.
Más detallesGrafos y Redes. 3. Resolución: Dibujar el camino sin levantar el lápiz y pasando sólo una vez por cada arco o arista.
Grafos y Redes. Nodos: vértices, 2, 3 2. Arcos: aristas, conexión entre nodos. 2, 54, etc. 3. Resolución: Dibujar el camino sin levantar el lápiz y pasando sólo una vez por cada arco o arista. 4. Grado
Más detallesEstadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
Más detallestransformaciones globales lección 12 transformaciones globales Teledetección Dpto. de Ingeniería Cartográfica Carlos Pinilla Ruiz
transformaciones globales lección sumario Introducción. Análisis de componentes principales. Transformación tasseled cap. Índices de vegetación. introducción 3 Las generan nuevas imágenes a partir de la
Más detallesEstadística Asistencial I. Prof. Rafael Rey
Estadística Asistencial I Prof. Rafael Rey Contenidos del curso INTRODUCCIÓN A LA ESTADÍSTICA: origen como disciplina (institucionalización de la generación de Estadísticas y complejidades instrumentales
Más detallesTema 2: Análisis Discriminante
Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece? Guión 1. Motivación 2. Clasificación
Más detallesESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.
ESTADISTICA DESCRIPTIVA 1. DEFINICION La estadística es una ciencia que facilita la toma de decisiones: Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos. Reduciendo
Más detallesSistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.
Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales
Más detallesControl Estadístico de la Calidad. Gráficos de Control. Estadistica Básica
Control Estadístico de la Calidad Gráficos de Control Estadistica Básica Control de Calidad Calidad significa idoneidad de uso, Es la interacción de la calidad: Del diseño Nivel de desempeño, de confiabilidad
Más detallesEstadística ESTADÍSTICA
ESTADÍSTICA La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta
Más detallesALGEBRA LINEAL Y GEOMETRÍA I
ALGEBRA LINEAL Y GEOMETRÍA I TEMA 3: Autovalores y Autovectores. Introducción Ya conoces que las aplicaciones lineales entre espacios vectoriales, al elegir bases en ellos, las puedes representar por matrices.
Más detallesTema 2 Estadística Descriptiva
Estadística Descriptiva 1 Tipo de Variables 2 Tipo de variables La base de datos anterior contiene la información de 36 alumnos de un curso de Estadística de la Universidad de Talca. En esta base de datos
Más detallesFACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ
PRESENTACIÓN DEL MÉTODO DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES EDU DUARDO CRIVISQ RIVISQUI PRESENTACIÓN DE LOS MÉTODOS DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES
Más detallesRESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos.
RESUMEN PROGRAMACIÓN ESTADÍSTICA I OBJETIVOS 1. Conocer los principales conceptos usados en Estadística: población, muestra e individuo. 2. Diferenciar los tres tipos de variables estadísticas: cualitativas,
Más detallesMedidas descriptivas I. Medidas de tendencia central A. La moda
Medidas descriptivas I. Medidas de tendencia central A. La moda Preparado por: Roberto O. Rivera Rodríguez Coaching de matemática Escuela Eduardo Neuman Gandía 1 Introducción En muchas ocasiones el conjunto
Más detalles3 ANALISIS DESCRIPTIVO DE LOS DATOS
3 ANALISIS DESCRIPTIVO DE LOS DATOS 3.1 La tabulación de los datos 3.1.1 Tabla de distribución de frecuencias. 3.1.2 El histograma. 3.2 Medidas de tendencia central 3.2.1 La media. 3.2.2 La mediana. 3.2.3
Más detallesSi u y v son vectores cualquiera en W, entonces u + v esta en W. Si c es cualquier numero real y u es cualquier vector en W, entonces cu esta en W.
Unidad 4 Espacios vectoriales reales 4.1 Subespacios Si V es un espacio vectorial y W un subconjunto no vacío de V. Entonces W es un subespacio de V si se cumplen las siguientes condiciones Si u y v son
Más detallesGráfico de Control T-Cuadrada Multivariada
Gráfico de Control T-Cuadrada Multivariada STATGRAPHICS Rev. 25/04/2007 Resumen El procedimiento Gráfico de Control T-Cuadrada Multivariada crea diagramas de control para dos o más variables numéricas.
Más detallesTécnicas de clusterización
PFC Ingeniería Industrial 09/2014 Tutor: Jesús Muñuzuri Sanz Alumno: Juan de Dios Lara Albín Técnicas de Clusterización PFC ÍNDICE Pag. 1 Clasificar.... 2 2 El análisis clúster.. 5 3 Clúster por individuos
Más detallesUNIDAD 8. ESTADÍSTICA
UNIDAD 8. ESTADÍSTICA La Estadística es la rama de las Matemáticas que se ocupa de la recopilación y ordenación de datos para su posterior análisis. 1. Población y muestra. Población. Es el conjunto de
Más detalles14 horas. 20 horas
EJERCICIOS PROPUESTOS ANALISIS DE VARIANZA. Se realiza un ANOVA para comparar el tiempo que demora en aliviar el dolor de cabeza de varios tipos de analgésicos. Se obtiene como resultado un test observado
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesEL ANÁLISIS DE LOS DATOS EN EL SISTEMA DE INFORMACIÓN GEOGRÁFICA DE CUBA
EL ANÁLISIS DE LOS DATOS EN EL SISTEMA DE INFORMACIÓN GEOGRÁFICA DE CUBA Lic. Orlando Nouva Álvarez * INTRUDUCCIÓN El Instituto de Geografía de la Academia de Ciencias de Cuba ha desarrollado un Sistema
Más detallesApuntes de Estadística
Apuntes de Estadística La Estadística es la ciencia que se encarga de recoger, organizar, describir e interpretar datos referidos a distintos fenómenos para, posteriormente, analizarlos e interpretarlos.
Más detallesUniversidad de Sonora Departamento de Matemáticas Área Económico Administrativa
Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa Materia: Estadística I Maestro: Dr. Francisco Javier Tapia Moreno Semestre: 015- Hermosillo, Sonora, a 14 de septiembre de
Más detalles3. Clasificación no supervisada
3. El presente capítulo y el siguiente tratan de clasificación, es por ello que antes de abordar el tema específico de este capítulo, previamente se hará una introducción al tema de clasificación. 3.1
Más detallesUNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO
UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN PARA DATOS NO AGRUPADOS MATERIAL DIDACTICO SOLO VISION ASIGNATURA QUE CORRESPONDE: ESTADISTICA
Más detallesMETODOS ESTADÍSTICOS
METODOS ESTADÍSTICOS Introducción. Uno de los objetivos de la asignatura de Hidrología, es mostrar a los alumnos, las herramientas de cálculo utilizadas en Hidrología Aplicada para diseño de Obras Hidráulicas.
Más detallesMÉTODOS CUANTITATIVOS. Freddy Higuera Departamento de Ingeniería Industrial Universidad Católica del Norte
MÉTODOS CUANTITATIVOS Freddy Higuera Departamento de Ingeniería Industrial Universidad Católica del Norte Estadística La estadística tradicionalmente ha sido clasificada en dos tipos, la estadística descriptiva
Más detallesDiseño de experimentos
Diseño de experimentos Quimiometría Por qué diseñar experimentos? Exploración: cuáles factores son importantes para realizar exitosamente un proceso Optimización: cómo mejorar un proceso Ahorro de tiempo:
Más detallesESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)
ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com) ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS... 1 DEFINICIONES BÁSICAS... 1 Estadística... 1 Estadística descriptiva... 1 Estadística inferencial...
Más detallesAnálisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero
Análisis Cluster Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València Abril 2011 Pedro Valero Mora-valerop@uv.es Metodología de las CC del Comp-Universitat de València
Más detallesEstadística Univariada
Analisis Estadístico de Datos Climáticos Estadística Univariada Distribuciones empíricas y análisis exploratorio de datos Robustez y Resistencia Medidas numéricas de localizacion, dispersión y simetría
Más detallesMINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen
MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER Resumen El objetivo del presente estudio fue encontrar la similitud entre textos para asociar reclamos y determinar si estos
Más detallesCaso 17. Análisis multivariante: reducción de datos por componentes principales.
Caso 17: reducción por componentes principales 115 Caso 17. Análisis multivariante: reducción de datos por componentes principales. (JESÚS LÓPEZ FIDALGO, UCLM) CASO PRÁCTICO Se dispone de 15 variables
Más detallesINTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b
INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES Tecnología i3b G R U P O I B E R M Á T I C A Introducción Objetivos Puntos de información y de estudio Tipos de análisis Análisis proactivo
Más detallesMEDICIÓN DE LA TENDENCIA Y EL CICLO DE UNA SERIE DE TIEMPO ECONÓMICA DESDE UNA PERSPECTIVA ESTADÍSTICA
MEDICIÓN DE LA TENDENCIA Y EL CICLO DE UNA SERIE DE TIEMPO ECONÓMICA DESDE UNA PERSPECTIVA ESTADÍSTICA Víctor M. Guerrero Departamento de Estadística Instituto Tecnológico Autónomo de México (ITAM) Seminario
Más detallesESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO
ESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO MODULO 3: Medidas de tendencia central Haga clic para modificar el estilo de subtítulo del patrón Docentes: Mariana Cabrera - Laura Noboa - Verónica Curbelo
Más detallesCARACTERÍSTICAS GRALES.
Las técnicas estadísticas multivariadas permiten establecer, a partir de numerosos datos y variables, ciertas relaciones, investigar estructuras latentes y ensayar diversas maneras de organizar dichos
Más detallesIntroducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación
Introducción Clasificación Ord. + Clas. Geobotánica Tema 12 y clasificación Copyright: 2011 Francisco Alcaraz Ariza. Esta obra está bajo una licencia de Reconocimiento-No Comercial de Creative Commons
Más detallesPrimero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.
K-Means Introducción El algoritmo k-means es el algoritmo de clustering más popular y ampliamente utilizado. Algoritmo Supongamos que queremos agrupar los siguientes datos en dos clusters Primero se inicializan
Más detallesDr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental
Universidad de Puerto Rico Recinto de Aguadilla Programa CeCiMat Elemental Definición de conceptos fundamentales de la Estadística y la Probabilidad y su aportación al mundo moderno Dr. Richard Mercado
Más detallesEstadística Descriptiva
Estadística Descriptiva Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Estadística Descriptiva Es una etapa de la metodología estadística,
Más detallesTécnicas Cuantitativas para el Management y los Negocios
Técnicas Cuantitativas para el Management y los Negocios Contador Público Módulo I: ESTADÍSTICA DESCRIPTIVA Contenidos Módulo I Unidad 1. Introducción y conceptos básicos Conceptos básicos de Estadística.
Más detallesTema 4. Regresión lineal simple
Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias
Más detalles