RESUMEN ANÁLISIS CLUSTER
|
|
|
- Marta Olivera Peralta
- hace 8 años
- Vistas:
Transcripción
1 RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados 5.2 El dendrograma 5.3 Establecimiento del número de grupos 5.4 Tabla resumen de la aglomeración 5.5 Diagrama banner (de package cluster) 6. Partición iterativa: el método K-means 7. Funciones de R usadas Departamento de Estadística e Investigación Operativa 1
2 RESUMEN ANÁLISIS CLUSTER 1. Introducción A veces, los datos se muestran como masas informes difíciles de organizar. La técnica de análisis cluster o análisis de conglomerados consiste en clasificar a los individuos en estudio formando grupos o conglomerados (cluster) de elementos, tales que los individuos dentro de cada conglomerado presenten cierto grado de homogeneidad en base a los valores adoptados sobre un conjunto de variables. En el análisis cluster, a diferencia del análisis discriminante (donde los grupos están establecidos a priori y la función discriminante permite reasignar los elementos a los grupos), los conglomerados son desconocidos y el proceso consiste en su formación de modo óptimo, aglutinando unidades homogéneas. Está claro que los grupos formados vendrán determinados por las múltiples variables usadas en el estudio, pero el interés está en caracterizar y resumir entre esa espesura de características observables, algo inherente a cada grupo. Tras el resultado del agrupamiento surge la necesidad de encontrar respuestas a esas agrupaciones. Queremos encontrar la posible agrupación natural existente entre los datos analizados; es decir, estructuras latentes no detectadas explícita y directamente a través de las variables observadas. Luego, el investigador tratará de especificar la configuración de los grupos encontrados en el conjunto de datos, tratando de explicar dicha ordenación con argumentos, generalmente, ajenos a la técnica en sí misma (conocimiento teórico de materia estudiada, conexión con otros estudios, etc.). Por tanto, una vez establecida empíricamente la clasificación, para que ésta sea útil, puede ser analizada detenidamente con objeto de descubrir las claves o propiedades que han producido tal agrupamiento. La aparición de esta estructura puede llevar al investigador a aprehender aspectos o propiedades de los individuos que de otro modo habrían pasado inadvertidos. Lo que puede conducir, a su vez, a plantear nuevas hipótesis de trabajo y nuevas investigaciones desde diferentes perspectivas. Por ejemplo, puede clasificarse un grupo de consumidores de un producto según ciertas características personales y socioeconómicas (salario, sexo, nivel cultural, etc) lo que proporciona una segmentación de mercado. En base a este conocimiento, el vendedor se dirigirá con diferentes estrategias de marketing a ellos, aprovechando mejor los recursos, haciendo uso de ese conocimiento. 2. Los datos Se tiene un conjunto de N individuos sobre los que se observa una serie de variables X 1, X 2,..., X p. Los datos se estructuran en una matriz X de orden Nxp, constituida por N casos (filas) y p variables (columnas). Veremos que algunos métodos trabajan directamente con esta información (X), y otros derivan de ella una nueva matriz de similaridades/distancias de orden NxN, que Departamento de Estadística e Investigación Operativa 2
3 establece la similitud o distancia entre pares de objetos mediante el cálculo de ciertos estadísticos (por ejemplo, distancia euclídea), que determinan su proximidad o lejanía. A veces interesa cambiar el papel que juegan los individuos y las variables. Puede tener interés agrupar las variables (en vez de los casos) en un intento de buscar, por ejemplo, redundancias en la información recogida. En la matriz de datos se cambian los papeles de filas y columnas. Este tipo de análisis se encuadra en las denominadas R-técnicas (estudio de la similitud entre variables: cluster de las variables) frente a las Q-técnicas (estudio de la similitud entre los casos: cluster de los individuos). La matriz de similitudes de orden pxp está formada por coeficientes de asociación o correlación entre variables. Por tanto, se puede agrupar casos o agrupar variables, según el objetivo perseguido Transformación de los datos No sólo es importante elegir las variables sino también el tipo de escala usado. Las variables binarias no suelen transformarse. Las variables categóricas se convierten en binarias (presencia/ausencia) para las distintas modalidades. Las variables cuantitativas requerirán, en muchos casos, una transformación previa al tratamiento. No pueden darse reglas fijas sobre cómo deben transformarse los datos, ni siquiera de cuándo es conveniente o no hacerlo. La transformación más popular es la estandarización. Con ello se evita la influencia de la unidad de medida. No hay una postura clara sobre las ventajas y desventajas de la estandarización. Es un hecho que variables con alto poder discriminante pueden ver mermada su capacidad diferenciadora tras una estandarización. No obstante, cuando las variables usadas vengan en la misma escala, tales como, por ejemplo, puntuaciones de ítem en un cuestionario o, por ejemplo, si todas las variables se refieren a porcentajes, etc., no es aconsejable la estandarización. Ésta se reserva, fundamentalmente, cuando se observa que, por ejemplo, unas determinadas variables pueden tener un peso mayor que otras, simplemente porque la unidad de medida en que aparecen dan lugar a puntuaciones con valores relativamente altos en comparación con los de las otras, de tal modo, que pueden, incluso, llegar a anular la influencia de otras hasta el extremo de que dé igual incluirlas o no. Por tanto, cuando proceda, se pueden transformar los valores de los datos, para los casos o las variables, antes de calcular las proximidades o matriz de distancias. Las opciones disponibles son: puntuaciones estandarizadas Z (se obtienen restando la media y dividiendo por la desviación típica de los valores originales de cada variable o de cada caso, según corresponda al análisis); rango -1 a 1 (se obtiene dividiendo los valores originales por el rango de cada variable o caso, según corresponda al análisis); rango 0 a 1 (se obtiene restando el mínimo y dividiendo por el rango de cada variable o caso, según corresponda); magnitud máxima de 1 (se obtiene dividiendo los valores originales por el máximo de cada variable o caso, según corresponda al análisis); media de 1 (se obtiene dividiendo los valores originales por la media de cada variable o caso, Departamento de Estadística e Investigación Operativa 3
4 según corresponda al análisis) y desviación típica 1 (se obtiene dividiendo los valores originales por la desviación típica de cada variable o caso, según corresponda al análisis). 3. Medidas de distancias A partir de la matriz de datos X de orden Nxp se construye la matriz S de distancias de orden NxN, donde cada coeficiente de S, s ij representa el valor de un coeficiente de disimilitud para los casos i y j, que mide el grado de disimilitud/distancia de los individuos. Esta matriz será simétrica, dado que s ij = s ji Estas matrices pueden variar considerablemente para los mismos datos según la medida de disimilitud/distancia usada y según haya o no transformado o estandarizado las variables originales. R proporciona varias medidas de distancia. Una de las más usadas es la euclidea (la raíz cuadrada de la suma de cuadrados de las diferencias). Vea ayuda para la función dist en R ("euclidean", "maximum", "manhattan", "canberra", "binary" o "minkowski"). La función daisy en el package cluster permite usar métricas euclidea, manhattan o distancia de Gower, esta función es útil cuando las variables usadas no son numéricas (nominales, binarias, ordinales o incluso combinaciones de ellas). Para más información use ayuda de R. Variables cuantitativas: La medida más importante es la distancia euclídea y derivaciones de ella mediante ponderaciones. Sean X 1, X 2,..., X p las variables observadas. Notamos con X ij valor observado en el caso i-ésimo en la variable j-ésima. Dados dos casos i e i, se definen las siguientes medidas de proximidad: Distancia euclídea: Es la raíz cuadrada de la suma de los cuadrados de las diferencias entre los valores de los elementos. Ésta es la medida por defecto que suele usarse para datos de intervalo. d p 2 ii' = ( xij xi' j ) j= 1 Depende de la escala de medida. Sus valores no están acotados. Variables binarias (presencia/ausencia de atributo): Existe una gran diversidad de medidas. Basadas en si están o no presentes las modalidades de las variables binarias. Departamento de Estadística e Investigación Operativa 4
5 Supongamos que la tabla siguiente resume la información para un par de casos i e i. Cada caso vendrá dado por una p-upla de unos y ceros, donde: 1 indica la presencia y 0 la ausencia de cierto atributo. Caso i a b Caso i 0 c d a = total de atributos presentes en el caso i y en el caso i d = total de atributos ausentes en ambos casos b = total de atributos ausentes en i y presentes en i c = total de atributos ausentes en i y presentes en i Distancia euclídea: d ii = b + c ' Es sencillamente la distancia euclídea para el caso particular en que las variables toman sólo los valores 1 y 0. Dependiendo de las características de los datos, unos coeficientes serán más o menos apropiados que otros. Se puede llegar a designar a dos casos como iguales o distintos, dependiendo de la medida usada. Entre los de uso más frecuente destaca el coeficiente de concordancia simple. Unas veces será importante considerar el recuento de ausencias y otras no. En algunos análisis, tan importante es considerar la concordancia de presencias como de ausencias. 1 Es preciso advertir que si se realizan varios análisis con medidas diferentes y los resultados del agrupamiento son similares, esto no garantiza siempre que se haya encontrado la verdadera estructura de los datos, dado que muchos de los coeficientes especificados están relacionados entre sí y, en consecuencia, la concordancia de resultados puede responder, en muchos casos, a las relaciones existentes entre las medidas de similaridad usadas, más que al carácter de la estructura del agrupamiento. R permite efectuar un análisis cluster jerárquico usando como entrada una matriz de datos o la de distancias. Esta opción es interesante porque a veces no se dispone de los datos originales o, bien, porque se desea manipular previamente la matriz de distancias. 4. Métodos: aspectos generales La creación de los cluster puede efectuarse de muy diversos modos en función de los 1 Por ejemplo, individuos que responden si/no estoy de acuerdo con una determinada afirmación, pudiendo tener el mismo valor una respuesta afirmativa que negativa. Cuando las variables binarias se generan a partir de una variable cualitativa de más de dos modalidades, es conveniente el uso de índices de similaridad en los que no interviene el recuento de las concordancias de las ausencias (d). Departamento de Estadística e Investigación Operativa 5
6 algoritmos de cálculo (operaciones recursivas y repetitivas) utilizados. Pero, métodos distintos darán, en general, soluciones distintas para los mismos datos. Entre los más usados destacan los métodos jerárquicos aglomerativos (hclust del package stats y agnes del package cluster) y divisivos (como diana del package cluster) y los de partición iterativa como kmeans del package stats. Cada uno de los cuales da lugar, a su vez, a una gama de posibilidades diversas, según las reglas usadas para el agrupamiento. Usaremos R para agrupar según dos métodos: análisis jerárquico aglomerativo y análisis k-medias con la distancia euclidea. El método k-medias puede usarse con varios algoritmos. El que usa R por defecto es "Hartigan-Wong". Vea ayuda de R para más información. En análisis jerárquico se pueden estandarizar los datos desde el proceso si se usa la función agnes del package cluster. En k-medias es preciso efectuarlo previamente si se decide su uso. 5. El método jerárquico aglomerativo Se dice que los cluster forman una jerarquía, están anidados, cada cluster formará parte de otro mayor, hasta el último paso que engloba a todos. A diferencia de los métodos de reasignación, sólo se efectúa una inspección para agrupar, de modo que los resultados no podrán modificarse en pasos sucesivos. En el cluster jerárquico, una vez que dos individuos se funden en un cluster permanecen ahí hasta el final del proceso. Los métodos jerárquicos usan una matriz de proximidades (distancias o similaridades) como base para el agrupamiento. Comienzan con tantos cluster como objetos y terminan con un solo cluster. Nota: Las medidas de distancia se pueden generar mediante la función dist o la función daisy del package cluster. Estas matrices pueden usarse, tal como hemos dicho en párrafos anteriores, como input para un análisis cluster jerárquico. 5.1 Algoritmos más usados El método se diversifica según las reglas usadas para el agrupamiento. permite 7 formas de agrupación: "ward", "single", "complete", "average", "mcquitty", "median" o "centroid". Entre los más usados destacan el método AVERAGE y el de WARD, seguido de COMPLETE y SINGLE. Si diversos algoritmos producen resultados similares, posiblemente estemos ante una situación ideal de cluster compactos y perfectamente delimitados. Departamento de Estadística e Investigación Operativa 6
7 5.2 El dendrograma El dendrograma es un gráfico usado en el procedimiento jerárquico que permite visualizar el proceso de agrupamiento de los cluster en los distintos pasos, formando un diagrama en árbol. El dendrograma es una valiosa herramienta visual que puede ayudar a decidir el número de grupos que podrían representar mejor la estructura de los datos teniendo en cuenta la forma en que se van anidando los cluster y la medida de similitud a la cual lo hacen. Cortando transversalmente, a una distancia determinada, las ramas del gráfico se obtiene una partición. Pero, además, puede ser que el investigador no esté tan interesado en encontrar el número de grupos en que dividir los casos sino, más bien, en seguir la pista de formación de los distintos cluster, que van englobándose o anidándose, hasta resumirse en sólo uno. Así, por ejemplo, en biología es corriente tener mayor interés en desvelar las distintas categorías en que van clasificándose los individuos estudiados, desde los grupos más particulares a los más generales. 5.3 Establecimiento del número de grupos No existe una norma fija para establecer cuántos grupos pueden considerarse. El dendrograma puede servir de ayuda visual para determinar dicho número. Dependiendo del coeficiente de proximidad usado (además de ser posible obtener una clasificación diferente) el aspecto visual variará. Todo esto hace que las decisiones sean confusas e, incluso, a veces, arbitrarias si no hay un soporte teórico que apoye la solución. 5.4 Tabla resumen de la aglomeración R proporciona además del dendrograma una tabla (merge) que permite ver el orden del proceso de agrupamiento de los cluster que se van uniendo. Mediante ella puede seguirse la pista a los conglomerados formados. 5.5 Diagrama banner (de package cluster) Otro modo gráfico de inspeccionar la estructura de conglomerados que va formándose en cada paso es mediante el diagrama horizontal que es similar a un gráfico de barras. Para más información use la ayuda de R. El gráfico muestra la agrupación recogida indicando la distancia en la que se van uniendo los cluster. Está disponible como gráfico de agnes en package cluster: bannerplot(agnes(datos)) En el eje horizontal aparecen las alturas (height) y en el vertical los casos o elementos a agrupar. Espacios en blanco indican separación entre elementos. Espacios coloreados indican agrupamiento. Departamento de Estadística e Investigación Operativa 7
8 6. Partición iterativa: el método K-means Proceso iterativo en el que se van usando los resultados de la partición anterior para mejorar la siguiente. A diferencia de los métodos jerárquicos, aquí es necesario especificar a priori los grupos a formar 2 y se trabaja directamente con la matriz de datos original en vez de con la matriz de distancias. Esto último hace que el método k-means sea más idóneo para analizar gran número de casos, dado que no requiere tanta capacidad de memoria, pues no precisa del almacenamiento de la matriz de proximidades NxN para el establecimiento de los grupos. Está incluido entre los métodos denominados de reasignación, dado que un caso puede ser asignado a un cierto cluster en un determinado paso y, luego, puede ser reasignado, en otro paso, a otro cluster diferente. Por el contrario, en el método jerárquico una vez que dos individuos se funden en un cluster permanecen ahí hasta el final del proceso. El método consiste en dividir (en una clasificación inicial) los datos en un número k de clusters, especificado previamente. Un modo corriente de asignar los individuos a los k grupos antes de iniciar el proceso, es clasificándolos de acuerdo con alguna variable resumen, por ejemplo, suma de todas las variables implicadas o un procedimiento más refinado como puede ser la primera componente principal resultante de un análisis de componentes principales. La variable en cuestión se divide en k intervalos, codificados de 1 a k, y cada individuo será asignado al correspondiente código o grupo, según el intervalo al que pertenezca. A veces se aprovecha una clasificación previa obtenida mediante otro procedimiento como, por ejemplo, análisis jerárquico. También puede usar unas estimaciones previas de los centroides y con ellas una clasificación inicial. R dispone de varios algoritmos para el procedimiento de agrupación. El mayor inconveniente de esta técnica es que, si la agrupación original es muy distinta de la realmente existente, se podría obtener una solución local también alejada de la óptima. 7. Funciones de R usadas Usaremos las del package stats: hclust (análisis aglomerativo jerárquico) y kmeans (partición óptima) hclust Puede realizar el agrupamiento a partir de los datos o de la matriz de distancias. Entre los métodos usados están: Single: la distancia entre dos cluster es la que hay entre los dos miembros que más cercanos están Average: la distancia entre dos cluster es el resultado de la media de distancias entre los pares formados con los miembros de cada grupo 2 Cuando no se está muy seguro del número de cluster a usar, suelen ensayarse diversos valores. Departamento de Estadística e Investigación Operativa 8
9 Complete: la distancia entre dos cluster es el máximo de la distancia existente entre los pares de miembros de los grupos. hclust(d, method = "complete") d es la matriz de distancias resultante de aplicar a los datos. Resultado de hclust: plot(objeto) # Realiza el dendrograma del objeto resultante de aplicar hclust. Una tabla describiendo el proceso de agrupamiento (merge) Otras funciones usadas con hclust Función cutree() cutree(objeto, k = NULL, h = NULL) Puede usar el número de grupos (k) a efectuar o bien un valor de la medida de distanciamiento (h) para agrupar. kmeans Se usa preferentemente con variables continuas. Agrupa los casos en un número de grupos, k, previamente fijado tomando como punto de partida los elementos previamente asignados a dichos grupos. A partir de esta configuración inicial se pueden usar distintos criterios para optimizar el agrupamiento. kmeans(datos, centers, iter.max = 10, nstart = 1, algorithm = c("hartigan-wong", "Lloyd", "Forgy", "MacQueen")) el argumento centers indica el número de cluster o bien los centros de los cluster. Departamento de Estadística e Investigación Operativa 9
Ejemplos de análisis cluster
Ejemplos de análisis cluster Objetivos: 1. Una aproximación a la terminología del análisis cluster o de conglomerados 2. Uso de las funciones oportunas de R para realizar el análisis 3. Interpretación
Estadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)
UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro) 1. ESTADÍSTICA: CLASES Y CONCEPTOS BÁSICOS En sus orígenes históricos, la Estadística estuvo ligada a cuestiones de Estado (recuentos, censos,
El Análisis de Correspondencias tiene dos objetivos básicos:
Tema 8 Análisis de correspondencias El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de mapas percentuales. Los mapas percentuales se basan en la asociación entre
ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central y de dispersión Giorgina Piani Zuleika Ferre 1. Tendencia Central Son un conjunto de medidas estadísticas que determinan un único valor que define el
Estadística descriptiva y métodos diagnósticos
2.2.1. Estadística descriptiva y métodos diagnósticos Dra. Ana Dorado Díaz Consejería de Sanidad Diplomado en Salud Pública Diplomado en Salud Pública - 2 Objetivos específicos 1. El alumno aprenderá a
ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua
ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:
DESPLIEGUE DE LA CALIDAD (Quality Function Deployment, QFD)
DESPLIEGUE DE LA CALIDAD (Quality Function Deployment, QFD) El Despliegue de la Calidad o Despliegue de la Función de la Calidad es una metodología de origen japonés utilizada para traducir las necesidades
Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal
Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE
TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.
TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. 1. MATRICES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS. DEFINICIÓN: Las matrices son tablas numéricas rectangulares
1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA
MODELO DE REGRESIÓN LOGÍSTICA Introducción A grandes rasgos, el objetivo de la regresión logística se puede describir de la siguiente forma: Supongamos que los individuos de una población pueden clasificarse
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro
Conceptos básicos estadísticos
Conceptos básicos estadísticos Población Población, en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones. El concepto
METODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012
METODOLOGÍA DE CONSTRUCCIÓN DE GRUPOS SOCIOECONÓMICOS Pruebas SIMCE 2012 Departamento de Pruebas Nacionales División de Evaluación de Logros de Aprendizaje AGENCIA DE CALIDAD DE LA EDUCACIÓN Índice 1.
Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m
Ing. Eduardo Cruz Romero [email protected] w w w. tics-tlapa. c o m La estadística es tan vieja como la historia registrada. En la antigüedad los egipcios hacían censos de las personas y de los bienes
de la forma ), i =1,..., m, j =1,..., n, o simplemente por (a i j ).
INTRODUCCIÓN. MATRICES Y DETERMINANTES Las matrices se utilizan en el cálculo numérico, en la resolución de sistemas de ecuaciones lineales, de las ecuaciones diferenciales y de las derivadas parciales.
Análisis de datos cualitativos
Capítulo Análisis de datos cualitativos DEFINICIÓN DE VARIABLES CUALITATIVAS Son aquellas variables cuyos valores son un conjunto de cualidades no numéricas a las que se llama categorías o modalidades.
Tema 3. Electrónica Digital
Tema 3. Electrónica Digital 1.1. Definiciones Electrónica Digital La Electrónica Digital es la parte de la Electrónica que estudia los sistemas en los que en cada parte del circuito sólo puede haber dos
INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón
Metodología de Investigación Tesifón Parrón Contraste de hipótesis Inferencia Estadística Medidas de asociación Error de Tipo I y Error de Tipo II α β CONTRASTE DE HIPÓTESIS Tipos de Test Chi Cuadrado
Estadística. Análisis de datos.
Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: - Población: Es el conjunto de todos los elementos que cumplen una determinada característica. Ej.: Alumnos del colegio. - Individuo:
Medidas de centralización
1 1. Medidas de centralización Medidas de centralización Hemos visto cómo el estudio del conjunto de los datos mediante la estadística permite realizar representaciones gráficas, que informan sobre ese
Fase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
Utilización de Funciones en OpenOffice.org Calc
Utilización de Funciones en OpenOffice.org Calc Una función es un conjunto de instrucciones reunidas bajo un nombre que calculan un resultado o llevan a cabo una acción específica. Las funciones pueden
Contenidos. Tema 2: Conceptos estadísticos fundamentales. Distribuciones de frecuencias unidimensionalales. Enfoques de la Estadística
Contenidos Tema 2: Conceptos estadísticos fundamentales. Distribuciones de frecuencias unidimensionalales. Experto Universitario en Criminalidad y Seguridad Pública Departamento de Estadística e Investigación
ESTADÍSTICA CON EXCEL
ESTADÍSTICA CON EXCEL 1. INTRODUCCIÓN La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS
1. INTRODUCCIÓN Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias
Volumen de Sólidos de Revolución
60 CAPÍTULO 4 Volumen de Sólidos de Revolución 6 Volumen de sólidos de revolución Cuando una región del plano de coordenadas gira alrededor de una recta l, se genera un cuerpo geométrico denominado sólido
MEDIDAS DE TENDENCIA CENTRAL (MEDIDAS DE POSICIÓN)
MEDIDAS DE TENDENCIA CENTRAL (MEDIDAS DE POSICIÓN) Las medidas de tendencia central se llaman promedios. Un promedio es un valor típico en el sentido de que se emplea a veces para representar todos los
c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla
Tema 5. Tablas estadísticas Como ya se había establecido en el tema anterior sobre el uso de las tablas estadísticas, éstas son medios que utiliza la estadística descriptiva o deductiva para la presentación
TEMA 12 COSTES ESTÁNDAR
TEMA 12 COSTES ESTÁNDAR 1 12.1. INTRODUCCIÓN Herramienta que se aplica en el proceso de planificación y control Planificación definición de objetivos y medios para lograrlos Parte muy importante en la
2.- Tablas de frecuencias
º BACHILLERATO MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II TEMA 3.- ESTADÍSTICA DESCRIPTIVA PROFESOR: RAFAEL NÚÑEZ -----------------------------------------------------------------------------------------------------------------------------------------------------------------
Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE
Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE Objetivos 2 Identificar los tipos de gráficas. Definir los conceptos tablas y cuadros Reconocer las partes de una gráfica. Construir
Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0
Ignacio Martín Tamayo 11 Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0 ÍNDICE ------------------------------------------------------------- 1. Introducción 2. Frecuencias 3. Descriptivos 4. Explorar
Matrices y determinantes
Matrices y determinantes 1 Ejemplo Cuál es el tamaño de las siguientes matrices? Cuál es el elemento a 21, b 23, c 42? 2 Tipos de matrices Matriz renglón o vector renglón Matriz columna o vector columna
CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 6º ED.
. G r e d o s S a n D i e g o V a l l e c a s CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 6º ED. PRIMERA EVALUACIÓN El Sistema de numeración decimal El sistema de numeración decimal. Lectura y escritura
Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales
Introducción Las matrices aparecen por primera vez hacia el año 1850, introducidas por J.J. Sylvester. El desarrollo inicial de la teoría se debe al matemático W.R. Hamilton en 1853. En 1858, A. Cayley
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ESTADISITICA CATEDRA Estadística Especializada ASIGNATURA Estadística Descriptiva Para Psicólogos (EST-225)
Conteste a cuatro de las siguientes cinco cuestiones. Explique el concepto y ponga un ejemplo. Cada una de las cuestiones vale 1 punto.
EJERCICIO A Conteste a cuatro de las siguientes cinco cuestiones. Explique el concepto y ponga un ejemplo. Cada una de las cuestiones vale 1 punto. A.1. Diferencie entre un tipo de cambio fijo y otro flexible.
3.1. Administración de la medición y de la información estratégica:
Unidad III Aspectos Generales Sobre la Gestión de la Calidad 3.1. Administración de la medición y de la información estratégica: Los siguientes criterios corresponden a la administración de la medición
Microsoft Project 2013
Microsoft Project 2013 SALOMÓN CCANCE Project 2013 Salomón Ccance www.ccance.net CCANCE WEBSITE ANEXO 2. MANEJO DE VISTAS Y TABLAS. 2.1. ELEMENTOS DE VISUALIZACIÓN DE MICROSOFT OFFICE PROJECT PROFESSIONAL
FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ
PRESENTACIÓN DEL MÉTODO DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES EDU DUARDO CRIVISQ RIVISQUI PRESENTACIÓN DE LOS MÉTODOS DE ANÁLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES
Algebra lineal y conjuntos convexos
Apéndice A Algebra lineal y conjuntos convexos El método simplex que se describirá en el Tema 2 es de naturaleza algebraica y consiste en calcular soluciones de sistemas de ecuaciones lineales y determinar
UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE
UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE Glosario Media: es la puntuación promedio de un grupo de datos. Mediana: la mediana viene a ser la
Tamaño de la Fuerza de Ventas. Mtro. Sabino Valentín Olivares
Tamaño de la Fuerza de Ventas Mtro. Sabino Valentín Olivares Destacamento de la fuerza de ventas El tamaño de la fuerza de ventas o la cantidad de territorios La asignación de esfuerzo total de las ventas
Sistemas de ecuaciones lineales
Ecuación lineal con n incógnitas Sistemas de ecuaciones lineales Es cualquier expresión del tipo: a 1 x 1 + a 2 x 2 + a 3 x 3 +... + a n x n = b, donde a i, b. Los valores a i se denominan coeficientes,
Titulo: COMO GRAFICAR UNA FUNCION RACIONAL Año escolar: 4to. año de bachillerato Autor: José Luis Albornoz Salazar Ocupación: Ing Civil. Docente Universitario País de residencia: Venezuela Correo electrónico:
Transformaciones de variables
Transformaciones de variables Introducción La tipificación de variables resulta muy útil para eliminar su dependencia respecto a las unidades de medida empleadas. En realidad, una tipificación equivale
Curso de Estadística Básica
Curso de SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIÓN MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez Objetivo Conocer y calcular las medidas de tendencia central y medidas de dispersión
Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos
Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,
15 CASOS PRÁCTICOS DE ESTADÍSTICA APLICADA A LAS CIENCIAS DEL TRABAJO ANTONIO FERNÁNDEZ MORALES
15 CASOS PRÁCTICOS DE ESTADÍSTICA APLICADA A LAS CIENCIAS DEL TRABAJO ANTONIO FERNÁNDEZ MORALES MÁLAGA, 2004 15 CASOS PRÁCTICOS DE ESTADÍSTICA APLICADA A LAS CIENCIAS DEL TRABAJO ANTONIO FERNÁNDEZ MORALES
LAR450 Protección contra sobretensiones causadas por descargas
LAR450 Protección contra sobretensiones causadas por descargas NORMA TÉCNICA Elaborado por: Revisado por: AREA NORMAS G.V. Revisión #: Entrada en vigencia: LAR 450 10/11/2003 Esta información ha sido extractada
AJUSTE O ESTANDARIZACION DE TASAS Y CÁLCULO DE LOS AÑOS POTENCIALES DE VIDA PERDIDOS (APVP) 1.- CONDICIONES y TECNICAS PARA EL AJUSTE DE TASAS
Diplomado en Salud Pública AJUSTE O ESTANDARIZACION DE TASAS Y CÁLCULO DE LOS AÑOS POTENCIALES DE VIDA PERDIDOS (APVP) Como complemento de la información que se ha proporcionado a los alumnos sobre estos
SESIÓN 11 DERIVACIÓN DE FUNCIONES TRIGONOMETRICAS INVERSAS
SESIÓN 11 DERIVACIÓN DE FUNCIONES TRIGONOMETRICAS INVERSAS I. CONTENIDOS: 1. Función inversa, conceptos y definiciones 2. Derivación de funciones trigonométricas inversas 3. Ejercicios resueltos 4. Estrategias
A continuación se presenta la información de la altura promedio para el año de 1998 en Holanda de hombres y mujeres jóvenes.
M150: Creciendo A) Presentación del problema LOS JOVENES CRECEN MAS ALTO A continuación se presenta la altura promedio para el año de 1998 en Holanda de hombres y mujeres jóvenes. B) Preguntas del problema
Contenidos mínimos 1º ES0. 1. Contenidos. Bloque I: Aritmética y álgebra.
Contenidos mínimos 1º ES0. 1. Contenidos. Bloque I: Aritmética y álgebra. 1. Resolver expresiones con números naturales con paréntesis y operaciones combinadas. 2. Reducir expresiones aritméticas y algebraicas
Árboles Filogenéticos. BT7412, CC5702 Bioinformática Diego Arroyuelo. 2 de noviembre de 2010
Unidad 6: Árboles Filogenéticos BT7412, CC5702 Bioinformática Diego Arroyuelo 2 de noviembre de 2010 Temario (Introduction to Computational Molecular Biology Setubal y Meidanis Capítulo 6) 1. Introducción
Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.
DIAGRAMA MATRICIAL 1.- INTRODUCCIÓN Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción. Muestra su potencial, como herramienta indispensable para la planificación
La prueba extraordinaria de septiembre está descrita en los criterios y procedimientos de evaluación.
La prueba extraordinaria de septiembre está descrita en los criterios y procedimientos de evaluación. Los contenidos mínimos de la materia son los que aparecen con un * UNIDAD 1: LOS NÚMEROS NATURALES
FICHA DE REPASO: ESTADÍSTICA
FICHA DE REPASO: ESTADÍSTICA 1. Indica la población y la muestra de los siguientes estudios estadísticos: a) El número de móviles de los alumnos de 2º de la E.S.O de nuestro instituto. b) La altura de
Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis
Matemáticas 2.º Bachillerato Intervalos de confianza. Contraste de hipótesis Depto. Matemáticas IES Elaios Tema: Estadística Inferencial 1. MUESTREO ALEATORIO Presentación elaborada por el profesor José
Elaboración de Documentos en Procesadores de Textos
Las tablas permiten organizar la información en filas y columnas, de forma que se pueden realizar operaciones y tratamientos sobre las filas y columnas. Por ejemplo, obtener el valor medio de los datos
Tema 3: Sistemas de ecuaciones lineales
Tema 3: Sistemas de ecuaciones lineales 1. Introducción Los sistemas de ecuaciones resuelven problemas relacionados con situaciones de la vida cotidiana que tiene que ver con las Ciencias Sociales. Nos
1. LAS PRÁCTICAS DE OBSERVACIÓN 2. LA ENTREVISTA 3. EL GRUPO DE DISCUSIÓN 4. EL PROCESO DE INVESTIGACIÓN MEDIANTE ENCUESTA
4. TÉCNICAS BÁSICAS DE INVESTIGACIÓN SOCIAL 1. LAS PRÁCTICAS DE OBSERVACIÓN 2. LA ENTREVISTA 3. EL GRUPO DE DISCUSIÓN 4. EL PROCESO DE INVESTIGACIÓN MEDIANTE ENCUESTA 1. LAS PRÁCTICAS DE OBSERVACIÓN Consiste
TEMA 1.- POLINOMIOS Y FRACCIONES ALGEBRAICAS
TEMA 1.- POLINOMIOS Y FRACCIONES ALGEBRAICAS 1.- POLINOMIOS Recordemos que un monomio es una expresión algebraica (combinación de letras y números) en la que las únicas operaciones que aparecen entre las
Selección de fuentes de datos y calidad de datos
Selección de fuentes de datos y calidad de datos ESCUELA COMPLUTENSE DE VERANO 2014 MINERIA DE DATOS CON SAS E INTELIGENCIA DE NEGOCIO Juan F. Dorado José María Santiago . Valores atípicos. Valores faltantes.
UNIDAD 6. Estadística
Matemática UNIDAD 6. Estadística 2 Medio GUÍA N 1 MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS ACTIVIDAD Consideremos los siguientes conjuntos de valores referidos a las edades de los jugadores de dos
INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016
ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una
Otra forma de enumerar los resultados es en una tabla de frecuencia:
Materia: Matemática de Séptimo Tema: Intervalo de Clases e Histogramas Qué pasa si quisieras matar algo tiempo mientras esperas tu vuelo de conexión en el aeropuerto? Empiezas a contar el número de personas
1) Subtest de Vocabulario: Incluye dos partes, vocabulario expresivo (con 45 items) y definiciones (con 37 elementos).
Test Breve de Inteligencia de Kaufman (K-BIT) TUTORIAL El Test Breve de Inteligencia K-BIT es una excelente medida de lo que suele llamarse inteligencia general. Se trata de un test de screening, aplicable
Curso de Inducción de Matemáticas
Curso de Inducción de Matemáticas CAPÍTULO 1 Funciones y sus gráficas M.I. ISIDRO I. LÁZARO CASTILLO Programa del Curso 1. Funciones y sus gráficas. 2. Límites. 3. Cálculo Analítico de Límites. 4. Derivación.
ORGANIZACIÓN DE DATOS
CAPÍTULO 13 ORGANIZACIÓN DE DATOS Siendo el dato el material que se debe procesar, es decir, la materia prima de la estadística, el primer paso es entonces la recolección de datos, para lo cual se emplean
Tema 1: Introducción
Estadística Universidad de Salamanca Curso 2010/2011 Outline 1 Estadística 2 Outline 1 Estadística 2 La estadística es una ciencia que comprende la recopilación, tabulación, análisis e interpretación de
Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17
Román Salmerón Gómez Universidad de Granada RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17 exacta: aproximada: exacta: aproximada: RSG Incumplimiento de las
Contenido: Solución algebraica a los problemas de programación lineal con el método simplex.
Tema II: Programación Lineal Contenido: Solución algebraica a los problemas de programación lineal con el método simplex. Introducción El método simplex resuelve cualquier problema de PL con un conjunto
DISTRIBUCIONES BIDIMENSIONALES
La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento
Histogramas. Para crear un histograma. Para crear un histograma podemos utilizar el procedimiento Generador de gráficos en el Menú: o Gráficos:
SPSS: GRÁFICOS HISTOGRAMAS Histogramas Los histogramas son útiles para mostrar la distribución de una única variable de escala. Los datos se agrupan y se resumen utilizando el estadístico de porcentaje
EL EDITOR DE DATOS DE SPSS : Creación de una base de datos
EL EDITOR DE DATOS DE SPSS : Creación de una base de datos 3datos 2011 El editor de datos de SPSS Contiene a las variables y a sus datos obtenidos en la muestra de individuos analizada En cada fila, se
LA TEORÍA DE JUEGOS Y LOS OLIGOPOLIOS
LA TEORÍA DE JUEGOS Y LOS OLIGOPOLIOS Se toma en cuenta el comportamiento esperado de otros. Se considera el reconocimiento mutuo de la interdependencia. La teoría de los juegos es una rama de la matemática
Objetivos. Epígrafes 3-1. Francisco José García Álvarez
Objetivos Entender el concepto de variabilidad natural de un procesos Comprender la necesidad de los gráficos de control Aprender a diferenciar los tipos de gráficos de control y conocer sus limitaciones.
Qué es una tabla dinámica? Para qué sirve una tabla dinámica?
Gracias a las múltiples solicitudes de alumnos, me he propuesto realizar este manual a modo de entregar una guía base y una ayuda de memoria para todos aquellos que trabajan con esta herramienta. He decidido
Tema 2.- Formas Cuadráticas.
Álgebra. 004 005. Ingenieros Industriales. Departamento de Matemática Aplicada II. Universidad de Sevilla. Tema.- Formas Cuadráticas. Definición y representación matricial. Clasificación de las formas
Exactitud y Linearidad del Calibrador
Exactitud y Linearidad del Calibrador Resumen El procedimiento Exactitud y Linearidad del Calibrador fue diseñado para estimar la exactitud del sistema de medición. En contraste con los procedimientos
CAPÍTULO 1 IDENTIFICACIÓN DEL PROBLEMA
CAPÍTULO 1 IDENTIFICACIÓN DEL PROBLEMA A través de este primer capítulo se describe el problema que se plantea en la presente tesis. De la misma manera se determina el objetivo general y los objetivos
UNIDAD 8 INECUACIONES. Objetivo general.
8. 1 UNIDAD 8 INECUACIONES Objetivo general. Al terminar esta Unidad resolverás inecuaciones lineales y cuadráticas e inecuaciones que incluyan valores absolutos, identificarás sus conjuntos solución en
Unidad 2: Ecuaciones, inecuaciones y sistemas.
Unidad 2: Ecuaciones, inecuaciones y sistemas 1 Unidad 2: Ecuaciones, inecuaciones y sistemas. 1.- Factorización de polinomios. M. C. D y m.c.m de polinomios. Un número a es raíz de un polinomio es 0.
CAPITULO III MARCO METODOLOGICO. Tipo de Investigación
CAPITULO III MARCO METODOLOGICO Tipo de Investigación En este aspecto usted debe describir el tipo de investigación, en el cual se ubica el estudio. Cada investigador podrá construir su método, de acuerdo
CAPITULO II ANÁLISIS DEL CRECIMIENTO POBLACIONAL Y CALCULO DE CAUDALES DE DISEÑO
9 CAPITULO II ANÁLISIS DEL CRECIMIENTO POBLACIONAL Y CALCULO DE CAUDALES DE DISEÑO 2.1 Criterios de diseño para el predimensionamiento de los sistemas de abastecimiento de agua 2.1.1 Período de diseño
José Antonio Palazón Palazón Ferrando y José Francisco Calvo Sendín. Depto. Ecología e Hidrología [email protected] [email protected]
José Antonio Palazón Palazón Ferrando y José Francisco Calvo Sendín Depto. Ecología e Hidrología [email protected] [email protected] Universidad de Murcia Taller Caldum, 22 de Julio de 2004 1 Observaciones, objetividad
Estadística Descriptiva de una variable con STATGRAPHICS
Estadística Descriptiva de una variable con STATGRAPHICS Ficheros empleados: AlumnosIndustriales.sf3, 1. Introducción El objetivo de este documento es la utilización de las técnicas de estadística descriptiva
ECUACIONES.
. ECUACIONES... Introducción. Recordemos que el valor numérico de un polinomio (y, en general, de cualquier epresión algebraica) se calcula sustituyendo la/s variable/s por números (que, en principio,
En una recta numérica el punto que representa el cero recibe el nombre de origen.
1. Conjuntos numéricos Los conjuntos numéricos con los que has trabajado tanto en Enseñanza Básica como en Enseñanza Media, se van ampliando a medida que se necesita resolver ciertas problemáticas de la
CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 5º ED. PRIMARIA
CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 5º ED. PRIMARIA El cálculo y los problemas se irán trabajando y evaluando a lo largo de todo el año. 1ª EVALUACIÓN CONTENIDOS. o Los números de siete y
CAPITULO XII PUENTES DE CORRIENTE ALTERNA
CAPITULO XII PUENTES DE CORRIENTE ALTERNA 2. INTRODUCCION. En el Capítulo IX estudiamos el puente de Wheatstone como instrumento de medición de resistencias por el método de detección de cero. En este
Anexo Metodológico Nº 2 Definiciones Básicas
Anexo Metodológico Nº 2 Definiciones Básicas "Principales Características de los Establecimientos de las Actividades Comerciales" 231 232 Instituto Nacional de Estadística e Informática Anexo Metodológico
CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS
CONTENIDOS Y CRITERIOS DE EVALUACIÓN DE MATEMÁTICAS 1º DE ESO. Bloque 1: Contenidos Comunes Este bloque de contenidos será desarrollado junto con los otros bloques a lo largo de todas y cada una de las
SESIÓN PRÁCTICA 3: TRANSFORMACIONES DE DATOS PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas
SESIÓN PRÁCTICA 3: TRANSFORMACIONES DE DATOS PROBABILIDAD Y ESTADÍSTICA PROF. Esther González Sánchez Departamento de Informática y Sistemas Facultad de Informática Universidad de Las Palmas de Gran Canaria
Algoritmos. Medios de expresión de un algoritmo. Diagrama de flujo
Algoritmos En general, no hay una definición formal de algoritmo. Muchos autores los señalan como listas de instrucciones para resolver un problema abstracto, es decir, que un número finito de pasos convierten
Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24
Comenzado el lunes, 25 de marzo de 2013, 17:24 Estado Finalizado Finalizado en sábado, 30 de marzo de 2013, 17:10 Tiempo empleado 4 días 23 horas Puntos 50,00/50,00 Calificación 10,00 de un máximo de 10,00
