Temas 2 y 3. Análisis Exploratorio de Datos Grado en Estadística y Empresa 2012/2013
|
|
- María Concepción Miranda Escobar
- hace 6 años
- Vistas:
Transcripción
1 Temas 2 y 3 Análisis Exploratorio de Datos Grado en Estadística y Empresa 2012/2013 Ana Arribas Gil Departamento de Estadística Universidad Carlos III de Madrid Material elaborado por Aurea Grané Chávez
2 Tema 2. Descripción estadística de una variable 2.1. Ordenación simple de los datos Consideremos una muestra de tamaño n de una variable X. Esto significa que se consideran n individuos escogidos al azar de la población objeto de estudio y que, para cada uno de ellos se registra el valor de la variable X. Sean x 1,x 2,...,x k los k n diferentes valores de X sobre la muestra. Si X es cuantitativa o bien categórica ordinal, supondremos que x 1 < x 2 <... < x k. Si X es una variable categórica nominal, el orden de valores observados se establece según el criterio del observador.
3 Sea x i un valor observado de la variable X, i = 1,2,...,k. La frecuencia absoluta del valor x i, n i, es el número de veces que se ha observado este valor en la muestra. La frecuencia relativa del valor x i, f i, es la proporción del valor x i en la muestra, es decir, f i = n i /n. Puede expresarse en porcentaje. La frecuencia absoluta acumulada del valor x i, N i, es el número de observaciones menores o iguales que x i, es decir, N i = i j=1 n j. La frecuencia relativa acumulada del valor x i, F i, es la proporción de observaciones menores o iguales que x i en la muestra, es decir, F i = N i /n = i j=1 f j. También puede expresarse en porcentaje.
4 Propiedades de las frecuencias (pizarra) Tabla de frecuencias Permite representar de forma resumida los valores de X en la muestra. x i n i f i N i F i x 1 n 1 f 1 N 1 F 1 x 2 n 2 f 2 N 2 F x k n k f k N k = n F k = 1 Total n 1 Nota 1 Las columnas N i y F i no tendrán sentido para variables categóricas nominales.
5 Se denomina distribución de frecuencias de X al conjunto de valores observados de la variable junto con las frecuencias correspondientes a cada uno de estos valores. Distribución de frecuencias absolutas relativas x i n i x 1 n 1 x 2 n x k n k Total n x i f i x 1 f 1 x 2 f x k f k Total 1 Análogamente, se obtienen las distribuciones de frecuencias absolutas acumuladas y relativas acumuladas.
6 Ejemplo 1 Se ha medido el grupo sanguíneo de 40 individuos y se han observado las siguientes frecuencias absolutas para cada categoría: 12 para x 1 = A, 11 para x 2 = B, 8 para x 3 = AB y 9 para x 4 = O. a) De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. grupo n i A B AB O Total f i
7 Ejemplo 1 (continuación) grupo n i A B AB O Total f i b) Qué porcentaje de individuos son del grupo A? c) Qué porcentaje de individuos no son del grupo O? d) Cuántos individuos no son del grupo B?
8 Ejemplo 2 La siguiente tabla muestra la clasificación de 901 individuos según la variable satisfacción en el trabajo muy insatisfecho 62 moderamadente insatisfecho 108 moderadamente satisfecho 319 muy satisfecho 412 Total 901 x i n i a) De qué tipo es la variable de estudio? Calcular la tabla de frecuencias correspondiente.
9 Ejemplo 2 (continuación) x i n i f i N i F i muy insatisfecho moderamadente insatisfecho moderadamente satisfecho muy satisfecho Total b) Qué porcentaje de individuos están moderadamente satisfechos? c) Cuántos individuos están a lo sumo moderadamente insatisfechos (es decir, a lo sumo, levemente satisfechos)? Qué porcentaje representan? d) Cuántos individuos están por lo menos moderadamente satisfechos? Qué porcentaje representan?
10 Ejemplo 3 Se quiere estudiar la eficacia de un nuevo insecticida para plantas de interior. Se seleccionan 50 plantas y se cuenta el número de hojas que han sido atacadas después de haber tratado a la planta con el nuevo producto. Los resultados son: Hojas atacadas n i a) De qué tipo es la variable de estudio? Construir la tabla de frecuencias correspondiente.
11 Ejemplo 3 (continuación) Hojas atacadas n i f i N i F i b) Qué porcentaje de plantas tienen sólo 3 hojas atacadas? c) Cuántas plantas tienen como máximo 3 hojas atacadas? d) Cuántas plantas tienen como mínimo 6 hojas atacadas?
12 Ejemplo 3 (continuación) Hojas atacadas n i f i N i F i e) Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas? f) Qué porcentaje de plantas tienen al menos 8 hojas atacadas? g) Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas?
13 2.2. Ordenación agrupada de los datos. Si X es continua o bien discreta con muchos valores diferentes, resulta conveniente agrupar la muestra en intervalos, que se denominan intervalos de clase. Para poder calcular las medidas numéricas (que veremos más adelante), se toma como representante del intervalo a su punto medio, que se denomina marca de clase.
14 Tabla de frecuencias con intervalos de clase (ordenación agrupada de los datos) Intervalo Marca de clase: x i n i f i N i F i [l 0,l 1 ) x 1 = (l 0 +l 1 )/2 n 1 f 1 N 1 F 1 [l 1,l 2 ) x 2 = (l 1 +l 2 )/2 n 2 f 2 N 2 F [l k 1,l k ] x k = (l k 1 +l k )/2 n k f k N k = n F k = 1 Total n 1 La magnitud L i = l i l i 1 se denomina longitud o amplitud del intervalo [l i 1,l i ).
15 En las tablas de frecuencias con intervalos de clase hay una pérdida de información, puesto que hay valores diferentes que van a parar dentro de un mismo intervalo y, por tanto, serán tratados como iguales. Se hace necesario escoger unos intervalos lo suficientemente pequeños, de manera que la información que se pierda sea mínima, pero a la vez lo suficientemente grandes, de manera que el número de intervalos no sea desmesuradamente grande y haga incómodo su manejo. Como referencia, tomaremos uno de los siguientes valores aproximados: { n, si n no es muy grande, Num. intervalos = k log(n), en otro caso.
16 Por ejemplo: Si el número de observaciones que tenemos es n = 100, un buen criterio es agrupar las observaciones en k = 100 = 10 intervalos. Sin embargo si tenemos n = será más razonable elegir k = log(10 6 ) 20 intervalos, ya que k = 10 6 = 1000 no es un número cómodo de intervalos para trabajar.
17 Ejemplo 4 En veinte vuelos de Barcelona a Madrid se han contado el número de asientos vacíos en cada vuelo. Se han agrupado los datos en intervalos de longitud 4. asientos vacíos n i a) De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente.
18 Ejemplo 4 (continuación) intervalos x i n i f i N i F i [0,4) [4,8) [8, 12) [12, 16] Total b) En cuántos vuelos hay menos de 8 asientos vacíos? Qué porcentaje representan? c) En cuántos vuelos hay como mínimo 10 asientos vacíos? Qué porcentaje representan?
19 2.3. Representaciones gráficas Figura: Diagrama de barras y poĺıgono de frecuencias. Datos del ejemplo 3 (X = número de hojas atacadas por planta sobre una muestra de n = 50 plantas de interior). 12 poĺıgono de frecuencias diagrama de barras
20 Figura: Diagrama de sectores. Datos del ejemplo 1 (X = grupo sanguíneo de un individuo sobre una muestra de n = 40 individuos). 30% 23% A B AB O 20% 28%
21 Figura: Gráfico de Pareto. Datos del ejemplo 2 (X = satisfacción en el trabajo sobre una muestra de n = 901 individuos) % % % % % % % % % 0 muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho 0%
22 Figura: Histograma y poĺıgono de frecuencias. Datos del ejemplo 4 (X = número de asientos vacíos en una muestra de n = 20 vuelos de BCN-MAD) poĺıgono de frecuencias histograma
23 Ejemplo 5 Los datos siguientes corresponden a ciertas longitudes (en cm). Construir un diagrama de tallo y hojas , , , , , , , , , , , , , , , Datos redondeados y expresados en mm: 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147. Diagrama de tallo y hojas (datos en mm): tallo hojas
24 Ejercicio 2 Clasificadas las provincias españolas por su número de habitantes en 2001, se obtuvieron los siguientes datos: Num. habitantes Num. provincias de 1 a de a de a de a de a de a de a de a de a a) Constuir una tabla estadística con las marcas de clase, las frecuencias absolutas y las frecuencias relativas.
25 Ejercicio 2 (continuación) intervalos x i n i f i N i F i n i /L i [0, ) [100000, ) [250000, ) [500000, ) [750000, ) [ , ) [ , ) [ , ) [ , ] b) Cuántas provincias tienen menos de habitantes? Qué porcentaje representan? c) Cuántas provincias tienen entre y habitantes? d) Construir el histograma de frecuencias absolutas.
26 Ejercicio 2 (continuación) Figura: Histograma de frecuencias absolutas. Datos del ejercicio 2.
27 2.4.Características numéricas de una distribución univariante Supondremos que: x 1 < x 2 <... < x k son las marcas de clase de k intervalos construidos sobre la muestra de X (ordenación agrupada de los datos). Las características numéricas de una distribución de se clasifican en: Medidas de tendencia central Medidas de posición Medidas de dispersión (o de variabilidad) Medidas de forma (asimetría y curtosis)
28 Medidas de tendencia central Dan información sobre el centro de la distribución. Las más utilizadas son: La media aritmética,x, indica el punto medio de la muestra. Se calcula: x = 1 n k x i n i. i=1 Proposición 1 La suma de las diferencias de la variable con respecto de la media es nula, es decir, k (x i x)n i = 0. (Demostración) i=1
29 Proposición 2 Linealidad de la media Si Y = a+bx, a,b R, b 0, entonces la correspondiente media de Y es y = a+bx, es decir el operador media es una función lineal. (Demostración) Inconvenientes de la media. 1. Es muy sensible a valores extremos de la variable: todas las observaciones intervienen en el cálculo de la media, de manera que la presencia de una observación extrema hará que la media se desplace en esa dirección. 2. No es recomendable utilizarla en distribuciones con fuerte asimetría.
30 La media artimética ponderada, x P : En determinadas distribuciones estadísticas no todos los valores de la variable tienen la misma influencia, y, por ello, a cada valor se le asigna un coeficiente diferenciador, llamado peso. Si x 1,x 2,...,x k son los distintos valores X en la muestra y p 1,p 2,...,p k son los pesos correspondientes, entonces: x P = k i=1 x i p i k i=1 p i Nota 2 La media aritmética x es un caso particular de media ponderada, donde los pesos p i = n i.
31 Ejemplo 6 Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4% anual y el tercero un 2% anual, cuál es el tipo de interés medio que recibe? Lavariabledeestudioeselinterésanual.Losvaloresquetomaestavariable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interés medio es
32 Ejercicio 5 Una empresa está interesada en seleccionar entre dos candidatos para un puesto de trabajo. Las valoraciones que han obtenido estos candidatos en las entrevistas y pruebas a que han sido sometidos son las siguientes: Aspecto Candidato A Candidato B experiencia 8 7 conocimientos 6 7 psicontécnico 4 5 Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimientos y del 15% a la habilidad psicotécnica, cuál de los dos candidatos va a escoger?
33 La media geométrica, x G, proporciona una medida precisa de un cambio porcentual medio en una serie de números. Se calcula como: x G = (x n1 1 xn2 2...xn k k )1/n Se recomienda su uso cuando se tienen porcentajes, tasas o números índice; es decir, cuando una variable presenta variaciones acumulativas. Nota 3 Tomando logaritmos: log(x G ) = 1 n log(xn1 1 xn2 2...xn k k ) = 1 n k i=1 log(x ni i ) = 1 n k n i log(x i ). i=1
34 La mediana, Me, es aquel valor que divide a la muestra en dos partes iguales, de manera que el 50% de las observaciones quedan por debajo de la mediana y el otro 50% por encima de ella. Cálculo de la mediana: a) Ordenación simple de los datos: Me = { 1 2 (x ( n 2 ) +x ( n x ( n ) ), si n es par, ), si n es impar, donde x (j) indica el dato que ocupa la posición j-ésima en la muestra ordenada.
35 b) Ordenación agrupada de los datos: En la tabla de frecuencias identificamos al intervalo mediano como aquél que contiene al individuo que ocupa la posición n/2, es decir, x (n/2). Para ello nos ayudaremos de la columna de las frecuencias absolutas acumuladas (la de las N i ). Si [l i 1,l i ) es el intervalo mediano, entonces: (n/2 N i 1 ) Me = l i 1 +(l i l i 1 ). }{{} N i N i 1 L i
36 Propiedades e inconvenientes de la mediana: 1. La mediana no se ve alterada por la presencia de valores extremos, puesto que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello es adecuado su uso en distribuciones asimétricas. 2. El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar en Inferencia Estadística. Ejemplo 7 Calcular la mediana de los conjuntos de datos siguientes: a) 18,18,19,17,23,20,21,18 b) 20,21,18,19,18,17,18
37 La moda, Mo, se define de forma distinta según si los datos se encuentran o no agrupados en intervalos de clase. En la ordenación simple de los datos, la moda se define como el valor que presenta una mayor frecuencia absoluta (o relativa). En la ordenación agrupada de los datos, la moda se sitúa dentro del intervalo modal, que es el intervalo con mayor altura en el histograma de frecuencias absolutas (o relativas), es decir, con mayor n i /L i (o f i /L i ). (Deberemos prestar especial atención si los intervalos no tienen la misma amplitud). Si [l i 1,l i ) es el intervalo modal, entonces: Mo = l i 1 +L i n i+1 /L i+1 n i 1 /L i 1 +n i+1 /L i+1.
38 Nota 4 La moda puede ser no única, es decir, en una misma muestra puede haber dos valores con la misma frecuencia (o dos intervalos que con la misma altura en el histograma de frecuencias). En ambos casos, la distribución tendrá dos modas y se denominará bimodal. Si la distribución tiene tres modas, se denomina trimodal. Aunque, a veces, cuando hay más de dos modas se dice que la distribución no tiene moda. Nota 5 Esta medida de tendencia central es la menos utilizada para variables cuantitativas, pero en cambio, es una de las pocas que pueden calcularse para variables cualitativas.
39 Ejemplo 8 Con los datos del ejercicio 2 (habitantes de las provincias españolas) calcular la media aritmética, la mediana y la moda. intervalos x i n i f i N i F i n i /L i [0,100000) [100000,250000) [250000,500000) [500000,750000) [750000, ) [ , ) [ , ) [ , ) [ , ] total 52 1 Media:
40 Ejemplo 8 (continuación) intervalos x i n i f i N i F i n i /L i [0,100000) [100000,250000) [250000,500000) [500000,750000) [750000, ) [ , ) [ , ) [ , ) [ , ] total 52 1 Mediana:
41 Ejemplo 8 (continuación) intervalos x i n i f i N i F i n i /L i [0,100000) [100000,250000) [250000,500000) [500000,750000) [750000, ) [ , ) [ , ) [ , ) [ , ] total 52 1 Moda:
42 Medidas de posición El objectivo común de estas medidas es dividir el total de observaciones en p partes iguales e informar del porcentaje de datos que hay por encima y por debajo de los valores que separan cada una de las partes. Las más utilizadas son: Cuartiles: Se denomina cuartil k-ésimo (k = 1,2,3) al número Q k que deja k cuartas partes de la muestra por debajo de él y 4 k cuartes partes por encima. Percentiles: Se denomina percentil k-ésimo (k = 1,2,...,99) al número P k que deja k centésimas partes de la muestra por debajo de él y 100 k centésimas partes por encima. Nota 6 P 25 = Q 1, P 50 = Q 2 = Me, P 75 = Q 3.
43 Para calcular los cuartiles y percentiles utilizaremos el mismo algoritmo de cálculo que para la mediana, pero en lugar de buscar n/2 habrá que buscar k n/4 para Q k y kn/100 para P k. Ejercicio 6 Con los datos del ejercicio 2 (habitantes de las provincias españolas) calcular los cuartiles primero y tercero y el percentil 80.
44 Ejercicio 6 (continuación) Q 1 = Q 3 = P 80 = intervalos x i n i f i N i F i n i /L i [0,100000) [100000,250000) [250000,500000) [500000,750000) [750000, ) [ , ) [ , ) [ , ) [ , ] total 52 1
45 Diagrama de caja Es un diagrama muy útil que permite hacerse una idea de la dispersión y la simetría de la distribución. Sea RI = Q 3 Q 1. 3RI 1.5 RI RI 1.5 RI 3RI + Q 1 Me Q 3
46 Comparación entre media y mediana: robustez. Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atípicos. Consideremos las observaciones siguientes 1.7,2.8,3.2,3.4,5.3,5.8,6.2,7.2,8.3,9.3, que dan lugar a una media de x = 5.3 y una mediana de Me = 5.6. Supongamos que, por un error de transcripción, la observación 8.3 se registra como 83, es decir que el conjunto de datos ordenado queda como 1.7,2.8,3.2,3.4,5.3,5.8,6.2,7.2,9.3,83. Esta nueva colección de observaciones contiene un dato atípico extremo, que es 83. A pesar de ello, la mediana sigue siendo Me = 5.6, mientras que la media ahora vale x = 12.8.
47 Media y mediana frente a datos atípicos x Me Me x La resistencia o estabilidad de la mediana frente a la existencia de datos atípicos es un fenómeno que, en general, recibe el nombre de robustez. Las medidas basadas en el orden, como la mediana, los cuartiles, el rango intercuartílico o la MEDA, gozan de esta propiedad y se dice que son robustas. Por otra parte, cantidades basadas en la suma, como la media o la desviación típica, se ven más afectadas por las observaciones atípicas y son, por tanto, poco robustas.
48 simetría asimetría a la derecha asimetría a la izquierda x = Me x > Me x < Me En una distribución simétrica, media y mediana coinciden. En una distribución asimétrica a la derecha, la media (al ser sensible a los datos atípicos a la derecha del histograma) es mayor que la mediana. En una distribución asimétrica a la izquierda, la media (al ser sensible a los datos atípicos a la izquierda del histograma) es menor que la mediana.
49 Medidas de dispersión o de variabilidad Informan sobre la concentración de los datos respecto de alguna de las características de tendencia central. Las más utilizadas son: El rango (también llamado recorrido o amplitud) es la diferencia entre el valor máximo y el valor mínimo, es decir, Inconvenientes del rango: R = x max x min. 1. No utiliza todas las observaciones (sólo dos de ellas). 2. Puede quedar muy afectado por alguna observación extrema. 3. Al aumentar el número de observaciones en la muestra, el rango nunca disminuye (o se queda igual o aumenta).
50 El rango intercuartílico: RI = Q 3 Q 1. Indica la dispersión del 50% central de los datos de la muestra (amplitud de la caja del box-plot). Se recomienda su uso cuando hay presencia de observaciones atípicas (outliers). La desviación media: D m = 1 n k x i x n i. i=1 Mide cuánto se alejan (en promedio) los valores de X de la media aritmética. La desviación media guarda las mismas dimensiones que las observaciones, pero no suele utilizarse en inferencia estadística puesto que el valor absoluto tiene malas propiedades matemáticas.
51 La varianza muestral: s 2 n = 1 n k (x i x) 2 n i. i=1 Mide cuánto se aleja (en promedio) cada valor de X de la media aritmética, pero en unidades cuadráticas. A veces, se utiliza la fórmula equivalente: sn 2 = 1 k xi 2 n i x 2 = x n 2 x 2 i=1 }{{} x 2 La varianza no guarda la misma dimensión que las observaciones, pero sí su raíz cuadrada, s n = s 2 n, que se denomina desviación típica muestral (o desviación estándar).
52 Proposición 3 Si Y = ax +b, con a,b R, a > 0, entonces: s 2 n (Y) = a2 s 2 n (X). (Demostración) Este resultado dice que si las observaciones de la muestra sufren un traslado de una cantidad b, la dispersión de la muestra no aumenta. Mientras que si estas mismas observaciones sufren un cambio de escala de factor a entonces la dispersión de la muestra alrededor de la media será menor si a < 1 o bien será mayor si a > 1.
53 Propiedades e inconvenientes de la varianza y la desviación estándar: 1. La desviación estándar tiene la propiedad de que el intervalo (x 2s n,x +2s n ) contiene por lo menos al 75% de la muestra (teorema de Chebychev). Más aún, si el tamaño muestral es grande y puede suponerse que la muestra sigue una distribución normal, el intervalo puede contener al 95% de la muestra. 2. Ambas son sensibles a cambios de escala en las observaciones (cambios en las unidades de medida). 3. No es recomendable el uso de ellas cuando tampoco lo sea el de la media como medida de tendencia central. Por ejemplo, si hay datos atípicos.
54 La cuasivarianza muestral (o varianza muestral corregida) se utiliza mucho en inferencia estadística y se define como: s 2 n 1 = 1 n 1 k (x i x) 2 n i. La fórmula siguiente permite relacionar la varianza y la cuasivarianza: i=1 ns 2 n = (n 1)s2 n 1. Análogamente, se define la cuasidesviación típica muestral como la raíz cuadrada de la varianza muestral corregida, es decir, s n 1 = sn 1 2. Nota 7 El programa Statgraphics llama variance y standard deviation a la cuasivarianza y cuasidesviación, respectivamente.
55 La mediana de las desviaciones absolutas, MEDA, es una medida de la variabilidad de la muestra alrededor de la mediana y se define como: MEDA = Me( x 1 Me(X), x 2 Me(X),..., x k Me(X) ). Es una medida robusta. Ejemplo 12 Calcular la MEDA para el conjunto de datos 17, 18, 18, 18, 19, 20, 21. Indicaciones: Primero obtener la mediana de la muestra. Después obtener las diferencias (en valor absoluto) entre las observaciones y la mediana. Finalmente, la MEDA será la mediana de estas diferencias.
56 El coeficiente de variación de Pearson permite comparar las variabilidades de dos o más conjuntos de datos, ya sean variables distintas medidas sobre el mismo conjunto de individuos o bien, una sola variable medida sobre distintos conjuntos de individuos. Se define como: CV = s n /x. Nota 8 No es invariante frente a traslaciones (cambios de origen). Es decir, si Y = X +b, b > 0 entonces CV(Y) < CV(X): CV(Y) = s n(y) y = s n(x) x +b < s n(x) = CV(X). x Es invariante frente a cambios de escala. Si Y = ax, a > 0, entonces, CV(Y) = CV(X). CV(Y) = s n(y) y = as n(x) ax = CV(X).
57 Ejercicio 8 De los ocho empleados de una oficina, se han considerado las distribuciones de sus edades y sus años de antigüedad en la empresa: Edad Antigüedad Calcular lor rangos de estas dos distribuciones. Cuál de las dos tiene mayor grado de dispresión?
58 Ejercicio 8 (continuación) Edad Antigüedad Llamamos X a la variable edad e Y a la variable antigüedad : R(X) = R(Y) = Podemos afirmar que X tiene mayor dispersión que Y?
59 Ejercicio 8 (continuación) Aunque R(X) > R(Y), esto no significa que el grado de dispersión de X sea mayor que el de Y. Para decidir qué variable tiene un mayor grado de dispersión debemos calcular el coeficiente de variación. Para la variable edad es:
60 Ejercicio 8 (continuación) Mientras que para la variable antigüedad: Qué variable tiene mayor dispersión?
61 Medidas de forma: asimetría y apuntamiento Se dice que una distribución de datos es simétrica cuando lo es su representación gráfica, mientras que si la representación gráfica está desplazada hacia la izquierda o hacia la derecha se dice que es asimétrica. Si el desplazamiento es hacia la derecha, se dice que la distribución tiene asimetría positiva, y asimetría negativa si el desplazamiento es hacia la izquierda. El coeficiente de asimetría de Fisher permite medir la asimetría de la muestra: As F = 1 n k i=1 (x i x) 3 n i s 3 n As F > 0 asimetría positiva; As F < 0 asimetría negativa.. Nota 9 Statgraphics denomina skewness a este coeficiente.
62 Figura: (a) Simetría, (b) Asimetría positiva y (c) Asimetría negativa (a) As F = 0 (b) As F > 0 (c) As F < 0
63 Las medidas de apuntamiento, o curtosis, tratan de valorar la estilización de la representación gráfica de una distribución de datos. Sólo tienen sentido en el caso de distribucions acampanadas con simetría o ligera asimetría. Se define el coeficiente de apuntamiento o de curtosis: Ap = 1 n k i=1 (x i x) 4 n i s 4 n. Ap 3 distribución normal (mesocúrtica), Ap > 3 distribución apuntada (leptocúrtica), Ap < 3 distribución plana (platicúrtica). Nota 10 Statgraphics calcula el coeficiente de apuntamiento de Fisher, Ap 3, al que denomina kurtosis. De manera que: si Ap 3 0 distribución normal (mesocúrtica), si Ap 3 > 0 distribución apuntada (leptocúrtica), si Ap 3 < 0 distribución plana (platicúrtica).
64 Figura: (a) Mesocúrtica, (b) Leptocúrtica y (c) Platicúrtica (a) Ap = 3 (b) Ap > 3 (c) Ap < 3
65 Ejemplo 10 Con los datos del ejemplo 3 calcular la media aritmética, la mediana y la moda, el primer y tercer cuartiles, el percentil 95%, la varianza y desviación típica muestrales, el rango, el rango intercuartílico y la MEDA. hojas atacadas n i N i x i n i Total Medidas de tendencia central: x = Me = Mo = Qué deducimos de la posición relativa entre media y mediana?
66 Ejemplo 10 (continuación): Relación entre media y mediana y asimetría: 12 poĺıgono de frecuencias diagrama de barras
67 Ejemplo 10 (continuación): hojas atacadas n i N i Total 50 Medidas de posición: n/4 = Q 1 = 3n/4 = Q 3 = 95n/100= P 95 = Qué significa el valor de P 95? Qué intervalo contiene el 50% central de la muestra?
68 Ejemplo 10 (continuación): hojas atacadas n i N i x i n i xi 2 n i Total Medidas de dispersión: s 2 n = s n = R = RI = Qué significa el valor de s n?
69 Ejemplo 10 (continuación): Cuánto vale la MEDA?
70 Ejemplo 11 Con los datos del ejemplo 4 calcular la media aritmética, la mediana y la moda, el primer y tercer cuartiles, el percentil 30%, la varianza y desviación típica muestrales, el rango y el rango intercuartílico. int. x i n i N i n i /L i x i n i [0, 4) /4 18 [4, 8) /4 30 [8, 12) /4 40 [12, 16] /4 28 Total Medidas de tendencia central: x = Intervalo mediano: Me = Intervalo modal: Mo = Cómo se interpreta el valor de la moda? Qué tipo de asimetría presenta esta muestra de datos?
71 Ejemplo 11 (continuación): Tipo de asimetría: poĺıgono de frecuencias histograma
72 Ejemplo 11 (continuación): intervalo x i n i N i [0, 4) [4, 8) [8, 12) [12, 16] Total 20 Medidas de posición: Q 1 = Q 3 = P 30 =
73 Ejemplo 11 (continuación): int. x i n i N i x i n i xi 2 n i [0, 4) [4, 8) [8, 12) [12, 16] Total Medidas de dispersión: sn 2 = s n = R = RI =
74 Ejercicio 9 Una empresa inmobiliaria ofrece apartamentos en régimen de alquiler con los siguientes precios (en euors): precio alquiler (mensual) número de apartamentos a) Obtener el alquiler medio por apartamento, el precio más frecuente y el precio que se situa en medio de la oferta.
75 Ejercicio 9 (continuación): [l i 1,l i ) x i n i N i f i x i n i n i /L i [700, 1000) [1000, 1100) [1100, 1300) [1300, 1500) [1500, 1800) [1800, 2000) [2000, 2100] Total Cuál es el intervalo modal? Y el intervalo mediano? El alquiler medio por apartamento es... El precio más frecuente es... El precio que se situa en medio de la oferta es...
76 Ejercicio 9 (continuación): b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y 1350 euros al mes, a qué porcentaje de apartamentos tiene opción? c) Por debajo de qué precio están el 80% de los apartamentos? d) Entre qué precios están el 50% central de los apartamentos? Soluciones:
77 Tema 3. Transformaciones Transformar un conjunto de observaciones de una variable cuantitativa consiste en modificar cada una de ellas mediante una misma operación matemática, obteniendo así el conjunto de datos transformados. La transformación de datos se realiza con el fin de obtener una nueva variable cuya distribución sea más simple y con mejores propiedades (simetría, media igual a cero, desviación típica igual a uno,...) que la variable original.
78 3.1. Transformaciones lineales Es la forma más sencilla de transformar datos. Si X es la variable original y a,b R, entonces Y = a+bx es una transformación lineal de X. Propiedades: Si x, sn 2 (X), Me(X) y MEDA(X) son la media, la varianza, la mediana y la MEDA de X, respectivamente, entonces: 1. La media y varianza de Y son: y = a+bx, s 2 n (Y) = b2 s 2 n (X), 2. La mediana y MEDA de Y son: Me(Y) = a+bme(x), MEDA(Y) = b MEDA(X). Una situación habitual donde se utilizan las transformaciones lineales es cuando se hace un cambio de unidades de medida. Por ejemplo pasar de habitantes a miles de habitantes, de dólares a euros,...
79 Un caso particular de transformación lineal es la tipificación de una variable. La variable tipificada de X es Z = X x s n (X) = 1 s n (X) X x s n (X), que equivale a decir que Z es una transformación lineal de X, con a = x/s n (X) y b = 1/s n (X). Proposición 4 Toda variable tipificada tiene media cero y varianza unidad. La variable tipificada expresa el número de desviaciones estándar que cada observación dista de la media. Se utiliza para comparar la posición relativa de un mismo individuo respecto de distintas distribuciones de datos o bien, para comparar la posición relativa de individuos distintos dentro de la misma distribución de datos.
80 A pesar de las buenas propiedades de las transformaciones lineales, éstas no son suficientes para modificar rasgos más complejos de una distribución de datos, como por ejemplo la asimetría. Para ello serán necesarias las transformaciones no lineales Transformaciones lineales Como regla general, se trata de escoger una transformación que conduzca a una distribución simétrica y más cercana a la distribución normal. De este modo, se podrán aplicar numerosas técnicas de inferencia estadística. En una distribución simétrica unimodal, la media, la moda y la mediana coinciden; además el coeficiente de asimetría es cero (así como todos los momentos de orden impar).
81 Corrección de la asimetría negativa: Cuando se tienen distribuciones de frecuencias con asimetría negativa (frecuencias altas hacia el lado derecho de la distribución), es conveniente aplicar la transformación x k, k N, k 2. Esta transformación comprime la escala para valores pequeños y la expande para valores altos. Corrección de la asimetría positiva: Para distribuciones con asimetría positiva (frecuencias altas hacia el lado izquierdo de la distribución) se usan las transformaciones x, logx, 1/x, que comprimen los valores altos y expanden los pequeños. El efecto de estas transformaciones está en orden creciente: menos efecto x, más efecto logx y aún más 1/x. La transformación más utilizada es la logarítmica. Muchas distribuciones de datos económicos, o de consumos se convierten en simétricas al tomar la transformación logarítmica.
82 Las medidas basadas en el orden de los datos, como la mediana o los cuartiles se mantienen iguales cuando se hace una transformación monótona del estilo de las previamente citadas. Por el contrario, el resto de estadísticos cambia. Nota 11 Si en lugar del conjunto de observaciones originales se tiene sólo la distribución de frecuencias en una tabla con ordenación agrupada, se puede realizar la transformación modificando los extremos de las clases mediante la función elegida. En general, esto hace que cambien las longitudes de los intervalos de clase. Por tanto, si a continuación se dibuja el histograma con las nuevas clases, habrá que recalcular las alturas de cada intervalo.
83 Ejemplo 1 El número de días que 9 trabajadores escogidos al azar de una empresa han estado de baja son los siguientes: a) Representa este conjunto de datos mediante un diagrama de caja (box-plot). Se detecta algún valor atípico? b) Qué se puede decir de la simetría de estos datos? c) Qué transformaciones conoces que creas que pueden ser útiles para simetrizar estos datos?
84 Ejemplo 1 (continuación:) Diagrama de caja: Qué se puede decir de la simetría de estos datos? Qué transformaciones conoces que creas que pueden ser útiles para simetrizar estos datos?
85 Diagramas de caja para distintas transformaciones de la variable X: transformación X 2 transformación X transformación log(x) transformación 1/X
86 Ejemplo 2 Se consideran los siguientes datos, correspondientes a la tasa de incrementos de precios al consumo, en 1985, para 24 países de la OCDE: Considerar la transformación logarítmica y comparar ambas variables.
87 Ejemplo 2 (continuación) país x y = log(x) país x y = log(x)
88 Ejemplo 2 (continuación) Figura: Histograma de frecuencias absolutas X Y = log(x) X presenta una fuerte asimetría positiva: la mayor parte de los países tienen valores por debajo de 10 y, unos pocos, un valor mucho mayor. Y tiene una distribución...
89 Ejemplo 2 (continuación) medidas numéricas X Y = log(x) media x Q 1 cuartiles Me = Q 2 Q 3 RI = Q 3 Q 1 1as y 2as Q 1 1.5RI barreras Q RI exteriores Q 3 +3RI mínimo ( ) máximo ( ) (*) el mínimo y el máximo de los datos antes de las primeras barreras exteriores.
90 Ejemplo 2 (continuación) Figura: Diagramas de caja. En la figura de la izquierda se observa una fuerte asimetría positiva, mientras que en la figura de la derecha X Y = log(x)
91 Ejercicio 1 Dada la distribución de edades (medidas en años) en un colectivo de 100 personas, obtener: la variable tipificada Z, los valores de la media y varianza de Z, el coeficiente de variación de Z. edad frecuencia
92 Ejercicio 1 (continuación) Puesto que la variable tipificada se obitene mediante la fórmula: Z = X x s n, para obtener los valores tipificados de X, necesitamos obtener, en primer lugar, la media y la desviación típica de X. Para ello nos ayudamos de la tabla siguiente: x i n i x i n i xi 2 n i total x = s 2 n = s n =
93 Ejercicio 1 (continuación) Los valores tipificados de X son: z 1 = z 2 = z 3 = z 4 = Calculamos la media y varianza para la variable Z: z i n i z i n i zi 2 n i total z = s 2 z = s z = Cuánto vale el coeficiente de variación de Z?
94 Ejercicio 1 (continuación) No tiene ningún sentido calcular el coeficiente de variación de Z, puesto que al tratarse de una variable tipificada: CV = s z z 1 0!!
2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.
2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *. 2.1. Ejemplos. Ejemplo 2.1 Se ha medido el grupo sanguíneo de 40 individuos y se han observado las siguientes frecuencias absolutas
Más detallesEjemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.
ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejemplos y ejercicios de Estadística Descriptiva yanálisis de Datos Diplomatura en Estadística Curso 007/08 Descripción estadística de una variable. Ejemplos
Más detallesTransformaciones de variables
Transformaciones de variables Introducción La tipificación de variables resulta muy útil para eliminar su dependencia respecto a las unidades de medida empleadas. En realidad, una tipificación equivale
Más detallesTema 1: Análisis de datos univariantes
Tema 1: Análisis de datos univariantes 1 En este tema: Conceptos fundamentales: muestra y población, variables estadísticas. Variables cualitativas o cuantitativas discretas: Distribución de frecuencias
Más detallesMódulo de Estadística
Módulo de Estadística Tema 2: Estadística descriptiva Tema 2: Estadísticos 1 Medidas La finalidad de las medidas de posición o tendencia central (centralización) es encontrar unos valores que sinteticen
Más detallesPREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2
PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2 Preg. 1. Para comparar la variabilidad relativa de la tensión arterial diastólica y el nivel de colesterol en sangre de una serie de individuos, utilizamos
Más detallesTema 3: Estadística Descriptiva
Tema 3: Estadística Descriptiva Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 1 / 27 Índice
Más detalles1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k
1. Estadística Definición: La estadística es un ciencia inductiva que permite inferir características cualitativas y cuantitativas de un conjunto mediante los datos contenidos en un subconjunto del mismo.
Más detallesSe quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.
Medidas de dispersión Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media. Ya habiendo calculado la media, x de una
Más detallesOARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN
OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN Licenciatura en Gestión Ambiental 2015 Estimación de estadísticos descriptivos Una descripción cuantitativa de datos incluye:
Más detallesx i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x
MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas Datos no agrupados: x 1, x 2,...,x n x= x 1 +x 2 +... x n n n i=1 = n Ejemplo: dados los valores: X = 1, 4, 16, 11, 3, 6, su media es
Más detallesEstadística Descriptiva en SPSS
Estadística Descriptiva en SPSS Marcelo Rodríguez Ingeniero Estadístico - Magister en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 22 de
Más detallesTEMA 1: ESTADISTICA DESCRIPTIVA
ESTADÍSTICA, CURSO 008 009 1 TEMA 1: ESTADISTICA DESCRIPTIVA 1 FUDAMETOS 11 VARIABLES ESTADISTICAS Población: conjunto completo de elementos, con alguna característica común, objeto del estudio estadístico
Más detallesANÁLISIS DE DATOS UNIDIMENSIONALES
ANÁLISIS DE DATOS UNIDIMENSIONALES TABLAS DE FRECUENCIAS Y REPRESENTACIONES GRÁFICAS MEDIDAS DE POSICIÓN MEDIDAS DE TENDENCIA CENTRAL MEDIA ARITMÉTICA OTRAS MEDIAS: GEOMÉTRICA.ARMÓNICA.MEDIA GENERAL MEDIANA
Más detallesÁREAS DE LA ESTADÍSTICA
QUÉ ES LA ESTADÍSTICA? Es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. ÁREAS DE LA ESTADÍSTICA Diseño: Planeamiento y desarrollo de investigaciones Descripción: Resumen
Más detallesEstadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
Más detallesBioestadística: Estadística Descriptiva
Bioestadística: M. González Departamento de Matemáticas. Universidad de Extremadura Bioestadística 1 2 Bioestadística 1 2 Coneptos Básicos ESTADÍSTICA Ciencia que estudia el conjunto de métodos y procedimientos
Más detallesMétodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va
Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va Jesús Fernández Fernández Carmen María Sordo García DEPARTAMENTO DE MATEMÁTICA APLICADA Y CIENCIAS DE LA COMPUTACIÓN UNIVERSIDAD DE CANTABRIA
Más detallesFLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional
FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- Estadística variable unidimensional 1. Conceptos de Estadística 2. Distribución de frecuencias 2.1. Tablas de valores con variables continuas 3. Parámetros
Más detallesApuntes de Estadística
Apuntes de Estadística La Estadística es la ciencia que se encarga de recoger, organizar, describir e interpretar datos referidos a distintos fenómenos para, posteriormente, analizarlos e interpretarlos.
Más detallesEstadística Descriptiva
Estadística Descriptiva 1 Qué veremos 1. OBJECTIVOS DEL CURSO. DEFINICIONES IMPORTANTES 2. TIPOS DE VARIABLES 3 5 1. Estadísticos de tendencia central 2. Estadísticos de posición 3. Estadísticos de variabilidad/dispersión
Más detallesTEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION
TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION 1. Percentiles, cuartiles y deciies. 2. Estadígrafos de Posición. 3. Sesgo y curtosis o de pastel. Pictogramas. OBJETIVOS DE UNIDAD GENERALES. Que el futuro
Más detallesU.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo
U.D.1: Análisis estadístico de una variable Consideraciones iniciales: - Población: Es el conjunto de todos los elementos que cumplen una determinada característica. Ej.: Alumnos del colegio. - Individuo:
Más detallesEstadística Descriptiva 2da parte
Universidad Nacional de Mar del Plata Facultad de Ingeniería Estadística Descriptiva 2da parte 1 Cuatrimestre 2014 Prof. Marina Tomei. Jueves de 8 a 10 hs. Mg. Stella Maris Figueroa. juevesde 13 a 105hs.
Más detallesII. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS
UNIVERSIDAD INTERAMERICANA PARA EL DESARROLLO ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS Contenido II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS II. Tablas de frecuencia II. Gráficos: histograma, ojiva, columna,
Más detallesFase 2. Estudio de mercado: ESTADÍSTICA
1. CONCEPTO DE ESTADÍSTICA. ESTADÍSTICA DESCRIPTIVA 2. 3. TABLA DE FRECUENCIAS 4. REPRESENTACIONES GRÁFICAS 5. TIPOS DE MEDIDAS: A. MEDIDAS DE POSICIÓN B. MEDIDAS DE DISPERSIÓN C. MEDIDAS DE FORMA 1 1.
Más detallesAnálisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz
Análisis de datos y gestión n veterinaria Tema 1 Estadística descriptiva Prof. Dr. José Manuel Perea Muñoz Departamento de Producción Animal Facultad de Veterinaria Universidad de Córdoba Córdoba, de Septiembre
Más detallesTemas de Estadística Práctica
Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Tema 2: Medidas de tipo paramétrico Resumen teórico Medidas de tipo paramétrico Medidas de tendencia central Medidas
Más detallesEstadística Descriptiva
Nociones de Probabilidades y Estadística Estadística Descriptiva Luis A. Salomón Departamento de Ciencias Matemáticas Escuela de Ciencias, EAFIT Luis A. Salomón (EAFIT) Inspira Crea Transforma Curso 2016
Más detallesFundamentos de Estadística y Simulación Básica
Fundamentos de Estadística y Simulación Básica TEMA 2 Estadística Descriptiva Clasificación de Variables Escalas de Medición Gráficos Tabla de frecuencias Medidas de Tendencia Central Medidas de Dispersión
Más detallesMedidas de variabilidad (dispersión)
Medidas de posición Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las
Más detallesTema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1
Tema 1: Estadística descriptiva Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1 Introducción Objetivo: estudiar una característica o variable en una población. Ejemplos:
Más detallesLos estadísticos descriptivos clásicos (Robustez)
Los estadísticos descriptivos clásicos (Robustez) MUESTRA 0 0 4 6 8 9 MUESTRA 0 0 4 6 8 57 Nº CASOS Media Mediana Moda Desviación Simetría Curtosis MUESTRA,85 4,74 0, -0.688 MUESTRA 6,77 4.8.7.77 Ambas
Más detallesTema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1
Bioestadística Tema 2: Estadísticos Tema 2: Estadísticos 1 Parámetros y estadísticos Parámetro: Es una cantidad numérica calculada sobre una población La altura media de los individuos de un país La idea
Más detallesTEMA 7 EL MODELO DE LA CURVA NORMAL. CONCEPTO Y APLICACIONES
TEMA 7 EL MODELO DE LA CURVA NORMAL. CONCEPTO Y APLICACIONES 1. Puntuaciones diferenciales y puntuaciones típicas 2. La curva normal 3. Cálculo de áreas bajo la curva normal 3.1. Caso 1: Cálculo del número
Más detallesEstadística para el análisis de los Mercados S2_A1.1_LECV1
5. Parámetros estadísticos. 5.1. Parámetros de centralización. Estos parámetros nos indican en torno a que puntos se encuentran los valores de la variable cuantitativa en estudio. Es la forma de representar
Más detalles3 ANALISIS DESCRIPTIVO DE LOS DATOS
3 ANALISIS DESCRIPTIVO DE LOS DATOS 3.1 La tabulación de los datos 3.1.1 Tabla de distribución de frecuencias. 3.1.2 El histograma. 3.2 Medidas de tendencia central 3.2.1 La media. 3.2.2 La mediana. 3.2.3
Más detallesCurso de Estadística Aplicada a las Ciencias Sociales
Curso de Estadística Aplicada a las Ciencias Sociales Tema 6. Descripción numérica (2) Capítulo 5 del manual Tema 6 Descripción numérica (2) Introducción 1. La mediana 2. Los cuartiles 3. El rango y el
Más detallesCOLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.
Repasa de cursos anteriores: Estadística. Población. Muestra. Carácter estadístico: cualitativo (modalidad) y cuantitativo (variable estadística), que puede ser (discreta y continua] Frecuencias: absolutas
Más detallesTabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.
1. TABLAS Y GRÁFICOS ESTADÍSTICOS Estadística Es la ciencia que estudia conjunto de datos obtenidos de la realidad. Estos datos son interpretados mediante tablas, gráficas y otros parámetros tales como
Más detallesMEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros
MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN Lic. Esperanza García Cribilleros ANÁLISIS EXPLORATORIO DE DATOS Diagrama de tallo y hojas Diagrama de caja DESCRIPCIÓN N DE LOS DATOS Tablas
Más detallesUn estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.
La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un estudio estadístico consta de las siguientes
Más detallesUNIDAD 7 Medidas de dispersión
UNIDAD 7 Medidas de dispersión UNIDAD 7 MEDIDAS DE DISPERSIÓN Al calcular un promedio, por ejemplo la media aritmética no sabemos su representatividad para ese conjunto de datos. La información suministrada
Más detallesEstadística. Análisis de datos.
Estadística Definición de Estadística La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones. Un
Más detallesESTADÍSTICA UNIDIMENSIONAL
ESTADÍSTICA UNIDIMENSIONAL DEFINICIÓN DE VARIABLE Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población. TIPOS DE VARIABLE ESTADÍSTICAS Ø Variable
Más detallesESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA Definición de Estadística: La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer
Más detallesRelación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS
INTRODUCCIÓN A LA ESTADÍSTICA Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS 1.- Obtener las medias aritmética, geométrica, armónica para la siguiente distribución: SOL: 2,74; 2,544; 2,318
Más detallesESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO
ESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO MODULO 3: Medidas de tendencia central Haga clic para modificar el estilo de subtítulo del patrón Docentes: Mariana Cabrera - Laura Noboa - Verónica Curbelo
Más detallesY accedemos al cuadro de diálogo Descriptivos
SPSS: DESCRIPTIVOS PROCEDIMIENTO DE ANÁLISIS INICIAL DE DATOS: DESCRIPTIVOS A diferencia con el procedimiento Frecuencias, que contiene opciones para describir tanto variables categóricas como cuantitativas
Más detallesESTADÍSTICA DESCRIPTIVA
TEMA 2: ESTADÍSTICA DESCRIPTIVA Objetivos: En esta práctica utilizaremos el paquete SPSS para calcular estadísticos descriptivos de una muestra. Se representarán gráficamente conjuntos de datos utilizando
Más detallesDr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental
Universidad de Puerto Rico Recinto de Aguadilla Programa CeCiMat Elemental Definición de conceptos fundamentales de la Estadística y la Probabilidad y su aportación al mundo moderno Dr. Richard Mercado
Más detallesEJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:
Ejercicio 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas: a) Marca de los coches. b) Peso de los coches. c) Número de coches vendidos
Más detallesProbabilidad y Estadística, EIC 311
Probabilidad y Estadística, EIC 311 Medida de resumen 1er Semestre 2016 1 / 105 , mediana y moda para datos no Una medida muy útil es la media aritmética de la muestra = Promedio. 2 / 105 , mediana y moda
Más detallesEstadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central nos proporcionan la descripción significativa de un conjunto de observaciones. Como su nombre lo indica, son datos de una variable que tienden
Más detallesMEDIDAS DE TENDENCIA CENTRAL
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA) MEDIDAS DE TENDENCIA CENTRAL 20/05/2008 Ing. SEMS 2.1 INTRODUCCIÓN En el capítulo anterior estudiamos de qué manera los
Más detalles1 POBLACIÓN Y MUESTRA
1 POBLACIÓN Y MUESTRA Estadística.- es la rama de las matemáticas que se encarga de describir y analizar datos de un estudio, y obtener consecuencias válidas del estudio. Población.- es el conjunto de
Más detallesEstadística Descriptiva
M. en C. Juan Carlos Gutiérrez Matus Instituto Politécnico Nacional 2004 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus Desde la segunda mitad del siglo anterior, el milagro industrial sucedido en Japón, hizo
Más detallesESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1
ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL 0/09/2004 Proyecto MaMaEuSch Estadística Ciencia que trata sobre los métodos científicos para: Recoger, organizar, resumir y analizar datos Sacar conclusiones relevantes
Más detallesAnálisis descriptivo y exploratorio de datos
TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD Análisis descriptivo y exploratorio de datos Francisco M. Ocaña Peinado @ocanapaco http://www.ugr.es/local/fmocan Departamento de Estadística e Investigación
Más detallesMétodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández
Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández El método incluye diferentes elementos Justificación Planteamiento del problema
Más detallesESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua
ESTADÍSTICA Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal Cuantitativa discreta continua DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta: fi Frecuencia relativa:
Más detalles478 Índice alfabético
Índice alfabético Símbolos A, suceso contrario de A, 187 A B, diferencia de los sucesos A y B, 188 A/B, suceso A condicionado por el suceso B, 194 A B, intersección de los sucesos A y B, 188 A B, unión
Más detalles+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i
OCIOES de ESTADÍSTICA En las tablas estadísticas se pueden tabular, entre otros, los siguientes aspectos: La frecuencia absoluta ( f i ), es decir, el número de veces que aparece un determinado valor en
Más detallesUNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO CENTRO UNIVERSITARIO UAEM ZUMPANGO LICENCIATURA EN TURISMO UNIDAD DE APRENDIZAJE: ESTADISTICA TEMA 1.5 : ESTADISTICA DESCRIPTIVA M. EN C. LUIS ENRIQUE KU MOO FECHA:
Más detallesLa estadística es una ciencia que demuestra que si mi vecino tiene
UNIDAD DOS MEDIDAS ESTADÍSTICAS La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno. Frase de George Bernard Shaw PALABRAS CLAVE Datos originales
Más detallesINTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)
TEMA Nº 7 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD OBJETIVOS DE APRENDIZAJE: Conocer las características de la distribución normal como distribución de probabilidad de una variable y la aproximación de
Más detallesTema 2 Estadística Descriptiva
Estadística Descriptiva 1 Tipo de Variables 2 Tipo de variables La base de datos anterior contiene la información de 36 alumnos de un curso de Estadística de la Universidad de Talca. En esta base de datos
Más detallesMedidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. 2) Math. 298 Prof. Gaspar Torres Rivera
Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. ) Math. 98 Prof. Gaspar Torres Rivera Un hombre promedio Roberto tiene 31 años de edad, una estatura de 68.8 pulgadas, pesa
Más detallesESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA Diplomado en Salud Pública Autor: Clara Laguna En el capítulo anterior vimos que la Estadística es la Ciencia de la: Sistematización, recogida, MUESTREO ordenación y posterior presentación
Más detallesGLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.
GLOSARIO ESTADÍSTICO Fuente: Murray R. Spiegel, Estadística, McGraw Hill. CONCEPTOS Y DEFINICIONES ESPECIALES Es el estudio científico de los métodos para recoger, organizar, resumir y analizar los datos
Más detallesCurso de nivelación Estadística y Matemática
Curso de nivelación Estadística y Matemática Primera clase: Estadística Descriptiva Programa Técnico en Riesgo, 2016 Agenda 1 Tipos de variables y niveles de medición 2 3 Tipos de variables Variables Cuantitativas
Más detallesMedidas de dispersión
Medidas de dispersión Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son: Rango o recorrido El rango es la diferencia
Más detallesESTADÍSTICA DESCRIPTIVA
ESTADÍSTICA DESCRIPTIVA Medidas de tendencia central y de dispersión Giorgina Piani Zuleika Ferre 1. Tendencia Central Son un conjunto de medidas estadísticas que determinan un único valor que define el
Más detallesGuía de Matemática Cuarto Medio
Guía de Matemática Cuarto Medio Aprendizaje Esperado: 1. Conocen distintas maneras de organizar y presentar información incluyendo el cálculo de algunos indicadores estadísticos, la elaboración de tablas
Más detallesDatos cuantitativos. Método tabular
Datos cuantitativos Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de
Más detallesMedidas de Tendencia Central.
Medidas de Tendencia Central www.jmontenegro.wordpress.com MEDIDAS DE RESUMEN MDR MEDIDAS DE TENDENCIA CENTRAL MEDIA MEDIANA MODA CUARTILES,ETC. MEDIDAS DE DISPERSIÓN RANGO DESVÍO EST. VARIANZA COEFIC.
Más detallesGuía de actividad Independiente No 5. Estadística Descriptiva. Nombre del estudiante: Fecha:
Guía de actividad Independiente No 5. NOMBRE DE LA ASIGNATURA: Estadística Descriptiva TUTOR: Deivis Galván Cabrera Nombre del estudiante: Fecha: 1. Al comenzar el curso se pasó una encuesta a los alumnos
Más detallesLibro de ejercicios de refuerzo de matemáticas. María de la Rosa Sánchez
Libro de ejercicios de refuerzo de matemáticas María de la Rosa Sánchez Estadística bidimensional Tema 0 2 Índice general 1. Estadística unidimensional 5 2. Estadística bidimensional 11 3 Tema 1 Estadística
Más detallesSíntesis Numérica de una Variable
Relación de problemas 2 Síntesis Numérica de una Variable Estadística 1. En siete momentos del día se observa el número de clientes que hay en un negocio, anotando: 2, 5, 2, 7, 3, 4, 9. Calcular e interpretar
Más detallesBioestadística y uso de software científico TEMA 1 INTRODUCCIÓN. ESTADÍSTICA DESCRIPTIVA
Bioestadística y uso de software científico TEMA 1 INTRODUCCIÓN. ESTADÍSTICA DESCRIPTIVA Población y muestra Tipos de variable Representación gráfica Medidas que resumen una muestra o una población Medidas
Más detallesTemas de Estadística Práctica Antonio Roldán Martínez
Temas de Estadística Práctica Antonio Roldán Martínez Proyecto http://www.hojamat.es/ Tema 3: Medidas típicas. Índices Resumen teórico Medidas típicas. Índices Clases de puntuaciones Índices de posición
Más detallesMedidas de centralización
1 1. Medidas de centralización Medidas de centralización Hemos visto cómo el estudio del conjunto de los datos mediante la estadística permite realizar representaciones gráficas, que informan sobre ese
Más detallesPROBABILIDAD. Unidad I Ordenamiento de la Información
1 PROBABILIDAD Unidad I Ordenamiento de la Información 2 Captura de datos muestrales Conceptos básicos de la estadística 3 Población (o universo): Totalidad de elementos o cosas bajo consideración Muestra:
Más detallesUnidad Temática 1 Estadística descriptiva y análisis de datos
Unidad Temática 1 Estadística descriptiva y análisis de datos Responda verdadero o falso. Coloque una letra V a la izquierda del número del ítem si acepta la afirmación enunciada, o una F si la rechaza.
Más detalles2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD
º ESO UNIDAD 1 ESTADÍSTICA Y PROBABILIDAD 1 1.- CONCEPTOS BÁSICOS Estadística.- Es la ciencia que estudia conjuntos de datos obtenidos de la realidad. Estos datos son interpretados mediante tablas, gráficas
Más detalles1. Dado el siguiente volumen de ventas de una empresa y su gasto en I+D en miles. Prediga las ventas de este empresario para un gasto en I+D de 7.
MODELO A Examen de Estadística Económica (2407) 20 de junio de 2009 En cada pregunta sólo existe UNA respuesta considerada más correcta. Si hay dos correctas deberá escoger aquella respuesta que tenga
Más detallesESTADÍSTICA SEMANA 3
ESTADÍSTICA SEMANA 3 ÍNDICE MEDIDAS DESCRIPTIVAS... 3 APRENDIZAJES ESPERADOS... 3 DEFINICIÓN MEDIDA DESCRIPTIVA... 3 MEDIDAS DE POSICIÓN... 3 MEDIDAS DE TENDENCIA CENTRAL... 4 MEDIA ARITMÉTICA O PROMEDIO...
Más detallesMEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro
Más detallesEjercicios de estadística.
Ejercicios de estadística..- Los siguientes números son el número de horas que intervienen alumnos en hacer deporte durante un mes:, 7,,, 5, 6, 7, 9,,, 5, 6, 6, 6, 7, 8,,, 5, 8 a) Calcula las tablas de
Más detalles68 Bioestadística: Métodos y Aplicaciones. curtosis<0 curtosis=0 curtosis>0. Figura 2.10: Apuntamiento de distribuciones de frecuencias
68 Bioestadística: Métodos y Aplicaciones curtosis0 Figura 2.10: Apuntamiento de distribuciones de frecuencias 2.6. Problemas Ejercicio 2.1. En el siguiente conjunto de números,
Más detallesDispone de 1 hora para resolver las siguientes cuestiones planteadas.
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL FACULTAD DE ECONOMÍA Y NEGOCIOS EXAMEN TEÓRICO DE ESTADÍSTICA COMPUTARIZADA NOMBRE: PARALELO: Dispone de 1 hora para resolver las siguientes cuestiones planteadas.
Más detallesESTADÍSTICA CON EXCEL
ESTADÍSTICA CON EXCEL 1. INTRODUCCIÓN La estadística es la rama de las matemáticas que se dedica al análisis e interpretación de series de datos, generando unos resultados que se utilizan básicamente en
Más detallesMedidas de posición para variables cuantitativas
Medidas de posición para variables cuantitativas Objetivos Que deberían saber al terminar esta clase: Qué es el valor mínimo y el máximo Qué es la moda o modo y como se interpreta Qué son los percentiles,
Más detallesTema 6. Índices estadísticos de variables cuantitativas. Parámetros de tendencia central, dispersión, posición y forma.
Tema 6. Índices estadísticos de variables cuantitativas. Parámetros de tendencia central, dispersión, posición y forma. Los parámetros o índices (ya vimos en el tema 3 que consideramos ambos conceptos
Más detallesApuntes y ejercicios de Estadística para 2º E.S.O
Apuntes y ejercicios de Estadística para 2º E.S.O 1 Introducción La Estadística es la ciencia que se encarga de recoger, organizar, describir e interpretar datos referidos a distintos fenómenos para, posteriormente,
Más detallesMinisterio de Educación Pública Dirección de Gestión y Evaluación de la Calidad Departamento de Evaluación Académica y Certificación.
Matemáticas Distribución de ítems para la prueba nacional Modalidad Académica (Diurnos Nocturnos) Convocatorias 016 ESTIMADO DOCENTE: En la modalidad de colegios académico, la Prueba de Bachillerato 016
Más detallesM i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.
Medidas de tendencia central y variabilidada para datos agrupados Media (media aritmética) ( X ) Con anterioridad hablamos sobre la manera de determinar la media de la muestra. Si hay muchos valores u
Más detallesTEMA 8: ESTADÍSTICA DESCRIPTIVA.
I.E.S. Salvador Serrano de Alcaudete Departamento de Matemáticas º ESO 0 / TEMA 8: ESTADÍSTICA DESCRIPTIVA. 8. Introducción. La palabra ESTADÍSTICA procede del vocablo Estado, pues era función principal
Más detalles1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1
8 Estadística 81 Distribuciones unidimensionales Tablas de frecuencias En este tema nos ocuparemos del tratamiento de datos estadísticos uestro objeto de estudio será pues el valor de una cierta variable
Más detallesLa amplitud del intervalo ( ) se determina considerando un número dado de intervalos ( ) y el rango obtenido, esto es:
La estadística es una materia dedicada a la recopilación, organización, estudio y análisis de datos de un hecho en particular. La estadística descriptiva tabula, representa y describe una serie de datos
Más detalles