Estadística Descriptiva.

Documentos relacionados
x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

Tema 1. Estadística Unidimensional

INTRODUCCIÓN. Fenómeno Real. Aprendizaje sobre el fenómeno. Análisis Estadístico. Datos Observados

PRÁCTICAS DE ESTADÍSTICA CON R

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

Las técnicas para resumir la información ió contenida en un conjunto de datos x 1, x 2,,x n son: Tablas de frecuencias: por columnas, disponemos los

Tema 1 Estadística descriptiva: Medidas de posición

Estadística I Tema 2: Análisis de datos univariantes

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Tema 1: Análisis de datos univariantes

Técnicas Cuantitativas para el Management y los Negocios

Part I. Descripción estadística de una variable. Estadística I. Mario Francisco. Conceptos generales. Distribuciones de frecuencias.

Tema 3: Estadística Descriptiva

Estadística Descriptiva o deductiva Inferencial o inductiva Población: Variable: Variable cualitativa: Variable cuantitativa: Variable discreta

Tema 9: Estadística descriptiva

Apuntes de Estadística

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

Tema 2 Estadística Descriptiva

Estadística Descriptiva 2da parte

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Resumenes numéricas de una muestra de datos. M. Wiper Análisis Estadístico del Delito 1 / 41

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

Estadística I. Finanzas y contabilidad

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

UNIDAD 8. ESTADÍSTICA

Módulo de Estadística

Curso de Estadística Aplicada a las Ciencias Sociales

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Medidas de centralización

Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

ESTADÍSTICA Camerina Laura Ramírez Gallegos

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Exploración de datos

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

ESTADÍSTICA DESCRIPTIVA

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

CLASIFICACIÓN DE LA ESTADÍSTICA

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

2º GES T.5 - ESTADÍSTICA TEMA 5. ESTADÍSTICA

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

ESTADÍSTICA 1.- NOCIONES GENERALES

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

ESTADÍSTICA. A su vez, las variables pueden ser :

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

TEMA 11. ESTADÍSTICA

Tema 6 Descripción numérica (2) Curso de Estadística Aplicada a las Ciencias Sociales. 1. La mediana. Introducción. Tema 6. Descripción numérica (2)

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.

Muestra Una muestra es una parte de la población que elegimos para estudiar la población.

ESTADÍSTICA DESCRIPTIVA

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Estadística aplicada al Periodismo

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Guía de Matemática Cuarto Medio

Medidas Descriptivas Numéricas

Estadística Inferencial. Estadística Descriptiva

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Instrumentos y matriz de datos

TEMA 7. ESTADÍSTICA. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra.

Estudios estadísticos. a) Crea la tabla de frecuencias absolutas y acumuladas correspondiente. Ten en cuenta

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

MEDIDAS DE POSICIÓN CUANTILES CUARTILES DECILES CARLOS DARIO RESTREPO

Julio Deride Silva. 18 de agosto de 2010

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

Estadística para el análisis de los Mercados S2_A1.1_LECV1

TEMA 8: ESTADÍSTICA. 8.1 Elementos de la Estadística. 8.2 Parámetros estadísticos. 8.3 Parámetros de posición para datos aislados.

ESTADÍSTICA ESTADÍSTICA. NOCIONES GENERALES PARÁMETROS ESTADÍSTICOS. Calcular x, Var, σ y CV para los datos siguientes: MEDIDAS DE POSICIÓN

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

2.3. Estadísticos de posición

TEMA 14: PARAMETROS ESTADÍSTICOS

Análisis Exploratorio de Datos Resumen gráfico y numérico

Conceptos de Estadística

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Medidas Descriptivas Numéricas

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

Estadística Descriptiva

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

Estadística Descriptiva. Tema 1: Estadísticos 1

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

2.2: Resumen numérico

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Estadística descriptiva con R

Estadística. Grado en Biología. Universidad de Alcalá. Curso Capítulo 5: El Teorema Central del Límite. Parte 2: distribución normal.

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

TEMA: 9 ESTADÍSTICA 4º ESO

ÁREAS DE LA ESTADÍSTICA

ESTADÍSTICA EN RRLL - CURSO 2010 TURNO NOCTURNO

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

Relación 2: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Estadística aplicada a la comunicación

Bioestadística: Estadística Descriptiva

Estadística Aplicada. Tema 2: Estadísticos. Universidad Autónoma de Cd. Juarez Tema 2: Estadísticos 1

Estadística Descriptiva

Estadística Aplicada

17/02/2015. Ángel Serrano Sánchez de León

DESCRIPCIÓN DE DATOS. Medidas Numéricas

IMADIL /10/2014

Transcripción:

Grado en Biología. Universidad de Alcalá. Curso 2017-18. 3

Introducción. En este tema, para empezar, vamos a centrarnos en el caso de variables cuantitativas. Dentro de ese caso y para seguir extrayendo la información que contiene una muestra, nuestros siguientes pasos van a ser: 1 Aprender a elegir un valor central de la muestra. Es decir, un valor que tiene que ser un buen representante del conjunto de datos que estamos usando. 2 Medir la calidad del valor central. Es decir, como de representativo es el representante que hemos elegido. Para eso necesitaremos la noción de dispersión de los valores de la muestra. Además aprenderemos a situar cada valor en relación con los restantes valores de la muestra, definiendo las medidas de posición. Esas medidas nos permiten profundizar en la idea de forma de la distribución y definir nociones como la de valores atípicos.

La media aritmética El primer candidato a valor central es bien conocido. Si tenemos una muestra de n valores de una variable cuantitativa (discreta o continua), la media aritmética es: x = x1 + + xn n Ejemplo: dados estos valores (hay n = 40) 16, 12, 12, 11, 14, 14, 7, 12, 12, 10, 13, 5, 7, 12, 12, 11, 11, 13, 16, 14, 13, 11, 16, 14, 10, 16, 13, 11, 8, 10, 15, 7, 11, 10, 15, 13, 9, 9, 10, 12 Su media se calcula así: 16 + 12 + 12 + 11 + 14 + 14 + 7 + 12 + 12 + 10 + 13 + 5 + 7 + 12 + 12 + 11 + 11 + 13 + 16 + 14 + 13 + 11 + 16 + 14 + 10 + 16 + 13 + 11 + 8 + 10 + 15 + 7 + 11 + 10 + 15 + 13 + 9 + 9 + 10 + 12 = 467 Y por tanto: x = 467 40 11.68 Cómo de representativo es este número? En el fichero de datos BreastCancer2.csv cuál es la media de la variable Cell.size? Está claro que necesitamos el ordenador para responder a preguntas como esa. = n i=1 n x i.

Media aritmética partiendo de la tabla de frecuencias absolutas Variable cuantitativa discreta. En algunos casos el punto de partida de nuestro trabajo no será la muestra original, sino su tabla de frecuencias. Si tenemos la tabla de frecuencias absolutas de una variable cuantitativa discreta: Valor x 1 x 2 x k Frecuencia f 1 f 2 f k entonces la media aritmética se calcula así: x = x1 f1 + x2 f2 + + x k f k f 1 + f 2 + + f k = k x i f i i=1 = k f i i=1 k x i f i i=1. n

Ejemplo de media a partir de tabla de frecuencias. En el capítulo anterior hemos visto que la tabla de frecuencias absolutas de la variable edad en el fichero cap01-datosalumnos-calc.csv es: Valor x i : x 1 = 17 x 2 = 18 x 3 = 19 x 4 = 20 Frecuencia f i : f 1 = 17 f 2 = 37 f 3 = 23 f 4 = 23 Así que la media, calculada a partir de esta tabla es: x = x1 f1 + + x k f k 17 17 + 18 37 + 19 23 + 20 23 = = 1852 f 1 + + f k 17 + 37 + 23 + 23 100 = 18.52 Calcula esta misma media a partir de los datos de la muestra (con repeticiones, sin usar la tabla de frecuencias). Importante: Piensa cómo se calcula la media aritmética a partir de una tabla de frecuencias relativas.

Limitaciones de la media aritmética. La media aritmética no tiene sentido en el caso de factores (variables cualitativas). Si tenemos la tabla de frecuencias de una variable cuantitativa continua agrupada en clases (intervalos), a veces se calcula la media reemplazando cada intervalo por su punto medio (la marca de clase). Pero debes recordar que la tabla de frecuencias en este caso implica una pérdida de información y que la calidad de la media se resentirá. Lo mejor es siempre calcular la media a partir de los datos sin agrupar, si es posible. Ver el Ejemplo 2.1.4, pág. 24 del libro. Pero la principal limitación de la media aritmética es su dependencia de valores atípicos (inusualmente grandes o pequeños).

El problema de los valores atípicos en la media aritmética. Ejemplo: en una empresa hay 9 personas que cobran 1000e mensuales y una persona que cobra 10000e mensuales. La media aritmética de los sueldos en esa empresa es: 9 1000 + 1 10000 10 = 1900 euros al mes. Crees que este valor es representativo? En particular, si eliges un empleado al azar, su sueldo se parecerá a esta media aritmética? Pronto veremos una definición precisa de lo que entendemos por valores atípicos (outliers), pero necesitamos más vocabulario.

Mediana La mediana es otro valor central que se inventó para tener un valor representativo que no se viera tan afectado por los valores extremos como la media aritmética. Para calcular la mediana: 1 Ordenamos los datos de menor a mayor. 2 Si hay un número impar de datos tomamos el valor central. 3 Si hay un número par, tomamos la media de los dos valores centrales. Ejemplos. Dados estos valores: 19 11 10 6 16 16 1 9 10 6 14 1 1 9 10 para calcular su mediana los ordenamos (y contamos; hay 15): 1 1 1 6 6 9 9 10 10 10 11 14 16 16 19 y vemos que la mediana es 10. La media es aprox. 9.267

Más ejemplos de cálculo de la mediana. Cómo cambia la mediana del ejemplo anterior si añades el valor 200 a esos datos? Y cómo cambia la media? Cuál es la mediana de la variable Mitoses en el fichero BreastCancer2.csv? En casos como este está claro que la única solución es usar el ordenador. Cuál es el salario mediano en la empresa que hemos usado antes como ejemplo? La diferencia entre salario medio y salario mediano parece un indicador de desigualdad de los salarios. Y en España qué pasa? Ver este enlace para una discusión reciente en prensa. Mediana vs media. Y si la mediana no se ve afectada por los valores extremos, por qué no usamos la mediana siempre en lugar de la media? Pues porque la media viene dada por una fórmula, mientras que la mediana viene definida por un algoritmo (una receta o programa). Eso hace que las propiedades matemáticas de la media sean más sencillas (por ejemplo, para calcular derivadas).

Cuartiles, percentiles. Medidas de posición. La idea de la mediana (dividir la muestra por la mitad) se generaliza fácilmente. Los cuartiles de una muestra son los valores que dividen a la muestra en cuatro partes iguales. El primer cuartil es el valor que deja por debajo al 25% más pequeño de los valores de la muestra, mientras que el tercer cuartil deja por encima al 25% más grande de la muestra. El segundo cuartil es la mediana que ya conocemos. De la misma manera se definen los percentiles, que son los valores que dejan por debajo un porcentaje dado de los datos (siempre ordenados de menor a mayor). Todo este tipo de valores se denominan genéricamente medidas de posición de la muestra. A menudo incluiremos el mínimo y el maximo de la muestra entre estas medidas. Aunque la intuición es muy sencilla, en la práctica la definición precisa y el cálculo de estos valores es más complicado de lo que parece. Dejaremos que se encargue el ordenador (en R usaremos las funciones median y quantile). Ten en cuenta además que algunos de estos valores sólo empiezan a tener sentido y ser útiles cuando se dispone de muestras relativamente grandes de la población de interés.

Ejemplo de cálculo de medidas de posición. Dado el fichero wcgs.csv, en R podemos leer esos datos muy fácilmente y obtener las medidas de posición de la variable bmi con estos comandos: enlace = "http://www3.uah.es/marcos_marva/biologia1718/datos/wcgs.csv" wcgs = read.table(enlace, sep=";", dec=",", header=true) bmi = wcgs$bmi summary(bmi) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 11.19 22.96 24.39 24.52 25.84 38.95 Y para calcular, por ejemplo, el percentil 60, usamos quantile. quantile(bmi, probs = 0.6) ## 60% ## 25.0568 Cómo lo calcularías a mano?

Frecuencias acumuladas y relativas acumuladas. Las frecuencias acumuladas están estrechamente relacionadas con las medidas de posición que acabamos de ver. Si tenemos la tabla de frecuencias absolutas de una variable cuantitativa discreta, como esta Valor x 1 x 2 x k Frecuencia f 1 f 2 f k entonces las frecuencias acumuladas se definen así: F 1 = f 1, F 2 = F 1 + f 2, F 3 = F 2 + f 3,..., F k = F k 1 + f k. Es decir, la frecuencia acumulada de x k indica cuántos valores de la muestra son x k. Las frecuencias relativas acumuladas se definen dividiendo las acumuladas por n, el número de datos de la muestra. F 1 = F1 n, F 2 = F2 n,..., F k = F k n. La frecuencia relativa acumulada de x k sirve para calcular qué porcentaje de valores de la muestra son x k.

Ejemplo de cálculo: Veremos en clase como calcular con R las tabla de frecuencias absolutas, relativas, acumuladas y relatativas acumuladas de la variable de la variable Cl.thickness en el fichero BreastCancer2.csv Valor Frec.Absoluta Frec.Relativa Frec.Acumulada Frec.Rel.Acumulada 1 139 0.204 139 0.204 2 50 0.073 189 0.277 3 104 0.152 293 0.429 4 79 0.116 372 0.545 5 128 0.187 500 0.732 6 33 0.048 533 0.780 7 23 0.034 556 0.814 8 44 0.064 600 0.878 9 14 0.021 614 0.899 10 69 0.101 683 1.000 Ves la relación entre frecuencias relativas acumuladas y percentiles?

Diagrama de caja y bigotes (boxplot). El diagrama de caja y bigotes es una forma de representar gráficamente las medidas de posición. Más a menudo usaremos el nombre inglés, boxplot. La estructura de un boxplot es esta: Y en R se dibujan fácilmente con la función boxplot (veremos que se pueden ajustar varias opciones del gráfico).

Comentarios adicionales sobre el boxplot. Un inconveniente del boxplot es que puede ocultar información sobre la distribución de los datos. Por ejemplo, este boxplot no nos hace sospechar que esté pasando nada demasiado raro con la muestra: 0 5 10 15 20 25

Pero si añadimos los valores de la muestra (puntos rojos): 0 5 10 15 20 25 entonces resulta evidente que los valores de la muestra están divididos en dos grupos. Nuestra muestra tiene una distribución que el boxplot no refleja.

Una alternativa al boxplot que ha ganado popularidad recientemente es el violinplot: 0 5 10 15 20 25 Como ves, este tipo de gráficos combina un boxplot con un diagrama de densidad de la muestra (que sí contiene información sobre la forma de la distribución). 1

Recorrido y Recorrido intercuartílico. El recorrido (range) de una muestra es la diferencia entre máximo y mínimo. El recorrido intercuartílico (IQR) es la diferencia entre el tercer y el primer cuartil (la anchura de la caja en el boxplot, que contiene al 50% central de la población). Ambas cantidades se suelen llamar rangos por una traducción defectuosa del inglés. Moda. Distribuciones unimodales, bimodales, etc. Ya que volvemos a hablar de la forma de la distribución, aprovechemos para definir la moda como el valor más frecuente que aparece en la muestra. Una ventaja de la moda es que se puede usar también con factores (variables cualitativas). Cuando representamos gráficamente la tabla de frecuencias en un diagrama de columna, un histograma, una curva de densidad (o gráficos similares) la moda es el valor que corresponde al punto más alto del diagrama. En general, los máximos locales del diagrama indican valores modales. Una distribución de frecuencias con un único máximo es unimodal. Una distribución con dos es bimodal. Si hay más de dos es mejor decir que es multimodal.

Por ejemplo: unimodal bimodal 0.00 0.04 0.08 0.12 Density 0.00 0.02 0.04 0 10 20 30 10 10 30

Asimetría de una distribución. Otra característica de la forma de una distribución en la que nos vamos a fijar es la simetría. Las siguientes distribuciones son todas unimodales, pero difieren en cuanto a la simetría. Asimetría a dcha. Simétrica. Asimetría a izda. 0.00 0.04 0.08 0.12 0.0 0.1 0.2 0.3 0.4 0.00 0.05 0.10 0.15 0 10 20 30 4 0 2 4 0 5 15 25

Medidas de dispersión: introducción. Una vez que hemos elegido un representante de los datos (un valor central) la dispersión es una manera de medir su representatividad. Por ejemplo, una colección de números es poco dispersa cuando los datos están muy concentrados alrededor de la media. Cómo medimos la dispersión? Mirando si los datos son muy diferentes de la media, claro. Pero si medimos las diferencias con la media: d i = x i x Y hacemos la media de esas diferencias, el resultado siempre es 0: d 1 + d 2 + + d n n Esto se debe a la propia definición de la media. Las diferencias positivas y negativas se compensan exactamente. Ejemplo: la media de estos datos es 6. = 0 Datos x i 10 6 5 3 8 8 1 5 5 9 Diferencias d i 4 0-1 -3 2 2-5 -1-1 3

Hay dos soluciones naturales para evitar que esos valores positivos y negativos se compensen: Tomar el valor absoluto de las diferencias antes de hacer la media. Tomar el cuadrado de las diferencias antes de hacer la media. El problema de la primera opción es parecido al que nos hemos encontrado con la mediana. El valor absoluto es una función que da problemas al calcular derivadas. Eso no sucede con el cuadrado y por eso la Estadística Clásica ha elegido la segunda opción. Que también tiene dificultades, como veremos enseguida. Pero primero la definición: La varianza (poblacional). Es la media de los cuadrados de las desviaciones respecto a la media: n (x i x) 2 Var(x) = (x1 x)2 + (x 2 x) 2 + + (x n x) 2 i=1 =. n n El problema es de dimensiones: si los valores x 1, x 2,..., x k se miden en metros, en qué unidades se mide Var(x)?

Ejemplo de cálculo de varianza. En los datos anteriores: Datos x i 10 6 5 3 8 8 1 5 5 9 Diferencias d i 4 0-1 -3 2 2-5 -1-1 3 Dif. al cuadrado di 2 16 0 1 9 4 4 25 1 1 9 Así que: Var(x) = 16 + 0 + 1 + 9 + 4 + 4 + 25 + 1 + 1 + 9 10 = 70 10 = 7. La desviación típica (poblacional) Para evitar el problema de las dimensiones se define la desviación típica (poblacional), que es nuestra medida más común de la dispersión: En el ejemplo anterior DT (x) = Var(x) = n (x i x) 2 i=1 DT (x) = 7 2.646 n.

La varianza a partir de tablas de frecuencias. Si el punto de partida es una tabla de frecuencias absolutas como esta: Valor x 1 x 2 x k Frecuencia f 1 f 2 f k entonces empezamos por calcular la media como hemos aprendido a hacerlo. Después aplicamos esta fórmula: k f i (x i x) 2 Var(x) = i=1. k f i Practicaremos esta fórmula con el ordenador, que es una buena forma de aprenderla. i=1

Ejemplo de cálculo con R de la varianza desde una tabla de frecuencias. Para irnos acostumbrando al uso de R vamos a ver como desde un conjunto de valores y sus frecuencias es muy fácil calcular la varianza. valores = c(1, 5, 7, 8, 9, 11, 13, 16, 17, 19, 23, 24) frecuencias = c(1, 4, 4, 3, 3, 6, 7, 6, 5, 3, 7, 6) (n = sum(frecuencias)) ## [1] 55 (media = sum(valores * frecuencias) / n) ## [1] 14.54545

(diferencias = valores - media) ## [1] -13.545455-9.545455-7.545455-6.545455-5.545455 ## [6] -3.545455-1.545455 1.454545 2.454545 4.454545 ## [11] 8.454545 9.454545 (difcuadrado = diferencias^2) ## [1] 183.479339 91.115702 56.933884 42.842975 30.752066 ## [6] 12.570248 2.388430 2.115702 6.024793 19.842975 ## [11] 71.479339 89.388430 (varianza = sum(frecuencias * difcuadrado) / n) ## [1] 40.50248

Otra posibilidad es usar rep (de repeat) para reconstruir los valores a partir de la tabla de frecuencias. (expandvalores = rep(valores, frecuencias)) ## [1] 1 5 5 5 5 7 7 7 7 8 8 8 9 9 9 11 11 11 ## [19] 11 11 11 13 13 13 13 13 13 13 16 16 16 16 16 16 17 17 ## [37] 17 17 17 19 19 19 23 23 23 23 23 23 23 24 24 24 24 24 ## [55] 24 (media = mean(expandvalores)) ## [1] 14.54545 (varianza = sum((expandvalores - media)^2) / n) ## [1] 40.50248

Cuasivarianza y cuasidesviación típica (muestrales). La varianza y la desviación típica se calculan usando n en el denominador. Hay dos cantidades estrechamente relacionadas que se calculan usando n 1 en lugar de n. La cuasivarianza muestral es: n (x i x) 2 s 2 (x) = (x1 x)2 + (x 2 x) 2 + + (x n x) 2 i=1 =. n 1 n 1 Como ves la única diferencia con la varianza poblacional es el denominador. La cuasidesviación típica muestral es simplemente la raíz cuadrada de la cuasivarianza: s(x) = s 2 (x) Es muy importante que cuando uses un programa de ordenador o una calculadora sepas si el resultado es poblacional o muestral. En particular, adelantamos que las funciones var y sd de R calculan la cuasivarianza muestral y la cuasidesviación típica muestral respectivamente (y no hay funciones para las poblacionales). Todavía no podemos entender completamente la diferencia entre muestral y poblacional, pero te podemos adelantar que se debe al deseo de hacer Inferencia: los valores muestrales serán útiles para estimar los poblacionales.