Estadística I Curso 2014/2015 Guión de la Práctica 1 Introducción a la Estadística con Excel; Estadística Descriptiva En el siguiente guión vamos a ver cómo realizar Estadística Descriptiva con el software Excel 2007. 1. Introducción a la Estadística con Excel 1.1 Cargar o importar datos En Excel 2007 podemos introducir lo datos a mano, generarlos con el programa a través de algunas funciones (por ejemplo, ALEATORIO() ), o cargarlos desde un archivo externo. Por ejemplo, en una hoja Excel en blanco vamos a introducir los siguientes números (2, 5, 7, 9, 13) de la siguiente manera: Supongamos que queremos calcular la media de los números anteriores y escribirla en la celda A7. Para ello podemos utilizar una de las fórmulas programadas en Excel 2007, siguiendo los siguientes pasos: 1. Seleccionar la celda A7 y Fórmulas en el Menú de arriba (se trata de la línea que contiene Inicio, Insertar, Diseño de página, Fórmulas, Datos, etc.): 2. Seleccionar Insertar función: 1
3. Buscar la función que permite calcular la media de un conjunto de números: PROMEDIO(). Hay dos maneras: (1) buscar la función que nos interesa entre las funciones Usadas recientemente (en este caso se trata de la tercera función); y (2) buscarla en la categoría Todas o en su categoría, en este caso Estadísticas. En los dos casos, pulsar Aceptar una vez encontrada y seleccionada la función: 4. Una vez pulsado Aceptar Excel 2007 ofrecerá la siguiente vista: 2
Podemos notar que Excel 2007 ha seleccionado automáticamente unas celdas (A1:A6) que puede traducirse en desde A1 hasta A6, pero nosotros queremos la media de los números contenidos en las celdas desde A1 hasta A5. Entonces, tendremos que introducir en el recuadro Número 1 el texto A1:A5. Otra manera de hacerlo, que muchas veces resulta mucho más cómoda, es la siguiente: Primero, minimizar la ventana Argumentos de función usando el botón del interior del recuadro Número 1. Segundo, seleccionar con el ratón las celdas desde A1 hasta A5, pulsar el botón Enviar del teclado y después pulsar Aceptar: 5. Excel 2007 nos ofrecerá la siguiente vista, donde 7,2 representa la media que se buscaba: Observación: En Excel 2007 resultan más accesibles sus funciones programadas. En nuestro caso, desde la pestaña Fórmulas podemos acceder directamente a las funciones estadísticas. Por otro lado, podemos importar datos de un fichero. Por ejemplo, el conjunto de datos que vamos a utilizar está recogido en el fichero de nombre Paises.xlsx y se refieren a 91 países para los que se describen 7 variables, 6 de ellas cuantitativas (tasa de natalidad, tasa de mortalidad, tasa de mortalidad infantil, expectativa de vida hombres, Expectativa de vida mujeres, PIB) y 1 de ellas, cualitativa (zona). Para abrir el fichero Paises.xlsx hay que seguir los siguientes pasos: 1. Pulsar el Botón de Office: 2. Seleccionar Abrir: 3
3. Seleccionar el fichero Paises.xlsx en su ubicación y pulsar Abrir. 1.2 Cómo cargar el módulo para Estadística En Excel 2007 existe la posibilidad de cargar un módulo para hacer cálculos estadísticos. Como no es un módulo básico, hay que cargarlo expresamente. Para hacer que el submenú Análisis de datos aparezca en la pestaña Datos, podemos seguir los pasos que nos proporciona la ayuda de Excel 2007: 1. Pulsar el Punto Interrogación (arriba a la derecha) para abrir la Ayuda de Excel 2007: Introducir Herramientas para análisis en el buscador de la Ayuda y pulsar Buscar. En nuestro caso lo que estamos buscando es el artículo Cargar Herramientas para análisis. Seleccionarlo entonces, y seguir las instrucciones. Una vez completado el proceso, en la pestaña Datos aparece una nueva herramienta (a la derecha): la herramienta para el Análisis de datos: 4
2. Estadística descriptiva 2.1. Análisis de datos A continuación realizamos un análisis descriptivo de la variable PIB considerando todas las observaciones. Para hacer eso podemos utilizar una de las opciones del paquete que hemos instalado gracias a la primera parte de este guion, es decir el complemento Análisis de datos. Los pasos a seguir son los siguientes: 1. Seleccionar Análisis de datos en la pestaña Datos; seleccionar Estadística descriptiva y pulsar Aceptar: 2. Se abrirá una ventana en la que hay que introducir el rango de entrada (a mano, o seleccionando las celdas desde la hoja); en este caso el rango es $G$1:$G$92. Hay que seleccionar Agrupados por: Columnas y Rótulos en la primera fila porque hemos seleccionado también el titulo de la columna. Además, hay que indicar dónde queremos que Excel 2007 nos ponga los resultados; nuestro consejo es En una hoja nueva: An_Uni_PIB (se trata simplemente de un nombre que nos puede ayudar a recordar qué hay en aquella hoja). Finalmente, hay que seleccionar Resumen de estadísticas y pulsar Aceptar: 5
3. Una vez seleccionado pulsar Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente: Otra opción interesante del complemento Análisis de datos, para el análisis descriptivo de una variable (en este caso PIB) es Jerarquía y percentil. En este caso en una ventana parecida a la de Estadística descriptiva podríamos seleccionar entre las Opciones de salida, Rango de salida, y seleccionar la celda An_Uni_PIB!$D$1, para que el resultado aparezca en la misma hoja donde estamos guardando los resultados que se refieren a la variable PIB: Una vez seleccionado pulsar Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente: 6
Gracias a la ordenación obtenida (que es decreciente), podemos obtener el primer, el segundo y el tercer cuartil (aunque el segundo cuartil ya lo tenemos, porque equivale a la mediana). En este caso, como el número de las observaciones es impar, entonces, una vez ordenadas las observaciones, el primer cuartil será la observación que ocupa la posición 3(n+1)/4, el segundo cuartil será la observación que ocupa la posición 2(n+1)/4=(n+1)/2, y el tercer cuartil será la observación que ocupa el lugar (n+1)/4. Podemos sacar estos tres valores utilizando Excel como una simple Calculadora. Nos posicionamos en la celda I1 y introducimos el siguiente código =3*(B15+1)/4, donde B15 representa la celda donde Excel 2007 ha calculado el numero de observaciones, es decir n. A continuación, en las celdas I2 y I3, introducimos =(B15+1)/2 y =(B15+1)/4 respectivamente. Los resultados que obtenemos son 23, 46 y 69, y los cuartiles que estamos buscando son 470, 1690 y 7600. Claramente, podemos escribir esta nueva información en la hoja An_Uni_PIB, por ejemplo: 7
Nota: el problema anterior se puede abordar también a través del uso de las funciones PERCENTIL() o CUARTIL(), aunque Excel 2007 para calcular un cuartil, por ejemplo Q1, hace la media de las posiciones 23 y 24. Nota: El valor de un cuartil NO es la posición, es el valor numérico de la observación QUE OCUPA la posición. La opción Estadística descriptiva no proporciona toda la información que nos puede interesar; por ejemplo, si nos interesa el coeficiente de variación, podemos calcularlo directamente, aplicando la fórmula, es decir Desviación estándar/media. Este coeficiente se ha calculado en la celda B22 con el código =B7/B3. El conjunto de datos utilizado en estos guiones posee también una variable categórica. Supongamos que se quiere hacer un análisis descriptivo de la variable PIB sólo sobre los países europeos. Para hacer eso, a la hora de utilizar las opciones del paquete Análisis de datos, habrá que seleccionar solo aquellos países con la etiqueta EU en la variable Zona. Nota: en este caso las observaciones están ya ordenadas según la variable Zona. Si no fuera así, habría que ordenarlas a través de: 1. Pestaña Inicio. 2. Ordenar y Filtrar: 3. Introducir las instrucciones (en este caso se ordena alfabéticamente por Zona, y a continuación por País): 2.2. Tablas de frecuencias e histogramas: variables cuantitativas En este apartado vamos a mostrar cómo crear tablas de frecuencias e histogramas para variables cuantitativas, utilizando la variable ln(pib), que hemos visto cómo calcular en la primera parte del guión. 8
Posicionarse en una nueva hoja, y cambiarle el nombre: nosotros le daremos el nombre Hist_Frec_PIB. En la primera columna vamos a calcular los límites de las clases utilizando la siguiente regla: Número de observaciones: 91 Valor mínimo: 4,38202663 _ Considerar 4,3 Valor máximo: 10,4359964 _ Considerar 10,5 Rango: 6,2 Número de clases: 91^(1/2)= 9,53939201 _ 9 o 10 clases. Supongamos que se van a utilizar 10 clases, cómo podemos crearla? 1. En la celda B2 calculamos la longitud de cada intervalo con el código =(10,5-4,3)/10 : 2. En la celda A4 calculamos el límite superior de la primera clase, que es igual a minimo+longitud y que podemos implementar con el código =4,3+$B$1 : 3. A continuación, calculamos los restantes nueve límites superiores. El primero es igual a límite superior anterior+longitud, y de hecho todos pueden ser calculados con la anterior fórmula. Para calcular el primero, nos ponemos en la celda A5 y introducimos el código =A4+$B$1. Finalmente copiamos el contenido de la celda A5 en la celdas desde A6 hasta A13: Una vez obtenidos los limites superiores de las clases, se pueden hacer las tablas de frecuencias y los histogramas: 9
1. Seleccionar Análisis de datos en la pestaña Datos; seleccionar Histograma y pulsar Aceptar. 2. En la ventana emergente hay que introducir el Rango de entrada Hoja1!$H$1:$H$92, el Rango de clases $A$3:$A$13, seleccionar Rótulos, introducir el Rango de salida (por ejemplo, nosotros escogemos sacar los resultados en la celda A15 de la hoja Hist_Frec_PIB), y seleccionar Crear Gráfico: 3. Una vez pulsado Aceptar, Excel 2007 nos ofrecerá una vista parecida a la siguiente: Los resultados obtenidos pueden mejorarse en dos sentidos: Podemos ofrecer más información acerca de las frecuencias. Podemos mejorar el histograma. Por lo que se refiere al primer punto, a partir de las frecuencias absolutas, podemos calcular las frecuencias relativas, frecuencias absolutas acumuladas y las frecuencias relativas acumuladas. Para hacer eso: 1. Copiamos la tabla de frecuencia que se obtuvo mediante los pasos anteriores (excepto la última fila que se refiere a la clase y mayor ); a continuación, seleccionamos la columna de Lim_Sup y pulsamos el botón derecho del ratón y seleccionamos Insertar _ Desplazar las celdas hacia la derecha. En esta nueva columna podemos calcular los límites inferiores de las clases para completar 10
Frecuencia la información. Nos posicionamos en la celda vacía y escribimos =4.92-$B$1, y luego copiamos su contenido en las otras celdas. 2. En las celdas a la derecha vamos a calcular las frecuencias relativas; en la primera celda introducimos el código para calcular frecuencias relativas, y luego copiamos su contenido en las otras celdas. 3. En la misma manera calculamos frecuencias relativas acumuladas y frecuencias acumuladas. Por lo que se refiere al segundo punto, Excel 2007 saca un histograma con espacios entre las barras, cuando nuestras clases al ser contiguas comparten los limites superior e inferior. Para juntar las barras: 1. Posicionarse con el ratón arriba de una barra del histograma, pulsar el botón derecho del ratón, y seleccionar Dar formato a serie de datos : 2. En la ventana emergente, cambiar el Ancho de intervalo a 0%. El histograma final que se obtiene es el siguiente: 20 15 10 5 0 Histograma Frecuencia lim_sup 2.3. Tablas de frecuencias y grafico circular: variables cualitativas En este apartado vamos a mostrar cómo crear tablas de frecuencias y diagramas de barras para variables cualitativas, utilizando la variable Zona. Posicionarse en una nueva hoja, y cambiarle el nombre: nosotros le daremos el nombre Zona. En la primera columna vamos a escribir las modalidades de la variable: 11
En la segunda columna, en la celda B2 vamos a calcular la frecuencia absoluta de la modalidad AFR; para hacer eso utilizamos la función CONTAR.SI() de la siguiente manera: =CONTAR.SI(Hoja1!I$2:I$92;A2). A continuación, copiamos su contenidos en B3, B4 y B5. Para comprobar que esté todo bien, en la celda B6 calculamos la suma de las frecuencias absolutas ( =SUMA(B2:B5) ): A partir de estas frecuencias absolutas, ya sabemos cómo calcular las frecuencias relativas. Finalmente, vamos a ver cómo crear un grafico circular: 1. Posicionarse en cualquiera celda, moverse a la pestaña Insertar y seleccionar la opción Circular. 2. Excel 2007 creará un gráfico vacío. Para pasar a Excel 2007 los datos con los que queremos generar un grafico circular, seleccionar la opción Seleccionar Datos. 3. En Rango de datos del gráfico hay elegir desde la tabla de las frecuencias los valores de los grupos y las frecuencias correspondientes. El gráfico circular final que se obtiene es la siguiente: Gráfico Circular 29% 15% 26% 30% AFR ASIA AME EU 12
2.4. Diagramas de cajas En Excel 2007 no existe un procedimiento para hacer diagramas de cajas. Hay que hacerlo usando macros, que son programas de Excel que realizan las tareas. Específicamente, esta macro dibuja diagramas de cajas: http://www.cms.murdoch.edu.au/areas/maths/statsnotes/samplestats/boxplotmacro.xls Para usarla hay que permitir el uso de macros quitando las restricciones de seguridad del programa Excel 2007. Primero ir a Opciones de Excel -> Más frecuentes, marcar (si no lo estuviera) la casilla Mostrar ficha Programador en la cinta de Opciones. Luego aparece una nueva pestaña en el menú principal denominada Programador. Desde allí pinchar en la pestaña Seguridad de macros: Allí marcar en Habilitar todas las macros (no recomendado Evidentemente en general hay que tener siempre cuidado, si se ejecutan macros con origen dudoso (este no es nuestro caso aquí) Cargar la macro: Boton de Office -> Arbrir -> BoxPlotMacro Y usarla con un conjunto de datos. Por ejemplo en el fichero Paises.xlsx marcar una columna y ejecutar la macro del diagrama de cajas desde el menú Macros. 13
<Data scale description> Se obtiene directamente <Chart Title> 60 50 40 30 20 10 0 Tasa de natalidad n = 91 Pinchando en <Chart Title> y en <Data scale > se pueden modificar las etiquetas del gráfico. 14
Ejercicios (entregar al final de la clase, utilizando las últimas páginas de este guión) Generar una nueva variable X expectativa de vida media, la cual es el promedio de la expectativa de vida de hombres y mujeres. Generar otra variable Y expectativa cualitativa, la cual divide la expectativa media de vida media en tres categorías: corta (<50), mediana (50-65) y larga (>65) usando la formula: =SI(J2<50;"Corta";SI(J2<65;"Mediana";"Larga")) 1. Analizar la variable cuantitativa X. Reportar los resultados en la Tabla 1. 2. Analizar la variable cualitativa Y. Reportar los resultados en la Tabla 2. 3. Analizar la variable cuantitativa X considerando sólo la zona de Europa. Reportar los resultados en la Tabla 3. 15
Respuestas del apartado 3. Nombre y Apellidos: NIU: Grado: Grupo Tabla 1 Recuento Promedio Desviación Estándar Coeficiente de Variación Mínimo Máximo Rango Sesgo Estandarizado Curtosis Estandarizada Tabla 2 Clase Valor Frecuencia Frec. rel. Frec. acum. Frec. Rel. acum. 1 2 3 Tabla 3 Recuento Promedio Desviación Estándar Coeficiente de Variación Mínimo Máximo Rango Sesgo Estandarizado Curtosis Estandarizada 16