INTRODUCCIÓN A LA ECONOMETRÍA (LE Y LADE, mañana) Prof. Magdalena Cladera APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL Y SPSS

Documentos relacionados
TEMA 10 COMPARAR MEDIAS

Capítulo 13 Contrastes sobre medias Los procedimientos Medias y Prueba T

Ejemplos Resueltos Tema 4

Capítulo 13. Contrastes sobre medias: Los procedimientos Medias y Prueba T. Medias

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

DISTRIBUCIONES UNIDIMENSIONALES:

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS

Intervalos de Confianza

ESTADÍSTICA 1º AMBIENTALES TERCERA PRÁCTICA: INTERVALOS DE CONFIANZA & CONTRASTES DE HIPÓTESIS (GUIADA & RESUELTA)

Se desea analizar el nivel de glucemia según tratamientos en un grupo de. enfermos. Para ello se ha medido este nivel antes y después de dichos

ESTADÍSTICA APLICADA 2 0 curso de la diplomatura en Nutrición Humana y Dietética Curso

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Intervalos de confianza con STATGRAPHICS

Estadística II Curso 2011/12

Sujeto Grupo C.I. 1 A B A 98 4 A B 99. Sujeto TCMañ TCtar

Estadística Inferencial. Resúmen

Comparación de métodos de aprendizaje sobre el mismo problema

Análisis computacional Inferencia Estadística: intervalos de confianza y contrastes de hipótesis

PRÁCTICA: ESTADÍSTICA DESCRIPTIVA CON SPSS 1

Análisis descriptivo con SPSS. Favio Murillo García

ESTIMACIONES INTERVALOS DE CONFIANZA CON VARIANZA DIFERENTE LI. MIGUEL CANO

Prácticas Excel Estadística II. Práctica 1: Intervalos de confianza y contrastes de hipótesis para una y dos poblaciones

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Estadística. Contrastes para los parámetros de la Normal

ESTIMACIONES INTERVALOS DE CONFIANZA CON VARIANZA DIFERENTE LI. MIGUEL CANO

Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis en poblaciones normales

INGENIERO AGRÓNOMO EN PRODUCCIÓN TEMA: ESTIMACION Y PRUEBA DE HIPÓTESIS

Análisis de la varianza. Magdalena Cladera Munar Departamento de Economía Aplicada Universitat de les Illes Balears

Estadísticas y distribuciones de muestreo

3 ANALISIS DESCRIPTIVO DE LOS DATOS

TABLAS DE CONTINGENCIA

Tema 6. Variables aleatorias continuas

Prueba t para muestras independientes

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

PRÁCTICA 6: CONTASTE DE HIPÓTESIS

Tema 5: Introducción a la inferencia estadística

ESTADÍSTICA CON EXCEL

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

UNIVERSIDAD DE MANAGUA Al más alto nivel

DIRECCIÓN DE PROYECTOS INTERNACIONALES Y ESPECIALES. Guía para el análisis de datos del Segundo Estudio Regional Comparativo y Explicativo (SERCE)

INFERENCIA ESTADÍSTICA MUESTRAL TEMA 2: ESTIMACIÓN POR INTERVALO

4. Obtén las siguientes tablas de doble entrada para las variables Dispersión y Formación:

MATERIA: ESTADÍSTICA EJEMPLOS DE POSIBLES PREGUNTAS DE EXAMEN. a. Cuáles son las escalas en que pueden estar los datos en un análisis estadístico.

Diseño de experimentos - prueba de hipótesis.

UNIVERSIDAD DE MANAGUA

LECCIÓN PÚBLICA. Tema 5 Algunas Pruebas de Hipótesis. Profa. María Fátima Dos Santos

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

7. De acuerdo con la gráfica siguiente, el contraste estadístico es:

Curso de Estadística con R: Nivel Medio

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Matemáticas aplicadas a las Ciencias Sociales II

Tema 14: Inferencia estadística

Tema 14: Inferencia estadística

Práctica 4 Intervalos de Confianza y Pruebas de Hipótesis

Elaborado por: Pelay, C. y Pérez, J. Prueba t para muestras independientes

Matemática Aplicada y Estadística - Farmacia Soluciones del Primer Examen Parcial - Grupo 3

Prueba de Hipótesis. Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Estadística básica con R Commander. María Eugenia Fernández de Luco

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Matemáticas aplicadas a las Ciencias Sociales II

CORRELACION Y REGRESION

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

Longitud = Calcular la media, la mediana, la moda y la desviación estándar de la muestra en Matlab.

1 CÁLCULO DE PROBABILIDADES

INFERENCIA ESTADISTICA

Tema 5. Contraste de hipótesis (I)

Universidad Rafael Belloso Chacín (URBE) Cátedra: Fundamentos de Estadística y Simulación Básica Semestre Profesor: Jaime Soto

I TRODUCCIÓ AL A ÁLISIS DE DATOS TEMA 7: Distribuciones continuas de probabilidad

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Introducción a la Inferencia Estadística

Herramientas Estadísticas en el Informe de Investigación

Tema 7: Ejercicios de Inferencia en una población Normal

INFERENCIA ESTADISTICA

Apunte de Gráficos Microsoft Office Excel Gráficos.

ANÁLISIS ESTADÍSTICO PRUEBA DE HIPOTESIS

Cómo se hace la Prueba t a mano?

CONTRASTES DE HIPÓTESES

2. Plantear hipótesis considerando que: Hipótesis: Siendo una prueba no direccionada, el planteamiento de hipótesis, señalará que:

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

Teoría del muestreo. Tipos de muestras

Muestreo e intervalos de confianza

478 Índice alfabético

Estadísticas Pueden ser

Statgraphics Centurión

ESTADÍSTICA. Grau en Psicologia. Curs

Caso particular: Contraste de homocedasticidad

Laboratorio de Estadística Con Manejo en SPSS.

TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS

UNIDAD 4. INFERENCIA ESTADÍSTICA. Prof. Eliana Guzmán U. Semestre A-2015

Distribuciones de Probabilidad.

Problemas de Estimación de una y dos muestras

Transcripción:

INTRODUCCIÓN A LA ECONOMETRÍA (LE Y LADE, mañana) Prof. Magdalena Cladera APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL Y SPSS CONTENIDOS APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL... 2 1. Probabilidad... 2 1.1. La distribución normal... 3 1.2. La distribución chi-cuadrado... 5 1.3. La distribución t de Student... 6 1.4. La distribución F de Snedecor... 7 2. Estimación puntual... 9 2.1. Estimación de la media... 9 2.2. Estimación de la varianza... 9 2.3. Estimación de la proporción... 10 2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva... 11 3. Estimación por intervalos... 13 3.1. Intervalos de confianza para la media de una población normal con varianza desconocida... 13 3.2. Intervalos de confianza para la media de una población normal con varianza conocida... 14 4. Contrastación de hipótesis... 14 4.1. Contraste de igualdad de varianzas de dos poblaciones normales... 14 4.2. Contraste de igualdad de medias suponiendo varianzas conocidas... 15 4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales... 16 4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas... 17 APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS... 19 1. Ajuste de la distribución de una variable a la normal... 19 2. Estimación de parámetros... 20 3. Contrastación de hipótesis... 21 ANEXO 1. Generación de números aleatorios... 25 ANEXO 2. Obtención de histogramas... 26 ANEXO 3. Variables en el archivo EDT2000... 27 ANEXO 4. Guía para el trabajo propuesto... 27 Bibliografía... 28

APLICACIONES DE INFERENCIA ESTADÍSTICA DE EXCEL 1. PROBABILIDAD Excel dispone de varias funciones que permiten trabajar con distribuciones de probabilidad. Para utilizar una función se deben seguir los siguientes pasos: 1) Seleccionar la opción Función en el menú Insertar (Figura 1) o hacer clic sobre el icono de la barra de fórmulas (Figura 2). 2) Entonces se abrirá una ventana en la que se pueden seleccionar distintos tipos de funciones. Elegiremos las funciones Estadísticas (Figura 3). Dentro de la categoría de funciones Estadísticas seleccionaremos la función concreta que nos interese, dependiendo del tipo de distribución con el que vayamos a trabajar. Figura 1 Figura 2 2

Figura 3 A continuación se presentan las principales funciones que pueden utilizarse dependiendo del tipo de distribución de probabilidad con el que se esté trabajando. 1.1. La distribución normal DISTR.NORM(x, µ, σ, acum) Si acum = VERDADERO, esta función halla el valor de la función de distribución en el punto x, para una variable aleatoria normal de media µ y desviación típica σ. Es decir, la P(X<x). Si acum = FALSO, halla el valor correspondiente a la función de densidad. Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100 10. Cuál es la probabilidad de que esta variable tome un valor inferior a 4950? (Figura 4). DISTR.NORM.INV(probabilidad, µ, σ) Halla el valor que deja a la izquierda una probabilidad determinada, en la distribución de una variable normal de media µ y desviación típica σ. Por ejemplo, se tiene una variable aleatoria normal con media 5000 y desviación típica 100 10. Cuál es el valor que deja a la izquierda una probabilidad de 0,025? Es decir, Cuál es el valor, x, tal que la P(X<x) = 0,025? (Figura 5). DISTR.NORM.ESTAND(z) Halla el valor de la función de distribución en el punto z, para una variable aleatoria normal de media 0 y desviación típica 1. Es decir, la P(Z<z). Por ejemplo, cuál es la probabilidad de que una variable normal estándar tome un valor inferior a 1,96? (Figura 6). DISTR.NORM.ESTAND.INV(probabilidad) Halla el valor de la distribución de una variable aleatoria normal estándar, que deja a la izquierda una probabilidad determinada. Por ejemplo, cuál es el valor que deja a la izquierda una probabilidad de 0,975 en la distribución de una variable normal estándar? (Figura 7). 3

Figura 4 Figura 5 4

Figura 6 Figura 7 1.2. La distribución chi-cuadrado DISTR.CHI(x, grados de libertad) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con 2 distribución chi-cuadrado de un determinado número de grados de libertad. Es decir, la P( χ g.l. >x). Por ejemplo, cuál es la probabilidad de que una variable aleatoria con distribución chi-cuadrado de 10 grados de libertad, tome un valor superior a 15? (Figura 8). PRUEBA.CHI.INV(probabilidad, grados de libertad) Halla el valor de la distribución de una variable aleatoria con distribución chi-cuadrado con un determinado número de grados de libertad, que deja a la derecha una probabilidad determinada. Por ejemplo, cuál es el valor que deja a la derecha una probabilidad de 0,025 en la distribución de una variable chi-cuadrado con 10 grados de libertad? (Figura 9). 5

Figura 8 Figura 9 1.3. La distribución t de Student DISTR.T(x, grados de libertad, colas) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con distribución t de Student con un determinado número de grados de libertad, considerando una o dos colas, según se indique. Si se considera una cola, devuelve la probabilidad representada en el gráfico de la Figura 10 (a), y si se consideran dos colas devuelve la probabilidad representada en el gráfico de la Figura 10 (b). Por ejemplo, cuál es la probabilidad de que una variable aleatoria con distribución t de Student con 10 grados de libertad, tome un valor inferior a 2 o superior a 2? (Figura 11). Figura 10 (a) x -x x (b) 6

DISTR.T.INV(probabilidad, grados de libertad) Para una distribución t de Student con un determinado número de grados de libertad, halla el valor que deja en los extremos de la distribución una probabilidad determinada. Por ejemplo, cuál es el valor que deja en los extremos de una distribución t de Student con 10 grados de libertad una probabilidad del 0,05 (repartida 0,025 en cada cola)? (Figura 12). Figura 11 Figura 12 1.4. La distribución F de Snedecor DISTR.F(x, grados de libertad 1, grados de libertad 2) Halla el complementario del valor de la función de distribución en el punto x, para una variable aleatoria con distribución F, con grados de libertad 1 en el numerador y grados de libertad 2 en el denominador. Es decir, la P(F>x). Por ejemplo, cuál es la probabilidad de que una variable aleatoria con distribución F, con 6 y 12 grados de libertad, tome un valor superior a 3? (Figura 13). DISTR.F.INV(probabilidad, grados de libertad 1, grados de libertad 2) Para una distribución F con grados de libertad 1 en el numerador y grados de libertad 2 en el denominador, halla el valor que deja a la derecha de la distribución una probabilidad determinada. Por ejemplo, cuál es el valor que deja por encima una probabilidad de 0,05 en una distribución F (6, 12)? (Figura 14). 7

Figura 13 Figura 14 8

2. ESTIMACIÓN PUNTUAL Una vez que se ha seleccionado la muestra y se tienen los datos en una hoja de cálculo, se pueden utilizar diversas funciones o herramientas para estimar el valor de determinados parámetros. Si para la estimación de algún parámetro no se dispone de una función, se puede crear una fórmula para calcularlo a partir de los datos muestrales. 2.1. Estimación de la media PROMEDIO(rango de datos) Esta función calcula la media aritmética de un rango de datos. Si se aplica esta función a los datos muestrales de una determinada variable, se obtiene la media muestral, es decir, una estimación de la media poblacional de dicha variable. Por ejemplo, en el archivo EDT2000.xls se tiene la información proporcionada por una encuesta realizada a una muestra de 100 turistas con el objetivo de estimar varias características de los turistas que visitaron las Islas Baleares en el año 2000, entre las que se incluye el gasto turístico. En este archivo, la variable DÍAS recoge los días que cada turista pasó en las Islas. Para estimar la estancia media de los turistas que visitaron las Islas Baleares en 2000, se puede calcular la media de la estancia de los 100 turistas de la muestra (Figura 15). Figura 15 2.2. Estimación de la varianza VAR(rango de valores) 2 Esta función, aplicada a datos muestrales, calcula la varianza muestral corregida ( Ŝ ). Siguiendo con el ejemplo anterior, la varianza muestral corregida de la variable DÍAS se calcula como estimación de la varianza poblacional de esta variable (Figura 16). 9

Figura 16 VARP(rango de valores) 2 Esta función, aplicada a datos muestrales, calcula la varianza muestral ( S ). Siguiendo con el ejemplo anterior, puesto que la muestra es grande se puede utilizar la varianza muestral de la variable DÍAS como estimación de la varianza poblacional de esta variable (Figura 17). Puede observarse que, puesto que la muestra es grande, el valor de la varianza muestral y el de la varianza muestral corregida son muy similares. Figura 17 2.3. Estimación de la proporción Para calcular el valor de la proporción muestral puede hacerse lo siguiente: Si se tiene una variable que sólo toma dos valores, 0 ó 1, se puede utilizar la función PROMEDIO, puesto que la proporción muestral es igual a la media muestral. Por ejemplo, en el archivo EDT2000.xls se tiene la variable VOLVER, que toma valor 1 si el turista dice que piensa volver de vacaciones a las Islas y valor 0 si responde que no. La media de los valores muestrales de esta variable es la proporción muestral (Figura 18). Si se tiene una variable que toma más de dos valores puede utilizarse la función FRECUENCIA(datos, grupos) para obtener el número de observaciones de cada valor y, entonces, dividiendo por el tamaño muestral calcular la proporción de individuos que presentan cada uno de los valores de la variable. Por ejemplo, la variable NACIONALIDAD tienen cuatro valores posibles. La proporción muestral de turistas de cada nacionalidad, que aparece en la siguiente tabla, se calcula dividiendo por el tamaño muestral (100) el número de observaciones con cada valor (Figura 19): 10

Nacionalidad Proporción muestral Alemana (1) 36/100 = 0,36 Británica (2) 36/100 = 0,36 Española (3) 8/100 = 0,08 Otras (4) 20/100 = 0,20 Figura 18 Figura 19 2.4. Cálculo de estimaciones con la herramienta para el análisis de datos Estadística Descriptiva La herramienta para el análisis de datos Estadística Descriptiva permite obtener los valores de un conjunto de características de un determinado rango de datos. Antes de utilizar cualquier herramienta de análisis de datos hay que activar esta componente. Para ello, hay que seleccionar la opción Complementos en el Menú Herramientas. Entonces, se abre un cuadro de diálogo en el que hay que activar la opción Herramientas para análisis (Figura 20). 11

Figura 20 Una vez activada, para utilizar esta herramienta hay que seleccionar la opción Análisis de datos en el menú Herramientas. Se abrirá un cuadro de diálogo en el que seleccionamos la herramienta con la que vamos a trabajar, en nuestro caso, Estadística Descriptiva (Figura 21). Figura 21 En la ventana de Estadística Descriptiva (Figura 23), si se activa la casilla Resumen de Estadísticas, se generará una tabla de resultados con los valores de las siguientes medidas: media ( y ), error típico de la media ( Ŝ n ), mediana, moda, desviación estándar ( Ŝ ), varianza ( Ŝ ), curtosis, coeficiente de asimetría, rango, mínimo, máximo, suma, cuenta, k-ésimo mayor, k-ésimo menor. Si se activa la casilla Nivel de confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del intervalo de confianza para la media, correspondiente al nivel de confianza que se haya indicado (se explicará con más detalle en el apartado 3). Por ejemplo, si se aplica esta herramienta a la variable DÍAS (Figura 23), se obtienen los resultados de la siguiente tabla: 2 12

Figura 22 DÍAS Media 9,98 Error típico 0,4175397 Mediana 7 Moda 7 Desviación estándar 4,1753969 Varianza de la muestra 17,433939 Curtosis 0,1922893 Coeficiente de asimetría 0,8749896 Rango 18 Mínimo 3 Máximo 21 Suma 998 Cuenta 100 Nivel de confianza(95,0%) 0,8284895 En esta tabla aparecen sombreados los valores de la media muestral y de la varianza muestral corregida. Figura 23 3. ESTIMACIÓN POR INTERVALOS 3.1. Intervalos de confianza para la media de una población normal con varianza desconocida En la ventana de la herramienta de análisis de datos Estadística Descriptiva (Figura 23), si se activa la casilla Nivel de confianza para la media, se incluirá en la tabla de resultados la mitad de la amplitud del intervalo de confianza para la media, correspondiente al nivel de confianza que se haya indicado. El intervalo de confianza se calcula bajo el supuesto de que la población es normal con varianza desconocida, es decir, que se calcula el intervalo de confianza que se corresponde con la siguiente expresión: Sˆ α 2 IC(µ) = y ± t n 1 n Sˆ α 2 El valor que proporciona el programa es, es decir, la mitad de la amplitud del intervalo. Entonces, t n 1 n para obtener los extremos del intervalo, sumamos y restamos a la media muestral ese valor. Por ejemplo, en la tabla de resultados para la variable DÍAS de la Figura 22, se tiene que la media muestral es igual a 9,98 y, en la fila correspondiente al intervalo de confianza para la media del 95% se tiene el valor 0,828. Entonces, el IC 95% (µ) es: 13

IC 95% (µ) = [9,98 0,828; 9,98+0,828] = [9,15; 10,80] 3.2. Intervalos de confianza para la media de una población normal con varianza conocida La Función INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño) permite calcular intervalos de confianza, de nivel de confianza (1 alfa)100%, para la media de una población normal con desviación típica conocida y para un determinado tamaño muestral. El valor que proporciona esta función es la mitad σ de la amplitud del intervalo, es decir: Z. α 2 n Por ejemplo, si se supone que la varianza de los días de estancia es 16, la función INTERVALO.CONFIANZA(alfa;desv. estándar;tamaño), utilizando un nivel de confianza del 95%, devuelve el valor 0,784 (Figura 24). Entonces, el intervalo de confianza para la media es: IC 95% (µ) = [9,98 0,784; 9,98+0,784] = [9,19; 10,76] Figura 24 4. CONTRASTACIÓN DE HIPÓTESIS 4.1. Contraste de igualdad de varianzas de dos poblaciones normales La herramienta de análisis de datos Prueba F para varianzas de dos muestras, permite contrastar la hipótesis de igualdad de varianzas de dos poblaciones normales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, en el archivo EDT2000 hay una hoja en la que están organizados, de forma separada, los datos de los turistas repetidores (que han visitado las Islas Baleares más de una vez) y los de los no repetidores. Si se utiliza la Prueba F para varianzas de dos muestras (Figura 25), para contrastar la hipótesis de igualdad de las varianzas del gasto realizado por los turistas repetidores (GASTO R) y los no repetidores (GASTO NR), se obtiene la tabla de la Figura 26. En esta tabla se tienen las estimaciones de las medias y las varianzas del gasto, el número de observaciones en cada muestra y los grados de libertad. F es el estadístico de contraste, P(F<=f) una cola es el p-valor del contraste y Valor crítico para F (una cola) es el valor de las tablas con el que se compara el estadístico de contraste. El contraste se hace unilateral por la derecha. 14

Figura 25 Figura 26 GASTO R GASTO NR Media 66.444738 75.055932 Varianza 1019.6764 299.04782 Observaciones 63 37 Grados de libertad 62 36 F 3.4097437 P(F<=f) una cola 7.567E-05 Valor crítico para F (una cola) 1.6677131 4.2. Contraste de igualdad de medias suponiendo varianzas conocidas La herramienta de análisis de datos Prueba z para medias de dos muestras, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, suponiendo que la varianza de esta variable es 1000 para los turistas repetidores y 300 para los no repetidores (Figura 27). Los resultados de este contraste son los de la tabla de la Figura 28. En esta tabla se tienen las estimaciones de las medias, el valor de las varianzas poblacionales conocidas, el número de observaciones en cada muestra y el valor de la diferencia entre las medias según la hipótesis nula (0). Z es el estadístico de contraste, P(Z<=z) una cola es el p-valor del contraste si se hace unilateral y Valor crítico para Z (una cola) es el valor de las tablas con el que se compara el estadístico de contraste si el contraste es unilateral. Las dos últimas filas son el p-valor y el valor de tablas si el contraste es bilateral (en la fila que aparece sombreada en la figura se genera un error puesto que es el p-valor y no el valor crítico). Este contraste también puede utilizarse para contrastar la hipótesis de igualdad de medias de dos poblaciones no normales, pero utilizando muestras grandes. En este caso el valor que se utilizará para la varianza de cada población será el de la varianza muestral. También puede utilizarse para contrastar la hipótesis de igualdad de proporciones en dos poblaciones. 15

Figura 27 Figura 28 GASTO NR GASTO R Media 75.055932 66.444738 Varianza (conocida) 300 1000 Observaciones 37 63 Diferencia hipotética de las medias 0 z 1.7584443 P(Z<=z) una cola 0.0393359 Valor crítico de z (una cola) 1.644853 Valor crítico de z (dos colas) 0.0786719 Valor crítico de z (dos colas) 1.9599611 4.3. Contraste de igualdad de medias suponiendo varianzas desconocidas pero iguales La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas iguales, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las varianzas poblacionales son desconocidas pero iguales. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, pero suponiendo que éstas son iguales para las dos poblaciones (Figura 29). Los resultados de este contraste son los de la tabla de la Figura 30. La presentación es la misma que en el caso de la prueba z, cambiando únicamente el tipo de distribución utilizada, de manera que aparecen los grados de libertad para la distribución t; y, además, se obtiene la estimación de la varianza conjunta de ambas poblaciones (Varianza agrupada). 16

Figura 29 Figura 30 GASTO NR GASTO R Media 75.055932 66.444738 Varianza 299.04782 1019.6764 Observaciones 37 63 Varianza agrupada 754.9557 Diferencia hipotética de las medias 0 Grados de libertad 98 Estadístico t 1.5131214 P(T<=t) una cola 0.0667336 Valor crítico de t (una cola) 1.6605509 P(T<=t) dos colas 0.1334672 Valor crítico de t (dos colas) 1.9844674 4.4. Contraste de igualdad de medias suponiendo varianzas desconocidas y distintas La herramienta de análisis de datos Prueba t para dos muestras suponiendo varianzas desiguales, permite contrastar la hipótesis de igualdad de medias de dos poblaciones normales, bajo el supuesto de que las varianzas poblacionales son desconocidas y distintas. Para acceder a ella hay que seleccionar la opción Análisis de datos del menú Herramientas. Por ejemplo, se puede contrastar la hipótesis de que el gasto turístico medio de los turistas repetidores y los no repetidores es el mismo, en el caso habitual de que no se conozcan las varianzas poblacionales, y suponiendo que éstas son diferentes para las dos poblaciones (Figura 31). Los resultados de este contraste son los de la tabla de la Figura 32. La presentación es la misma que en el caso anterior, aunque aquí no aparece la estimación de la varianza conjunta de ambas poblaciones, puesto que se supone que las varianzas son diferentes. 17

Figura 31 Figura 32 GASTO NR GASTO R Media 75.055932 66.444738 Varianza 299.04782 1019.6764 Observaciones 37 63 Diferencia hipotética de las medias 0 Grados de libertad 98 Estadístico t 1.7480303 P(T<=t) una cola 0.0417953 Valor crítico de t (una cola) 1.6605509 P(T<=t) dos colas 0.0835906 Valor crítico de t (dos colas) 1.9844674 18

APLICACIONES DE INFERENCIA ESTADÍSTICA DE SPSS SPSS es una aplicación para el análisis estadístico y econométrico de datos. A continuación se presentan algunas de las herramientas básicas que ofrece este programa para la inferencia estadística. Para convertir un archivo de Excel en un archivo de SPSS es suficiente con abrir el archivo desde este programa y guardarlo. Si el archivo tiene varias hojas se tiene que indicar cuál es la que se quiere abrir, y si sólo quieren utilizarse parte de los datos hay que indicar cuál es el rango que se desea importar. Por ejemplo, en el archivo EDT2000, los datos están en la hoja EDT2000 y en el rango A1:K101 (Figura 33). Figura 33 1. AJUSTE DE LA DISTRIBUCIÓN DE UNA VARIABLE A LA NORMAL Habitualmente, poder suponer que las variables con las que se trabaja siguen una distribución normal, simplifica los instrumentos estadísticos que tienen que utilizarse para hacer inferencias sobre las características de estas variables. Un primer análisis que puede ayudar a decidir si es posible suponer que una determinada variable se distribuye normalmente, consiste en representar gráficamente los valores muestrales de esa variable mediante un histograma y ver como se ajusta a la curva normal. Para obtener esta representación gráfica mediante SPSS hay que seleccionar la opción Histograma del menú Gráfico. Se abre una ventana en la que hay que elegir la variable que se quiere graficar y activar la casilla Mostrar curva normal (Figura 34). Figura 34 19

2. ESTIMACIÓN DE PARÁMETROS Con SPSS, se pueden obtener determinados estadísticos muestrales utilizando la opción Estadísticos Descriptivos del menú Analizar. Seleccionando la opción Descriptivos se abre una ventada en la que se elige la variable o las variables que se van a utilizar (Figura 35). Pulsando el botón opciones se pueden elegir los estadísticos que se quieren obtener (Figura 36). Utilizando como ejemplo la variable DÍAS, se obtienen los resultados que aparecen en la Figura 37. En esta tabla se tiene el número de observaciones, la media muestral, el error estándar de la media muestral, la raíz de la varianza muestral corregida y la propia varianza muestral corregida. Figura 35 Figura 36 Figura 37 Estadísticos descriptivos DÍAS N válido (según lista) N Media Desv. típ. Varianza Estadístico Estadístico Error típico Estadístico Estadístico 100 9,98,42 4,18 17,434 100 20

3. CONTRASTACIÓN DE HIPÓTESIS Si se selecciona la opción Comparar medias del menú Analizar aparecen las siguientes alternativas (Figura 38): Medias. Este comando permite calcular la media de una o varias variables, existiendo la opción de hacer los cálculos para el total de la muestra o separando por grupos de observaciones. En la casilla Dependientes se introducen las variables para las que se calculará la media. En la casilla Independientes se introducen las variables que, en su caso, servirán para formar los grupos. Pulsando el botón opciones se pueden elegir los estadísticos que quieren obtenerse. (Figura 41). Prueba T para una media. Con esta opción se puede hacer un contraste para la media de una población normal con varianza desconocida. En el botón opciones se puede elegir el nivel de significación. (Figura 43). Prueba T para muestras independientes. Esta opción realiza un contraste de igualdad de medias en dos poblaciones normales con varianzas desconocidas (iguales o distintas). Previamente realiza un contraste de igualdad de varianzas. En la casilla Contrastar variables se introducen las variables para las que se quieren comparar las medias, y en la casilla Variable de agrupación, la que se utilizará para distinguir los grupos. En el botón opciones se puede elegir el nivel de significación. (Figura 45). Figura 38 Ejemplo: Se crea una nueva variable que toma valor 1 si el turista es repetidor y valor 0 si no es repetidor. Para ello, se selecciona la opción Recodificar (En distintas variables) del menú Transformar. Se abre una ventana en la que se selecciona la variable a partir de la que se crea la nueva, se le da nombre y si se quiere se le pone una etiqueta para identificarla fácilmente. En nuestro caso, la variable original es repetici y la nueva variable se llamará repetido (Figura 39). 21

Figura 39 Pulsamos el botón Valores antiguos y nuevos para asignar los valores a la nueva variable. La variable repetido tomará valor 0 si la variable repetici tomaba valor 1, y tomará valor 1 en los demás casos (el valor 6 era no contesta y quedará igual) (Figura 40). Figura 40 Esta nueva variable se utilizará para comparar el gasto de los turistas repetidores y los no repetidores. En primer lugar, se calcula la media del gasto para los turistas repetidores, para los no repetidores y para el total de la muestra (Figura 41), obteniendo los resultados de la Figura 42. 22

Figura 41 Figura 42 Informe GASTO 1 repetidor 0 no repetidor,00 1,00 Total Media N Desv. típ. 75,06 37 17,29 66,44 63 31,93 69,63 100 27,65 A continuación, se contrasta la hipótesis de que la media del gasto es igual a 64 euros (Figura 43), obteniendo los resultados de la Figura 44. Figura 43 Figura 44 Estadísticos para una muestra GASTO Desviación Error típ. de N Media típ. la media 100 69,63 27,65 2,77 23

Prueba para una muestra GASTO Valor de prueba = 64 95% Intervalo de confianza para la Diferencia diferencia t gl Sig. (bilateral) de medias Inferior Superior 2,036 99,044 5,63,14 11,12 Por último, se contrasta la hipótesis de igualdad de gasto medio, para los turistas repetidores y los no repetidores (Figura 45). Los resultados se presentan en la Figura 46. El p-valor del contraste de igualdad de varianzas es inferior a 0,05, por lo que se puede rechazar la hipótesis de igualdad de varianzas. Asumiendo que las varianzas son distintas, la fila relevante para el contraste de igualdad de medias es la segunda, en la que no se han asumido varianzas iguales (sombreada en la tabla de resultados). Figura 45 Figura 46 Estadísticos de grupo GASTO 1 repetidor 0 no repetidor 1,00,00 N Desviación Error típ. de Media típ. la media 63 66,44 31,93 4,02 37 75,06 17,29 2,84 GASTO Se han asumido varianzas iguales No se han asumido varianzas iguales Prueba de Levene para la igualdad de varianzas F Sig. Prueba de muestras independientes t gl Sig. (bilateral) Prueba T para la igualdad de medias Diferencia de medias 95% Intervalo de confianza para la Error típ. de diferencia la diferencia Inferior Superior 8,544,004-1,513 98,133-8,61 5,69-19,90 2,68-1,748 97,506,084-8,61 4,93-18,39 1,17 24

ANEXO 1. GENERACIÓN DE NÚMEROS ALEATORIOS Herramientas Análisis de datos Generación de números aleatorios Figura 47. Generación de 10 muestras de tamaño 5, suponiendo que la distribución poblacional es normal estándar 25

ANEXO 2. OBTENCIÓN DE HISTOGRAMAS Herramientas Análisis de datos Histograma Figura 48. Ejemplo Figura 49. Resultado 26

ANEXO 3. VARIABLES EN EL ARCHIVO EDT2000 En la siguiente tabla aparecen las variables contenidas en el archivo EDT2000, que se ha utilizado en algunos de los ejemplos de esta guía, y el significado de cada uno de sus valores. Variables Valores EDAD 1 Menos de 30 años 2 Entre 30 y 45 3 Entre 45 y 60 4 Más de 60 5 N/C NACIONALIDAD 1 Alemana 2 Británica 3 Española 4 Otras ALOJAMIENTO 1 Hotel 2 Apartamento/Chalet 3 Casa de amigos o familiares 4 Otros CATEGORÍA 1 Hostales y Hoteles de 1 y 2 * 2 Hotel 3* 3 Hoteles 4 y 5* 4 No hotel/hostal PAQUETE Ha contratado un paquete turístico? 1 Sí 0 No DÍAS Días de estancia IMPRESIÓN 1 Muy buena 2 Buena 3 Normal 4 Mala 5 N/C REPETICIONES 1 Una vez 2 Dos veces 3 Tres veces 4 Cuatro veces 5 Más de cuatro veces 6 N/C VOLVER Piensa volver de vacaciones a las Islas Baleares? 1 Sí 2 No 3 N/C GASTO Gasto total per càpita y día ANEXO 4. GUÍA PARA EL TRABAJO PROPUESTO En el trabajo se debe explicar lo siguiente: 1. Presentación y motivación del trabajo. Qué se pretende analizar y para qué. Fuentes de los datos. Se trata de presentar el marco en el que se va a desarrollar el trabajo, qué tema se va a tratar, qué es lo quiere conocerse y qué interés puede tener. Posteriormente, se deben comentar los datos que van a utilizarse para analizar las cuestiones planteadas, citando su fuente. 2. Análisis que se van a realizar. Una vez que se han indicado los objetivos del trabajo se indicará cuáles van a ser las técnicas estadísticas que se van a aplicar, a qué variables se van a aplicar cada una de ellas y por qué. 3. Resultados. Presentación de los resultados e interpretación de los mismos. 4. Conclusiones. El trabajo terminará con un resumen de los resultados obtenidos, dando respuesta a las cuestiones planteadas al inicio. 5. Bibliografía, si se ha utilizado. El trabajo debe entregarse de la siguiente forma: - Un disquette con el archivo de Excel en el que estén los datos y los cálculos realizados, de forma clara y organizada. 27

- En papel, la redacción del trabajo. En la primera hoja debe figurar el nombre del alumno, los estudios (LE o LADE) y el grupo. Fecha límite: Puedes encontrar datos en las siguientes webs: - Banco de España. http://www.bde.es/estadis/estadis.htm - Banco Central Europeo http://www.ecb.int/stats/stats.htm - Instituto Nacional de Estadística. http://www.ine.es/ (en INEBASE o en la base de datos TEMPUS). - Eurostat (Oficina de Estadística de la Comunidad Europea). http://europa.eu.int/comm/eurostat/ - Fondo Monetario Internacional. http://dsbb.imf.org/ - OCDE. http://www.oecd.org BIBLIOGRAFÍA Pérez, César (2002). Estadística Aplicada a través de Excel, Prentice Hall, Madrid. Pérez, César (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid. 28