ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA

Documentos relacionados
UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Fase 2. Estudio de mercado: ESTADÍSTICA

Estadística Inferencial. Estadística Descriptiva

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Tema 5. Muestreo y distribuciones muestrales

Conceptos básicos estadísticos

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Estadística para investigadores: todo lo que siempre quiso saber y nunca se atrevió a preguntar

Tema 5: Introducción a la inferencia estadística

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Medidas de dispersión

ESTADÍSTICA CON EXCEL

ESTADÍSTICA DESCRIPTIVA

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

2.- Tablas de frecuencias

Estadística. Análisis de datos.

EJERCICIOS DE ESTADÍSTICA:

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Medidas de centralización

A qué nos referimos con medidas de dispersión?

INFERENCIA ESTADISTICA

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

ANALISIS E INTERPRETACION DE DATOS SOBRE PERMANENCIA Y GASTOS DE LOS ALUMNOS EN LA UNIVERSIDAD NACIONAL DE INGENIERIA

Tema 4 Variables Aleatorias

Estadística descriptiva y métodos diagnósticos

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

METODOLOGÍA DE INVESTIGACIÓN

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

6. VARIABLES ALEATORIAS

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Intervalos para la diferencia de medias de dos poblaciones

N. Libros No. Estudiantes

Tema 6. Estadística Descriptiva e Introducción a la Inferencia Estadística

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

LOS ESTADÍGRAFOS BÁSICOS Y SU INTERPRETACIÓN, M TENDENCIA CENTRAL

MATEMÁTICAS APLICADAS A LAS CC. SOCIALES I. Examen de la tercera evaluación. Nombre y apellidos Fecha: 10 de junio de 2010

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Tema 4: Probabilidad y Teoría de Muestras

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Conceptos Básicos de Inferencia

Sistemas de dos ecuaciones lineales de primer grado con dos incógnitas

JUNIO Bloque A

Tercera práctica de REGRESIÓN.

4. Medidas de tendencia central

Módulo de Estadística

CAPÍTULO I. INTRODUCCIÓN. Cuando se requiere obtener información de una población, y se desean obtener los mejores

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE

MEDIDAS DE TENDENCIA CENTRAL

MEDIDAS DE TENDENCIA CENTRAL

Tema 5. Contraste de hipótesis (I)

Tema 2. Descripción Conjunta de Varias Variables

Teorema Central del Límite (1)

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

TEST DE RAZONAMIENTO NUMÉRICO. Consejos generales

Estadística aplicada al Periodismo

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

Curso de Estadística Básica

RELACIÓN DE EJERCICIOS TEMA 2

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

478 Índice alfabético

UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

Edad (en años) Más de 57 Nº de personas

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 12. Contraste de hipótesis. Introducción. Introducción

Open Office Calc. Elaboración de una tabla de valores de las áreas de la distribución normal

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

TEMA 2: EL INTERÉS SIMPLE

ESTADÍSTICA. Tema 4 Regresión lineal simple

TEMA 8: MAGNITUDES PROPORCIONALES. PORCENTAJES

Examen de Matemáticas Aplicadas a las CC. Sociales II (Septiembre 2009) Selectividad-Opción A Tiempo: 90 minutos

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

EJERCICIOS RESUELTOS TEMA 7

Estadistica II Tema 1. Inferencia sobre una población. Curso 2009/10

UNIDAD 6. Estadística

Uso de la simulación en hoja de cálculo como herramienta pedagógica para la inferencia estadística.

Contrastes de hipótesis paramétricos

c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Mapas de Puntos. Cartografía a Temática Cuantitativa. Cartografía de superficie

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2004 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 6: TEORÍA DE MUESTRAS

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

MUESTREO Y MEDICIÓN MÉTODOS DE MUESTREO PROBABILÍSTICO Y NO PROBABILÍSTICO. FeGoSa

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

ESCUELA COMERCIAL CÁMARA DE COMERCIO EXTENSIÓN DE ESTUDIOS PROFESIONALES MAESTRÍA EN ADMINISTRACIÓN

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

ÍNDICE INTRODUCCIÓN... 21

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

Tras trabajar con los datos extraídos de distintas tablas, hemos confeccionado una tabla resumen con los datos de las probabilidades obtenidas.

Indicaciones para el lector... xv Prólogo... xvii

Unidad IV. Una variable aleatoria X es continua si su función de distribución es una función continua.

Transcripción:

ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA Las encuestas sociológicas suelen trabajar con muestras. Sería demasiado costoso entrevistar al total de la población española adulta, que suele ser muchas veces el marco poblacional sobre el que los sociólogos realizan sus estudios. Así observamos cómo de la información obtenida a partir de una muestra de unos pocos individuos podemos producir información sobre el conjunto de la población española. Cuando aquí hablamos de información estamos hablando de cómo se distribuye una variable en un determinado conjunto de individuos o, lo que es lo mismo, cómo se distribuye una población entre un conjunto de grupos (generados por los valores de una variable). Y para ver cómo se distribuye una variable en un conjunto de individuos teníamos unas medidas de resumen. Esto se veía en el tema 5. Si la variable era nominal, el dato que resumía la composición de una población era la proporción del valor de la variable que nos interesaba (esto es, el peso relativo de un determinado grupo en el conjunto de la población). Si la variable era numérica o de intervalo, el valor que resumía al conjunto de la población era el valor medio. Al número de individuos de la muestra lo denominamos aquí «n». Al número de individuos de la población total lo denominamos «N». Tenemos que tener en cuenta que en temas anteriores la «n» y la «N» tenían otro significado. Si recordamos el tema 4, al número de individuos de cada uno de los grupos que constituían una variable lo llamábamos «n». Así, si el grupo (o valor) 1 de una variable en una determinada población contaba con 39 individuos, escribíamos que n 1 = 39. Si miráis la tabla 4.2 (en la que observábamos cómo se distribuía la «edad» en la población juvenil o, por decirlo de otra forma, cómo se distribuía la población muestral de la juventud española por edades) [página 185], cada una de las edades contaba con unos determinados casos.

Como «edad» es una variable la llamamos «x». Y está compuesto de 15 grupos (o valores) (k=15) [páginas 226-227]. Si x 1 =15 años, n 1 =238; si x 2 =16, n 2 =267, etc. El conjunto de la población muestral lo llamábamos «N». De tal manera que N = n 1 + n 2 + n 3 + + n 15. N = 238 + 267 + 284 + + 441 = 5.014. Cuál es la razón para que hayamos designado de igual manera a cosas en cierto modo distintas? La única razón que nos ha llevado a ello es que aunque en la mayoría de los manuales de estadística no llaman «n» al número de individuos de un grupo, sino que a este lo llaman «f» (de frecuencias de un determinado valor en una población), a nosotros nos pareció que era más fácil hablar de «n» para hablar del tamaño de un grupo (del número de individuos que componen un grupo de una determinada población). Sin embargo, en estadística inferencial, aquella que trata de deducir un valor en una población a partir de lo que se ha obtenido en una muestra, al tamaño de esta muestra (al número de individuos que la componen) se le suele llamar «n». Para distinguir una «n» (el número de individuos de un grupo de una población) de otra «n» (el número de individuos que componen una muestra), bastará con saber si nos situamos en el campo de la estadística descriptiva (primer caso) o en el de la estadística inferencial (segundo caso). En estadística descriptiva: «n» es el número de individuos de un grupo de una población (de un grupo, se entiende, dentro de los grupos que generan los valores de una variable). «N» es el número total de los individuos de una población y se obtiene sumando los de los distintos grupos que componen una población. [Es lo que vemos en las páginas 226-227, cuando se habla del valor medio de una población.] En estadística inferencial: «n» es el número de individuos de una muestra de una población (el tamaño de la muestra utilizada para realizar inferencias). «N» es el número total de los individuos de la población de la que extraemos la muestra. [Es lo que vemos en las páginas 300 y siguientes, cuando se habla de poblaciones y muestras.]

Aquí, en esta asignatura, sólo vamos a tratar de inferir proporciones (si trabajamos con variables nominales) y valores medios (si trabajamos con variables de intervalo). A la proporción o al valor medio, en su caso, obtenido en la muestra le vamos a llamar estadístico. A la proporción, o valor medio, en su caso, que corresponde a la población total (de la que se extrae la muestra) le llamamos parámetro. Estimación de proporciones En el caso de que queramos inferir la proporción (es decir, el peso relativo) de un determinado grupo (generado por un valor de una variable) en una población a partir de la proporción que hemos obtenido para ese grupo en una muestra, hemos de saber que la proporción en la población (que vamos a escribir P, con mayúscula) se moverá entre unos determinados valores alrededor de la proporción obtenida en la muestra (que escribimos con p minúscula. Estos valores vendrán determinados por un error, que se llama error muestral (que escribimos e). De tal manera que: P = p ± e Esto quiere decir que la proporción en la población (P) estará alrededor de la proporción obtenida en la muestra (p) comprendida entre p - e y p + e. p - e P p + e. Esos valores (no hablamos aquí de valores de una variable) marcan los límites del intervalo de estimación. Sólo podemos estimar la proporción de un valor (aquí sí hablamos de valor de una variable) de manera aproximada: sólo podemos decir que se encontrará en un intervalo. Y además sólo podemos realizar una estimación aproximada en términos probabilísticos, nunca con absoluta certeza. Pero, si el muestreo es probabilístico, siempre podremos conocer esta probabilidad: la probabilidad de que el parámetro poblacional se encuentre en el intervalo de estimación. Esta probabilidad la conocemos como nivel de confianza. A cada nivel de confianza le corresponde un determinado valor Z. Si trabajamos con un nivel de confianza del 95% (esto es si queremos tener una probabilidad de acertar del 95% al realizar la estimación), Z será igual a 1,96. El error muestral (e) depende del nivel de confianza, de la dispersión de la variable en donde se inscribe la proporción del valor que intentamos estimar y del tamaño de la muestra.

El error muestral es directamente proporcional al nivel de confianza: a mayor nivel de confianza mayor error. Está claro que si queremos incrementar nuestra seguridad de acertar (en términos probabilísticos) (es decir, si queremos reducir nuestra probabilidad de equivocarnos al realizar la estimación) el intervalo de estimación tendremos que hacerlo mayor (y esto sólo se consigue incrementando el error muestral). Mientras más grande sea este intervalo más probabilidades tendremos de que se encuentre en él el parámetro poblacional (la proporción a estimar). El error también es directamente proporcional a la dispersión de la variable en donde se sitúa el valor cuya proporción queremos estimar. Mientras más dispersión presente esta variable mayor será el error, es decir, más grande tendremos que hacer el intervalo de estimación para poder encontrar el parámetro poblacional en él. Pero el error es inversamente proporcional al tamaño de la muestra. Esto quiere decir que una muestra pequeña presenta un error grande. Y que con una muestra grande tendremos un error pequeño. La fórmula del error, que hay que saber de memoria, en este caso, en que queremos estimar la proporción de un valor, es: No necesitamos conocer de dónde sale esta fórmula. Nos basta con saber lo que ya hemos apuntado: el error es directamente proporcional al nivel de confianza (que se expresa en Z), a la dispersión o variabilidad de la población y es inversamente proporcional al tamaño de la muestra. Todo en los términos en los que se señala en la fórmula anterior, que podemos simplificar así (esta sería la que habría que aprender): Aquí, hay que recordar que la varianza de una distribución nominal (dicotomizada: binomial) [esto es del tema 5] se expresaba en el producto de «p q». Si recordáis, la variable nominal se reducía a dos únicos valores, el que nos interesaba y el resto. El primer valor representaba en el conjunto de la población una proporción «p». El valor restante representaba una proporción «1 - p», ya que los dos valores contenían el total de la población (y este total en términos de proporción siempre es igual a 1). A la proporción del valor restante la llamábamos «q», sabiendo que q = 1 - p. Por ejemplo, si en una población tenemos la variable estado civil y nos interesa en esta fijarnos en los solteros, reducimos la variable a dos valores: solteros y no solteros (donde agrupamos los estados civiles restantes).

Si la proporción de solteros, que llamamos «p», es de 0,432 (es decir, tenemos un 43,2% de solteros), la proporción de no solteros, que llamamos «q», será igual a «1 - p»: 1 0.432= 0.568 (es decir, tenemos un 56,8% de no solteros). La dispersión del estado civil (según esta división de él) se mide por «p q», que es un producto que nos da la variabilidad de la población según la división dicotómica establecida y que es equivalente a la varianza. Lo que utilizamos en la fórmula del error es la raíz cuadrada de la varianza, por lo tanto,. De la fórmula que utilizamos para calcular el error muestral deriva la fórmula del tamaño muestral. En estimación de proporciones, el error se expresa siempre en términos de proporción. Hay que tener en cuenta que muchas veces lo que estimamos son porcentajes, por lo que tendríamos que convertir los porcentajes en proporciones para aplicar la fórmula del error. Y si el error está en porcentaje tendremos que convertirlo (en la fórmula) en proporción. [Recordad el tema 4.] Estimación de medias También, decíamos más arriba, que si estamos trabajando con una variable cuantitativa, de carácter numérico, como puede ser la edad, los ingresos, el número de hijos, el número de miembros de un hogar, el tamaño del municipio de residencia o la distancia entre el domicilio y el trabajo, por ejemplo, en estos casos, el estadístico que nos interesa, el dato que resume cada una de estas características en la población, es el valor medio.

Así, si queremos estimar cuál sería el valor medio de una población (parámetro) a partir del valor medio obtenido en una muestra de dicha población (estadístico), contaríamos, de igual modo que con las proporciones, con un intervalo de estimación. El valor medio de la población (al parámetro a estimar) lo llamamos con la letra griega mu (μ), para distinguirlo del valor medio obtenido en una muestra, que lo llamamos equis con una rayita encima ( ). El valor medio en la población de la variable que nos interesa se encontrará alrededor del valor medio obtenido en la muestra: μ = ± e Esto quiere decir que el valor medio en la población (μ) estará alrededor del valor medio obtenido en la muestra ( ), comprendido entre los valores - e y + e. - e μ + e. Esos valores marcan los límites del intervalo de estimación. El error muestral (e) depende del nivel de confianza, de la dispersión de la población en torno al valor medio y del tamaño de la muestra. El error será directamente proporcional al nivel de confianza y a la dispersión de los datos en la población. E inversamente proporcional al tamaño de la muestra. En esta ocación, cuando pretendemos estimar un valor medio, la dispersión de los datos de la población la medimos por la varianza (s 2 ). La varianza es, si recordáis, el cuadrado de la desviación típica (s). [También la varianza en una variable cualquiera ( X ) la podemos anotar como s x 2 ; y la desviación típica como s x.] Y el error muestral en este caso sería: Y la fórmula del tamaño de la muestra quedaría:

En estimaciones de valores medios, el error se mide en las unidades de la variable. Si, por ejemplo, estimamos una edad media, el error se dará en años ; si estimamos un número (medio) de hijos, el error se dará en hijos ; y si estimamos un salario medio, el error se dará en euros.