TEMA 2: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 2.- Tipos de muestreo. Muestreo aleatorio Las principales ventajas de estudiar una población a partir de una muestra son: - Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a unas elecciones, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000, aparte que entrevistar a todo el censo electoral supone una duración excesiva en tiempo del trabajo de campo. - Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; - Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de la duración de un cierto tipo de bombillas hasta que dejan de funcionar, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás. - Se puede conseguir el nivel deseado de precisión en los resultados obtenidos. De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas: - Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este tema. - Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia), es lo que haremos en los temas siguientes. El tipo de muestreo más importante es el muestreo aleatorio, en el que todas las unidades del universo tienen la misma probabilidad de ser seleccionadas. Muestreo aleatorio Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos del universo la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntos de vista: - Sin reposición de los elementos; - Con reposición. 1
Muestreo aleatorio con reposición o muestreo aleatorio simple Sobre una población de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total del universo. De esta forma un elemento puede ser extraído varias veces. El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que: - cada elemento del universo tiene la misma probabilidad de ser elegido, - las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre el mismo universo (no disminuye con las extracciones sucesivas). - Se garantiza la independencia entre las unidades seleccionadas. Desventaja del muestreo con reposición: una misma unidad puede ser seleccionada varias veces en una misma muestra, por lo que no se incrementa la información. Sin embargo, si el universo es muy grande la probabilidad de que esto ocurra es muy pequeña. P(obtener una determinada muestra) = P(x 1,x 2,..,x n )= 1/N 1/N 1/N Muestreo aleatorio sin reposición o muestreo irrestricto Cada vez que se hace una extracción, la unidad seleccionada no se devuelve al universo. Por lo tanto, no se permite que una misma unidad sea seleccionada más de una vez. Esto hace variar la probabilidad de obtener una determinada muestra: P(obtener una determinada muestra) = P(x 1,x 2,..,x n )= 1/N 1/N-1 1/N-n Cuando la población sea muy grande, las diferencias entre estos dos tipos de muestreo van a ser mínimas. Vamos a considerar que trabajamos con poblaciones grandes, por lo que sólo vamos a considerar el muestreo aleatorio simple. Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo aleatorios pueden ser considerados: muestreo sistemático, muestreo estratificado, muestreo por conglomerados y muestreo polietápico. Muestreo sistemático Cuando los elementos de la población están ordenados de 1 a N en fichas o en una lista, una manera de muestrear consiste en: - Elegir al azar un número m entre 1 y N, para empezar a seleccionar la muestra. - Tomar como muestra los elementos de la lista a partir de ese m tomados de k en k (por ejemplo de 20 en 20) hasta completar una muestra de tamaño n. (k es el nº entero más cercano a N/n) y teniendo en cuenta que la lista sea circular, es decir que el elemento N+1 coincide con el primero. De esta forma, con una lista circular, todos los elementos tiene la misma probabilidad de ser seleccionados. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último. Sin embargo, se corre el riesgo de obtener resultados sesgados si en la población se dan periodicidades o rachas. 2
Muestreo aleatorio estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio (sexo, grupo de edad, nivel de estudios, lugar geográfico, tamaño del municipio, etc), de tamaños respectivos N 1,..., N k, y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamaño n i. A continuación nos planteamos el problema de cuantos elementos de la muestra se han de elegir de cada uno de los estratos. Es decir, determinar los tamaños muestrales n i de cada uno de los estratos. Esto lo decide quien hace el muestreo. Para ello tenemos fundamentalmente tres técnicas: la asignación simple, la asignación proporcional y la asignación optima: - asignación simple: a cada estrato le corresponden el mismo nº de unidades muestrales. Por ejemplo, una población dividida en dos estratos en función del sexo, la asignación simple sería: 50% hombres y 50% mujeres. - asignación proporcional: el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total. Así en un estrato dado, se tiende a tomar una muestra más grande cuando el estrato es más grande Por ejemplo, una población divida en 2 estratos: 60% hombres y 40% mujeres. Si obtenemos una muestra de 10 individuos, la asignación proporcional al tamaño del estrato hará que 6 sean hombres y 4 mujeres. - asignación óptima: se asigna mayor tamaño muestral en el estrato que presenta mayor variablidad interna (varianza) de la característica a estudiar. Es decir, el estrato donde hay más heterogeneidad. Sin embargo, esto supone tener un conocimiento previo de la población estratificada, cosa que raramente sucede. Por eso, a veces, si hay presupuesto, se obtiene una muestra previa o muestra piloto (muestra reducida) para obtener información sobre en qué estrato se observa mayor variabilidad. Muestreo por conglomerados Si intentamos hacer un estudio en un ámbito con mucha dispersión geográfica, por ejemplo, sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en dividir la población en unidades pequeñas y geográficamente compactas denominadas conglomerados. Por ejemplo, en el muestreo de los habitantes de una ciudad, elegir aleatoriamente ciertos barrios, para después elegir calles y edificios. Una vez seleccionados aleatoriamente una muestra de edificios, en cada uno de ellos se entrevista a todos los vecinos. En esta técnica de muestreo la unidad muestral es el conglomerado, donde se supone que presenta un comportamiento interno muy heterogéneo (varianza grande) pero presumiblemente un comportamiento homogéneo o similar al de otros conglomerados (varianza entre conglomerados pequeña). Muestreo por etapas o muestreo polietápico El coste del muestreo se incrementa mucho por la dispersión geográfica de las unidades, siendo más deseable obtener la muestra de un modo menos disperso. Cuando ocurre esto, se recomienda el uso del muestreo polietápico, que se caracteriza por obtener la muestra en sucesivas etapas. Para un ejemplo de esta técnica de muestreo, veamos la 3
siguiente ficha técnica de la "Encuesta sobre la opinión respecto a la intervención militar contra Irak" (publicada por EL PAÍS 2-2-2003): Ámbito geográfico: España Recogida de información: mediante entrevista telefónica. Universo de análisis: población mayor de 18 años residente en hogares con teléfono. Tamaño de la muestra: 1000 entrevistas proporcionales. Error muestral: el margen de error para el total de la muestra es de ±2,78% para un margen de confianza del 95% y bajo el supuesto de máxima indeterminación (p=q=50%). Procedimiento de muestreo: selección polietápica del entrevistado: -Unidades primarias de muestreo (MUNICIPIOS) seleccionadas de forma aleatoria proporcional para cada provincia. -Unidades secundarias (HOGARES) mediante la selección aleatoria de números de teléfono. -Unidades últimas (INDIVIDUOS) según cuotas cruzadas de sexo, edad y recuerdo de voto de las elecciones generales de 2000. Métodos de muestreo no probabilísticos 1 A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. Sin embargo, las inferencias realizadas a partir de estos métodos no probabilísticos no tienen validez estadística. - Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 30 individuos entre 18 y 35 años, universitarios y residentes en capitales provinciales. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. - Muestreo opinático o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. - Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. 1 Del Tutorial de Introducción al muestreo de los Profesores F.Herrero y M.Cuesta del Dpto Psicología. Univ. de Oviedo. 4
- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 5