Probabilidad Frecuentista 1. El principio de regularidad de las frecuencias relativas El primer intento de formalizar las ideas y conceptos de probabilidad, surge de la experiencia y práctica directa de ciertos fenómenos y experimentos aleatorios, como los juegos de azar, y de la comprobación del principio empírico de regularidad estadística de las frecuencias relativas de los eventos asociados a dichos fenómenos. Ejemplo 1: Consideremos una urna compuesta de 4 bolas blancas y 2 rojas. Un experimento consiste en elegir de esta urna una bola al azar (es decir, sin preferencia por color o posición de la bola, ni de ninguna otra especie). Si repetimos un número grande de veces este experimento, cuál es la frecuencia con la cual se obtiene una bola blanca? Para responder, hagamos específicamente 6 series de 100 repeticiones del experimento cada una. Registramos los resultados en un cuadro como el que sigue 1 : Repeticiones Número Repeticiones Número de bolas Frec. acumuladas de bolas Frec. serie blancas Rel. numeradas blancas Rel. 1-100 69 0.690 1-100 69 0.690 101-200 70 0.700 1-200 139 0.695 201-300 59 0.590 1-300 198 0.660 301-400 63 0.630 1-400 261 0.653 401-500 76 0.760 1-500 337 0.674 501-600 64 0.640 1-600 401 0.668 Según el cuadro anterior, en cada una de las 6 series de 100 repeticiones del experimento, se obtuvo en promedio 66.8 bolas blancas, es decir, el 66.8 %, y las frecuencias relativas en cada serie fluctua al rededor de 0.6. 1 Datos obtenidos de Modern probability theory and its applications, E. Parzen. pp 3. 1
Note además que, en cuanto a las repeticiones contabilizadas acumulativamente, las frecuencias relativas de elección de bola blanca, son notariamente más estables alrededor de 0.6 (ver gráficos abajo). Deducimos entonces que las frecuencias relativas de elección de bola blanca, son más estables y próximas a la fracción 0.6, cuanto más grande sea el número de repeticiones del experimento. 1 0,6 0,3 100 200 300 400 500 600 Figura 1: Frecuencias relativas series. 1 0,6 0,3 100 200 300 400 500 600 Figura 2: Frecuencias relativas acumuladas. Ejemplo 2: En un hospital de cierta ciudad, durante el primer cuarto del año, se registraron los siguientes nacimientos 2 Enero 145 niños 135 niñas 270 en total Febrero 142 niños 136 niñas 278 en total Marzo 152 niñas 140 niñas 292 en total. Según estos datos, las frecuencias relativas de nacimiento de niños por cada mes están dadas por el cuadro: 2 Datos obtenidos de An elementary introduction to the theory of probability, Gnedenko y Khinchin. pp 3 2
Enero 145 / 270 0,518 Febrero 142 / 278 0,511 Marzo 152 / 292 0,520. En promedio, en los tres meses se obtuvo una frecuencia relativa de casi 0.516, o bien, del 51.6 %, de nacimientos de niños. En general, podemos afirmar el siguiente principio empírico: Principio de Regularidad de las Frecuencias Relativas. Supongamos que cierto experimento o fenómeno aleatorio particular puede ser repetido u observado tantas veces como se quiera, y siempre bajo las mismas condiciones. Consideremos cualquier evento asociado a este experiemento. Se cuemplen entonces los siguientes hechos: Si repetimos u observamos un número grande de veces el experimento, entonces la frecuencia relativa de ocurrencia del evento que estamos estudiando, tiende a estabilizarce sobre un rango de varación pequeña a mayor número de repeticiones (observaciones). Si realizamos muchas series de un número grande de repeticiones u observaciones del experimento, entonces esta misma frecuencia relativa en cada serie, tiende a mantenerse aproximadamente constante. Debemos aclarar que este principio no es absoluto, en el sentido de que pueden existir desviaciones empíricas entre distintas series de repeticiones del experimento, aun cuando ello ocurra muy raramente. 2. Probabilidad frecuentista Si entendemos la probabilidad como una medida de certeza, es decir, como un número que mide la facilidad con que un determinado evento ocurre, entonces la primera interpretación objetiva de probabilidad está basada en el principio de regularidad de las frecuencias relativas. Por ejemplo, en el caso específico del primer ejemplo de la sección anterior, la probabilidad de que en cualquiera de las 600 extracciones se obtenga bola blanca es 0,668, o en términos de porcentajes, del 66.8 %. Note que ésta es una razón cercana a 4 / 6, la cual corresponde exactamente a la proporción de bolas blancas en relación al total de bolas contenidas en la urna. En cuanto al segundo ejemplo, tenemos que en el primer cuarto del año, la probabilidad de que nazca un niño en este hospital es de 0.516, o bien, del 51.6 %. Proporción muy cercana a la razón 1 / 2. 3
Generalmente, llamamos esta interpretación de probabilidad como probabilidad frecuentista (o empírica o estadística). Veamos una situación más compleja. Ejemplo 3: Hacia 1827, el botánico escocés Robert Brown, descubrió que las partículas microscópicas de polen suspendidas en un líquido en reposo, exhibían un movimiento vibratorio e irregular sin causa aparente. Ver aquí una observación real de este movimiento. Aunque ya había sido observado y discutido algunos años antes por Jan Ingenhousz, este fenómeno se conoce desde las observaciones de Brown como Movimiento Browniano. El Movimiento Browniano fue estudiado por científicos de diversas áreas en los años posteriores. Fue Albert Einstein, hacia los primeros años del siglo XX, quien propuso la explicación de que dicho movimiento se debe a que los átomos que forman las particulas de agua, en continuo movimiento por agitación térmica, chocan con las partículas de polen. En aquella época, la teoría atómica de la materia aun estaba ciernes, y Einstein vio en este fenómeno la combrobación fehaciente de la existencia de los átomos. El propio Einstein propuso una teoría probabilística de este fenómeno. Actualmente, el Movimiento Browniano es quizá el fenómeno aleatorio más importante y estudiado en el área de probabilidad, debido a la diversidad de fenómenos que están emparentados con éste, que van desde fenómenos naturales y biológicos, hasta financieros, económicos y sociales. Algunos años después de los estudios de Einstein, el químico sueco Theodor Svedberg (Nobel de química en 1926), con el fin de probar algunas de las teorías de Einstein, realizó una serie de experimentos consistentes en observar el número de particulas de polen suspendidas en una fracción pequeña determinada de todo el volumen de agua en estudio. Comprobó que dicho número varía (fluctúa) alejándose siempre del valor promedio. Específicamente, Svedberg realizó 518 observaciones, cada una bajo las mismas condiciones iniciales. En 112 casos observó que la fracción de volumen de agua en estudio, no contenía partículas; en 168 casos había una sola partícula; en 130 casos había dos; tres partículas en 69 casos; en 32 casos había cuatro partículas; cinco partículas en 5 casos; seis en un caso; y finalmente siete en 1 caso. La proporción del número de particulas está dada entonces por el cuadro de la figura 3 de la página suguiente. Resultó que estas frecuencias coinciden muy de cerca con las predicciones hechas por los modelos de Einstein. Esto significa que si volviéramos a repetir un número grande de observaciones, volveríamos a obtener frecuencias relativas muy cercanas a las del cuadro de la figura 3. 4
Figura 3: Tomado de An elementary introduction... Gnedenko y Khinchin. pp 5. Enunciamos así el principio de probabilidad frecuentista. Probabilidad Frecuentista Supongamos que podemos repetir u observar un experimentos aleatorio dado cualquier número de veces, y siempre bajo las mismas condiciones. Fijemos nuestro interés en algún evento asociado con este experimento. Si en un número grande n de repeticiones del experimento, r n representa el número de veces con que ocurre dicho evento específico, definimos la probabilidad frecuentista (o estadística) de que ocurra el evento en cuestión en cualquiera de las n repeticiones, como la proporción. r n n. Según el principio de regularidad de las frecuencias relativas, si tomamos valores de n sucesivamente crecientes, entonces la sucesión de cocientes de frecuencias relativas rn / n, tiende a mantenerse relativamente constante. Por lo que la probabilidad frecuentista es más acertada cuanto más grande sea el número de repeticiones u observaciones realizadas. Algunas objeciones: Desde luego, este modelo es cuestionable al menos desde el punto de vista rigorista de las matemáticas contemporáneas. Enlistamos a continuación sólo dos objeciones. 1. Para un número n específico, el cociente r n no es absoluto: Esto es, n para distintas series de repeticiones de tamaño n, este número no es el mismo necesariamente. 5
2. Es un modelo a posteriori. Después de repetir u observar muchas veces un evento, cualquier medida de certeza que obtengamos, solo es aplicable a esa serie específica de repeticiones. Esto es, solo podemos calcular probabilidades una vez que el fenómeno se ha realizado. Obviamente, matemáticamente hablando, es preferible un modelo a priori, el cual permita hacer predicciones (en algún sentido) sobre las consecuencias o resultados de un fenómeno o experimento aleatorio. 3. Se justifica en un principio empírico, sin modelo matemático formal. Aunque ciertamente es posible hacer predicciones (en algún sentido) sobre las consecuencias o resultados de un fenómeno o experimento aleatorio. Cómo explicar dentro de un modelo matemático teórico y formal este principio empírico? Estas cuestiones no son nada triviales, y de hecho se trata del principal problema en el cual se centró buena parte de esfuerzos posteriores en el área, ocupando los trabajos de probabilistas pioneros como Bernoulli, Laplace, De Moivre y de otros. 3. Ley de los grandes números Consideremos algún evento asociado a un experimento o fenómeno aleatorio susceptible de repetirse u orservarse cualquier cantidad de veces, siempre bajo las mismas condiciones iniciales. Para n repeticiones, sea r n el número de veces en que ocurre dicho evento específico. Con el sustento del principio de regularidad de las frecuencias relativas, parece factible suponer que existe algún número p [0, 1] hipotético, tal que para valores grandes de n, r n n p. En otras palabras, si nos permitimos hacer un uso un tanto abusivo de la notación, lo que queremos decir es que r n lím n n = p, para algún p en [0, 1]. De algún modo, parace creíble asumir que el número p es la probabilidad real del evento que nos interesa. Hemos descrito, en términos muy generales, la ley de los grandes números. Por ejemplo, en el ejemplo 1, ya hemos dicho que la probabilidad (frecuentista) de que en cualquiera de las 600 extracciones se obtenga bola blanca es 0,668. Una razón cercana a 4 / 6, la cual corresponde exactamente 6
a la proporción de bolas blancas en relación al total de bolas contenidas en la urna. Podríamos realizar nuevamente 600 repeticiones y veríamos que, aunque la frecuencia relativa exacta difiere de la obtenida en la primera tanda, es también cercana a la proporción 4 / 6, de bolas blancas sobre el total de bolas. De alguna forma, este comportamiento regular de las frecuencias relativas, nos asegura que nuestra medida de certeza de que la extracción sea bola blanca, es cercana a la proporción 4 / 6. Así, por ejemplo, podemos decir que la probabilidad (a secas) de obtener una bola blanca, extraída al azar de una urna compuesta de cuatro blancas y dos rojas, es 4 / 6. En general, intuir el valor de p no es siempre tan sencillo como en este caso. En otros cursos, puede que el lector conozca los diversos métodos estadísticos y de muestreo para estimar el valor de p en casos muy concretos. 7