Semana 6 Esperanza y Varianza 6-1. Dos preguntas sobre 100 tiradas de dado 6-2. Esperanza 6-3. Propiedades básicas de la esperanza 6-4. Distancia esperada a la media 6-5. Varianza 6-6. Demostraciones 6-1. Dos preguntas sobre 100 tiradas de dado Si tiro un dado 100 veces y sumo los resultados En qué rango de valores es razonable esperar que caiga la suma? Si la suma da 531 Puedo concluir con bastante confianza que el dado está cargado? Para responder estas preguntas podemos hacer un modelo probabilístico para un dado ideal (balanceado) como el que sigue: Tomamos como espacio muestral el conjunto Ω = {1, 2, 3, 4, 5, 6} 100 de tiras de 100 números del 1 al 6. Consideramos en Ω la probabilidad P que asigna a todos los eventos elementales la misma probabilidad, i.e. 1/6 100. Los resultados de cada tirada individual del dado son representados en el modelo por las variables X i (ω) que asignan a cada ω Ω su i-ésima coordenada (donde i = 1, 2, 3,..., 100). La variable de interés para las preguntas es X = X 1 + X 100. Notemos que la variable aleatoria X toma los valores entre 100 y 600 pero no todos con la misma probabilidad. Las preguntas planteadas podrían responderse razonablemente si tuvieramos un método para calcular un rango de valores R [100, 600] tal que P(X / R) sea menor que un valor prefijado (de modo que estamos bastante seguros que la suma de cien tiradas de dado caerán en el rango R). 6-1
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-2 Una respuesta a fuerza bruta Notemos que la variable X que queremos analizar toma los 501 valores naturales entre 100 y 600. Una forma de responder a las preguntas anteriores es hacer lo siguiente: 1. Calcular con bastante precisión (con la ayuda de una computadora) la probabilidad P(X = k) para cada valor k {100, 101,..., 600}. 2. Ordenar los números enteros entre 100 y 600 en orden de probabilidad decreciente. Es decir encontrar una secuencia k 1, k 2,..., k 501 de forma que P(X = k 1 ) P(X = k 2 ) P(X = k 501 ). 3. Dado un valor pequeño p prefijado calcular el rango k 1,..., k n con el n más pequeño tal que n P(X = k i ) 1 p. El rango de valores R = {k 1,..., k n } i=1 es la mejor respuesta a la pregunta de encontrar una región donde X caerá con probabilidad mayor a 1 p. Este método tiene un defecto que es que requiere muchos cálculos. Notemos que P(X = k) = N k 6 100, donde N k es el número de formas diferentes de escribir k como suma de 100 números enteros entre 1 y 6. El denominador 6 100 es un número de 78 cifras. Y el numerador N k depende de k de una forma no muy obvia (puede verse que es el coeficiente de x k en el polinomio (x + x 2 + x 3 + x 4 + x 5 + x 6 ) 100 que tiene grado 600). En nuestro caso particular el método aún está al alcance de lo que es posible hacer con una computadora. De hecho con este método se obtiene que la variable X tiene probabilidad mayor a 0,99 de caer en el rango entre 307 y 394. Sin embargo no es dificil imaginar modelos un poco más complicados (o el mismo modelo aumentando el número de tiradas) para los cuales este método ya no es práctico ni siquiera con una computadora. En lo que sigue encontraremos métodos menos exáctos para lidiar con el mismo problema, pero que requieren muchísimo menos poder de cómputo (incluso es factible hacer los cálculos necesarios mentalmente o a mano en muchas situaciones de interés). 6-2. Esperanza La esperanza (o valor esperado) de una variable aleatoria es un número que se le asigna a dicha variable. Representa (como justificaremos mejor más adelante) el resultado teórico de tomar el promedio de muchas copias independientes de la variable. Se define en dos casos, según si la variable es discreta o no.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-3 Caso discreto Habíamos definido anteriormente el valor esperado de una variable discreta X que toma los valores x 1, x 2,... como la suma de la serie P {(} X = x i )x i i en el caso de que dicha serie converja absolutamente. En ese caso se dice que X tiene esperanza finita. Como un ejemplo, las variables X 1,..., X 100 introducidas anteriormente para modelar tiradas individuales de un dado toman los valores 1, 2, 3, 4, 5, 6 con probabilidad 1/6. Por lo tanto se cumple para todo i. Caso general E(X i ) = 1 6 1 + 1 6 2 + 1 6 3 + 1 6 4 + 1 6 5 + 1 6 6 = 3,5 Decimos que una variable aleatoria arbitraria X (no necesariamente discreta) tiene esperanza finita si la variable discreta X 1 que se obtiene redondeando X para abajo al entero más cercano tiene esperanza finita. En ese caso definimos E(X) = lím n + E(X n) donde para n = 1, 2, 3, 4, 5,... la variable X n se obtiene redondeando X para abajo hacia la fracción de denominador n más cercana. Como un ejemplo supongamos que X es una variable uniforme en el intervalo [0, 1] (i.e. la probabilidad de que X caiga en un intervalo I [0, 1] es igual a la longitud del intervalo para todo I). En ese caso la variable X n que se obtiene redondeando X hacia abajo a la fracción de denominador n más cercana toma los valores 0, 1/n, 2/n,..., (n 1)/n con probabilidad 1/n. Se obtiene E(X n ) = 1 n 0 n + + 1 n (n 1). n Reconociendo que la suma de lado derecho es una suma de Riemann para la integral 1 xdx = 1/2 obtenemos 0 E(X) = Caso absolutamente continuo lím E(X n) = 1 n + 2. En el caso de variables absolutamente continuas la siguiente proposición es muy util para calcular esperanzas. Proposición. Si X es una variable absolutamente continua con densidad ρ X y f es + una función tal que f(x) tiene esperanza finita entonces E(f(X)) = ρ X (x)f(x)dx.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-4 Como ejemplo supongamos que X es una variable exponencial de parámetro λ (tiene densidad ρ X (x) = λe λx si x 0 y ρ X (x) = 0 si x < 0). Se calcula usando la proposición e integración por partes E(X) = + λe λx xdx = + e λx dx = 1 λ. 0 0 6-3. Propiedades básicas de la esperanza La primer observación importante es que la esperanza solamente depende de la distribución de la variable X (i.e. con qué probabilidad cae en cada rango de valores). Proposición. Si X e Y son variables aleatorias con la misma distribución y X tiene esperanza finita entonces Y también tiene esperanza finita y E(X) = E(Y ). Otra propiedad inmediata a partir de la definición pero muy util es E(1 A ) = P(A) para todo evento A, donde 1 A es la variable aleatoria que vale 1 en A y 0 en Ω \ A. Las siguiente propiedad permite calcular la esperanza de una suma de variables aleatorias conociendo la de cada sumando. Implica por ejemplo que la variable X = X 1 + + X 100 definida al principio del capítulo para modelar el resultado de sumar 100 tiradas de dado, tiene esperanza E(X) = E(X 1 ) + + E(X 100 ) = 100 3,5 = 350. [Linealidad de la esperanza] Si X e Y son variables aleatorias de esperanza finita y a, b son números entonces E(aX + by ) = ae(x) + be(y ). En casos en los cuales no es posible o es poco práctico calcular la esperanza de una variable aleatoria directamente, a veces se puede utilizar la siguiente proposición para estimar su valor. [Monotonía de la esperanza] Si X e Y son variables aleatorias de esperanza finita y X Y, entonces E(X) E(Y ). Por último, para variables independientes, se cumple la siguiente propiedad: [Esperanza de un producto independiente] Si X e Y son variables aleatorias independientes y con esperanza finita entonces E(XY ) = E(X)E(Y ). Se puede interpretar el hecho de que E(X) = 350 para la variable X = X 1 + + X 100 que hemos estado usando para modelar la suma de 100 tiradas de dado, como la afirmación de que uno esperaría que la suma caiga en general no muy lejos de 350. Pero esta respuesta no es cuantitativa (e.g. no responde a la pregunta de si 531 es demasiado lejos del valor esperado o no). Sin embargo notemos que se obtuvo prácticamente sin realizar ningún cálculo, solo calculamos la esperanza de una tirada de dado y multiplicamos por 100 (en particular no fué necesario recurrir a programar una computadora para calcular la esperanza de X). En lo que sigue intentaremos utilizar la esperanza para dar respuestas cuantitativas a la pregunda de dónde caerá con alta probabilidad la suma de 100 tiradas de dados.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-5 6-4. Distancia esperada a la media Para dar un rango de valores en el cual es bastante probable que caiga la suma de 100 tiradas de un dado balanceado alcanza con elejir un valor t > 0 de forma que P( X E(X) > t) sea muy chica. Notemos que según los cálculos a fuerza bruta que presentamos antes, t = 44 sería un valor adecuado si queremos que la probabilidad de caer fuera del rango sea menor a 0,01. Con el objetivo de dar otro método para calcular un rango adecuado de valores introducimos la cantidad d = E( X E(X) ) que llamamos la distancia esperada a la media de X. De la monotonía de la esperanza se obtiene el siguiente resultado: Proposición (Desigualdad de Markov). Sea X una variable aleatoria con esperanza finita y E( X E(X) ) = d su distancia esperada a la media. Entonces se cumple para todo t > 0. P( X E(X) > td) 1 t, Demostración. La indicatriz del evento { X E(X) > td} es menor o igual que la variable aleatoria X E(X) /td. El resultado se obtiene por monotonía de la esperanza. La proposición implica que la probabilidad de que X caiga a más de 10 distancias esperadas de su valor esperado es menor o igual a 1/10 (y estimativas similares reemplazando 10 por otro número). Por lo tanto, en principio, este concepto permite dar un rango de valores entorno al valor medio que donde la variable caerá con alta probabilidad. Un primer problema para utilizar la distancia esperada a la media es que es difícil de calcular incluso en ejemplos sencillos como el nuestro. Haciendo un cálculo a fuerza bruta con la ayuda de una computadora obtenemos que para nuestra variable de interés E( X 350 ) 13,6. Utilizando esto obtenemos que le probabilidad de que X caiga fuera del rango entre 350 137 = 213 y 350 + 137 = 487 es menor a 0,1. Esto muestra un segundo problema con la distancia esperada a la media: El rango de valores que se obtiene utilizando la proposición anterior es mucho mayor al lo necesario. Por ejemplo, si quisiéramos calcular un rango de probabilidad mayor a 0,99 con este método nos daría el rango obvio, entre 100 y 600. En lo que sigue encontraremos un método alternativo para estimar probabilidades del tipo P( X E(X) > t) que será más sencillo, y simultáneamente es más exácto, en muchos casos. 6-5. Varianza Se define la varianza de una variable aleatoria X como Var(X) = E( X E(X) 2 ), es decir el valor esperado del cuadrado de la diferencia entre X y su valor esperado.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-6 Expandiendo el cuadrado se obtiene Var(X) = E(X 2 ) E(X) 2, es decir la varianza es la esperanza del cuadrado menos el cuadrado de la esperanza. La raíz cuadrada de la varianza de una variable aleatoria se llama su desviación estándar. Veremos que la desviación estandar juega un rol similar a la distancia esperada a la media. La ventaja de este nuevo concepto es que la varianza resulta ser, en muchísimos casos, más sencilla de calcular y estimar que la distancia esperada a la media E( X E(X) ). Esto se debe a que E(XY ) = E(X)E(Y ) si X e Y son variables independientes. Con esta proposición se obtiene un método efectivo para calcular la varianza de una suma de variables independientes. Proposición (Varianza de una suma independiente). Si X e Y son variables independientes de varianza finita entonces Var(X + Y ) = Var(X) + Var(Y ). Demostración. Se calcula utilizando la independencia E((X + Y ) 2 ) = E(X 2 ) + 2E(X)E(Y ) + E(Y 2 ) mientras que por linealidad de la esperanza (E(X + Y )) 2 = E(X) 2 + 2E(X)E(Y ) + E(Y ) 2. Restando ambas ecuaciones se obtiene el resultado. En particular la variable X = X 1 + +X 100 que hemos venido estudiando para modelar la suma de 100 tiradas de dado cumple Var(X) = 100Var(X 1 ). La varianza de X 1 se calcula a partir de la definición y se obtiene Var(X 1 ) 2,91. Por lo tanto se concluye que Var(X) 291 (y notemos que este resultado se obtuvo sin recurrir a cálculos extensos). Obtenemos entonces que la desviación estandard de X es menor a 18. Esto es útil debido a la siguiente proposición: Proposición (Desigualdad de Chebyshev). Sea X una variable aleatoria de varianza finita y σ = Var(X) su desviación estándar. Entonces se cumple para todo t > 0. P( X E(X) tσ) 1 t 2 Demostración. La indicatriz del evento { X E(X) tσ} es menor o igual a la variable aleatoria X E(X) 2 /(t 2 σ 2 ). El resultado se obtiene por monotonía de la esperanza. La proposición implica que la probabilidad de que una variable X caiga a más de 10 veces su desviación estándar de su valor medio E(X) es menor a 0,01 (y desigualdades similares reemplazando 10 por otros números). En nuestro ejemplo donde X modela la suma de 100 tiradas de dado obtenemos P( X 350 > 180) 0,01. En particular la suma da mayor a 530 en este modelo con probabilidad menor a 1 por ciento. Esto muestra que la varianza puede utilizarse para calcular un rango donde una variable caerá con alta probabilidad sin realizar demasiados cálculos. Además si bien el rango obtenido no es el menor posible (para una probabilidad fija) es utilizable.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-7 Esperanza y Varianza de variables normales Estamos ahora en condiciones de interpretar los parámetros µ y σ 2 de la distribución normal. Proposición. Si X es una variable Normal(µ, σ 2 ) entonces E(X) = µ y Var(X) = σ 2. Demostración. Supongamos primero que X es Normal(0, 1). Utilizando la Proposición obtenemos E(X) = + 1 2π e x2 2 xdx = 0, donde el resultado se obtiene porque la función a integrar es impar (i.e. cambia de signo si x cambia de signo). Utilizando nuevamente la Proposición e integrando por partes (derivando una x y primitivando e x2 2 x) obtenemos Var(X) = + 1 2π e x2 2 x 2 dx = + 1 2π e x2 2 dx = 1. Para el caso general, notemos que si Y es Normal(0, 1) entonces X = σy + µ es Normal(µ, σ 2 ) y cumple E(X) = E(σY + µ) = µ y Var(X) = E((σY ) 2 ) = σ 2 E(Y 2 ) = σ 2. 6-6. Demostraciones En esta sección daremos las demostraciones que fueron postergadas en la parte anterior del capítulo. Demostración. Daremos la demostración sólamente en el caso donde f(x) = x y la densidad ρ X es continua. Definamos X n para n = 1, 2,... como las variables que se obtienen redondeando X hacia abajo a la fracción de denominador n más cercana. Notemos que E(X n ) = k Z PX [k/n, (k + 1)/n) k n = k Z k+1 n k n ρ X (x)dx k n. Utilizando el teorema de valor medio para integrales obtenemos E(X n ) = ρ X (x k ) k 1 n n, k Z
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-8 donde x k [k/n, (k + 1)/n]. Reconociendo que esto último es una suma de Riemann para la integral obtenemos que E(X) = lím n + E(X n) = + ρ X (x)xdx. + ρ x (x)xdx Demostración. Si X e Y son discretas la conclusión sigue directamente de la definición. En el caso general notemos que como X e Y tienen la misma distribución las variables discretas X n e Y n que se obtienen redondeando a X e Y hacia abajo a la fracción de denominador más cercana tienen la misma distribución. De esto se obtiene E(X) = lím E(X n ) = lím E(Y n ) = E(Y ) a partir del caso discreto tomando límite. Demostración. Para empezar demostremos el caso discreto. Supongamos que X toma los valores x 1, x 2,... e Y los valores y 1, y 2,.... De la definición de esperanza para variables discretas obtenemos E(X) = i P(X = x i )x i = i,j P(X = x i, Y = y j )x i y en forma similar E(Y ) = j P(Y = y j )y j = i,j P(X = x i, Y = y j )y j. Sumando ambas igualdades obtenemos E(X) + E(Y ) = i,j P(X = x i, Y = y j )(x i + y j ) = E(X + Y ). Por otro lado es fácil ver que si X toma los valores x 1, x 2,... y a es un número se cumple E(aX) = i P(aX = ax i )ax i = a i P(X = x i )x i = ae(x). Esto concluye la demostración de linealidad de la esperanza para variables discretas. Antes de pasar al caso general observemos que si dos variables discretas cumplen X Y t entonces con el mismo argumento que se hizo para calcular E(X + Y ) se calcula E(X) E(Y ) = P(X = x i, Y = y j )(x i y j ) i,j donde la suma es sobre pares (i, j) tales que x i y j [ t, t]. Se obtiene entonces que E(X) E(Y ) t.
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-9 Pasemos ahora al caso en el cuál X e Y son variables aleatorias no necesariamente discretas. Definamos en este caso las variables X n, Y n, y (X + Y ) n que se obtienen redondeando hacia abajo a la fracción de denominador n más cercana las variables X, Y y X + Y respectivamente. Notemos que (X + Y ) n (X n + Y n ) 3/n ya que en cada paso de redondeo se comete un error máximo de 1/n. En particular E((X + Y ) n ) y E(X n + Y n ) tienen el mismo límite cuando n +. De esto se obtiene E(X +Y ) = lím n E((X +Y ) n ) = lím n E(X n +Y n ) = lím E(X n )+E(Y n ) = E(X)+E(Y ). Por último si a es un número y (ax) n se obtiene redondeando (como siempre) la variable ax. Observemos que (ax) n ax n a /n. De esto se obtiene E(aX) = lím E((aX) n ) = lím E(aX n ) = lím ae(x n ) = ae(x) lo cual concluye la demostración de linealidad de la esperanza. Continuamos con la demostración de monotonía de la esperanza. Esta propiedad se usó en lo anterior para demostrar las desigualdades de Markov y Chebyshev. Demostración. Por linealidad de la esperanza alcanza con demostrar que E(Y X) 0. Notemos que Z = Y X es una variable aleatoria que nunca es negativa. Esto implica que las variables Z n que se obtienen redondeando Z hacia abajo a la fracción de denominador n = 1, 2,... más cercana también son mayores o iguales a 0. Entonces, de la definición de esperanza para variables discretas E(Z n ) 0 de lo cual tomando límite E(Z) 0 como se buscaba demostrar. Para concluir esta sección demostraremos que la esperanza de un producto de variables aleatorias independientes es el producto de las esperanzas. Esta propiedad es la que nos permitió mostrar que la varianza de una suma independiente se obtiene sumando las varianzas de cada término. Lo cual, a su vez, hace que la varianza sea un concepto muy util al trabajar con sumas independientes. Demostración. Asumimos primero que X e Y son discretas. Supongamos que X toma los valores x 1, x 2,... con probabilidades p 1, p 2,... respectivamente y que Y toma los valores y 1, y 2,... con probabilidades q 1, q 2,.... Por definición de esperanza de XY (que es una variable discreta) y usando la independencia de X e Y obtenemos E(XY ) = i,j P(X = x i, Y = y j )x i y j = i,j p i q j x i y j pero el lado derecho es igual al producto ( + ) ( + ) p i x i q j y j = E(X)E(Y ), i=1 que es lo que queríamos demostrar. j=1
CAPÍTULO 6. ESPERANZA Y VARIANZA 6-10 Pasemos ahora al caso general donde X e Y no necesariamente son discretas. Definimos para n = 1, 2,... las variables discretas X n e Y n redondeando X e Y respectivamente hacia abajo a la fracción de denominador n más cercana. Afirmamos que E(XY ) = lím E(X ny n ). Si esto fuera cierto se obtendría por n + independencia de X n e Y n (que son discretas) E(XY ) = lím E(X ny n ) = lím E(X n)e(y n ) = E(X)E(Y ) n + n + que es lo que buscamos demostrar. Resta entonces verificar que E(XY ) E(X n Y n ) tiende a cero. Para esto usamos la linealidad de la esperanza y el truco de sumar y restar XY n para obtener E(XY ) E(X n Y n ) = E(X(Y Y n )) + E((X X n )Y n ). Ahora notemos que Y n Y y X X n son menores o iguales a 1/n. Por lo tanto (usando monotonía de la esperanza) obtenemos que tiende a 0 cuando n +. E(XY ) E(X n Y n ) 1 n E(X) + 1 n E(Y n)