Distribucion conjunta de variables continuas Matías Carrasco 22 de mayo de 218 1. Introducción La distribución conjunta de un par de variables aleatorias X e Y es la distribución de probabilidad definida por P (B) = P ((X, Y) B) para subconjuntos B del plano. Entonces P (B) es la probabilidad de que el par aleatorio (X, Y) caiga en el conjunto B. Las distribuciones conjuntas para variables aleatorias discretas se consideraron antes. Este capítulo muestra cómo estas ideas para variables aleatorias discretas se extienden a dos variables aleatorias continuas reemplazando sumas por integrales. 2. Densidad conjunta La noción de densidad de probabilidad ϱ(x, y) en dos variables es una extensión natural de la idea de densidad de probabilidad en dimension uno. La función ϱ(x, y) da la densidad de probabilidad por unidad de área para valores de (X, Y) cercanos a (x, y). Ver la Figura 1. Ya hemos consideramos un caso particular de densidad de probabilidad en el plano cuando vimos probabilidades geométricas. En ese caso, si Ω es una región acotada del plano, y (X, Y) es un punto elegido al azar en esa región, entonces la densidad de probabilidad conjunta del par (X, Y) es ϱ(x, y) = 1/ Ω si (x, y) Ω; si no. En general, cualquier evento determinado por dos variables aleatorias X e Y, como el evento X >,25 e Y >,5, corresponde a una región del plano. Ahora, en lugar de una distribución uniforme definida por áreas relativas, la probabilidad de la región B se describe por el volumen bajo la superficie de densidad sobre B. Este volumen es una integral P ((X, Y) B) = ϱ(x, y)dxdy. Este es el análogo de la familiar interpretación del área bajo la curva para probabilidades obtenidas a partir de densidades en la recta real. Los ejemplos que vienen 1 B
Figura 1: Aquí se muestra una función de densidad conjunta particular cuya fórmula es ϱ(x, y) = 5!x(y x)(1 y) para < x < y < 1, y cero en otro caso. muestran cómo tales integrales se pueden calcular mediante integración repetida, cambio de variable o argumentos de simetría. La distribución uniforme en una región es ahora solo el caso especial en el cual ϱ(x, y) es constante en la región y cero en otro lugar. Como regla general, las fórmulas que involucran densidades conjuntas son análogas a las fórmulas correspondientes para distribuciones conjuntas discretas que vimos anteriormente. Informalmente, si (X, Y) tienen densidad conjunta ϱ(x, y), entonces la probabilidad infinitesimal es P (X dx, Y dy) = ϱ(x, y)dxdy. Esto significa que la probabilidad de que el par (X, Y) caiga en un rectángulo infinitesimal de ancho dx y altura dy cerca del punto (x, y) es la densidad de probabilidad en (x, y) multiplicada por el área dxdy del rectángulo. ϱ(x, y) P (X dx, Y dy) = ϱ(x, y)dxdy = volumen de la caja Y dy y x X dx 2
Una densidad de probabilidad bi-variada debe cumplir las siguientes dos condiciones ϱ(x, y), y + + ϱ(x, y)dxdy = 1. Si (X, Y) tiene densidad conjunta ϱ(x, y) en el plano, cada una de las variables aleatorias X e Y tiene densidad en la recta. Estas se llaman densidades marginales. Las densidades marginales se pueden calcular a partir de la densidad conjunta mediante integrales análogas a las fórmulas discretas para probabilidades marginales como sumas de filas y columnas en una tabla de contingencia. La probabilidad de puntos discretos se reemplaza por densidades y sumas por integrales: ϱ X (x) = ϱ Y (y) = + + ϱ(x, y)dy; ϱ(x, y)dx. En general, dos variables aleatorias X e Y se dicen independientes si P (X A, Y B) = P (X A) P (X B), para cualquier elección de conjuntos A y B en la recta real. Cuando el par (X, Y) tiene densidad conjunta ϱ(x, y), las variables X e Y son independientes si, y solo si, la densidad conjunta es igual al producto de las densidades marginales ϱ(x, y) = ϱ X (x)ϱ Y (y) para todo x, y R. Intuitivamente, esta ecuación se deduce de la definición tomando A como el intervalo infinitesimal (x, x + dx) y B como el intervalo infinitesimal (y, y + dy), obteniendo así P (X dx, Y dy) = P (X dx) P (Y dy) por lo que ϱ(x, y)dxdy = ϱ X (x)dx ϱ Y (y)dy. Cancelando los infinitésimos se obtiene la formula para las densidades. Recíprocamente, se va de las densidades a las probabilidades integrando. El valor esperado de una función g(x, Y) se puede calcular de forma análoga al caso discreto como E (g(x, Y)) = + + Ejemplo: la uniforme en un triángulo g(x, y)ϱ(x, y)dxdy. Supongamos que (X, Y) se distribuye uniformemente en el triángulo T = {(x, y) : < x < y < 1}. La densidad conjunta de (X, Y) es simplemente ϱ(x, y) = 2 si (x, y) T; si no. 3
y 1 y = x 1 x Las densidades marginales son ϱ X (x) = = + y=1 y=x ϱ(x, y)dxdy 2dy (pues ϱ(x, y) = 2 si < x < y < 1 y si no) = 2(1 x) (si < x < 1 y cero si no) ϱ Y (y) = = + x=y x= ϱ(x, y)dxdy 2dx (pues ϱ(x, y) = 2 si < x < y < 1 y si no) = 2y (si < y < 1 y cero si no) Con esto podemos ver que X e Y no son independientes ya que ϱ(x, y) ϱ(x)ϱ(y). Podemos calcular además las esperanza de X ey: E (X) = E (Y) = + + x ϱ X (x) = yϱ Y (y) = 1 1 2x(1 x)dx = 1 3 ; 2ydy = 2 3. Por otro lado, la esperanza del producto E (XY) está dada por E (XY) = + + y=1 x=y y=1 y 3 xyϱ(x, y)dxdy = 2 dy xydx = 2 y= x= y= 2 dy = 1 4 Esto confirma lo dicho anteriormente sobre la independencia de X e Y. Ejemplo: variables exponenciales independientes Sean X e Y independientes con distribución exponencial de parámetros λ y µ respectivamente. Calculemos P (X < Y). La densidad conjunta de (X, Y) es ϱ(x, y) = ( λe λx) µe µy = λ µe λx λy 4
para x e y positivos. Esto se deduce de la independencia de X e Y. Luego, la probabilidad P (X < Y) se calcula integrando ϱ(x, y) sobre la región {(x, y) : x < y}: P (X < Y) = λ µe λx λy dxdy = dx λ µe λx λy = x<y x= λe (λ+µ)x dx = λ λ + µ Notar que se obtiene el mismo resultado si se integra en el otro orden, esto siempre es así. 3. Densidad condicional Esta sección trata las probabilidades condicionales dado el valor de una variable aleatoria X con distribución continua. En el caso discreto, la probabilidad condicional de un evento A, dado que X tiene un valor x, se define por x= y=x P (A X = x) = P (A, X = x) P (X = x), siempre que P (X = x) >. En el caso continuo P (X = x) = para todo x, entonces la fórmula anterior da la expresión indefinida /. Esto debe ser reemplazado, como en la definición usual del cálculo de una derivada dy/dx, por lo siguiente: P (A X = x) = P (A X dx) P (X dx) Intuitivamente, P (A X = x) debe entenderse como P (A X dx), la probabilidad de A dado que X cae en un intervalo muy pequeño cerca de x. Aquí se supone que en el límite de pequeños intervalos, esta posibilidad no depende de qué intervalo se elija cerca de x. Entonces, como una derivada dy/dx, P (A X dx) es una función de x, de ahí la notación P (A X = x). En términos de límites, P (A, X x) P (A X = x) = l ım P (A X x) = l ım x x P (X x) en donde x denota un intervalo de longitud x que contiene al punto x. Aquí se supone que el límite existe, excepto quizás para un número finito de puntos excepcionales x, como los puntos finales de un intervalo que define el rango de X, o lugares donde la densidad de X tiene una discontinuidad. A menudo, el evento A de interés está determinado por alguna variable aleatoria Y, por ejemplo A = {Y > 3}. Si (X, Y) tiene densidad conjunta ϱ(x, y), entonces P (A X = x) se puede calcular mediante integración de la densidad condicional de Y dado X = x, definida de la siguiente manera: 5
Densidad condicional de Y dado X = x Si X e Y tienen densidad conjunta ϱ(x, y), entonces para cada x tal que la densidad marginal ϱ X (x) >, la densidad condicional de Y dada X = x se define como la función de densidad de probabilidad ϱ Y (y X = x) = ϱ(x, y) ϱ X (x). Intuitivamente, la fórmula para ϱ Y (y X = x) se justifica por el siguiente cálculo de la probabilidad de que Y dy dado que X = x: P (Y dy X = x) = P (Y dy X dx) = = ϱ(x, y)dxdy ϱ X (x)dx P (X dx, Y dy) P (X dx) = ϱ Y (y X = x)dy. La fórmula ϱ(x, y)dy = ϱ X (x), la densidad marginal de X, implica que ϱ Y (y X = x)dy = 1. Entonces, para cada x fijo con ϱ X (x) >, la fórmula para ϱ Y (y X = x) da una densidad de probabilidad en y. Esta densidad condicional dada x define una distribución de probabilidad parametrizada por x, llamada distribución condicional de Y dado X = x. Ver la Figura 2. En ejemplos, esta a menudo será una distribución familiar, por ejemplo, una distribución uniforme o normal, con parámetros que dependen de x. La densidad condicional de Y dado X = x puede entenderse geométricamente tomando una tajada vertical a través de la superficie de densidad conjunta en x, y renormalizando la función resultante de y por su integral total, que es ϱ X (x). Las probabilidades condicionales dado X = x de eventos determinados por X e Y pueden calcularse integrando con respecto a esta densidad condicional. Por ejemplo: P (Y > b X = x) = P (Y > 2X X = x) = b 2x ϱ Y (y X = x)dy; ϱ Y (y X = x)dy. Dichas expresiones se obtienen formalmente de sus análogos discretos reemplazando una suma por una integral, y reemplazando la probabilidad de un punto individual por el valor de una densidad multiplicada por una longitud infinitesimal. Ejemplo: uniforme en un triángulo Supongamos que (X, Y) es un punto al azar en el triángulo T = {(x, y) : x, y, x + y 2}. Calculemos la probabilidad de que Y > 1 dado que X = x. Para ilustrar los conceptos básicos, daremos tres soluciones ligeramente diferentes. 6
Figura 2: Aquí se muestra las densidades condicionales para la densidad ϱ(x, y) de la Figura 1, y para varios valores de x. La figura de la izquierda muestra las tajadas con x constante, y en la de la derecha aparecen las densidades normalizadas por la marginal. Enfoque intuitivo Intuitivamente, parece obvio que dado X = x, el punto aleatorio (X, Y) es un punto uniforme en el segmento vertical {(x, y) : y, x + y 2 que tiene longitud 2 x. Esta es la distribución condicional de (X, Y) dado que X = x. Si x está entre y 1, la proporción de este segmento que está por arriba de la linea horizontal y = 1 tiene longitud (2 x) 1 = 1 x. De otro modo, la proporción es nula. Luego, la respuesta es P (Y > 1 X = x) = (1 x)/(2 x) si x < 1; si no. A partir de la definición de probabilidad condicional Para ver que la solución anterior coincide con la definición formal P (Y > 1 X = x) = l ım P (Y > 1 X x) x observar el siguiente diagrama que muestra los eventos Y > 1 y X x. Como el triángulo tiene área 2, la probabilidad de un evento es la mitad de su área. Luego, para x < 1, x + x 1, tenemos que P (X x) = 1 ( 2 x 2 x 1 ) 2 x y por lo tanto P (Y > 1, X x) = 1 2 x ( 1 x 1 2 x ). 7
Entonces, para x < 1, deducimos que P (Y > 1 X x) = P (Y > 1, X x) P (X x) = 1 x 1 2 x 2 x 1 2 x 1 x 2 x cuando x. Esto confirma la solución anterior cuando x < 1. La formula para x 1 es obvia pues el evento {Y > 1, X x} es vacío en ese caso. 2 1 Y = 1 X + Y = 2 X x 2 Cálculo con densidades Calculemos ahora P (Y > 1 X = x) usando la densidad condicional ϱ Y (y X = x). La distribución uniforme en el triángulo T tiene densidad Entonces, para x 2 tenemos Luego ϱ X (x) = ϱ(x, y) = 1/2 si (x, y) T en otro caso. ϱ(x, y)dy = 2 x 1 2 dy = 1 (2 x). 2 ϱ Y (y X = x) = ϱ(x,y) ϱ X (x) = 1 2 x si y 2 x; si no. Esto es, dado X = x con x 2, Y tiene distribución uniforme en (, 2 x), como es de esperarse intuitivamente. Entonces P (Y > 1 X = x) = 2 x 1 dy 2 x = 1 x 2 x si x 1 si no. 8
La misma respuesta que antes. El objetivo de la primera solución es que las distribuciones condicionales a menudo son intuitivamente obvias, y una vez identificadas, pueden usarse para encontrar probabilidades condicionales muy rápidamente. La segunda solución muestra que este tipo de cálculo está justificado por la definición formal. Este método no es recomendado para cálculos de rutina. La tercera solución es esencialmente una versión más detallada de la primera. Aunque bastante pedante en el presente problema, este tipo de cálculo es esencial en problemas más difíciles en los que no se puede adivinar la respuesta mediante un razonamiento intuitivo. 4. Propiedades de las densidades condicionales Regla del producto Cuando la densidad de X es conocida, y la densidad condicional de Y dado X = x es conocida para todo x en el recorrido de X, la densidad conjunta del par (X, Y) se calcula mediante la siguiente regla del producto para densidades: Ejemplo ϱ(x, y) = ϱ X (x)ϱ Y (y X = x) Supongamos por ejemplo que la densidad de X está dada por ϱ X (x) = λ 2 xe λx si x ; si no; y que Y tiene distribución condicional uniforme en (, x) dado que X = x. Calculemos la densidad conjunta del par (X, Y). La densidad condicional de Y dado que X = x es ϱ Y (y X = x) = 1/x si < y < x; si no. Por la regla del producto tenemos ϱ(x, y) = ϱ X (x)ϱ Y (y X = x) = λ 2 e λx si < y < x; si no. Una vez que tenemos la densidad conjunta, podemos calcular la densidad marginal de Y: ϱ Y (y) = ϱ(x, y)dx = La densidad es por supuesto nula si y. y λ 2 e λx dx = λe λy si y. 9
Fórmulas de la probabilidad total y Bayes Para una variable aleatoria X con densidad ϱ X (x) la fórmula de la probabilidad total deviene P (A) = P (A X = x) ϱ X (x)dx La integral descompone la probabilidad de A de acuerdo a los distintos valores que puede tomar X: P (A X = x) ϱ X (x) = P (A X dx) P (X dx) = P (A, X dx). Al igual que en el caso discreto, a menudo P (A X = x) se especifica de antemano por la formulación de un problema. Luego P (A) puede calcularse mediante la fórmula integral de la probabilidad total, suponiendo también que se conoce la distribución de X. La regla de Bayes da la densidad condicional de X dado que A ha ocurrido: P (X dx A) = P (A X dx) P (X dx) P (A) = ϱ X(x)P (A X = x) dx ϱx (x)p (A X = x) dx Ejemplo Supongamos que Π tiene distribución uniforme en [, 1]. Dado que Π = p, sea S n el número de éxitos en n ensayos de Bernoulli con probabilidad de éxito p. Calculemos la distribución de S n. Como la densidad de Π es ϱ Π (p) = 1 si p [, 1] y cero en otro caso, por la fórmula de la probabilidad total tenemos que P (S n = k) = P (S n = k Π = p) ϱ Π (p)dp = 1 ( ) n p k (1 p) n k dp = 1 k n + 1. Es decir, S n tiene distribución uniforme en {,..., n}. Calculemos ahora la densidad condicional de Π dado que S n = k. Usando la regla de Bayes, para < p < 1 tenemos P (Π dp S n = k) = P (Π dp) P (S n = k Π = p) P (S n = k) = (n + 1) ( ) n p k (1 p) n k dp. k Calculemos ahora la probabilidad de que el próximo ensayo sea un éxito dado que S n = k. P (un éxito más S N = k) = = 1 1 P (un éxito más S N = k, Π = p) ϱ Π (p S n = k)dp pϱ Π (p S n = k)dp = k + 1 n + 2 En particular, para k = n, dados n éxitos seguidos, la probabilidad de un éxito más es (n + 1)/(n + 2). Esta fórmula, para la probabilidad de un éxito más dada una serie de n éxitos en ensayos independientes con probabilidad de éxito desconocida, supuestamente distribuida uniformemente en (, 1), se conoce como la ley de Laplace. 1
Laplace ilustró su fórmula calculando la probabilidad de que el sol salga mañana, dado que ha salido diariamente durante 5 años, o n = 1826213 días. Pero este tipo de aplicación es dudosa. Tanto la suposición de ensayos independientes con p desconocida, como la distribución a priori uniforme de p, tienen poco sentido en este contexto. 5. Esperanza condicional La esperanza condicional de Y dada X = x, denotada E (Y X = x), se define como la esperanza de Y con respecto a la distribución condicional de Y dada X = x. De manera más general, para una función g(y), suponiendo que Y tiene densidad condicional ϱ Y (y X = x) tenemos que E (g(y) X = x) = g(y)ϱ Y (y X = x)dy. Tomando g(y) = y da EY X = x. La integración de la eesperanza condicional con respecto a la distribución de X da la esperanza (incondicional) E (g(y)) = E (g(y) X = x) ϱ X (x)dx. Estas fórmulas son extensiones a funciones generales g(y) de la fórmula de probabilidad total anterior, que son el caso especial cuando g es un indicador de un conjunto. Como regla general, valen las mismas propiedades para la esperanza condicional que valen para la esperanza (incondicional). Ejemplo: punto al azar en un triángulo Supongamos que (X, Y) es un punto al azar en el triángulo T = {(x, y) : x, y, x + y 2}. Calculemos E (Y X = x). Dado X = x, con < x < 2, Y tiene distribución uniforme en (, 2 x). Como la esperanza de esta distribución condicional es (2 x)/2, concluimos que E (Y X = x) = 2 x 2. Una notación muy usada es la siguiente: E (Y X) = (2 X)/2. Cuando sabemos que X = x, basta reemplazar x por X en la expresión anterior. 6. Covarianza y correlación La covarianza y la correlación se definen de la misma forma que en el caso discreto. La única diferencia es que en la práctica, para calcularlas debemos reemplazar las sumas por integrales, y las probabilidades puntuales por densidades. A continuación enumeramos las propiedades más importantes: La covarianza de X e Y es cov (X, Y) = E (XY) E (X) E (Y). 11
De esta forma, la varianza de la suma X + Y es var (X + Y) = var (X) + var (Y) + 2cov (X, Y). En general, vale que la suma de n variables X 1,..., X n es var n i=1 X i = n var (X i ) + 2 cov X i, X j. i=1 El coeficiente de correlación de X e Y es r XY = i< j cov (X, Y) var (X) var (Y). El coeficiente de correlación está siempre entre 1 y 1, y vale cero si X e Y son independientes. El coeficiente r XY = ±1 si, y solo si Y = ax + b. Lecturas recomendadas? 12