Capítulo 2. Probabilidad El objetivo de la teoría de la probabilidad es analizar fenómenos aleatorios. Ejemplos: Juegos de azar (dados, ruleta, cartas, etc.) Análisis de riesgo (medicina, medioambiente, economía, etc.) Física (física estadística, mecánica cuántica, etc.) Informática (algoritmos probabilistas) Para el análisis de tales fenómenos, la teoría construye y estudia modelos matemáticos. La teoría de la probabilidad se apoya en el lenguaje de la teoría de conjuntos, de la combinatoria, y del cálculo diferencial e integral. 2. Probabilidad 1 / 59
Capítulo 2. Probabilidad Las nociones que estudiaremos en este capítulo son las siguientes: 2.1. Espacios de probabilidad. 2.2. Probabilidad condicionada. Particiones. 2.3. Variables aleatorias. Distribución, media y varianza. 2.4. Ejemplos importantes de distribuciones y modelos probabiĺısticos. 2.5. Vectores aleatorios. Independencia de variables aleatorias. 2.6. Ejemplos importantes de modelos probabiĺısticos multidimensionales. 2.7. Teorema central del ĺımite. Leyes de grandes números. (interpretación y aplicaciones). Para empezar, vamos a definir la noción de espacio de probabilidad, que nos permitirá modelizar un fenómeno aleatorio. La definición general de un espacio de probabilidad consistirá en tres componentes principales: un espacio muestral, una familia de eventos en este espacio, y una medida de probabilidad. Entremos en los detalles. 2. Probabilidad 2 / 59
Espacios de probabilidad: nociones básicas Definición (Espacio muestral) El espacio muestral, denotado por Ω, es el conjunto de resultados elementales posibles que puede tener el experimento (o fenómeno) aleatorio. Decimos que un espacio muestral es discreto si es finito o numerable, es decir que se puede escribir Ω = {ω 1, ω 2,...}. Ejemplos: cara o cruz : Ω = {0, 1}, Definición (Eventos) lanzar un dado: Ω = {1, 2, 3, 4, 5, 6} = [6], lanzar dos dados: Ω = {(1, 1), (1, 2),..., (6, 6)} = [6] [6], lanzar una moneda hasta que salga cruz: Ω = {1, 01, 001,..}. ejemplo no discreto: el intervalo Ω = [0, 1]. Dado un espacio muestral Ω, un evento (o suceso) es un subconjunto de Ω del cual podremos definir una probabilidad. Denotamos por F el conjunto de todos los eventos. 2. Probabilidad 2.1. Espacios de probabilidad 3 / 59
Nociones básicas Para Ω discreto, usualmente podremos tomar F = P(Ω) = 2 Ω, el conjunto potencia de Ω, i.e., el conjunto de todos los subconjuntos de Ω. Ejemplo: cara o cruz : Ω = {0, 1}, 2 Ω = {, {0}, {1}, {0, 1} }. Álgebra de conjuntos Muy a menudo se necesita manejar y combinar varios eventos para expresar y analizar nuevos eventos más complicados. Para ello la teoría de conjuntos provee varias operaciones y relaciones básicas. Dados eventos A, B Ω, tenemos: Unión: A B = {ω Ω : ω A o bien ω B} ( o bien no exclusivo). Intersección: A B = {ω Ω : ω A y ω B}. Inclusión: A B. Para todo ω A se tiene ω B. Diferencia: A \ B = {ω A : ω B}. Complemento: A c = Ω \ A = {ω Ω : ω A}. Nótese: A \ B = A B c. Dos eventos A, B son disjuntos si A B =, el conjunto vacío. 2. Probabilidad 2.1. Espacios de probabilidad 4 / 59
Nociones básicas Propiedades de las operaciones con conjuntos Conmutatividad: Para la unión: A B = B A. Para la intersección: A B = B A. Asociatividad: Para la unión: A (B C) = (A B) C. Para la intersección: A (B C) = (A B) C. Elementos neutros: Para la unión: A = A. Para la intersección: A Ω = A. Distributividad: De la unión respecto a la intersección: A (B C) = (A B) (A C). De la intersección respecto a la unión: A (B C) = (A B) (A C). Leyes de De Morgan: (A B) c = A c B c, (A B) c = A c B c. 2. Probabilidad 2.1. Espacios de probabilidad 5 / 59
Definición (Espacio de probabilidad discreto) Sea Ω un espacio muestral discreto y sea F = 2 Ω. Una probabilidad (o medida de probabilidad) sobre Ω es una función P : F R, A P(A) que satisface los axiomas siguientes: 1. Para todo A F, 0 P(A) 1. Es decir que P : F [0, 1]. 2. P(Ω) = 1. 3. σ-aditividad (o aditividad numerable): para una familia numerable cualquiera de eventos A 1, A 2,... F disjuntos 2 a 2, tenemos P ( j=1 A j) = j=1 P(A j). Llamamos la terna (Ω, F, P) un espacio de probabilidad discreto. En el caso de espacios Ω finitos, el axioma 3 es equivalente al siguiente. aditividad: A, B Ω con A B =, tenemos P(A B) = P(A) + P(B). En el caso de espacios Ω más generales (posiblemente no discretos), la definición de (Ω, F, P) es similar, pero hay que cambiar lo siguiente: en vez de tomar F = 2 Ω, se exige que F sea una σ-álgebra (o tribu) de subconjuntos de Ω (vemos esto a continuación). 2. Probabilidad 2.1. Espacios de probabilidad 6 / 59
Espacio de probabilidad Nota acerca de σ-álgebras: la noción de σ-álgebra se introduce porque, en algunos espacios muestrales no discretos, no es posible definir una probabilidad sobre la familia de conjuntos 2 Ω entera. (e.g. en el intervalo [0, 1] R existen conjuntos no medibles ). Definición (σ-álgebra) Dado un conjunto Ω, una familia F de subconjuntos de Ω se llama una σ-álgebra (o tribu) si satisface las propiedades siguientes: 1. Ω F. 2. Clausura bajo complementación: si A F entonces A c F. 3. Clausura bajo unión numerable: si {A i } i=1 F, entonces i=1 A i F. Llamamos los elementos de F los eventos o sucesos (aleatorios) en el espacio de probabilidad (Ω, F, P). 2. Probabilidad 2.1. Espacios de probabilidad 7 / 59
Espacios de probabilidad Tenemos así la definición general siguiente (debida a Kolmogorov): Definición (Espacio de probabilidad) Un espacio de probabilidad es una terna (Ω, F, P) donde Ω es un conjunto, donde F 2 Ω es una σ-álgebra, y donde P : F R satisface: 1. Para todo A F, 0 P(A) 1. 2. P(Ω) = 1. 3. σ-aditividad: para una familia numerable cualquiera de eventos A 1, A 2,... F disjuntos 2 a 2, tenemos P ( j=1 A j) = j=1 P(A j). Deducimos de estos axiomas las propiedades adicionales siguientes: P(A c ) = 1 P(A). P( ) = 0. A B P(A) P(B). (Ejercicio: demostrar estas propiedades.) 2. Probabilidad 2.1. Espacios de probabilidad 8 / 59
Espacios de probabilidad Principio de inclusión-exclusión: P(A B) = P(A) + P(B) P(A B). P(A B C) = P(A) + P(B) + P(C) P(A B) P(A C) P(B C) + P(A B C). Para más intuición sobre estas fórmulas, se puede usar diagramas de Venn. Fórmula general del principio de inclusión-exclusión: P ( n j=1 A j) = n j=1 P(A j) 1=i<j n P(A i A j ) + 1=i<j<k n P(A i A j A k ) +( 1) n+1 P(A 1 A n ). (Esta fórmula se puede demostrar por inducción sobre n.) 2. Probabilidad 2.1. Espacios de probabilidad 9 / 59
Construcción de un espacio de probabilidad Sea Ω un espacio muestral. Cómo especificamos completamente un espacio de probabilidad (Ω, F, P)? Nos concentramos por ahora en el ámbito discreto, con Ω = {ω 1, ω 2,...} (y F = 2 Ω ). En este caso, para especificar la medida de probabilidad P completamente, basta con describir la probabilidad de cada evento unitario {ω j }, j N, definiendo P({ω j }) = p j [0, 1], con la condición j p j = 1. En efecto, entonces la probabilidad de un evento A cualquiera es la suma de las probabilidades de sus subconjuntos unitarios: P(A) = j:ω j A p j. Cuando Ω es finito, un caso frecuente es el de equiprobabilidad (eventos unitarios todos con igual probabilidad). Este es el caso en que, siendo N = Ω, asignamos p j = 1 N, j [N]. Tenemos entonces lo siguiente: Regla de Laplace (para el caso de equiprobabilidad) Sea (Ω, 2 Ω, P) finito con eventos unitarios equiprobables. Entonces para todo A Ω, tenemos P(A) = A número de resultados favorables N = número de resultados posibles. En este caso, evaluar probabilidades de eventos es un problema de conteo. 2. Probabilidad 2.1. Espacios de probabilidad 10 / 59
Nociones de combinatoria enumerativa La combinatoria enumerativa estudia métodos para enumerar (contar) varios tipo de configuraciones de elementos de un conjunto. Listas ordenadas. Cuántas listas de k posiciones ordenadas (ω j1, ω j2,..., ω jk ) se pueden formar escogiendo entre n elementos ω 1,..., ω n? Con repetición de elementos: n k (esto es la cardinalidad de [n] k ). Sin repetición: n(n 1)(n 2) (n k + 1). n! si k = n. Nótese: dicho de otro modo, k! es el número de maneras en que se puede reordenar k objetos. Subconjuntos. Cuántos conjuntos de k elementos se pueden formar escogiendo entre n elementos? (listas sin repetición y sin orden) ( Respuesta: el coeficiente binomial n k) = n(n 1)(n 2) (n k+1) k! = n! k!(n k)!. Nótese: n k=0 ( n k) = número total de subconjuntos de Ω = {ω1,..., ω n } = 2 Ω = 2 n. 2. Probabilidad 2.1. Espacios de probabilidad 11 / 59
Ejemplos Ejemplo 1: ensayo de Bernoulli Ω = {0, 1}, F = {, {0}, {1}, {0, 1} }. P({0}) = p, P({1}) = 1 p, p [0, 1] cualquiera pero fijado. Ejemplo concreto: cara o cruz, p = 1/2. (Moneda cargada, p 1/2.) Ejemplo 2: lanzar un dado Ω = {1,..., 6}, F = 2 6 = 32. - equiprobabilidad: P(A) = A 6 para cualquier evento A. ejemplo: P(número par) = {2,4,6} 6 = 1/2. - dado cargado: probabilidades p 1,..., p 6 distintas. ejemplo: P({j}) = c j, proporcional a j [6]. Hallar la constante c. Necesitamos j [6] p j = 1 c(1 + 2 + + 6) = 1. Luego c = 1 1+ +6 = 1 21, y por tanto p j = j 21. 2. Probabilidad 2.1. Espacios de probabilidad 12 / 59
Ejemplos Ejemplo 3: lanzar una moneda tres veces seguidas. Ω = {0, 1} 3 = {000, 100,..., 111}, Ω = 2 3 = 8, F = 2 8 = 256. - equiprobabilidad: P(A) = A 8 para cualquier evento A. - moneda cargada: P(cara) = p. P({ω = abc}) = p #caras (1 p) #cruces, P(A) = ω A P(ω). Ejemplo 4: sacar una carta de una baraja española. Ω = { (P, i) : P {B, C, E, O}, i {1, 2, 3, 4, 5, 6, 7, S, C, R} }. Ω = 40. Para cualquier evento A Ω tenemos P(A) = A /40. P( sacar figura ) = 12/40 = 3/10. 2. Probabilidad 2.1. Espacios de probabilidad 13 / 59
Ejemplos Ejemplo 5: paradoja del cumpleaños. Cuál es la probabilidad de que al menos 2 personas en un grupo de n personas tengan la misma fecha de cumpleaños? Ω n = {listas ordenadas de n fechas con repetición} = {1,..., 366} n. Suponemos que todas las fechas tienen la misma probabilidad. A n = {listas de n fechas con (al menos) dos fechas repetidas}. P(A n ) = 1 P(A c n) (recordad esta idea para evaluar probabilidades) = 1 366 365 (366 n+1) 366 n. Tenemos P(A 23 ) = 50.7%. Para n 57, P(A n ) 99%! 2. Probabilidad 2.1. Espacios de probabilidad 14 / 59
Probabilidad condicionada Sea (Ω, F, P) un espacio de probabilidad, y sea B F un evento. La probabilidad de otro evento A puede depender de la información sobre si se da el evento B o no. Esta dependencia se puede formular de forma precisa usando la noción de probabilidad condicional. Ejemplo: supongamos que dividimos una población de 100 personas en hombres/mujeres y en fumadores/no-fumadores, y que obtenemos el resultado siguiente: F NF H 20 40 M 20 20 Escogiendo un miembro de esta población aleatoriamente con equiprobabilidad, tenemos P(F ) = 40 100 = 2/5. En cambio, si sabemos que el miembro escogido es un hombre, entonces la probabilidad cambia a P(F entre H) = 20 60 = 1/3. Nótese que esto es igual a 20/100 60/100 = P(H F ) P(H). Nótese también: P(H entre F ) = 20 40 P(F entre H). 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 15 / 59
2.2. Probabilidad condicionada Definición (Probabilidad condicionada) Sea (Ω, F, P) un espacio de probabilidad y sean A, B F, con P(B) > 0. La probabilidad de A condicionada a B (o dado B ) se define por la fórmula P(A B) = P(A B) P(B). Intuición: la fórmula de P(A B) da la medida de la parte de A que está en B, normalizada para que B tenga medida 1. (Básicamente, pasamos a tratar B como nuevo espacio muestral.) Si fijamos B F con P(B) > 0, podemos considerar la función P( B) : F [0, 1], A P(A B). Esta función es una medida de probabilidad sobre (Ω, F). (Se puede ver que P( B) satisface en efecto los axiomas de una probabilidad.) La información se da el evento B modifica la medida de probabilidad P original sobre (Ω, P). Pasamos así del espacio de probabilidad original (Ω, F, P) al nuevo espacio de probabilidad ( Ω, F, P( B) ). Este pasaje incorpora esta información al modelo de probabilidad. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 16 / 59
Ejemplos Ejemplo 1: se lanzan dos dados regulares (no cargados). Ω = [6] 2. Cuál es la probabilidad de que la suma S de los resultados sea 8? S = 2 3 4 5 6 7 8 9 10 11 12 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 6) (3, 6) (4, 6) (5, 6) (6, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (3, 5) (4, 5) (5, 5) (6, 5) (3, 1) (3, 2) (3, 3) (3, 4) (4, 4) (5, 4) (6, 4) (4, 1) (4, 2) (4, 3) (5, 3) (6, 3) (5, 1) (5, 2) (6, 2) (6, 1) Cuál es la probabilidad de que S = 8 dado que...? S es par. S es al menos 6. Los dados tienen el mismo resultado. Los dados tienen resultados distintos. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 17 / 59
Ejemplos Ejemplo 2: lanzar tres dados regulares seguidos. Ω = [6] 3, P({ω = abc}) = 1/6 3 = 1/216. P(456) = 1 216. P(456 6 en 3a posición) = P(456 456) = 1. P(456 3 en 3a posición) = 0. P(456 y 6 en 3a posición) P( 6 en 3a posición) = 1/63 6 2 /6 3 = 1/36. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 18 / 59
Fórmula del producto Teorema (Fórmula del producto) Sea (Ω, F, P) un espacio de probabilidad y A 1,..., A n F tales que P(A 1 A n ) > 0. Entonces tenemos las fórmulas siguientes: P(A 1 A 2 ) = P(A 1 ) P(A 2 A 1 ). P(A 1 A 2 A 3 ) = P(A 1 ) P(A 2 A 1 ) P(A 3 A 1 A 2 ). En general: P(A 1 A n ) = P(A 1 ) P(A 2 A 1 ) P(A n A 1 A n 1 ). Esta fórmula puede servir para calcular probabilidades de algunas intersecciones cuando se conoce las probabilidades condicionales. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 19 / 59
Fórmula del producto Ejemplo: una urna contiene 30 bolas: 10 azules, 12 blancas, 8 rojas. Cuál es la probabilidad de que extraigamos primero una bola azul (A 1 ), luego una blanca (B 2 ), luego una roja (R 3 ), sin remplazamiento? La fórmula nos da P(A 1 B 2 R 3 ) = P(A 1 ) P(B 2 A 1 ) P(R 3 A 1 B 2 ). P(A 1 ) = 1 3, P(B 2 A 1 ) = 12 29, P(R 3 A 1 B 2 ) = 8 28. Y con remplazamiento? 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 20 / 59
Particiones Definición (Partición) Sea (Ω, F, P) un espacio de probabilidad. Una colección contable (finita o numerable) de eventos {A 1, A 2,...} F forma una partición de Ω si: 1. P(A i ) > 0 para todo i. 2. Ω es la unión disjunta de los A i, es decir que los A i son disjuntos 2 a 2 y tenemos Ω = i A i. Notaciones para una unión disjunta: Ω = i A i, o bien Ω = i A i. *Nota adicional, sobre la relación entre particiones y tribus (σ-álgebras):* Sea {A j } j [m] una partición de un espacio finito Ω. Sea F = {B Ω : B = j J, J [m]} (cada B es la unión de algunos A j). Se puede verificar que la familia F es una tribu de subconjuntos de Ω. Esto define una función {particiones de Ω} {tribus sobre Ω}. Esta función es una biyección, con la función inversa siguiente: dada una tribu F sobre Ω, se puede verificar que los átomos de F forman una partición de Ω. (A F es un átomo si no hay B F con B A.) 2. Probabilidad 2.2. Probabilidad condicionada. Particiones. 21 / 59
Probabilidad total Sea (Ω, F, P) un espacio de probabilidad, y sean B 1,..., B n unos eventos que forman una partición de Ω. ( Es decir que satisfacen n j=1 B j = Ω y P(B i ) > 0 para todo i.) Entonces, dado un evento A Ω, conociendo las probabilidades condicionales P(A B j ) y las probabilidades P(B j ) se puede obtener la probabilidad de A, usando la fórmula siguiente. Fórmula de probabilidad total Dada una partición n j=1 B j = Ω, y cualquier A F, tenemos P(A) = n j=1 P(A B j) P(B j ). Ejemplo: sean dos urnas, etiquetadas I y II. La urna I contiene 9 bolas verdes y 3 bolas rojas; la urna II contiene 5 bolas verdes y 10 bolas rojas. Lanzamos una moneda regular, y luego, en base al resultado, extraemos una bola de una de las urnas (cara extraemos de I; cruz extraemos de II). P(R = sacar bola roja )? P(R) = P(R I) P(I) + P(R II) P(II) = 3 12 1 2 + 10 15 1 2 = 11 24. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 22 / 59
Independencia de eventos Definición Sea (Ω, F, P) un espacio de probabilidad. Dos eventos A, B F son independientes si P(A B) = P(A) P(B). Observaciones: (A, B independientes y P(B) > 0) P(A B) = P(A B) P(B) = P(A). De modo que, si A y B son independientes, la ocurrencia de A no altera la probabilidad de que ocurra B, y vice versa. Cuidado: A B = A, B independientes. ( Ejemplo?) P(A) {0, 1} A, B son independientes para todo B F. Si A y B son independientes, entonces: A, B c son independientes; A c, B son independientes; y A c, B c son independientes. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 23 / 59
Independencia de eventos Ejemplo 1: recordemos el ejemplo anterior con bolas de tres colores en una urna. Las extracciones sucesivas de bolas de la urna, con remplazamiento, dan eventos independientes. Sin embargo, las extracciones sucesivas *sin* remplazamiento dan eventos *no* independientes en general. Ejemplo 2: lanzar 4 monedas regulares sucesivamente. Ω = {cccc,..., xxxx} = {c, x} 4, Ω = 2 4 = 16. Cada resultado r 1 r 2 r 3 r 4 tiene igual probabilidad 1/16. Sea A el evento obtener dos caras exactamente. A = {ccxx, cxcx,... }. Tenemos P(A) = ( 4 2) /16 = 3/8. Sea B el evento obtener cara en 2a posición. Tenemos P(B) = 23 16 = 1 2. Sea C el evento en las posiciones 1,2 sólo hay una cara. Tenemos P(C) = P({cx } {xc }) = 22 16 + 22 16 = 1 2. Ahora, P(A B) = P({r 1 cr 3 r 4 :! j 2, r j = c}) = P({ccxx, xccx, xcxc}) = 3 1 2 = 3 16 P(A) P(B) = 3 8. Por lo tanto A, B son independientes. P(A C) = 2 2 16 = 1 4. P(A) P(C) = 3 1 8 2 = 3 16. A, C no son independientes. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 24 / 59 16.
Independencia de eventos Ejemplo 3: supongamos las distribuciones siguientes de enfermos (E) entre dos poblaciones de hombres (H) y mujeres (M): Población 1 Población 2 P(M) = 90% P(M) = 60% P(E H) = 1/10 P(E H) = 1/8 P(E M) = 9/40 P(E M) = 1/4 Calcular P(E) en cada población, usando la fórmula de probabilidad total. En la población 1: P(E) = P(E H) P(H) + P(E M) P(M) = 1 10 10% + 9 40 90% = 21, 25%. En la población 2: P(E) = P(E H) P(H) + P(E M) P(M) = 1 8 40% + 1 4 60% = 20%. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 25 / 59
Independencia de más de dos eventos Definición (Independencia mutua de tres eventos) Sea (Ω, F, P) un espacio de probabilidad. Tres eventos A 1, A 2, A 3 F son mutuamente independientes si se dan las condiciones siguientes: 1. Son independientes 2 a 2: P(A i A j ) = P(A i ) P(A j ), i j [3]. 2. P(A 1 A 2 A 3 ) = P(A 1 ) P(A 2 ) P(A 3 ). Nótese: 1. 2., y 2. 1. Contraejemplo para 1. 2: sea Ω = [4], F = 2 [4], con equiprobabilidad. Los eventos {1, 2}, {2, 3}, y {3, 1} satisfacen 1. pero no 2. Contraejemplo para 2. 1: sea Ω = [8], F = 2 [8], con equiprobabilidad. Los eventos A 1 = {1, 2, 3, 4}, A 2 = {1, 3, 5, 7}, y A 3 = {1, 2, 4, 8} satisfacen 2. pero no 1. (A 1 A 2 A 3 = {1}, tiene probabilidad 1 8 = 3 i=1 P(A i). Sin embargo A 2 A 3 = {1} tiene probabilidad 1 8 P(A 2)P(A 3 ) = 1/4.) 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 26 / 59
Independencia de más de dos eventos Definición (Independencia mutua de n eventos) Sea (Ω, F, P) un espacio de probabilidad, y sean A 1, A 2,..., A n eventos en F, con n 2. Estos eventos son mutuamente independientes si para toda subcolección A i1, A i2,..., A im de ellos (i j [n], 2 m n), tenemos P(A i1 A i2 A im ) = P(A i1 ) P(A im ). Cuántas ecuaciones debemos comprobar para verificar que A 1,..., A n son independientes? La respuesta indica que la tarea puede ser compleja. Se puede verificar también el hecho siguiente: A 1,..., A n son mutuamente ind. A c 1,..., Ac n son mutuamente ind. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 27 / 59
Teorema de Bayes Sean A, B eventos con probabilidades positivas en un espacio de probabilidad (Ω, F, P). Qué relación hay entre P(A B) y P(B A)? Cuidado: en general P(A B) = P(A B) P(B) P(A B) P(A) = P(B A). Lo que es cierto es que P(A B) P(B) = P(B A) P(A) (= P(A B)). Esto nos conduce al resultado siguiente: Teorema de Bayes Dados eventos A, B con P(B) > 0, tenemos P(A B) = P(B A) P(A) P(B). Este teorema (formulado por Thomas Bayes en el siglo XVIII), es importante para la ciencia en general, porque permite evaluar la causalidad entre fenómenos observados, en términos de probabilidades: si conocemos (por ejemplo, a partir de observaciones) las probabilidades de que ocurran dos fenómenos A, B y la probabilidad de que ocurra A dado B, entonces podemos evaluar la probabilidad de que ocurra B dado A. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 28 / 59
Teorema de Bayes Fórmula alternativa equivalente del teorema: podemos sustituir P(B) en el teorema de Bayes por la expresión P(B A)P(A) + P(B A c )P(A c ) (dada por la fórmula de probabilidad total). Obtenemos así la fórmula siguiente: P(A B) = P(B A) P(A) P(B A)P(A) + P(B A c )P(A c ). Ejemplo 1: sean dos urnas, etiquetadas I y II. La urna I contiene 9 bolas verdes y 3 bolas rojas; la urna II contiene 5 bolas verdes y 10 bolas rojas. Lanzamos una moneda regular, y luego en base al resultado, sacamos una bola de una de las urnas (cara sacamos de I, cruz sacamos de II). Dado que ha salido una bola roja, con qué probabilidad salió cara? Tenemos: P(v I) = 9 12, P(v II) = 5 15, P(r I) = 3 10 12, P(r II) = 15. Con esto, podemos hallar P(r) = P(r I)P(I) + P(r II)P(II) = 3 24 + 5 15 = 11 24. El teorema nos da pues P(I r) = P(r I) P(I) P(r) = 3 12 1/2 11/24 = 3 11. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 29 / 59
Falsos positivos y falsos negativos En aplicaciones prácticas de la probabilidad condicionada, hay que tener mucho cuidado con qué probabilidades se usan, y cómo se interpretan. Esto es el caso particularmente en cualquier ámbito donde, a partir de pruebas empíricas, se quiere evaluar (usando probabilidades observadas en los datos) si ha tenido lugar un fenómeno que no podemos observar directamente. Un ejemplo importante es en medicina, cuando se realiza un tipo de prueba cĺınica para detectar una enfermedad, y se quiere evaluar si este tipo de prueba es fiable. Otro ejemplo es el de los juicios en tribunales. Un falso positivo es un error de una tal prueba, que consiste en que la prueba dé un resultado positivo cuando en realidad el fenómeno que se quiere detectar con la prueba no ha ocurrido. (Por ejemplo, la prueba cĺınica nos dice que un sujeto tiene una enfermedad cuando en realidad no la tiene; o un juicio declara culpable a un inocente.) Un falso negativo es un error similar pero en sentido opuesto (la prueba da un resultado negativo cuando debería haber dado uno positivo). Más tarde veremos otra versión de estos conceptos (errores de tipo I y II). 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 30 / 59
Falsos positivos y falsos negativos Ejemplo: se hace una prueba para detectar una enfermedad. La prueba puede cometer errores. E = enfermo, S = sano, + = prueba positiva, = prueba negativa. Empíricamente, sabemos que P(+ E) = 95% y que P( S) = 99%. Esto parece indicar que la prueba es muy segura... Sin embargo, la probabilidad que mide la seguridad de la prueba es P(E +). No tenemos aun todos los datos para determinar P(E +). Falta P(E)! Supongamos primero que P(E) = 50%. El teorema de Bayes nos da P(E +) = P(+ E) P(E) P(+) = P(+ E) P(E) P(+ E)P(E) + P(+ S)P(S) = 95% 50% 95% 50% + 1% 50%. Esto es 98.96%. En cambio, supongamos P(E) = 1 1000 (enfermedad rara). Tenemos entonces 95% 1/1000 P(E +) = 95% 1/1000 + 1% 999/1000 = 8.68%. 2. Probabilidad 2.2. Probabilidad condicionada. Particiones 31 / 59
2.3. Variables aleatorias Sea (Ω, F, P) un espacio de probabilidad. Considerando los resultados ω del fenómeno aleatorio como miembros de una población, puede interesarnos alguna característica cuantitativa de estos miembros. Por ejemplo, si ω es un lugar aleatorio de la superficie terrestre, puede interesarnos la temperatura en ese lugar. Otro ejemplo: si ω es el resultado de lanzar un dado 5 veces (ω = (r 1,..., r 5 )), puede interesarnos la suma de los resultados i r i, o el número de veces que salió un 6, etc. Definición Una variable aleatoria (real) es una función X : Ω R, ω X (ω), donde (Ω, F, P) es un espacio de probabilidad. Ejemplo: para ω el resultado de lanzar un dado 5 veces, sea X la variable que da la suma total. Tenemos X : Ω {5,..., 30}, (r 1,..., r 5 ) i r i. Sea Y la variable que da el número de veces que sale un 6. Tenemos Y : Ω {1,..., 6}, (r 1,..., r 5 ) {i [5] : r i = 6}. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 32 / 59
Variables aleatorias Distinguiremos dos tipos de variables aleatorias reales: Variables aleatorias discretas: el recorrido de X (el conjunto de valores que toma X ) es discreto (finito o numerable). Para cada x en el recorrido de X, tenemos P(X = x) > 0. Los ejemplos de v.a.s que consideramos más a menudo en este curso son de este tipo, y además con Ω finito. (Nótese que X puede ser discreta con Ω infinito.) Variables aleatorias continuas: el recorrido de X es un subconjunto de R infinito y no discreto. En la práctica esto significa que el recorrido se podrá expresar usando intervalos en R (típicamente el recorrido de las variables continuas que veremos será un sólo intervalo, finito o infinito). En este caso, para cada x en el recorrido de X, tenemos P(X = x) = 0. Observaciones: En estricto rigor, para que X : Ω R sea una variable aleatoria sobre (Ω, F, R), debe cumplir una condición de medibilidad, que dice lo siguiente: para todo x R, el conjunto {ω Ω : X (ω) x} está en la σ-álgebra F. Cuando F = 2 Ω, esta condición siempre se cumple. También se cumplirá en todos los ejemplos que veremos. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 33 / 59
Variables aleatorias Como P es una medida de probabilidad sobre (Ω, F), y X : Ω R, tenemos una forma de medir cualquier conjunto A R tal que la preimagen X 1 (A) esté en F, a saber, tomando la medida P(X 1 (A)). De este modo, la medida de probabilidad P sobre (Ω, F) induce una nueva medida de probabilidad sobre R, que llamaremos distribución de probabilidad de la variable aleatoria X. Estudiaremos esta noción de distribución y sus consecuencias, distinguiendo entre variables discretas y continuas. Una función f : A B se conoce completamente cuando se conocen todos los pares (x, f (x)). En estricto rigor, para una variable aleatoria X : Ω R, hay que conocer también el espacio de probabilidad subyacente (en particular la medida de probabilidad P sobre Ω). En la práctica, se suele hablar de una variable aleatoria X sin especificar el espacio Ω, pero sí especificando la distribución de X. En la práctica, los cálculos con variables discretas usan la combinatoria y el manejo de sumas. En cambio, con variables continuas se trata usualmente de manejar integrales, usando cálculo. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 34 / 59
Variables aleatorias discretas Sea X una variable aleatoria (v.a.) real sobre un espacio (Ω, F, P). Vimos que la función P(X 1 (A)) (donde A R es tal que X 1 A F) define una probabilidad sobre R, llamada distribución de probabilidad de X. Supongamos que X es discreta, con valores posibles x 1, x 2,... (recorrido finito o infinito numerable), y probabilidades correspondientes p 1, p 2,... [0, 1], tales que j p j = 1. La distribución de probabilidad de X en este caso discreto queda determinada por la función que a cada valor x i asocia el número P(X = x i ) [0, 1]. Damos nombre a esta función importante como sigue. Definición (Función de masa de probabilidad de una variable discreta) Sea X una v.a. discreta, con recorrido R = {x 1, x 2,...} R. La función de masa de probabilidad (o simplemente función de probabilidad) de X es la función p X : R [0, 1], x j P(X = x j ) = p j. (A veces se acorta función de masa de probabilidad escribiendo f.m.p. ) 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 35 / 59
Variables aleatorias discretas Ejemplo: lanzar una moneda regular cuatro veces. Ω = {c, x} 4. Sea la variable aleatoria X (ω) = número de caras en ω. Describir la función de probabilidad de X. Tenemos p X (0) = 1/16, p X (1) = 4/16, p X (2) = ( 4 2) /16 = 6/16, px (3) = p X (1) = 4/16, p X (4) = p X (0) = 1/16. Se puede representar la función de probabilidad con un diagrama de barras. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 36 / 59
Media de una variable aleatoria discreta Definición Sea X : Ω R una variable aleatoria discreta. La media (o esperanza) de X es el número E(X ) = j x j P(X = x j ). (En el caso de un recorrido infinito de X, la media puede ser infinita.) Propiedades: Supongamos que existen a, b R tales que a X (ω) b para todo ω Ω. Entonces también se tiene a E(X ) b. Linealidad: fijemos a, b R cualesquiera, y sea Y la nueva variable aleatoria a + bx. Entonces E(Y ) = a + b E(X ). Más generalmente, dada una función g : R R, la función ω g(x (ω)) también es una variable aleatoria. Tenemos entonces E(g(X )) = j g(x j) P(X = x j ). Nótese que en el caso de equiprobabilidad, la esperanza de X es la media aritmética de sus valores. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 37 / 59
Varianza de una variable aleatoria discreta Definición (Varianza y desviación típica) Sea X : Ω R una variable aleatoria discreta. La varianza de X, denotada por V (X ), es el número E ( X E(X ) ) 2. La desviación típica de X, denotada por σ(x ) o por σ X, se define por σ(x ) = V (X ). Propiedades: Cuando X representa una característica de una población de tamaño n y hay equiprobabilidad, podemos ver sus valores x 1,..., x n como una muestra x. Entonces la varianza V (X ) es la varianza muestral j [n] (x j x) 2, vista anteriormente. La varianza definida aquí v x = 1 n es más conceptual y más general que la varianza muestral (por ejemplo, puede que no se verifique la equiprobabilidad). Tenemos la fórmula E ( X E(X ) ) 2 = E(X 2 ) E(X ) 2. (para ver esto, desarrollar el cuadrado y usar la propiedad de linealidad de la esperanza.) 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 38 / 59
Variables aleatorias continuas Típicamente, para una variable aleatoria continua X : Ω R, el rango de X consiste en un intervalo I R (finito o infinito). Ejemplo: X = la temperatura en un punto aleatorio ω de la tierra. En tal caso, la probabilidad de un valor individual x I es típicamente 0. Ejemplo: X = posición de un punto al azar en el intervalo [0, 1]. Aquí el espacio de probabilidad es [0, 1] con la medida de probabilidad que a cada intervalo (a, b) [0, 1] asigna el valor b a (medida de Lebesgue), y el intervalo I es [0, 1] también. Podemos pensar en X como la posición de la punta de un alfiler plantado aleatoriamente sobre una barra de longitud 1. Intuitivamente, está claro que la probabilidad de que el alfiler caiga exactamente en un punto x prescrito (ej. x = 0.5) es insignificante. Se puede llegar a esta intuición pensando en variables discretas que se aproximen a X. Por ejemplo, una variable X n : Ω {0, 1 n, 2 n,..., 1} con equiprobabilidad se puede ver como una aproximación de X cuando n es muy grande. Tenemos P(X n = 0.5) 1/n 0 cuando n. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 39 / 59
Variables aleatorias continuas De la previa discusión, resulta que para tales variables continuas X nos interesará más bien la probabilidad de que X tome su valor en un subintervalo de I dado (o en una unión de tales subintervalos). Ejemplos: la probabilidad de que la temperatura en un lugar aleatorio esté entre 20 y 25 grados; la probabilidad de que el alfiler caiga entre 0.5 y 0.75. Para evaluar la probabilidad de tales eventos, se usa un concepto que constituye el análogo para variables continuas de la función de masa de probabilidad. Definición Sea X : Ω R una v.a. continua. Se llama función de densidad de probabilidad (f.d.p.) de X a una función f : R R no-negativa e integrable tal que a, b R, a < b, P(a < X < b) = b a f (x) dx. Observaciones: Tenemos f (x) dx = 1. Para todo evento A Ω, tenemos P(X A) = A f (x) dx. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 40 / 59
Media y varianza de variables aleatorias continuas Definición (Media) Sea X : Ω R una v.a. continua con f.d.p. f. La media (o esperanza) E(X ) de X se define por la fórmula E(X ) = R x f (x) dx. Se puede comparar esto con la esperanza cuando X es discreta, E(X ) = j x j p X (x j ). Esto ilustra que se puede ver la noción de f.d.p. como versión continua de la función de masa. Esto se ve especialmente bien cuando X toma un número muy grande de valores muy próximos entre sí. Definición (Varianza y desviación típica) Sea X : Ω R una v.a. continua con f.d.p. f. La varianza V (X ) de X se define por la fórmula V (X ) = E ( X E(X ) )2, donde E(X ) = x f (x) dx. La R desviación típica de X, denotada por σ(x ) o por σ X, es σ(x ) = V (X ). 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 41 / 59
Función de distribución Definición Sea X : Ω R una v.a. (discreta o continua). La función de distribución acumulada (f.d.a.) de X (o simplemente función de distribución f.d.), es la función F X : R [0, 1], x P(X x). Observaciones: 1. Para X discreta, tenemos F X (x) = i:x i x p X (x i ). 2. Para X continua, tenemos F X (x) = x f (y) dy. 3. F X es no decreciente (x y F X (x) F X (y)). 4. Tenemos lim x F X (x) = 0, y lim x F X (x) = 1. 5. F X es continua por la derecha (x n x + F X (x n ) F X (x)). 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 42 / 59
Función de distribución Nota complementaria: un hecho adicional que puede resultar útil es el siguiente. Teorema de unicidad para funciones de distribución Sea F : R R una función con las propiedades siguientes: 1. F es no decreciente (x y F (x) F (y)). 2. lim x F (x) = 0, y lim x F (x) = 1. 3. F es continua por la derecha. Entonces, existe una v.a. X : (Ω, F, P) R tal que F = F X. Además, la v.a. X es única en distribución (toda otra variable aleatoria X : (Ω, F, P ) R con F = F X tiene la misma distribución de probabilidad que X ). Es decir, hay correspondencia biunívoca entre funciones de distribución y distribuciones de probabilidad de variables aleatorias. 2. Probabilidad 2.3. Variables aleatorias. Distribución, media y varianza. 43 / 59
2.4. Ejemplos de distribuciones y modelos probabiĺısticos Como mencionamos en la introducción, la utilidad práctica de la teoría de la probabilidad consiste en modelizar fenómenos que consideramos aleatorios. A continuación vamos a estudiar algunos modelos probabiĺısticos destacados. La importancia de cada uno de estos modelos radica en que nos ayuda a modelizar muchos tipos de fenómenos aleatorios aparentemente distintos. Empezaremos con modelos de tipo discreto, y luego veremos modelos de tipo continuo. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 44 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos Veremos los modelos siguientes: 1. Distribución uniforme discreta 2. Distribución de Bernoulli 3. Distribución binomial 4. Distribución geométrica 5. Distribución de Poisson 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 45 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos 1. Distribución uniforme discreta en n puntos Este modelo lo sigue cualquier v.a. X que tome n valores distintos x 1,..., x n con equiprobabilidad. La función de probabilidad es constante, p X (x i ) = P(X = x i ) = 1 n para todo i [n]. Se denota que X tiene esta distribución (o que sigue este modelo ) escribiendo X U({x 1,..., x n }). Un ejemplo usual que ya hemos visto: lanzar un dado regular (n = 6). Calculemos E(X ) y V (X ) cuando X U([n]). Tenemos: E(X ) = 1+2+ +n n E(X 2 ) = 12 + +n 2 n = n(n+1)/2 n = n+1 2, = n(n+1)(2n+1)/6 n = (n+1)(2n+1) 6. Tenemos pues V (X ) = E(X 2 ) E(X ) 2 = (n+1)(2n+1) 6 (n+1)2 4 = n2 1 12. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 46 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos 2. Distribución de Bernoulli de parámetro p (0, 1). Este modelo lo sigue cualquier v.a. X que tome sólo dos valores. Se suele denotar los valores por 0 y 1. (En un ensayo de Bernoulli se suele denotar por 0 el fracaso y por 1 el éxito.) El parámetro p es P(X = 1), luego P(X = 0) = 1 p. Se denota que X tiene esta distribución escribiendo X Be(p). (También X Ber(p).) Utilidad: modelizar fenómenos aleatorios que sólo tienen dos resultados posibles (lanzar una moneda una vez; respuesta de un votante a un referendum con opciones sí o no ; etc.) Esta distribución también es la base de la distribución binomial (que veremos a continuación), y de otras muchas distribuciones discretas importantes. Tenemos E(X ) = p, E(X 2 ) = p, luego V (X ) = p p 2 = p(1 p). 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 47 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos 3. Distribución binomial de parámetros n, p. Este modelo abarca a cualquier v.a. X que da el número de éxitos entre n ensayos de Bernoulli mutuamente independientes, todos con parámetro p. La función de probabilidad es P(X = k) = ( n k) p k (1 p) n k, para k [n]. Notación: X B(n, p). Utilidad: evaluar la probabilidad de un número dado de éxitos en una secuencia de n experimentos independientes, donde cada experimento sigue la distribución de Bernoulli Be(p). Nótese que B(1, p) es Be(p). Si X B(n, p), tenemos E(X ) = np, V (X ) = np(1 p). 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 48 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos 4. Distribución geométrica de parámetro p (0, 1) Esta distribución la tiene cualquier v.a. X que da el número de veces que es necesario repetir un ensayo de Bernoulli de parámetro p independientemente para obtener un primer éxito. La función de probabilidad es P(X = k) = p(1 p) k 1, para k = 0, 1, 2,.... Nótese que la sucesión (P(X = k)) k N es geométrica. Notación: X Geom(p). (También X G(p)) Utilidad: evaluar la probabilidad de que haya que esperar k unidades de tiempo hasta la ocurrencia, por primera vez, de un éxito en un fenómeno aleatorio que sigue Be(p). Si X Geom(p), tenemos E(X ) = 1/p, V (X ) = 1 p. p 2 Nótese también que esta distribución no tiene memoria, es decir que para todo j, k tenemos P(X > j + k X > j) = P(X > k). De hecho, es la única distribución discreta con esta propiedad. Esta distribución es el caso r = 1 de la distribución binomial negativa. Esto es útil en programas como Calc (ver la función NEGBINOMDIST). 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 49 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos 5. Distribución de Poisson de parámetro λ > 0. Esta distribución la tiene cualquier v.a. X que da el número de ocurrencias en un intervalo de un suceso de un tipo dado, sabiendo que el número esperado de tales sucesos en tal intervalo es λ y que cada suceso ocurre independientemente de los demás. Notación: X Poi(λ). La función de probabilidad es P(X = k) = e λ λk k!, para k = 0, 1, 2,.... Utilidad: evaluar la probabilidad de que ocurra un determinado número de sucesos de un tipo dado (típicamente sucesos raros, de poca frecuencia observada) durante un cierto periodo de tiempo (o región del espacio, etc.), suponiendo que cada evento ocurre independientemente. (Ejemplos: el número de errores tipográficos en una página de un libro publicado; el número de anticuerpos en un ml. de sangre). Para entender Poi(λ) es útil observar lo siguiente: si n y np n λ, entonces B(n, p n ) se aproxima a Poi(λ), es decir que para n grande y k fijo tenemos ( ) n k p k n (1 p n ) n k e λ λk k! (teorema del ĺımite de Poisson). 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 50 / 59
Modelos probabiĺısticos: ejemplos de modelos discretos Si X Poi(λ), la función de probabilidad es P(X = j) = e λ λj j!. Tenemos E(X ) = j=0 λ λj j e j! = e λ j=0 j=1 λ j (j 1)! = e λ λ j=0 λ j j! = λe λ e λ = λ. Tenemos V (X ) = λ. Para ver esto, dada la fórmula V (X ) = E(X 2 ) E(X ) 2, basta con demostrar que E(X 2 ) = λ 2 + λ. E(X 2 ) = j 2 λ λj e j! = λ j 1 λe λ j (j 1)! = λe λ( (j 1) = λe λ( λ j=1 j=2 j=1 λ j 1 (j 1)! + λ j 2 (j 2)! + j=0 λ j j! j=1 ) λ j 1 ) (j 1)! = λe λ (λe λ + e λ ) = λ 2 + λ. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 51 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos Pasamos a estudiar algunos modelos principales de tipo continuo. Veremos los modelos siguientes: 1. Distribución uniforme continua 2. Distribución exponencial 3. Distribución normal 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 52 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos 1. Distribución uniforme continua en el intervalo (a, b) Esta distribución la tiene cualquier v.a. X continua con valores en un intervalo (a, b) y tal que, para todo intervalo I (a, b) de longitud l fijada, la probabilidad P(X I) es la misma, l/(b a). La función de densidad de probabilidad (f.d.p.) es f (x) = 1 b a 1 (a,b)(x) para x R. (Aquí 1 (a,b) (x) = 1 si x (a, b), 0 si x (a, b).) Notación: X U(a, b). Utilidad: se puede usar para generar números pseudoaleatorios, con el Método de la transformada inversa. Supongamos que queremos generar valores aleatorios de una variable con función de distribución F continua e invertible. Primero generamos números con distribución U(0, 1) (uniforme estándar). Luego aplicamos la función inversa F 1 a los números. Tenemos E(X ) = 1 R x f (x) dx = b a V (X ) = E(X 2 ) E(X ) 2 = 1 F X (x) = x 1 b a dy = b a x dx = 1 b a [ x2 2 ]b a = a+b 2, b a [ x3 3 ]b a (a+b)2 4 = (b a)2 12, x b a. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 53 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos 2. Distribución exponencial de parámetro λ > 0. Esta distribución la tiene una v.a. X continua que mide el intervalo de tiempo transcurrido entre dos sucesos consecutivos de un tipo que sigue la distribución de Poisson con parámetro λ. La f.d.p. es f (x) = λe λx, x 0. (f (x) = 0, x < 0). Notación: X Exp(λ). Utilidad: evaluar la probabilidad de una longitud de tiempo de espera entre dos sucesos raros, sucesos cuyo número de ocurrencias en un intervalo sigue la distribución de Poisson. Muy utillizada en modelos de fiabilidad. Ejemplos: tiempo que tarda un electrodoméstico en averiarse; tiempo entre dos llegadas de pacientes a un servicio de urgencias; tiempo que tarda un material radiactivo en perder la mitad de su masa (datación con C 14 ). Tenemos E(X ) = λ 0 x e λx dx = 1/λ, usando integración por partes. V (X ) = λ 0 x 2 e λx dx 1 = 2 λ 2 0 x e λx dx 1 = 1. { λ 2 λ 2 1 e La f.d.a. es F X (x) = λx, x 0 0, x < 0. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 54 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos Precisemos la relación entre la distribución de Poisson y la distribución exponencial. Vamos a ver cómo se puede llegar a Exp(λ) desde Poi(λ). Sea N t el número de sucesos en un intervalo de tiempo [0, t], y supongamos que N 1 Poi(λ). Sea X t el tiempo de espera hasta un próximo suceso, suponiendo que ha ocurrido un suceso en tiempo t. Tenemos la equivalencia de eventos (X t > x) y (N t = N t+x ). Por lo tanto P(X t x) = 1 P(X t > x) = 1 P(N t = N t+x ). Tenemos por otro lado P(N t = N t+x ) = P(N x = 0). Usando la f.m.p. para Poi(λ), a saber λ k e λ /k!, se puede ver que P(N t+x = N t ) = (λx) 0 e λx /0! = e λx. Concluimos que P(X t x) = 1 e λx. Esto es la f.d.a. de Exp(λ)! Nótese: se puede ver que, al igual que la distribución geométrica, la distribución exponencial no tiene memoria. Es decir que, si X Exp(λ), entonces P(X > s + t X > s) = P(X > t) para todo s, t > 0. La distribución exponencial es la única distribución continua con esta propiedad. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 55 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos 3. Distribución normal de parámetros µ R, σ > 0. Esta distribución es muy importante, tanto en matemática pura como en aplicaciones. Su f.d.p., conocida como la función gaussiana (en honor a C.F. Gauss), es ( x µ ) 2 σ 1 f (x) = e 2 σ 2π. Notación: si una v.a. X tiene esta distribución se escribe X N(µ, σ 2 ). Se dice que X sigue la distribución normal con media µ y varianza σ 2. Utilidad: esta distribución es de las más usadas en aplicaciones, para analizar numerosos fenómenos naturales y sociales. Se puede justificar el uso de este modelo siempre que se pueda suponer que cada observación del fenómeno bajo estudio se obtiene como la suma de muchas variables independientes entre sí y de igual distribución. Esta ubicuidad de la distribución normal se debe principalmente a un resultado importante, el llamado Teorema Central del Límite. En particular, este teorema permite aproximar la distribución de una tal suma por una distribución normal. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 56 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos La gráfica de f (x) = e 1 2 ( x µ σ σ 2π ) 2 se suele llamar campana de Gauss. Algunas propiedades de la f.d.p. de N(µ, σ 2 ): f es simétrica respecto a la recta vertical x = µ. (f (µ x) = f (µ + x) para todo x R) f alcanza su máximo absoluto en µ, con valor f (µ) = 1 σ 2π. Los puntos µ + σ y µ σ son puntos de inflexión de f. Nótese: si X N(µ, σ 2 ), se puede verificar que E(X ) = µ, y V (X ) = σ 2. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 57 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos Estandarización (tipificación) de variables normales: Llamamos una v.a. Z una variable normal estandarizada (tipificada) si Z N(0, 1). La distribución N(0, 1) se llama distribución normal estándar. Sus f.d.p. y f.d.a. se suelen denotar por φ y Φ respectivamente: φ(x) = e x 2 2 x e y2 2, Φ(x) = dy. 2π 2π Nótese: si Y N(µ, σ 2 ) entonces Y = µ + σx con X N(0, 1). Esto permite reducir cálculos con N(µ, σ 2 ) a cálculos con N(0, 1). Por ejemplo P(Y 5) = P(µ + σx 5) = Φ( 5 µ σ ). 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 58 / 59
Modelos probabiĺısticos: ejemplos de modelos continuos Distribuciones asociadas a la normal: Más adelante (en el tercer capítulo), tras haber formalizado una noción de muestreo aleatorio, veremos las distribuciones adicionales siguientes, relacionadas con la distribución normal, que se usan mucho en estadística: Distribución χ 2 (de Pearson) con k grados de libertad. Distribución t (de Student) con ν grados de libertad. Distribución F (de Fisher-Snedecor) con m y n grados de libertad. 2. Probabilidad 2.4. Ejemplos importantes de distribuciones probabiĺısticas 59 / 59