Capítulo 2 Procesos Estocásticos La teoría de la probabilidad es, junto con la teoría de señales, uno de los dos pilares matemáticos sobre los que se asienta el análisis de sistemas de comunicaciones digitales. En este capítulo se presentan nociones básicas de probabilidad y procesos aleatorios. Se revisan los conceptos de variable aleatoria y procesos estocásticos y sus propiedades, en particular aquellas de interés en comunicaciones digitales [5]. 2.1 Probabilidad El concepto de probabilidad está ligado a realización (física o mental) de un experimento aleatorio, entendiéndose por tal un experimento cuyo resultado es desconocido (es decir, no predecible) por un observador. Suele ponerse el ejemplo de lanzamiento de un dado: el resultado puede ser cualquier número entre 1 y 6, pero es a priori impredecible ni siquiera por el lanzador. La probabilidad es una medida de la incertidumbre que, para un observador, tiene el resultado de un experimento, y es, por tanto, una medida subjetiva: así, por ejemplo, el contenido de un mensaje enviado a través de un canal de comunicaciones digitales es completamente desconocido por el receptor antes de iniciarse la comunicación, pero no por el transmisor, que puede predecirlo con exactitud en la medida que conoce el mensaje transmitido [5]. El desconocimiento puede ser total o parcial. Si consideramos el experimento lanzar dos dados y sumar sus puntos, cualquier resultado entre 2 (1 + 1) y 12 (6 + 6) es 17
18 Procesos Estocásticos posible, pero también sabemos que el 7 es un resultado más esperable que el 2. Lo sabemos por naturaleza del experimento o por información estadística. La probabilidad es pues esencialmente, una medida de incertidumbre sobre el resultado del experimento y es, por tanto, dependiente de la cantidad de información disponible por el observador en cada momento. Para acercarnos a una definición más formal, se precisan varios elementos: Un espacio muestral, Ω, que es el conjunto de todos los resultados posibles de un experimento aleatorio. Un conjunto de sucesos, Φ = {S, S Ω}. Un suceso es cualquier subconjunto de Ω 1. Ejemplos de sucesos en el ejemplo de los dados son que la suma sea: 2, un número impar, un número menor que 8, etc. En total hay 2 11 posibles sucesos. Definimos ahora una medida de probabilidad P r como toda una función que, aplicada sobre cualquier suceso S Ω, devuelve un número real P r {S} que verificalas siguientes propiedades: 1. 0 < P r {S} < 1 2. P r {φ} = 0 3. P r {Ω} = 1 4. Dado un conjunto finito (ó infinito numerable) de sucesos S i εω disjuntos S i S i = φ se verifica P r { k=1 S i } = k=1 P r {S i } (2.1) 2.1.1 Asignación de probabilidades a sucesos Supongamos que el experimento aleatorio puede repetirse un número indefinido de veces, y que el resultado de cada experimento es independiente de los demás. Diremos que una probabilidad P r es un buen modelo de incertidumbre para dicho experimento en la medida en que sea capaz de predecir con exactitud la frecuencia con la que se repiten los diferentes sucesos del experimento. Es decir, P r es una buena medida de incertidumbre sobre el resultado del experimento si dado cualquier suceso S Ω, tras N repeticiones del experimento, denominado N s
2.2 Variables Aleatorias 19 al número de veces que se produce algún resultado que está en S, el cociente N s /N converge a P {S} cuando N tiende a infinito.[13] 2.2 Variables Aleatorias Estrictamente hablando, variable aleatoria es toda aplicación de en la recta real, que asigna a cada posible resultado un número. Dado el resultado ξɛω, la variable aleatoria X tomara un valor X(ξ)ɛR. En la práctica, la notación suele simplificarse y, de forma general e scribiremos X,omitiendo el argumento [11]. Mediante el uso de variables aleatorias, el espacio muestral original se proyecta sobre un subconjunto de la recta real, que llamaremos espacio muestral imagen. Si llamamos Ω al espacio muestral imagen ( es decir, Ω = {X(ξ)ξ Ω, podemos distinguir entre: Variables Aleatorias Discretas Ω es discreto (es decir, finito o infinito numerable). Variables Aleatorias Continuas Ω es continuo, o contiene algún subconjunto continuo. La diferencia entre variables discretas y continuas es sustancial. Como hemos visto anteriormente, si el espacio muestral imagen es finito o infinito numerable, para caracterizar la variable aleatoria en términos probabilísticos es suficiente con asignar un valor de probabilidad a cada posible resultado (que, de acuerdo con la definición anterior, es también un suceso) respetando las propiedades 1 a 3, y calcular las probabilidades de los demás sucesos aplicando la propiedad 4. Lo último es posible porque puede construirse cualquier suceso mediante la unión contable de sucesos atómicos (esto es, sucesos formados por un solo resultado posible). Sin embargo, si Ω es continuo, aquellos sucesos que contengan un conjunto infinito y no numerable de resultados posibles no pueden construirse como unión contable de sucesos atómicos y, por tanto, no es posible calcular su probabilidad a partir de las probabilidades de los sucesos atómicos. Además, la mayoría de los sucesos atómicos tienen probabilidad nula! Cuando Ω es continuo, suele preferirse caracterizar la variable aleatoria X a partir de los sucesos de la forma {X x}. La función que devuelve la probabilidad de este suceso para cada valor de X se denomina función de distribución acumulada o, simplemente, función de distribución.
20 Procesos Estocásticos F x (x) = P r {X x} (2.2) La función de distribución tiene las siguientes propiedades, que se deducen directamente de su definición: 1. 0 F x (x) 1 2. F x ( ) = 1 3. F x ( ) = 0 4. F x (x) es una función monotona creciente F x (X 1 ) F x (X 2 ) si X 1 < X 2 2.3 Probabilidades Condicionales Hemos dicho que la probabilidad es una medida de la incertidumbre acerca del resultado de un experimento, y por tanto es subjetiva, en la medida en que depende de la información disponible por el observador que pueda tener alguna relación con el mismo. Por tanto, si el observador recibe nueva información, la cantidad de incertidumbre puede cambiar [9]. Se precisa, por tanto, alguna medida de la probabilidad de cierto suceso A condicionada por el conocimiento sobre la ocurrencia de otro suceso B. Matemáticamente, esto se escribe P r {A B} y se define como P r {A B} = P r{a B} P r {B} (2.3) Cabe preguntarse si esta definición matemática expresa efectivamente lo que se desea medir. Supongamos que, tras realizar un numero N (suficientemente grande) de veces el experimento aleatorio asociado a los sucesos A y B se producen N B ocurrencias de B y N AB ocurrencias simultaneas de A y B. Si las probabilidades de los sucesos son consistentes con las observaciones, debe ser buena la aproximación P r {A B} N AB /N B (es decir, la probabilidad debe aproximarse a la proporción de veces que se ha observado A entre todas las observaciones en las que ha sucedido B). P r {A B} = P r{a, B} P r {B} N AB/N N B /N = N AB N B (2.4)
2.3 Probabilidades Condicionales 21 P r {A B} = P r {A B}P r {B} = P r {B A}P r {A} (2.5) Esta expresión puede generalizarse para la intersección de n sucesos con la denominada regla de la cadena de la probabilidad condicional P r {A 0 A 1... A n 1 } (2.6) = P r {A 0 }P r {A 1 A 0 }...P r {A n 1 A 1, A 2,..., A n 2 } Del mismo modo que hemos definido la función de probabilidad de una variable aleatoria a partir de las probabilidades de los sucesos atómicos (sucesos constituidos por un solo resultado posible), se define la función de probabilidad condicional de X dado Y (o mejor, de X dado Y = y) como P X Y (x y) = P X Y (x, y) P Y (y) (2.7) Que, para cada valor de x y de y, devuelve la probabilidad condicionada correspondiente. Asimismo, se define la función de densidad de probabilidad condicional de la variable continua X dada la variable continua Y f X Y (x y) = f X Y (x, y) f Y (y) (2.8) Ejemplo: Un ejemplo de probabilidades condicionales utilizado en transmisión digital es el modelo de Canal binario simétrico como se muestra en la figura 2.1. Este modelo define las probabilidades con las que ocurren los 0 y los 1 a la salida de un canal de comunicaciones, supuesto conocido el valor de los bits a su entrada. De esta forma se definen las variables aleatorias S y R asociadas al bit transmitido y recibido, respectivamente, relacionada a través de las siguientes probabilidades: P r {R = 0 S = 0} = 1 p (2.9) P r {R = 1 S = 0} = p (2.10) P r {R = 0 S = 1} = p (2.11) P r {R = 1 S = 1} = 1 p (2.12) Se observa que la probabilidad de que el canal produzca un error es p, independientemente del valor del bit transmitido, y de ahí el apelativo simétrico [10].
22 Procesos Estocásticos Figura 2.1: Modelo de canal binario simétrico. El transmisor envía un bit S = 0 ó 1 a través del canal. El receptor observa un bit R = 0 ó 1, que, con probabilidad p, difiere de S. 2.4 Teorema de Bayes El teorema de Bayes permite calcular las probabilidades de un suceso A condicionadas a otro B a partir de las probabilidades de B condicionadas a A. El teorema afirma que, dados dos sucesos A Ω y B Ω P r {A B} = P r{b A}P r {B} P r {B} (2.13) (2.14) De modo análogo, el teorema de la probabilidad total, algunas extensiones del teorema de Bayes son inmediatas: Dadas dos variables aleatorias discretas X e Y P X Y (x y) = P Y X(y x)p X (x) P Y (y) Si X es continua e Y discreta f X Y (x y) = P Y X(y x)f X (x) P Y (y) Si X e Y son continuas f X Y (x y) = f Y X(y x)f X (x) f Y (y) El teorema de Bayes es consecuencia directa de la definición de la probabilidad condicional, y su demostración es sencilla. Pese a su simplicidad, constituye una de las piedras angulares de la teoría de la probabilidad, y tiene una enorme utilidad
2.5 Circuito c17 23 Figura 2.2: Probablidades de 1 s y 0 s en el circuito c17. práctica. La razón estriba en que, con frecuencia, Y es una variable observable, que representa el efecto de una causa asociada a la magnitud X que no es directamente observable, y se dispone de un modelo (probabilístico) de la forma en la que X causa Y: en definitiva, P X Y es conocida. Dado que Y es observado y X no, en la práctica se plantea la necesidad de calcular P X Y. El teorema de Bayes resuelve el problema.[5] 2.5 Circuito c17 El circuito c17 de la figura 2.2 perteneciente a los ISCAS 85 se tomó como circuito inicial para hacer un primer análisis y entender a groso modo las probabilidades de detección de fallas en circuitos VLSI (Very Large Scale Integration). Suponiendo que podemos aplicar cualquier vector de prueba en la entrada de nuestro circuito (Vector de prueba aleatorio), tenemos que los nodos N1, N2, N3, N6 y N7 (Entradas del circuito), ver Figura 2.2, las probabilidades de que se presente un uno o un cero es del 50% para cada uno. Analizando la tabla de verdad de la nand de dos entradas, tenemos que, de las 4 posibles combinaciones resultantes de las n entradas (n = 2) Lo cual, nos lleva a la tabla de verdad para la NAND de dos entradas, y de las cuatro permutaciones con repetición n r, tres de ellas pueden dar como resultado un uno a la salida de la NAND. Por pura insepección sabemos que el 75% de las salidas serán un uno. Empleando un diagrama de arbol y aplicando los porcentajes de probabilidades de ocurrencia tanto para ceros y unos, resultó el siguiente diagrama, aunque solo es para la compuerta NAND2 1, creo que es representativo del circuito. Como la compuerta nand presenta un 1 cuando al menos una de sus entradas tiene un cero,
24 Procesos Estocásticos Figura 2.3: Diagrama de arbol, compuerta NAND2 1. las probabilidades de que se tenga un uno a la salida esta expresado por: P (A) = (0.5)(0.5) + (0.5)(0.5) + (0.5)(0.5) = 0.25 + 0.25 + 0.25 = 0.75(2.15) Donde: P (A) esta definido por los eventos (00, 01, 10), P (B) será el evento definido por los estados lógicos (11). La siguiente tabla resume lo anterior y seguiré empleandola para ir deduciendo los porcentajes. Siguiendo con el circuito de la figura 2.2, el caso de la compuerta NAND2 2 es el mismo que el de la compuerta NAND2 1, ya que presenta los mismo porcentajes en las entradas. Los cálculos realizados en el circuito son para detectar una falla S A 0. Por lo tanto la siguiente compuerta a analizar es la NAND2 3. Para esta compuerta los porcentajes de las entradas cambian, y se muestran en la siguiente tabla 2.3. N1 N3 N1 N3 Probabilidades NAND2 1 0 0 0.5 0 0.5 0 0.25 1 % 1 0 1 0.5 0 0.5 1 0.25 1 % 1 1 0 0.5 1 0.5 0 0.25 1 % 1 1 1 0.5 1 0.5 1 0.25 0 % 0 Tabla 2.1: Tabla de verdad de la compuerta NAND2 1 y sus porcentajes Para este caso la suma de las probabilidadades de que ocurra un uno a la salida de la compuerta NAND2 3 se puede expresar de la siguiente forma:
2.5 Circuito c17 25 P (A) = (0.5)(0.25) + (0.5)(0.75) + (0.5)(0.25) (2.16) = 0.125 + 0.375 + 0.125 = 0.625 Estos mismos porcentajes se aplican a la compuerta NAND 4 y el resultado es el mismo. Finalmente las compuertas NAND 5 y NAND 6. Para la compuerta NAND 5 los probables porcentajes se muestran en la tabla. Donde la probabilidad de que ocurra un uno es igual a: P (A) = (0.25)(0.375) + (0.25)(0.625) + (0.75)(0.375) (2.17) = 0.09375 + 0.15625 + 0.28125 = 0.53125 Los porcentajes para la compuerta NAND2 6 se presentan en la siguiente tabla (Tabla 4). Al igual que en las compuertas anteriores las probabilidades de que ocurra un uno a la salida de la compuerta NAND2 6 (Nodo N23) y que por lo tanto, se pueda detectar una falla SA 0 esta representada en la siguiente relación: N2 N11 N2 N11 Probabilidades NAND2 3 0 0 0.5 0 0.25 0 0.125 1 % 1 0 1 0.5 0 0.75 1 0.375 1 % 1 1 0 0.5 1 0.25 0 0.125 1 % 1 1 1 0.5 1 0.75 1 0.375 0 % 0 Tabla 2.2: Tabla de verdad de la compuerta NAND2 3 y sus porcentajes. N10 N16 N10 N16 Probabilidades NAND2 5 0 0 0.25 0 0.375 0 0.09375 1 % 1 0 1 0.25 0 0.625 1 0.15625 1 % 1 1 0 0.75 1 0.375 0 0.28125 1 % 1 1 1 0.75 1 0.625 1 0.46875 0 % 0 Tabla 2.3: Tabla de verdad de la compuerta NAND2 5 y sus porcentajes. P (A) = (0.375(0.375) + (0.375(0.625) + (0.625)(0.375) (2.18) P (A) = 0.140625 + 0.234375 + 0.28125 = 0.609375 (2.19) Con esto se puede decir que tendríamos los porcentajes de las probabilidades para detectar, tanto una falla s a 0 como una s a 1, para algun vector de prueba
26 Procesos Estocásticos N16 N19 N16 N19 Probabilidades NAND2 6 0 0 0.375 0 0.375 0 0.140625 1 % 1 0 1 0.375 0 0.625 1 0.234375 1 % 1 1 0 0.625 1 0.375 0 0.234375 1 % 1 1 1 0.625 1 0.625 1 0.390625 0 % 0 Tabla 2.4: Tabla de verdad de la compuerta NAND2 6 y sus porcentajes. aleatorio, lo cual, creo yo, que es bueno ya que no tendriamos que emplear tiempo de cómputo generando los vectores de prueba más favorables. El paso siguiente, es calcular las probabilidades de que las líneas acopladas al nodo en cuestion tengan un estado lógico favorable, para la detección de la falla. El enfoque clásico, dice que si hay X posibles resultados favorables a la ocurrencia de un evento A y Z posibles resultados desfavorables a la ocurrencia de A y todos los resultados son igualmente posibles y mutuamente excluyentes (o sea, que no pueden ocurrir los dos al mismo tiempo), entonces la probabilidad de que ocurra A es: P (A) = X X + Z (2.20) La ecuación aplicada a las lineas acopladas de un nodo victima, nos permitiría conocer cuales son las probabilidades de que se generen los vectores favorables a una falla especifica. Por ejemplo: Si tenemos un nodo con una falla s-a-0, y sabemos que 9 líneas acopladas a la falla favorecerían la detección de la falla y 15 líneas no la favorecerían, en total tendríamos 24 líneas acopladas, resolviendo la probabilidad, nos queda de la siguiente forma: P (A) = 9 9 + 15 = 9 = 0.375 = 37.5% (2.21) 24