REDES NEURONALES. Tratamiento Estadístico de Señales. Santiago Lafon Abril de 2002

Transcripción

1 REDES NEURONALES Monografía Tratamiento Estadístico de Señales Santiago Lafon Abril de 00 Esta monografía es una breve introducción a las Redes Neuronales Artificiales. De la gran diversidad de modelos existentes, solo se analizan dos de ellos: el Perceptrón y las redes RBF. Ambos son modelos de redes de aprendizaje supervisado. Los Perceptrones solo se analizan desde el punto de vista de su estructura y su capacidad de clasificación. Sobre las redes RBF se realiza un análisis teórico de mayor profundidad, simulándose algunas técnicas de aprendizaje. 1 Introducción Una Red Neuronal Artificial (RNA) es un sistema procesador de información cuyas características de desempeño se inspiran en el funcionamiento de las Redes Neuronales Biológicas (RNB).En sus orígenes las RNA quisieron ser un modelo matemático del funcionamiento de las RNB. Con el correr del tiempo fueron surgiendo modelos de RNA que se alejaron de la parte biológica, pero que se encontraron óptimos para resolver problemas de procesamiento de información. Las principales características comunes son: El procesamiento de la información ocurre en elementos llamados neuronas. Una red neuronal está formada por un conjunto de neuronas conectadas entre sí y con el exterior por medio de ligas. A través de las ligas se transmiten señales en un único sentido 1. Esto causa que haya entradas y salidas a una neurona (en realidad cada neurona tiene una única salida que puede ser a su vez entrada de muchas otras). El resultado del procesamiento que ocurre en una neurona es una función no lineal de las entradas a la misma y de un conjunto de parámetros. El último punto es la base del funcionamiento de las RNA, ya que el conjunto de parámetros de los que dependen dichas funciones se van ajustando de acuerdo a lo que van aprendiendo. Para ser un poco más específicos, pensemos en un ejemplo dentro de los campos en los que las RNA tienen mayor auge: el reconocimiento de patrones. Supongamos que se quiere tener una RNA capaz de reconocer letras manuscritas a partir de imágenes digitales(es decir, cada imagen digital corresponde a una letra 1 Esto no es totalmente cierto, ya que existen conexiones bidireccionales entre las neuronas reales. Esto se puede modelar como dos ligas unidireccionales en sentidos opuestos. 1

2 { { { manuscrita). Nuestra RNA tendrá como entrada la matriz de puntos de la imagen digital y 8 salidas, una para cada letra, y deseamos que poner un 1 en la salida de la letra correspondiente a la imagen de entrada y 0 en las demás. Llamando n al n o de puntos de la matriz, la RNA bien podría tener la forma que se observa en la figura 1. Cada persona realiza las letras en forma diferente, más aún, nadie x1 x A B xn Z Capa de entrada Capa de salida Capas ocultas Figura 1: Estructura de la RNA para detección de letras realiza dos iguales, pero supongamos que disponemos de un conjunto de imágenes que sabemos a que letra corresponden, escritos por un conjunto de varias personas (llamado muestra o base de datos). El primer paso es entrenar a la RNA. Para esto se realiza lo siguiente: 1. Se toma una valor inicial para los parámetros de la misma.. Se observa la salida que se obtiene para una imagen y se compara con la salida deseada (error). 3. Con un algoritmo adecuado se modifican los parámetros en función del error que se tuvo en el paso. Los pasos y 3 se repiten con todas las imágenes de la muestra. Luego de que la red ha sido entrenada, si el algoritmo es bueno y la muestra es suficientemente heterogénea, la red es capaz de responder con un porcentaje de aciertos muy alto a las imágenes que le pongamos de aquí en más. El aprendizaje en las RNA se puede dar de modos: supervisado o no supervisado. En el modo supervisado el aprendizaje se logra en base a la comparación directa del la salida de la red con la respuesta correcta ya conocida. En el modo no supervisado la información disponible solo está en correlación de datos de entrada o señales. Se espera que la red forme categorías de estas correlaciones, y producir una señal correspondiente a cada categoría de entrada. Claramente el ejemplo antes nombrado correspondería al modo supervisado. Las RNA pueden ser clasificadas también según su arquitectura. Hay dos grandes clases: las redes de propagación hacia adelante y las redes recursivas. En las redes de propagación hacia adelante se tiene una estructura de capas, donde la salida de una cierta neurona solo puede servir de entrada a neuronas de la capa siguiente, salvo que se trate de una neurona de la última capa, en cuyo caso su salida será ya una salida de la RNA. Las redes recursivas permiten realimentación entre capas, teniendo una dinámica de mayor complejidad. El esquema presentado en el ejemplo corresponde a una red de propagación hacia adelante.

3 El primer modelo: El Perceptrón.1 El modelo biológico Una neurona real esta compuesta básicamente por un cuerpo celular aproximadamente esférico del que salen una rama principal, el axón, y varias ramas más cortas, las dentritas. El extremo lejano del axón se abre en pequeñas ramas por las cuales se comunica con las dentritas de otras neuronas o con el exterior de la red neuronal (músculos o glándulas). El proceso interno en la neurona es así: el cuerpo celular de una neurona N 1 recibe por las dentritas señales eléctricas, que combina e integra. Si se alcanza un cierto umbral positivo, emite una señal por el axón. Esto genera que un elemento químico llamado neurotransmisor se haga presente en la dentrita de las siguiente neurona (N ). Según el tipo de neurotransmisor y como se combine con la neurona N, se producirá un efecto excitatorio o inhibitorio en la misma. La neurona N sumará este efecto a los que le produzcan otras neuronas que estén comunicadas con otras dentritas, emitiendo señales a su vez cuando las señales recibidas alcancen el umbral. Los coeficientes de la combinación de las entradas son variantes en el tiempo, y les llamaremos parámetros. Se podría decir entonces que la salida es una función de las entradas y de un conjunto de parámetros, y que ésta función no será lineal por ser una función con umbrales. El umbral que se debe alcanzar para que se produzca una señal a la salida de una neurona se lo denomina potencial de acción.. El Perceptrón Seguramente este sea el modelo más sencillo de neuronas artificiales. Se inspira en forma directa del comportamiento de una neurona real. En cada neurona, las entradas x i se suman linealmente ponderadas por un conjunto de parámetros w i. A todo esto se le suma un parámetro más b y el resultado se pasa por una función ϕ. El resultado es la salida y (ver figura ). La ecuación de la neurona es entonces: y = ϕ( n w i x i + b) = ϕ(w T x + b) (1) Podemos vincular el coeficiente b con el potencial de reposo. Se han desarrollado diversos sub-modelos x1 w1 b x w + f y xn wn Figura : Modelo de una neurona variando algunas características de la función ϕ. Los principales son: 1. Modelo de McCulloch-Pitts En este caso la función ϕ tiene un umbral, devolviendo un 1 para entradas positivas y un 0 para las negativas (ver figura 3 a). Este modelo data de Modelo lineal con saturación Este modelo se observa en la figura 3 b. pendiente que se elija. Tendrá mayor o menor rango lineal según el valor de 3. Modelo Sigmoidal Este modelo contempla las funciones monótonas crecientes entre 0 y 1 simétricas respecto al (0, 1 ). El nombre proviene de su forma de S. Una posible familia de funciones con esta 3

4 característica son: ϕ(x) = e βx Figura 3: Modelos para ϕ: azul-mcculloc-pits rojo-lineal con saturación negro-sigmoidal.3 Capacidad de clasificación de un Perceptrón Se pretende ahora realizar un breve análisis de que tanto se puede hacer con un Perceptrón, es decir, con una neurona cuyo modelo es el visto en la sección anterior. Trabajaremos únicamente con el modelo de McCulloch-Pitts. Para comenzar supongamos que n=, o sea que la entrada es un vector x R. La salida de la neurona será: y = 1 w 1 x 1 + w x + b > 0 y = 0 w 1 x 1 + w x + b < 0 Dado que w 1 x 1 + w x + b = 0 es la ecuación de una cierta recta r en el plano, lo que estamos diciendo es que un Perceptrón es capaz de distinguir entre dos elementos únicamente si estos se encuentran en semiplanos diferentes respecto a la recta r. Para analizar el caso más general en que x R n, sería conveniente tener antes claro el concepto de hiperplano en un espacio de dimensión n. Definamos primero un hiperplano que pasa por el origen como el conjunto de vectores de R n que son perpendiculares a un cierto vector fijo w, o sea, que satisfacen w T x = 0. Para tener un hiperplano que no pase por el origen basta con sumarle a los vectores de un hiperplano por el origen un vector de desplazamiento constante v. Por tanto los puntos de un hiperplano perpendicular a un vector w cumplirán la ecuación w T (x+v) = 0. Llamando b = w T v y H al hiperplano, tenemos que: H = {x R n /w T x + b = 0} () siendo w un vector fijo perpendicular a H y b una constante. Notemos que los hiperplano dentro de un espacio vectorial de dimensión n son todos los subespacios vectoriales de dimensión n-1 así como cualquier traslación de estos. Para fijar ideas, los hiperplanos en R son las rectas y en R 3 son los planos. Todo hiperplano tiene la propiedad de dividir el espacio en dos semiespacios. Llamaremos a estos H + y H, siendo: H + = {x R n /w T x + b > 0} H = {x R n /w T x + b < 0} 4

5 Volvamos ahora al análisis de la performance de los Perceptrones cuando le entrada está en R n. De acuerdo a la ecuación que determina su salida (ecuación 1) y al tipo de funciones que estamos utilizando, la salida de una neurona valdrá: y = 1 x H + y = 0 x H Supongamos que el Perceptrón será excitado con entradas de dos conjuntos disjuntos: A y B. Supongamos también que lo que se desea es que el Perceptrón sea capaz de distinguir la entradas del conjunto A de las del conjunto B. Esto será posible únicamente si existe un hiperplano H que separe a estos dos conjuntos. En caso positivo, se pueden elegir entonces los coeficientes de w y el coeficiente b de forma tal que: y = 1 x A y = 0 x B Se dice que dos conjuntos son linealmente separables si existe un hiperplano que los separe. Podemos concluir entonces que un Perceptrón es capaz de resolver el problema de clasificar puntos entre dos conjuntos únicamente si estos conjuntos son linealmente separables..4 Ejemplo: la función EXOR En la práctica uno construye una RNA con el fin de lograr que se comporte como un cierto sistema difícil de estudiar. Por más complejo que sea el sistema, si es determinístico, debe existir una función que relacione las entradas con las salidas. Esto implica que deseamos que la RNA implemente una cierta función aunque no sepamos cuál. Supongamos que la función que debe implementar nuestra RNA es la función EXOR (EXclusive OR), que tiene dos entradas y una salida. x 1 x y Intentemos resolver esto con una RNA compuesta por un solo Perceptrón. Básicamente deberíamos lograr que la RNA distinga los elementos de A = {(0, 1); (1, 0)} de los elementos de B = {(0, 0); (1, 1)}. Como se x p1 p r p3 p4 x1 Figura 4: observa en la figura 4, estos dos conjuntos no son linealmente separables. Estos es suficiente para poder 5

6 afirmar que no habrá algoritmo de aprendizaje capaz de encontrar coeficientes tales que un Perceptrón pueda implementar la función EXOR. Intentemos resolverlo ahora con una RNA de dos capas como se muestra en la figura 5. Esto si es posible. Lo que debemos lograr es que los Perceptrones N 1 y N realicen un cambio de variable entre el plano x1 x N1 N z1 z N3 y Figura 5: Red de Perceptrones de dos capas (x 1, x ) y el plano (z 1, z ) de forma tal que el Perceptrón N 3 resuelva un problema en las variables z 1 y z que sea linealmente separable. Llamemos r 1, r y r 3 a las rectas (hiperplanos) que determinan el comportamiento de la salidas de N 1, N y N 3 respectivamente. Ubicando las rectas como se muestra en la figura 6 se consigue el funcionamiento deseado. En este ejemplo las entradas de interés eran apenas cuatro. Se quería distinguir entre dos subconjuntos r3+ x r3- z r1+ r1- p1 p p1 p p3 p4 r+ x1 r- p4 z1 Figura 6: que no eran linealmente separables y se logró. Imaginemos ahora que los puntos de interés son muchos más. Esto puede suceder por tener más entradas y por tanto aumentar la dimensión, así como por admitir más valores posibles para cada entrada. Pongamos por ejemplo que procesamos imágenes de 600x800 pixeles y que cada pixel toma 1 de 56 colores. Si cada entrada es un pixel tenemos aproximadamente 13 millones de entradas diferentes posibles. Es bastante claro que lograr que dos subconjuntos de interés estén linealmente separados es una meta difícil. Con este problema en la cabeza abordaremos en la próxima sección un nuevo tipo de RNA que incluyen una primera capa pensada para simplificar este problema. 6

7 .5 Algunos resultados sobre Redes de Perceptrones Multicapa La idea en esta sección es nombrar algunos resultados sobre RNA de Perceptrones. En la sección anterior anterior se estudio la utilidad de éstas bajo el modelo de McCulloc-Pits. Existe un resultado llamado Teorema de Aproximación Universal que dice que se puede aproximar tanto como se desee cualquier función f con una RNA de una sola capa de Perceptrones cuyas salidas se conectan a un sumador ponderado, siempre y cuando se tengan suficientes Perceptrones en dicha capa y se elijan de forma adecuada los coeficientes. Las hipótesis necesarias son: f sea una función continua en el hipercubo [ p, p] n La función no lineal ϕ de los Perceptrones sea continua, no constante, acotada y monótona creciente. Este resultado puede verse con mayor detalle en [1] o [7]. Un posible conjunto de funciones serían las sigmoidales nombradas en.. Otro resultado de interés para el estudio de RNA de Perceptrones es el algoritmo de aprendizaje Back- Propagation. Este algoritmo sirve para elegir los coeficientes óptimos para una RNA de Perceptrones de M capas (una red de Perceptrones de M capas es una red de propagación hacia adelante similar a la de la figura 1). La optimalidad que se tiene es en el sentido de minimizar la siguiente función de costo: J[k] = 1 N M e i [k] (3) donde N M es el número de salidas de la RNA, k indica el número de iteración y e i es la diferencia entre la salida que nos da la RNA y la deseada. Este algoritmo desarrollado para el caso en que las señales son complejas se encuentra en [1] y [7], y para el caso real también se puede ver [] o [3]. Este algoritmo es vital en la práctica pues las RNA de Perceptrones sin etapa de aprendizaje carecen de sentido. Un sumador ponderado es como un Perceptrón que no aplica a la salida la función de umbral ϕ. 7

8 3 Redes RBF 3.1 Separación de Patrones - Teorema de Cover Al estudiar los Perceptrones se llegó a la conclusión de que un punto importante para poder reconocer elementos entre dos conjuntos es que estos sean linealmente separables. Una vez que se tiene está propiedad, el reconocimiento se puede hacer de forma bastante sencilla. Sin embargo lo común en un problema de reconocimiento es que esto no suceda. En esta sección analizaremos como se puede hacer para transformar un problema no linealmente separable en uno que si lo sea. Sea S el conjunto de entradas de interés y n la dimensión del espacio de entradas. S = {s 1, s,..., s k } con s i R n Supongamos que tenemos una dicotomía en S,es decir, cada elemento pertenece a uno y solo uno de dos subconjuntos de S a los que llamaremos S 1 y S. Para cada s S definamos ϕ(x) = [ϕ 1 (x), ϕ (x),... ϕ m1 (x)] donde ϕ j : R n R para j = 1... m 1. Se dice que {S 1, S } son ϕ-separables sii ϕ(s 1 ) y ϕ(s ) son linealmente separables. Lo que se está haciendo es un cambio de variable para intentar que nuestra en nueva variable tengamos separación lineal. La idea es que cuanto mayor sea m 1 la probabilidad de lograrlo será más alta. Cover estudió este problema en 1965, obteniendo resultados probabilísticos para un cierto conjunto de funciones ϕ (polinomios de grado r homogéneos) y para una dicotomía aleatoria. El resultado que obtuvo, conocido como Teorema de Cover es que la probabilidad de lograr separación lineal crece como una binomial. Esto implica que la probabilidad tenderá factorialmente a uno. En las redes RBF, si bien no trabajaremos en las hipótesis del Teorema de Cover, extrapolaremos el razonamiento del mismo. La primer capa de una red RBF llevará las entradas a un espacio de dimensión mayor, con la esperanza de obtener mejores resultados en el nuevo espacio. 3. Arquitectura de las redes RBF Las redes neuronales RBF están constituidas por dos capas: una capa oculta y una capa de salida. La capa oculta esta formada por neuronas que aplican sobre sus entradas una función del tipo radial, es decir, la salida de cada neurona es una función de la distancia entra las entradas y un punto llamado centro, que caracteriza a cada neurona. Supondremos sin perder generalidad que la RNA tiene una sola salida. En dicho caso la capa de salida está constituida por una unidad que realiza una suma ponderada de las salidas de las neuronas la capa oculta. Como siempre llamaremos n al número de entradas, x i con i = 1... n a las entradas e y a la salida de la RNA. Llamaremos además m 1 al número de neuronas de la capa oculta y ϕ( x t i ) a la función que aplica la i-ésima neurona, siendo t i el centro de dicha neurona. Los coeficientes de la combinación serán w i. Así dicho, la función que relaciona entradas a la RNA con la salida es: Las funciones radiales citadas como ejemplo en la bibliografía son: 1. Multicuádricas: m 1 y = w i ϕ( x t i ) (4) ϕ( x t i ) = x t i +c para algún c > 0. Multicuádricas inversas ϕ( x t i ) = 1 x ti +c para algún c > 0 8

9 x1 x fi(x,t1) fi(x,t) w w1 wm su y xn fi(x,tm) Figura 7: 3. Thin-plate-spline ( ) ( ) x ti x ti ϕ( x t i ) = ln σ σ para algún σ > 0 4. Gaussiana ϕ( x t i ) = e ( ) x t i σ para algún σ > 0 En la sección 3.3 justificaremos el uso de funciones radiales y como caso particular la aparición de las funciones gaussianas. Las redes neuronales de RBF suelen utilizarse bajo aprendizaje supervisado. Esto quería decir que necesita de un entrenamiento para elegir la ubicación de los centros así como para elegir los coeficientes w i. En la sección 3.4 se analizarán caminos para lograr esto. 3.3 Como elegir la base de funciones: Teoría de Regularización Consideremos un sistema de n entradas y una sola salida, del cuál se tiene un a muestra de N parejas entrada-salida {x i, d i } N. El hecho de considerar una sola salida no le quitará generalidad a los resultados que se obtengan en esta sección y le simplificará la notación. Se quiere una función que aproxime en buena forma la relación entrada-salida del sistema. La primera idea que uno podría poner en práctica es realizar una interpolación, es decir, buscar una función F tal que F (x i ) = d i i = 1... N Implícitamente se estría buscando una hipersuperficie en R n+1 que pase por los puntos (x i, d i ). Este no es en general un buen camino para resolver el problema. La dificultad que suele surgir al interpolar es que al tener muchos puntos (N grande) la información se vuelve redundante, haciendo el problema sobredeterminado. Esto causa que la solución se vuelva muy inestable, ya que tan solo un poco de ruido en las muestras o agregar un punto causa grandes variaciones en la hipersuperficie, haciendo a esta poco suave. Un ejemplo clásico de este problema fue presentado por Runge, al intentar aproximar la función f(x) = 1 1+5x en [ 1, 1] con un polinomio. En este consideraba para interpolar los puntos x i = 1 + i N. A mayor N, mayor era el grado del polinomio interpolante y peores los resultados. Esto se observa en la figura 8 Esto hace pensar en buscar una solución que en lugar de ser una superficie que interpole estrictamente las muestras, pase cerca de ellos pero sea suave. La teoría de regularización propone que en el momento de elegir la función F (x) se tengan en cuenta las siguientes cantidades: 9

10 1.5 n=10 1 n= 0.5 n=5 n= Figura 8: Fenómeno de Runge E S (F ) = 1 N (d i F (x i )) que es una medida del error cuadrático. E C (F ) = 1 D(F ) siendo D un operador diferencial lineal. En esta cantidad se pretende tener en cuenta la suavidad de la función. La cantidad E que se propone minimizar es: E(F ) = E S (F ) + λe C (F ) (5) Se suele llamar parámetro de regularización a λ y a E(F ) como funcional de Tikhonov. Cuando λ es muy chico, se están priorizando las muestras, y aumentar λ es pedir mayor suavidad Obtención de la solución A continuación obtendremos la función F que minimice (5): 1. Definamos d(e(f, h)) = [ d dβ E(F + βh)] β=0 como el diferencial de E(F ) en la dirección de h siendo h una función h : R n R. Notemos que este diferencial como una derivada direccional. Lo que se debe cumplir para estar frente a un mínimo en F λ es que de(f λ, h) = 0 para cualquier h.. El diferencial del primer término vale: d(e S (F, h)) = h, N (d i F (x i ))δ xi (6) Se utiliza el producto interno f, g = fg. La norma que induce este producto es la norma, f = f. 10

11 Demostración: d(e S (F, h)) = [ d dβ E S(F + βh)] β=0 = [ 1 d N (d i F (x i ) βh(x i )) ] β=0 dβ N N = [ [d i F (x i ) βh(x i )]h(x i )] β=0 = [d i F (x i )]h(x i ) N = h, (d i F (x i ))δ xi 3. El diferencial del segundo término vale: d(e C (F, h)) = h, D(D(F )) (7) siendo D el operador adjunto 3 de D. Demostración: d(e C (F, h)) = [ d 1 dβ D(F + βh) ] β=0 = [ 1 d [D(F + βh)] dx] β=0 dβ R n = [ D(F + βh)d(h)dx] β=0 = D(F )D(h)dx R n R n = D(h), D(F ) = h, D(D(F )) 4. Uniendo lo obtenido en y 3, tenemos que: d(e(f, h)) = d(e S (F, h)) + λd(e C (F, h)) N = h, (d i F (x i ))δ xi + λ h, D(D(F )) Como deseamos que d(e(f λ, h)) = 0, se deberá cumplir: h, [λ D(D(F λ )) N (d i F λ (x i ))δ xi ] = 0 Se desea que la última igualdad valga independientemente del valor del parámetro de regularización λ se tome. La única de que se satisfaga para cualquier h y para cualquier λ es que: D(D(F λ )) = 1 λ N (d i F λ (x i ))δ xi (8) Esta es una condición necesaria para que el funcional E presente un mínimo en F λ. 5. Se llama función de Green de un operador L a una función G(x, ξ) tal que L(G) = δ(x ξ). Si se desea solucionar el problema L(F (x)) = ϕ(x), la solución es la convolución de ϕ con G, es decir: F (x) = G(x, ξ)ϕ(ξ)dξ = G(x, ξ), ϕ(ξ) (9) La función de Green es como una función de transferencia de un sistema con entrada ϕ y salida F. Notemos que así definida F se verifica: L(F (x)) = L(G(x, ξ))ϕ(ξ)dξ = δ(x ξ)ϕ(ξ)dξ = ϕ(x) La función de Green satisface las siguientes propiedades: 3 Sea un operador T definido sobre un espacio vectorial V que tenga definido un producto interno. En caso que V sea un espacio completo con la topología que induce el producto interno, existirá una representación de Riesz para T y como consecuencia un operador T que satisfaga T(u), v = u, T(v) u, v V. Al operador T se denomina operador adjunto de T. 11

12 (a) Si L es un operador autoadjunto entonces G(x, ξ) = G(ξ, x) (b) Si L es un operador invariante bajo traslaciones entonces G(x, ξ) = G(x ξ) (c) Si L es un operador invariante bajo traslaciones y rotaciones entonces G(x, ξ) = G( x ξ ) Se concluye de a), b) y c) que si L es un operador autoadjunto e invariante bajo traslaciones y rotaciones la solución al problema L(F (x)) = ϕ(x) será: F (x) = G( x ξ )ϕ(ξ)dξ = G( x ξ ), ϕ(ξ) (10) Demostraciones: G(y, x) = L(G(x, ξ)), G(y, ξ) porque L(G(x, ξ) = δ(x ξ) G(x, y) = L(G(y, ξ)), G(x, ξ) por igual motivo Si L es autoadjunta se cumplirá L = L y por tanto: L(G(x, ξ)), G(y, ξ) = G(x, ξ), L(G(y, ξ)) Esto sumado a las dos igualdades anteriores implica a) Si L es invariante bajo traslaciones entonces L(F (x + v)) = ϕ(x + v). Esto implicará que F (x + v) = G(x + v, ξ), ϕ(ξ) y además F (x + v) = G(x, ξ), ϕ(ξ + v) = G(x, ξ v), ϕ(ξ) Como ϕ es cualquiera, se cumplirá G(x, ξ v) = G(x + v, ξ); y como v también es cualquiera, esto implica b). Si L es invariante bajo rotaciones entonces L(F (Rx)) = ϕ(rx) siendo R una matriz ortogonal (matriz de rotación). Tendremos entonces que: F (Rx) = G(Rx, ξ), ϕ(ξ) y además F (Rx) = G(x, ξ), ϕ(rξ) = G(x, R 1 ξ), ϕ(ξ) Como ϕ es cualquiera, se cumplirá G(Rx, ξ) = G(x, R 1 ξ). Por ser L invariante bajo traslaciones tendremos que G(x R 1 ξ) = G(Rx ξ) = G(R(x R 1 ξ)). Esto implica c). 6. Sea L = DD. Así definido, L es un operador autoadjunto. El operador D era el operador diferencial lineal, con el cuál se pretendía tener en cuenta la suavidad de la función. Es natural entonces pedirle a D que sea invariante bajo traslaciones y bajo rotaciones, lo que implica que L también lo sea. Como se vio en el punto 4 para que el funcional E presente un mínimo en F λ se debe cumplir la ecuación (8), que no es otra cosa que pedir: L(F λ ) = ϕ(x) N siendo ϕ(x) = 1 λ (d i F λ (x i ))δ xi Dadas las propiedades del operador L, la ecuación (10) nos brinda la solución: F λ (x) = G( x ξ ), ϕ(ξ) = G( x ξ ), 1 N (d i F λ (x i ))δ xi λ = 1 N (d i F λ (x i ))G( x x i ) λ Definamos w i = 1 λ (d i F λ (x i )) para i = 1,..., N. Tenemos entonces que N F λ (x) = w i G( x x i ) (11) 1

13 Esta ecuación es fundamental, ya que nos dice que la solución al funcional de Tikhonov E es una combinación lineal de N funciones radiales centradas en las muestras, siempre y cuando se tome D invariante bajo traslaciones y rotaciones. Dicho con otras palabras, la solución cae en un espacio de dimensión N, pudiendo elegirse una base de funciones radiales. 7. Veamos ahora como determinar los coeficientes w i. Evaluando (11) en las muestras, se tiene: N F λ (x j ) = w i G( x j x i ) Utilizaremos la siguiente notación: j = 1... N F λ = [F λ (x 1 ), F λ (x ),..., F λ (x N )] T d = [d 1, d...., d N ] T G(x 1, x 1 ) G(x 1, x ) G(x 1, x N ) G(x, x 1 ) G(x, x ) G(x, x N ) G = G(x N, x 1 ) G(x N, x ) G(x N, x N ) w = [w 1, w,..., w N ] Los coeficientes se determinan entonces resolviendo: { w = 1 λ (d F λ) F λ = Gw que implica que (G + λi)w = d (1) Como G es simétrica, es diagonalizable y sus valores propios son reales. Como consecuencia estamos seguros de poder tomar λ de forma tal que la matriz G + λi sea definida positiva y por tanto invertible. Luego, w = (G + λi) 1 d (13) 3.3. Elección del operador diferencial Hasta aquí hemos visto como hallar el mínimo de E, siempre y cuando hallamos elegido el operador D y encontremos cual es la función de Green del operador L = DD. Veremos ahora un operador particular de gran interés ya que la función de Green que inducirá será una exponencial. El operador en cuestión es: D = k α 1 k ( x 1 + x + + x n ) k donde α k = σk i k!. Es un operador que toma en cuenta las derivadas en todos los ordenes, ponderando más n las primeras. El operador L que induce es: L = k ( 1) k α k k siendo = x 1 + x + + x n el operador Laplaciano. La función de Green que le corresponde es: G(x, x i ) = e x x i σ i La solución finalmente será: F λ (x) = n w i e x x i σ i (14) 13

14 3.3.3 Resumen de resultados de la Teoría de Regularización La teoría de regularización justificó el uso de las funciones radiales, ya que cualquier operador diferencial razonable que uno pudiera elegir será invariante por traslaciones y rotaciones. También se justificó el nombre de las redes RBF, ya que se demostró que teóricamente la mejor solución cae en un espacio de dimensión N y una base de dicho espacio está formada por funciones radiales. Se vio que para un operador en particular, que toma en cuenta todas las derivadas, la solución es de forma gaussiana (ecuación (14)). El cálculo de los coeficientes w i implica invertir una matriz NxN. Se deben poner N neuronas en la primer etapa de la red. Esto no es muy bueno, ya que uno tiende a tomar el mayor número de muestras que sea posible, y a mayor número de muestras más compleja será la red y más costoso invertir la matriz G. En caso de conseguir nuevas muestras para entrenar la red se debe modificar la arquitectura de la misma. Si se toma λ = 0 la elección de los coeficientes sería w = G 1 d, que es el mismo resultado que se obtendría por interpolación directa Generalización de las redes RBF Dado lo costoso que sería tomar una base de N elementos, se pretende ajustar la teoría al caso en que uno toma una base de m 1 elementos, siendo en general m 1 mucho menor que N. Se obtendrá una solución F (x) sub-óptima, proveniente de proyectar el problema en un espacio de menor dimensión. Los resultados de las secciones anteriores nos incitan a trabajar con funciones radiales. Tomaremos entonces un conjunto de funciones ϕ i (x) = G( x t i ) i = 1,,..., m 1 y buscaremos F (x) en el espacio generado por dichas funciones. El conjunto de centros {t i /i = 1,,..., m 1 } debe ser elegido previamente con algún criterio. Debemos elegir los coeficientes w i que nos den la mejor F (x) de la forma m 1 m 1 F (x) = w i G(x, t i ) = w i G( x t i ) (15) Los elegiremos de forma tal de minimizar el nuevo funcional de costo E(F ) = N m 1 d i w j G( x t j ) Redefiniendo la matriz G como G(x 1, t 1 ) G(x 1, t ) G(x 1, t m1 ) G(x, t 1 ) G(x, t ) G(x, t m1 ) G = G(x N, t 1 ) G(x N, t ) G(x N, t m1 ) j=1 + λ D(F ) (16) 14

15 podemos expresar el primer termino como d Gw. Para reescribir el segundo término nos valdremos de que: D(F ) = D(F ), D(F ) m 1 m = w i G(x, t i ), D(D( 1 w j G(x, t j ))) j=1 m 1 m 1 = w i w j G(x, t i ), L(G(x, t j )) j=1 m 1 m 1 = w i w j G(x, t i ), δ(x t j ) j=1 m 1 m 1 = w i w j G(t j, t i ) j=1 = w T G 0 w donde G 0 es la matriz cuadrada m 1 xm 1 dada por: G(t 1, t 1 ) G(t 1, t ) G(t 1, t m1 ) G(t, t 1 ) G(t, t ) G(t, t m1 ) G 0 = G(t N, t 1 ) G(t N, t ) G(t m1, t m1 ) Finalmente debemos encontrar w para minimizar: Derivando respecto a w tenemos que: E(w) = d Gw +λw T G 0 w = d T d + w T G T Gw w T G T d + λw T G T 0 w = w T (G T G + λg T 0 )w w T G T d + d T d de dw = (GT G + λg T 0 )w G T d = 0 (G T G + λg T 0 )w = G T d El sistema a resolver para hallar los coeficientes ahora tiene dimensión m 1 y su solución es: En caso de tomar λ = 0 se llegaría a que siendo G + = (G T G) 1 G T la pseudoinversa de la matriz G. 3.4 Técnicas de aprendizaje en las redes RBF w = (G T G + λg T 0 ) 1 G T d (17) w = G + d (18) Veremos a continuación 3 técnicas diferentes de aprendizaje en RNA. Consideraremos como siempre un sistema de n entradas y una sola salida, del cuál se tiene un a muestra de N parejas entrada-salida {x i, d i } N. El número de neuronas de la capa oculta es m 1. Para elegir este valor, tenemos un compromiso: De acuerdo a lo expuesto en la sección 3.1 es conveniente elegir m 1 mucho mayor que el número de entradas n. De acuerdo a la Teoría de Regularización el ideal es tomar m 1 = N, pero un valor grande de m 1 aumenta la complejidad de la RNA. Se suele tomar un valor intermedio entre n y N. Claro está, si tomamos m 1 = N podemos utilizar el método que nos brinda la Teoría de Regularización estudiada en la sección

16 3.4.1 Método de Centros Fijos Este es un método basado en la práctica, pero no tiene grandes fundamentos teóricos. Se utilizan funciones radiales del tipo gaussiano. El procedimiento es el siguiente: 1. Se eligen de forma aleatoria m 1 elementos del conjunto {x i } N. Estos serán los centros de las funciones radiales de las neuronas de la capa oculta.. Se calcula la desviación estándar de las gaussianas como σ = d max (19) m1 donde d max es la máxima distancia entre los centros. Todas las gaussianas tendrán la misma desviación. 3. Para hallar los coeficientes se sugieren tres alternativas: Utilizar resultados de la teoría de regularización generalizada. Esto implica elegir un valor para λ y utilizar la ecuación (17). Utilizar la pseudoinversa de G, siendo w = G + d (ver sección 3.3.4). Utilizar algún método iterativo como ser el LMS o el RLS. Para que este método funcione razonablemente bien, es necesario que las muestras sea representativas, ya que en función de ellas se toman los centros. También se debe cumplir que la relación entrada-salida real no presente grandes picos ni zonas demasiado planas. En dicha situación se debería variar el valor de σ en los diferentes centros Método Híbrido Este método pretende hacer uso de técnicas diferentes: una no supervisada y una supervisada. Para hallar la ubicación de los centros se utiliza una técnica no supervisada. Para hallar los coeficientes se usa una técnica supervisada. Se pretende ubicar los centros en las zonas del espacio de entrada que tengan mayor densidad. Para esto la idea es ubicar neurona en posiciones arbitrarias y luego, por algún algoritmo, lograr que estás se muevan hacia las zonas más densas. Para ubicar las zonas más densas se deben conocer valores de entradas a la red, pero no es necesario conocer las salidas. De aquí que sea un aprendizaje no supervisado. Un posible algoritmo para lograr esto es el siguiente: 1. Inicialización: Se toman valores iniciales para los centros t i (0) con i = 1,..., m 1. Se requiere que sean todos diferentes.. Muestreo: Se obtiene una muestra aleatoria x j del espacio de entrada. 3. Competencia: Se halla el índice k j correspondiente al centro cuya distancia al vector x j es menor, o sea, k j = ind min k x j t k (j) 4. Ajuste: Se reubican los centros según la regla: { tk (j) + η t k (j) = 1 (x j t k (j)) si k = k j t k (j) en otro caso (0) Esta regla acercar al centro ganador al vector de entrada x j y mantiene los demás quietos. Existen otras reglas que penalizan a los centros perdedores, haciendo t k (j+1) = t k (j) η (x j t k (j)) si k k j. 16

17 Los pasos, 3 y 4 se realizan tantas veces como número de muestras del espacio de entrada se decidan utilizar para al aprendizaje de los centros. Este algoritmo es la base de las redes neuronales competitivas, en las que no se pretende simular un sistema sino clasificar generar una partición en un cierto espacio, es decir, agrupar entradas según características comunes. Una vez ubicados los centros, se deben hallar los coeficientes w i. Para esto se pueden usar los métodos propuestos para el caso de los centros fijos. También en caso de trabajar con exponenciales resta elegir la desviación estándar σ i de cada función. Se aspira en este método tener una convergencia más veloz en los coeficientes que en el método anterior ya que los centros se eligieron con un método más elaborado Método del Gradiente La idea es proceder de forma similar a lo que se hace en el algoritmo LMS. Se define una función de costo E cuyo valor en el instante k es: E(j) = 1 e(j) donde e(j) es la diferencia entre la salida deseada en el instante j y la salida de la red con los valores de los coeficientes en dicho instante: m 1 e(j) = d(j) w i (j)g( x(j) t i (j) ) m 1 = d(j) w i (j)e x(j) t i(j) σ i (j) ( = E(j) = 1 m 1 d(j) w i (j)e x(j) t i(j) σ i (j) ) La función de costo depende de t i (j), w i (j) y de σ i (j) para i = 1,,..., m 1. Las derivadas parciales respecto a dichas variables dan: ( ) ( ) m E 1 t i (j) = x(j) t i(j) σ d(j) w i (j)e i (j) w i (n)e x(j) t (x(j) ) i(j) σ i ti (j) (j) σ i (j) ( ) x(j) ti (j) = e(j)w i (j)g( x(j) t i (j) ) σi (j) E w i (j) = e(j)w i(j)g( x(j) t i (j) ) E σi (j) = e(j)w i(j)g( x(j) t i (j) ) x(j) t i(j) σi (j) El gradiente de nuestra función de costo será: [ E E = t 1 (j),..., E t m1 (j), E w 1 (j),..., E w m1 (j), E σ 1 (j),..., ] E σ m1 (j) Como todos los métodos basados en el gradiente, para buscar un mínimo se debe moverse en dirección opuesta al gradiente, ya que el gradiente indica el sentido de mayor crecimiento de una función. Se partirá de un valor inicial, y se irán ajustando los parámetros de acuerdo a la regla del gradiente. Es un método de aprendizaje supervisado. Se realizarán N ajustes, siendo N el número de parejas entrada-salida conocidas. En algunos casos se suele tomar pasos adaptivos diferentes en cada tipo de parámetro, o sea, 17

18 tomar η t, η σ, η w y ajustar los parámetros así: ( ) x(j) ti (j) t i (j + 1) = t i (j) + η t e(j)w i (j)g( x(j) t i (j) ) σi (j) (1) w i (j + 1) = w i (j) + η w e(j)w i (j)g( x(j) t i (j) ) () σi (j + 1) = σi (j) + η σ e(j)w i (j)g( x(j) t i (j) ) x(j) t i(j) σi 4(j) (3) 18

19 3.5 Aplicación: Decisión de símbolo enviado en un Sistema de Comunicación Un sistema de comunicaciones esta formado básicamente por tres partes: transmisor, canal y receptor. Si el sistema es de tiempo continuo, la etapa de transmisión consiste en muestrear la señal a transmitir, cuantificarla y codificarla. Por el canal se transmite la señal codificada y al llegar a la recepción se decodifica y luego se pasa por algún tipo de reconstructor. En la figura 9 se observa un esquema de un sistema de comunicación. Si se tiene un cuantificador de n bits, al cuantificar una muestra, se obtiene un valor entre n posibles y! Figura 9: Sistema de Comunicación se corresponderá con una secuencia de n bits. Existen muchas formas de enviar la secuencia por el canal. Se puede enviar un símbolo por cada bit o bien agrupar los bits a transmitir, enviándose un símbolo por cada m bits. En el primer caso, hay solo dos símbolos posibles a transmitir y se dice que el alfabeto es binario. En el segundo caso hay m símbolos posibles y el alfabeto es m-ario. El codificador toma cada símbolo, lo codifica y lo envía por el canal. A la salida del canal se decodifica y se debería obtener el símbolo transmitido. En la práctica esto no sucede ya que el canal introduce ruido y la decodificación nunca es perfecta. El canal suele actuar como un filtro pasabajos y en la decodificación se suele tener presencia de ISI (interferencia inter-simbólica). Como consecuencia a la salida del decodificador se debe poner algún tipo de elemento que decida a partir de la salida de este, cuál de los símbolos del alfabeto fue enviado. A este nuevo elemento lo llamaremos selector. Este selector tendrá una cierta probabilidad de error a la que llamaremos P e. La performance del sistema de comunicación se medirá en función de P e, que dependerá de tres factores: Calidad del canal (ancho de banda y potencia del ruido que introduzca). Tipo de codificación elegido. Tipo de selector elegido. Notemos que una codificación m-aria tendrá a mayor m mayor tasa de bits por símbolo, lo que implica que cada símbolo transmitido lleva consigo más información. Como contraparte a mayor m más difícil será tener una regla de decisión con baja P e. Un camino posible para la elección del selector es realizar un análisis de la distribución de los ruidos introducidos y posteriormente tomar una regla de selección de forma de minimizar P e. Este camino tiene dos inconvenientes: es un trabajo teórico arduo encontrar un buen modelo para el ruido y además se agrega una cierta probabilidad de error por errores en dicho modelo. En [4] se profundiza sobre este camino. También se profundiza sobre diferentes tipos de codificación 4. El modelo para el ruido suele ser aditivo, blanco y gaussiano. Se pretende en esta aplicación crear un selector que sea una RNA. Requerirá una etapa de aprendizaje. Tomaremos el caso de alfabeto binario, con el fin de que la RNA tenga una sola salida. Para poder decidir en un alfabeto m-ario sería necesario contar con log (m) salidas. Trabajaremos con redes RBF y evaluaremos la performance de cada uno de los algoritmos de aprendizaje propuestos en la sección La codificación se realiza a su vez en etapas: una primer etapa en la que se decide que se va a codificar y surgen técnicas como PCM diferencial (DPCM) y la modulación delta(md), una segunda etapa en que codifica los pulsos de forma unipolar o bipolar, con o sin retorno a cero, y una tercer etapa llamada conformación, donde se le da una forma a los continua pulsos, como ser por ejemplo los pulsos de Nyquist. 19

20 3.5.1 Planteo del problema en términos de RNA Los símbolos factibles de ingresar al codificador serán dos vectores de R a los que llamaremos µ 1 y µ (el alfabeto será A = {µ 1, µ }). Cada entrada x(i) a la RNA será la salida del decodificador, símbolo α(i) codificado contaminado por un ruido η(i). Asumiremos que el ruido es aditivo, siendo por tanto x(i) = α(i) + η(i). La salida y que se desea obtener en la RNA es: { 1 si α(i) = µ1 y(i) = (4) 0 si α(i) = µ Llamaremos H 1 al suceso α = µ 1 y H al suceso α = µ. La probabilidad de que suceda H 1 la llamaremos p 1 y la de que suceda H la llamaremos p. Como el alfabeto es binario p 1 = 1 p. Asumiremos una distribución para el ruido, si bien no será la misma para ambos símbolos. Para ambos símbolos asumiremos ruido gaussiano de media nula, pero tendrá varianzas σ 1 y σ. Se puede expresar entonces la distribución de x condicionada al símbolo enviado como: f x (x H 1 ) = 1 πσ1 f x (x H ) = 1 πσ Las figuras 10 y 11 nos muestran la forma de dichas distribuciones. e x µ 1 σ 1 (5) e x µ σ (6) Dado que estamos asumiendo una Figura 10: Función de densidad de x H 1 cierta distribución para el ruido, se puede realizar un análisis teórico sobre cual sería la mejor forma de tomar la decisión. La forma de lograr esto es calcular la probabilidad de error P e y minimizarla. Tomar una regla de decisión es decir { decido H1 si x Z 1 decido H si x Z siendo Z 1 y Z dos regiones disjuntas cuya unión es R. La probabilidad de error valdrá: P e = p 1 f x (x H 1 )dx + p f x (x H )dx Z Z 1 = p 1 (1 f x (x H 1 )dx) + p f x (x H )dx Z 1 Z 1 = P e = p 1 + [p f x (x H ) p 1 f x (x H 1 )] dx (7) Z 1 0

21 Figura 11: Función de densidad de x H La forma óptima de tomar la decisión será que Z 1 esté formada por todos aquellos puntos que satisfacen p f x (x H ) p 1 f x (x H 1 ) < 0. Dicho de otra forma, la decisión será: decido H 1 si fx(x H) f x(x H 1) < p1 p decido H si fx(x H) f x(x H 1) > p1 p (8) Utilizando las ecuaciones (5) y (6), tenemos que la frontera de decisión se transforma en: e x µ 1 σ 1 + x µ σ = p 1 p σ 1 σ x µ σ1 x µ 1 σ = σ1σ ln( p 1 σ1 ) p x (σ1 σ) µ 1 σ+ µ σ1 x, σ1µ σµ 1 = σ1σ ln( p 1 σ1 ) p x x, σ 1µ σµ 1 (σ1 σ ) = σ 1σln( p1 x σ 1µ σµ 1 (σ1 σ ) = σ 1σln( p1 σ 1 p σ σ 1 p σ σ )+ µ 1 σ µ σ 1 (σ 1 σ ) x σ 1µ σµ 1 (σ1 σ ) = σ 1σ σ1 σ La frontera de decisión es entonces una circunferencia C(x c, r) siendo: centro x c = σ 1 µ σ µ1 radio r = σ 1 σ σ 1 σ )+ µ 1 σ µ σ1 (σ1 σ ) + σ 1µ σµ 1 (σ1 σ ) [ µ1 µ σ1 + ln( p 1 σ ] 1 σ p σ ) (σ1 σ [ ) µ1 µ σ 1 σ + ln( p1 Hemos hallado de forma teórica cual es la región de decisión óptima. La gran diferencia entre este análisis teórica y el que realizaremos con RNA es que para poder decidir de forma óptima fue necesario conocer todo sobre la distribución de los símbolos y su ruido, lo que implicaría conocer a la perfección el canal y la forma de codificación, mientras que trabajando con RNA no es necesario conocer nada más que un conjunto de entradas y salidas. σ 1 p σ ] ) σ 1

22 Elección de valores para la simulación Los valores elegidos fueron: Notación Valor Descripción µ 1 (0, 0) T símbolo del alfabeto µ (, 0) T símbolo del alfabeto σ1 1 varianza del ruido que afecta a µ 1 σ 4 varianza del ruido que afecta a µ p probabilidad de aparición del símbolo µ 1 p 0.5 probabilidad de aparición del símbolo µ Podemos calcular ahora centro y radio de la frontera de decisión: { centro xc = ( 3, 0)T radio r.34 También se puede calcular la probabilidad de error que se tendría en caso de que el selector decida de forma óptima, utilizando la ecuación (7). Resolviendo la integral de forma numérica se tiene que P e = En consecuencia la probabilidad de que decida correctamente es P c = En la próxima sección procederemos a simular las técnicas de aprendizaje con estos valores. Buscaremos para cada técnica averiguar cual es el porcentaje de aciertos y cual es la frontera de decisión que adopta. Sabemos teóricamente por como se generarán los datos que una cota para el porcentaje de aciertos es el 81.51% Simulaciones La notación que utilizaremos siempre será Notación Descripción m 1 n o de neuronas en la capa oculta N n o de muestras disponibles para el aprendizaje P n o de muestras utilizadas para evaluar el resultado obtenido x vector de muestras de entrada (N x) d vector de muestras de salida (Nx1) xp vector de muestras de entrada (P x) dp vector de muestras de salida (P x1) λ parámetro de regularización K n o de ensambles considerados para promediar Una descripción de los programas utilizados para las simulaciones se encuentra en el apéndice A. Simulación N o 1 : Se brindan a continuación los resultados y observaciones de simular los resultados de la Teoría de Regularización(ver sección 3.3). Se tomo siempre N = m 1, pero se probo con diferentes valores de N y λ. Para la elección de σ se siguió el criterio de la ecuación (19). Se tomo P = 1000 y K = 0. Resultados Tabla de estimaciones de P e N\λ

23 Observaciones Hay una gran dependencia con el parámetro λ. Los resultados para λ = 0 son bastante pobres. Recordemos que este caso se corresponde con realizar una interpolación estricta. Un buen valor para λ sería λ = 0.. Respecto al número de muestras N, la tabla parece indicar que a mayor N mejor serán los resultados, sin embargo se suelen presentar problemas en el numero de condición de la matriz de funciones de Green que se debe utilizar para calcular los coeficientes de la RNA, además de que el tiempo de procesamiento crece en gran forma, ya que dicha matriz es de dimensión N. Un valor razonable sería tomar N = 100 En el mejor caso, se está teniendo un porcentaje de acierto apenas por encima del 70%. Se está aproximadamente un 10% por debajo del óptimo. Simulación N o : Se simula ahora utilizando el método de los Centros Fijos descrito en la sección Los valores de N, m 1 y λ utilizados se muestran en la tabla. Para la elección de σ se siguió el criterio de la ecuación (19). Se tomo P = 1000 y K = 0. Resultados Observaciones No hay grandes variaciones con λ. Tabla de estimaciones de P e N, m 1 \λ , , , , , , , Si bien los mejores valores se dan para λ = 0., en caso de querer simplificar el problema, se podría tomar λ = 0 sin mayores perdidas. A mayor N mejor serán los resultados. Dejando m 1 = 50 se realiza aproximadamente la misma cantidad de operaciones independientemente del N elegido, ya que la mayor dificultad es la inversión de la matriz G T G + λg T 0 que tendrá dimensión m 1. Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al máximo teórico. 3

24 Simulación N o 3 : Se simula ahora utilizando el método híbrido descrito en la sección Cada tabla corresponde a un valor de η 1. Para la elección de σ se siguió el criterio de la ecuación (19). Se tomo P = 1000 y K = 0. El n o de centros tomado en cada caso es m 1, el n o de muestras tomadas para la etapa competitiva fue N m 1. Para la etapa del cálculo de coeficientes se utilizan N muestras. Resultados Observaciones Tabla de estimaciones de P e para η 1 = 0.1 : N, m 1 \λ , , , , , Tabla de estimaciones de P e para η 1 = 0.3 : N, m 1 \λ , , , , , Tabla de estimaciones de P e para η 1 = 0.5 : N, m 1 \λ , , , , , Tabla de estimaciones de P e para η 1 = 0.7 : N, m 1 \λ , , , , , Tabla de estimaciones de P e para η 1 = 0.9 : N, m 1 \λ , , , , , No hay grandes variaciones con λ. Cuando η 1 crece los mejores resultados se dan a menor λ. 4

25 Para η 1 chico, los resultados son muy similares a los del método de los centros fijos. A mayor N mejor serán los resultados. El número de operaciones está gobernado por el valor de m 1. Los resultados son similares a los de la simulación. Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al máximo teórico Conclusiones de la Aplicación Para implementar las RNA no fue necesario conocer ninguna propiedad estadística del ruido. Los resultados teóricos fueron un poco mejores que los de las RNA, pero en la realidad no se conocerá exactamente las propiedades del ruido, y cualquier modelo que uno realice para el mismo tendrá un cierto error. En consecuencia los resultados obtenidos con las RNA serán probablemente superiores a los teóricos. El método de los centros fijos, pese a ser el más simple, dio muy buenos resultados. Tiene la gran ventaja de poder trabajar con N muy grande sin aumentar mayormente el n o de cuentas, siempre y cuando se mantenga m 1 fijo. El parámetro de regularización λ influyó de manera perceptible únicamente en la simulación de los resultados de la Teoría de Regularización (Simulación 1). En dicha simulación, si se tomaba N muy grande, aparecían con frecuencia matrices mal condicionadas. Cada simulación implica un número realmente grande de cuentas. Trabajando con un procesador Pentium II con 56MB de memoria RAM, fue necesario para algunas simulaciones hasta 15 minutos. Si bien en la implementación de los algoritmos en Matlab no se intento minimizar el número de cuentas, y quizás sea posible implementarlos de forma un poco mas veloz, se puede concluir que el uso de los algoritmos de RNA son prohibitivos en caso de no disponer de una gran capacidad de procesamiento. La aplicación se realizó con codificación binaria ( símbolos) con el fin de poder comparar resultados teóricos y prácticos. Realizar un análisis teórico de cual es la zona en la que se decide por uno u otro símbolo con más de símbolos es realmente complicado. Trabajando con redes neuronales esto no implicaría gran esfuerzo, bastaría con tomar alguna salida más. 5