ESTRUCTURAS DE LAS REDES
NEURONALES ARTIFICIALES
Los aspectos
más característicos de las estructuras
son la estructura
de conexión, el tamaño de la red y la elección
entre (All Class
in One Network -Todas las Clases en Una Red) y OCON (One Class
in One Network – Una Clase en Una
Red).
ESTRUCTURAS DE
CONEXIÓN
Una red neuronal
está determinada por la neurona y la
matriz de
pesos. El comportamiento de la red depende en gran medida
del comportamiento de la matriz de pesos. Hay tres tipos de
capas de neuronas: la de entrada, las ocultas y la de salida.
Entre dos capas de neuronas existe una red de pesos de
conexión, que puede ser de los siguientes tipos: Hacia
delante, hacia atrás, lateral y de retardo.
- Conexiones hacia delante:
Los datos de las
neuronas de una capa inferior son propagados hacia las
neuronas de la capa superior por medio de las redes de conexiones
hacia adelante. - Conexiones hacia
atrás: Los datos de las neuronas de una capa
superior son propagados hacia las neuronas de la capa inferior
por medio de las redes de conexiones hacia
adelante. - Conexiones con retardo:
los elementos de retardo se incorporan en las conexiones para
implementar modelos
dinámicos y temporales, es decir, modelos que precisan
de memoria.
TAMAÑO DE LAS REDES
NEURONALES
El Tamaño
de las Redes depende del Número de Capas y del
Número de Neuronas Ocultas por Capa.
- Número de capas:
En una Red Multicapa, hay una o más capas de
neuronas ocultas entre la entrada y la salida. El
número de capas se cuenta a menudo a partir del
número de capas de pesos en vez de las capas de
neuronas). - Número de unidades
ocultas: El Número de Unidades Ocultas está
directamente relacionado con las capacidades de la red. Para
que el comportamiento de la red sea correcto se tiene que
determinar apropiadamente el número de neuronas de la
capa oculta.
APROXIMACIONES
ACON FRENTE A OCON
Normalmente,
cada nodo de salida se usa para representar una clase. Si
tomamos un problema de reconocimiento alfanumérico,
habrá 36 clases y 36 nodos de salida. Dado un
patrón de entrada en la fase de prueba, el ganador es
normalmente el nodo que tiene el valor
más alto a la salida.
ALL CLASS IN
ONE NETWORK – ACON: Todas las clases son reconocidas
dentro de una única Súper Red.
ONE CLASS IN
ONE NETWORK – OCON: En algunos casos es ventajoso
descomponer esta Súper Red en varias Subredes más
pequeñas. La descomposición más extrema es
la llamada OCON donde una Subred se dedica para una sola clase.
Aunque el número de Subredes en la estructura OCON es
relativamente largo, cada una de ellas tiene un tamaño
menor que la red ACON.
RED
ENTERA
SUBREDES
VARIAS
La capacidad de
clasificación de la red neuronal depende de los valores
de los pesos sinápticos los cuales pueden ser
preestablecidos o entrenados adaptativamente mediante
mecanismos de aprendizaje. En
función de la forma con la que los pesos
sinápticos son entrenados, las ANNs se pueden clasificar en modelos supervisados y modelos
no supervisados.
Una clase de
modelos de entrenamiento
no supervisado son las Redes Asociativas de Pesos Fijos que se
usan para obtener patrones originales libres de ruido a
partir de señales incompletas o distorsionadas. La
principal característica de estas redes es que sus
pesos son preestablecidos y precalculados. Adicionalmente,
estas redes tienen aplicaciones limitadas ya que no se pueden
adaptar a ambientes cambiantes.
Otra clase de
modelos de entrenamiento no supervisado son las Redes de
Aprendizaje Competitivo cuyos pesos se adaptan de acuerdo con
reglas de aprendizaje no supervisadas. Estas redes pueden
aprender en ausencia de un maestro. En decir, el entrenamiento
de las mismas se basa únicamente en la información de los patrones de
entrada.
REDES DE MEMORIA
PROASOCIATIVA
Una red de
memoria asociativa es matemáticamente un mapeado de un
espacio de entrada sobre uno de salida. Las redes de memoria
asociativa se pueden usar tanto para las aplicaciones
autoasociativas como para las heteroasociativas. En las
aplicaciones autoasociativas la dimensión del espacio de
entrada es igual al de salida. En las aplicaciones
heteroasociativas la dimensión del espacio de entrada y
del espacio de salida son en general diferentes. Los valores de
entrada y de salida pueden ser reales o binarios.
Una LAM es una
red de una capa de propagación. La LAM se deriva de un
conjunto de pares de patrones de entrada/salida {b
{m}, a {m}}. Aquí la entrada
es b {m} = [b1 {m}, b2
{m},…, bk {m}]t y la salida es a {m} =
[a1 {m},a2 {m},
…, ak {m} ]t
para m=1, 2,…., M, donde [-]t
denota la transpuesta del Vector o Matriz. El objetivo de
LAM es recuperar el patrón de salida basado en la
información total o parcial del patrón de
entrada.
La Matriz de Pesos
Sinápticos W en la Memoria
Asociativa Lineal se obtiene de la correlación de los
pares de patrones originales: W = S
a (m) b (m) t
donde a y b son Vectores
Reales Continuos: a Î R
N y b Î R
N. Las entradas de la matriz se denotan por
Wij = S a
i(m) bj(m) t .
Si las
entradas son binarias (1/0), entonces los elementos de la
matríz de pesos W, de N x K dimensiones, que se
calculan como:
Donde
a, b Î Ik (Vectores Binarios). Esta
fórmula permite que la condición de
ortogonalidad sea impuesta más apropiadamente. Para
producir una salida binaria, los elementos del vector Wt se
ajustan primero por sus umbrales respectivos:
Luego son
procesados por alguna unidad no lineal en los nodos de
salida. Si el valor ajustado es positivo entonces la salida
será 1; de cualquier otro modo, será
0.
El uso de una
unidad de proceso no
lineal, será esencial para eliminar las perturbaciones
indeseadas. Dado un Patrón de Prueba t, definimos el
Vector Resultado s como el Producto
Interno entre b(m) y el Patrón de Prueba
t y lo escribimos como <b(m) , t
>.
S = [< b
(1), t >, < b (2), t>,…,
< b (M), t>] donde la operación del
Producto Interno para una entrada de valor real se define
como:
Al vector
resultado s se le hace un Procesado no Lineal llegando a un
Vector de Decisión Binario V = N {s} que se espera tenga
solo un elemento distinto de cero. Si este elemento se
posiciona correctamente, entonces se puede realizar la
Recuperación Holográfica. El patrón a
recuperar es el Valor de Salida Av. constituida por la matriz
formada por los vectores columna a
(k).
El
propósito del operador NOLINEAL N {-} es
seleccionar sólo un nodo ganador y
simultáneamente descartar todos los otros nodos. El
propósito es suprimir el ruido llegando a la
Recuperación Holográfica. Los operadores no
lineales se pueden manifestar como un elemento de umbral o un
circuito MAXNET.
- Redes de
Hamming
Las redes de
Hamming son comúnmente utilizadas cuando las entradas
son de tipo binario. La red de Hamming selecciona un ganador
de entre los patrones almacenados {b(m) ,
m=1,…, M}, que tienen la menor distancia de Hamming al
vector de entrada. Para los vectores bipolares (-1/1) se
puede adoptar la misma definición de producto interno
introducida anteriormente. Para los valores binarios (1/0) de
entrada, el producto interno se tiene que redefinir
como:
Por lo tanto
se tiene que:
= numero total de bits que
concuerdan
– numero de bits que no
concuerdan
= K – 2 (distancia de Hamming
entre b (m) y t)
En donde la
distancia de Hamming es el número de inconsistencias
entre los bits de los dos vectores. Esto prueba que en este
caso, tanto el valor del producto interno como la distancia
de Hamming darán el mismo efecto.
REDES DE MEMORIA RETROASOCIATIVA
Una Red con
Realimentación necesita de muchas iteraciones hasta que
conseguir la recuperación del patrón final. La
Red de Retroasociacion más popular es el Modelo de
Hopfield el cual que tiene las siguientes
características:
- Los Pesos sinápticos son
prealmacenados. - Se usan operaciones
no lineales de escalonamiento en cada etapa para producir
valores binarios. - La retroalimentación tiene la función
de propiciar que los estados se puedan actualizar
iterativamente. - Las iteraciones convergen hacia
una solución que minimiza una función de
energía de la red.
Obtención de los Pesos
SinápticosDados M
patrones binarios (i.e., {ai (m)}
tiene valores binarios 0 o 1), los pesos en el modelo de
Hopfield se obtienen de la siguiente forma:Wij = S Mm =1 (2ª
i (m) – 1)
(2ªj(m) – 1 ) i ¹ jEl umbral de
la red se da de la siguiente forma:k
q i = – ½ S Wij
j=1
Funciones de Energía y
ConvergenciaUtilizando la
Función de Liapunov como concepto de
Función de Energía:E = – ½
S S
Wij ai aj – S q i
aii
j iBajo la
situación ideal de que los vectores almacenados son
perfectamente ortogonales, entonces cada patrón
original representa un mínimo local (o global) de la
función de energía. Esto motiva que se
diseñe la red para que iterativamente se pueda buscar
el estado
de mínimo local. La técnica del gradiente nos
lleva al modelo secuencial de Hopfield. La diferencia de la
función de energía antes y después de la
actualización de un estado
es:D kE
= E
( k+
1 )
– E
( k)En caso de una
actualización secuencial (asíncrona), hay solo
una adaptación de un bit al mismo tiempo.
Sin perdida de generalidad, asumamos que sea
en D ai(k) +
1)E en el bit
i-esimo:D kE
= – ui( k+
1 )
D ai ( k+
1 ) –
½WijPuesto
que Wii = 0:D kE
= – Ui (k + 1)
D ai( k+
1 )Introduzcamos
una versión discreta del gradiente como:Para
garantizar el descenso de la Función de
Energía D
ai( k+ 1 ) se debería actualizar en la dirección de descenso del
gradiente:D ai(
k+ 1
) a
ui( k+ 1 )- MODELO DE HOPFIELD
SECUENCIAL (ASÍNCRONO) - MODELO DE HOPFIELD, ALGORITMO
SEQUENCIAL
Suponiendo que
la entrada a la red de retroalimentación es a, que se
usa como el vector de estado inicial, esto es, se
fija a= a(0) = (a1(0), a2 (0),
…, aN(0)]T y las iteraciones inician
en k=1 hasta la convergencia. Durante la
iteración k-ésima, la red realiza la
actualización en orden secuencial desde i=1,
i=2,…, hasta i=N se tiene que:
Cálculo
del valor de red
Ui(K
+ 1) = S Wij
aj (k) + q
I
Actualización de los
estados
ai (k + 1) =
1 Ui (k + 1) > 0
0 Ui (k + 1)
<0
ai
(k) Ui (k + 1)=0
Se repite el mismo proceso
para la siguiente iteración hasta la convergencia, lo
que ocurre cuando ninguno de los elementos cambia de estado
durante alguna iteración.
D kE =
– Ui( k+ 1 ) D ai
( k+ 1 )
La idea
básica que yace en las SOFM es la incorporación a
la regla de aprendizaje competitivo un cierto grado de
sensibilidad con respecto al vecindario o la historia. Esto hace que el
número de neuronas que no aprenden desaparezca y ayuda a
que se destaquen propiedades topológica que aparezcan en
el "mapeado" de caracteristicas.
Suponiendo que un
vector de entrada tiene N características y se representa
por un vector x en un espacio de patrones N-dimensional. La red
mapea el patrón de entrada hacia un espacio de salida. Por
ejemplo, el espacio de salida puede ser un array unidimensional o
bidimensioanl de nodos de salida, que posee cierto orden
topológico. La cuestión es cómo entrenar la
red para que esa relación de orden se preserve. Kohonen
propuso que las neuronas de salida interactuaran lateralmente,
llegando así a los mapas de características
autorganizativos.
La
característica más importante del modelo es el
concepto de aprendizaje en un vecindario próximo a la
neurona ganadora.
Las ANNs de
entrenamiento supervisado constituyen la línea
fundamental de desarrollo
en este campo. Algunos ejemplos bien conocidos de las
primeras redes son
red
perceptrón,
ADALINE/MADALINE, y varias redes multicapa. En el
entrenamiento supervisado hay dos fases a realizar: fase de
prueba y fase de entrenamiento.La red
conocida como perceptron simple es una red
neuronal tipo feed-forward supervisada, sin capa
oculta, constituida por un vector de
"p" inputs, X=(x1,
x2, …,xn)’, un vector
de "n" outputs deseados,
X=(y1, y2,
…,yn)’, (véase ilustración). La relación
entre ambos vectores, (inputs; outputs) se
obtiene mediante la regla de aprendizaje, perceptron
learning rule. Se demuestra que converge de forma
correcta en un número finito de iteraciones
(perceptron convergence theorem). Si
adicionalmente las clases son linealmente separables,
permite su utilización en problemas de clasificación con
más de una categoría.- Red Perceptron:
Un modelo
neuronal que representa la relación lineal entre
input y output es la red Adaline
(adaptive linear element). Este modelo utiliza una
neurona similar a la del perceptrón simple
pero de respuesta lineal. Su utilización es
posible siempre que los inputs sean linealmente
independientes, lo cual implica, de forma unidireccional,
la condición de separabilidad entre los mismos. El
mecanismo que posee para su aprendizaje es la regla de
Windrow-Hoff o least mean square (LMS) ,
que puede considerarse un caso particular de la regla de
aprendizaje delta, delta learning rule.
Ésta última considera como función
de activación no lineal la función
sigmoidea. La versión multicapa de la red Adaline
se denomina Madaline y su homólogo en
términos de perceptron simple son las redes
multilayer feed-forward, (véase
ilustración). - Red
Adaline - Las redes
Multilayer:
MODELOS SUPERVISADOS
Las redes
Multilayer feed-forward (MLP) pueden considerarse unos
aproximadotes funcionales universales, es decir, una red con
una única capa oculta, puede aproximar hasta el nivel
deseado dentro de un conjunto compacto cualquier función
continua. Las redes multilayer feed-forward son entrenadas
habitualmente con el algoritmo de aprendizaje denominado
Back-propagation o BP, uno de los algoritmos
con más importancia histórica en el desarrollo de
las redes neuronales. Las redes neuronales asociadas al
algoritmo Backpropagation se definen como redes
back-propagation (véase ilustración
).
Los factores que
influyen en el proceso de aprendizaje del algoritmo
back-propagation
(BP) son, entre
otros.
- Los pesos iniciales que son
normalmente inicializados de forma aleatoria, pero existen
otras posibilidades, como por ejemplo, donde "ki " es el
número de conexiones entre inputs y neuronas en la capa
oculta. - La constante de aprendizaje,
factor de gran importancia en el proceso de convergencia, tanto
en lo referente a cómo afecta su valor, como cual es el
mejor valor a utilizar en las aplicaciones. - Las funciones de
coste, usualmente se utiliza la función
cuadrática. - El momentum,
filtrado de paso bajo (alisado) del gradiente del
error. - Técnicas de
optimización utilizadas, métodos
de gradiente descendente, método
de Newton,
método de quasi-Newton, método de
dirección conjugada. - Aprendizaje y
generalización - Número
de neuronas en las capas ocultas.
Muchas
aplicaciones requieren que las redes neuronales
diseñadas respondan a secuencias en el tiempo de
patrones, es decir, series temporales. Si utilizamos el
algoritmo de aprendizaje BP, podemos convertir una red MLP en
una red time-delay neural networks (TDNN) simplemente
utilizando inputs o entradas con retardos.
Adicionalmente existen otros tipos de
redes feed-forward, agrupadas con el nombre de redes
polinomiales. Ejemplos de ellas son: las redes
functional-link, que son redes con una sola capa oculta
en la que las entradas se procesan con un conjunto de funciones
elegidas en función del problema; las redes
neuronales arbóreas o TNN, que utilizan
pequeñas redes MLP en cada nodo de partición para
una clasificación binaria que permita extraer las
características no lineales; las redes neuronales
Wavelet o WNN, que son una alternativa a las redes
neuronales feed-forward para aproximarse de forma
arbitraria a funciones no lineales. Y por último, las
redes GMDH
- Redes Neuronales
Polinomiales (PoNN): Algoritmo
GMDH.
Las redes
neuronales polinómicas (PoNN) utilizan el
algoritmo "Group Method of Data
Handling" (GMDH). Las primeras investigaciones
fueron a cargo de R. Shankar (1972) el cual presentó el
algoritmo GMDH como un método que permitía
describir de forma sucesiva un sistema
complejo de relaciones a partir de simples operaciones matemáticas.
De hecho, es un
buen método para solucionar problemas del estilo,
identificación, predicción a corto y a largo
plazo de procesos
aleatorios, reconocimiento de patrones en entornos complejos,
etc. La teoría matemática fue desarrollada de forma
conjunta por muchos investigadores, siendo su máximo
exponente A.G. Ivakhnenko, hacia los años sesenta. El
contenido del algoritmo se desarrolló como
vehículo para identificar relaciones no lineales entre
inputs y outputs, generando una estructura
óptima a partir de un proceso sucesivo de varias
generaciones de descripciones parciales de los datos, mediante
la incorporación de nuevas capas. En cada capa se inicia
con un número máximo de neuronas (definido por
combinatoria), de forma que, mediante un proceso de selección se determina el número
de neuronas más idóneo en cada capa y así
el proceso se diferencia claramente del back-propagation
en donde todas las capas participan simultáneamente en
el proceso de aprendizaje.
Los aspectos
más importantes del proceso histórico son los
siguientes:
- Se caracterizó por
aplicaciones orientadas a establecer criterios de regularidad
para solucionar problemas de identificación,
predicción a corto plazo, reconocimiento de patrones,
pero no se investigó la robustez frente al ruido de
los datos (1968-1971). - Se solucionó el
problema de la modelización con datos incompletos o
con ruido
(1972-1975).
- Fue investigado el grado de
convergencia del algoritmo GMDH (1976-1979). - Se obtuvieron
importantes resultados teóricos, proponiendo modelos
no físicos para predicciones a largo plazo, modelos en
dos niveles, etc, (1980-1988). - Aparición de nuevos algoritmos
para la modelización no paramétrica, como por
ejemplo, "Twice-Multilayered Neural
Nets" (TMNN) (1988 hasta la actualidad).
Respecto a las
aplicaciones, véase tabla, son cada vez más
numerosas y relacionadas con diversos campos
científicos
Tabla: Áreas
de aplicación de los modelos GMDH.
El primer modelo
neuronal diseñado fue "Ivakhnenko
Polynomial" o "Kolmogorov-Gabor
Polynomial", con una topología formada por dos inputs y
un output. Dicha expresión es el resultado de una
combinación cuadrática de los inputs generando un
total de 6 ponderaciones, cuya expresión del
output es, en este caso,
Una
topología más completa incorpora capas ocultas,
donde el output puede ser expresado como un polinomio de
grado 2(k −1), siendo
"k" el número total de capas en el modelo
neuronal.
El proceso de
estimación de los parámetros posee tres fases
(véase ilustración)
La primera de
ellas consiste en agrupar por parejas todas las variables
independientes de forma que,
así con las
variables anteriores se crean ecuaciones de regresión,
Cada
término de regresión se verifica con la muestra de
datos de entrenamiento y de test, pero
sólo las mejores variables se mantienen utilizando la
muestra de test
Las variables
nuevas se pueden considerar versiones mejoradas de las primeras
variables generadas. Así por ejemplo, para un caso de 3
variables de entrada o inputs obtenemos los
siguientes modelos
En el segundo
paso de la optimización, véase ilustración
2.2.5.6., las variables originales " i x
" se
substituyen por las variables nuevas, " i z
", que son
las que mejor describenla variable dependiente,
"y".
Para cada
combinación de las variables originales , la raíz del
error cuadrático medio se utiliza para calcular el
criterio de regularidad (CR) como una medida de bondad del
ajuste (mediante los datos de la base de test). Todas las
variables se
mantienen como nuevos regresores, donde
"R" se especifica a priori y la expresión de " 2j
r "es,
En la
última fase, la bondad del modelo permite determinar la
necesidad de más iteraciones. El valor de más
pequeño obtenido se compara con el generado en la
última iteración, si no existe mejora el proceso ha
terminado, (véase ilustraciones).
Al final del
proceso anterior, se posee un modelo con los regresores que se
crearon como una síntesis
de diversas variables de generaciones anteriores. Estas
variables pueden ser expresadas de manera recursiva en
términos de las variables originales149. Como podemos
observar, es un modelo que no está completamente
interconectado, similar a un método autoorganizativo
inductivo y con la capacidad de solucionar problemas
complejos, (véase ilustración.).
Especialmente la
última fase descrita es problemática. El
criterio de regularidad (CR) descrito anteriormente es
sensible a los datos con fuerte componente aleatoria, por esta
razón se suelen utilizar otros criterios, como por
ejemplo, el criterio no sesgado o el criterio
combinado.
Para el primero
de ellos, se subdividen los datos disponibles en dos muestras
"A" y
"B", donde para
cada una de ellas, se aplica de manera independiente el
algoritmo, siendo su expresión, la siguiente,
donde, la
variable " ij z "
solo permanecerá en la
próxima iteración si u siendo
"U" un umbral predefinido. Los resultados empíricos
no han sido muy buenos para este primer caso.
En segundo
lugar, el criterio combinado, intenta solventar los problemas
del primero, combinando los dos con la siguiente
expresión,
donde, la
variable " ij z "
solo permanecerá en la
próxima iteración si c C j 2
, siendo "C" un umbral
predefinido
Los modelos
neuronales polinomiales (PoNN) poseen una diferencia
importante
respecto a los
modelos donde las neuronas están previamente definidas y
es que, sus unidades de procesamiento poseen un papel activo,
debido a que los algoritmos GMDH se ejecutan dentro de las
propias unidades, representando una nueva variable, que es
generada mediante la selección independiente de las
entradas relevantes necesarias para encontrar la estructura
óptima.
Jorge Antonio Delgado
Palomino
Ingeniero Industrial
Universidad Nacional de San
Agustín
Arequipa – Perú
Página anterior | Volver al principio del trabajo | Página siguiente |