Нейросетевые алгоритмы самостоятельной адаптации

Басканова Т.Ф., Ланкин Ю.П.
Красноярский государственный университет,
Институт биофизики СО РАН

Источник: Научная сессия МИФИ-99. Всероссийская научно-техническая конференция "Нейроинформатика-99". Сборник научных трудов. В 3 частях. Ч.1.- М.: МИФИ, 1999.- С.17-24.

Представление нейросетей

Данная работа посвящена разработке алгоритмов в концепции построения нейронных сетей с самостоятельной адаптацией (самоадаптирующихся нейросетей), предложенных в работах [[1],[2]], позволяющей значительно расширить возможности нейросетевых методов управления и обработки информации.

Пусть функционирование нейрона нейросети описывается уравнением

                        ,         ( 1 )

где Ai - внешние входные сигналы; aj - входные сигналы от других нейронов; xij - веса межнейронных связей.

В работе [[3]] показано, что можно получить сколь угодно точное приближение любой непрерывной функции многих переменных, используя операции сложения и умножения на число, суперпозицию функций, линейные функции, а также одну произвольную непрерывную нелинейную функцию одного переменного. Для нейросетей это означает, что для получения указанного результата от функции активации нейрона требуется только нелинейность. Адаптивные возможности предлагаемых алгоритмов с ускоренным стохастическим поиском позволяют в полной мере реализовать потенциальные возможности нейросетей.

Целевая функция с помощью которой оценивается успешность обучения (адаптации) может быть задана, например, следующим образом:

                               ,                ( 2 )

где ai* - требуемые значения ai. Однако существуют и другие возможности [1,2].

В работе [1] приведен метод случайного поиска с целью адаптации нейросети, построенный на флюктуациях весов межнейронных связей. Обладая всеми необходимыми качествами для создания самоадаптирующихся нейросетей, этот метод требует изменения N2 параметров на каждом пробном шаге, где N - число формальных нейронов полносвязной нейросети. Метод адаптации, предложенный в работе [2] дает возможность сократить число изменяемых параметров поиска с N2 до N за счет варьирования величинами ri вместо xij, что обеспечивает ускорение обучающих алгоритмов. Дальнейшее ускорение осуществляется прогнозированием последующего направления поиска с использованием предыдущего опыта адаптации. Комбинация этих методов позволяет существенно ускорить процедуру случайного поиска, приближая ее быстродействие к детерминированным алгоритмам и сохраняя ее преимущества перед другими методами при построении самоадаптирующихся нейросетей.

 

Алгоритм самоадаптации нейросетей

В процессе адаптации (обучения) нейросети происходит подстройка весовых коэффициентов xi до тех пор, пока не будет получен набор xij, удовлетворяющих условию H£m, где m максимально допустимая величина ошибки.

В работе предложенного в публикации [2] алгоритма можно выделить три повторяющихся этапа:

1. Сохранение текущих значений ri0 для каждого нейрона и H0 для сети в целом.

2. Подбор методом случайного поиска величин ri таким образом, чтобы выполнялось условие H<H0. При этом ошибка в уровне активности каждого нейрона сети может быть получена как

.

3. Подстройка весовых коэффициентов осуществляется с помощью преобразования

,

аналогичного обобщенному правилу [[4],[5]] Уидроу-Хоффа [[6]] (дельта-правилу), а коэффициент y пропорционален скорости изменения xij.

Изменение xij ведет к уменьшению Dri, приближающему величины ri и, следовательно, ai = f(ri) к желаемым. При этом H стремится к минимально возможным значениям. То, что наилучшее приближение для ri существует следует, из теоремы, приведенной в работе [[7]]. Для упрощения доказательства теоремы заменим r-Ai на U.

Для U Î R добиться наилучшего приближения можно линейной комбинацией   линейно независимых элементов . То есть можно найти такой элемент , что

.

Теорема: Элемент наилучшего приближения существует.

Доказательство: Исследуем соотношение (неравенство треугольника)

.

Из него следует, что функция

является непрерывной функцией аргументов   при " UÎR. Пусть -евклидова норма вектора . Функция  непрерывна на единичной сфере  и, следовательно, в некоторой точке  достигает своей нижней грани  по сфере, причем , так как равенство   противоречит линейной независимости элементов . Для любого  справедлива оценка

.

Пусть . Функция  непрерывна в шаре ; следовательно в некоторой точке шара  она достигает своей нижней грани  по шару. Имеем . Вне этого шара выполняется соотношение

.

Таким образом

при всех возможных , что и требовалось доказать.

Отметим, что элементов наилучшего приближения может быть множество.

 

Адаптивная процедура

Для выполнения процедуры случайного поиска может быть использовано множество алгоритмов.

Одним из простейших является алгоритм с возвратом на неудачном шаге [[8]]. Он сводится к построению последовательности {rik} по правилу:

,

где g k - некоторая положительная величина;  - какая-либо реализация n - мерной случайной величины  с известным законом распределения. Например, координаты xh случайного вектора  могут представлять независимые случайные величины, равномерно распределенные на отрезке [-1,1].

Пусть k-е приближение уже известно. Функция H(a(ri)) в уравнении (2) достигает минимума на некотором множестве QΠEn,  rikΠQ (k³ 0).

Алгоритм действует следующим образом. С помощью датчика случайных чисел получают некоторую реализацию случайного вектора  и в пространстве En определяют точку rik=rik+gx, g =const>0. Если rikΠQ и H(a(rik))< H(a(rik)), тогда rik+1=rik. Если rikΠQ но H(a(rik))³ H(a(rik)), или rikÏ Q, то сделанный шаг считается неудачным и полагается rik+1=rik.

В ситуации, когда требуемая точность достигнута - H£m, или rik=rik+1=rik+2...=rik+N, если N достаточно велико, точка rik принимается в качестве искомой точки минимума.

 

Ускорение адаптивной процедуры

На этапе функционирования описываемые нейросети совпадают по быстродействию с нейросетями, обученными по детерминированным алгоритмам, но при обучении даже с учетом предложенных усовершенствований[1],  случайный поиск остается процессом достаточно медленным. Для его ускорения в работе [2] предложено использовать прогнозирование последующего направления поиска с использованием предыдущего опыта адаптации. Набор численных методов, пригодных для прогноза наилучшего изменения величин ri (а для алгоритма, описанного в [1], величин xij), достаточно широк.

Приведем один из подходов, позволяющих осуществить подобную процедуру. Он представляет собой простую самонастраиваемую модель, основанную на вычислении так называемой экспоненциальной средней [[9]].

Поиск с вычислением экспоненциальной средней. В процессе случайного поиска возникает последовательность значений {ri}, которые удовлетворяют условию улучшения функции оценки. Это временной ряд rt, поведение которого прогнозируется (rt - значение ri в некоторый момент времени). Пусть временной ряд, генерируемый некоторой моделью, можно представить в виде можно представить в виде двух компонент

,

где величина et  генерируется случайным неавтокореллированным процессом с нулевым математическим ожиданием и конечной дисперсией, а величина dt может быть сгенерирована либо детерминированной функцией, либо случайным процессом, либо какой-нибудь их комбинацией.

Вычисление и анализ тенденции динамического ряда можно осуществить с помощью его экспоненциального сглаживания. В его основе лежит расчет экспоненциальных средних. Экспоненциальное сглаживание описывается рекуррентной формулой

,

где St - значение экспоненциальной средней в момент t; n -параметр сглаживания, n =const, 0<n <1;  b=1-n.  Или через значения временного ряда rt

,

где N - количество членов ряда; S0 - некоторая величина, характеризующая начальные условия для первого применения формулы при t=1.

Так как b<1, то при N®¥  bN®0, а

.

Тогда

 .

Таким образом, величина St является взвешенной суммой всех членов ряда.

Пусть ряд генерируется моделью

,

где a1=const;  et - случайное неавтокоррелированное отклонение, или шум, со средним значением 0 и дисперсией s2.

Применим к нему процедуру экспоненциального сглаживания. Тогда

.

Найдем математическое ожидание

 

и дисперсию

.

Так как 0<n  <1,  D(St)< D(rt)=s2. 

Таким образом, экспоненциальная средняя St имеет то же математическое ожидание, что и ряд r, но меньшую дисперсию. При высоком значении n  дисперсия экспоненциальной средней незначительно отличается от дисперсии ряда r.

Чтобы использовать экспоненциальную среднюю для краткосрочного прогнозирования используем ряд, который генерируется моделью

,

где a1,t - варьируемый во времени средний уровень ряда;  et - случайное неавтокоррелированное отклонение с нулевым математическим ожиданием и дисперсией s 2.

Прогнозная модель имеет вид

,

где  - прогноз, сделанный в момент t на t единиц времени (шагов) вперед;  - оценка a1,t. Экспоненциальная средняя St служит оценкой для единственного параметра модели a1,t

.

Все свойства экспоненциальной средней являются одновременно свойствами прогнозной модели.

Если St-1 - прогноз на 1 шаг вперед, то величина (rt - St-1) является погрешностью этого прогноза, а новый прогноз St получается в репогрешностью этого прогноза, а новый прогноз St получается в результате корректировки предыдущего прогноза с учетом ошибки.


Литература

[1]. Ланкин Ю.П. Самоадаптирующиеся нейронные сети./ Препринт ТО №3 Института  биофизики СО РАН, Теоротдел.- Красноярск, 1997.- 21 с.

[2]. Ланкин Ю.П. Адаптивные сети с самостоятельной адаптацией./ Препринт ТО №4 Института биофизики СО РАН, Теоротдел.- Красноярск, 1998.- 17 с.

[3]. Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей.// Сибирский журнал вычислительной математики.- Новосибирск: РАН. Сиб. отделение, 1998.- 1, №1.-  С.11-24.

[4]. Rumelhart D.E., Hinton G.E. & Williams R.J. Learning representations by back-propogating errors.// Nature.- 1986.- 323.-  P.533-536.

[5]. Барцев С.И., Охонин В.А. Адаптивные сети обработки информации./ Препринт №59Б Института  биофизики СО АН СССР.- Красноярск, 1986.- 19 стр.

[6]. Widrow B., Hoff M.B. Adaptive Switching Circuits.// IRE WESCOW Conv. Record.- 1960.- Pt.- 4.- P.96-104.

[7]. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы.- М.: Наука. Гл. ред. физ. мат. лит, 1987.- 600 с.

[8]. Васильев Ф.П. Численные методы решения экстремальных задач.- М.: Наука. Гл. ред. физ. мат. лит, 1988.- 552 с.

[9]. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования.- М.: Статистика, 1979.- 252 с.