Источник – http://www.i2.com.ua/Articles/neural/A_copy/A_copy1.php
ИСПОЛЬЗОВАНИЕ НЕЯВНО ЗАДАННЫХ ПЕРЕДАТОЧНЫХ ФУНКЦИЙ (НПФ) ПРИ
ПОСТРОЕНИИ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ.
Олександрук Б.О.
В данной работе предлагается внедрение неявно заданных
передаточных функций при построении нейронных сетей. Также далее исследуются
некоторые особенности использования неявно заданных передаточных функций
нейронов.
В настоящий момент уже исследовано значительное множество
моделей нейронных сетей. Ряд моделей нейронных сетей успешно применяются в
различных отраслях. Большинство нейросетевых моделей призваны описывать
закономерности между входным потоком данных и выходным потоком. Адекватность
подбора закономерности нейронной сетью зависит, прежде всего, от структуры сети
и передаточных функций нейронов сети. Подробнее остановимся на значимости
передаточных функций нейронной сети.
Почему передаточные функции нейронов сети так важны? Дело в
том, что закономерность, моделируемая нейронной сетью, представляет собой
некоторую суперпозицию передаточных функций нейронов сети. Следовательно, важно,
чтобы каждая передаточная функция адекватно описывала на микроуровне поведение
элементов реальной системы, сгенерировавшей исходные потоки данных.
Возьмем часто используемые сигмовидные передаточные функции.
Нередко возникают ситуации, когда для адекватного описания элементарных
закономерностей такими функциями требуется бесконечное число элементов сети. То
же самое касается и полиномиальных передаточных функций.
Приведем простой пример.
Пусть искомая закономерность соответствует
т.е. половине эллипса.
Для того чтобы представить данную функцию в виде суперпозиции
сигмовидных функций либо полиномов требуется бесконечное число элементов. С
другой стороны, данную функцию можно получить как решение из тривиальной модели
ax2+by2=1.
Таким образом, сделаем следующий вывод: используя неявную
модель можно добиться большей точности при меньшем количестве степеней свободы
(параметров) модели, нежели при использовании явно заданной модели.
Следовательно, замена явно заданной передаточной функции
нейронов является не бесперспективной.
Однако с переходом на неявно заданные функции возникает
проблема множественных корней, т.е. уравнения модели передаточной функции может
иметь несколько корней. Конечно, можно выбирать в качестве решения один из
корней, удовлетворяющий определенным условиям. В этом случае функция, которую
моделирует нейронная сеть, может иметь разрывы. Чтобы избежать вышеуказанной
проблемы рекомендуется использовать уравнение передаточной функции, имеющее
единственное решение.
Далее целью работы будет построение уравнения передаточной
функции, которое имеет единственное решение.
Лемма 1.
Пусть передаточная функция задана
уравнением
(*)
где – вектор параметров
передаточной функции,
у – значения выхода нейрона,
– вектор значений входов нейрона.
– непрерывная дифференцируемая
Тогда на области существует единственное
решение
Далее предложим методы адаптации параметров передаточной функции отдельно взятого нейрона,
используя МНК или рекуррентный метод наименьших квадратов.
Пусть
(1)
(2)
Определим матрицу
где - вектор значений входов
нейрона в l-й момент времени,
yl – значения
выхода нейронов в l-й момент времени.
Пусть
(**)
Тогда (*) будет иметь единственное решение y.
Решая оптимизационную задачу, найдем оценки параметров передаточной функции нейрона:
Далее, используя оценки параметров , можем построить уравнение неявно заданной передаточной
функции
Тогда для полученных значений параметров существует единственное решение:
согласно лемме 1 при условиях (4) и (5).
Решение является искомой
передаточной функцией нейрона с адаптированными параметрами .
Передаточную функцию можно получить как аналитически, так и
численно в зависимости от вида g и f.
Для случая, когда функции f
и g заданы в виде (1) и (2),
оценки параметров можно получить по методу
наименьших квадратов.
Принцип неявно заданных передаточных функций целесообразно
использовать в самоорганизующихся сетях МГУА. Также возможно использование
данного принципа как в традиционных сетях типа back propagation (в этом случае
необходимо дополнительно вычислить для
неявно заданной передаточной функции) так и в иных моделях нейронных сетей.
Использование принципа неявно заданных передаточных функций
практически не отличается от использования явно заданных ПФ для метода
группового учета аргумента, поэтому, данный пункт детализировать не будем.
Подробнее остановимся на использовании НПФ (неявно заданных
передаточных функций) для сетей back propagation.
Рассмотрим градиентный метод обучения.
Пусть требуется минимизировать следующий критерий:
где - реальный выход j-го нейрона выходного слоя N нейронной сети при
подаче на вход р-го образа; - желаемый выход.
Минимизируем критерий методом градиентного спуска:
где i-й параметр j-го нейрона в
слое.
,
где
для g и
f,
заданных в виде (1) и (2) соответственно
где K-
количество нейронов в предыдущем слое n-1.
n- текущий
слой.
Далее распишем множитель
как:
,
где
Если обозначить
Получаем рекуррентную формулу подсчета величины n-го слоя через последующий n+1-й
слой:
И для простейшего случая градиентного метода получаем
корректировку параметров сети (весов):
Использование НПФ позволяет получить новые свойства нейронных
сетей и вместе с тем ставит ряд новых задач для дальнейшего исследования
искусственных нейронных сетей.
Данная работа выполнена в рамках проекта " i2"(http://www.i2.com.ua).
Литература:
- 1) D.J. Amit and H. Gutfreund. Spin-glass models of neural networks.
Physical Review A, 32:1007 - 1018, 1985.
- 2) A.G. Barto and M.I. Jordan. Gradient following without backpropagation
in layered networks. In 1st Int. Conference Neural Nets, San Diego,
volume 2. 1987.
(I have this).
- 3) G. Carpenter and S. Grossberg. A massively parallel architecture for a
self-organizing neural pattern recognition machine. Computer Vision,
Graphics, and image Processing, 37:54 - 115, 1987.
- 4) R.O. Grondin, W. Porod, C.M. Loeffler, and D.K. Ferry. Synchronous and
asynchronous systems of threshold elements. Biological Cybernetics,
49:1 - 7, 1983.
- 5) S. Grossberg. Competitive learning: from interactive activation to
adaptive resonance. Cognitive Science, 11:23 - 63, 1987.
- 6) S. Grossberg. Nonlinear neural networks: Principles, mechanisms, and
architectures. Neural Networks, 1:17 - 61, 1988.
- 7) R. Hecht-Nielson. Counterpropagation networks. In 1st Int.
Conference Neural Nets, San Diego, volume 2. 1987.
(I have this).
- 8) G.E. Hinton, T.J. Sejnowski, and D. Ackley. Boltzmann machines:
Constraint satisfaction networks that learn. Technical Report CMU-CS-84-119,
Carnegie Mellon University, 1984.
- 9) A. Hodges. Alan Turing - The Enigma of Intelligence.
Counterpoint (Unwin), 1985.
- 10) J.J. Hopfield. Neural networks and physical systems with emergent
collective computational properties. Proceedings of the National Academy
of Sciences of the USA, 79:2554 - 2588, 1982.
The original paper by
Hopfield. It is well written - not too mathematical - and avoids the
complexities of notation which a physicist (which Hopfield is primarily) might
have made. This was the mistake made by Little in the 70s and why these nets
are called `Hopfield' nets and not `Little' nets. Hopfield has another,
related, model which uses continuous outputs. Beware when reading the
literature which model is being discussed.
- 11) J.J. Hopfield. Learning algorithms and probability distributions in
feed-forward and feed-back networks. Proceedings of the National Academy
of Sciences of the USA, 84:8429 - 8433, 1987.
- 12) T. Kohonen. Self-organized formation of topologically correct feature
maps. Biological Cybernetics, 43:59 - 69, 1982.
- 13) T. Kohonen. Self-organization and associative memory.
Springer Verlag, 1984.
- 14) R.P. Lippmann. An introduction to computing with neural nets. IEEE
ASSP Magazine, pages 4 - 22, 1987.
- 15) D.B. Parker. Learning-logic. Technical Report 581-64, Office of
Technology Licensing, Stanford University, 1982.
- 16) R. Raj. Foundations and grand challenges of artificial intelligence.
AI Magazine, 9:9 - 21, 1988.
- 17) D. Rumelhart and D. Zipser. Feature discovery by competitive learning.
Cognitive Science, 9:75 - 112, 1985.
- 18) D.E. Rumelhart, G.E. Hinton, and R.J. Williams. Learning
representations by back-propagating errors. Nature, 323:533 - 536,
1986.
- 19) P Smolensky. On the proper treatment of connectionism. Behavioural
and Brain Sciences, 11:1 - 74, 1988.
- 20) John von Neumann. First draft of a report on the edvac. In W. Aspray
and A. Burks, editors, Papers of John von Neumann on Computing and
Computer Theory, vol 12 in the Charles Babbage Institute Reprint Series for
the History of Computing. MIT Press, 1987.
|