НЕОКОГНИТРОН

Г.Э. Яхъяева
Основы теории нейронных сетей

Глава книги о нейронных сетях, в которой описаны основные концепции структуры и обучения неокогнитрона.

В попытках улучшить когнитрон была разработана мощная парадигма, названная неокогнитрон. Когнитрон и неокогнитрон имеют определенное сходство, но между ними также существуют фундаментальные различия, связанные с эволюцией исследований авторов и новыми результатами. Оба образца являются многоуровневыми иерархическими сетями, организованными аналогично зрительной коре головного мозга. В то же время неокогнитрон более соответствует модели зрительной системы и является намного более мощной парадигмой с точки зрения способности распознавать образы независимо от их преобразований, вращений, искажений и изменений масштаба. Как и когнитрон, неокогнитрон использует самоорганизацию в процессе обучения.

Неокогнитрон ориентирован на моделирование зрительной системы человека. Он получает на входе двумерные образы, аналогичные изображениям на сетчатой оболочке глаза, и обрабатывает их в последующих слоях аналогично тому, как это было обнаружено в зрительной коре человека. Конечно, в неокогнитроне нет ничего ограничивающего его использование только для обработки визуальных данных, он достаточно универсален и может найти широкое применение как обобщенная система распознавания образов.

В зрительной коре были обнаружены нервные узлы, реагирующие на такие элементы, как линии и углы определенной ориентации. На более высоких уровнях узлы реагируют на более сложные и абстрактные образы, такие как окружности, треугольники и прямоугольники. На еще более высоких уровнях степень абстракции возрастает до тех пор, пока не определятся узлы, реагирующие на лица и сложные формы. В общем случае узлы на более высоких уровнях получают вход от группы низкоуровневых узлов и, следовательно, реагируют на более широкую область визуального поля. Реакции узлов более высокого уровня меньше зависят от позиции и более устойчивы к искажениям.


Структура

Неокогнитрон имеет иерархическую структуру, ориентированную на моделирование зрительной системы человека. Он состоит из последовательности обрабатывающих слоев, организованных в иерархическую структуру (см. рис. 1). Входной образ подается на первый слой и передается через плоскости, соответствующие последующим слоям, до тех пор, пока не достигнет выходного слоя, в котором идентифицируется распознаваемый образ.


Структура НС
Рисунок 1 – Структура

Структура неокогнитрона трудна для представления в виде диаграммы, но концептуально проста. Чтобы подчеркнуть его многоуровневость (с целью упрощения графического представления), используется анализ верхнего уровня. Неокогнитрон показан состоящим из слоев, слои состоят из набора плоскостей и плоскости состоят из узлов.

Слои.Каждый слой неокогнитрона состоит из двух массивов плоскостей (см. рис. 2). Массив плоскостей, содержащих простые узлы, получает выходы предыдущего слоя, выделяет определенные образы и затем передает их в массив плоскостей, содержащих комплексные узлы, где образы обрабатываются так, чтобы их позиционная зависимость была уменьшена.


Слои
Рисунок 2 – Слои

Плоскости. Плоскости простых и комплексных узлов внутри слоя существуют парами, т. е. для плоскости простых узлов существует одна плоскость комплексных узлов, обрабатывающая ее выходы. Каждая плоскость может быть визуально представлена как двумерный массив узлов.

Простые узлы. Все узлы в данной плоскости простых узлов реагируют на один и тот же образ. Как показано на рис. 3, плоскость простых узлов представляет массив узлов, каждый из которых "настраивается" на один специфический входной образ. Каждый простой узел чувствителен к ограниченной области входного образа, называемой его рецептивной областью. Например, все узлы в верхней плоскости простых узлов на рис. 3 реагируют на «С». Узел реагирует, если «С» встречается во входном образе и если «С» обнаружено в его рецептивной области.


Плоскости
Рисунок 3 – Плоскости

На рис. 3 показано, что одни плоскости простых узлов в этом слое могут реагировать на поворот laquo;С» на 90 град., другие — на поворот на 180 град. и т. д. Если должны быть выделены иные буквы (и их искаженные версии), дополнительные плоскости требуются для каждой из них.

Рецептивные области узлов в каждой плоскости простых узлов перекрываются так, чтобы покрыть весь входной образ этого слоя. Каждый узел получает входы от соответствующих областей всех плоскостей комплексных узлов в предыдущем слое. Следовательно, простой узел реагирует на появление своего образа в любой сложной плоскости предыдущего слоя, если он окажется внутри его рецептивной области.

Комплексные узлы. Задача комплексных узлов — уменьшить зависимость реакции системы от позиции образов во входном поле. Для достижения этого каждый комплексный узел получает в качестве входного образа выходы набора простых узлов из соответствующей плоскости того же слоя. Эти простые узлы покрывают непрерывную область простой плоскости, называемую рецептивной областью комплексного узла. Возбуждение любого простого узла в этой области является достаточным для возбуждения данного комплексного узла. Таким образом, комплексный узел реагирует на тот же образ, что и простые узлы в соответствующей ему плоскости, но он менее чувствителен к позиции образа, чем любой из них.

Следовательно, каждый слой комплексных узлов реагирует на более широкую область входного образа, чем это происходило в предшествующих слоях. Эта прогрессия возрастает линейно от слоя к слою, приводя к требуемому уменьшению позиционной чувствительности системы в целом.


Обобщение

Каждый нейрон в слое, близком к входному, реагирует на определенные образы в определенном месте, такие как угол с заданной ориентацией в заданной позиции. Каждый слой в результате имеет более абстрактную и менее специфичную реакцию по сравнению с предшествующим; выходной слой реагирует на полные образы с высокой степенью независимости от их положения, размера и ориентации во входном поле. При использовании в качестве классификатора, комплексный узел выходного слоя с наибольшей реакцией реализует выделение соответствующего образа во входном поле. В идеальном случае это выделение нечувствительно к позиции, ориентации, размерам или другим искажениям.


Обобщение

Простые узлы в неокогнитроне имеют точно такие же характеристики, что в когнитроне, и используют те же формулы для определения их выхода.

Тормозящий узел вырабатывает выход, пропорциональный квадратному корню из взвешенной суммы квадратов его входов. Заметим, что входы в тормозящий узел идентичны входам соответствующего простого узла и область включает область ответа во всех комплексных плоскостях. В символьном виде можем записать

где i' – выход тормозящего узла, i – область над всеми комплексными узлами, с которыми связан тормозящий узел, bi – вес i-й синаптической связи от комплексного узла к тормозящему узлу, ui – выход i-го комплексного узла.

Веса bi выбираются монотонно уменьшающимися с увеличением расстояния от центра области реакции, при этом сумма их значений должна быть равна единице.


Обучение

Только простые узлы имеют настраиваемые веса. Это веса связей, соединяющих узел с комплексными узлами в предыдущем слое и имеющих изменяемую силу синапсов, которая настраивается таким образом, чтобы выработать максимальную реакцию на определенные стимулирующие свойства. Некоторые из этих синапсов являются возбуждающими и стремятся увеличить выход узлов, в то время как другие являются тормозящими и уменьшают выход узла.


Синапсы
Рисунок 4 – Синапсы

На рис. 4 показана полная структура синаптических связей между простым узлом и комплексными узлами в предшествующем слое. Каждый простой узел реагирует только на набор комплексных узлов внутри своей рецептивной области. Кроме того, существует тормозящий узел, реагирующий на те же самые комплексные узлы. Веса синапсов тормозящего узла не обучаются — они выбираются таким образом, чтобы узел реагировал на среднюю величину выходов всех узлов, к которым он подключен. Единственный тормозящий синапс от тормозящего узла к простому узлу обучается, как и другие синапсы.

Обучение без учителя. Для обучения неокогнитрона на вход сети подается образ, который необходимо распознать, и веса синапсов настраиваются слой за слоем, начиная с набора простых узлов, ближайших ко входу. Величина синаптической связи от каждого комплексного узла к данному простому узлу увеличивается тогда и только тогда, если удовлетворяются следующие два условия:

  1. комплексный узел реагирует;
  2. простой узел реагирует более сильно, чем любой из его соседних (внутри его области конкуренции).

Таким образом, простой узел обучается реагировать более сильно на образы, появляющиеся наиболее часто в его рецептивной области; это соответствует результатам опытов с котятами. Если распознаваемый образ отсутствует на входе, тормозящий узел предохраняет от случайного возбуждения.

Математическое описание процесса обучения и метод реализации латерального торможения аналогичны описанным для когнитрона, поэтому здесь они не повторяются. Необходимо отметить, что выходы простых и комплексных узлов являются аналоговыми, непрерывными и линейными и что алгоритм обучения предполагает их неотрицательность.

Когда выбирается простой узел, веса синапсов которого должны быть увеличены, он рассматривается как представитель всех узлов в плоскости, вызывая увеличение их синаптических связей на том же самом образе. Следовательно, все узлы в плоскости обучаются распознавать одни и те же свойства и после обучения будут делать это независимо от позиции образа в поле комплексных узлов в предшествующем слое.

Эта система имеет ценную способность к самовосстановлению. Если один узел выйдет из строя, будет найден другой, реагирующий более сильно, и этот узел будет обучен распознаванию входного образа, тем самым перекрывая действия своего «отказавшего товарища».

Обучение с учителем. Здесь требуемая реакция каждого слоя заранее определяется экспериментатором. Затем веса настраиваются с использованием обычных методов для выработки требуемой реакции. Например, входной слой настраивался для распознавания отрезков линий в различных ориентациях во многом аналогично первому слою обработки изображения в зрительной коре головного мозга. Последующие слои обучались реагировать на более сложные и абстрактные свойства до тех пор, пока в выходном слое не был выделен требуемый образ. При обработке сети, превосходно распознающей рукописные арабские цифры, экспериментаторы отказались от попыток достичь биологического правдоподобия, обращая внимание только на максимальную точности результатов системы.

Реализация обучения. В обычных конфигурациях рецептивное поле каждого нейрона возрастает при переходе к следующему слою. Однако количество нейронов в слое будет уменьшаться при переходе от входных к выходным слоям. Наконец, выходной слой имеет только один нейрон в плоскости сложных узлов. Каждый такой нейрон представляет определенный входной образ, которому сеть была обучена. В процессе классификации входной образ подается на вход неокогнитрона и вычисляются выходы слой за слоем, начиная с входного. Так как только небольшая часть входного образа подается на вход каждого простого узла входного слоя, некоторые простые узлы регистрируют наличие характеристик, которым они обучены, и возбуждаются. В следующем слое выделяются более сложные характеристики как определенные комбинации выходов комплексных узлов. Слой за слоем свойства комбинируются во все возрастающем диапазоне; выделяются более общие характеристики и уменьшается позиционная чувствительность.

В идеальном случае только один нейрон выходного слоя должен возбудиться. В действительности обычно будут возбуждаться несколько нейронов с различной силой, и входной образ должен быть определен с учетом соотношения их выходов. Если используется сила латерального торможения, возбуждаться будет только нейрон с максимальным выходом. Однако это часто является не лучшим вариантом. На практике простая функция от небольшой группы наиболее сильно возбужденных нейронов будет удачно улучшать точность классификации.


Заключение

Как когнитрон, так и неокогнитрон производят большое впечатление той точностью, с которой они моделируют биологическую нервную систему. Тот факт, что эти системы показывают результаты, имитирующие некоторые аспекты способностей человека к обучению и познанию, наводит на мысль, что наше понимание функций мозга приближается к уровню, способному принести практическую пользу.

Неокогнитрон является сложной системой и требует существенных вычислительных ресурсов. По этим причинам кажется маловероятным, что такие системы реализуют оптимальное инженерное решение сегодняшних проблем распознавания образов. Однако с 1960 г. стоимость вычислений уменьшалась в два раза каждые два-три года – тенденция, которая, по всей вероятности, сохранится в течение как минимум ближайших десяти лет. Несмотря на то, что многие подходы, казавшиеся нереализуемыми несколько лет назад, являются общепринятыми сегодня и могут оказаться тривиальными через несколько лет, реализация моделей неокогнитрона на универсальных компьютерах является бесперспективной. Необходимо достигнуть тысячекратных улучшений стоимости и производительности компьютеров за счет специализации архитектуры и внедрения технологии СБИС, чтобы сделать неокогнитрон практической системой для решения сложных проблем распознавания образов; однако, ни эта, ни какая-либо другая модель искусственных нейронных сетей не должны отвергаться только на основании их высоких вычислительных требований.