НЕОКОГНИТРОН (перевод главы)

Lauren Fausett.
Fundamentals of Neural Networks: Architectures, Algorithms and Applications.

В этой статье описывается модель неокогнитрона, ориентированная на распознавание рукописных символов – арабских цифр от 0 до 9.

Неокогнитрон является примером иерархической сети, в которой много слоев с очень редкими связями между ними. Это расширение более ранней сети под названием когнитрон. Когнитрон – самообучаемая сеть; неокогнитрон обучается с помощью контролируемого (supervised) обучения.

Неокогнитрон предназначен для распознавания символов, написанных от руки – конкретно, арабских цифр от 0 до 9. Структура сети основана на физиологической модели зрительной системы. Элементы и описания, представленные в этой статье, основаны на статьях Fukushima, Miyake и Ito, которые были включены в два сборника важнейших статей по нейронным сетям [Anderson & Rosenfeld, 1988; Vemuri, 1988]. Дальнейшие варианты неокогнитрона отличаются лишь несколькими изменениями в архитектуре и обучающими шаблонами.

Архитектура неокогнитрона состоит из нескольких слоев, каждый из которых состоит из отдельных элементов. Элемент в каждом слое определяется своим номером в квадратных матрицах, в различных слоях размерности матриц различны. Элемент одного слоя получает сигналы от очень ограниченного числа элементов предыдущего слоя и отправляет сигналы только нескольким элементам следующего слоя. Входными данными являются 361 дискретный элемент, которые располагаются в матрице 19х19. Первый слой содержит 12 матриц, каждая из них имеет размерность 19х19. Основной особенностью является то, что размерность матриц уменьшается при перемещении от входного к выходному слою сети.

Слои располагаются в парах, S-слой сопровождается C-слоем. S матрица обучается для распознавания определенных шаблонов или вариаций этого шаблонов. С матрица объединяет результаты связанных с ней S матриц и одновременно сокращает размерность каждой матрицы.

Смысл многократных копий матриц станет более понятной, при рассмотрении обучения сети. Пока, мы просто отмечаем, что каждая матрица (внутри слоя) обучается для распознавания различных дискретных шаблонов. Каждый элемент матрицы «ищет» тот шаблон, который он настроен распознавать, в некоторой части предыдущего слоя.

Обучение происходит от слоя к слою. Веса от входных элементов к первому слою обучаются и затем замораживаются. После этого регулируются следующие веса и т.д.

Архитектура

Архитектура неокогнитрона состоит из девяти слоев. После входного слоя идут 4 пары слоев. Первый слой в каждой паре содержит S ячейки, второй слой C ячейки. Мы будем обозначать слои так: Input, S1, C1, S2, C2, S3, C3, S4, C4. Слой C4 является выходным.

Элементы в каждом слое расположены в нескольких квадратных матрицах (см. таблицу).

Слой	Кол-во матриц	Размерность матриц
Входной	1	19x19
S1	12	19x19
C1	8	11x11
S2	38	11x11
C2	22	7x7
S3	32	7x7
C3	30	7x7
S4	16	3x3
C4	10	1x1

Рисунок 1 показывает архитектуру неокогнитрона. Мы будем обозначать первую матрицу в первом S слое как S1¹, а вторую матрицу в первом S слое - S1². и.т.п.

Рисунок 1 – Архитектура неокогнитрона

Каждая матрица S2 слоя получает данные ото всех матриц C1 слоя; то есть каждый элемент в матрице S2 получает сигналы от какой-то части каждой матрицы C1 в предыдущем слое.

Подобным образом каждая S3 матрица получает сигналы ото всех матриц С2 и каждая S4 матрица получает сигналы ото всех матриц C3. Однако, как было сказано, матрица в С1-слое получает сигналы только от одного, или как максимум от нескольких матриц S1. Далее представлены связи между матрицами S1 и С1:

СОЕДИНЕНИЕ ОТ S1 К C1 S1¹ -> C1¹ S1², S1³ -> C1² S1⁴ -> C1³ S1⁵, S1⁶ -> C1⁴ S1⁷ -> C1⁵ S1⁸, S1⁹ -> C1⁶ S1¹⁰ -> C1⁷ S1¹¹, S1¹² -> C1⁸

Смысл таких соединений станет понятнее, если мы рассмотрим, как происходит настройка весов от входного слоя к слою S1. Матрица S1¹ обучается на распознавание небольших отрезков как показано на рисунке 2. Матрицы S1² и S1³ распознают отрезки приблизительно под 22-градуса от горизонтали. Матрица С1² служит для комбинирования результатов от этих двух матриц. В подобной манере, S1⁵ и S1⁶ распознают различные формы отрезков между диагональю и вертикалью их сигналы комбинируются в отдельной матрице С1 слоя.

Рисунок 2 – Обучающие шаблоны 1-го слоя

Далее представлены связи между слоями S2 и С2. Они основаны, на тех же рассуждениях.

СОЕДИНЕНИЕ ОТ S2 К C2 S2¹, S2², S2³ -> C2¹ S2², S2³, S2⁴ -> C2² S2⁵ -> C2³ S2⁶, S2⁷, S2⁸ -> C2⁴ S2⁷, S2⁸, S2⁹ -> C2⁵ S2¹⁰ -> C2⁶ S2¹¹, S2¹² -> C2⁷ S2¹³, S2¹⁴ -> C2⁸ S2¹⁵, S2¹⁶ -> C2⁹ S2¹⁷, S2¹⁸ -> C2¹⁰ S2¹⁹ -> C2¹¹ S2²⁰, S2²¹ -> C2¹² S2²², S2²³, S2²⁴ -> C2¹³ S2²⁵ -> C2¹⁴ S2²⁶ -> C2¹⁵ S2²⁷, S2²⁸, S2²⁹ -> C2¹⁶ S2³⁰, S2³¹ -> C2¹⁷ S2³² -> C2¹⁸ S2³³ -> C2¹⁹ S2³⁴ -> C2²⁰ S2³⁵, S2³⁶ -> C2²¹ S2³⁷, S2³⁸ -> C2²²

При соединении S3 и С3 слое происходит только два комбинирования. Сигналы матриц S3²³ и S3²⁴ комбинируются в матрице С3²³ , и сигналы S3³⁰ и S3³¹ комбинируются в матрице С3²⁹. Все остальные матрицы слоя C3 получают сигналы только от одной матрицы слоя S3.

Матрицы слоя С4 состоят из одного элемента, одна матрица для каждой из 10 цифр на распознавание которых ориентированна нейросеть. Сигналы от матриц S4 комбинируются к окончательному ответу нейросети. Далее представлена модель соединения от слоя S4 к С4:

СОЕДИНЕНИЕ ОТ S4 К C4 S4¹, S4² -> C4¹ S4³, S4⁴ -> C4² S4⁵ -> C4³ S4⁶, S4⁷ -> C4⁴ S4⁸, S4⁹ -> C4⁵ S4¹⁰ -> C4⁶ S4¹¹, S4¹² -> C4⁷ S4¹³ -> C4⁸ S4¹⁴ -> C4⁹ S4¹⁵, S4¹⁶ -> C4¹⁰

Теперь мы рассмотрим восприимчивую область для одной матрицы из каждого слоя нейросети. Элемент каждой матрицы из S1 слоя «видит» часть 3х3 входного слоя, то есть элемент S¹_i,j получает сигналы от элементов входной матрицы U_i,j, U_i,j-1, U_i,j+1, …., U_i-1,j-1,……, U_i+1,j+1 и элемент S²_i,j, получает сигналы от этих же девяти элементов.

Элемент матрицы C1 «видит» часть 5х5 одной или двух матриц из слоя S1. Элементы в углах матрицы «видят» только часть региона, который они могли бы «видеть» если бы находились в центре матрицы, потому что часть их «поля зрения» выходит за границы матриц, от которых они получают сигналы. «Сжимание» происходит потому что размерность каждой матрицы из слоя С1 меньше чем размерность матрицы S1. «Поле зрения» элемента матрицы С1 показано на рисунке 3. Т.к. размерность матрицы слоя С1 меньше, то угловые элементы матрицы С1 получают сигналы только от 4 элементов матрицы S1.

Рисунок 3 – Область видимости C1 нейрона

Более удобно сократить информацию на рисунке 3 и посмотреть лишь соединения одной строки (столбца) каждой матрицы. Это показано на рисунке 4.

Рисунок 4 – Область видимости C1 нейрона (диаграмма-срез)

На втором уровне, каждый элемент матрицы S2 «видит» регион размерностью 3х3 каждой из восьми матриц С1. Размерности матриц в слоях S2 и С1 совпадают поэтому «сжимание» на этом уровне не происходит. Только угловые элементы не получают сигналы от девяти элементов С1 (каждой из 8 матриц), они получают сигналы от 4 элементов матриц С1. Одномерная диаграмма представлена на рисунке 5.

Рисунок 5 – Область видимости S2 нейрона (диаграмма-срез)

Элементы матриц слоя С2 «видят» регион размерностью 5х5 матрицы (или матриц) слоя S2 от которой они получают сигнал. «Поле зрения» элементов матрицы С2 представлено на рисунке 6, для демонстрации процесса «сжимания», который подобен уже описанному. И вновь одномерная диаграмма на рисунке 7 оканчивает описание.

Рисунок 6 – Область видимости C2 нейрона

Рисунок 7 – Область видимости C2 нейрона (диаграмма-срез)

Каждый элемент матрицы слоя S3 «видит» регион размерностью 3х3 каждой из 22 матриц слоя С2; «сжимание» не происходит. Каждый элемент матрицы С3 «видит» регионы размерностью 3х3 матриц слоя S3 к которым он подключен. Т.к. матрицы С3 и матрицы S3 имеют одинаковую размерность (7х7), то «сжимание» вновь не происходит. Элемент матрицы С3 с координатами i,j «видит» регионы в матрицах S3, центры которых находятся в координатах i, j, в дополнительной диаграмме нет необходимости.

Каждый элемент матрицы S4 слоя «видит» регион размерностью 5х5 каждой из 30 матриц слоя С3. «Поле зрения» матриц слоя S4 показано на рисунке 8. Отметьте, что снижение кол-ва элементов скорее имеет место между 3 и 4 уровнями, чем в пределах какого-либо уровня, как было ранее. Также можно заметить, что вместо пропуска элементов, элементы в углах теперь обрабатываются по-другому (не учитываются).

Рисунок 8 – Область видимости S4 нейрона

Единственный элемент матрицы С4 «видит» полные матрицы S4 (3x3) с которыми он связан.

Теперь мы можем подвести итог по всей информации о соединении между элементами в различных слоях в одной меж секциональной диаграмме, которая представлена на рисунке 9.

Рисунок 9 – Общая диаграмма соединений

НЕОКОГНИТРОН (перевод главы)

Lauren Fausett. Fundamentals of Neural Networks: Architectures, Algorithms and Applications.

В этой статье описывается модель неокогнитрона, ориентированная на распознавание рукописных символов – арабских цифр от 0 до 9.

Архитектура

Lauren Fausett.
Fundamentals of Neural Networks: Architectures, Algorithms and Applications.