Назад в библиотеку

УДК 621.391

Применение многоуровневых нейронных сетей типа неокогнитрон для распознавания символов

Федяев О.И., Куликов С.А.

Тезисы 8-й Всероссийской конференции "Нейрокомпьютеры и их применение " (НКП-2002). — М. : Век книги, 2002. с.144.

Аннотация. Проведены исследования эффективности распознавания искаженных образов на программной модели неокогнитрона. Проанализировано качество распознавания смещенных, деформированных и измененных в размерах образов. Дана оценка распознающих возможностей неокогнитрона.

В основу структуры неокогнитрона положена организация зрительной системы человека[1]. Первая модель неокогнитрона была разработана в 1980 г. K.Фукушимой [2] и являлась последующим развитием нейросети когнитрон [3]. В [2] подробно описана архитектура стандартного неокогнитрона, которая, несмотря на дальнейшие разработки, по-прежнему остается основополагающей.

Рис.1. Структура стандартного неокогнитрона

Неокогнитрон является многослойной нейронной сетью (рис 1). В нём различают два вида слоев S и С (Simple — простые и Compatible — сложные). Данные слои парами образуют один уровень в системе. Каждый слой (S и C) содержит несколько плоскостей нейронов. В них используются два типа нейронов: возбуждающие и тормозящие. Первые стремятся увеличить выходную реакцию слоя, вторые наоборот — направлены на уменьшения выходного сигнала. Любой возбуждающий нейрон в плоскости слоя типа S и C получает набор входных сигналов с нейронов предыдущего слоя (для Us1 входом служит слой U0), которые образуют его область связи. Эту же область связи имеет и тормозящий нейрон, выход которого также поступает на вход возбуждающего нейрона. Таким образом, результирующий выход генерирует только возбуждающий нейрон. На величину выходного сигнала также влияет «сила возбуждения» соседних нейронов на текущем слое, которые образуют область конкуренции данного нейрона. Количество областей конкуренции равно числу нейронов на плоскости и поэтому они частично перекрываются. Смысл такой организации связей состоит в определении наиболее сильно возбуждённого нейрона ("победителя"), который мог бы в полной мере охарактеризовать всю область конкуренции. Победитель в области конкуренции всегда один.

Области связи предназначены для выделения характерных частей входного образа. Они тоже частично перекрываются, что обеспечивает в случае отказа в работе одного из нейронов замену его другим нейроном из этой области конкуренции.

Каждой плоскости нейронов в слое S соответствует своя плоскость в слое C. Возбуждающие и тормозящие нейроны слоя С получают сигналы с определенных областей связи предыдущего слоя S. Семантика S и C слоев заключается в следующем: S выделяет особенности (фрагменты) входного образа, определяет среди них, посредством областей конкуренции, наиболее значимые и передает их парному слою C, который в свою очередь придаёт этим особенностям меньшую позиционную зависимость. Данная тенденция прослеживается от уровня к уровню. При этом размер плоскостей нейронов постепенно уменьшается и на слое C последнего уровня каждая плоскость состоит из одного нейрона соответствующего одному классу входных образов.

Для анализа процесса распознавания были заданы следующие параметры архитектуры неокогнитрона (табл. 1).

Таблица 1. Параметры нейросети неокогнитрон

Слой

Плоскости

Размер области связи

Размер области конкуренции

Коэффициент чувствитель-ности ,

Коэфф-т скорости обучения,

Количество

Размер

1

12х12





11

12х12

5х5

5х5

4.7

100

11

10х10

5х5




11

8х8

5х5

5х5

2.55

1000

11

6х6

5х5




11

4х4

5х5

5х5

0.7

1000

9

1

5х5




На первом этапе исследования в качестве обучающего множества были взяты эталонные символы, изображенные на рис. 2. Входной сигнал формировался на панели размером 12х12 пикселей.

Рис. 2. Набор образов для обучения

Для обучения указанному набору образов была разработана программная модель нейросети неокогнитрон. Выбор количества плоскостей, их размеры, а так же размеры области конкуренции (связи) были взяты с учётом рекомендаций работ [4,5]. Коэффициенты чувствительности и скорости обучения подобраны таким образом, чтобы на выходе нейросети каждая плоскость реагировала на свой индивидуальный образ. Другие параметры неокогнитрона, не указанные в таблице, принимали следующие значения: расстояние между областями конкуренции — 2, альфа-параметр — 0.2.

Далее проводилось обучение нейросети путем циклической подачи на вход каждого образа по два раза. Нейросеть хорошо смогла выделить семь существенно различных входных наборов, два оставшихся (образы "6","8") интерпретированы нейросетью, как состоящие из частей других образов.

Для оценки распознавания деформированных образов был создан набор, состоящий из 63 образов (по 7 для каждого распознаваемого образа). При искажении образы существенно не смещались. Отдельные образы, которые распознала нейросеть, изображены на рис. 3. В табл. 2 отражена общая информация по распознанным образам. Средний показатель распознавания составил 76.2% (48 образов из 63).

Таблица 2. Качество распознания деформированных образов

╧ образа

1

2

3

4

5

6

7

8

9

Распознано, %

42.8

85.7

71.4

71.4

100

71.4

85.7

85.7

57.1

Наибольшую сложность при распознавании вызвали образы простые по начертанию (например, "1" и "7") и образы, в которых просматривались части других образов — это цифры «9", "6» и "8".

Рис. 3. Деформированные образы распознанные неокогнитроном

Как показало моделирование, параметрами, влияющим на качество распознавания искаженных образов, являются коэффициент чувствительности и альфа-параметр . Альфа-параметр используется для усиления выходов сложных нейронов (с увеличением выходы нейронов уменьшаются). В данном эксперименте он определён опытным путем таким, чтобы выходы всех сложных нейронов были пропорциональны выходам простых нейронов.

Произвольное изменение на каждом слое не ведет к улучшению распознавания. Результат варьирования этого параметра может быть оценен только на выходе нейронов последнего слоя. Для этого необходимо проследить за изменением выходов на каждом слое. Подобное действие не может быть выполнено, поскольку неизвестно желаемое выходное значение на «скрытых» слоях. Данная проблема схожа с проблемой обучения нейросетей обратного распространения. Если в них она решается путем обратного распространения ошибки, то неокогнитрон, обучаясь без учителя, не может быть настроен таким путём. Вследствие этого, только экспериментальная подстройка на всех слоях является приемлемым решением. В табл. 3 приведено варьирование коэффициента чувствительности.

Таблица 3. Зависимость распознавания от значения

Значения на S-слоях

Распознавание в %

1

2

3

4.7

2.55

0.7

76.2

4.65

2.65

0.8

74.5

4.6

2.45

0.6

65.1

4.7

2.5

0.3

60.3

5

2.55

0.7

53.9

4.6

2.0

1.0

46.0

3.35

1.8

0.5

30.2

Для оценки распознавания смещенных образов был создан набор, состоящий из 72 образов (по 8 для каждого обученного образа). Отдельные образы, которые распознала нейросеть, изображены на рис. 4. В табл. 4 отражена общая информация по распознанным образам. Средний показатель распознавания составил 76.4% (55 образов из 72).

Таблица 4. Информация по распознанию смещенных образов

╧ образа

1

2

3

4

5

6

7

8

9

Распознано, %

75.0

62.5

100

75.0

100

62.5

75.0

87.5

0.5

При распознавании смещенных образов нейросеть успешно узнавала те образы, которые более характерно выражены и при смещении не могут быть ошибочно приняты за другие элементы из обучаемого набора. К таким образам в большей степени относятся цифры «7", "5» и "3".

Рис. 4. Смещенные образы, распознанные неокогнитроном

Параметрами, влияющими на качество распознавание смещенных образов, являются размеры области связи и области конкуренции, а так же степень уменьшения размеров слоев от модуля к модулю. Размеры областей связи и конкуренции, установленные при проведении данного эксперимента, были взяты с учётом работ [4,5]. Поскольку назначение областей связи выделение характерных частей входного образа, то неправильная модификация их размера приводит к разным результатам. Чрезмерное увеличение этой области приводит к тому, что слой выделяет большую часть образа, которая впоследствии не может быть найдена в образе. Слишком маленькая область связи не даёт достаточной информации для неокогнитрона.

Область конкуренции непосредственно регулирует чувствительность к смещению. Незначительное изменение размера областей конкуренции в большей степени влияет на распознавание, чем изменение только область связи.

В табл. 5. приведены данные о влиянии размера областей связи и конкуренции на распознавание смещённых образов. Как видно из таблицы, первоначальная установка параметров архитектуры неокогнитрона оказалась не оптимальной, однако процент распознания при этом был не ниже показателей для деформированных образов. При установке параметров неокогнитрона, являющихся оптимальными для смещенных образов, распознавание деформированных образов не превысило 40%. Поэтому выбранные первоначальные значения параметров неокогнитрона соответствуют обоим видам искажений.

Таблица 5. Влияние областей связи и конкуренции на распознавание смещенных образов

Размер

области связи

Размер

области конкуренции

Распознавание в %

1 слой

2 слой

3 слой

1 слой

2 слой

3 слой

7х7

5х5

5х5

7х7

5х5

5х5

91.2

7х7

5х5

5х5

5х5

5х5

5х5

79.1

5х5

5х5

5х5

5х5

5х5

5х5

76.4

5х5

3х3

5х5

7х7

5х5

5х5

75.0

7х7

7х7

5х5

5х5

5х5

5х5

73.6

9х9

7х7

5х5

5х5

5х5

5х5

68.1

5х5

7х7

5х5

5х5

5х5

5х5

58.3

3х3

5х5

5х5

5х5

5х5

5х5

36.1

5х5

5х5

5х5

3х3

5х5

5х5

26.3

5х5

5х5

5х5

7х7

5х5

5х5

66.6

Образы, подверженные изменению размера, трудно распознаются неокогнитроном. Для оценки качества распознавания данного типа образов был создан набор, состоящий из 18 образов (по 2 для каждого обученного образа — уменьшение и увеличение).

Образы, которые были успешно распознаны, показаны на рис. 6. Некоторые из образов не были распознаны (цифры "3", "8" и "9"), а другие наоборот однозначно распознавались нейросетью (цифры "5" и "4") .

Рис. 6. Изменённые в размере образы, распознанные неокогнитроном

Точно перечислить ключевые параметры неокогнитрона, влияющие на распознавание образов, изменённых в размерах, оказалось не просто. При данном виде искажений образ может смещаться и деформироваться одновременно. Поэтому необходимо комплексное изменение ряда параметров нейросети. В частности, большое влияние оказывает размер области связи, потому что она отвечает за выделение основных частей образов. Кроме того, образы существенно изменяются, поэтому необходимо знать насколько точно и полно происходит обобщение от уровня к уровню.

Моделирование показало, что неокогнитрон не достаточно хорошо распознаёт масштабированные образы. Это связано с тем, что при уменьшении образа он теряет отличительные особенности, по которым происходит его выделение. С увеличением образа он может приобрести новые характеристики, которые с точки зрения нейросети присущи другим входным наборам. Наилучшим вариантом для решения этой проблемы, является задание достаточно большой размерности входного сигнала. При этом увеличится количество модулей и соответственно будет произведено «плавное» обобщение индивидуальных частей каждого входного образа.

Обобщая результаты исследований процесса распознавания неокогнитроном образов, подверженных различного рода искажениям, отметим ряд его свойств, благодаря которым неокогнитрон превосходит другие нейросети, ориентированные на распознавания образов:

Рис. 7. Зависимость времени обучения от количества образов (использовался компьютер с процессором Celeron 800 MHz)

К недостаткам нейросетей типа неокогнитрон относятся значительный объём памяти, необходимый для хранения всех структур и большие вычислительные затраты, связанные с реализацией выбранной архитектуры (рис. 8).

Рис. 8. Зависимость числа нейронов от количества образов

В данной работе был приведен ряд экспериментов, в ходе которых определено влияние на качество распознавания размеров областей конкуренции (связи) и величины коэффициента чувствительности. Показан основной принцип построения слоёв нейросети. Приведенные выше примеры распознавания искаженных образов показали, что выбранные параметры позволяют неокогнитрону достаточно эффективно распознавать деформированные, смещенные и масштабированные образы. Согласно результатам моделирования наилучший показатель распознавания смещённых образов составил 91.6%, распознавание деформированных образов — 76.2%, а распознавание образов, измененных в размерах, было выборочным.

В завершении отметим, что проведенные эксперименты подтверждают выводы работ [4,5], в которых подчеркивалось, что стандартный неокогнитрон ориентирован именно на распознавание смещённых и деформированных образов. Его иерархическая структура и возможности к обобщению входного сигнала от слоя к слою также могут быть использованы при распознавании масштабированных образов. Однако образы, повёрнутые на определённый угол, не могут быть эффективно распознаны стандартным неокогнитроном.

Литература:

  1. Hubel D.H., Wiesel T.N. Receptive fields and functional architecture in two nonstriate visual area (18 and 19) of the cat. J. Neurophysiol. 28, 1965, pp. 229-289.
  2. Fukushima K. Neocognitron: a self-organising neural network for mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics 36, 1980, pp. 193-202.
  3. Преобразование знаний. Перевод с японского/ под ред. С.Осуги, Ю. Саэки. -М.: Мир, 1990. -304с.
  4. Nienhuis B., A. Van Ooyent. Pattern recognition in the neocognitron is improved by neural adaptation. Biological Cybernetics 70, 1993, pp. 47-53.
  5. Федяев О.И. Куликов С.А. Многоуровневые нейронные модели типа неокогнитрон. Архитектура, обучение и распознавание. /Тезисы 8-й Всероссийской конференции "Нейрокомпьютеры и их применение " (НКП-2002). — М. : Век книги, 2002. с.144.