Эволюционирующая нейронная сеть Active Vision System для различения формы

Авторы статьи: Derek James, Philip Tucker

Автор перевода: А.И. Мартыненко

Источник: Evolving a Neural Network Active Vision System for Shape Discrimination

Аннотация

Предыдущее исследование продемонстрировало, что потенциал для нейронной сети управлял активными системами видения, чтобы решить дискриминацию формы и задачи распознавания объектов. Однако этот подход не был очень хорошо исследован, и предыдущие внедрения таких систем были несколько ограничены в объеме. Мы представляем эволюционирующую нейронную сеть, основанную на активной системе видения, которая в состоянии перемещать 2D поверхность в любом направлении, наряду со способностью изменять масштаб изображения и вращать его. Мы демонстрируем, что система с такими особенностями может правильно классифицировать формы, представленные ему, несмотря на различие в местоположении, масштабе и вращении. И вопреки нашим начальным предположениям фактически улучшена эффективная дискриминация, когда способность вращаться отключена.

1. Введение

Традиционные подходы к задачам распознавания образов обычно включают очень проблемно-ориентированные алгоритмы, включающие статистический анализ [1], но недавно, начали развиваться более биологически вдохновленные подходы, такие как активное видение.

Активное видение относится к процессу исследования изображения или сцены для соответствующих особенностей, как это делают биологические организмы. Преимущества такой системы очевидны, включая внимательный фокус, который исключает обработку областей изображения, которые не важны, и обеспечение изящного метода обработки различия в местоположении, масштаба и вращения.

Контроль активной системы видения мог быть осуществлен множеством путей, но искусственные нейронные сети - привлекательный выбор, потому что они биологически вдохновлены и продемонстрировали успех и в шумном контроле, и в задачах распознавания образов. Таким образом кажется естественным применить нейронные сети к интегрированной системе, способной к исследованию картины, расположению соответствующих особенностей и созданию определений, основанных на информации, которую она получает, как входную.

Floreano и др. [2] осуществил такую систему, развив веса связи текущей нейронной сети с фиксированной топологией для контроллера, который исследовал помехи изображения шкалы яркости, содержащее или равнобедренный треугольник, или квадрат. Система определила, какой объект картина содержала, основанный на одной из двух выходных ценностях. Объекты изменились и по масштабу, и по местоположению, но не по вращению, преобразование, найдено в большинстве задач распознавания образов.

Стэнли и др. [3] использовал аналогичный подход к наблюдению и исполнению настольной игры Go. 5x5 просмотру окна, которым управляют через развитую нейронную сеть, дали постоянное число временных шагов, чтобы исследовать игровую доску и выразить предпочтение движения через данную продукцию. Система продемонстрировала способность, на малых досках, чтобы обыграть GNU GO, общедоступный Go-играемый алгоритм довольно высокого умения (по сравнению с другими существующими алгоритмами). Те же самые принципы применяются как в упомянутом выше исследовании, в котором активное видение позволяет системе сосредотачиваться на соответствующих аспектах представленной поверхности, bли 2D изображение или игровая доска.

В виртуальной водной среде, Терзопулос и др. [4] снабдил искусственную рыбу активной системой видения с подобной функциональностью, которая смогла показать сложное поведение, такое как прослеживание других объектов в окружающей среде.

Мы представляем систему, которая не останавливается на предыдущих подходах и исследует основную парадигму далее. Наша система состоит из искусственной сетчатки, способной к обработке любой 2D поверхности панорамируя лево, право, вверх или вниз, увеличение и уменьшение масштаба и вращения. Ею управляют через текущую искусственную эволюционирующую нейронную сеть, используя модифицируемую версию NEAT методологии и применена к основной задаче дискриминации формы.

2. Экспериментальные детали

2.1 Активная система видения

Активная система видения состоит из структуры для подачи механизма 2 размерных изображений в текущую искусственную нейронную сеть и позволяет этой сети просмотр изображения. Восприимчивая область или искусственная сетчатка, является квадратной областью, составленной из клеток или рецепторов, которые читают пиксельные ценности от поверхности. Все эксперименты используют сетчатку 5x5. Так же, как в [2], сетчатка в состоянии двигаться по изображению вертикально и горизонтально, а также увеличивать и уменьшать масштаба. В отличие от той системы, эта включает способность вращаться. Все используемые изображения находятся в шкале яркости формата TIFF. Каждый пиксель содержит значение между 0 и 255. Они соответствуют значениям между 0 и 1 и введены в нейронной сети (так, наш 5x5, сетчатка получает 25 пиксельных входов). Любая часть сетчатки, которая блуждает мимо границы изображения, получает пиксельные входы –1.

Также вход в нейронную сеть - текущая ориентация сетчатки, “песочные часы” и уклон. Ориентация состоит из положения сетчатки х и y, угла вращения и фактора увеличения масштаба изображения. Активная система видения выделила определенное число шагов для каждой оценки изображения, и вход “песочных часов” - отношение шагов, остающихся составлять ассигнованные шаги. Вход уклона - постоянная величина 1.

Каждый временной шаг, выходы нейронной сети используют, чтобы обновить положение и ориентацию сетчатки. специфическая динамика выходов включает изменение в горизонтальном местоположении (x), изменение в вертикальном местоположении (y), изменяется вращение (), и изменение в увеличении масштаба изображения (z). Пятый выход, родство, представляет уверенность сети в том, что изображение содержит целевую форму.

Сетевую архитектура показана ниже:

A31

Рисунок 1 – Сетевая архитектур системы активного видения

Функция активации для выходных нейронов - измененная гиперболическая касательная (tanh). Традиционные tanh плато в –1 и 1, который, кажется, делает управление перемещением трудным для системы; т.е., для него трудно остаться тихим. Измененный tanh (называл “tanh-кубическим”, так как он возводит ввод в степень 3 как часть функции) добавляет плато в 0. График ниже сравнивает tanh с tanh-кубическим.

A32

Рисунок 2 – Активационная функция

Каждый вывод колеблется от –1 до 1. Для средств управления перемещением (x, y, и z) выходное значение нейрона умножено на максимальную дельту того значения. Максимальное изменение для расположения (x и y) каждый такт +/-20 пиксели. Максимальное изменение для вращения составляет 3.6 градуса по часовой стрелке или против часовой стрелки, и максимальное изменение в изменении масштаба +/-1%. Вывод свойства масштабируется к значению уверенности между 0 и 1. Окончательное решение сети относительно целевой формы - продукт этого свойства с большим весом, данным ответом свойства ближе к концу оценки. Взвешенная сумма значений свойства дана в уравнении ниже:

A33

Рисунок 3 – Заключительное вычисление свойства

Для обеспечения эволюционного давления для эффективных нейронных сетей (т.е., смягчить чрезмерное увеличение размера) число тактов обеспечивает каждую сеть как продукт своей сложности. Таким образом меньшим сетям выделено больше тактов, чем большим сети. Нормализация такова, что каждая сеть должна использовать приблизительно то же число циклов ЦП, чтобы обработать изображение полностью.

У каждой целевой формы был связанный целевой диапазон, 0.0-0.2 для несоответствия и 0.8-1.0 для соответствия. У взвешенного значения свойства в целевом диапазоне была ошибка 0.0. Иначе, его ошибка - расстояние до внутреннего края диапазона (0.2 для лжи и 0.8 для истины). Полная погрешность сети - сумма ошибок для всех форм, представленных для оценки. Чтобы вычислить фитнес функцию, эта ошибка вычтена из максимальной возможной полной погрешности, и результат в квадрате

2.2 NEAT

Используемый алгоритм, чтобы развить архитектуру нейронной сети, был NEAT [5], методология, которого развивает и веса, и архитектуру нейронных сетей, управляющих активными системами видения.

NEAT отличен тем, что позволил перекрестное соединение между сетями с различной топологией. Кроме того, NEAT использует видообразование, чтобы разделить население на морфологически подобные подгруппы. Алгоритм продемонстрировал возможность выиграть у других нейро-эволюционных подходов и выступить хорошо во множестве задач [3, 5, 6].

Версия NEAT, используемая здесь, была версией с открытым исходным кодом, ANJI [http://anji .sourceforge.net/], записанный в Java и активно сохраняемый авторами.

За NEAT парадигму начальная архитектура нейронной сети состояла только из узлов ввода и вывода, полностью соединенных только с прямыми каналами соединений. Значения начального веса были приняты от равномерного распределения между-1 и 1. Функции активации входных узлов были линейны, выходных узлов tanh-кубические, и скрытых узлов tanh.

Каждая генерация, после получения счета фитнес функции, как упомянуто выше, лучшего выполнения 20% населения была выбрана для выживания и воспроизведения. Для всех экспериментов численность населения была взята 100, поэтому после выбора, там всегда были 20 оставшихся в живых. Население было снова пополнено до 100: эти 20 оставшихся в живых, плюс 20 видоизмененных версий тех оставшихся в живых, плюс 60 “потомков” результат их перекрестного соединения, и мутации.

Эти три мутации в NEAT стандарте, 1) видоизменяют вес соединения, 2) добавляют новое соединение, и 3) добавляют новый узел. ANJI добавляет одну четверть, 4) удалите соединение, чтобы объединить и динамику упрощения и комплексификации к поиску. Мутации в ANJI обработаны по-другому, чем в NEAT стандарте. В NEAT стандарте уровень мутации указывает вероятность, что определенный человек будет видоизменен (например. Добавить уровень мутации соединения 0.03 с населением 100 означал бы, что 3 человека за генерацию получат новое соединение).

В нашей реализации топологический уровень мутации указывает вероятность, что новая топологическая опция будет добавлена или удалена среди всех расположений, где такая мутация была бы возможна (например, если во всем населении будет 10,000 возможных расположений, где мутация соединения могла произойти, то 0.03 уровня мутации приведут примерно к 300 новым соединениям в населении).

Параметры для NEAT алгоритма, используемого во всех экспериментах, упомянуты ниже:

A34

Таблица 1 – Параметры для генетического алгоритма

2.3 Задача распознавания объекта

Три отличных формы использовались для этих экспериментов: квадрат, круг и равносторонний треугольник. Все изображения были полутоновыми с пиксельными значениями, располагающимися между 0 и 255. Все изображения были квадратом на 100 пикселей, и каждая из форм составляла 30 пикселей в их самых широких точках. Формы были черными на белых фонах. И для развития, и для оценки, формы были взяты в произвольном порядке согласно следующим параметрам: их центральные точки были переведены в произвольном порядке до 20 пикселей вдоль осей x и y; они масштабировались в произвольном порядке вверх на 20% больше или вниз на 20% меньше; и они были в произвольном порядке повернуты до 20 градусов по часовой стрелке или против часовой стрелки. Следующие данные показывают исходное изображение и типичные рандомизации.

A35

а) Исходное изображение

A36

б) 9 типичных случайных преобразований

Рисунок 4 – Случайное преобразование форм для оценки

Активная система видения начала все оценки, полностью уменьшенные и сфотографированные к краям холста, и не позволила еще уменьшить масштаб. Было позволено масштабировать столь же маленький как 1:1 отношение пикселя изображения к приемнику сетчатки, и его центральной точке запретили отъезд холста.

Самая близкая соседняя интерполяция использовалась для пиксельной выборки. Это означает, что для уменьшенной сетчатки ввод значения для каждого приемника был значением центрального пикселя в области просмотра того приемника. Это намного более непродуманно, чем интерполяция усреднения области, которая вычислила бы среднее значение всех пикселей в области приемника. Но, самый близкий сосед намного менее в вычислительном отношении дорогой, и экспериментирование показало, что не значительно повреждало фитнес функцию.

Следующий рисунок показывает изображение, просматриваемое активной системой видения, и как область, покрытая активной системой видения, интерпретируется в пиксельные значения для ввода в нейронную сеть.

A37

Рисунок 5 – Пиксельная выборка для искусственной сетчатки

Мы стремились развить “квадратное устройство распознавания” активная система видения. Каждая генерация 10 рандомизированных версий каждой формы была сгенерированы для в общей сложности 30 изображений, и каждая особь была представлена всеми 30 изображениями в произвольном порядке. Квадраты были изображениями “соответствия”, треугольники и круги изображениями “несоответствия”. Особи, отвечающие высоким родством к квадратам и низким родством к треугольникам и кругам, получили более высокую фитнес функцию.

3. Результаты

Набор оценки изображений для каждой генерации равнялся 30 (10 соответствий и 20 несоответствий). В конце каждого выполнения (500 поколений), лучший исполнитель от последней генерации был оценен большим набором тестов (рандомизированный, как упомянуто в разделе 2.3) 1500 изображений (500 соответствий и 1000 несоответствий). Взвешенное значение родства >= 0.5 указало положительное совпадение, и <0.5 указало несоответствие.

Родство, три выполнения были представлены, в котором у активной системы видения были все навигационные активированные опции. Результаты этих оценок представлены в Таблице 2.

A38

Таблица 2 – Оценки чемпионов от выполнений со всеми навигационными активированными опциями

Таблица 3 показывает результаты для чемпионов от ряда выполнений абляции, в которых была отключена активная возможность системы видения вращаться.

A39

Таблица 3 – Оценки чемпионов от выполнений с отключенным вращением

Таблица 4 показывает результаты для чемпионов от ряда выполнений абляции, в которых была отключена активная возможности системы видения масштабировать. Сетчатка масштабировалась полностью, высказывая ему мнение с низкой разрешающей способностью холста полного изображения.

A310

Таблица 4 – Оценки чемпионов от выполнений с отключенным изменением масштаба, полностью уменьшенным.

Таблица 5 показывает результаты для чемпионов от ряда выполнений, в которых была отключена возможность масштабировать, но сетчатка началась с полностью увеличенного к центру холста.

A311

Таблица 5 – Оценки чемпионов от выполнений с отключенным изменением масштаба, полностью увеличенным

Поведение развитых систем с возможностью масштабировать (таблицы 2 & 3) близко напоминало поведение систем, развитых в [2]. Успешные особи изменились по точной стратегии, используемой, чтобы различить между формами, но в их поведениях было много общих черт.

Особи с возможностью масштабирования увеличиваемый к определенному краю или углу целевую функцию. Чаще всего сетчатка расцепила бы от формы и дрейфовала бы к определенному углу холста, чтобы сигнализировать отрицательный вывод родства. Для положительных идентификаций сетчатка фокусировалась бы на определенном углу и продолжала бы сканировать тот угол при выводе положительного ответа родства.

Некоторые сети всегда начинали последовательность дискриминации, выводя положительное родство, затем переключаясь на отрицательный вывод, как только форма была отсканирована, и идентификация была сделана. Некоторые сети фокусировались на данном верхнем углу, в то время как другие, фокусировались на более низких углах или более низких краях. В отсканированной области были изменения, но аспектами сканирования определенного угла или края, расцепление несоответствий и остающийся занятый соответствиями, были преобладающие общности.

Сети с возможностью вращаться часто начинали с легкого вращения (например, 10 градусов) в одном направлении прежде, чем потратить остальную часть оценки, вращающейся в другом направлении, до 90 градусов. Эти сети не поворачивали к определенной ориентации, когда увеличено масштаб определенную функцию, такую как угол или край. Скорость вращения и направление были одинаковы для всех изображений и, казалось, не очень способствовали формированию распознавания.

4. Обсуждение

Мы представили управляемую активную систему видения развитой нейронной сети, которая уточняет предыдущие модели, вводя вращение в диапазон навигационных функций и протестировала полноценность той функции в отличительных выборках форм, рандомизированных относительно размера, расположения и вращения.

Наиболее неожиданный результатом было то , что в выполнениях абляции, люди без возможности вращаться смогли развиться, чтобы выступить лучше, чем те со всеми неповрежденными функциями. Вращательное различие не влияет на появление кругов, но это действительно влияет на появление и треугольников и квадратов. Успешные люди соответственно смогли выбрать достаточно информации от краев и углов и масштабируемых и повернутых форм, чтобы сделать точные идентификации.

Поведение и производительность поддерживающих вращение сетей предполагают не только, что возможность вращаться не была использована как полезная навигационная функция, но что добавленная сложность была вредна для поиска.

Прежде, чем выполнить эксперименты, наше предположение было то, что сети, данные возможность вращаться, выиграют у тех, которые не могли при попытке различить между формами, которые были в произвольном порядке повернуты. Это, оказалось, не имело место. Еще неизвестно, если это обычно истина активных систем видения, или если возможность вращаться становится полезной, или даже необходимой для более сложных задач распознавания изображения.

Тесты абляции относительно изменения масштаба указывают, что возможность разрешить изображение в более высоких разрешениях и фокусироваться на определенных функциях важна в создании корректных идентификаций. Те люди, которые начали полностью увеличенный, смогли развить поведение, которое допускало более точную дискриминацию, чем те, которые начали полностью уменьшенный, но не могли увеличить масштаб, предположив, что возможность разрешить детали локальных функций в целом более полезна, чем глобальный ввод с зернами курса.

Результаты также предполагают, что, как с определенными типами биологических организмов, стратегия дискриминации не включает сравнение с шаблонами (т.е., запоминая и храня шаблон изображения и сравнивая, который сохранил изображение представленным изображением с определенной точки зрения), а скорее, что некоторые исследователи именуют как экстракция параметра.

Campan и др. [7] изучил возможность двух видов пчелы, Пчела mellifera и Мега-Чили rotundata, чтобы различить между черными выпуклыми формами на белых фонах. Целевые формы были смонтированы на трубках, только одна из которых привела к улью. Пчелы должны были учиться правильно идентифицировать целевую форму, чтобы возвратиться к их улью. Исследователи демонстрировали и при помощи скопированных форм, и при помощи скопированных фонов в дальнейших тестах, что пчелы не использовали сохраненные шаблоны для сравнения, а скорее идентифицировали функции на периметре форм, таких как углы и края.

Их выводы были сделаны не только из шаблонных тестов, но и из образцов полета и стратегий сканирования пчел. В случае A. mellifera авторы описывают пчел как сканирование областей форм, которые имели тенденцию отличаться. Так, чтобы в случае ромба и вниз указывающего треугольника, пчелы были склонны проводить время, сканируя вдоль верхней части обоих изображений, где они отличались. Это поведение звучит удивительно подобным стратегиям сканирования, используемым развитыми нейронными сетями.

Moller [8] сделал тот же вывод относительно муравьев пустыни. Они используют параметры, извлеченные из изображений, а не фотографические, retinotopical шаблоны. Есть все еще продолжающиеся дебаты, о которых подход используется и у беспозвоночных, и у позвоночных животных. Некоторые исследования демонстрируют очевидное сравнение с шаблонами у позвоночных животных, таких как рыба [9] и цыплята [10].

Казалось бы, что во всех успешно развитых людях, стратегия, намного более сродни экстракции параметра, возникла, и что как биологические системы, это устойчиво относительно изменений по своим масштабам, расположения и вращательной ориентации.

5. Заключение

Эксперименты в этой статье продемонстрировали эффективность активной системы видения, которой управляют через текущую нейронную сеть в выполнении основных задач дискриминации формы с высокой степенью надежности. Наша модель полагается на предыдущие подходы, добавляя в возможности к системе, чтобы вращаться, и в тестовых сценариях, исследуемых в этих экспериментах, что навигационная возможность фактически препятствует возможности развивающейся системы изучить определенную дискриминацию.

Будущая работа включает расширение модели далее, возможно с более высокими сетчатками разрешения или мультиразрешения и применением их к более трудным задачам классификации, таким как автоматизированная классификация цифровых отпечатков (т.е., правильный цикл, оставленный цикл, дугу или завитушку).

A312

Рисунок 6 – Четыре различных класса цифровых отпечатков (Слева направо: Правильный Цикл, Левый Цикл, Дуга и Завитушка). Источник: База данных FVC.