ДонНТУ   Портал магистров

Реферат по теме выпускной работы

Содержание

Введение

Зрение является самым важным источником информации как для человека так и многих животных. Зрительный анализатор предоставляет в несколько раз больше полезной информации о внешнем мире, чем все остальные органы чувств вместе взятые. Для любого искусственного агента критически важным преимуществом является наличие способности визуальной перцепции. Компьютерное зрение – это область искусственного интеллекта, включающая в себя набор методов и техник, позволяющих машинам получать, обрабатывать, анализировать, распознавать визуальную информацию, поступающую с одной или нескольких камер. Эта область может быть охарактеризована как молодая, разнообразная и динамично развивающаяся. Исследования в области компьютерного зрения стремятся обеспечить роботам персептивные возможности, сопоставимые с человеческими.

Термин «активное зрение» является парадигмой, в основе которой лежит понимание зрительной системы робота в контексте поведения робота, взаимодействующего с изменяющимся окружающим миром. В формулировке Балларда [1] активным (дословный перевод: живым) зрением называется система, которая способна активно изменять точку взгляда в ответ на физические стимулы.

1. Актуальность темы

В последние несколько десятков лет наблюдается значительное повышение интереса к активному контролю при получении изображения для упрощения и ускорения персептивных задач. Основополагающие идеи активного подхода, предложенные в статьях Aloimonos [2] и Bajcsy [3], были апробированы и значительно расширены многими исследователями.

Обработка визуальной инфрмации (изображений) и искусственное зрение для роботов является одним из самых переспективных и бурно развивающихся направлений применения искусственных нейронных сетей. Наиболее интересные результы были получены преимущественно западными исследователями при стремлении создать максимально биологически правдоподобные нейроструктуры и нейроалгоритмы для обработки изображений, распознавания и запоминания объектов.

Мое исследование в области машинного зрения посвящено изучению и разработке новых методов и техник компьютерного зрения, которые являются активными, бинокулярными и применимыми для воплощения в гуманоидной робототехнике.

2. Цель и задачи исследования, планируемые результаты

Целью исследования является разработка новых биологически правдоподобных нейросетевых решений обработки визуальной информации для гуманоидных роботов.

Основные задачи исследования:

  1. Анализ нейросетевых архитектур и алгоритмов комьютерного зрения, а также анализ разработок в области активного стерео зрения в робототехнике.
  2. Разработка системы контроля зрительного поведения для бинокулярного робота.

Объект исследования: обработка визуальной информации нейросетями, нейросетевое управление.

Предмет исследования: биологически правдоподобные нейросетевые структуры для активного зрения для роботов.

В рамках магистерской работы планируется получение актуальных научных результатов по следующим направлениям:

  1. Разработка новых и модификация существующих моделей нейросетей для обработки и интерпретации входных стерео изображений.
  2. Создание нейросетевой архитектуры для управления движениями глаз.
  3. Обоснование биологической правдоподобности разработанных нейросистем.

Для экспериментальной оценки полученных теоретических результатов и формирования фундамента последующих исследований, в качестве практических результатов планируется разработка нейросетевых решений комьютерного стерео зрения для робототехники и апробация их на реальных роботах в лаборатории ETIS университета Сержи-Понтуаз (Cergy-Pontoise).

3. Обзор исследований и разработок

Комьютерное зрение является чуть-ли не самой важность способностью для современных и будущих роботов. Эта область привлекает внимание многих преимущественно американских, европейских, японских ученых.

3.1 Обзор международных источников

3.1.1 Активное зрение

Парадигма активного зрения для роботов берет свое начало из работы [2], в которой авторы исследовали такие типичные задачи компьютерного зрения как: распознавание формы из тени, формы из контура, формы из текстуры, структуры из движения. Aloimonos доказывает, что активный наблюдатель может решать эти базовые проблемы гораздо более эффективно, чем пассивный. Задачи, которые являются нелинейными, неоднозначными, некорректными для пассивного наблюдателя становятся линейными и корректными для активного. Основное допущение, сделанное Aloimonos, состоит в том, что наблюдатель перемещается известным образом, имеет множество точек зрения на объект, делает множество контролируемых оценок сцены, т.е. получает о ней больше достоверной информации.

Bajcsy [3] вводит понятие активного сенсора – камеры, которая в процессе работы изменяет свои внутренние параметры и положение в пространстве согласно некоторым персептивным стратегиям. Исходя из этого, задача активного зрения может быть поставлена как разработка стратегий управления, совмещенных с процессом получения визуальной информации, который зависит от состояния системы и ее целей.

Развитие роботизированных голов с бинокулярной визуальной системой привело к возможности использования контролируемых движений камеры для создания систем, которые непрерывно действуют в реальном времени. Одни из первых такие систем были описаны в работах [1], [4] и [5]. Авторами было показано, как комбинирование нескольких простых поведений может быть использовано для реализации саккад, вергенции, движения шеи и моделирования вестибулоокулярного рефлекса.

Парадигма активного зрения, предложенная [1], оказала огромное влияние на развитие компьютерного зрения для робототехники. В этой статье Ballard сформулировал задачи зрительного поведения робота, и показал отличия активного подхода к решению этих задач от пассивного и преимущества первого. Многие работы, в т.ч. те которые будут освещены в моем библиографическом исследовании, так или иначе стремятся использовать преимущества активного зрения, высказанные в статье «Animate Vision».

Преимущества активного зрения, заявленные парадигмой «Animate Vision», впервые нашли свое подтверждение в результате создания рочерского робота с тремя степенями свободы камер [6], [7] и [14]. Эксперименты продемонстрировали, что, несмотря на усложнение системы подсистемой контроля взгляда, активное зрение значительно упрощает вычисление зрительных задач. Хотя она и далека от реальной архитектуры человеческого зрения, она решает задачи низкоуровневого зрения в реальном времени.

Схема рочерского робота

Рисунок 1 – Схема рочерского робота [6]

В статье [5] описана система контроля, основанная на парадигме «active intelligence». Парадигма активной интеллектуальности включает идею иерархичности контроля:

В своей следующей статье [8] Brown описал систему, объединяющую такие визуальные поведения как: саккады и обратное им плавное слежение за движущейся целью, вергенция, вестибулоокулярный рефлекс – стабилизация глаз относительно движения головы. Авторы описали два варианта работы системы:

В работе [15] авторы описали созданную ими систему, реализующую совокупность алгоритмов для имитации движений глаз: фокуса, вергенции, саккад и плавного слежения. Достоинством их работы являются надежность и производительность в реальном времени каждого отдельно взятого алгоритма. С этой целью они использовали простые алгоритмы, с целью быстрых расчетов.

Вергенция – движение одного глаза или обоих глаз, при котором зрительные оси дивергируются (расходятся) или конвергируются (сходятся). Другими словами это одновременное движение обоих глаз в противоположном направлении для получения или сохранения бинокулярного зрения. Целью контроля вергенции является сохранение точки фиксации глаза или камеры в некоторой точке пространства, независимо от изменения угла взгляда и расстояния до цели. Определяющим фактором возможности использования системы управления вергенцией в реальном времени является быстрая оценка диспарантности. В статье [15] авторы описали и воплотили в реальной системе алгоритм ее рассчета основанный на идее нормализованной «кросс-корелляции» (NCC) [20], [21].

В статье [22] предложен подход для контроля за направлением взгляда головы робота, основанный на концепции виртуальной связи. Эта виртуальная связь соединяет глаз с точкой в 3-D пространстве. При использовании этого механизма задача слежения может быть описана в наиболее общем виде. Это позволяет использовать различные методы управления, подходы и стратегии, описанные в литературе, и реализовывать их на различных роботах. Виртуальную связь можно рассматривать как дополнительное сочленение, присоединенное к глазу, т.е. добавляется дополнительная степень свободы. Когда глаз перемещается, виртуальная связь также перемещается.

Концепция виртуальной связи

Рисунок 2 – Концепция виртуальной связи [22]

Отличительной особенностью данной работы является то, что благодаря концепту виртуальной связи можно легко использовать избыточность степеней свободы головы робота, достичь более разнообразных движений головы, лучшего отслеживания, избегания граничных положений сочленений.

В статье [23], [24] авторы используют полярные изображения (log-polar images) для распознавания и слежения за объектами. Для контроля направления взгляда они используют методы обучения, которые определяют движения глаз.

В [25] предложен кинематический и динамический контроллер, являющийся довольно простым, поскольку он разделяет кинематические связи головы робота. Путем разделения на отдельные движения авторы достигли упрощения сенсомоторного управления.

В [26] предложен более простой разделенный контроллер, реализованный в виде сети PD-контроллеров (пропорционально-дифференциальных контроллеров). Система использует две камеры для каждого глаза: с широким и узким полем зрения. Поэтому авторы должны были реализовать преобразование, которое гарантирует, что интересующий объект будет в центре поля зрения узкоформатной камеры, даже если за ним следит широкоформатная.

В [27] авторы предложили жесткий контроллер параметра движения. Авторы разработали отображение из двумерного пространства точек в пятимерное пространство степеней свободы. Оно реализовано только для одного глаза, в то время как второй просто копирует движения первого.

3.1.2 Стереозрение

В геометрии стерео зрения значительную роль играют:

Эпиполярное ограничение

Рисунок 3 – Эпиполярное ограничение [10]

Существует два основных способа решения проблемы нахождения пары соответствующих пикселей: на основе окон (областей) [16], [17] и на основе деталей изображения [18], [19].

J. Crowley в своих статьях [11], [12] описывает метод использования эпиполярного ограничения для нахождения координаты точки взгляда в пространстве. Положение этой точки в пространстве определяется относительно точки в центре головы (на базовой линии, соединяющей центральные точки 2х камер). Эта точка естественно лежит в плоскости, определяемой оптическими осями 2х камер и лежит на их пересечении.

Нахождение положения точки взгляда в пространстве

Рисунок 4 – Нахождение положения точки взгляда в пространстве [11]

Определяя декартову СК как показано на рисунке, положение точки фиксации может быть рассчитано с помощью информации о длине базовой линии и величине углов aL и aR [11], [12]:

Формула нахождения координаты точки

Для систем активного стереозрения важным условием функционирования является калибровка, т.е. постоянное поддержание соответствия проекций точек на левой и правой камеры. В работе [13] авторы описали и сопоставили два метода для динамической калибровки камер. Первый метод основан на фундаментальной матрице, используется эпиполярное ограничение и линейная оптимизация. Второй метод - итеративный, основанный на дифференциальной модели оптического потока.

3.1.3 Нейросетевой подход в комьютерном зрении

Сегодня под термином нейронная сеть объединяются большое количество моделей, которые пытаются имитировать функциональность мозга, воспроизводя некоторые из его основных структур. Первая модель была предложена МакКаллохом и Питтсом в 1943 году, в рамках которой они изучали логические операции, выполняемые нейронами. Существует большое количество обобщающей литературы по нейронным сетям [28-31]. Существующие нейросистемы интерпретации изображений и распознавания объектов основаны на отдельном анализе частей изображения для извлечения локальных характеристик, которые затем интегрируются в более общие классы.

Распознавания символов, несомненно, является наиболее развитым приложением нейронных сетей. Для решения этой проблемы были протестированы различные методы с относительным успехом, например, использующие обратное распространение ошибки (RPG) [32], [33].

Другой хорошо изученной проблемой является распознавание определенного объекта в конкретной сцене [34-38]. Во всех случаях, как только объект был выделен, он нормализуется так, чтобы максимально заполнить окно распознавания. Специальные процедуры реализуют масштабирование и поворотом объекта таким образом, чтобы облегчить распознавание. Обучение использует RPG. Изученными примерами являются различные возможные цели с их идентификациями. Чтобы сделать обучение устойчивым к шуму, который может быть важным, авторы обучали сети зашумлённым формам. Основным ограничением этого метода является то, что он требует, чтобы распознаваемые объекты были полностью отделены от фона, что не достигается в случае сложных изображений, таких как природные сцены и аэрофотоснимки.

3.2 Обзор национальных источников

В Украине достаточное число кафедр и университетов занимаются исследованием компьютерной обрабоки изображений, в том числе и с использованием нейросетей.

3.3 Обзор локальных источников

Для ДонНТУ научная проблема комьютерного стерео зрения для робототехники является новой. Тем не менее следующие авторы занимались изучением нейросетевых систем, которые так или иначе пересекаются с моими исследованиями. В основном это различные технологии интерпретации изображений с помощью нейросетей:

4. Система динамического контроля вергенции

4.1 Постановка проблемы

В бинокулярных системах, вергенция – это движение одного глаза или обоих глаз, при котором зрительные оси дивергируются (расходятся) или конвергируются (сходятся) [46]. Это движение нужно для того, чтобы оба глаза были направлены в одну и ту же фиксированную точку. Для биологических зрительных систем, таких как человеческая, подобное условие является очевидным для нормального функционирования, поскольку острота зрения неодинаковая: в центральной ямке она выше, на периферии поля зрения – ниже. Искусственному стерео зрению контролируемая вергенция также дает массу преимуществ: от упрощения постановки и решения задач компьютерного зрения до эстетики и эргономичности при взаимодействии гуманоидного робота с человеком.

В моем исследовании описан метод контроля вергенции в стерео зрении, основанный на расчете диспаратности. Диспаратность – различие взаимного положения точек, отображаемых на сетчатках левого и правого глаза. На рисунке 5 изображены случаи диспаратных и корреспондирующих точек [47]. В случае искусственного зрения, если обе камеры направлены на один и тот же объект, то он отображается на центр их проективных плоскостей (аналог сетчаток) и диспаратность близка к нулю. Если объект проецируется в центр одной камеры и на переферию другой, то диспаратность высока и решение задач стерео зрения затруднительно.

Проекции диспаратной и корреспондирующих точек на сетчатки глаз или проективные плоскости камер

Рисунок 5 – Проекции диспаратной и корреспондирующих точек на сетчатки глаз или проективные плоскости камер

4.2 Анализ литературы

Был проведен анализ различных методов управления вергенцией, которые обычно являются частью активной зрительной системы. Начиная с первых публикаций, посвященных активному компьютерному зрению (англ. – animate, active vision) авторы подчеркивали важность управления вергенцией [1], [2]. Это управление, как и в биологических зрительных системах, зачастую основано на оценке диспаратности. На текущем этапе можно выделить два основных способа для её оценки и/или нахождения пары соответствующих пикселей на разных камерах [48]:

Бинокулярная система моего исследования основывается на алгоритмах и структуре ИНС предложенной в [51].

4.3 Цель работы и постановка задачи исследования

Цель исследования – реализовать систему на основе искусственной нейронной сети для решения поставленной проблемы. Исходя из рассчитанной диспаратности ИНС выдает управляющий сигнал камеродвигательным моторам (название по аналогии с глазодвигательными мышцами) для того, чтобы привести точки взгляда камер в одну и ту же точку пространства. Для своего функционирования нейронная сеть не должна нуждается в обычных вычислительных средствах, таких как компьютер с архитектурой фон Неймана. Т.е. полностью использовать потенциал массового параллелизма для решения задачи, который можно реализовать с помощью кластера или многоядерного процессора.

Основной задачей исследования является выявить преимущества и недостатки метода контроля вергенции в активном стерео зрении, описанном в [51]. А также предложить и реализовать усовершенствования в структуре ИНС и алгоритмах ее параллельной реализации. Работа проводится в рамках франко-украинской программы MASTER (сотрудничество ДонНТУ и университета Сержи-Понтуаз (Франция) [52]), как часть магистерского исследования.

4.4 Решение задач и результаты исследований

Одна из камер является ведущей, и неподвижной относительно задачи вергенции, другая – подчиненной, положение которой регулируется нейросетью.

Камеры Fire-i, использующиеся в эксперименте

Рисунок 6 – Камеры Fire-i, использующиеся в эксперименте

Для решения поставленной задачи предлагается исследовать применение ИНС типа многослойный персептрон без обратных связей. Нейросеть устроена таким образом, чтобы с помощью поворота подчиненной камеры минимизировать диспарантность. Она является биологически инспирированной с пятью слоями, сопоставляет символические признаки изображения с целью определить направление поворота подчиненной камеры. Для пикселя с координатами (x,y) в качестве символических признаков можно выбрать:

  1. Интенсивность серого:
    formula1
  2. Модуль градиента. Градиент рассчитывается следующим образом:
    formula2
    Градиент может быть вычислен с помощью свертки изображения со следующими ядрами (матрицами свертки): Kx, Ky, известной как оператор Собеля [53]:
    formula3
    Модуль градиента в точке (x, y) может быть вычислен как:
    formula4
  3. Направление градиента в точке (x, y) может быть вычислено как:
    formula5

На рисунке 7 представлены три вышеупомянутые характеристики пикселей в виде изображений.

Intensity (a), gradient magnitude (b) and gradient direction (c)

Рисунок 7 – Интенсивность (a), модуль градиента (b) и направление градиента (c)

Нейросеть, представленная на рисунке 8а, имеет 5 слоев, не содержит обратных связей и не требует обучения. Первый слой предназначен для входных данных из зон интереса (ROI) квадрата 15*15 в центе изображения, полученном с главной камеры и полосы размером width*15 на изображении, полученном с подчиненной камеры. Так как каждый пиксель характеризуется тремя характеристиками (I, G, D) первый слой имеет 3*15*15 + 3* width*15 нейронов. Выходы нейронов первого слоя перекрещиваются на втором слое по схеме, изображенной на рисунке 8б.

Второй слой содержит 15*15*(width–14) триплетов нейронов, которые рассчитывают модуль разности между характеристиками (I, G, D) пар пикселей.

Общий вид нейросети (a) и срез нейронов второго слоя (б)

Рисунок 8 – Общий вид нейросети (a) и срез нейронов второго слоя (б) [51]

Нейроны третьего слоя имеют по три входа каждый (I, G, D) и реализует функцию среднего арифметического характеристик, которая благодаря топологии связей отображает степень корреляции Out(i, j, k) между нейроном из главного изображения M(i, j) и подчиненного S(k + i, j):

formula2

В совокупности, второй и третий слои, реализуют попарное сравнение символьных характеристик пикселей. Совокупность нейронов с некоторым kn произведет сравнение пикселей из двух окон n*n: главного, kn-го из подчиненного изображения.

На четвертом слое k-тый нейрон находит степень корреляции между окном, полученном из центра изображения главной камеры и k-тым окном из полосы, полученной из подчиненной камеры. Каждый нейрон имеет 3*n*n входов, значения которых он складывает, предварительно вычитая каждое из 255.

Камеры имели разрешение 640x480 пикселей, значит центральное окно имеет номер nc=640-14/2=313. При проведении эксперимента, когда ведущая камера (правая) смотрела на левую сторону толстой вертикальной линии, а подчиненная камера (левая) – чуть правее, нейрон с номером n=300 имел стабильное максимальное выходное значение.

Выходные значения нейронов четвертого слоя

Рисунок 9 – Выходные значения нейронов четвертого слоя

Для того чтобы два нейрона пятого слоя могли использоваться для команд моторам подчиненной камеры, четвертый слой устроен по принципу «победитель получает все» (WTA) – только нейрон победитель активируется и только значение его трансферной функции отлично от нуля.

На пятом слое два нейрона: один указывает на то, в какую сторону должна поворачиваться камера, а другой – на какую величину. Оба нейрона получают входные данные ото всех нейронов четвертого уровня (из которых только один активен). На рисунке 10 изображены входные веса для нейронов пятого уровня в зависимости от положения нейронов четвертого.

Входные веса нейронов пятого слоя

Рисунок 10 – Входные веса нейронов пятого слоя: красный график для нейрона, показывающего направление, синий - для нейрона, указывающего величину поворота.

Процесс распространения информации в нейросети показан на рисунке 11.

Функционирование нейросети

Рисунок 11 – Функционирование нейросети

(анимация: 5 кадров, 20 циклов повторения, 270 килобайт)

Выводы

Магистерская работа посвящена актуальной научной задаче создания биоподобной зрительной системы для роботов. В рамках проведенных исследований выполнено:

  1. Проанализированы методы управления вергенцией в робототехнике, в частности построенные на нейросетях.
  2. Была реализована нейросеть для управления камерами.
  3. Проведен ряд экспериментов по использованию нейросети в приложениях компьютерного зрения, проанализированы полученные результаты. Система функционирует стабильно, если оптические оси двух камер лежат в одной плоскости.

Дальнейшие исследования направлены на следующие аспекты:

  1. Реализация других зрительных движений.
  2. Объединение реализованных движений в целостное зрительное поведение.
  3. Параллельная реализация алгоритмов, симуляция нейронных сетей на многопроцессорных системах.
  4. Оценка биологической правдоподобности полученной нейроархитектуры.

При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2013 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Ballard, D.H. and Ozcandarli, A., ТEye Fixation and Early Vision: Kinematic DepthУ, IEEE 2nd Intl. Conf. on Comp. Vision, Tarpon Springs, Fla., pp. 524-531, Dec. 1988.
  2. J.Y. Aloimonos, I. Weiss and A. Bandopadhay, "Active Vision", International Journal on Computer Vision, pp. 333-356, 1987.
  3. R. Bajcsy, "Active Perception", IEEE Proceedings, Vol 76, No 8, pp. 996-1006, August 1988.
  4. J.O. Eklundh and K.Pahlavan, Head, "Eye and Head-Eye System", SPIE Applications of AI X: Machine Vision and Robotics, Orlando, Fla. April 1992.
  5. C.M. Brown: Prediction and Cooperation in Gaze Control. Biological Cybernetics 63, 1990.
  6. Olson, T.J. Potter R.D: Real-time vergence control. Computer Vision and Pattern Recognition. Proceedings CVPR '89: 404-409, 1989.
  7. Thomas J. Olson, David J. Coombs: Real-time vergence control for binocular robots. International Journal of Computer Vision 7(1): 67-89, 1991.
  8. C.M. Brown, Gaze controls with interactions and delays. IEEE Trans Syst Man Cybern IEEE-TSMC20(2), March 1990
  9. O. J. M. Smith: Closer control of loops with dead time. Chemical Engg. Prog. TnJns~, 53(5):217219, 1957.
  10. Geometrie epipolaire – Wikipedia [Электронный ресурс]. – Режим доступа: http://fr.wikipedia.org/wiki/...
  11. James L. Crowley, Philippe Bobet, Mouafak Mesrabi: Gaze Control for a Binocular Camera Head. ECCV 1992: 588-596
  12. James L. Crowley, Philippe Bobet, Mouafak Mesrabi: Layered Control of a Binocular Camera Head. IJPRAI 7(1): 109-122, 1993.
  13. M. Bjorkman and J-O. Eklundh: Real-Time Epipolar Geometry Estimation of Binocular Stereo Heads. IEEE Trans. Pattern Analysis and Machine Intelligence 24(3), pp. 425-432, Mar 2002.
  14. Ballard, D.H. and Ozcandarli, A., ТEye Fixation and Early Vision: Kinematic DepthУ, IEEE 2nd Intl. Conf. on Comp. Vision, Tarpon Springs, Fla., pp. 524-531, Dec. 1988.
  15. X. Roca, J. Vitrih, M. Vanrell, J.J. Villanueva: Gaze control in a binocular robot systems. Emerging Technologies and Factory Automation. Proceedings of ETFA '99, 1999.
  16. Marapane, S. B. and M. M. Trivedi (1989) Region-based stereo analysis for robitic applications. IEEE Trans. Syst., Man, Cybern., 19, 1447-1464.
  17. Kanade, T. and M. Okutomi (1994) A stereo matching algorithm with an adaptive window: theory and experiment. IEEE Trans. Pattern Anal. Machine Intell., 16, 920-932.
  18. Nasrabadi, N. M., W. Li, B. G. Epranian, and C. A. Butkus (1989) Use of Hopfield network for stereo vision correspondence. IEEE ICSMC, 2, 429-432.
  19. Nasrabadi, N. M. and C. Y. Choo (1992) Hopfield network for stereo vision correspondence. IEEE Trans. Neural Networks, 3, 5-13.
  20. K. Pahlavan, Active Robot Vision and Primary Ocular Processes, Ph.D. thesis, Royal Institute of Technology. Computational Vision and Active Perception Laboratory, 1993.
  21. A. Bernardino. "Seguimento binocular de alvos mbveis baseado em imagens log-polar" M.S. thesis, Instituto Superior Tbcnico, Lisbon, Portugal, January 1997.
  22. Damir Omrcen, Ales Ude, Redundant control of a humanoid robot head with foveated vision for object tracking / Conference on Robotics and Automation (ICRA), 2010 IEEE International 3-7 May 2010, 4151 - 4156.
  23. R. Manzotti, A. Gasteratos, G. Metta, G. Sandini. Disparity estimation on log-polar images and vergence control / Journal Computer Vision and Image Understanding, Volume 83 Issue 2, August 2001, Pages 97-117.
  24. G. Metta, A. Gasteratos, and G. Sandini. Learning to track colored objects with log-polar vision. Mechatronics, 14:9891006, 2004.
  25. A. Bernardino and J. Santos-Victor. Binocular visual tracking: Integration of perception and control. IEEE Transactions on Robotics and Automation, 15(6):1080–1094, 1999.
  26. A. Ude, C. Gaskett, and G. Cheng. Foveated vision systems with two cameras per eye. In Proc. IEEE Int. Conf. Robotics and Automation, Orlando, USA, 2006.
  27. S. Vijayakumar, J. Conradt, T. Shibata, and S. Schaal. Overt visual attention for a humanoid robot. In Int. Conf. on Intelligent Robots and Systems (IROS), Hawaii, USA, 2001.
  28. J. L. MCCLLELAND, D. E. RUMELHART, G. E. HINTON, Parallel distributed processing, Exploration in microstructure of cognition», vol. 1, vol. 2, Cambridge, MIT press.
  29. T. Kohonen, Self-Organization and Associative Memory. New York: Springer-Verlag, 1989.
  30. T. KHANNA, «Foundations of Neural Networks», Addison-Wesley Publishing Compagny, 1989.
  31. R. LIPPMANN, «An Introduction to Computing with Neural Nets», IEEE ASSP, Magazine, April 1987, p. 4-22.
  32. Y. LECUN, B. BOSER, J. S. DENKER, D. HENDERSON, R. E. HOWARD, «Backpropagation applied to handwritten zip code recognition», Neural Computation, vol. 1, ri 4, 1989, p. 541-551.
  33. T. DE SAINT PIERRE, «Codification et apprentissage connexionniste de caracteres multipolices», Cognitiva 87, Paris, mai 87, p. 284-289.
  34. E. ALLEN, M. MENON, P. DICAPRIO, «A Modular Architecture for Object Recognition Using Neural Networks», INNC 90, Paris, July 90, p. 35-37.
  35. G. W. COTTREL, M. FLEMING, «Face Recognition using Unsupervised feature Extraction», INNC 90 Paris, July 90, p. 322-325.
  36. I. GUPTA, M. SAYEH, R. TAMMARA, «A Neural Network Approch te, Robust Shape Classification», Pattern Recognition, vol. 23, n' 9, p. 563-568, 1990.
  37. E. L. HINES, R. A. HUTCHINSON, «Application of Multi-Layer Perceptrons to Facial Feature Location», IEE image processing, 1989, p. 39-43.
  38. D. J. HEROLD, W. T. MILLER, L. G. KRAFT, F. H. GLANZ, «Pattern Recognition using a CMAC Based Leaming System», SPIE, vol. 1004, 1988, p. 84-90.
  39. А.В. Федоров. Исследование методов контурной сегментации для построения системы оптического распознавания символов. Руководитель: к.т.н., доцент кафедры ПМиИ Федяев О.И.
  40. О.В. Шпарбер. Распознавание образов на основе инфракрасной термографии. / ДонНТУ: Информатика и компьютерные технологии V, 2009.
  41. Г.Ю. Костецкая, О.И. Федяев. Распознавание изображений человеческих лиц с помощью свёрточной нейронной сети. / ДонНТУ: Штучний інтелект, нейромережеві та еволюційні методи та алгоритми, Том Первый, 2010.
  42. И.А. Коломойцева.Решение задачи распознавания образов на примере информационной системы скрининга девочек-подростков. / Наукові праці Донецького національного технічного університету, серія «Інформатика, кібернетика та обчислювальна техніка»,випуск 6, Донецк, ДонНТУ, 1999.
  43. О.В. Близкая, Ю.А. Скобцов. Разработка метода и алгоритма распознавания двухмерных контрастных изображений объектов по инвариантным информативным признакам. / Збірка студентських наукових праць факультету “Комп’ютерні інформаційні технології і автоматика” Донецького національного технічного університету. Випуск 3. –Донецьк: ДонНТУ, 2005. –366 с.
  44. С.А. Полтава. Исследование эффективности алгоритмов распознавания цветного маркирования объектов для систем технического зрения. Руководитель: к.т.н., доцент кафедры ПМИ Зори Сергей Анатолиевич.
  45. А.В. Афанасенко. Исследование эффективности алгоритмов распознавания цветного маркирования объектов для систем технического зрения. Руководитель: к.т.н., доцент кафедры ПМИ Зори Сергей Анатолиевич.
  46. Robert M. Youngson. Collins Dictionary of Medicine // Collins. –2005. –704 p. http://www.goodreads.com/book/show/12239549-collins-dictionary-of-medicine
  47. Вудвортс Р. С. Зрительное восприятие глубины / Психология ощущений и восприятия. –М.: ЧеРо, 1999. –с.343-382.
  48. J.-H. Wang. On Disparity Matching in Stereo Vision via a Neural Network Framework // J.-H. Wang, C.-P. Hsiao. –Proceedings of ROC(A). Vol. 23 #5. –1999. –665-678p.
  49. S. B. Marapane. Region-based stereo analysis for robotic applications // Marapane, S. B. and M. M. Trivedi. –IEEE Trans. Syst., Man, Cybern., 19. –1989. –1447-1464p.
  50. N. M. Nasrabadi. Use of Hopfield network for stereo vision correspondence // Nasrabadi, N. M., W. Li, B. G. Epranian, and C. A. Butkus. –IEEE ICSMC #2. –1989. –429-432p.
  51. Barna Resko. Camera Control with Disparity Matching in Stereo Vision by Artificial Neural Networks // Barna Resko, Peter Baranyi, Hideki Hashimoto. –Proceedings of WISES'03. -2003. –139-150с.
  52. Universite de Cergy Pontoise [Электронный ресурс]. Режим доступа: http://www.u–cergy.fr/
  53. I. Sobel. A 3x3 Isotropic Gradient Operator for Image Processing // I. Sobel, G. Feldman. –Stanford project. –1968.