ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Зір є найважливішим джерелом інформації як для людини так і багатьох тварин. Зоровий аналізатор надає в кілька разів більше корисної інформації про зовнішній світ, ніж всі інші органи чуття разом узяті. Для будь-якого штучного агента критично важливою перевагою є наявність здатності візуальної перцепції. Комп'ютерний зір - це область штучного інтелекту, що включає в себе набір методів і технологій, що дозволяють машинам отримувати, обробляти, аналізувати, розпізнавати візуальну інформацію, яка надходить з однієї або декількох камер. Ця область може бути охарактеризована як молода, різноманітна і динамічно розвивається. Дослідження в області комп'ютерного зору прагнуть забезпечити роботам перцептивні можливості, що можуть бути порівняні з людськими.

Термін «активне зір» є парадигмою, в основі якої лежить розуміння зорової системи робота в контексті поведінки робота, що взаємодіє із динамічним навколишнім світом. У формулюванні Балларда [1] активним (дослівний переклад: живим) зором називається система, яка здатна активно змінювати точку погляду у відповідь на фізичні стимули.

1. Актуальність теми

В останні кілька десятків років спостерігається значне підвищення інтересу до активного контролю при отриманні зображення для спрощення і прискорення персептивних завдань. Основоположні ідеї активного підходу, запропоновані в статтях Aloimonos [2] і Bajcsy [3], були апробовані і значно розширені багатьма дослідниками.

Обробка візуальної інфрмації (зображень) і штучний зір для роботів є одним з найбільш переспективних напрямків застосування штучних нейронних мереж. Найбільш цікаві результи були отримані переважно західними дослідниками при прагненні створити максимально біологічно правдоподібні нейроструктури і нейроалгорітми для обробки зображень, розпізнавання і запам'ятовування об'єктів.

Моє дослідження в області машинного зору присвячено вивченню та розробці нових методів і технік комп'ютерного зору, які є активними, бінокулярними і застосовними для втілення в гуманоидной робототехніці.

2. Мета і задачі дослідження та заплановані результати

Метою дослідження є розробка нових біологічно правдоподібних нейромережевих рішень обробки візуальної інформації для гуманоїдних роботів.

Основні завдання дослідження:

  1. Аналіз нейромережних архітектур і алгоритмів комьютерной зору, а також аналіз розробок в області активного стерео зору у робототехніці.
  2. Розробка системи контролю зорового поведінки для бінокулярного робота.

Об'єкт дослідження : обробка візуальної інформації штучними нейромережами, нейромережеве керування.

Предмет дослідження : біологічно правдоподібні нейромережеві структури для активного зору для роботів.

У рамках магістерської роботи планується отримання актуальних наукових результатів за наступними напрямками:

  1. Розробка нових і модифікація існуючих моделей нейромереж для обробки та інтерпретації вхідних стерео зображень.
  2. Створення нейромережевої архітектури для управління рухами камер.
  3. Обгрунтування біологічної правдоподібності розроблених нейросистем.

Для експериментальної оцінки отриманих теоретичних результатів і формування фундаменту наступних досліджень, в якості практичних результатів планується розробка нейромережевих рішень комьютерной стерео зору для робототехніки та їх апробація на реальних роботах у лабораторії ETIS університету Сержі-Понтуаз (Cergy-Pontoise).

3. Огляд досліджень та розробок

3.1 Огляд міжнародних джерел

3.1.1 Активний зір

Парадигма активного зору для роботів бере свій початок у роботі [2], в якій автори досліджували такі типові завдання комп'ютерного зору як: розпізнавання форми з тіні, форми з контуру, форми з текстури, структури з руху. Автори доводять, що активний спостерігач може вирішувати ці базові проблеми набагато більш ефективно, ніж пасивний. Завдання, які є нелінійними, неоднозначними, некоректними для пасивного спостерігача стають лінійними і коректними для активного. Основне припущення, зроблене Aloimonos, полягає в тому, що спостерігач переміщається відомим чином, має безліч точок зору на об'єкт, робить безліч контрольованих оцінок сцени, тобто отримує про неї більше достовірної інформації.

Bajcsy [3] вводить поняття активного сенсора - камери, яка в процесі роботи змінює свої внутрішні параметри і положення в просторі згідно з деякими персептивними стратегіями. Виходячи з цього, завдання активного зору може бути поставлено ??як розробка стратегій керування, суміщених з процесом отримання візуальної інформації, який залежить від стану системи та її цілей.

Розвиток роботизованих голів з бінокулярною візуальною системою призвело до можливості використання контрольованих рухів камери для створення систем, які безперервно діють в реальному часі. Одні з перших такі систем були описані в роботах [1], [4] і [5]. Авторами було показано, як комбінування декількох простих поведінок може бути використано для реалізації саккад, конвергенції, рухів шиї і моделювання вестибулоокулярного рефлексу.

Парадигма активного зору, запропонована в [1], справила величезний вплив на розвиток комп'ютерного зору для робототехніки. У цій статті Ballard сформулював завдання зорового поведінки робота, і показав відмінності активного підходу до вирішення цих завдань від пасивного і переваги першого. Багато робот, в тому числі ті, які будуть висвітлені в моєму бібліографічному дослідженні, так чи інакше прагнуть використовувати переваги активного зору, висловлені в статті «Animate Vision» [1].

Переваги активного зору, заявлені парадигмою «Animate Vision», вперше знайшли своє підтвердження в результаті створення рочерского робота з трьома ступенями свободи камер [6], [7] і [14]. Експерименти продемонстрували, що, незважаючи на ускладнення системи підсистемою контролю погляду, активний зір значно спрощує обчислення візуальних завдань. Хоча запровонована система далека від реальної архітектури людського зору, вона здатна вирішувати завдання низькорівневого зору в реальному часі.

Схема рочерского робота

Рисунок 1 – Схема рочерского робота [6]

У статті [5] описана система контролю, заснована на парадигмі «active intelligence». Парадигма активної інтелектуальності включає ідею ієрархічності контролю:

У своїй наступній статті [8] Brown описав систему, що об'єднує такі візуальні поведінки як: саккади і зворотне їм плавне стеження за рухомою метою, вергенцію, вестібулоокулярний рефлекс - стабілізація очей щодо руху голови. Автори описали два варіанти роботи системи:

У роботі [15] автори описали створену ними систему, що реалізує сукупність алгоритмів для імітації рухів очей: фокусу, вергенції, саккад і плавного стеження. Перевагою їх роботи є надійність і продуктивність в реальному часі кожного окремо взятого алгоритму. З цією метою вони використовували прості алгоритми, з метою швидких розрахунків.

Вергенція - це рух одного ока або обох очей, при якому зорові осі дівергують (розходяться) або конвергують (сходяться). Іншими словами це одночасний рух обох очей в протилежному напрямку для одержання або збереження бінокулярного зору. Метою контролю вергенції є збереження точки фіксації очей або камери у деякій точці простору, незалежно від зміни кута погляду і відстані до цілі. Визначальним фактором можливості використання системи управління вергенції в реальному часі є швидка оцінка діспарантності. У статті [15] автори описали і втілили в реальній системі алгоритм її розрахунку заснований на ідеї нормалізованої «крос-корелляціі» (NCC) [20], [21].

У статті [22] запропоновано підхід для контролю за напрямком погляду голови робота, заснований на концепції віртуального зв'язку. Цей віртуальна зв'язок єднає очі з точкою у 3-D просторі. При використанні цього механізму завдання стеження може бути описана в найбільш загальному вигляді. Це дозволяє використовувати різноманітні методи управління, підходи і стратегії, описані в літературі, і реалізовувати їх на різних роботах. Віртуальний зв'язок можна розглядати як додаткове зчленування, приєднане до ока, тобто додається додатковий ступінь свободи. Коли око переміщається, віртуальна зв'язок також переміщається.

Концепція віртуального зв'язку

Рисунок 2 – Концепція віртуального зв'язку [22]

Особливістю даної роботи є те, що завдяки концепту віртуальної зв'язку можна легко використовувати надмірність ступенів свободи голови робота, досягти більш різноманітних рухів голови, кращого відстеження, уникнення граничних положень зчленувань.

У статті [23], [24] автори використовують полярні зображення (log-polar images) для розпізнавання і стеження за об'єктами. Для контролю напрямку погляду вони використовують методи навчання, які визначають рухи очей.

В [25] запропоновано кінематичний і динамічний контролер, який є досить простим, оскільки він поділяє кінематичні зв'язки голови робота. Шляхом поділу на окремі рухи автори досягли спрощення сенсомоторного керування.

В [26] запропонований більш простий розділений контролер, реалізований у вигляді мережі PD-контролерів (пропорційно-диференціальних контролерів). Система використовує дві камери для кожного ока: з широким і вузьким полем зору. Тому автори повинні були реалізувати перетворення, яке гарантує, що об'єкт буде в центрі поля зору узкоформатної камери, навіть якщо за ним стежить широкоформатна.

В [27] автори запропонували жорсткий контролер параметра руху. Автори розробили відображення з двовимірного простору точок у пятімерний простір ступенів свободи. Воно реалізовано тільки для одного ока, у той час як другий просто копіює руху першого.

3.1.2 Стерео зір

В геометрії стерео зору значну роль грають:

Епіполярное обмеження

Рисунок 3 – Епіполярное обмеження [10]

Існує два основних засоби вирішення проблеми знаходження пари відповідних пікселів: на основі вікон (областей) [16], [17] і на основі деталей зображення [18?], [19].

J. Crowley у своїх статтях [11], [12] описує метод використання епіполярного обмеження для знаходження координати точки погляду в просторі. Положення цієї точки в просторі визначається щодо точки в центрі голови (на базовій лінії, що з'єднує центральні точки 2х камер). Ця точка лежить в площині, що визначається оптичними осями 2х камер і лежить на їх перетині.

Знаходження положення точки погляду в просторі

Рисунок 4 – Знаходження положення точки погляду в просторі [11]

Визначаючи декартову систему координат, як показано на малюнку, положення точки фіксації може бути розраховане за допомогою інформації про довжину базової лінії і величиною кутів aL і aR [11], [12]:

Формула нахождения координаты точки

Для систем активного стерео зору важливою умовою функціонування є калібрування, тобто постійне підтримання відповідності проекцій точок на лівій і правій камери. У роботі [13] автори описали і зіставили два методи для динамічного калібрування камер. Перший метод заснований на фундаментальній матриці, використовується епіполярное обмеження і лінійна оптимізація. Другий метод - ітеративний, заснований на диференціальної моделі оптичного потоку.

3.1.3 Нейромережевий підхід у комп`ютерному зорі

Сьогодні під терміном штучна нейронна мережа об'єднується велика кількість моделей, які намагаються імітувати функціональність мозку, відтворюючи деякі з його основних структур. Перша модель була запропонована Маккаллохом і Піттсом в 1943 році, в рамках якої вони вивчали логічні операції, що виконуються нейронами. Існує велика кількість узагальнюючої літератури по нейронним мережам [28-31]. Існуючі нейросистеми інтерпретації зображень і розпізнавання об'єктів засновані на окремому аналізі частин зображення для вилучення локальних характеристик, які потім інтегруються в більш загальні класи.

Розпізнавання символів, безсумнівно, є найбільш розвиненим застосуванням нейронних мереж. Для вирішення цієї проблеми були протестовані різні методи з відносним успіхом, наприклад, що використовують зворотне поширення помилки (RPG) [32], [33].

Іншою добре вивченою проблемою є розпізнавання певного об'єкта в конкретній сцені [34-38]. У всіх випадках, як тільки об'єкт був виділений, він нормалізується так, щоб максимально заповнити вікно розпізнавання. Спеціальні процедури реалізують масштабування і поворот об'єкта таким чином, щоб полегшити розпізнавання. Навчання використовує RPG. Вивченими прикладами є різні можливі цілі з їх ідентифікаціями. Щоб зробити навчання стійким до шуму, який може бути важливим, автори навчали мережі зашумленими формам. Основним обмеженням цього методу є те, що він вимагає, щоб розпізнавані об'єкти були повністю відокремлені від фону, що важко досягається у випадку складних зображень, таких як природні сцени і аерофотознімки.

3.2 Огляд національних джерел

В Україні достатня кількість кафедр та університетів займаються дослідженням комп'ютерної обрабоки зображень, в тому числі і з використанням нейромереж.

3.3 Огляд локальних джерел

Для ДонНТУ наукова проблема комьютерного стерео зору для робототехніки є новою. Проте наступні автори займалися вивченням нейромережевих систем, які так чи інакше перетинаються з моїми дослідженнями. В основному це різні технології інтерпретації зображень за допомогою нейромереж:

4. Система динамічного контролю вергенції

4.1 Постановка проблеми

У бінокулярних системах, вергенція - це рух одного ока або обох очей, при якому зорові осі дивергують (розходяться) або конвергують (сходяться) [46]. Цей рух потрібен для того, щоб обидва ока були направлені в одну і ту ж фіксовану точку. Для біологічних зорових систем, таких як людська, подібна умова є очевидним для нормального функціонування, оскільки гострота зору неоднакова: у центральній ямці вона вище, на периферії поля зору - нижче. Штучному стерео зорові контрольована вергенція також дає масу переваг: від спрощення постановки та вирішення завдань комп'ютерного зору до естетики і ергономічності при взаємодії гуманоїдного робота з людиною.

У цьому дослідженні описаний метод контролю вергенції у стерео зорі, заснований на розрахунку диспаратності. Диспаратність - це розходження взаємного положення точок, що відображаються на сітківки лівого і правого ока. На малюнку 4 зображені випадки диспаратних і кореспондуючих точок [47]. У разі штучного зору, якщо обидві камери спрямовані на один і той же об'єкт, то він відображається на центр їх проективних площин (аналог сітківок) і диспаратность близька до нуля. Якщо об'єкт проектується в центр однієї камери і на переферію іншої, то диспаратность висока і рішення задач стерео зору є важким.

Проекції диспаратних і кореспондуючих точок на сітківки очей або проективні площині камер

Рисунок 4 – Проекції диспаратних і кореспондуючих точок на сітківки очей або проективні площині камер

4.2 Аналіз літератури

Був проведений аналіз різних методів управління конвергенції, які зазвичай є частиною активної зорової системи. Починаючи з перших публікацій, присвячених активному комп'ютерному зору (англ. - animate, active vision) автори підкреслювали важливість управління вергенцією [1], [2]. Це управління, як і в біологічних зорових системах, часто засноване на оцінці диспаратности. На поточному етапі можна виділити два основних способи для її оцінки та/або знаходження пари відповідних пікселів на різних камерах [48]:

Бінокулярна система цього дослідження грунтується на алгоритмах і структурі штучної нейронної мережі (ШНМ) запропонованої в [51].

4.3 Мета роботи та постановка задачі дослідження

Мета дослідження - реалізувати систему на основі штучної нейронної мережі для вирішення поставленої проблеми. Виходячи з розрахованої діспратності ШНМ видає керуючий сигнал камеродвігательним моторам (назву за аналогією з окорухових м'язами) для того, щоб привести точки погляду камер в одну і ту ж точку простору. Для свого функціонування нейронна мережа не повинна потребує звичайних обчислювальних засобах, таких як комп'ютер з архітектурою фон Неймана. Тобто повністю використовувати потенціал масового паралелізму для вирішення завдання, який можна реалізувати за допомогою кластера або многоядерного процесора.

Основним завданням дослідження є виявити переваги та недоліки методу контролю вергенції в активному стерео зорі, описаному в [51]. А також запропонувати і реалізувати удосконалення в структурі ШНМ і алгоритм її паралельної реалізації. Робота проводиться в рамках франко-української програми MASTER (співробітництво ДонНТУ та університету Сержі-Понтуаз (Франція) [52]), як частина магістерського дослідження.

4.4 Рішення задач і результати досліджень

Одна з камер є провідною, і нерухомою щодо завдання вергенції, інша - підпорядкованою, положення якої регулюється нейромережею.

Камери Fire-i, що використовуються в експерименті

Рисунок 5 – Камери Fire-i, що використовуються в експерименті

Для вирішення поставленого завдання пропонується досліджувати застосування ШНМ типу багатошаровий перцептрон без зворотних зв'язків. Нейромережа влаштована таким чином, щоб за допомогою повороту підпорядкованої камери мінімізувати діспарантність. Вона є біологічно інспірованою з п'ятьма шарами, зіставляє символічні ознаки зображення з метою визначити напрямок повороту підпорядкованої камери. Для пікселя з координатами (x, y) в якості символічних ознак можна вибрати:

  1. Інтенсивність сірого:
    formula1
  2. Модуль градієнта. Градієнт розраховується наступним чином:
    formula2
    Градієнт може бути обчислений за допомогою згортки зображення з наступними ядрами (матрицями згортки): Kx, Ky, що відомої як оператор Собеля [53]:
    formula3
    Модуль градієнта в точці (x, y) може бути обчислений як:
    formula4
  3. Напрямок градієнта в точці (x, y) може бути обчислений як:
    formula5

На малюнку 6 представлено три вищезгадані характеристики пікселів у вигляді зображень.

Інтенсивність (a), модуль градієнта (б) і напрямок градієнта (в)

Рисунок 6 – Інтенсивність (a), модуль градієнта (б) і напрямок градієнта (в)

Нейромережа, представлена ??на малюнку 7а, має 5 шарів, не містить зворотних зв'язків і не вимагає навчання. Перший шар призначений для вхідних даних із зон інтересу (ROI): квадрата 15*15 в центі зображення, отриманого з головної камери і смуги розміром width*15 на зображенні, отриманого за підпорядкованої камери. Так як кожен піксель характеризується трьома характеристиками (I, G, D) перший шар має 3*15*15+3*width*15 нейронів. Виходи нейронів першого шару перехрещуються на другому шарі за схемою, яка зображена на малюнку 7б.

Другий шар містить 15*15*([ширина зображення]-14) триплетів нейронів, які розраховують модуль різниці між характеристиками (I, G, D) пар пікселів.

Рисунок 7 – Загальний вигляд нейромережі (a) і зріз нейронів другого шару (б)

Рисунок 7 – Загальний вигляд нейромережі (a) і зріз нейронів другого шару (б) [51]

Нейрони третього шару мають по три входи кожен (I, G, D) і реалізують функцію середнього арифметичного характеристик, яке завдяки топології зв'язків відображає ступінь кореляції Out(i, j, k) між нейроном з головного зображення M (i, j ) і підлеглого S (k + i, j):

formula2

У сукупності, другий і третій шари, реалізують попарне порівняння символьних характеристик пікселів. Сукупність нейронів з деяким kn порівняє пікселі з ??двох вікон n*n: головного та kn-го з підлеглого зображення.

На четвертому шарі k-тий нейрон знаходить ступінь кореляції між вікном, отриманим із центра зображення головної камери та k-тим вікном зі смуги, отриманої з підлеглої камери. Кожен нейрон має 3*n*n входів, значення яких він складає, попередньо віднімаючи кожне з 255.

Камери мали роздільність 640x480 пікселів, значить центральне вікно має номер nc=640-14/2=313. При проведенні експерименту, коли ведуча камера (права) дивилася на ліву сторону товстої вертикальної лінії, а підлегла камера (ліва) - трохи правіше, нейрон з номером 300 мав стабільне максимальне вихідне значення.

Рисунок 8 – Вихідні значення нейронів четвертого шару

Рисунок 8 – Вихідні значення нейронів четвертого шару

Для того щоб два нейрона п'ятого шару могли використовуватися для команд моторам підпорядкованої камери, четвертий шар влаштований за принципом «переможець отримує все» (WTA) - тільки нейрон переможець активується і тільки значення його трансферної функції відмінно від нуля.

На п'ятому шарі є два нейрона: один вказує на те, в яку сторону повинна повертатися камера, а інший - на яку величину. Обидва нейрона отримують вхідні дані від усіх нейронів четвертого рівня (з яких тільки один активний). На малюнку 9 зображені вхідні ваги для нейронів п'ятого рівня в залежності від положення нейронів четвертого.

Вхідні ваги нейронів п'ятого шару

Рисунок 9 – Вхідні ваги нейронів п'ятого шару: червоний графік для нейрона, що показує напрямок, синій - для нейрона, яке зазначає величину повороту.

Процес поширення інформації в нейромережі зображений на малюнку 10.

Функціонування нейромережі

Рисунок 10 – Функціонування нейромережі

(анімація: 5 кадрів, 20 циклів повторення, 270 кілобайт)

Висновки

Магістерська робота присвячена актуальній науковій задачі створення біоподобні системи управління зорової системи для роботів. У рамках проведених досліджень виконано:

  1. Проаналізовано методи управління вергенції у робототехніці, зокрема побудовані на нейромережах.
  2. Була реалізована нейромережа для управління камерами.
  3. Проведено ряд експериментів з використання нейромережі в застосуванні у комп'ютерного зору, проаналізовано отримані результати. Система функціонує стабільно, якщо оптичні осі двох камер лежать в одній площині.

Подальші дослідження спрямовані на наступні аспекти:

  1. Реалізація інших зорових рухів.
  2. Об'єднання реалізованих рухів у цілісне зорове поведінку.
  3. Паралельна реалізація алгоритмів, симуляція нейронних мереж на багатопроцесорних системах.
  4. Оцінка біологічної правдоподібності отриманої нейроархітектури.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2013 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Перелік посилань

  1. Ballard, D.H. and Ozcandarli, A., ТEye Fixation and Early Vision: Kinematic DepthУ, IEEE 2nd Intl. Conf. on Comp. Vision, Tarpon Springs, Fla., pp. 524-531, Dec. 1988.
  2. J.Y. Aloimonos, I. Weiss and A. Bandopadhay, "Active Vision", International Journal on Computer Vision, pp. 333-356, 1987.
  3. R. Bajcsy, "Active Perception", IEEE Proceedings, Vol 76, No 8, pp. 996-1006, August 1988.
  4. J.O. Eklundh and K.Pahlavan, Head, "Eye and Head-Eye System", SPIE Applications of AI X: Machine Vision and Robotics, Orlando, Fla. April 1992.
  5. C.M. Brown: Prediction and Cooperation in Gaze Control. Biological Cybernetics 63, 1990.
  6. Olson, T.J. Potter R.D: Real-time vergence control. Computer Vision and Pattern Recognition. Proceedings CVPR '89: 404-409, 1989.
  7. Thomas J. Olson, David J. Coombs: Real-time vergence control for binocular robots. International Journal of Computer Vision 7(1): 67-89, 1991.
  8. C.M. Brown, Gaze controls with interactions and delays. IEEE Trans Syst Man Cybern IEEE-TSMC20(2), March 1990
  9. O. J. M. Smith: Closer control of loops with dead time. Chemical Engg. Prog. TnJns~, 53(5):217219, 1957.
  10. Geometrie epipolaire – Wikipedia [Электронный ресурс]. – Режим доступа: http://fr.wikipedia.org/wiki/...
  11. James L. Crowley, Philippe Bobet, Mouafak Mesrabi: Gaze Control for a Binocular Camera Head. ECCV 1992: 588-596
  12. James L. Crowley, Philippe Bobet, Mouafak Mesrabi: Layered Control of a Binocular Camera Head. IJPRAI 7(1): 109-122, 1993.
  13. M. Bjorkman and J-O. Eklundh: Real-Time Epipolar Geometry Estimation of Binocular Stereo Heads. IEEE Trans. Pattern Analysis and Machine Intelligence 24(3), pp. 425-432, Mar 2002.
  14. Ballard, D.H. and Ozcandarli, A., ТEye Fixation and Early Vision: Kinematic DepthУ, IEEE 2nd Intl. Conf. on Comp. Vision, Tarpon Springs, Fla., pp. 524-531, Dec. 1988.
  15. X. Roca, J. Vitrih, M. Vanrell, J.J. Villanueva: Gaze control in a binocular robot systems. Emerging Technologies and Factory Automation. Proceedings of ETFA '99, 1999.
  16. Marapane, S. B. and M. M. Trivedi (1989) Region-based stereo analysis for robitic applications. IEEE Trans. Syst., Man, Cybern., 19, 1447-1464.
  17. Kanade, T. and M. Okutomi (1994) A stereo matching algorithm with an adaptive window: theory and experiment. IEEE Trans. Pattern Anal. Machine Intell., 16, 920-932.
  18. Nasrabadi, N. M., W. Li, B. G. Epranian, and C. A. Butkus (1989) Use of Hopfield network for stereo vision correspondence. IEEE ICSMC, 2, 429-432.
  19. Nasrabadi, N. M. and C. Y. Choo (1992) Hopfield network for stereo vision correspondence. IEEE Trans. Neural Networks, 3, 5-13.
  20. K. Pahlavan, Active Robot Vision and Primary Ocular Processes, Ph.D. thesis, Royal Institute of Technology. Computational Vision and Active Perception Laboratory, 1993.
  21. A. Bernardino. "Seguimento binocular de alvos mbveis baseado em imagens log-polar" M.S. thesis, Instituto Superior Tbcnico, Lisbon, Portugal, January 1997.
  22. Damir Omrcen, Ales Ude, Redundant control of a humanoid robot head with foveated vision for object tracking / Conference on Robotics and Automation (ICRA), 2010 IEEE International 3-7 May 2010, 4151 - 4156.
  23. R. Manzotti, A. Gasteratos, G. Metta, G. Sandini. Disparity estimation on log-polar images and vergence control / Journal Computer Vision and Image Understanding, Volume 83 Issue 2, August 2001, Pages 97-117.
  24. G. Metta, A. Gasteratos, and G. Sandini. Learning to track colored objects with log-polar vision. Mechatronics, 14:9891006, 2004.
  25. A. Bernardino and J. Santos-Victor. Binocular visual tracking: Integration of perception and control. IEEE Transactions on Robotics and Automation, 15(6):1080–1094, 1999.
  26. A. Ude, C. Gaskett, and G. Cheng. Foveated vision systems with two cameras per eye. In Proc. IEEE Int. Conf. Robotics and Automation, Orlando, USA, 2006.
  27. S. Vijayakumar, J. Conradt, T. Shibata, and S. Schaal. Overt visual attention for a humanoid robot. In Int. Conf. on Intelligent Robots and Systems (IROS), Hawaii, USA, 2001.
  28. J. L. MCCLLELAND, D. E. RUMELHART, G. E. HINTON, Parallel distributed processing, Exploration in microstructure of cognition», vol. 1, vol. 2, Cambridge, MIT press.
  29. T. Kohonen, Self-Organization and Associative Memory. New York: Springer-Verlag, 1989.
  30. T. KHANNA, «Foundations of Neural Networks», Addison-Wesley Publishing Compagny, 1989.
  31. R. LIPPMANN, «An Introduction to Computing with Neural Nets», IEEE ASSP, Magazine, April 1987, p. 4-22.
  32. Y. LECUN, B. BOSER, J. S. DENKER, D. HENDERSON, R. E. HOWARD, «Backpropagation applied to handwritten zip code recognition», Neural Computation, vol. 1, ri 4, 1989, p. 541-551.
  33. T. DE SAINT PIERRE, «Codification et apprentissage connexionniste de caracteres multipolices», Cognitiva 87, Paris, mai 87, p. 284-289.
  34. E. ALLEN, M. MENON, P. DICAPRIO, «A Modular Architecture for Object Recognition Using Neural Networks», INNC 90, Paris, July 90, p. 35-37.
  35. G. W. COTTREL, M. FLEMING, «Face Recognition using Unsupervised feature Extraction», INNC 90 Paris, July 90, p. 322-325.
  36. I. GUPTA, M. SAYEH, R. TAMMARA, «A Neural Network Approch te, Robust Shape Classification», Pattern Recognition, vol. 23, n' 9, p. 563-568, 1990.
  37. E. L. HINES, R. A. HUTCHINSON, «Application of Multi-Layer Perceptrons to Facial Feature Location», IEE image processing, 1989, p. 39-43.
  38. D. J. HEROLD, W. T. MILLER, L. G. KRAFT, F. H. GLANZ, «Pattern Recognition using a CMAC Based Leaming System», SPIE, vol. 1004, 1988, p. 84-90.
  39. А.В. Федоров. Исследование методов контурной сегментации для построения системы оптического распознавания символов. Руководитель: к.т.н., доцент кафедры ПМиИ Федяев О.И.
  40. О.В. Шпарбер. Распознавание образов на основе инфракрасной термографии. / ДонНТУ: Информатика и компьютерные технологии V, 2009.
  41. Г.Ю. Костецкая, О.И. Федяев. Распознавание изображений человеческих лиц с помощью свёрточной нейронной сети. / ДонНТУ: Штучний інтелект, нейромережеві та еволюційні методи та алгоритми, Том Первый, 2010.
  42. И.А. Коломойцева.Решение задачи распознавания образов на примере информационной системы скрининга девочек-подростков. / Наукові праці Донецького національного технічного університету, серія «Інформатика, кібернетика та обчислювальна техніка»,випуск 6, Донецк, ДонНТУ, 1999.
  43. О.В. Близкая, Ю.А. Скобцов. Разработка метода и алгоритма распознавания двухмерных контрастных изображений объектов по инвариантным информативным признакам. / Збірка студентських наукових праць факультету “Комп’ютерні інформаційні технології і автоматика” Донецького національного технічного університету. Випуск 3. –Донецьк: ДонНТУ, 2005. –366 с.
  44. С.А. Полтава. Исследование эффективности алгоритмов распознавания цветного маркирования объектов для систем технического зрения. Руководитель: к.т.н., доцент кафедры ПМИ Зори Сергей Анатолиевич.
  45. А.В. Афанасенко. Исследование эффективности алгоритмов распознавания цветного маркирования объектов для систем технического зрения. Руководитель: к.т.н., доцент кафедры ПМИ Зори Сергей Анатолиевич.
  46. Robert M. Youngson. Collins Dictionary of Medicine // Collins. –2005. –704 p. http://www.goodreads.com/book/show/12239549-collins-dictionary-of-medicine
  47. Вудвортс Р. С. Зрительное восприятие глубины / Психология ощущений и восприятия. –М.: ЧеРо, 1999. –с.343-382.
  48. J.-H. Wang. On Disparity Matching in Stereo Vision via a Neural Network Framework // J.-H. Wang, C.-P. Hsiao. –Proceedings of ROC(A). Vol. 23 #5. –1999. –665-678p.
  49. S. B. Marapane. Region-based stereo analysis for robotic applications // Marapane, S. B. and M. M. Trivedi. –IEEE Trans. Syst., Man, Cybern., 19. –1989. –1447-1464p.
  50. N. M. Nasrabadi. Use of Hopfield network for stereo vision correspondence // Nasrabadi, N. M., W. Li, B. G. Epranian, and C. A. Butkus. –IEEE ICSMC #2. –1989. –429-432p.
  51. Barna Resko. Camera Control with Disparity Matching in Stereo Vision by Artificial Neural Networks // Barna Resko, Peter Baranyi, Hideki Hashimoto. –Proceedings of WISES'03. -2003. –139-150с.
  52. Universite de Cergy Pontoise [Электронный ресурс]. Режим доступа: http://www.u–cergy.fr/
  53. I. Sobel. A 3x3 Isotropic Gradient Operator for Image Processing // I. Sobel, G. Feldman. –Stanford project. –1968.