Вступ
Актуальність теми
Наукова значимість роботи
Практична цінність результатів роботи
Об'єкт і предмет досліджень
Обзор исследований по теме
Індексний підхід та його застосування до проблеми стеження за рухомими об'єктами
Морфологічний аналіз динамічних сцен по відеопослідовності
Класичний підхід до детектування об'єктів
Сегментування об'єкта
Гібридна система супроводу
Висновок
Список літератури
У наш час з розвитком інтернету і ціфрововой техніки, безліч людей використовують різні пристосування, такі як фотоапарати, відеокамери та навіть мобільні телефони для того, щоб закарбувати сподобалися їм моменти їх життя на фотографіях чи відеозаписах. Однак, це можуть також бути і фільми або, наприклад, викачані з інтернет відеофайли. Але іноді якість отриманих відеопотоків залишає бажати кращого. Наприклад, відео, завантажене досить давно, коли ще не було такого прогресивного обладнання, може містити деякі, так звані, артефакти. А припустимо, глядачеві необхідно розглянути певну фігуру - регіон інтересу - на екрані в даному відео. Для цього відео буде піддано фільтрації для усунення артефактів. Але зниження кількості артефактів безпосередньо залежить з пропускною здатністю каналу передачі. Так як передавати краще по каналу з низьким бітрейтом, то саме тут і виникає потреба у виділенні регіону інтересу відеопослідовності, яка буде піддана фільтрації, в той час як інша частина зображення (наприклад, фон) залишиться з низьким бітрейтом і менш якісним уявленням.
Задача знаходження регіону інтересу у відеопослідовності дуже актуальна, оскільки з її допомогою можна незалежно обробляти необхідні ділянки відеопослідовності. Це дозволяє сконцентророваться на суттєвих істотних об'єктах і знехтувати якістю несуттєвих, таких як фон.
Наукова значимість даної роботи полягає у розробці поліпшеного методу пошуку та управління формою регіонів інтересу в відеопослідовності.
У ході виконання роботи після проведення моделювання з поліпшеним методом управління формою регіону інтересу у відеопослідовності передбачається отримати відеофайл з меншим розміром ніж, наприклад, файл, в якому так само застосовується знаходження регіону інтересу відеопослідовності, але немає реалізації управління його формою.
Об'єктом досліджень є послідовність відеокадрів, що містить регіони з різною інформаційної значимістю. Предметом досліджень є алгоритм пошуку і управління формою регіонів інтересу.
Тематика пошуку регіонів інтересу у відеопослідовності зустрічається в роботах магістрантів і співробітників ДонНТУ. Також присутні роботи по сегментації, пошуку певних об'єктів в відеоінформації. Знайти роботи можна за допомогою розділу «Посилання».
На даний момент в інтерент і не тільки представлена велика кількість робіт по темі знаходження регіонів інтересу в відеопослідовності. У даних роботах переважають алгоритми для вирішення якоїсь конкретної задачі, тобто відома безпосередньо вихідна інформація.
Задача знаходження відповідного еталона є актуальною проблемою, що знаходить практичне застосування в багатьох задачах комп'ютерного зору і, зокрема, у відеоспостереженні.
Використовуваний алгоритм розв'язання задачі знаходження відповідного еталона побудований виходячи з концепції індексного пам'яті, запропонованої А. М. Михайловим. Існує чимало алгоритмів розв'язання задачі знаходження відповідного еталона. Наприклад, запропонована модифікація Full Search підходу пов'язана з використанням результатів розгляду попередніх шаблонів. Традиційно продуктивність алгоритмів розв'язання задачі знаходження відповідного еталона порівнюється з Full Search підходом.
Також існуючі методи зниження розмірності даних, такі як хешування або кодування, серед яких можна виділити метод вейвлет, можна розглядати як способи розв'язання задачі знаходження ознак. Наприклад, за допомогою вейвлет, а розпізнавати отриманий вектор ознак за допомогою індексного пам'яті.
Рішення задачі знаходження відповідного еталона індексним методом.
Нехай ми запам'ятали Х шаблонів, при чому кожен шаблон характеризується вектором з Y властивостей. Тоді для заданого властивості y {xy} z означає множину всіх запомненних шаблонів у яких значеніесвойcтва у одно z [1].
Нехай у нас є даний об'єкт z (z - це вектор властивостей). Тоді задача знаходження відповідного еталона вирішується таким чином:
У разі якщо розподіл запомненних шаблонів за значеннями ознак рівномірно з шириною Z, то економія обчислень у порівнянні з Full Search підходом складає в Z раз.
У стандартних морфологічних методах розглядається безліч V всіх зображень, одержуваних від даної сцени при всіх можливих умовах спостереження, і правило впізнавання сцени (чи об'єкта сцени) на пред'явленому зображенні f полягає в перевірці його приналежності цій безлічі: f є V означає, що зображення f можна отримати від заданої сцени за деяких умов реєстрації. Якщо зображення розглядається як елемент деякого метричного простору, то перевірка умови f є V може бути вирішена в термінах проекції P f V зображення f на безліч V. Проекція P f V визначається як зображення з безлічі V, найбільш близьке до f. Рівність f P f = V еквівалентно включенню f є V. Успішне застосування морфологічних методів обумовлені існуванням конструктивного правила обчислення проекції P f V для ситуацій, коли сцена на різних зображеннях з V представлена у тому ж ракурсі. Множина V (або опеерація PV проектування на нього) називається «формою зображення сцени»
При побудові проектора PV (t) використовується математична модель відеопослідовності, враховує, що умови зміни освітлення не можуть істотно змінитися, а фрагменти поля зору, що зображують рухомі об'єкти сцени, не можуть істотно зміщуватися за час між двома кадрами.
На основі алгоритму обчислення проектора PV (t) розроблені методи аналізу динамічних сцен по відеопослідовності, зокрема - методи стеження за рухомим і змінюються об'єктом на змінюваному фоні.
Для стеження за таким об'єктом послідовно вирішуються наступні завдання:
1. Виділення нових об'єктів шляхом виділення відмінностей поточного отриманого зображення від зображення фону.
2. Визначення «області інтересу », засноване на аналізі розмірів нових
об'єктів і швидкості їх переміщення.
3. Пошук нового місця розташування об'єкта.
4. Оновлення моделі форми об'єкта.
5. Обновление модели формы фона.
Загальний алгоритмічний підхід до детектування рухомих об'єктів полягає в аналізі відмінностей між поточним кадром і моделлю фону.
Спрощено, цей підхід називається відніманням фону (background subtraction). Належність пікселя до об'єкту (або до тла) визначається
на основі відхилення значення (яскравості) піксела в поточному кадрі від його статистичної оцінки в моделі фону. Відомо безліч методів
моделювання фону зображення. Найбільш поширені методи біжить гауссовского середнього (running Gaussian average) і гауссовой
суміші (mixture of Gaussians):
1. Метод біжить середнього успішно працює в стерильних умовах, коли фон залишається нерухомим.
У разі глобального мінливого фону, наприклад, рухи лісу, чагарників і води, одномодальний модель не дозволяє ефективно
виявляти чужорідні об'єкти.
2. Метод гассовской суміші є багатомодальною і дозволяє більш точно описувати статистику мінливого фону.
Однак, при моделюванні окремих пікселів, а не їх патернів, він не забезпечує помітного приросту в точності детектування.
При цьому метод гауссовской суміші є істотно ресурсоємним, ніж біжить середнє, і зазвичай не вписується в рамки
обчислювальних можливостей вбудованого процесора.
На етапі сегментації, окремі пікселі, виділені з фону, об'єднуються в регіони за допомогою морфологічних операцій. Регіони, відповідні заданим габаритам і формі, можна вважати цільовими об'єктах. Як правило, саме фаза морфологічного аналізу становить найбільші обчислювальні витрати. Складність аналізу нелінійно зростає зі збільшенням площі регіонів та їх кількості.
Маска об'єкта, що розраховується сегментатор, корисна для обчислення ознак об'єкта, для його супроводу і для більш точного моделювання фону.
Cущественним недоліком класичного підходу є висока ресурсомісткість морфологічних операцій на етапі визначення маски регіонів.
Багатомасштабний підхід дозволяє істотно підвищити обчислювальну ефективність відеоаналітікі за рахунок обмеження глибини сегментування
і / або використання моделі форми об'єкта. При цьому габарити детектіруемих об'єктів, які можуть істотно варіюватися в полі зору камери,
не будуть значно впливати на обчислювальні витрати алгоритму.
У ході зворотного поширення сигналу, формується багатомасштабних маска регіону. Сегментування здійснюватися від грубої до детальної масці,
причому процес можна перервати після досягнення бажаного рівня деталізації або після вичерпання квоти обчислювальних ресурсів. Вхідними даними
є маска з попереднього регіону, різниця ознак поточного кадру і моделі фону на поточному шарі, а так само, опціонально, модель Детектируемая
об'єкта. Вихідними даними є маска регіону на поточному шарі. На кожному пікселі проводиться уточнення маски на основі методу зв'язування в піраміді.
На рис. 1 представлений результат роботи багатомасштабного сегментатор на базі методу зв'язування в піраміді за кількома ознаками: зверху - вихідний кадр,
оброблюваний відеоаналітікі з траєкторією супроводжуваного людини; нижче - чотири шари маски сегментування. Маски містять незначні помилки у вигляді
точок і неточних кордонів, обумовлені обчислювальної оптимізацією морфологічних операторів [2].
Рисунок 1 - Багатомасштабний сегментування: вихідне зображення і маски зі зростаючою деталізацією
Алгоритми супроводу (трасування) дозволяють отримати траєкторію об'єктів для більш точного розпізнавання та оцінки динамічних ознак.
У класичних реалізаціях вбудованої аналітики популярні наступні алгоритмічні підходи:
1. Об'єднання регіонів, визначених детектором, в часі на багато послідовних кадрів дозволяє розрахувати шукану траєкторію руху об'єкта. Це найпростіший метод з точки зору реалізації. Основний його недолік полягає в тому, що помилки детектора регіонів призводять до небажаним розривів траєкторії. Так само, метод не дозволяє супроводжувати об'єкти в групі і збивається при появі помилкових регіонів. При повільному русі або зупинці, об'єкти «вростають»у фон, і алгоритм супроводу втрачає мету.
2. Кореляційні методи передбачає побудову статистичної моделі не тільки фону, але і об'єкта. Розрахунок ступеня схожості об'єкта в різних точках околиці об'єкту дозволяє визначити найбільш ймовірне його положення. Перевагою такого підходу щодо порівнювання з першим є можливість супроводу частково перекриваються об'єктів у групі, а так само більш стійка робота зі слабоконтрастних або повільними об'єктами. Основний недолік - істотно вища ресурсомісткість. Кореляційні методи неефективні при низькій частоті кадрів і сильною мінливості супроводжуваних об'єктів.
3. Оптичний потік спирається на припущення, що висвітлення постійно, а форма і текстура фону і супроводжуваного об'єкта не міняються. Метод оптичного потоку з обчислювальної точки більш ефективний, ніж кореляційної метод, але поступається йому по стабільності в умовах шуму і мінливості об'єкта.
Рисунок 2 - Супровід мінливого об'єкта за допомогою алгоритму зв'язування регіонів
Розглянемо гібридний метод. З одного боку, аналіз тимчасового ряду знайдених регіонів дозволяє ефективно супроводжувати ізольовані об'єкти, в тому числі, які значною мірою змінюють форму (рис. 2). З іншого боку, кореляційний метод дозволяє супроводжувати об'єкти в групі (рис. 3) або коли детектор не володіє достатньою чутливістю для знаходження регіонів.
Об'єднання результатів роботи алгоритмів виробляється шляхом вибору найбільш вірогідною оцінки положення об'єкту. Для таких підходів основою для оцінки служить контрастність регіону на фоні і значення кореляції ознак по площі об'єкту. Забороняється при взаємному перекритті супроводжуваних об'єктів.
Багатомасштабного маски і ознак об'єкту дозволяє істотно підвищити обчислювальну ефективність кореляційного алгоритму і збільшити радіус пошуку, тобто вирішує проблеми апертури [2].
Рисунок 3 - Індивідуальне супроводження об'єктів у момент зустрічі (вгорі) і після зустрічі (унизу) за допомогою кореляційного алгоритму. Фрагмент відео з PETS
З наведеного вище матеріалу видно, що існує велика кількість підходів для знаходження регіонів інтересу у відеопослідовності і його обробці. Хоча набір методів не вичерпний, вони є характерними представниками техніки виділення регіонів інтересу видеопоследовательностей.
1.Техническое зрение в системах управления 2011 (тезисы докладов) [Электронный ресурс] - http://tvcs2011.technicalvision.ru/docs/Abstracts2011.pdf
2.Птицын Н. - Встроенная видеоаналитика для детектирования и сопровождения объектов при помощи многомасштабных признаков (ГрафиКон 2010) [Электронный ресурс] - http://synesis.ru/ru/surveillance/articles/multiscale-va
3.Журавель И. М. - Основные процедуры захвата изображений [Электронный ресурс] - http://rrc.dgu.ru/res/matlab/imageacquis/book1/2.html
4.Субботин С.А., Бойченко К.Ю. - Автоматическая система обнаружения и распознавания автотранспортных средств на изображении [Электронный ресурс] - http://www.swsys.ru/index.php?page=article&id=2448
5.Назиров Р.Р., Грищин В.А. - Техническое зрение в система управления 2011 [Электронный ресурс] - http://tvcs2011.technicalvision.ru/docs/Abstracts2011.pdf
6.Обзор форматов качества видео [Электронный ресурс] - http://en.wikipedia.org/wiki/Video_quality
7.Востров Г.М., Монастырский О.В., Полторак Д.М. - Анализ потерь при компрессии видеопоследовательностей и методов их устранения. [Электронный ресурс] - http://www.library.ospu.odessa.ua/online/periodic/opu_2004_1(21)/4/4-8.pdf
8.Обзор характеристик потокового видео [Электронный ресурс] - http://en.wikipedia.org/wiki/Video#Characteristics_of_video_streams
9.Фаворская М.Н. - Модели и методы распознавания динамических образов на сонове пространственно-временного анализа последовательностей изображений [Электронный ресурс] - http://research.sfu-kras.ru/sites/research.sfu-kras.ru/files/Favorskaya_Favorskaya__11.pdf
10.Савченко Д.А. - Исследование методов сегментации изображений [Электронный ресурс] - http://masters.donntu.ru/2010/fknt/savchenko/diss/index.htm