Ларін Борислав Ігорович
Факультет комп'ютерних наук і технологій
Кафедра прикладної математики
Спеціальність «Програмне забезпечення автоматизованих систем»
Методи відстеження об'єктів
в розподіленій системі відеоспостереження
Науковий керівник: к.т.н., доцент Ладиженський Юрій Валентинович
Реферат
Загальна постановка проблеми
Спортивні події займають важливу частину в сучасному суспільстві. У спортивній індустрії задіяні мільйони людей по всьому світу. Щорічно витрачаються значні кошти на підготовку, проведення, забезпечення різних спортивних змагань. Спортивні досягнення підвищують престиж країни, регіону. Тому розвиток технічних засобів, які допомагають поліпшити якість підготовки спортсменів є важливим питанням для спортивних клубів, федерацій та інших організацій. Аналіз поведінки, стилю гри команди супротивника може допомогти розробити правильну тактику поведінки під час змагання.
В Україні одним з найбільш популярних видів спорту є футбол. Тому є потреба в системах, які аналізують поведінку футболістів під час футбольного матчу. Це питання вже було предметом наукових досліджень в роботах [1], [2]. Однак у цих роботах було розглянуто методи аналізу відеопотоку з однієї камери. У такого методу є значний недолік — низька точність визначення об'єктів при частковому або повному перекритті.
Вирішити цю проблему можна за допомогою використання декількох камер, що оглядає однакові ділянки поля з різних сторін. У даній роботі було проведено аналіз існуючих методів відстеження та аналізу спортивних подій за допомогою кількох камер.
Аналіз архітектури системи відстеження футболістів
У [3] надана архітектура та алгоритми, що використовують кілька камер для відслідковування рухів футболістів під час матчу. Автори прийняли деякі обмеження, які дозволяють спростити рішення задачі. Розпізнаються не конкретні гравці, а тільки приналежність їх до якої-небудь з п'яти категорій, відповідно до їх формі: польові гравці першої команди, голкіпер першої команди, польові гравці другої команди, голкіпер другої команди, рефері. Відстеження руху м'яча не розглядається.
Апаратна частина системи складається з 8 відеокамер, розташованих у різних частинах стадіону (див. рис.1), і 9 комп'ютерів, що обробляють інформацію, що надходить. Вісім з них підключені до камер, один узагальнює інформацію і генерує вихідний файл. Вихідний файл містить координати траєкторій руху виявлених об'єктів під час гри і клас, до якого вони належать.
Рис. 1 — Розташування камер AH і покриття ними футбольного поля.
Вибір місця розташування та напрямки камер визначається з урахуванням розміру та інших особливостей стадіону та вимоги найкращого огляду футбольного поля. Комп'ютер, приєднаний до відеокамери називається «Сервер Характеристик». Комп'ютер, що обробляє інформацію від Серверів Характеристик називається Трекер.
Аналіз методів систем відстеження футболістів
Робота системи (див. рис.2) організована наступним чином. Трекер посилає широкомовний запит на Сервера Характеристик. Кожен Сервер читає кадри з відповідної йому камери, визначає знаходяться в кадрі об'єкти та їх характеристики. Потім ці характеристики відправляються трекера, який інтегрує отриману інформацію в єдиний образ того, що відбувається на полі. Трекер отримує тільки обчислені Серверами характеристики, без візуальної інформації.
Зважаючи на відсутність відеоданих на трекері йому необхідно надати достатньо інформації, для того, щоб повністю відновити ситуацію на футбольному полі. Кожна характеристика, що генерується Сервером Характеристик, складається з двовимірного плану поля, обмежувальної рамки відслідковується об'єкта, похибки положення об'єкта і оцінки належності до категорії. Також передається ідентифікаційний номер Сервера Характеристик для установки зв'язків траєкторій між різними камерами.
Реалізації зв'язку трекера і Серверів Характеристик за принципом «запит-відповідь» дозволяє вирішити проблему синхронізації між усіма камерами, які є в системі. Синхронізація характеристик з різних серверів реалізується трекерів на основі тимчасових міток, які зберігаються при відправці запиту і якими відзначені всі відповіді Серверів Характеристик.
У завдання Сервера Характеристик входить отримання відеопотоку з відповідної камери, пошук змінених частин у кадрі, визначення їх характеристик та визначення категорій, до яких належать знайдені об'єкти.
Спочатку виконується визначення змін в кадрі. Початковий стан кадру генерується сумішшю гауссових наборів і відомо заздалегідь. Потім початковий стан віднімається від чергового кадру відеопотоку, що в результаті дає змінилися фрагменти кадру. Потім відбувається розпізнавання окремих об'єктів у кадрі [4]. Для цього використовується фільтр Калмана. У якості його параметрів виступають обмежувальна рамка і центроїда координат кожного гравця.
Рис. 2 — Процес передачі даних в системі відслідковування руху футболістів під час футбольного матчу
Для ізольованого об'єкта його виміри виходять відразу після вирахування фону, без застосування додаткових фільтрів Калмана, які додають похибка в модель. У таких випадках похибка вимірювання приймається константою, оскільки обчислення фону є попіксельно операцією.
Для груп гравців виміри виходять з оцінок їх положень, що веде до зростання похибки координат розташування гравця. На останньому кроці до даних про розмір об'єкта додається оцінка його категорії. Це реалізовано за допомогою методу гістограм перетину [5].
Результатом роботи Сервера Характеристик для кожного об'єкта є вектор з семи елементів. П'ять елементів позначають собою типи форми людей, що знаходяться на полі (два типи польової форми, два типи форми голкіперів і рефері). Ще один елемент відповідає об'єкту «м'яч» і останній елемент — «інше», що включає в себе шум або інші непізнані об'єкти на футбольному полі.
Для зіставлення даних про кілька гравців з декількох камер, на трекері також використовується трехшаговий алгоритм. На першому етапі знайдені характеристики зіставляються з уже певними раніше траєкторіями об'єктів і ці траєкторії оновлюються. На другому кроці створюються нові траєкторії об'єктів для тих характеристик, які не були зіставлені вже наявними траєкторіях на першому кроці. В кінці фіксовану кількість людей в кожній з категорій використовується для розпізнавання членів кожної категорії.
У [3] кожен об'єкт на поле описується станом, що включає в себе позицію на полі і прискорення, з яким рухається об'єкт в даний момент часу, а також похибкою і оцінкою належності до категорії. Стан оновлюється, якщо це можливо, злиттям вимірів з різних камер. Від однієї камери для одного виміру може бути взята максимум одна характеристика, так як в об'єктиві однієї камери одна людина (або інший об'єкт) не може бути відображений два рази. Злиття вимірів включає в себе позицію об'єкта, узагальнену похибка та узагальнену оцінку категорії. Якщо немає доступних замірів для одного з об'єктів, для оновлення стану береться його попередній стан.
Траєкторії об'єктів оновлюються вимірами з різних камер наступним чином. Для кожної камери для багатьох об'єктів і пов'язаного з ним безлічі вимірів будується асоціативна матриця. Можна використовувати різні асоціативні методи, наприклад метод найближчого сусіда, методу об'єднаних ймовірностей [6]. Потім єдиний завмер для кожного об'єкта інтегрує в себе виміри інших камер, зважені за рівнем точності оцінок кожної камери.
Після зіставлення вимірів з існуючими траєкторіями, можуть залишитися такі виміри, які не знайшли відповідної траєкторії. Всі такі заміри з різних камер попарно звіряються для пошуку нових об'єктів. Якщо відстань між вимірами двох об'єктів менше якогось граничного значення, то вважається, що знайдено новий об'єкт.
На останньому етапі, якщо визначено більше 25 об'єктів, то з них вибираються 25 найбільш правдоподібних та видаються як результат користувачеві. Ймовірність влучення в результуючий набір об'єктів залежить від тривалості відстеження об'єкта системою, оцінки категорії і тривалості перетинів з іншими об'єктами.
Можна виділити кілька зауважень з приводу роботи методу в поточній реалізації. Для коректної роботи необхідно високу якість зображення, що передається з камери. Системні помилки на декількох камерах можуть призвести до значного погіршення якості розпізнавання.
У поточній реалізації при входженні в область видимості камери двох гравців, які перекривають один одного, відбудеться розпізнавання одного об'єкта, а не двох. Подібний об'єкт, найбільш ймовірно, буде відкинутий системою, так як його ваги при злитті даних з різних камер будуть малі. Проте така поведінка в системі в будь-якому випадку буде вносити додаткову погрішність. Це можна виправити, організувавши зворотний зв'язок від трекера до Серверам Характеристик.
Ігрові моменти з великим скупченням гравців в одному місці дають неточні результати оцінок, і помилкові ініціалізації нових траєкторій, коли гравці знову розходяться з точки скупчення. У граничному випадку, такі ситуації, можливо, нерозв'язні і вимагають ручної корекції користувача.
Система зі зворотним зв'язком від центрального комп'ютера до обробникам відеопотоку розглядається в [7]. Апаратна частина, як і в [3], містить окремі комп'ютери для обробки відеопотоку з кожної камери і головний комп'ютер.
Головний комп'ютер містить інформацію про об'єкти системи, а також про те, в області видимості який камери знаходиться той чи інший об'єкт. При надходженні даних про об'єкти в наступний момент часу центральний комп'ютер оновлює стан відстежуваних об'єктів, об'єднуючи інформацію про одних і тих же об'єктах з різних камер.
Вузли, що обробляють інформацію з камер, можуть відстежувати ситуацію, коли об'єкт іде із зони видимості камери. У таких випадках вузли продовжують оновлювати дані про стеженням за об'єктом, виходячи з попередніх станів об'єкта: положення, напрями, швидкості. Однак це збільшує похибку в стан відслідковується об'єкта. Тому при втраті об'єкта із зони видимості камери, вузол повідомляє про це центрального комп'ютера. У такому разі центральний процесор перестає враховувати дані, що надходять від вузла, що втратив об'єкт. При поверненні об'єкта в зону видимості камери його стан на вузлі оновлюється згідно інформації, отриманої з відеопотоку, і центральний процесор відновлює прийняття даних про об'єкт з цієї камери.
Розглянута система для виділення різних об'єктів використовує алгоритм MPEG-7 Angular Radial Transformation [8]. Для пошуку необхідних об'єктів використовується база знань з контурами відстежуваних об'єктів. Потім знайдений об'єкт перетворюється в криві, а потім обробляється фільтром Калмана для оновлення стану об'єкта на вузлі, що обробляє інформацію з камери.
Для об'єднання даних використовується злиття станів об'єктів на основі ваг, що визначаються з похибок стану. Злиття даних можливо з використанням двох методів: сенсор-сенсор, що враховує тільки дані, що надходять від вузлів-обробників відепотока, і сенсор-система, що враховує дані від обробників, а також попередні згенеровані стану моделі.
У розглянутій системі необхідно правильно підібрати ваги при злитті даних від вузлів-обробників відеопотоку. Неправильні ваги можуть призвести до погіршення якості відстеження. У тому числі можливе отримання більш низької якості відстеження, ніж при використанні однієї камери.
Висновки
У ході аналізу архітектур і алгоритмів системи відстеження об'єктів за допомогою декількох камер було визначено, що система повинна задовольняти ряду вимог. Необхідно високоякісне відео-обладнання, яке забезпечить відсутність додаткових шумів на зображенні, висока швидкість передачі відеоданих від камери до пристрою обробки інформації. Алгоритми системи повинні ефективно пригнічувати шум, що виникає при відеозахоплення інформації і мати механізми відсіювання неправдоподібних даних у випадках неправильного розпізнавання великих скупчень об'єктів в одному місці.
Література
- Середа А. А. , Ладыженский Ю. В. . «Разработка автоматизированной системы анализа видеозаписей спортивных соревнований.» Доклад на региональной студенческой научно-технической конференции «Інформатика та комп'ютерні технології», ДонНТУ, Донецк, 2005.
- Ладиженський Ю.В. А.О. Середа «Відстежування об’єктів у відеопотоці на основі відстежування переміщення фрагментів об’єктів», Наукові праці Донецького національного технічного університету. Серія: «Обчислювальна техніка та автоматизація». Випуск 17 (148). – Донецьк : ДонНТУ, 2009. – 127-134 сс.
- Xu, M.; Orwell, J.; Lowey, L.; Thirde, D.; ‘Architecture and algorithms for tracking football players with multiple cameras’, Digital Imaging Res. Centre, Kingston Univ., Kingston Upon Thames, UK, pp. 232-241, (2005).
- Xu, M.; Ellis, T.; ‘Partial observation vs. blind tracking through occlusion’, Proc.BMVC, pp.777-786, (2002).
- Kawashiima, T.; Yoshino, K.; Aoki, Y.; ‘Qualitative Image Analysis of Group Behavior’, CVPR, pp.690-3, (1994).
- Bar-Shalom, Y.; Li, X.R.; ‘Multitarget-Multisensor Tracking: Priciples and Techniques’, YBS, (1995)
- M.K. Bhuyan, Brian C. Lovell, Abbas Bigdeli, "Tracking with Multiple Cameras for Video Surveillance," dicta, pp.592-599, 9th Biennial Conference of the Australian Pattern Recognition Society on Digital Image Computing Techniques and Applications, 2007
- Julien Ricard, David Coeurjolly, Atilla Baskurt, Generalizations of angular radial transform for 2D and 3D shape retrieval, Pattern Recognition Letters, Volume 26, Issue 14, 15 October 2005, Pages 2174-2186
- Wei Du, Jean-Bernard Hayet, Justus Piater, and Jacques Verly "Collaborative Multi-Camera Tracking ofAthletes in Team Sports", 2006, pp.2-13
- Toshihiko Misu and Seiichi Gohshi and Yoshinori Izumi and Yoshihiro Fujita and Masahide Naemura, "Robust Tracking of Athletes", 2004
Примітка
При написанні даного автореферату магістерська робота ще не завершена. Остаточне завершення: грудень 2011 Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.