АРХИТЕКТУРА И АЛГОРИТМЫ ДЛЯ ОТСЛЕЖИВАНИЯ ФУТБОЛИСТОВ С НЕСКОЛЬКИХ КАМЕР

Ming Xu, Liam Lowey, James Orwell

Перевод с английского: Галиакберов Р.А.

Источник: http://citeseerx.ist.psu.edu/


Краткий обзор

Представлена архитектура системы и метод для отслеживания людей для применения в спорте. На входе системы - видеоданные от статических камер с перекрывающимися полями представления на футбольном стадионе. На выходе - реальные, позиции в реальном времени футболистов во время матча. Система включает две стадии обработки, работающие на данных от единственной камеры и затем нескольких камер. Организация обработки разработана, чтобы достигнуть достаточной синхронизации между камерами, используя образец запрос-ответ, вызванный вторым этапом отслеживания. Обработка единственного представления включает обнаружение изменений в результате адаптивного отслеживания фона и плоскости изображения, чтобы улучшить надежность измерений перекрытых игроков. Процесс мультипредставления использует средства отслеживания Кальмана, чтобы смоделировать позицию игрока и скорость, с которой связаны многократный измерительный ввод от этапа единственного представления. Результаты демонстрируются на реальных данных.

1. Введение

Эта работа представляет архитектуру, и метод, чтобы позволить отслеживать множество людей при помощи нескольких камер. Вывод приложения - позиции игроков и мяча во время футбольного матча. Этот вывод может использоваться для развлечения или анимации игры при низкой пропускной способности для веб-или беспроводного дисплея; и также для анализа пригодности и тактики команд и игроков.
Наша система использует восемь цифровых видеокамер, статически расположенных вокруг стадиона, и калиброванную к плоскости систему координат, используя алгоритм Тсая. Используется двухэтапная архитектура обработки. Детали этой архитектуры представлены в Разделе 2. Первая стадия обработки - извлечение информации из потоков видео о игроках, наблюдаемых каждой камерой. Это описано в Разделе 3. Данные от каждой камеры поступают к центральному процессу отслеживания, описанному в Разделе 4, чтобы обновить оценки состояния игроков. Это включает оценку, какую из пяти возможных форм носит каждый игрок (две команды, два вратаря, и три рефери). Вывод от этого центрального процесса отслеживания - 25 позиций игрока на такт. Средство отслеживания указывает на категорию (команда) каждого игрока, и поддерживает корректное число игроков в каждой категории. Идентификация индивидуальных игроков не возможна учитывая разрешение входных данных, таким образом, распознается только команда. Методы отслеживания мяча выходят за рамки этой статьи.

2. Архитектура системы

На этапе обработки видеоданных используются трехэтапный подход чтобы генерировать функции. Каждая функция состоит из 2-D позиции, ее пространственной ковариации, и оценки категории. Каждая камера будет соединена с процессором, названным ‘Сервером Функции’, отражая его позицию в общей архитектуре. Функции собраны и синхронизируются централизованным 'Средством отслеживания' и должным образом обрабатываются, чтобы генерировать модель игры (состояние) в установленное время. Это игровое состояние передают через фазу маркировки, которая генерирует вывод в XML, который используется сторонними приложениями, чтобы предоставить результаты соответствующим целевым аудиториям.
2.1 Физическое расположение системных компонентов
Камеры расположены вокруг стадиона и соединены с восьмью ‘Серверами Функций’ через сеть волоконной оптики (см. рис. 1). Позиции камер выбираются на выбранном стадионе с учетом требований, чтобы достигнуть оптимального представления футбольного матча.
Каждое оптоволокно завершается в расположении, которое содержит все аппаратные средства обработки (восемь серверов функции и единственное средство отслеживания), где цифровое видео интерпретируется в применимые потоки изображения. ‘Серверы Функции’ соединены с аппаратными средствами 'средства отслеживания', используя IP сеть Ethernet, которая используется, чтобы передать и синхронизировать сгенерированные функции. Эта конфигурация физического расположения компонентов продиктована требованием минимизировать работу по установке на стадионе. Если бы то требование не было настолько важно, то требования пропускной способности могли бы быть значительно уменьшены, определяя местоположение ‘Серверов Функций’ рядом с камерами. Затем, только функции нуждались бы в переносе к стадии обработки 'Средства отслеживания': это могло быть достигнуто с регулярным или даже беспроводным Ethernet, а не оптоволокном.
2.2 Архитектура запрос-ответ
Механизм 'запрос-ответ' выбран, чтобы передать Функции от ‘Серверов Функций’ до Средства отслеживания. Это решает несколько проблем, связанных с управлением восемью одновременными потоками данных через сеть. Средство отслеживания ответственно за организацию процесса, которым Серверы Функции генерируют свои Функции. Каждая итерация (фрейм) процесса принимает форму запроса, выпущенного Средством отслеживания в установленный срок. Серверы Функции отвечают, беря последний фрейм в видеопотоке, при обработке этого фрейма и при передаче результирующих Функций назад к Средству отслеживания. Синхронизация Функций подразумевается, поскольку Средство отслеживания записывает время запроса.
2.3 Формат данных функции
У второго этапа ('Средство отслеживания') процесса нет доступа к видеоданным, обработанным в первой стадии. Поэтому, данные 'Функции' должны включать все, что требуется компонентам второго этапа генерировать надежную оценочную позицию для людей (и мяча). Состав Функции таким образом диктует требования второго этапа процесса. Процесс, описанный в разделе 4, требует ограничивающего прямоугольника, предполагаемого в основой плоскости расположения и ковариации, и оценки категории (определенный как вектор с семью элементами, подведение итогов и соответствие пяти различным универсальным формам, мячу и 'другому'). Также включена дополнительная информация, например, тег ID индикатора видимости, так, чтобы мультииндикатор видимости мог реализовать ассоциацию данных[2]. Шаблоны разработки стандартного программного обеспечения используются, чтобы управлять процессом передачи этих Функций к аппаратным средствам 'Средства отслеживания', управляя процессом сериализации к и от потока байтов (Сокет UDP). Это решает задачу обеспечения совместимости между различными платформами.
2.4 Настройка сервера функций
Каждый из компонентов программного обеспечения требует конфигурации, является ли это простой инструкцией или сложным файлом данных (например, калибровка камеры). Вместе с комбинацией восьми Серверов Функции восьми Камер и единственного Средства отслеживания этот процесс будет трудным для человека. Поэтому, необходима центрально управляемая система. Был разработан сетевой протокол, базирующийся на сообщениях, чтобы управлять и конфигурировать операции различных компонентов. Этот протокол также окажет поддержку для других операций, таких как извлечение изображения для калибровки камеры.


Рисунок 1: Архитектура системы.


3. Шаги обработки сервера функции

Сервер Функций использует три шага, чтобы генерировать функции, как показано в Рис. 1. Каждая Функция состоит из 2-D плоской основой позиции, ее пространственной ковариации, и оценки категории.

3.1 Обнаружение переднего плана

Первый шаг - ‘Обнаружение Изменения’, основанное на различиях изображений, ее вывод - соединенные области переднего плана (Рис. 2, верх). Начальный фон используется рабочим алгоритмом для быстрого обновления. Если k F является приоритетной двоичной картой во время k, то фон обновляется с изображением y как:



3.2 Отслеживание представлений

Второй шаг - локальный процесс отслеживания [8], чтобы разделить функции сгруппированных людей. Ограничивающий прямоугольник и центроидные координаты каждого игрока используются в качестве состояния и измерительных переменных в фильтре Кальмана:



Как описано в [8], предполагается, что у каждой цели высота и широта меняется медленно. Как только некоторый край ограничения цели найден, ее противоположность, неразличимый край ограничения может быть примерно оценен (Рис. 2). Поскольку оценка обновляется, используя частичные измерения всякий раз, когда доступно, это более точно чем использование только прогноза.



Рисунок 2: Два игрока объединяются и разделяются


Для изолированного игрока измерение изображения поступает непосредственно из области переднего плана, которая предотвращает ошибки оценки, накапливающиеся в иерархии фильтров Кальмана. Мы предполагаем, что измерительная ковариация является постоянной, потому что приоритетное обнаружение — работа с пикселями. Для сгруппированного игрока измерение вычислено от оценки и увеличений ковариации.



Рисунок 3: Индикатор видимости выведен для всех восьми камер.


3.3 Оценка категорий

Заключительный шаг добавляет к каждому измерению оценку категории. Это реализовано, используя метод [5] пересечения гистограммы.


4. Представление нескольких объектов, отслеживание нескольких человек

Для процесса отслеживания мультипредставления предложен метод отслеживания игрока в три шага. Первый шаг должен связать измерения к установленным дорожкам, и обновить эти дорожки. Второй шаг должен инициировать дорожки для измерений, несогласованных с любыми существующими дорожками. Наконец, фиксированная совокупность каждой категории игроков (десять игроков и один вратарь на команду, три рефери) используется, чтобы распознать элементы в каждой категории.

Если есть больше чем 25 целей в модели, то выбираются 25 наиболее вероятных дорожек, чтобы быть выведенными как позиции игроков. Целевая мера по вероятности вычисляется, используя целевую долговечность, оценку категории, и продолжительность слияния с другими целями. Быстрый субоптимальный поисковый метод дает разумные результаты.

5. Результаты

Двухэтапный метод, описанный в общих чертах в этой статье, может быть успешно продемонстрирован на нескольких записанных матчах. Система устанавливается и скоро будет доступна для тестирования.

Система работает как запланировано и дает разумно надежные и точные результаты. В настоящий момент предпринимается работа по обеспечению количественной оценки этих результатов.


Литература

  1. T. Bebie and H. Bieri, ‘SoccerMan: reconstructing soccer games from video sequences’, Proc. ICIP, pp. 898-02, (1998).

  2. Y. Bar-Shalom and X. R. Li, Multitarget-Multisensor Tracking: Priciples and Techniques, YBS, (1995).

  3. A. Criminisi, I. Reid, and A. Zisserman, “A plane measuring device,” Proc. BMVC, (1997).

  4. S. S. Intille and A. F. Bobick, ‘Closed-world tracking’, Proc. ICCV, pp. 672-678, (1995).

  5. T. Kawashima, K. Yoshino, and Y. Aoki, ‘Qualitative Image Analysis of Group Behaviour’, CVPR, pp. 690-3, (1994).

  6. Y. Seo, S. Choi, H. Kim and K. S. Hong, ‘Where are the ball and players?: Soccer game analysis with color-based tracking and image mosaick’, Proc. ICIAP, pp. 196-203, (1997).

  7. R. Tsai, ‘An efficient and accurate camera calibration technique for 3D Machine Vision’, Proc. CVPR, pp. 323-344, (1986).

  8. M. Xu and T. Ellis, ‘Partial observation vs. blind tracking through occlusion’, Proc. BMVC, pp. 777-786, (2002).