Встроенная видеоаналитика для детектирования и сопровождения объектов при помощи многомасштабных признаков |
Embedded video analytics for object detection and tracking using multiscale features
1. ВступлениеАвтоматизация обработки поточного видео в системах охранного телевидения является актуальной научно-инженерной задачей. Видеоаналитикой называются программное обеспечение на базе алгоритмов машинного зрения, которое позволяет детектировать, сопровождать, классифицировать и/или идентифицировать подвижные объекты в поле зрения видеокамеры без участия оператора [1], с. 287-312. Перспективным направлением видеоаналитики является встраивание алгоритмов непосредственно в камеру или ip-устройства [2]. По сравнению с серверной реализацией, встроенная аналитика обрабатывает видеосигнал без искажений, вносимых цифровым или аналоговым каналом связи. Такая встроенная обработка видео на более высоком разрешении и с большей частотой кадров потенциально обеспечивает более высокую точность распознавания.С другой стороны, известные алгоритмы видеоаналитики достаточно сложно адаптировать для встроенной реализации в камерах массового производства из-за их вычислительной сложности. Аппаратные ресурсы однокристальной платформы камеры (набор процессорных команд, тактовая частота и размер памяти) лимитированы из-за ограничений по тепловыделению и стоимости. Таким образом, необходима разработка принципиально новых алгоритмов с большей вычислительной эффективностью, особенно, если в камере используется сенсор высокой четкости. Главная задача встроенной аналитики – обеспечить первичное обнаружение и сопровождение целевого объекта в поле зрения камеры. Результатом работы такой аналитики являются координаты, траектория движения и признаки объектов. Другие задачи, такие как уточняющая классификация, идентификация и межкамерное сопровождение могут быть эффективно выполнены на стороне сервера. 2. Классический подход к детектированию объектовОбщий алгоритмический подход к детектированию подвижных объектов состоит в анализе различий между текущим кадром и моделью фона. Упрощенно, этот подход называется вычитанием фона (background subtraction). Принадлежность пикселя к объекту (или к фону) определяется на основе отклонения значения (яркости) пиксела в текущем кадре от его статистической оценки в модели фона (см. видео). Известно множество методов моделирования фона изображения [3]. Наиболее распространены методы бегущего гауссовского среднего (running Gaussian average) и гауссовой смеси (mixture of Gaussians):
На этапе сегментирования, отдельные пикселы, выделенные из фона, объединяются в регионы при помощи морфологических операций [4], с. 481-495. Регионы, соответствующие заданным габаритам и форме, можно считать целевыми объектам. Как правило, именно фаза морфологического анализа составляет наибольшие вычислительные затраты. Сложность анализа нелинейно возрастает с увеличением площади регионов и их количества. Основные проблемы встроенной аналитики на базе классического подхода состоят в следующем:
3. Новый алгоритм3.1 Нейробиологический механизмИдея предлагаемого алгоритма заимствована у природы, где эволюция нервной системы живых существ достигла выдающихся результатов в области видеоанализа [5]. Рассмотрим функциональную схему первичной зрительной коры V1 (рис. 1), развитой, в частности, у приматов и человека. Нейронная сеть состоит из клеток двух типов:
, где – выходной сигнал в точке , – весовой коэффициент (ядро свертки) в окрестной точке , – входной сигнал в точке . Рис 1: Обработка изображения в первичной зрительной коре: черточки – признаки, соответствующие направленным фильтрам; S1, S2 – слои простых клеток; C1, C2 – слои сложных клеток; сплошная синяя линия – взвешенное суммирование; штриховая зеленая линия – операция выбора максимума. На входе нейронной сети исходное изображение с сетчатки глаза обрабатывается простыми клетками S1. Простые клетки реализуют направленную фильтрацию, которая выделяет границы определенных ориентаций. Задача направленного фильтра – выделить характерные признаки изображения, инвариантные к освещению. На рис. 1 показано четыре направления: горизонтальное, вертикальное и два диагональных. В области машинного зрения широко применяются аналогичные детекторы границ на базе градиента [4], с. 315-338. На уровне сложных клеток C1 происходит группировка простых клеток S1 по каждому направлению и выделение максимального значения. Сложная клетка обладает избирательностью по признаку и обеспечивает инвариантность относительному смещения входного нейрона в окрестности группировки. На уровне простых клеток S2 производиться взвешенное суммирование выходов сложных клеток C1. В результате суммирования сигналов по различным признакам с уровня S2 получаются композитные признаки, объединяющие локальные данные по нескольким направлениям. Они похожи на признаки Хаар, но за счет предшествующего слоя сложных клеток лучше обобщают деформируемые формы. На уровне сложных клеток C2 опять применяется нелинейная операция max, причем группируются не только выходы предшествующего уровня S2 (инвариантность позиции), но и выходы еще более нижнего слоя C1 (инвариантность масштаба). Таким образом, на уровне C2 простые и сложные признаки объединяются для достижения инвариантности и по смещению и по масштабу одновременно. С другой стороны, важными особенностями клеток зрительной коры является (1) нелинейное поведение во времени и (2) нелинейная передача контраста [6]. Остановимся подробнее на особенности (2): нелинейное преобразование контраста выражается в насыщении (операция saturate) выходного значения признака на определенном уровне, что обеспечивает его нормирование в условиях неравномерной контрастности. Насыщение проявляется как у простых, так и сложных клеток. Уравнение Нака-Руштона (Naka-Rushton) аппроксимирует передаточную характеристику насыщения (рис. 2): , где значение признака на входе клетке, – точка полунасыщения (на рис. ), – значение на выходе клетки, – максимальное выходное значение. Передаточную характеристику можно так же рассматривать как функцию активации нейрона.
Отметим следующие особенности зрительной коры V1 для их последующей адаптации к машинной видеоаналитике:
Операции max и sum применяются поочерёдно и итерационно. Композиция множества двух простых операций (линейной и нелинейной) порождает высокую сложность системы видеоанализа в целом. Похожий прием используются в блочных алгоритмах шифрования для достижения максимальной диффузии данных внутри блока за минимальное число арифметических операций. 3.2 Многомасштабное представлениеМногомасштабный подход [4], с. 125-142, уже успешно применялся для детектирования движения [7] и сегментирования сложных сцен [8]. Однако, указанные алгоритмы сегодня не пригодны для массового применения в камерах видеонаблюдения из-за их вычислительной сложности. В данной работе мы рассматриваем подходы, которые позволяют снизить ресурсоемкость алгоритмов на несколько порядков и применить алгоритмы в системах встроенного видеоанализа. Рассмотрим многомасштабное представление одного признака (простого или композитного) в виде пирамиды на рис. 3. Таких пирамид может быть несколько для каждого признака, а так же для маски сегментирования и других вспомогательных данных. Рис 3: Две фазы многомасштабного видеоанализа: x, y – пространственные координаты изображения, s – пространство масштаба. Оптимальный алгоритм встроенной видеоаналитики включает две фазы обработки многомасштабных данных:
В ходе прямого распространения каждый последующий слой пирамиды вычисляется при помощи простых линейных и нелинейных операций, рассмотренных выше. Операция sum может выступать аналогом операции reduce при построении гауссовой пирамиды [4], с. 137. Операция max усиливает характерные признаки и не дает им «размываться» в пирамиде, а так же, как обсуждалось выше, обеспечивает инвариантность относительно сдвига и масштаба. Операция saturate важна для устойчивой работы детекторы в условиях неравномерной освещенности и шума. Оптимальный набор признаков и последовательность применения операций sum, max и saturate зависит от конкретных функций, выполняемой встроенной аналитикой:
На рис. 2 представлен результат применения машинного видеодетектора с использованием трех признаков (яркость и два насыщенных градиента). Алгоритм уверено регистрирует уток на изменчивом фоне (водная рябь с контрастными отражениями). Использованы одномодальная вероятностная модель фона, многомасштабный сегментатор, описанный ниже, и примитивный алгоритм сопровождения (связывание регионов в траекторию без построения статистической модели объекта). Рис 4: Сопровождение уток на изменчивом и контрастном фоне. Полное видео можно посмотреть по адресу http://www.youtube.com/watch?v=PmJTnClUjYw 3.3 Сегментирование объектаМаска объекта, рассчитываемая сегментатором, полезна для вычисления признаков объекта, для его сопровождения и для более точного моделирования фона. Как было отмечено выше, существенным недостатком классического подхода является высокая ресурсоемкость морфологических операций на этапе определения маски регионов. Многомасштабный подход позволяет существенно повысить вычислительную эффективность видеоаналитики за счет ограничения глубины сегментирования и/или использования модели формы объекта. При этом габариты детектируемых объектов, которые могут существенно варьироваться в поле зрения камеры, не будут значительно влиять на вычислительные затраты алгоритма. Рассмотрим подробнее предлагаемый алгоритмический подход. В ходе обратного распространения сигнала в пирамиде (рис. 3), формируется многомасштабная маска региона. Сегментирование производиться от грубой к детальной маске, причем процесс можно прервать после достижения желаемого уровня детализации или после исчерпания квоты вычислительных ресурсов. Входными данными являются маска с предшествующего региона, разность признаков текущего кадра и модели фона на текущем слое, а так же, опционально, модель детектируемого объекта. Выходными данными является маска региона на текущем слое. На каждом пикселе производится уточнение маски на основе метода связывания в пирамиде [4], с. 433-436. На рис. 5 представлен результат работы многомасштабного сегментатора на базе метода связывания в пирамиде по нескольким признакам: сверху ‑ исходный кадр, обрабатываемый видеоаналитикой с траекторией сопровождаемого человека; ниже ‑ четыре слоя маски сегментирования. Маски содержат незначительные ошибки в виде точек и неточных границ, обусловленные вычислительной оптимизацией морфологических операторов. Рис 5: Многомасштабное сегментирование: исходное изображения и маски с увеличивающейся детализацией 3.4 Гибридная система сопровожденияАлгоритмы сопровождения (трассирования) позволяют получить траекторию объектов для более точного распознавания и оценки динамических признаков. В классических реализациях встроенной аналитики популярны следующие алгоритмические подходы:
Рис 6: Сопровождение изменчивого объекта при помощи алгоритма связывания регионов Более подробно методы сопровождения объектов в видеопотоке описаны в книге [4], с. 375-412. В настоящий работе мы предлагаем гибридный метод на основе подхода (1) и (2). С одной стороны, анализ временного ряда найденных регионов позволяет эффективно сопровождать изолированные объекты, в том числе, которые значительно меняют форму (рис. 6). С другой стороны, корреляционный метод позволяет сопровождать объекты в группе (рис. 7) или когда детектор не обладает достаточной чувствительностью для нахождения регионов. Объединение результатов работы алгоритмов на базе подходов (1) и (2) производится путем выбора наиболее вероятной оценки положения объекта. Для подхода (1) основой для оценки служит контрастность региона на фоне, а для подхода (2) – значения корреляции признаков по площади объекта. Подход (1) запрещается при взаимном перекрытии сопровождаемых объектов. Многомасштабное представление маски и признаков объекта позволяет существенно повысить вычислительную эффективность корреляционного алгоритма и увеличить радиус поиска, то есть решает проблемы апертуры [4], с. 379. Рис 7: Индивидуальное сопровождение объектов в момент встречи (наверху) и после встречи (внизу) при помощи корреляционного алгоритма. Фрагмент видео из PETS [9] . 3.5 Псевдокод конвейера видеоаналитикиНиже представлен псевдокод конвейера разработанной видеоаналитики. Он описывает алгоритм обработки одного кадра видеопоследовательности. Псевдокод 1 Цикл обработки одного кадра Получить исходное изображение I
Точность и ресурсоемкость алгоритма контролируются за счет частоты кадров (допускается частичный пропуск), разрешения входного кадра, глубины сегментирования, области детектирования, области сопровождения, радиуса поиска корреляционного метода и др. настройками. 4. Аппаратнно-программная реализацияВидеоаналитическое обеспечение для детектирования и сопровождения объектов на базе алгоритма, приведенного в разделе 3.5, реализовано на двух аппаратных платформах: (1) x86 c использованием инструкций SSE2 для тестирования и (2) на сигнальном процессоре для встраивания непосредственно в камеру или видиоэнкодер (рис. 8). Отлажено серийное производство оборудования с разработанной аналитикой. Алгоритмы работают на всех платформах в реальном масштабе времени на разрешении от 240 линий (стандартная четкость) до 1080 линий (высокая четкость).
Рис 8: Однокристальная реализация видеоаналитики на платформе Texas Instruments DaVinci TMS320DM6467. Размер платы, 80 х 55 х 14 мм, соответствует габаритам банковской карты. 5. Методика и результаты испытанийВнутренние испытания видеоаналитики проводилось на специальном стенде. Разработано аппаратно-программное обеспечение для автоматического тестирования видеокамер и видеосерверов со встроенной аналитикой. В качестве исходных материалов для тестирования использовалось видео, записанное с реальной системы уличного видеонаблюдения. Набор видеосюжетов соответствует сценарию «стерильная зона» [10] и содержит:
Набор видеосюжетов состоит из фрагментов, записанных в различное время года, суток, а так же при различных погодных условиях. Суммарная продолжительность видео – около 38 часов. Источник – стандартная камера с сенсором CCD и аналоговым выходом PAL (720 x 576 x 25 кадров/с). Цифровой формат хранения видео MJPEG, поток данных избыточный – 40 Мбит/c – что максимально приблизило качество записанного и «живого» сигналов. Табл. 1 Точность видеоаналитики по сценарию "стерильная зона"
Разметка видеосюжетов производилось независимой группой специалистов в области безопасности и видеонаблюдения. Эксперты отмечали на видео моменты появления и исчезновения нарушителя. Аналогично были отмечены ситуации для потенциальных ложных срабатываний, что позволило эффективно классифицировать ошибки в процессе отладки. Экспертная разметка или метаданные, были записаны для каждого видеосюжета в формате XML для гибкого программирования текстов при помощи скриптовых языков. Настройки алгоритмов, за исключением, калибровки глубины и области интереса, для всех видеосюжетов были идентичны. Не допускалась «подгонка» параметров алгоритмов, таких как чувствительность, под конкретные видеосюжеты. Видеодетектор должен был зарегистрировать нарушение в течение 10 секунд. Опозданием считалось пропуском нарушения, то есть ложноотрицательным срабатыванием (счетчик с). Повторное детектирование после разрыва траектории считалось ложноположительным срабатыванием (счетчик b). Таким образом, настоящий тест позволил оценить качество не только детектора, но и системы сопровождения. Внутреннее тестирование показало идентичные результаты на платформе x86 и на сигнальном процессоре:
Точность по сценарию «стерильная зона» рассчитана по методике i-LIDS [10]. Расчет приведен в табл. 1. Значения взвешенной средней точности для ролей оперативная тревога и записи событий совпали и оказались идеальными: F1=1.000. Видеоаналитика так же прошла внешнее независимое тестирование на другом наборе видеосюжетов, неизвестном разработчикам. Значения взвешенной средней точности для ролей оперативная тревога и записи событий составили F1=0.997. Значение точности, усредненное по результатам внутреннего и внешнего тестирования, составляет F1=0.999. 6. ЗаключениеВ статье представлен пример успешной адаптации нейробиологического механизма живого организма к интеллектуальным устройствам охранного телевидения. Разработаны и внедрены новые алгоритмы видеоанализа для детектирования уличного движения, сегментирования гибридного сопровождения. Отличительной особенностью разработанных алгоритмов является использование многомасштабных признаков в виде пирамиды. Применение сразу нескольких пирамид признаков позволило одновременно отказаться от ресурсоемких алгоритмов многомодального вероятностного моделирования фона и повысить точность детектора. Точность автоматического распознавания ситуаций на оборудовании серийного производства по сценарию «стернальная зона» составляет F1=1.000 по результатам внутреннего испытания и F1=0.997 по результатам независимого испытания на базе методики i-LIDS. Перспективными направлениями для дальнейшей работы являются исследование композитных признаков и реализация на базе них более точной классификации объектов. 7. Литература[1] Fredrik Nilsson. Intelligent network video. Understanding modern video surveillance systems, CRS Press, 2009 [2] Птицын Н.В. Встроенная видеоаналитика: ближайшие перспективы, Системы безопасности, №2, 2010, с.80-83, http://www.secuteck.ru/imag/ss-2-2010/ [3] Massimo Piccardi, Background subtraction techniques: a review, IEEE International Conference on Systems, Man and Cybernetics, 2004, p. 3099-3104, http://www.utsydney.cn/www-staffit/~massimo/BackgroundSubtractionReview-Piccardi.pdf [4] Bernd Jähne. Digital image processing, 5th revised and extended edition, Springer, 2002, http://books.google.com/books?id=qUeecNvfn0oC&lpg=PP1&dq=Bernd%20J%C3%A4hne.%20Digital%20image%20processing&pg=PP1#v=onepage&q&f=false [5] Maximilian Riesenhuber and Tomaso Poggio, Neural mechanisms of object recognition, Current opinion in neurobiology, 12, 2002, p. 162–168, http://cbcl.mit.edu/projects/cbcl/publications/ps/nb120204.pdf [6] Duane G. Albrecht, Wilson S. Geisler, Robert A. Frazor and Alison M. Crane, Visual cortex neurons of monkeys and cats: temporal dynamics of the contrast response function, Journal Neurophysiology, 88, 2002, p 888–913, http://jn.physiology.org/cgi/content/abstract/88/2/888 [7] Parisa Darvish Zadeh Varcheie, Michael Sills-Lavoie and Guillaume-Alexandre Bilodeau, A Multiscale region-based motion detection and background, Sensors, №10, 2010, ISSN 1424-8220, http://www.mdpi.com/1424-8220/10/2/1041/pdf [8] Eitan Sharon, Meirav Galun, Dahlia Sharon, Ronen Basri and Achi Brandt, Hierarchy and adaptivity in segmenting visual scenes, Nature, Vol. 442, August 2006, p. 810-813, http://www.wisdom.weizmann.ac.il/~meirav/nature04977.pdf [9] PETS: Performance evaluation of tracking and surveillance, http://www.hitech-projects.com/euprojects/cantata/datasets_cantata/dataset.html [10] i-LIDS User guide imagery library for intelligent detection systems, Publication №28/08 v2.0, Home Office Scientific Development Branch, p. 25-34, http://scienceandresearch.homeoffice.gov.uk/hosdb/publications/cctv-publications/28-08_-_i-LIDS_User_Guide.pdf
|