Рассмотрим подробнее инструментарий, который планируется использовать при разработке приложения:
Межкадровая разность
Вычисление межкадровой разности является очень распространённым методом первичного обнаружения движения, после выполнения которого, вообще говоря, уже можно сказать, присутствует ли в потоке кадров движение. Однако, видеокадры должны быть предварительно обработаны перед вычислением разности между ними.
Алгоритм вычисления межкадровой разности двух кадров для случая обработки цветного видео в формате RGB выглядит следующим образом:
- На вход алгоритма поступают два видео кадра, представляющие собой две последовательности байт в формате RGB.
- Производится вычисление попиксельных межкадровых разностей.
- Для каждого пикселя вычисляется среднее значение между значениями трёх компонент цвета.
- Среднее значение сравнивается с заданным порогом. В результате сравнения формируется двоичная маска.
Таким образом, на выходе алгоритма формируется двоичная маска, одному элементу которой соответствуют три компоненты цвета соответствующего пикселя исходных двух кадров. Единицы в маске располагаются в областях, где, возможно, присутствует движение, однако на данном этапе могут быть и ложные срабатывания отдельных элементов маски, ошибочно установленных в 1. В качестве двух входных кадров могут использоваться два последовательных кадра из потока, однако возможно использование кадров с большим интервалом, например, равным 1-3 кадра. Чем больше такой интервал, тем выше чувствительность детектора к мало подвижным объектам, которые испытывают лишь крайне малый сдвиг за один кадр и могут отсекаться, будучи отнесёнными к шумовой составляющей изображения.
Недостатком такого метода является фиксация шума аппаратуры при регистрации данных. Шум неизбежно появляется при работе любой из современных камер, поэтому с ним необходимо бороться отдельно.
Достоинством данного метода является простота и нетребовательность к вычислительным ресурсам. Метод широко применялся ранее по причине того, что в распоряжении разработчиков не было достаточных вычислительных мощностей. Трудоёмкость алгоритма имеет порядок O(n) и осуществляется всего за один проход, что очень важно для растров большой размерности.
Базовый кадр
Описывая метод межкадровых попиксельных разностей с построением маски движения, в качестве двух входных кадров мы задавали либо два соседних кадра, либо два кадра, взятых с небольшим интервалом. Однако использование этого метода оставляет возможность вычислять разность с некоторым кадром, который бы содержал исключительно неподвижные области фона (базовый кадр). Такой подход дал бы нам существенное увеличение вероятности обнаружить любой объект, как самый медленный, так и быстрый, причём именно в той точке, в которой он находился в данный момент. Иначе, данный метод называется методом вычитания или сегментации фона.
Работа метода полностью аналогична работе алгоритма межкадровой разности с той лишь разницей, что разность вычисляется между текущим и базовым кадром. Большой проблемой здесь является способ построения базового кадра, поскольку он должен обладать несколькими свойствами:
- если кадр представляет собой кадр реального изображения, он должен минимально отстоять по времени от текущего кадра;
- если базовый кадр подготавливается искусственно, он должен содержать минимальное количество движущихся элементов, иначе неизбежны ложные срабатывания на объекты, которых на текущем кадре уже нет, однако базовый кадр содержит какие-то их элементы;
- минимальный уровень шума. Перед обновлением базового кадра необходимо проводить фильтрацию.
Математическая морфология
Математическая морфология представляет собой анализ изображения с точки зрения его формы. Работа алгоритмов, основанных на применении данного подхода, связана с выполнением над изображением ряда преобразований, изменяющих форму объектов, содержащихся на изображении.
Математическая морфология применяется в различных системах, имеющих дело с обработкой изображений, на разных этапах и для достижения различных целей:
- улучшение визуальных характеристик изображения (яркость, контрастность и пр.);
- восстановление испорченных изображений, например, реставрация фотоснимков;
- обнаружения контуров;
- снижение уровня шума.
Выделение объектов
Определим понятие объекта с точки зрения детектора движения. Оно будет несколько отличаться от того, что человек привык понимать под объектом, воспринимая глазом окружающие его предметы.
Выделяя объекты на изображении, человеческий глаз работает в связке с головным мозгом, который на текущий момент уже хранит достаточно информации о типах, форме, линейных размерах, цвете и прочих характеристиках, присущих тем или иным объектам, с которыми человек сталкивался ранее. Таким образом, наряду с выделением объектов сцены, человеческий мозг выполняет процедуру их распознавания, поэтому человек без труда различает известные ему объекты.
Работа по выделению объектов детектором движения, основанным на алгоритме вычисления попиксельных разностей между кадрами, начинается с анализа маски движения. Реальным объектам в ней обычно соответствуют пиксели (или минзоны), которые образуют связные группы, поэтому логично определить объект с точки зрения детектора движения как группу связных пикселей в маске движения. Такому объекту соответствуют несколько параметров:
-
Линейные размеры минимального прямоугольника (в дальнейшем просто прямоугольник), который можно описать около пикселей группы.
- Координаты (x,y) центральной точки прямоугольника. Будем считать данную точку центральной точкой объекта.
- Количество пикселей, входящих в группу.
- Область маски движения, лежащая внутри прямоугольника.
- Область текущего кадра, лежащая внутри прямоугольника.
Поскольку детектор обнаруживает только движущиеся объекты, эта группа пикселей и соответствующий ей объект с поступлением на вход детектора новых кадров будут испытывать смещение, поэтому кроме параметров, перечисленных выше, можно ввести ещё несколько:
- Вектор, описывающий направление и скорость движения объекта.
- Массив, содержащий координаты центра объекта на предыдущих кадрах.
- Время жизни объекта, измеряемое в количестве кадров.
Выделение объектов происходит при последовательном обходе пикселей маски движения. Если в маске движения обнаружена единица, запускается процедура поиска пикселей, связных с данным, которым также соответствуют единицы в маске движения. Найденные пиксели помечаются, чтобы избежать повторного их обнаружения.
Функция корреляции
Функция взаимной корреляции двух изображений — функция, показывающая степень корреляции двух изображений. Обычно она используется для вычисления степени похожести областей на разных кадрах. Эта функция должна давать единственный максимум только для случая двух одинаковых изображений. Очень часто используется нормализованная функция взаимной корреляции. Максимальным значением функции при полном совпадении первого растра с прямоугольником на втором растре будет единица.
Алгоритмы, использующие функцию корреляции, работают следующим образом.
Сначала они находят несколько значений функции, различным образом накладывая на один растр прямоугольник, взятый с другого растра. Затем из полученных значений выбирают максимальное. Если наилучшее значение достаточно близко к единице, значит, на первом растре обнаружен именно тот объект, который попал в «коррелирующий» прямоугольник, взятый на втором растре. Степень близости значения функции корреляции к единице — параметр, выбирая значение которого, можно добиться оптимального соотношения количества ошибок ложного обнаружения и необнаружения вообще.
Трассирование
Термин трассирование подразумевает отслеживание движущегося объекта и значений его параметров в течение всего времени его пребывания в кадре. При правильном трассировании объекта появляется возможность просмотра траектории движения объекта с любым уровнем детализации (с точностью до кадра, до 3, 5 и т.д. кадров). Такая возможность обеспечивается сохранением положения центральной точки объекта на каждом из кадров в специальном массиве, который введен для этой цели при определении параметров для каждого из движущихся объектов. Алгоритмы, трассирующие движущиеся объекты, не должны путать один объект с другим, терять объект, если он остановился на небольшой промежуток времени или скрылся за каким-либо препятствием (например, человек, скрывшийся за деревом), а потом появился вновь.
При вычислении функции корреляции с целью обнаружения на текущем кадре объекта, обнаруженного ранее, используются только те пиксели изображения, которым в маске движения соответствуют единицы. В противном случае в формулу для вычисления функции корреляции могут попасть значения цветов пикселей, лежащих внутри прямоугольной области, но за пределами объекта, а эти пиксели совсем не обязательно должны коррелировать друг с другом, следовательно, значение функции корреляции в этом случае уменьшится. А если оно станет меньше выбранного порога похожести, алгоритм может ошибочно посчитать данную прямоугольную область растра непохожей на объект, с которым производится сравнение, даже если на самом деле это не так.
Рис.2. Анимированный процесс распознавания образов (движущихся машин и людей) при охране объекта (количество кадров — 4; количество повторений — бесконечно; объем — 124 КБ.)
Разработки и исследования, планируемые к выполнению:
- изучить возможности различных алгоритмов распознавания событий в видеопотоке;
- провести анализ эффективности различных подходов и выбрать оптимальный по соотношению «скорость-качество»;
- применить разбиение видеопотока на два;
- проанализировать результаты разбиения и выяснить, насколько оно эффективно.
Выводы и заключения:
В результате этой работы были рассмотрены основные методы и алгоритмы распознавания событий в видеопотоке и указаны их основные недостатки. Также был рассмотрен способ улучшения работы алгоритмов распознавания за счет увеличения объемов требуемой оперативной памяти.
В результате выполнения работы будет разработан метод, лишенный недостатков существующих решений и увеличивающий эффективность обработки видеоизображения при охране объектов большой протяженности.
Это автореферат незаконченной работы. Завершение планируется к декабрю 2010-го года. Результаты работы можно будет получить, написав письмо автору.
Литература
- Н.С. Байгарова, Ю.А. Бухштаб, Н.Н. Евтеева. Современная технология содержательного поиска в электронных коллекциях изображений // Электронные библиотеки, 2001, Выпуск 4, том 4.
- Jain, R. and Gupta, A. Visual Information Retrieval, Communications of the ACM. // 1997, vol. 40, no. 5.
- Н.С. Байгарова, Ю.А. Бухштаб. Некоторые принципы организации поиска видеоданных. Программирование, N 3. // Электронные библиотеки, 1999.
- Виктор Гаганов, Антон Конушин. Сегментация движущихся объектов в видео [Электронный ресурс] / Graphics & Media lab, — http://cgm.graphicon.ru/obzoryi/segmentatsiya_dvizhuschihsya_obektov_v_video_potoke.html.
- Белявцев В. Г., Воскобойников Ю. Е. Локальные адаптивные алгоритмы фильтрации цифровых изображений // Научный вестник НГТУ, 1997, №3.
- Путятин Е.П., Аверин С.И. Обработка изображений в робототехнике. // М.: Машиностроение, 1990, 320 с.
- А.П. Горелик, В.А. Скрипкин. Методы распознавания. // М.: «Высшая школа». 1989, 216 с.
- Павлидис Т. Алгоритмы машинной графики и обработки изображений. Пер с англ. // М.: Радио и Связь, 1986.
- Дэвид А. Форсайт, Джин Понс. Компьютерное зрение. Современный подход // 2004, 1 кв.; Вильямс, 928 с.
- Гиренко А.В., Ляшенко В.В., Машталир В.П., Путятин Е.П. Методы корреляционного обнаружения объектов. // Харьков: АО «БизнесИнформ», 1996, 112 с.