Черкаев ОА Разработка методов обработки видеоизображения при охране объектов большой протяженности

RUS | UKR | ENG || ДонНТУ > Портал магистров ДонНТУ

Черкаев Олег Анатольевич

Факультет радиотехники и специальной подготовки
Специальность: Техническая защита информации и автоматизация ее обработки
Тема выпускной работы: Разработка методов обработки видеоизображения при охране объектов большой протяженности
Научный руководитель: д.п.н., проф. Стефаненко Павел Викторович

Реферат

Разработка методов обработки видеоизображения при охране объектов большой протяженности

Введение
Актуальность
Цель работы
Научная новизна
Общая характеристика задач распознавания образов и их типы
Обзор методов
Планируемые эксперименты
Выводы
Литература

Введение
В наше время для обеспечения полноценной охраны объекта недостаточно просто огородить здание высоким забором с колючей проволокой, осуществить круглосуточное освещение и расставить по периметру охрану. Вместе с усовершенствованием методов нарушения безопасности охраняемых объектов необходимо также совершенствовать и способы охраны. В частности, оправдывают свое применение системы видеонаблюдения с элементами видеоаналитики — распознавания различных объектов и классификации текущей ситуации на объекте. Совершенствование методов обработки изображения, алгоритмов принятия решения системой — это залог качественной охраны, и, как следствие, безопасности охраняемого объекта.

Актуальность
Данная работа решает актуальную задачу, состоящую в развитии имеющихся идей решения проблемы распознавания событий в видеопотоке и использования распознавания в прикладных задачах. В данной работе получит дальнейшее развитие метод, состоящий в отслеживании происходящих в видеопотоке событий при помощи вычитания текущего и базового кадров.

Цель и задачи работы
Цель – изучив имеющиеся методы решения задачи распознавания событий в видеопотоке, указать на их недостатки и предложить методы их устранения. Задача работы — разработка метода, лишенного недостатков существующих решений и повышающего эффективность обработки видеоизображения.

Предполагаемая научная новизна и практическая ценность
Разрабатываемая система видеонаблюдения за объектом большой протяженности должна при помощи специальных алгоритмов обработки видеоизображений и видеоаналитики в реальном времени распознавать опасные ситуации и информацию о них выдавать оператору в автоматическом режиме.

Обзор выполненных исследований и разработок
Задачам обработки изображений посвящено огромное количество работ. К наиболее известным трудам в этой области относятся следующие книги: У. Прэтт «Цифровая обработка изображений», Сойфер В.А. «Компьютерная обработка изображений».

Имеются различные научные и прикладные компьютерные программы, а также промышленные программные пакеты, которые решают эти задачи. Невозможно описать все из них. Поэтому здесь мы можем отметить только, что они часто имеют узкоспециализированное назначение и лишь малая часть из них может использоваться для охраны объектов большой протяженности. Кроме того, многие из них являются только полуавтоматическими и многие действия должен выполнять оператор. Это не позволяет использовать их в автоматических системах охраны и управления. Природные явления, такие, как дождь, снег, туман, ветер и т.д. могут вносить заметный элемент колебаний в изначально неподвижную сцену.

От алгоритмов обнаружения и анализа движения обычно требуется устойчивость работы в широком диапазоне существенно различающихся внешних условий. В общем случае требования к алгоритмам обнаружения и анализа движения выглядят следующим образом.

Низкая вычислительная сложность и работа в реальном времени.
Устойчивое обнаружение в разное время суток при наличии искусственного освещения.
Устойчивая работа в любое время года при любых погодных условиях.

В целом, можно отметить, что имеется очень много научных и прикладных задач, связанных с задачами автоматического анализа изображений, которые не решены еще в полной мере.

Общая характеристика задач распознавания образов и их типы
Под образом понимается структурированное описание изучаемого объекта или явления, представленное вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих соответствующий объект. Общая структура системы распознавания и этапы в процессе ее разработки показаны на рис. 1.

Рисунок 1. Структура системы распознавания
Суть задачи распознавания — установить, обладают ли изучаемые объекты фиксированным конечным набором признаков, позволяющим отнести их к определенному классу.

Задачи распознавания имеют следующие характерные черты.

Это информационные задачи, состоящие из двух этапов: а) приведение исходных данных к виду, удобному для распознавания; б) собственно распознавание (указание принадлежности объекта определенному классу).
В этих задачах можно вводить понятие аналогии или подобия объектов и формулировать понятие близости объектов в качестве основания для зачисления объектов в один и тот же класс или разные классы.
В этих задачах можно оперировать набором прецедентов-примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.
Для этих задач трудно строить формальные теории и применять классические математические методы (часто недоступна информация для точной математической модели или выигрыш от использования модели и математических методов не соизмерим с затратами).
В этих задачах возможна «плохая» информация (информация с пропусками, разнородная, косвенная, нечеткая, неоднозначная, вероятностная).

Целесообразно выделить следующие типы задач распознавания.

Задача распознавания — отнесение предъявленного объекта по его описанию к одному из заданных классов (обучение с учителем).
Задача автоматической классификации — разбиение множества объектов (ситуаций) по их описаниям на систему непересекающихся классов (таксономия, кластерный анализ, обучение без учителя).
Задача выбора информативного набора признаков при распознавании.
Задача приведения исходных данных к виду, удобному для распознавания.
Динамическое распознавание и динамическая классификация — задачи 1 и 2 для динамических объектов.
Задача прогнозирования — это задачи 5, в которых решение должно относиться к некоторому моменту в будущем.

Рассмотрим подробнее инструментарий, который планируется использовать при разработке приложения:

Межкадровая разность
Вычисление межкадровой разности является очень распространённым методом первичного обнаружения движения, после выполнения которого, вообще говоря, уже можно сказать, присутствует ли в потоке кадров движение. Однако, видеокадры должны быть предварительно обработаны перед вычислением разности между ними. Алгоритм вычисления межкадровой разности двух кадров для случая обработки цветного видео в формате RGB выглядит следующим образом:

На вход алгоритма поступают два видео кадра, представляющие собой две последовательности байт в формате RGB.
Производится вычисление попиксельных межкадровых разностей.
Для каждого пикселя вычисляется среднее значение между значениями трёх компонент цвета.
Среднее значение сравнивается с заданным порогом. В результате сравнения формируется двоичная маска.

Таким образом, на выходе алгоритма формируется двоичная маска, одному элементу которой соответствуют три компоненты цвета соответствующего пикселя исходных двух кадров. Единицы в маске располагаются в областях, где, возможно, присутствует движение, однако на данном этапе могут быть и ложные срабатывания отдельных элементов маски, ошибочно установленных в 1. В качестве двух входных кадров могут использоваться два последовательных кадра из потока, однако возможно использование кадров с большим интервалом, например, равным 1-3 кадра. Чем больше такой интервал, тем выше чувствительность детектора к мало подвижным объектам, которые испытывают лишь крайне малый сдвиг за один кадр и могут отсекаться, будучи отнесёнными к шумовой составляющей изображения.
Недостатком такого метода является фиксация шума аппаратуры при регистрации данных. Шум неизбежно появляется при работе любой из современных камер, поэтому с ним необходимо бороться отдельно.
Достоинством данного метода является простота и нетребовательность к вычислительным ресурсам. Метод широко применялся ранее по причине того, что в распоряжении разработчиков не было достаточных вычислительных мощностей. Трудоёмкость алгоритма имеет порядок O(n) и осуществляется всего за один проход, что очень важно для растров большой размерности.

Базовый кадр
Описывая метод межкадровых попиксельных разностей с построением маски движения, в качестве двух входных кадров мы задавали либо два соседних кадра, либо два кадра, взятых с небольшим интервалом. Однако использование этого метода оставляет возможность вычислять разность с некоторым кадром, который бы содержал исключительно неподвижные области фона (базовый кадр). Такой подход дал бы нам существенное увеличение вероятности обнаружить любой объект, как самый медленный, так и быстрый, причём именно в той точке, в которой он находился в данный момент. Иначе, данный метод называется методом вычитания или сегментации фона.
Работа метода полностью аналогична работе алгоритма межкадровой разности с той лишь разницей, что разность вычисляется между текущим и базовым кадром. Большой проблемой здесь является способ построения базового кадра, поскольку он должен обладать несколькими свойствами:

если кадр представляет собой кадр реального изображения, он должен минимально отстоять по времени от текущего кадра;
если базовый кадр подготавливается искусственно, он должен содержать минимальное количество движущихся элементов, иначе неизбежны ложные срабатывания на объекты, которых на текущем кадре уже нет, однако базовый кадр содержит какие-то их элементы;
минимальный уровень шума. Перед обновлением базового кадра необходимо проводить фильтрацию.

Математическая морфология
Математическая морфология представляет собой анализ изображения с точки зрения его формы. Работа алгоритмов, основанных на применении данного подхода, связана с выполнением над изображением ряда преобразований, изменяющих форму объектов, содержащихся на изображении. Математическая морфология применяется в различных системах, имеющих дело с обработкой изображений, на разных этапах и для достижения различных целей:

улучшение визуальных характеристик изображения (яркость, контрастность и пр.);
восстановление испорченных изображений, например, реставрация фотоснимков;
обнаружения контуров;
снижение уровня шума.

Выделение объектов
Определим понятие объекта с точки зрения детектора движения. Оно будет несколько отличаться от того, что человек привык понимать под объектом, воспринимая глазом окружающие его предметы.
Выделяя объекты на изображении, человеческий глаз работает в связке с головным мозгом, который на текущий момент уже хранит достаточно информации о типах, форме, линейных размерах, цвете и прочих характеристиках, присущих тем или иным объектам, с которыми человек сталкивался ранее. Таким образом, наряду с выделением объектов сцены, человеческий мозг выполняет процедуру их распознавания, поэтому человек без труда различает известные ему объекты. Работа по выделению объектов детектором движения, основанным на алгоритме вычисления попиксельных разностей между кадрами, начинается с анализа маски движения. Реальным объектам в ней обычно соответствуют пиксели (или минзоны), которые образуют связные группы, поэтому логично определить объект с точки зрения детектора движения как группу связных пикселей в маске движения. Такому объекту соответствуют несколько параметров:

Линейные размеры минимального прямоугольника (в дальнейшем просто прямоугольник), который можно описать около пикселей группы.
Координаты (x,y) центральной точки прямоугольника. Будем считать данную точку центральной точкой объекта.
Количество пикселей, входящих в группу.
Область маски движения, лежащая внутри прямоугольника.
Область текущего кадра, лежащая внутри прямоугольника.
Поскольку детектор обнаруживает только движущиеся объекты, эта группа пикселей и соответствующий ей объект с поступлением на вход детектора новых кадров будут испытывать смещение, поэтому кроме параметров, перечисленных выше, можно ввести ещё несколько:
Вектор, описывающий направление и скорость движения объекта.
Массив, содержащий координаты центра объекта на предыдущих кадрах.
Время жизни объекта, измеряемое в количестве кадров.

Выделение объектов происходит при последовательном обходе пикселей маски движения. Если в маске движения обнаружена единица, запускается процедура поиска пикселей, связных с данным, которым также соответствуют единицы в маске движения. Найденные пиксели помечаются, чтобы избежать повторного их обнаружения.

Функция корреляции
Функция взаимной корреляции двух изображений — функция, показывающая степень корреляции двух изображений. Обычно она используется для вычисления степени похожести областей на разных кадрах. Эта функция должна давать единственный максимум только для случая двух одинаковых изображений. Очень часто используется нормализованная функция взаимной корреляции. Максимальным значением функции при полном совпадении первого растра с прямоугольником на втором растре будет единица.
Алгоритмы, использующие функцию корреляции, работают следующим образом.
Сначала они находят несколько значений функции, различным образом накладывая на один растр прямоугольник, взятый с другого растра. Затем из полученных значений выбирают максимальное. Если наилучшее значение достаточно близко к единице, значит, на первом растре обнаружен именно тот объект, который попал в «коррелирующий» прямоугольник, взятый на втором растре. Степень близости значения функции корреляции к единице — параметр, выбирая значение которого, можно добиться оптимального соотношения количества ошибок ложного обнаружения и необнаружения вообще.

Трассирование
Термин трассирование подразумевает отслеживание движущегося объекта и значений его параметров в течение всего времени его пребывания в кадре. При правильном трассировании объекта появляется возможность просмотра траектории движения объекта с любым уровнем детализации (с точностью до кадра, до 3, 5 и т.д. кадров). Такая возможность обеспечивается сохранением положения центральной точки объекта на каждом из кадров в специальном массиве, который введен для этой цели при определении параметров для каждого из движущихся объектов. Алгоритмы, трассирующие движущиеся объекты, не должны путать один объект с другим, терять объект, если он остановился на небольшой промежуток времени или скрылся за каким-либо препятствием (например, человек, скрывшийся за деревом), а потом появился вновь.
При вычислении функции корреляции с целью обнаружения на текущем кадре объекта, обнаруженного ранее, используются только те пиксели изображения, которым в маске движения соответствуют единицы. В противном случае в формулу для вычисления функции корреляции могут попасть значения цветов пикселей, лежащих внутри прямоугольной области, но за пределами объекта, а эти пиксели совсем не обязательно должны коррелировать друг с другом, следовательно, значение функции корреляции в этом случае уменьшится. А если оно станет меньше выбранного порога похожести, алгоритм может ошибочно посчитать данную прямоугольную область растра непохожей на объект, с которым производится сравнение, даже если на самом деле это не так.

Рис.2. Анимированный процесс распознавания образов (движущихся машин и людей) при охране объекта (количество кадров — 4; количество повторений — бесконечно; объем — 124 КБ.)

Разработки и исследования, планируемые к выполнению:

изучить возможности различных алгоритмов распознавания событий в видеопотоке;

провести анализ эффективности различных подходов и выбрать оптимальный по соотношению «скорость-качество»;

применить разбиение видеопотока на два;

проанализировать результаты разбиения и выяснить, насколько оно эффективно.

Выводы и заключения:
В результате этой работы были рассмотрены основные методы и алгоритмы распознавания событий в видеопотоке и указаны их основные недостатки. Также был рассмотрен способ улучшения работы алгоритмов распознавания за счет увеличения объемов требуемой оперативной памяти.
В результате выполнения работы будет разработан метод, лишенный недостатков существующих решений и увеличивающий эффективность обработки видеоизображения при охране объектов большой протяженности.

Это автореферат незаконченной работы. Завершение планируется к декабрю 2010-го года. Результаты работы можно будет получить, написав письмо автору.

Литература

Н.С. Байгарова, Ю.А. Бухштаб, Н.Н. Евтеева. Современная технология содержательного поиска в электронных коллекциях изображений // Электронные библиотеки, 2001, Выпуск 4, том 4.
Jain, R. and Gupta, A. Visual Information Retrieval, Communications of the ACM. // 1997, vol. 40, no. 5.
Н.С. Байгарова, Ю.А. Бухштаб. Некоторые принципы организации поиска видеоданных. Программирование, N 3. // Электронные библиотеки, 1999.
Виктор Гаганов, Антон Конушин. Сегментация движущихся объектов в видео [Электронный ресурс] / Graphics & Media lab, — http://cgm.graphicon.ru/obzoryi/segmentatsiya_dvizhuschihsya_obektov_v_video_potoke.html.
Белявцев В. Г., Воскобойников Ю. Е. Локальные адаптивные алгоритмы фильтрации цифровых изображений // Научный вестник НГТУ, 1997, №3.
Путятин Е.П., Аверин С.И. Обработка изображений в робототехнике. // М.: Машиностроение, 1990, 320 с.
А.П. Горелик, В.А. Скрипкин. Методы распознавания. // М.: «Высшая школа». 1989, 216 с.
Павлидис Т. Алгоритмы машинной графики и обработки изображений. Пер с англ. // М.: Радио и Связь, 1986.
Дэвид А. Форсайт, Джин Понс. Компьютерное зрение. Современный подход // 2004, 1 кв.; Вильямс, 928 с.
Гиренко А.В., Ляшенко В.В., Машталир В.П., Путятин Е.П. Методы корреляционного обнаружения объектов. // Харьков: АО «БизнесИнформ», 1996, 112 с.

2010 Черкаев Олег ДонНТУ