Реферат по теме выпускной работы
При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: июнь 2019 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Содержание
- Введение
- 1. Аналитическая постановка задачи
- 1.1. Проблема и актуальность
- 1.2. Объект и цель исследования. Основные задачи
- 1.3. Математический аппарат
- 2. Методы, модели и алгоритмы
- 2.1. Методы решения задачи предварительной обработки
- 2.2. Методы решения задачи распознавания и классификации объектов
- 2.3. Методы решения задачи сжатия видеофрагмента
- 2.3.1. Методы сжатия без потери информации
- 2.3.2. Методы сжатия с потерей информации
- Список источников
Сокращения
CCTV | Closed Circuit Television – система замкнутого телевидения |
ПК | Персональный компьютер |
CPU | Central Processing Unit – центральный процессор |
GPU | Graphics Processing Unit – графический процессор |
СНГ | Содружество Независимых Государств |
MOG | Mixture Of Gaussians – гауссовские распределения |
KDE | Kernel Density Estimator – оценка плотности ядра |
ARP | Autoregressive Pseudospectrums – авторегрессионные псевдоспекты |
HOG | Histogram of Oriented Gradients – гистограмма направленных градиентов |
RLE | Run Length Coding – кодирование длины пробега |
Введение
В последнее время термин видеонаблюдение
прочно вошло в наш лексикон и стало неотъемлемой частью современной системы безопасности. Системы интеллектуального видеонаблюдения установлены практически в каждой крупной компании, однако общественные места, места массового скопления людей – метрополитен, торговые центры, общественные парки, больницы – до сих пор в большинстве своём не оснабжены подобными системами безопасности.
Видеонаблюдение – процесс визуального контроля за наблюдаемыми или охраняемыми территориями и объектами с применением технических решений. Главная задача CCTV – обеспечение безопасности путем визуального наблюдения за объектом без передачи какой-либо информации во внешние доступные сети. Из данной функции закрытости
и произошло название замкнутое
.
Если говорить об интеллектуальных системах видеонаблюдения, то стоит понимать, что это, как правило, аппаратно-программный комплекс, использующийся для автоматизированного сбора информации с потокового видео. В своей работе эти системы опираются на различные алгоритмы распознания изображений, систематизации и обработки полученных данных. Разновидности аппаратно-программных комплексов интеллектуальных систем видеонаблюдения и их характеристики приведены в таблице 1.1.
Тип | Характеристика |
Серверный | Аналитическая обработка данных осуществляется централизовано на видеосервере или ПК. В качестве аппаратной составляющей выступает CPU или GPU. Главное преимущество серверной системы интеллектуального видеонаблюдения в используемом программном обеспечении, которое позволяет добавлять в уже существующую оболочку дополнительные модули и алгоритмы обработки видео, а также комбинировать уже имеющиеся. Основным недостатком является необходимость постоянной передачи видео с высоким разрешением от камер к видеосерверу, что существенно загружает каналы связи. |
Встроенные интеллектуальные алгоритмы | Используются непосредственно в камерах видеонаблюдения. На видеорегистратор или сервер передается частично или полностью обработанная картинка с результатами анализа (метаданными). Такой метод существенно снижает (в 10-100 раз) нагрузку на каналы передачи информации. Однако, видеокамеры имеют ограниченный набор аналитических функций, а их стоимость значительно превышает обычные устройства. |
Распределенная обработка видеоданных | Первичный анализ информации не требующий сложных алгоритмов может производиться на видеокамерах. К примеру, обнаружение объекта. А более серьезная интеллектуальная обработка, требующая загрузки CPU, производится с использованием мощностей сервера. |
1. Аналитическая постановка задачи
1.1. Проблема и актуальность
Тенденция внедрения систем интеллектуального видеонаблюдения заметна как на просторах стран СНГ, так и за рубежом. Во многом это связано с проблемой терроризма, остро стоящей в ХХI веке, и увеличением уровня преступности в крупных городах мира. Проявления терроризма влекут за собой массовые человеческие жертвы, разрушение духовных, материальных и культурных ценностей; угроза терроризма увеличила актуальность поддержания безопасности в местах массового скопления людей во всем мире.
Массовые террористические акты привели к необходимости создания объединенной системы обеспечения безопасности в местах скопления людей. К ней относят: систему информирования, систему охранного видеонаблюдения, систему досмотра и физической охраны, центр контроля и управления всеми технологическими процессами.
1.2. Объект и цель исследования. Основные задачи
Экономический и организационный эффект, а также повышение уровня безопасности от внедрения интеллектуальных систем видеонаблюдения, хорошо заметен не только в крупных сетях с широким территориальным распределением, но и в небольших системах. Примеры применения систем интеллектуального видеонаблюдения приведены в таблице 1.2.
Сфера применения | Возможности |
Транспортные задачи |
|
Системы городской безопасности |
|
Объекты закрытого или режимного типа |
|
Организации общественного питания, торговые и банковские учреждения, автомойки, СТО, парикмахерские и т.п. |
|
В зависимости от целей использования системы видеонаблюдения интеллектуальная обработка видеосигнала может выполнять одну или несколько функций, таких как: обнаружение объекта, трекинг, классификация и статистический анализ, распознавание, выявление тревожных ситуаций.
В последнее время интеллектуальные системы видеонаблюдения широко используют и аналитические функции – прогнозирование, интеллектуальное дополнительное сжатие видеофайла, ранжирование событий, выборочное удаление/редактирование приватных данных или блокировка записи частных зон.
Предметом исследования является видеоинформация с камер наблюдения в местах массового скопления людей. Цель – повышение эффективности управления системой безопасности за счет увеличения вероятности предотвращения противоправных действий. Задачу проектирования подобной подсистемы предполагает разработку следующих подзадач:
- Получение видеоряда с камер наблюдения.
- Предварительная обработка видеоряда.
- Распознавание и классификация объектов.
- Анализ и оповещение персонала.
- Интеллектуальное сжатие.
Предварительная обработка видеоряда предполагает создание условий, повышающих эффективность и качество выделения и распознавания искомых объектов. Методы предварительной обработки зависят от задач исследований, довольно разнообразны и могут включать, например, выделение наиболее информативных фрагментов, их увеличение, повышение контрастного разрешения, улучшение качества изображений и т.п.
Распознавание и классификация образов – задача идентификации объекта или определения каких-либо его свойств по его изображению.
Проектирование подсистемы предполагает осуществление ситуационного анализа, то есть такого, который будет ориентироваться на выявление тревожных ситуаций. При выявлении тревожной ситуации основными критериями для обнаружения являются пересечение контрольной линии, резкое изменение положения объекта в пространстве (падение, прыжок и т.п.), возникновение очага возгорания и прочие.
Последним этапом стоит интеллектуальное сжатие видеофайла. Если в передаваемом видео не содержится требуемых событий, то оно подвергается дополнительной обработке более эффективными кодеками, максимально уменьшающими размер файла, даже в ущерб качеству изображения. Временная ось, характеризующая информативность фрагмента видеоряда приведена на рисунке 1.1.
OX - ось времени видеопотока,
tн – момент захвата и потери захвата объекта распознавания,
tк – начальный и конечный моменты фрагмента сжатия.
1.3. Математический аппарат
Задачу распознавания образов можно рассматривать как задачу установления различий между исходными данными, причем не посредством отождествления с отдельными образами, но с их совокупностями.
Целевая функция F в данном случае является совокупностью факторов – фактора ошибки Erri между экспертной оценкой и машинным анализом и коэффициента сжатия Kj, как показано в формуле.
Хорошим качеством изображения при сжатии принято считать достижение коэффициентом значений K = 0.15 - 0.35. K рассчитывается по формуле.
size – размер видеофрагмента, байт
width – ширина кадра, пиксель
height – высота кадра, пиксель
fps – частота кадров в секунду
time – длительность сжимаемого фрагмента, сек
Критерий эффективности Err рассчитывается по формулам ниже и характеризует разность между оценками экспертов и машинным анализом. При этом следует полагать, что экспертный анализ является эталоном и принимает значение Accexp = 1, в то время как точность машинной экспертизы варьируется в пределах Accsys ∈ (0; 1].
ACCexp, ACCsys - значение точности экспертной оценки и машинного анализа соответственно,
TPexp, FPexp, TNexp, FNexp, TPsys, FPsys, TNsys, FNsys – значения истинно верного, ложно верного, истинно неверного, ложно неверного утверждения относительно экспертной оценки и машинного анализа соответственно.
2. Методы, модели и алгоритмы
Наиболее распространенные аналитические алгоритмы анализа видеоинформации в системах интеллектуального видеонаблюдения, применяемые на данный момент, указаны в таблице 2.1.
Наименование | Характеристика |
Аналитика контроля периметра | Используется в системах, охраняющих участки периметра, имеющие значительную протяженность. Реагируют на форму, скорость движения и местоположение объекта. Один из наименее надежных алгоритмов, так как вполне может сработать не только от ползущего или просто лежащего возле контролируемой зоны, но и от едущего на велосипеде. |
Ситуационный анализ | Используется для выявления тревожных ситуаций связанных с большим количеством людей. К примеру, выявление большего, чем типично для этого времени, плотности человекопотока. |
Бизнес анализ | Применятся для контроля продуктивности работы персонала, оптимизации процесса обслуживания, выявления недовольных клиентов и исследования причин их недовольства. Отличается большим количеством разнообразных отчетов с возможностью формирования индивидуальных фильтров данных. |
Биометрический анализ | Используются различные способы биологической идентификации объекта. При этом традиционно алгоритм оперирует понятиями: база допусков, наличие черного и белого списков и т.п. Некоторые модели интеллектуальных систем видеонаблюдения могут работать по более сложным алгоритмам. |
Номерной анализ | Используется для распознавания автомобильных знаков, номеров вагонов и т.п. |
Анализ по нескольким камерам | Позволяет осуществлять автоматическое сопровождение объекта по нескольким камерам. Результатом становится формирование траектории движения объекта по охраняемой зоне. |
Анализ технологических процессов | Количественный анализ формы объекта. Обеспечивает качество процесса производства. |
Тамперинг | Производит постоянный мониторинг оборудования, особое внимание уделяется контролю технических неисправностей и предотвращения возможности блокировки камеры, засветки или затемнения объектива или сдвига корпуса или подмены картинки. |
Для рассмотренной в ходе исследования задачи было определенно, что наиболее подходящим методом анализа будет выявление и обработка тревожных ситуаций видеоряда, поскольку такой способ является наиболее эффективным при работе с материалом с мест массового скопления людей.
2.1. Методы решения задачи предварительной обработки
Несмотря на огромный поток данных, составляющий цифровой видеосигнал, существуют предпосылки для эффективной его компрессии. Видеосигнал обладает очень большой избыточностью, которую следует использовать при компрессии. Некоторые методы сокращения избыточности используются еще в аналоговом видеосигнале. К таким методам можно отнести:
- значительное снижение полосы частот сигналов цветности;
- использование чересстрочной развертки;
- удаление части спектра сигнала яркости с помощью фильтра пробки и включение в освободившуюся полосу сигнала цветности.
Эти методы позволили сократить полосу частот аналогового видеосигнала и использовать один и тот же частотный диапазон как для черно-белого, так и для цветного изображения. В цифровом виде для компрессии используются следующие предпосылки:
- когерентность областей изображения, т.е. малое изменение цвета изображения в соседних пикселях;
- избыточность в цветовых плоскостях, т.е. использование большая важность яркости изображения по сравнению с цветностью (фактически это следствие уменьшение полосы частот сигнала цветности);
- подобие между кадрами, т.е. соседние кадры изменяются незначительно.
Первые два пункта используются не только для компрессии видеосигнала, но цифровых изображений. Общей особенностью как для изображений, так и для видео является тот факт, что человеческое зрение при анализе изображения оперирует контурами, общим переходом цветов и сравнительно малочувствительно к малым измерениям в изображении. Следовательно, возможно создание эффективных алгоритмов компрессии, в которых декомпрессированное изображение или видео не будет совпадать с оригиналом, но человек этого не заметит. Такая особенность человеческого зрения позволила создать специальные алгоритмы сжатия, ориентированные только на изображение и видео. Изображение обладает избыточностью в двух измерениях. То есть, обычно соседние точки как по горизонтали, так и по вертикали в изображении близки по цвету. Кроме того, можно использовать подобие между цветовыми плоскостями R, G, B или Y, U, V. Таким образом, при создании алгоритмов компрессии изображений и видео используются особенности структуры изображения и особенности человеческого зрения.
2.2. Методы решения задачи распознавания и классификации объектов
Традиционный подход состоит в построении модели фона, после чего текущая картинка вычитается из модели (или наоборот). Результаты сегментируются на объекты для дальнейшей обработки. На технике накопления и вычитания фона основано большинство методов выделения движущихся объектов. Наиболее популярные — MOG, KDE и ARP. С их помощью можно сегментировать области, где наблюдается движение, однако им свойственны и недостатки: обнаружение всех без исключения движущихся областей (в маску движения попадают волны, ветки, блики и т. д.), высокая чувствительность к подвижному фону и шуму (тряска камеры, поворот) и недостаточная восприимчивость однотонных объектов.
Основным современным подходом к обнаружению объектов в сцене является распознавание образов по набору отобранных признаков. В основном используются методы HOG и Edgelet. Метод, в рамках которого используются гистограммы ориентированных градиентов HOG, основывается на контуре объекта и построении градиентов, что позволяет отличать человека от других объектов. Edgelet разработан специально для детектирования людей: с помощью фильтров строится контур объекта, из этого контура извлекается гистограммно-ориентированный градиент, затем гистограммы нормализуются и используются для создания вектора признаков.
2.3. Методы решения задачи сжатия видеофрагмента
На данный момент известны три семейства специальных алгоритмов для сжатия изображений и видео и метод межкадрового сжатия в видео, которые невозможно применить к архивации еще каких-либо видов данных. Кроме того, методы сжатия можно разделить на два основных типа:
- без потери информации;
- с потерей информации.
К первому типу можно отнести такие методы, которые после декомпрессии позволяют получить исходную информацию без искажений. Такие методы используются во всех известных архиваторах данных, а также для сжатия изображений и видео, потери в которых крайне нежелательны, например, в медицинских приложениях. Однако, такие методы обычно обладают небольшим коэффициентом сжатия. Второй тип включает в себя методы компрессии, при которых декомпрессированные данные отличаются от исходных. Но эти отличия возможно контролировать и удерживать на допустимом уровне. Основные алгоритмы компрессии изображений и видео используют именно эти методы. Поскольку эти алгоритмы обычно состоят из нескольких методов, то в их число могут входить и методы сжатия без потери информации.
2.3.1. Методы решения задачи сжатия видеофрагмента
Данные методы носят универсальный характер и используются в самых разных приложениях. Используется две основных идеи:
- одинаковые повторяющиеся данные можно заменить на короткую последовательность, состоящую из одного общего элемента и счетчика повторений;
- часто используемые значения кодируются короткими кодами, а редко используемые – более длинными кодами.
Первая идея довольно тривиальна, а вторая требует теоретического обоснования. Точная связь между вероятностями и кодами установлена в теореме Шеннона.
Алгоритм RLE – один из самых простых. Сжатие в этом алгоритме производится за счет того, что в изображении встречаются последовательности одинаковых байтов. Замена этих последовательностей на два значения (счетчик повторений и значение) уменьшает избыточность данных. Существует две реализации алгоритма, обе приведены на рисунке 2.1.
Первый вариант учитывает только повторы. В лучшем случае можно коэффициент сжатия составит 32. В худшем случае, когда все байты последовательности не повторяются общий объем данных, не только не уменьшается, а наоборот увеличивается в два раза. Второй вариант предполагает разделение на две ветви, а именно на обработку повторяющихся и неповторяющихся последовательностей. В лучшем случае алгоритм сжимает последовательность в 64 раза, а в худшем случае будет небольшое увеличение последовательности. В чистом виде это алгоритм применяется для сжатия изображений с небольшим числом цветов (деловая графика).
Метод Хаффмана производит идеальное сжатие (то есть, сжимает данные до их энтропии) если вероятности символов точно равны отрицательным степеням числа 2. Алгоритм начинается составлением списка значений пикселов (яркости или цветности) в порядке убывания их вероятностей. Затем от корня строится дерево, листьями которого служат эти значения пикселов. Завершается алгоритм спуском по дереву и построением кодов всех значений пикселов.
Сжатие по методу Хаффмана постепенно вытесняется арифметическим сжатием. Алгоритм Хаффмана приближает относительные частоты появления отсчетов в потоке частотами, кратными степени двойки, а арифметическое сжатие дает лучшую степень приближения частоты. По теореме Шеннона наилучшее сжатие в двоичной арифметике мы получим, если будем кодировать отсчет с относительной частотой f с помощью log2(f) бит. На рисунке 2.2 приводится сравнение оптимального кодирования и кодирования по методу Хаффмана. Хорошо видно, что в ситуации, когда относительные частоты не являются степенями двойки, сжатие становится менее эффективным (мы тратим больше битов, чем это необходимо).
В основе метода лежит очень простая идея – кодируемая последовательность представляется в виде дроби, при этом дробь строится таким образом, чтобы последовательность данных была представлена как можно компактнее. Для этого последовательность разбивается на подинтервалы с длинами, равными вероятностям появления величин в потоке. Арифметическое сжатие выделяется тем, что обеспечивает возможность кодирование менее одного бита на символ.
2.3.2. Методы сжатия с потерей информации
Методы сжатия без потерь, как правило, имеют небольшой коэффициент сжатия при работе с изображениями и видеопоследовательностями. Поэтому стали появляться методы, которые обеспечивают такое преобразование видеоданных, которое позволяет добиться эффективного сжатия ценой контролируемой потери качества.
Метод отбрасывания реализуется путем простого отбрасывания части данных, из которых состоит цифровое изображение или видео. Существуют следующие виды отбрасывания:
- уменьшение формата изображения путем отбрасывания строк и столбцов;
- уменьшение разрядности данных путем отбрасывания младших разрядов;
- метод палитризации;
- метод усреднения;
- метод отбрасывания части кадров из видеопоследовательности.
Общим свойством этих методов является сравнительная простота реализации, высокое быстродействие и отсутствие необходимости сохранения дополнительной информации (за исключением метода палитризации).
Следует отметить что наилучшими результатами отличаются алгоритмы, использующие методы межкадрового сжатия. В основе этих методов лежит факт большой корреляции между соседними кадрами в видеопоследовательности. Как правило, соседние кадры отличаются друг от друга в среднем на 2-5% и если учитывать этот факт, то степень сжатия может быть дополнительно повышена в 20-50 раз.
Список источников
- С.Н. Ярышев,
Телевизионные системы безопасности
. [Ссылка]. - C.Н. Ярышев,
Цифровые методы записи и воспроизведения видеоинформации
. [Ссылка]. - С. Орлов,
Видеоаналитика: задачи и решения
, Журнал сетевых решений/LAN №6 2014. [Ссылка]. - Y. Bengio, “Learning deep architectures for AI”. [Ссылка].
- Kaiser L. [и др.], “One model to learn them all”. [Ссылка].
- B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012. [Ссылка].
- P. Arbelaez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012.
- P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014.
- J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012.
- J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012.