Муха Евгений Михайлович «Исследование реализаций MPEG2 видеопроцессоров на FPGA и PRUS» Диссертация

Биография

«Исследование реализаций MPEG2 видеопроцессоров на FPGA и PRUS»

Научный руководитель:
к.т.н., доц. Зинченко Ю. Е.

Введение

В начале 1988 г. в рамках объединенного технического комитета по информационным технологиям Международной Организации по Стандартизации ISO (International Standartization Organization) и Международной электротехнической Комиссии IEC (Inter-national Electrotechnical Commission) была образована рабочая группа экспертов по кодированию движущихся изображений, перед которой была поставлена задача разработать стандарты кодирования сигналов изображения и звукового сопровождения для устранения избыточности информации. Эта группа стала всемирно известной под названием MPEG (Moving Picture Expert Group), основной работой которой остается разработка и утверждение стандартов по компрессии (сжатию), обработке и кодовому представлению сигналов изображения, звука и их комбинаций. Основной обсуждаемы критерий - скорость передачи двоичных символов («битрейт») - зависит от уровня технологий и сферы применения данного формата. [1]

Один из самых известных стандартов – MPEG-2, разработанный этой группой, стал с 1995 г. Международным. Первично MPEG-2 разрабатывался для цифровой передачи и отображения видеосигналов вещательного телевидения. Стандарт MPEG-2 позволяет при сжатии цифрового видеосигнала получить высокое качество сигнала от входа до выхода системы, значительное увеличение пропускной способности канала передачи, повышение функциональных возможностей системы, а также улучшение показателей надежности аппаратуры.

Цифровая передача видеоинформации

Цифровая передача – процесс посылки данных в виде импульсов по линии связи или с помощью радиоволн из одной точки в другую с использованием импульсно-кодовой модуляции (ИКМ). [4] Цифровые данные могут передаваться в одном из двух режимов:

последовательная передача, когда биты (b0, b1, b2 и т. д.) передаются после-довательно друг за другом;

параллельная передача, когда биты передаются одновременно и синхронно по некоторому числу параллельных линий и по одной для каждого бита.

Скорость параллельной передачи больше, так как с каждым импульсом передается целое слово, но для нее требуется столько линий, сколько разрядов присутствует в слове. Цифровая передача синхронизируется системой, которая и определяет скорость передачи битов:

где - число разрядов;
- частота синхронизации.

Как известно, передача изображений связана с передачей трех сигналов: яркости Y и двух цветоразностных CR (R-Y) и CB (B-Y). При цифровой передаче эти три сигнала преобразуются в потоки цифровых данных, а затем передаются, что представлено на рисунке 1.

Рисунок 1 - Структурная схема преобразователя цифровых сигналов при передаче

Исследование стандарта MPEG-2

Важнейшей особенностью стандарта MPEG-2 является представление сигналов изображения и звукового сопровождения в форме, заданной спецификациями ISO, что позволяет обращаться с видео и звуковыми потоками как с потоками компьютерных данных, которые могут записываться на самые разнообразные носители информации с использованием сетей телекоммуникаций.

Поток видеоданных, определяемый спецификацией 13818-2, представляет собой сложную структуру, элементы которой строятся и объединяются друг с другом по опреде-ленным правилам. В этой следует различать следующие типы элементов потока:

1. видеопоследовательность;
2. группа изображений;
3. изображение;
4. срез;
5. макроблок;
6. блок.

Видеопоследовательность является элементом потока видеоданных и представляет собой серию последовательных кадров телевизионного изображения. Стандарт MPEG-2 допускает как построчные, так и чересстрочные разложения последовательности видеоданных. В последовательностях с построчным разложением каждое изображение представляет собой кадр, а в чересстрочной последовательности могут использоваться изображения как поля, так и кадра. Технология MPEG использует поточное сжатие видеоданных, при этом обрабатывается не каждый кадр отдельно, а анализируется динамика изменений видеофрагментов и устраняются избыточные данные. Поскольку в большинстве фрагментов фон остается стабильным, а действие происходит только на переднем плане, алгоритм MPEG начинает сжатие с создания исходного (основного) кадра. Он играет роль опорного изображения при восстановлении остальных изображений. Опорные кадры размещаются последовате-льно через каждые 10-15 кадров.[4]

В соответствии с используемыми методами кодирования различают три типа изображений: I, P, B.

I (Intra-coded picture) – исходные или опорные кадры кодируются с использованием только той информации, которая содержится в самом изображении. В нем устраняется только пространственная избыточность видеоданных.

P (Predictive-coded picture) – предсказанные кадры, содержащие разницу между текущим изображением и предыдущим I-кадром или P-кадром и учитывающие смещения отдельных фрагментов. Кодируется разница между исходным изображением и предсказанием, полученным на основе предшествующего или последующего изображения типа I или P.

B (Bidirectionally-coded picture) – двунаправленные кадры, содержащие отсылки к предыдущим или последующим изображениям (I или P) с учетом смещений отдельных фрагментов. При кодировании используется предсказание, формируемое на основе предшествующего и последующего изображений I или P.

При кодировании P и B изображений используется межкадровое кодирование, в котором устраняется и пространственное, и временная избыточности. I-изображение имеет довольно малый коэффициент сжатия и составляет основу MPEG-файла, однако благодаря ему возможен случайный доступ к какому-либо отрывку видеоданных. P-изображение кодируется относительно предыдущих кадров (I или P) и обычно используется как сравнительный образец для дальнейшей последовательности P-кадров, что позво-ляет достичь большого коэффициента сжатия. B-изображение обеспечивает наибольший коэффициент сжатия, но при этом для его привязки к видеопоследовательности необходимо использовать не только предыдущее, но и последующее изображения. Само B-изображение никогда не используется для сравнения. Изображения объединяются в группы GOP (Group of picture), представляющие собой минимальный набор последовательных изображений, например, группы из 12-ти изображений – {I0, B1, B2, P3, B4, B5, P6, B7, B8, P9, B10, B11} И {I12, B13, B14, P15, B16, B17, P18, B19, B20, P21, B22, B23} и т. д.

Видеопоследовательность с различными типами изображений условно показана на рис. 2, где стрелками даны направления предсказания в пределах одной группы изображений.

Рисунок 1 - Пример видеопоследовательности с различными типами изображений

Стандарт MPEG-2 определяет кодирование, охватывающее требования широкого круга сферы производства и распределения телевизионных программ. Для наиболее эф-фективного применения и обеспечения высокой степени эксплуатационной совместимости устройств, работающих в стандарте MPEG-2, в нем выделено несколько подмножеств, называемых профилями. В каждом профиле выделено несколько уровней, определяемых совокупностью ограничений, наложенных на параметры цифрового потока.

Профиль – подмножество стандарта для специализированного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны главным образом с параметрами компрессируемого изображения. Стандарт MPEG-2 устанавливает четыре уровня разрешения кадра:

1. LL (low level) – низкий с разрешением 352х288;
2. ML (main level) – основной с разрешением 720х576;
3. HL-1440 (high level) – высокий с разрешением 1440х1152;
4. HL-1920 (high level) – высокий с разрешением 1920х1152,

а также пять базовых профилей кодирования сигналов яркости и цветности:

1. SP (simple profile) – простой;
2. MP (main profile) – основной;
3. SNR (signal to noise ratio) – масштабируемый по отношению сигнал/шум;
4. Spatial (spatial profile) – с масштабируемым пространственным разрешением;
HP (high profile) – высокий;
5. 422 – студийный.

Пространственная избыточность уменьшается на уровне блока. Для этого используется набор операций [4]:

1. ДКП;
2. Взвешенное квантование;
3. энтропийное кодирование серии коэффициентов косинусного преобразования, полученной в результате диагонального сканирования матрицы коэффициентов.

Для повышения точности предсказания и сокращения объема необходимых данных для изображения используется компенсация движения. Оценивается величина перемещения движущихся объектов от кадра к кадру и при определении предсказания корректируе-тся положение макроблоков опорного изображения. Определение величины и направле-ния смещения движущихся объектов от кадра к кадру, называемых вектором смещения (Vector Movement Code), производится на уровне макроблока.

Стандарт MPEG-2 предлагает устранение не только пространственной, но и вре-менной избыточностей. Рассмотрим группу из 12-ти изображений со структурой

I-B-B-P-B-B-P-B-B-P-B-B,

в которой после компенсации объем P-изображений для типичных сюжетов составляет примерно 35% объема, а I- и B-изображений – 25%. Если бы не было сокращения времен-ной избыточности, то объем данных был бы в 3 раза больше. Следовательно, при приблизительно такой же заметности искажений компрессии скорость потока данных уменьшается в 3 раза. Чем больше группы изображений, тем больше сжатие, обеспечиваемое за счет устранения временной избыточности.

Рисунок 3 иллюстрирует процесс преобразования потока некомпрессированных видеоданных по ITU-R601 в компрессированные изображения. Использование двунаправ-ленного предсказания приводит к тому, что декодер может приступить к декодированию B-изображения только после того, когда уже получены и декодированы предшествующее и последующее опорные изображения, с помощью которых вычисляется предсказание. Чтобы не устанавливать в декодере огромные буферные массивы в потоке данных на выходе кодера, поток которого называется элементарным потоком видеоданных, кодированные изображения следуют в порядке декодирования. Таким образом, приведенный выше порядок I, B, B, P, … меняется на I, P, B, B, … . Указанная операция выполняется над всей группой изображений I, P, B, B, P, B, B, P, B, B, I, B, B, где второе I-изображение является первым I-изображением следующей группы. Формирование элементарного потока видеоданных условно показано на рис. 4.

Рисунок 3 - Преобразование блоков представления в блоки доступа в процессе компресссии

Рисунок 4 - Формирование элементарного потока видеоданных

Исследование процесса кодирования/декодирования изображений

Возможны два основные режима работы кодера компрессии [4]:

с постоянной скоростью потока данных;

с постоянным уровнем качества декодированного изображения.

Управление степенью компрессии и скоростью потока данных возможно с помощью изменения параметров матрицы квантования. Чем грубее квантование, тем больше нулевых значений в матрице коэффициентов и тем меньше объем данных, необходимых для передачи информации об изображении. Однако с увеличением степени компрессии растут и необратимые искажения изображения из-за шумов квантования.

В режиме с постоянным качеством используется фиксированная матрица квантования, но скорость потока компрессированных данных переменная. Чем больше детальность изображения, чем быстрее перемещается объект в поле изображения, тем больше число ненулевых коэффициентов в матрице коэффициентов косинусного преобразования, тем больше объем данных и скорость потока. Такой режим можно использовать для записи компрессированных потоков видеоданных на дисковые накопители при отсутствии ограничений на объем записанных данных.

В режиме с постоянной скорость потока данных в кодере осуществляется непрерывное изменение коэффициентов матрицы квантования. Чем мельче детали, тем более ди-намично изображение. Такой режим используется в системах передачи компрессированных изображений по каналам связи с фиксированной пропускной способностью и в системах цифрового наземного кабельного и спутникового вещательного телевидения.

Рисунок 5 - Структурная схема варианта кодера MPEG-2

Видеосжатие

Кодирование источника – процесс кодирования источника информации в формат, который может быть передан в цифровом виде приемнику в форме серий кодированных слов с минимальной длиной последовательности. Сокращение избыточности также известно под названием компрессия данных. Минимальная теоретически достижимая длина кодированных слов для компрессии без потерь равносильна энтропии источника. Дальнейшая компрессия возможна при наличии определенных потерь. [5]

Энтропия – единица измерения среднего содержания информации на единицу вы-ходного источника. Представляется как бит/единица измерения источника (бит/пиксель). Эта величина является максимальной, если все значения выходного источника равновероятны. Например, рисунок, состоящий из 8-битных пикселов, будет содержать в среднем 8 бит на пиксель (8 бит/пиксель). И кодирование источника меньшим количеством битов приведет к потере информации. Если значения пикселов не равновероятны, то энтропия уменьшается, и рисунок может быть закодирован меньшим числом бит с потерей некото-рого количества информации. [5]

Сжатие данных является необходимым при цифровом представлении сигналов. Например, аналоговые видеосистемы с частотой пропускания видеосигнала 4МГц спосо-бны передавать 8 миллионов эквивалентных образцов изображения в секунду. Эти образцы должны иметь независимые аналоговые значения представляющие собой яркость в дискретных точках или пикселях изображения. И точность этих образцов изображения ограничивается лишь отношением сигнала к шуму в канале связи.

В цифровом представлении сигнала пиксель может быть представлен 8 битами, та-ким образом, увеличивая количество передач образца в 8 раз. В таком случае первым пре-образованием является использование мультиуровневых сигналов, способных передавать более чем 1 бит. Например, двухуровневый сигнал передает 1 бит информации, четырехуровневый сигнал передает 2 бита информации, и 256-уровневый сигнал передает 8 бит информации.

Если взять отношение числа битов на пиксель к числу битов на уровень, то можно видеть, что цифровые монохромные системы потребуют сжатие 4:1 (8 бит на пиксель/2 бита на уровень), чтобы соответствовать той же полосе пропускания, что для аналоговых систем. Однако необходимо передавать цветную информацию таким образом, чтобы на входе эту информацию можно было улучшить (будет зависеть от возможной подборки цветовой информации).

В формате MPEG используется дискретное косинусное преобразование (ДКП) (DCT - Discrete Cosine Transform). [3]

Пусть наше изображение квадратное, т.е. размера.

Рассмотрим прямое преобразование (Forward):

, где ,

Существует и обратное преобразование (inverse):

, где ,

В формате MPEG, перед тем как применить ДКП, изображение разбивается на бло-ки размером 8 на 8 пикселей (это делается, если задать высокую степень компрессии). Затем к ним применяется ДКП.

Некоторые коэффициенты можно хранить приближённо, т.к. глаз не сможет заме-тить достаточно маленьких изменений. Операция округления коэффициентов называется квантованием и выполняется по формуле:

Далее применяется зигзагообразный обход матрицы для получения длинных последовательностей нулей (см. рис. 6).

Рисунок 6 - Зигзаг упорядочивание

Затем используется сжатие без потерь сначала RLE, а затем метод Хаффмана с фи-ксированной таблицей. Соответственно составим краткую схему алгоритма сжатия применяемого в JPEG:

1. Разбиение изображения на блоки.
2. Применение к ним преобразования(FDCT).
3. Квантование.
4. Зигзаг упорядочивание.
5. RLE+Huffman.

Восстановление изображение - этот же алгоритм только в обратном порядке.

Заключение

В данной магистерской работе анализируются и рассматриваются способы и алгоритмы видеосжатия по стандарту MPEG-2 исходя из оптимальности их реализации на FPGA и PRUS. Также подведен матаппарат. Но из-за отсутствия самой реализации данная работа находится еще на стадии доработки. Однако, данная тематика является очень интересной и актуальной, следовательно имеет смысл развивать эту идею и далее. Потому при защите магистерской работы будет представлен детальный анализ и исчерпывающие результаты выполнения.

Литература

Бадялик В. П./ «Основы телевизионного вещания со спутников»/М: Горячая линия – Телеком, 2004

Стандарты ISO 13818-1, ISO 13818-2, ISO 13818-3

Курс лекций «Алгоритмические основы машинной графики» МГУ им. М.В. Ломоносова.

Пескин А. Е., Труфанов В. Ф./ «Мировое вещательное телевидение. Справочник»/ М: Горячая линия – Телеком, 2004

Hao-Song Kong, Anthony Vetro, and Huifang Sun/ «Coding Mode Optimization for MPEG-2 Transcoding with Spatial Resolution Reduction»/ MERL – A MITSUBISHI ELEC-TRIC RESEARCH LABORATORY, TR-2003-99

Биография

Русский

Навигация по сайту

Ссылки