Українська English
Реферат по теме:
Исследование разработки динамического языка жестов для управления мультимедийным контентом

Содержание

Введение

За счет возрастания сложности решаемых научно-технических задач, автоматическая обработка и анализ визуальной информации становятся все более актуальными вопросами. Данные технологии используются в весьма востребованных областях науки и техники, таких как автоматизация процессов, повышение производительности, повышение качества выпускаемых изделий, контроль производственного оборудования, интеллектуальные робототехнические комплексы, системы управления движущимися аппаратами, биомедицинские исследования и множество других.

Компьютерное зрение является динамично развивающимся направлением современной науки. Неотъемлемой частью компьютерного зрения является распознавание образов, решающее задачу определения принадлежности входного изображения к одному из хранимых эталонных изображений объектов. При создании интеллектуальных систем также часто требуется отслеживать положение подвижных объектов в реальном времени на основе зрительной информации, полученной от видеокамеры. Располагая рядом последовательных по времени цифровых изображений, можно выделить специальную информацию об объекте и затем использовать ее для обнаружения текущего положения объекта и отслеживания его перемещений.

Основная цель исследования распознавания жестов заключается в создании системы, которая может определить конкретные человеческие жесты и использовать их для передачи информации или для управления устройством.

1. Обзор сведений о распознавании образов

Распознавание – это способность живых организмов обнаруживать в потоке информации, поступающей от органов чувств, определённые объекты, закономерности, явления. Оно может осуществляться на основе зрительной, слуховой, тактильной информации. Так, человек без труда может узнать другого знакомого ему человека, взглянув на него или услышав его голос. Некоторые животные активно используют обоняние для узнавания других особей и поиска пищи.

Возможность распознавания опирается на схожесть однотипных объектов. Несмотря на то, что все предметы и ситуации уникальны в строгом смысле, между некоторыми из них всегда можно найти сходства по тому или иному признаку. Отсюда возникает понятие классификации – разбиения всего множества объектов на непересекающиеся подмножества – классы, элементы которых имеют некоторые схожие свойства, отличающие их от элементов других классов. И, таким образом, задачей распознавания является отнесение рассматриваемых объектов или явлений по их описанию к нужным классам. Т.е. понятие распознавания можно расширить, если говорить об обнаружении объектов в потоке не только чувственной, но и любой другой информации. Например, можно говорить о распознавании болезни по её симптомам у больного или о распознавании социальных явлении по статистической информации.

1.1 Типы задач в распознавании

Системы распознавания имеют типичную функциональную схему где входные данные, подлежащие распознаванию, подаются на вход системы и подвергаются предобработке с целью их преобразования в необходимый для следующего этапа вид или для выделения из них необходимых характерных признаков. Далее на этапе принятия решения над обработанным массивом данных производится ряд вычислений и на основе их результатов формируется ответ, содержащий ожидаемые от системы сведения о входных данных. Содержание входных и выходных данных определяется назначением системы.

Кроме описанных этапов функционирования системы распознавания предусматривают свою настройку на множество возможных входных данных; этот этап называют этапом обучения системы. Целью обучения системы является формирование в её памяти набора сведений, необходимых для распознавания предполагаемого класса входных данных.

На этапе предобработки решается задача создания формализованного описания объектов распознавания, пригодного для использования алгоритмами собственно распознавания. Как правило, исходные данные о наблюдаемых объектах представлены в форме, непригодной непосредственно для распознавания. Это могут быть растровые изображения, звуковые файлы, статистические данные (числовые наборы), видеозаписи. Некоторые алгоритмы распознавания требуют более высокоуровневого представления. Это приводит к необходимости произвести одно или более преобразований исходных данных, переходя от кода 0 к коду 1, 2 и т.д. В качестве примера можно рассмотреть процедуру сегментации изображения, т.е. выделения на нём одноцветных областей.

Этап принятия решения является наиболее значимым в цикле работы системы распознавания с точки зрения её характеристики в целом. Т.е. задача, решаемая на данном этапе, во многом определяет назначение системы. Кроме того, для обеспечения возможности системы выполнять качественное принятие решений выдвигается ряд требований к этапу обучения. Наконец, как уже отмечалось выше, алгоритмы этапа принятия решений требуют необходимой предобработки входных данных.

1.2 Предварительная обработка изображений

Операции распознавания на изображениях определенных объектов, как правило, предваряются обработкой изображений для создания условий, повышающих эффективность и качество выделения и распознавания искомых или изучаемых объектов. Методы предварительной обработки зависят от задач исследований, довольно разнообразны и могут включать, например, выделение наиболее информативных фрагментов, их увеличение, получение 3-мерных изображений, цветокартирование, реализация высокого пространственного разрешения, повышение контрастного разрешения, улучшение качества изображений и т.п.

1.3 Выделение признаков объекта

Выделение признаков позволяет упростить реализацию распознавания или идентификации объектов. При выборе наиболее информативных признаков необходимо учитывать как свойства самих объектов, так и возможности разрешающей способности первичных формирователей сигнала изображения. Выделение признаков проведем на примере обработки монохромных (однослойных) изображений. В цветных изображениях рассмотренные алгоритмы можно применять к каждому цвету в отдельности.

При обработке предпочтительными являются следующие признаки объектов:

  • площадь и периметр изображения объекта;
  • размеры вписанных простейших геометрических фигур (окружностей, прямоугольников, треугольников и др.);
  • число и взаимное расположение углов;
  • моменты инерции изображений объектов.

Важной особенностью большинства геометрических признаков является инвариантность относительно разворота изображения объекта, а путем нормирования геометрических признаков друг относительно друга достигается инвариантность относительно масштаба изображения объекта.

2. Фильтрация изображений

Обычно изображения, сформированные различными информационными системами, искажаются действием помех. Это затрудняет как их визуальный анализ человеком-оператором, так и автоматическую обработку в ЭВМ. При решении некоторых задач обработки изображений в роли помех могут выступать и те или иные компоненты самого изображения. Например, при анализе космического снимка земной поверхности может стоять задача определения границ между ее отдельными участками - лесом и полем, водой и сушей и т.п. С точки зрения этой задачи отдельные детали изображения внутри разделяемых областей являются помехой.

Ослабление действия помех достигается фильтрацией. При фильтрации яркость (сигнал) каждой точки исходного изображения, искаженного помехой, заменяется некоторым другим значением яркости, которое признается в наименьшей степени искаженным помехой. Изображение часто представляет собой двумерную функцию пространственных координат, которая изменяется по этим координатам медленнее (иногда значительно медленнее), чем помеха, также являющаяся двумерной функцией. Это позволяет при оценке полезного сигнала в каждой точке кадра принять во внимание некоторое множество соседних точек, воспользовавшись определенной похожестью сигнала в этих точках. В других случаях, наоборот, признаком полезного сигнала являются резкие перепады яркости. Однако, как правило, частота этих перепадов относительно невелика, так что на значительных промежутках между ними сигнал либо постоянен, либо изменяется медленно. И в этом случае свойства сигнала проявляются при наблюдении его не только в локальной точке, но и при анализе ее окрестности. Заметим, что понятие окрестности является достаточно условным. Она может быть образована лишь ближайшими по кадру соседями, но могут быть окрестности, содержащие достаточно много и достаточно сильно удаленных точек кадра. В этом последнем случае, конечно, степень влияния далеких и близких точек на решения, принимаемые фильтром в данной точке кадра, будет совершенно различной.

Таким образом, идеология фильтрации основывается на рациональном использовании данных как из рабочей точки, так и из ее окрестности.

Задача заключается в том, чтобы найти такую рациональную вычислительную процедуру, которая позволяла бы достигать наилучших результатов. Общепринято при решении этой задачи опираться на использование вероятностных моделей изображения и помехи, а также на применение статистических критериев оптимальности. Причины этого понятны – это случайный характер, как информационного сигнала, так и помехи и это стремление получить минимальное в среднем отличие результата обработки от идеального сигнала. Многообразие методов и алгоритмов связано с большим разнообразием сюжетов, которые приходится описывать различными математическими моделями. Кроме того, применяются различные критерии оптимальности, что также ведет к разнообразию методов фильтрации. Наконец, даже при совпадении моделей и критериев очень часто из-за математических трудностей не удается найти оптимальную процедуру. Сложность нахождения точных решений порождает различные варианты приближенных методов и процедур.

3. Выделение границ

Для успешного решения задачи распознавания, необходимо выделить искомый объект на изображении, и привести его к нормализованному виду, пригодному для распознавания. Для выделения контуров объектов существует метод оптимального выделения границ

Джон Кэнни описал метод (и алгоритм) обнаружения границ (контуров) изображений, исходя из следующих трех критериев:

  1. повышение отношения сигнал/шум;
  2. правильное определение положения границ с минимальной систематической погрешностью;
  3. одно обнаружение (единственный отклик) на одну границу.

Метод Кэнни – метод, основанный на избирательной цифровой фильтрации пространственной функции изображения объекта с использованием оптимального по Кэнни оператора – гауссиана σ (см. рисунок 1).

Формула оператора Гауссиана

Рисунок 3.1 — Формула оператора Гауссиана

где x – переменная; s – стандартное отклонение оператора Гаусса; * – «оптимальный» линейный оператор для свертки с изображением; k2=2.

Если оптимальный по Кэнни оператор для выделения (детектирования) границы (в одномерном случае) имеет вид (1), то в двумерном случае производная должна браться в направлении перпендикулярном к границе изображения, которое должно быть предварительно оценено по направлению градиента сглаженного изображения.

Метод Кэнни не ограничивается вычислением градиента сглаженного изображения. В контуре границы оставляются только точки максимума градиента изображения и удаляются точки, лежащие рядом с границей. В данном методе используется также информация о направлении границы. Это необходимо для удаления точки, расположенной рядом с границей без разрыва самой границы вблизи локальных максимумов градиента. Слабые границы удаляются путем использования двух порогов. Фрагмент границы при этом обрабатывается как целое. Гистерезис использует два близких между собой пороговых значения. Если значение модуля вектора градиента в определяемой точке пространства ниже первого порогового значения, то оно устанавливается в ноль (точка делается не краевой). При значении модуля вектора большем значения второго (высокого) порога, то точка делается краевой. В случае, когда значение модуля вектора градиента находится между значениями этих двух порогов, то оно устанавливается в ноль в том случае, если нет пути от этого пикселя к пикселю со значением модуля вектора градиента больше значения второго порога. Использование такого гистерезиса позволяет снизить число разрывов в выходных границах. Следовательно, с помощью двух порогов удаляются слабые границы. Метод Кэнни является наиболее эффективным методом выделения границ. В отличие от других методов в нем при определении световых границ (контуров) используются два разных по значениям порога (для слабых и сильных границ).

Масштаб гауссиана sigma определяет значение коэффициента подавления шума: чем шире гауссиан, тем больше эффект сглаживания. Недостатком является то, что увеличение масштаба снижает точность локализации границы.

Установлено, что использование в методе оптимального выделения границ полосовой фильтрации и метода Кэнни (алгоритмов LoG и Canny) для подавления шумов с одной стороны повышает устойчивость полученных результатов, а с другой – увеличивает вычислительные затраты и приводит к искажению и даже потере подробностей границ. В частности, например, скругляются утлы объектов и разрушаются границы в точках соединений.

Позднее были предложены эвристические дополнения к методу Кэнни, позволяющие соединить незамкнутый конец контура с близлежащими контурами. В некоторых случаях это приводит к появлению ложных границ.

Ниже на рисунке 3.2 поэтапно изображен процесс выделения контуров объекта на изображении с помощью метода Кэнни.

Выделение контуров объекта на изображении с помощью метода Кэнни

Рисунок 3.2 — Выделение контуров объекта методом Кэнни (анимация: 6 кадров, 10 циклов повторения, 236 килобайт)

Выводы

В ходе выполнения научной работы были рассмотрена предварительная обработка изображений, выделение признаков объекта, фильтрация изображений и метод выделения границ.

Предварительная обработка изображений подразумевает под собой такие понятия:

  • коррекция яркости и контрастности изображений;
  • гистограммы яркости;
  • выравнивание изображений;
  • улучшение пространственного разрешения.

При обработке предпочтительными являются следующие признаки объектов:

  • площадь и периметр изображения объекта;
  • размеры вписанных простейших геометрических фигур (окружностей, прямоугольников, треугольников и др.);
  • число и взаимное расположение углов;
  • моменты инерции изображений объектов.

Замечания

На момент написания данного реферата магистерская работа еще не завершена. Предполагаемая дата завершения: май 2019 г. Полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя после указанной даты.

Список источников

  1. Журавель И.М. Краткий курс теории обработки изображений / Журавель И.М. – М. : АHСССР,1987. –392 с.
  2. Можейко В.И. Автоматическое сопровождение объектов в компьютерных системах обработки изображений / В.И. Можейко, В.Т. Фисенко, Т.Ю. Фисенко // Оптический журнал. – 2007 – №11. – С. 39-46.
  3. Прэтт У. Цифровая обработка изображений / Прэтт У. – М. : Мир, 1982. – Т.1,2. – 791 c.
  4. Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов / Марр Д. – М. : Радио и связь, 1987. – 637 с.
  5. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс.; [пер. с англ.]. – M.: Техносфера, 2005. – 1072 c.
  6. Горьян И.С Введение в цифровую обработку изображений / И.С. Горьян, Ф.Д. Межов, В.Т. Фисенко. – СПб. : ЭИС им. М. Бонч-Бруевича, 1992. – 60 c.
  7. Красильников Н.Н. Графический интерфейс голоса и жестов / Красильников Н.Н. – М.: Вузовская книга,2001. – 320 с.
  8. Шапиро Л. Визуальная интерпретация жестов для взаимодействия человека и машины / Л. Шапиро, Дж. Стокман. ; [пер. с англ.]. – М. : БИНОМ. Лаборатория знаний, 2006. – 752 с.
  9. Павлидис Т. Алгоритмы машинной графики и обработки изображений / Павлидис Т. ; [пер. с англ.]. – М. : Радио и связь, 1986. – 400 с.
  10. Дегтярев А.А. Элементы теории адаптивного расширенного фильтра Калмана / А.А. Дегтярев, Ш. Тайль. – М. : Радио и связь, 2003. – 35 с.