Н.С. Байгарова, Ю.А. Бухштаб, Н.Н. Евтеева,
Институт прикладной математики им. М.В. Келдыша РАН
Проблема обеспечения доступа к коллекциям изображений
Современная тенденция в работе музеев, библиотек и архивов - формирование электронных коллекций изображений, в том числе и видео, с целью сохранения культурного наследия и его пропаганды за счет обеспечения удаленного доступа. Это требует развития новых информационных технологий.
В настоящее время оцифровка и хранение больших объемов визуальных материалов - не проблема с технической точки зрения. Актуальной проблемой сегодня является обеспечение эффективного содержательного доступа к релевантной информации в электронных коллекциях изображений.
До последнего времени традиционным являлся поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением или фильмом. Авторы доклада разработали для представления коллекции изображений специализированную полнотекстовую поисковую машину, которая эффективно функционирует как на CD, так и в Интернет. На базе реализованного программного обеспечения создан и пополняется электронный каталог фильмов Российского государственного архива кинофотодокументов (этот проект выполняется при поддержке Института “Открытое общество”). Изображение (или фильм) в создаваемой с помощью этого инструментария системе представляется документом, все слова которого являются поисковыми; при этом документ структурируется с использованием контекстных областей для ограничения поиска документов одним или несколькими их компонентами, представляющими интерес для пользователя. Например, для каталога фильмов Российского государственного архива кинофотодокументов такими компонентами являются: название, авторы, дата создания, студия, тема, описание содержания, характеристики цвета и звука, параметры пленки и т.д. В результате поиска пользователю выдаются соответствующие запросу документы в их полном виде либо в форме, предназначенной специально для просмотра и включающей определенную выборку компонентов описания. Имеется возможность включения в документ для просмотра и самих изображений или видеоклипов.
При очевидной необходимости организации доступа к визуальной коллекции посредством поиска по текстовой информации, ассоциированной с изображениями, такой подход представляется недостаточным. Неоднозначность соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска. Информация, которую человек получает глядя на картинку, “стоит” тысячи слов. Некоторые изображения вообще трудно описать словами (очевидный пример - абстрактные картины).
В связи с этим возникает проблема организации доступа к современным электронным коллекциям изображений с использованием комплекса средств - как текстовых описаний, так и характеристик визуального содержания, простейших типа цветовой гаммы, и более сложных, связанных с распознаванием образов. Текстовое описание и визуальная поисковая информация дополняют друг друга, обеспечивая возможность разностороннего поиска. Запрос в этом случае может формулироваться в виде набора слов, возможно с указанием соответствующего контекста, или в терминах визуальных характеристик, или представлять собой комбинацию поисковых слов и определения визуального содержания. Поиск может выполняться итеративно: сначала поиск на основе ключевых слов, как более быстрый способ, затем среди отобранного множества материалов - более трудоемкий поиск с использованием визуальных характеристик.
Методы распознавания образов и понимания сцены в настоящее время из-за отсутствия эффективных универсальных алгоритмов применяются в узких предметных областях. Современная универсальная технология доступа к коллекциям изображений по визуальному содержанию связана с сопоставлением изображению набора визуальных примитивов (характеристик цвета, формы, текстуры, а для видео еще и параметров движения сцены и объектов) и определением количественной оценки близости изображений по значениям примитивов.
Представляемые в докладе исследования направлены на разработку и реализацию методов анализа, индексирования и поиска изображений и видеоданных на основании визуальных атрибутов и связаны с проблематикой автоматического понимания визуальной информации.
Визуальные примитивы и механизм поиска по образцу
Визуальные примитивы - это характеристики изображения, которые автоматически вычисляются по оцифрованным визуальным данным, позволяют эффективно индексировать их и обрабатывать запросы с использованием визуальных свойств изображения. Поисковый образ изображения, сгенерированный из визуальных примитивов, невелик по размеру в сравнении с самим изображением и удобен для организации поиска. Вычисление подобия изображений заменяет принятую в традиционных СУБД операцию установления соответствия запросу. Хотя запросом в такой системе может быть описание набора примитивов, более удобен запросный механизм поиска по образцу, когда система отыскивает изображения, визуально похожие на предоставленный образец. Система анализирует образец аналогично тому, как это делается при составлении поисковых образов изображений базы. Вычисление подобия изображения-образца изображениям коллекции осуществляется на основании сравнения значений отдельных визуальных примитивов, при этом система определяет меру их отличия, а затем сортирует изображения базы в соответствии с близостью к образцу по всем параметрам, с учетом указываемой в запросе степени важности каждого параметра. Поиск на таком уровне абстракции не предполагает идентификацию объектов. Скажем, если в качестве образца взято изображение собаки, то система будет искать изображения, похожие на образец по цветовой гамме, композиции, наличию определенных форм и т.п., но нет никакой гарантии, что среди них окажется изображение именно этого животного. Тем не менее, метод поиска по образцу на основании визуальных примитивов представляется на сегодняшний день достаточно эффективным и универсальным средством доступа к коллекциям оцифрованных изображений.
Различными группами исследователей, в том числе и авторами доклада, уже накоплен определенный опыт реализации алгоритмов вычисления и сравнения визуальных примитивов.
Методы индексирования и поиска изображений
Важность для человека цветового восприятия изображения объясняет значение методов поиска визуальной информации на основании схожести с образцом по цветовым характеристикам. Метод цветовых гистограмм – наиболее популярный из них. Возможно также использование таких показателей, как средний или основной цвета, а также множества цветов; эти характеристики имеет смысл использовать для локального индексирования областей изображения.
Идея метода цветовых гистограмм для индексирования и сравнения изображений сводится к следующему. Все множество цветов разбивается на набор непересекающихся, полностью покрывающих его подмножеств. Для изображения формируется гистограмма, отражающая долю каждого подмножества цветов в цветовой гамме изображения. Для сравнения гистограмм вводится понятие расстояния между ними. Известны различные способы построения и сравнения цветовых гистограмм, отличающиеся между собой изначальной цветовой схемой, размерностью гистограммы и определением расстояния между гистограммами. Авторами доклада реализовано несколько модификаций метода, применяющих разные способы разбиения множества цветов на подмножества и вычисления расстояния между гистограммами.
При разбиении RGB-цветов по яркости вычисляется интенсивность каждого цвета на основании его красной, синей и зеленой составляющих. Полученное значение, заключенное между числами 0 и 255, попадает в один из 16 интервалов, на которые разбивается диапазон возможных значений. В качестве расстояния между гистограммами используется сумма модулей разности соответствующих элементов гистограмм; некоторое усовершенствование метода достигается при вычислении расстояния на основании поэлементного сравнения гистограмм с учетом соседних элементов. Этот метод наиболее эффективен для черно-белых полутоновых изображений. Для цветных RGB-изображений лучшие результаты дает другой способ - разбиение RGB-цветов по прямоугольным параллелепипедам.
Цветовое RGB-пространство рассматривается как трехмерный куб, каждая ось которого соответствует одному из трех основных цветов (красному, зеленому или синему), деления на осях пронумерованы от 0 до 255 (большее значение соответствует большей интенсивности цвета). При таком рассмотрении любой цвет RGB-изображения может быть представлен точкой куба. Для построения цветовой гистограммы каждая сторона делится на 4 равных интервала, соответственно RGB-куб делится на 64 прямоугольных параллелепипеда. Гистограмма изображения отражает распределение точек RGB-пространства, соответствующих цветам пикселов изображения, по параллелепипедам. В качестве расстояния между гистограммами используется покомпонентная сумма модулей разности между ними. Несмотря на предельную простоту подхода, он показывает довольно стабильные результаты. В качестве тестовой базы была использована коллекция абсолютно разных фотографий, представленная на CD РИА “Новости”. Распознаются схожие по цветовой гамме серии картинок, если они имеются в базе. Например, если необходима картинка в ярко-красных тонах, можно взять за образец фотографию алой розы и получить из базы в качестве результата поиска фотографии, на которых крупным планом представлен красный флаг, черепичная крыша, женщина в красном платье и т.д. Для большинства практических задач целесообразным представляется предварительный отбор по текстовым описаниям, например по рубрикам. Так, если необходима летняя фотография с обилием зелени, имеет смысл искать по образцу, представляющему собой фотографию летнего леса или сада, в рамках рубрики “Природа”. В противном случае результаты поиска будут содержать много лишнего материала, например, футбольное поле или бильярдный стол.
Более точное сравнение изображений достигается с помощью техники квадродеревьев, когда методы вычисления и сравнения цветовых гистограмм применяются не ко всему изображению, а к его четверти (одной шестнадцатой и т. д.). Сравнение изображений основывается на расстоянии, определенном как Евклидово в пространстве расстояний между гистограммами их частей. Этот метод дает результат, семантически отличный от других вариантов: изображения, различающиеся только по взаимному расположению идентичных по цвету объектов, считаются непохожими, в то время как могли быть определены как близкие без использования этой техники. Целесообразность ее применения определяется значением для пользователя расположения на картинке-образце определенных цветовых областей. В качестве примера можно привести задачу поиска фотографий солнечного заката на море.
Особый интерес представляют методы индексирования, применяемые не для изображения в целом, а для отдельных его областей, так как не все части изображения одинаково информативны. Пространственное сегментирование изображения может осуществляться автоматически, когда выделяются области с некими общими свойствами - одинаковыми или сильно схожими значениями того или иного примитива.
Задача выявления границ объекта решается нами путем локализации на изображении резких перепадов яркости цвета. С этой целью вычисляется градиент функции интенсивности в каждой точке изображения, после чего подавляются значения меньше установленного порога. За основу взят метод Собеля. Выбор порога является одним из ключевых вопросов выделения перепадов. В реализованном нами алгоритме он отличается от оригинального метода Собеля. В пороговом условии учитываются как глобальный порог, равный средней для изображения величине градиента, так и локальный порог - средняя величина градиента в небольшой области вокруг анализируемой точки.
В результате обработки получается бинарная матрица, где единицам соответствуют точки со значительным перепадом яркости, нулям – все остальные. С целью борьбы с шумом и ликвидации возможных разрывов в контурах применяются морфологические операции, после чего в бинарной матрице единицами представлены точки, принадлежащие искусственно утолщенным на предыдущем этапе границам объектов. Для выделения точек внешнего контура используется обход полученной области по внешней ее стороне последовательно против часовой стрелки, начиная с нижней левой точки области и заканчивая ею же. Небольшие объекты при этом исключаются из рассмотрения.
Для выделенных объектов могут быть определены и включены в индекс такие параметры, как координаты на изображении, размеры, характеристики цвета, измерения текстуры и формы.
Существует успешная практика использования формы объектов для индексирования изображений с целью их дальнейшего сравнения. Авторы доклада реализовали метод, при использовании которого для вычисления предназначенных для индексирования характеристик формы из контура объекта равномерно выбирается 128 точек. Предлагается индексирование форм объектов вектором расстояний от каждой выделенной точки контура до центра фигуры и вектором углов поворота, а также способ сравнения форм на основании вычисления общего расстояния между двумя парами соответствующих векторов - используется покомпонентная сумма модулей разности. Обеспечивается независимость результатов сравнения форм объектов от их размеров и расположения, с точностью до поворотов. Реализующая данный метод программа показала приемлемые результаты при поиске изображений базы, содержащих объекты с формами, похожими на форму объекта изображения-образца. Тестирование проводилось на базе фотографий отдельных предметов. Отметим, что прибегать к механизму поиска по подобию форм объектов изображения целесообразно в тех случаях, когда специфика коллекции такова, что эти формы достаточно четко выражены в изображениях (например, коллекция плакатов).
Методы индексирования и поиска видеоданных
В связи с большим объемом видеофайлов для организации эффективного поиска данных с удовлетворительными показателями полноты и точности, а также для обеспечения быстрого предоставления пользователю релевантной информации имеет смысл индексировать каждый фильм не как единое целое, а как последовательность логически самостоятельных частей — видеофрагментов [13]. Задача сводится к определению границ видеофрагментов, они могут быть связаны с точками монтажа, изменением положения снимающей камеры и т.п. Временное сегментирование может выполняться путем автоматического анализа изображения, соответствующие приемы известны [3, 10].
Авторами доклада разработан алгоритм, основанный на сравнении цветовых гистограмм соседних кадров для выделения тех кадров, на которых происходит значительное изменение видеоизображения. Граница фрагментов считается обнаруженной, если разница гистограмм между рассматриваемыми кадрами выше некоторого абсолютного порога и одновременно в определенное число раз превышает среднее значение разницы гистограмм соседних кадров, посчитанное от начала выделяемого фрагмента до текущего кадра (относительный порог).
Результаты сегментирования, разумеется, сильно зависят от выбора параметров. Они установлены эмпирически для достижения приемлемых результатов с точки зрения минимизации числа ошибок, связанных с обнаружением ложной границы и пропуском действительной. Текущие значения подобраны так, чтобы ложные обнаружения встречались примерно на порядок чаще, чем пропуск переходов. Вызвано это тем, что на “двойном” видеофрагменте невозможно корректно вычислить характеристики движения, что является одной из главных целей временного сегментирования. Для тестирования программы использовались видеофильмы, взятые из различных источников, разного качества. На тестовом множестве программа не пропускает границы фрагментов для цветных видеофильмов и мультфильмов, для черно-белых фильмов процент пропущенных границ составляет 3-4%. Ложные обнаружения границ фрагментов для различных видеофильмов не превышают 12%.
После того как видеопоток разбивается на фрагменты, из них выделяются для исследования ключевые стоп-кадры. Стратегия извлечения представительных стоп-кадров из каждого выделенного фрагмента может быть очень простой, например: если фрагмент короче секунды, берется один центральный кадр, для более длинных фрагментов берется по одному в секунду. Для каждого выделенного кадра вычисляются с целью индексирования визуальные примитивы: цветовые гистограммы, характеристики формы и цвета объектов изображения, измерения текстуры; для этого применяются те же методы, что и для анализа статичных изображений. Кроме того, представляется важным индексировать фрагмент также характеристиками движения камеры/сцены и движения объектов, определяемыми на основании оптического потока, вычисленного по совокупности кадров видеофрагмента.
Для видеофрагмента, содержащего некоторые объекты в движении, можно вычислить направление и величину скорости движения в каждой точке кадра - известны разные алгоритмы вычисления оптического потока. Авторами доклада реализован дифференциальный метод расчета оптического потока (метод минимума градиента), который опирается на вычисление пространственно-временных производных интенсивности. В его основе два предположения: а) при движении объекта интенсивность составляющих его точек не изменяется; б) гладкое изменение значения скорости от точки к точке. Эти посылки приводят к системе линейных уравнений, которую авторы метода предлагают решать итерационным методом. Итеративное вычисление оптического потока выполняется нами на основании всех кадров фрагмента для более точного определения скоростей. (Итерация связана с временным шагом.) За счет доработки оригинального метода удалось добиться вычисления достаточно точных значений скоростей без существенного искажения формы и размеров движущихся объектов.
Сложные данные о движении, полученные после вычисления оптического потока, должны быть приведены к простой и пригодной для индексирования и поиска форме. В работе излагается возможный способ решения проблемы. Авторами доклада предлагаются новые характеристики, вычисляемые исходя из средних скоростей в квадрантах изображения. Алгоритмы могут использоваться для вычисления как глобальных, так и локальных характеристик видео: они применяются для всего изображения, а также отдельно для каждой прямоугольной области, содержащей движущийся объект.
Разработанная программа позволяет выделять значительные по размеру движущиеся объекты на основании предположения о близкой направленности скоростей соседних точек объекта. Для выделенных областей рассматриваются минимальные охватывающие их прямоугольники. Помимо их размеров и расположения, вычисляется средний модуль скорости по всем точкам, принадлежащим объекту (для обеспечения возможности поиска видеофрагментов с требуемой интенсивностью движения объекта), и вычисляются средние значения скорости в четырех квадрантах области (для определения типа движения). В качестве дальнейшего этапа исследований рассматривается задача определения траектории движения объектов и простейших происходящих с объектами событий (пространственно-временное взаимодействие и т. п.).
После обработки объектов исследуются глобальные характеристики движения, для чего вычисляются средние значения вектора скорости в квадрантах изображения и средняя интенсивность движения сцены (без учета скоростей выделенных объектов).
В рамках проводимых авторами доклада исследований была создана многоуровневая классификация видеофрагментов по типу движения на основании средних скоростей в квадрантах анализируемого изображения:
Идентификатор схемы движения
Выбирается наиболее близкая схема движения, определяющая для каждого квадранта одно из 8 основных направлений движения (с точностью до 45 градусов) или же отсутствие существенного движения. Первый вид классификации: схожими считаются фрагменты с одинаковыми идентификаторами их схемы движения. Несмотря на простоту, данная методика соответствует семантике многих реальных запросов. В частности, распознаваемы характерные функции камеры (приближение, удаление, сдвиг). Например, постепенному переходу к крупному плану будет соответствовать движение от центра к углам во всех четвертях.
Доминирующее направление
Идея – разбиение всего множества фильмов на два класса: с выраженным общим направлением движения и без него. С человеческой точки зрения, в первый тип попадают фрагменты с крупным планом и движущимся центральным объектом, а также эпизоды, снятые движущейся камерой, или с движением фона. Во второй – все остальные фрагменты. Естественно, для фрагментов с доминирующим движением целесообразно хранить не только сам факт его наличия, но и направление, а также число квадрантов с этим направлением.
3) Количество квадрантов с не близкими к нулю скоростями.
4) Эквивалентность схем с точностью до поворотов
Поддерживается разбиение на набор классов, каждый из которых образован поворотом схемы с базовым идентификатором вокруг своей оси на 0 (базовая схема), p /2, p и 3p /2. Семантически класс соответствует некому целостному движению, показанному с разных сторон. Полностью сохраняются все типичные видеоэффекты.
Предложенная классификация обеспечит разносторонний поиск видеофрагментов. При таком подходе запрос сможет задавать для искомого видеофрагмента: тип движения сцены или объекта - например, вращение или поступательное движение - с помощью полностью или частично определенной схемы движения, наличие некоторого доминирующего направления, количество квадрантов с ненулевыми скоростями, а также степень интенсивности движения. Понятие эквивалентности схем с точностью до поворотов позволит определять в запросе относительную схему движения.
Распознавание объектов на изображении
Пользователю электронной библиотеки изображений должна быть предоставлена возможность строить запросы с использованием различных визуальных средств - в терминах не только визуальных примитивов, но и высокоуровневых объектов. Для этого в поисковом образе должен отражаться факт присутствия на изображении объектов, а также их размеры и расположение на кадре. Задача нахождения на изображении объектов в настоящее время не ставится глобально. Как правило, речь идет об объектах определенного класса, особенно интересных для рассматриваемой предметной области. Например, для документальных фото- и видеоматериалов основной объект – человек. Поэтому в рамках описываемых исследований решалась задача локализации (не идентификации) фронтального вида лица человека на неподвижных изображениях или стоп-кадрах фильма с помощью нейронной сети. Использование большого количества положительных и отрицательных примеров для обучения классифицирующего механизма позволяет автоматически получить достаточно точную модель объекта.
Рассматриваемую систему распознавания можно разделить на две подсистемы:
1) Предварительная обработка, устраняющая влияние источника света, и нейросетевой фильтр, который для каждой области изображения размером 20 на 20 пикселов выдает ответ, подтверждающий или опровергающий факт наличия лица. Они применяются к каждому участку анализируемого изображения и изображений, полученных из исходного путем многократного уменьшения. Механизм дает возможность находить лица разного размера.
2) Арбитр, который отбрасывает ошибочно обнаруженные лица.
На данный момент нами реализована первая подсистема, а также механизм обучения сети.
Обучение нейронной сети на примерах позволяет автоматически настроить ее параметры. Особенности подготовки обучающего набора изображений лиц делают систему распознавания инвариантной к небольшим наклонам головы. Предусмотрено повторное обучение системы на примерах, не содержащих лиц, если система ошибочно их выявляет на этапе тестирования.
Для обучения системы было подготовлено 500 изображений с лицами, из которых было сгенерировано 3000 примеров лиц (путем небольших поворотов и зеркального отражения исходной картинки); случайным образом было сгенерировано 500 изображений, не содержащих лица. После проведенного на данный момент обучения система показывает высокие показатели распознавания лиц, однако пока значителен и процент ошибочного их обнаружения. Это связано со сложностью подготовки всеобъемлющего множества отрицательных примеров, необходимостью использования для обучения большего количества примеров и с тем, что пока не применяется арбитражная система. Работы в данном направлении продолжаются.
Заключение
Разрабатывая методы поиска изображений и видеоданных на основании визуальных атрибутов, мы видим главную задачу в создании системы всестороннего содержательного поиска в электронных коллекциях изображений. Наиболее оптимальным подходом представляется использование различных источников информации. Это и подготовленные человеком (экспертом) текстовые описания, и автоматически вычисленные простейшие характеристики визуального содержания; и локализованные наиболее интересные для предметной области объекты.
Для видеоматериалов поисковая информация может быть пополнена за счет распознавания речи и выделения титров с последующим применением к ним системы распознавания символов. Эффективное использование электронной видео-библиотеки требует отражения в поисковых структурах также информации об основных звуках, сопровождающих видеоизображение; для получения этой информации необходимо решение задачи автоматического распознавания не только речи, но и других акустических явлений - шума, фоновой музыки и т.д. Помимо задачи поиска, автоматический анализ аудио-визуального содержания видеоматериалов необходим для выделения наиболее информативного подмножества кадров, предназначенного для представления результатов поиска в сокращенном виде; это важно для организации быстрого просмотра большого количества материалов. Например, ценность кадра повышается, если в нем присутствует крупным планом лицо и имеются титры.
Назначение данных разработок – обеспечение эффективного доступа к электронным хранилищам изображений и видеофильмов, сформированным на базе коллекций архивов, музеев, библиотек, а также частных коллекций, созданию которых способствует растущая популярность цифровых фотоаппаратов и кинокамер.
Литература
1. Ardizzone, E., La Cascia, M., and Molinelli, D.,
Motion and Color Based Video Indexing and Retrieval,
Proc. Int. Conf. on Pattern Recognition, (ICPR-96), Wien, Austria, Aug. 1996.
http://www.cs.bu.edu/associates/marco/publications.html
2. Ardizzone, E., La Cascia, M., Vito di Gesu, and Valenti, C.,
Content Based Indexing of Image and Video Databases by Global and Shape Features, 1996.
http://www.cs.edu./associates/marco/publications.html
3. Н.С. Байгарова, Ю.А. Бухштаб
Некоторые принципы организации поиска видеоданных
Программирование, N 3, 1999, стр. 165-170
4. Н.С. Байгарова, Ю.А. Бухштаб
Проект “Кинолетопись России” : представление и поиск видеоинформации
I Всероссийская конференция “Электронные библиотеки”, Санкт-Петербург, 1999, стр. 209-215
5. Н.С. Байгарова, Ю.А. Бухштаб, Н.Н. Евтеева
Организация электронной библиотеки видеоматериалов
Препринт Института прикладной математики им. М.В. Келдыша РАН, 2000, N 5
6. Н.С. Байгарова, Ю.А. Бухштаб, А.А. Воробьев, А.А. Горный
Организация управления базами визуальных данных
Препринт Института прикладной математики им. М.В. Келдыша РАН, 2000, N 6
7. Н.С. Байгарова, Ю.А. Бухштаб, А.А. Горный
Методы индексирования и поиска визуальных данных
Препринт Института прикладной математики им. М.В. Келдыша РАН, 2000, N 7
8. Baron, J. L., Fleet, D. J., and Beauchemin, S. S., Performances of optical flow techniques.
Int. Journal of Computer Vision, 12:1, pp.43—77, 1994
|