Автор: Вовк О.Л.
Источник: VII международная конференция «Интеллектуальный анализ информации ИАИ-2007». – Киев, 2007. - с. 22-31.
Работа посвящена выделению особенностей контекстного поиска изображений, основанного на сравнении характеристик отдельных групп пикселей (кластеров, регионов). Приведена математическая модель задачи контекстного поиска кластеризированных изображений. Показаны результаты экспериментов по оценке точности содержательного поиска визуальной информации
На сегодняшний день компьютер из вычислительной машины превратился в универсальное устройство, которое с равным успехом может служить профессиональным инструментом инженера, бизнесмена, юриста, врача или средством обучения, повседневного общения, развлечения. Для решения с помощью компьютера перечисленных выше задач необходимо соответствующее программное обеспечение, в основе которого различные методы обработки информации. Постоянное накопление электронных данных требует от разработчиков программного обеспечения и научных исследователей создания эффективных методов поиска в архивах информации (текстовой или визуальной). Поиск визуальной информации (изображений) затрудняется отсутствием однозначного текстового описания, по которому можно бы было индексировать изображения. Таким образом, решение задачи контекстного поиска изображений является актуальным.
Цель работы - разработка математической модели контекстного поиска кластеризированных изображений в базах данных; экспериментальная оценка качества системы поиска изображений, основанной на сравнении характеристик выделенных кластеров.
Запросы пользователей к коллекциям изображений традиционно классифицируют по трем уровням абстракции [1]: примитивный уровень (поиск по визуальным примитивам: цвету, форме, текстуре - найти изображения, подобные заданному), логический уровень (идентификация представленных объектов - найти изображения Эйфелевой башни), абстрактный уровень (учёт значимости изображённых сцен - найти изображения, отражающие определенные настроения).
Большинство методов поиска изображений в электронных коллекциях осуществляют удовлетворение запросов примитивного уровня абстракции. Рассмотрим базовые группы методов [2].
Необходимо отметить, что корректное удовлетворение запросов возможно только при использовании методов из третьей группы в виду следующих недостатков методов других групп:
Методы, в основе которых выделение регионов изображений, позволяют проводить контекстный поиск изображений и на логическом уровне абстракции, так как в их основе - выделение отдельных объектов изображений.
Общая схема содержательного поиска изображений в электронных коллекциях приведена на рис. 1 [2]. Блок, выделенный пунктирной линией, присутствует только при поиске, основанном на выделении регионов изображений.
Рис. 1. Общая схема контекстного поиска изображений в базах данных на примитивном уровне абстракции
Также выделяют группу методов поиска на примитивном уровне абстракции, в основу которых положен механизм «обратной связи» [3]. При работе системы поиска с «обратной связью» пользователь должен выбрать одно или несколько изображений (образцов) поиска для того, чтобы инициализировать запрос. Исходя из информации о визуальных характеристиках изображения (ий) поиска, система получает первый запрос, моделирует, и отыскивает первый результат. Затем, в итерационном усовершенствовании обработанный результат может быть улучшен «обратной связью уместности», обеспеченной пользователем. Недостатком данной группы методов является субъективное определение визуального подобия изображений [3].
Существуют некоторые модификации общей схемы, приведенной на рис. 1, которые позволяют проводить поиск на логическом и (или) абстрактном уровне запросов.
Одна из таких модификаций - семантическая классификация изображений [2] в совокупности с методами поиска, основанными на кластеризации. Под семантической классификацией принято понимать разделение множества анализируемых объектов на несколько классов (обычно порядка 20 [2]). К примеру, семантическими классами могут быть: цветы, автомобили, здания и т.д.
Основным недостатком семантических систем принято считать [2] отсутствие корректных методов классификации изображений на группы. Самые распространенные методы семантической классификации делят объекты на два класса: «текстурированные» и «не-текстурированные» или «фотография» и «не-фотография» [2,4].
В качестве другой модификации общей схемы контекстного поиска визуальной информации можно выделить методы, которые дополняют стандартный содержательный поиск (рис. 1) поиском по текстовым описаниям [5]. Однако такой механизм поиска эффективен при поиске изображений, описание которых легко однозначно формализовать (примером может служить поиск изображения в оцифрованной коллекции картин с учетом фамилии автора картины). В других случаях, субъективное описание может только затруднить решение задачи поиска.
Пусть имеется база данных T, состоящая из n цифровых изображений ti, т.е. T={t1,t2,…,tn}. Изображение ti имеет размер wi×hi пикселов. Каждому пикселю pijk изображения ti соответствует три цветовых составляющих pijk={rijk, gijk, bijk}, отражающих интенсивности красного, зеленого и синего цветов соответственно, причем j, k соответствуют координатам пикселя изображения (, Необходимо отметить, что не обязательно три цветовые составляющие соответствуют интенсивностям красного, зеленого и желтого цветов (пространство цветов RGB), они могут также, к примеру, соответствовать цветовому тону, насыщенности и светлоте (пространство цветов HSL). Таким образом, изображение ti можно записать в виде:
ti ={pijk={rijk, gijk, bijk}|, , }, |
(1) |
Кроме базы изображений Т, на вход системы контекстного поиска подается изображение образец (шаблон) поиска to:
to ={={} |, }, . |
(2) |
Содержательный поиск изображений в базах данных основывается на сравнении характеристик изображений базы данных Т и характеристик изображения образца поиска to. К характеристикам изображений относят характеристики: цвета, формы, текстуры, местоположения. Следовательно, каждому изображению tiT соответствует вектор характеристик Сi={ci1, ci2, …,ciM} и изображению запроса to соответствует вектор характеристик Со={}. Следует отметить, что при реализации системы контекстного поиска изображений параметр М задается априорно и равняется анализируемому в работе числу характеристик изображений.
При вычислении векторов характеристик изображений Ci (или Co) учитываются характеристики цвета и геометрические характеристики местоположения пикселов pijk ( или).
В основе сравнения изображений по характеристикам [2] - расстояние di D (D={d1, d2, …, dn}) между характеристиками Сi={ci1, ci2, …,ciM} каждого из изображений tiT и характеристиками изображения образца Со={}. Для вычисления di наиболее часто используют среднее Евклидово расстояние [2]:
(3) |
Набор расстояний D упорядочивается по возрастанию. Результатом контекстного поиска является набор изображений R={ti | }, где L - заданное пользователем системы количество результатов контекстного поиска. Отметим, что каждому изображению ti соответствует расстояние di. Результатами поиска будут изображения ti базы данных, которые соответствуют меньшим значениям di, в количестве L. В случае, если в базе данных Т присутствует точная копия изображения образца to, то удовлетворяется условие:
(4) |
Существует два основных способа вычисления характеристик изображения Ci(Co): вычисление характеристик всего изображения и вычисление характеристик отдельных групп пикселов (регионов, кластеров).
Рассмотрим более подробно второй из приведенных случаев (т.к. в предыдущем разделе обоснован выбор именно этого направления в качестве наиболее перспективного для исследований), математическая модель которого имеет следующие отличия.
Для пикселов pijk анализируемого изображения ti предварительно производится их группировка в отдельные кластеры aif, f[1,Cli], причем Cli, в зависимости от используемых методов кластеризации, может, как задаваться априорно, так и вычисляться в процессе кластеризации. Таким образом, изображение представляется в виде:
. |
(5) |
Также необходимо отметить, что выделенные подмножества пикселов aif должны не пересекаться (не иметь общих пикселов), т.е.:
Ø, |
(6) |
где y[1, Cli], z[1, Cli], y≠z,
В случае кластеризации изображения образца поиска to процедура выделения кластеров будет аналогичной описанной выше.
В данном случае, для сравнения изображений (нахождения расстояний между ними) формула (3) будет модифицирована за счет нахождения расстояний не между изображениями, а между отдельными группами пикселов анализируемых изображений. Для анализа близости изображения ti и изображения toрасстояние между ними можно определить по формулам [2]:
, , , |
(7) |
гдеClo - количество кластеров изображения образца to, Cli - количество кластеров i-го изображения базы данных T, - степень различия u-го кластера изображения образца to и соответствующего кластера i-го изображения ti базы данных Т, - расстояние между и-м кластером изображения образца и b-м кластером изображения базы данных ti , Сb={cb1, cb2, …,cbM} - вектор характеристик b-ого кластера изображения базы данных ti, Сu={} - вектор характеристик u-го кластера изображения образца поиска to.
, , , |
(8) |
Числовые значения коэффициентов приоритетов предлагается рассчитывать как:
(9)
Рис.2. Результаты экспериментов по оценке точности контекстного поиска кластеризированных изображений