Назад в библиотеку

О способе определения близости объектов взвешенных обучающих выборок

Автор: Волченко Е.В.
Источник:Вісник Національного технічного універсистету «Харківський політехнічний інститут». Збірник наукових праць. Тематичний випуск: Інформатика і моделювання. – Харків: НТУ «ХПІ», 2012. – № 15. – C. 12–20.

Аннотация

Волченко Е.В. О способе определения близости объектов взвешенных обучающих выборок. В работе предложена метрика для определения расстояния между объектами обучающих выборок, имеющими вес. Выполнено расширение алгоритма k-ближайших соседей на взвешенные выборки w-объектов с вычислением расстояния на основе предложенной метрики. Проведены экспериментальные исследования, подтвердившие эффективность предложенного подхода

Постановка проблемы и анализ литературы

Классификация объектов в обучающихся системах распознавания заключается в определении их близости к объектам обучающей выборки на основе выбранной метрики (функции расстояния).

Метрикой называют неотрицательную вещественную функцию d(Xi, Xj), удовлетворяющую следующим условиям [1]:

  1. d(Xi, Xj)≥0 для всех объектов Xi и Xj обучающей выборки X;
  2. d(Xi, Xj)=0 тогда и только тогда, когда Xi = Xj(аксиома тождества);
  3. d(Xi, Xj)=d(Xj, Xi)(аксиома симметрии);
  4. d(Xi, Xj)≤d(Xi, Xs)+d(Xs, Xj) где Xi, Xj и Xs – три любые объекта выборки X (аксиома треугольника).

Особенности расположения объектов обучающей выборки в признаковом пространстве, недостаточный (избыточный) объем данных, наличие шума и неполных данных существенно повышают важность выбора метрики, позволяющей выполнять классификацию объектов с наибольшей эффективностью [2]. На сегодняшний день разработано значительное количество метрик, перечень которых можно найти, например, в [3], обеспечивающих высокую эффективность классификации, однако для некоторых видов систем распознавания этот вопрос остается открытым.

Анализ большого числа прикладных задач, решающихся путем построения систем распознавания показал, что на сегодняшний день наиболее востребованными являются адаптивные обучающиеся системы распознавания, характеризующиеся способностью изменять свои свойства (словарь признаков, обучающую выборку, решающие правила классификации и т.д.) в соответствии с изменениями распознаваемых объектов [4]. Определяющей особенностью этих систем является возможность пополнения обучающей выборки новыми объектами на всем протяжении времени работы системы, что приводит к неограниченному росту обучающей выборки и необходимости корректировки решающих правил при добавлении новых объектов.

В предыдущих работах автора [4, 5] для сокращения размера обучающих выборок в адаптивных обучающих системах была предложена и реализована алгоритмически идея перехода к взвешенным обучающим выборкам, каждый w-объект которой строится по множеству близкорасположенных в пространстве признаков объектов исходной выборки. Значения признаков w-объектов являются центрами масс значений признаков объектов найденных множеств. Вес содержит информацию о взаиморасположении, количестве или качестве заменяемых объектов и, исходя из результатов экспериментальных исследований, проведенных в предыдущих работах, позволяет существенно повысить эффективность работы систем.

Введение дополнительной характеристики для описания w-объектов не позволяет корректно выполнять классификацию объектов из-за отсутствия метрики, рассчитывающей расстояние между объектами, имеющими разный вес.

Цель работы

Целью данной работы является разработка и анализ метрики для оценки степени близости объектов во взвешенных обучающих выборках.

Постановка задачи

Пусть имеется некоторая конечная взвешенная обучающая выборка w-объектов XW={X1W, X2W,...,XkW}. Каждый w-объект XiW этой выборки описывается системой признаков {Xi1, Xi2,...,Xin} и весом pi – целым положительным числом, т.е. XW={X1W, X2W,...,XkW, pi} и представляется точкой в линейном пространстве признаков, т.е. Xi∈Rn. Для каждого w-объекта известна его классификация yi∈V, где V={V1,...,Vl} – множество всех классов системы.

Имеется некоторый объект Xs={Xs1, Xs2,...,Xsn}, заданный только набором признаков (для единообразия присвоим ему вес равный единице, т.е. ps=1, тогда XsW={Xs1W, Xs2W,...,XsnW, ps}).Необходимо выполнить классификацию объекта XsW для чего требуется построить функцию dW(XsW, XiW) оценки расстояния между классифицируемым объектом и объектами взвешенной обучающей выборки.

Построение метрики на взвешенных обучающих выборках

Выбор метрик в задачах распознавания ограничивается, в первую очередь, сложностью их вычисления [6] и близостью к реальному топологическому разделению пространства признаков на области, соответствующие классам системы [7].

По результатам анализа особенностей расположения объектов взвешенной выборки в пространстве признаков может быть предложена следующая метрика.

Пусть каждый w-объект взвешенной обучающей выборки представляется материальной точкой в признаковом пространстве Rn и имеет массу, равную весу w-объекта.

Тогда "близость" двух материальных точек (двух w-объектов) XiW={Xi1, Xi2,...,Xin, pi} и XjW={Xj1, Xj2,...,Xjn, pj} в пространстве признаков может быть определена по силе притяжения между ними



Два w-объекта XiW и XjWявляются ближайшими, если сила притяжения между ними, рассчитанная по формуле (1), максимальна.

Поскольку при вычислении расстояний два объекта являются ближайшими, если расстояние между ними минимально, в качестве метрики для определения расстояния между w-объектами будем использовать величину, обратную к (1).

Теорема

Функция является метрикой



Доказательство. Покажем, что формула (2) определяет метрику, т. е. удовлетворяет условиям 1–4.

Свойство 1. Для любой пары w-объектов XiW и XjW взвешенной обучающей выборки XW dW(XiW, XjW)≥0.

В формуле (2) выражение является евклидовой метрикой, для которой данное свойство выполняется. Согласно постановке задачи веса w-объектов pi≥1 и pj≥1, поэтому для (2) свойство 1 выполняется для любых XiW и XjW.

Свойство 2. Для любой пары w-объектов XiW и XjW взвешенной обучающей выборки XW dW(XiW, XjW) = 0 тогда и только тогда, когда XiW = XjW.

Пусть xio = xjo для всех o=1,n, тогда



(по условию pi≥1 и pj≥1), т. е. для (2) свойство 2 выполняется для любых XiW и XjW.

Свойство 3. Для любой пары w-объектов XiW и XjW взвешенной обучающей выборки XW dW(XiW, XjW) = dW(XjW, XiW).

Поскольку



то, свойство 3 выполняется для любых XiW и XjW.

Свойство 4. Для любых w-объектов XiW, XjW и XkW выборки XW dW(XiW, XjW)≤dW(XiW, XkW)+dW(XkW, XjW).

Рассмотрим естественный случай, когда выполняется расчет расстояния от двух w-объектов XiW, XjW (обычно принадлежащих разным классам) до распознаваемого объекта XsW, т.е. покажем, что dW(XiW, XjW)≤dW(XiW, XsW)+dW(XsW, XjW).

Пусть



В результате преобразований получим выражение



Так как ps=1, а pi≥1 и pj≥1, то неравенство (3) является неверным и свойство 4 выполняется для любых XiW, XjW и классифицируемого объекта XsW.

Поскольку для (2) все свойства метрики выполняются, то функция



является метрикой.

Отметим, что рассмотрение случая, когда классифицируемый объект XsW имеет неединичный вес, будет рассмотрено в следующих работах.

Классификация объектов на основе взвешенных обучающих выборок

Для классификации объектов на основе взвешенных обучающих выборок w-объектов будем использовать алгоритм k-ближайших соседей [2], широко применяющийся при решении задач классификации в условиях неполных априорных данных. Выбор данного метода для классификации на основе взвешенной обучающей выборки основывается на результатах исследований [5], согласно которым он будет показывать высокую эффективность классификации при использовании сокращенной обучающей выборки. Для классификации объекта XsW с помощью метрики (2) найдем k ближайших к нему w-объектов каждого из классов и отнесем к тому классу, суммарное расстояние до объектов которого минимально.

Результаты экспериментальных исследований

Для оценки эффективности предложенного подхода был проведен ряд экспериментальных исследований. В качестве исходных данных были использованы выборки объектов двух классов размером 1000–5000 объектов при 20 % пересечении областей классов в пространстве признаков, содержащих 5–20 признаков распознавания. Для генерации значений признаков использовался нормальный и равномерный законы распределения.

Оценка эффективности классификации объектов на основе взвешенной обучающей выборки по предложенной модификации алгоритма k-ближайших соседей выполнялась на тестовых выборках размером 100 объектов, полученных с помощью тех же генераторов, что и обучающие выборки. В качестве критерия оценки эффективности классификации использовалась частота неверных классификаций. Количество "ближайших соседей" равно 10 % размера обучающей выборки w-объектов.

Анализ полученных результатов позволяет сделать следующие выводы:

1. Pазмер взвешенной выборки w-объектов составил в среднем 2,3 % размера исходной обучающей выборки;

2. Частота неверной классификации объектов тестовой выборки модифицированным методом k-ближайших соседей по выборке w-объектов уменьшилась в среднем на 7,4 % по сравнению с частотой неверной классификации методом k-ближайших соседей по исходной выборке.

Отметим, что близкие результаты были получены при 10–40 % пересечении областей классов в пространстве признаков и изменении количества признаков распознавания.

Также были проведены экспериментальные исследования эффективности предложенного подхода на выборках репозитория ISEC (International Statistical Education Centre) [9], для которых частота неверной классификации объектов модифицированным методом k-ближайших соседей по выборке w-объектов уменьшилась в среднем на 5,3 %.

Выводы

В работе предложен способ оценки расстояния между объектами взвешенной обучающей выборки и классифицируемыми объектами с помощью новой метрики. Выполнено расширение алгоритма k-ближайших соседей на взвешенные выборки w-объектов с вычислением расстояния на основе предложенной метрики.

Результаты экспериментальных исследований показали устойчивое уменьшение частоты неверных классификаций в среднем на 7,4 %, что позволяет сделать вывод об эффективности использования взвешенных выборок w-объектов в адаптивных обучающихся системах.

Автор благодарит к.ф.-м.н., с.н.с. И.С. Грунского за ряд ценных замечаний и внимание к данной работе.

Список использованной литературы

1. Дюран Б. Кластерный анализ / Б. Дюран, П. Оделл. – М.: Статистика, 1977. – 130 с.
2. Theodoridis S. Pattern Recognition / S. Theodoridis, K. Koutroumbas. – San Diego: Academic Press, 2008. – 823 p.
3. Воронин Ю.А. Теория классифицирования и её приложения / Ю.А. Воронин. – Новосибирск: Наука, 1985. – 232 с.
4. Розробка теоретичних засад i методів реалiзацiї відкритих систем автоматичного розпізнавання, що навчаються: способи оптимiзацiї навчаючих вибiрок i методи побудови зважених вирішуючих правил класифiкацiї [Текст]: звiт з НДР (заключний): Тема GP/F32/130, Грант Президента України для пiдтримки наукових дослiджень молодих учених на 2011 рiк / керiвник роботи О.В. Волченко. – Донецк, ГВУЗ "ДонНТУ", 2011. – 67 с.
5. Волченко Е.В. Метод построения взвешенных обучающих выборок в открытых системах распознавания / Е.В Волченко // Доклады 14-й Всероссийской конференции "Математические методы распознавания образов (ММРО-14)", Суздаль, 2009. – М.: Макс-Пресс, 2009. – С. 100–104.
6. Гороховатский В.А. Метрики на множествах ключевых точек изображений / В.А. Гороховатский // Бионика интеллекта. – 2008. – № 2 (69). – С. 45–50.
7. Рудаков К.В. О структуре метрических технологий Data Mining / К.В. Рудаков, Г.В. Никитов // Искусственный интеллект. – 2002. – № 2. – С. 218–220.
8. Павлов Д.А. Модифицированный алгоритм классификации типа k-ближайших соседей / Д.А. Павлов, А.П. Серых // Фундаментальная и прикладная математика. – 2000. – Том 6. – № 2. – С. 533-548.
9. http://www.isical.ac.in/~miu