Назад в библиотеку

ВЫБОР ПЕРЕМЕННЫХ ДЛЯ НАИБОЛЕЕ КАЧЕСТВЕННОЙ КЛАССИФИКАЦИИ ОБЪЕКТОВ "

Автор: А.А. МЕКЛЕР, Д.Р. ШВАРЦ
Источник: http://library.mephi.ru/data/scientific-sessions/2011/neiroinform/ch1/2-1-2.doc

Представлен подход к решению проблемы выбора переменных, описывающих объекты, с целью дальнейшей классификации. Для этого предложены два способа оценки качества классификации при помощи самоорганизующихся карт Кохонена. Один из способов основан на сравнении внутриклассовых расстояний на карте Кохонена с межклассовыми; другой – на оценке относительного количества ближайших соседей нейронов-победителей, принадлежащих к тому же классу, что и сами нейроны-победители.

Ключевые слова: классификация данных, самоорганизующиеся карты Кохонена, критерий качества кластеризации

Введение

В настоящее время для решения диагностических задач всё шире применяются методы интеллектуального анализа данных. При этом зачастую возникает проблема выбора числовых характеристик объектов, пользуясь которыми, можно было бы осуществлять надёжную классификацию. В качестве примера можно привести проблему выбора генов для молекулярной классификации опухолей [1], а так же уменьшения количества выбранных генов. В случае если исследуемые характеристики обладают нормальными статистическими распределениями, решение данной проблемы не представляет труда – достаточно провести обычный статистический анализ. Однако если распределения сильно отличаются от нормальных, или даже мультимодальные, такой подход невозможен. В таких случаях для получения удачного набора характеристик, формирующих обучающие вектора, необходимо вводить какого-нибудь критерий, позволяющий сравнивать различные наборы переменных в обучающем векторе. Чаще всего для этого используют проверку качества классификации на внешней выборке. Однако в некоторых исследованиях объёмы экспериментальных выборок слишком малы для того, чтобы можно было разбивать их на 2 части и получать сколько-нибудь значимую статистику для этой цели. В то же время для продолжения исследований желательно сокращать число измеряемых параметров, подбирая такие, использование которых будет давать хорошее качество классификации.

Методы

В настоящей работе для решения проблемы поиска критерия оценки данных на предмет возможности их классификации предлагается использовать самоорганизующиеся карты Кохонена (СОК). При использовании СОК можно визуально оценить, насколько хорошо кластеризуются на карте вектора, принадлежащие разным классам. При этом хорошая кластеризация на СОК свидетельствует о том, что использованные вектора могут быть успешно классифицированы обучаемыми нейронными сетями. В работах [2] показана эффективность анализа структуры данных с заранее неизвестной структурой. CОК позволяет работать с кластерами нелинейной структуры, что хорошо изучено и показано в [3] на задачах FCPS – Fundamental clustering problem suite.

Одна из предлагаемых оценок основана на вычислении соотношения топологических расстояний на СОК:

где Dist(x, y) – топологическое расстояние на карте между двумя нейронами-победителями (НП), M – множество данных, принадлежащих к классу A, L – множество данных, принадлежащих к классу B. Таким образом, мы сравниваем расстояния между НП, принадлежащими одному классу (числитель) и расстояния между НП, принадлежащими разным классам (знаменатель).

Коэффициент является оценкой качества разбиения кластеров на два класса. Действительно, в случае если кластеризация на карте плохая, то НП, соответствующие векторам из обеих групп, расположены на карте вперемешку. При этом топологические расстояния между парами НП, относящихся к одному классу, и парами НП, относящихся к разным классам, примерно одинаковы и принимает максимальные значения. Если же кластеризация хорошая, то расстояния между нейронами из одного класса меньше, чем между нейронами из разных классов, и указанное соотношение принимает меньшие значения, чем в случае плохой кластеризации. Таким образом, мы можем выбирать переменные для составления векторов так, чтобы величина была по возможности меньше.

Другой способ оценки качества кластеризации связан с анализом ближайшего окружения нейронов-победителей. При хорошей кластеризации в окружении НП, относящихся к одному классу, будут НП, относящиеся к этому же классу (за исключением случаев, когда нейрон-победитель расположен на границе классов). В противном случае в окружении будут нейроны, относящиеся к обоим классам. Исходя из этих соображений, мы ввели величину N:

где и – количество НП, для которых вероятность того, что все НП – их соседи в радиусе R относятся к тому же классу, что и сами НП – являются для них своими, равна p. И – мощности множеств классов A и B. Вероятность p вычисляется как соотношение «своих» НП к общему количеству соседей.

Радиус R выбран из того соображения, что после завершения обучения нейронной сети НП обучающей выборки располагаются равномерно. В тех областях, в которых карта сильно растянута, соседние НП сильно отличается друг от друга, и поэтому не участвуют в расчете N. В результате при расчете N рассматриваются лишь максимально похожие соседи [4].

где SizeSOM – количество нейронов сети, DataLen – количество входных векторов. В дальнейших вычислениях мы принимали p=1 (вокруг все «свои») и R = 2 (подставляя в (3) значения SizeSOM = 900 и DataLen = 165.

Модельная задача

На рис. 1,а приведены примеры данных, имеющих двумерное распределение и не поддающиеся оценке степени различия линейными методами. При этом очевидно, что данные легко могут быть разделены при помощи нейронной сети. На карте Кохонена это разделение также видно (рис. 1,б). Теперь построим эти же распределения, но более размытыми – рис. 2. Очевидно, что при размывании распределений качество кластеризации ухудшается. Вычислим для всех трёх случаев и N. Мы видим, что при ухудшении качества кластеризации они монотонно изменяются – уменьшается, а N увеличивается. В первом случае их значения равны соответственно 1,6 и 0,94, во втором – 1,61 и 0,81, в третьем – 1,76 и 0,37.

 Рис 1. а (слева) – хорошо кластеризующиеся данные и б (справа) –соответствующая им карта Кохонена

Рис 1. а (слева) – хорошо кластеризующиеся данные и б (справа) –соответствующая им карта Кохонена"

 Рис. 2 Распределения данных и их отображения на картах Кохонена

Рис. 2. Распределения данных и их отображения на картах Кохонена, такие же, как на рис. 1, но более размытые и сильнее пересекающиеся (внизу более размытые, чем вверху)"

Задача реального мира

Разработанные меры качества кластеризации были применены при работе с реальными данными. Перед нами стояла задача диагностики расстройств моторной системы человека путём анализа тремора изодинамического усилия [5]. Для регистрации сигнала использовался тензодатчик, на который испытуемый давил пальцами рук в течение некоторого времени с постоянным усилием. Сигнал на выходе тензодатчика (тензотреморограмма, ТТГ) использовался для дальнейшего анализа [6]. После некоторой предобработки были получены спектральные характеристики сигнала. Стояла задача поиска участка спектра Фурье, при использовании которого классификация осуществлялась бы наиболее качественно. При поиске участков спектров было выбрано окно шириной пол-октавы, которое двигалось по спектру с шагом четверть октавы и каждый раз вычислялись величины и N. На рис. 3 приведены зависимости и N от положения окна (по оси абсцисс откладываются значения его нижней частоты). На рис. 4 приведены две СОК. Одна из них обучена на данных, соответствующих наиболее благоприятным значениям этих величин в приведённых зависимостях – наименьшему и наибольшему N, другая – на данных, соответствующих неблагоприятным значениям. Мы видим, что в первом случае меньше, чем во втором – 1,58 и 1,86, а N, наоборот, больше – 0,49 и 0,43. При этом визуально на картах тоже заметно, что в первом случае качество кластеризации лучше, чем во втором.

Выводы

Предложенные в настоящей статье меры качества кластеризации данных на картах Кохонена проявили себя как хорошее подспорье при выборе численных характеристик объектов для последующей классификации последних. Это особенно важно в случаях работы с многомерными численными характеристиками объектов, распределения которых далеки от нормального. Численная мера качества кластеризации имеет преимущество перед визуальным анализом карт в том, что последний занимает значительно больше времени, что делает его использование при переборе большого количества вариантов практически невозможным. Наконец, визуальный анализ карт без введения численных оценок может приводить к ошибкам в силу своей субъективности.

Работа частично поддержана грантом РФФИ 08-07-12052-офи

СПИСОК ЛИТЕРАТУРЫ

  1. Gui J, et al. Multistep Dimensionality Reduction and Semi-Supervised Graph-Based Tumor Classification Using Gene Expression Data // Artif Intell Med (2010), doi:10.1016/j.artmed.2010.05.004.
  2. Ultsch A., Morchen F. ESOM-Maps: Tools for Clustering, Visualization, Data. Bionics Research Group, University of Marburg, Marburg, Germany. March 17, 2005.
  3. . Ultsch A. Clustering with SOM: U*C, In Proc. Workshop on Self-Organizing Maps, Paris, France, (2005). P. 75–82.
  4. Шварц Д.Р., Бендерская Е.Н. Подход к определению параметров нейронной сети Кохонена в задачах анализа структуры многомерных данных // Научно-технические ведомости СпбГПУ. № 93. C. 18–26. 2010.
  5. Kuperin Y.A., Minin A.S., Mekler A.A. and Romanov S.P. Application of Adaptive Classification of Tensotremorograms for Revealing the Pathological States of Human Motor Control System // Optical Memory and Neural Networks (Information Optics), 2009, Vol. 18, №. 4. P. 304–311.
  6. Romanov S.P. and Manoylov V.V. RF Patent no. 2195869, 2003.