Онтология анализа данных

Авторы: Николай Некипелов, Акобир Шахиди

Источник: BaseGroup - Онтология анализа данных




"Отчего же не вырвать? Вырвать можно. Только тут понимать надо, без понятия нельзя… Зубы разные бывают. Один рвешь щипцами, другой козьей ножкой, третий ключом… Кому как."
А.П.Чехов

Введение

Потоки текстовой и числовой информации ежедневно порождаются и оседают в хранилищах данных. Насколько полно на практике используются все те закономерности, которые кроются в этих данных и, возможно, представляют большую ценность? Можно предположить, что процент переработки "сырых" данных в практически значимые знания пока что весьма скромен. Даже богатый арсенал классической статистики используется далеко не полностью, не говоря уже о более современных методах нелинейного анализа. "Там, где обязаны поклоняться солнцу, законы теплоты будут слабо поняты" Речь о том, что в нашей стране, хотя статистика и не обзывалась "продажной девкой буржуазии", длительное время осуществлялось неприятие формальной статистики. Какая тут статистика, если сами данные должны были соответствовать идеологическим установкам государства. Ситуация усугубляется тем, что в последнее время активно развиваются новые методы анализа данных и извлечения знаний, базирующиеся на иных, нежели традиционная интегро–дифференциальная парадигма, подходах. Имеются в виду методы эволюционного моделирования и методы машинного обучения. Термин "эволюционное моделирование" в настоящее время является достаточно устоявшимся, и общепринято под этим термином подразумевать генетические алгоритмы и искусственные нейронные сети. Термин "машинное обучение" оставляет больше возможностей для дискуссий о том, какие методы имеются в виду, в частности, сюда относятся деревья решений.

Что такое онтология?

Как ориентироваться в этом многообразии инструментов? Какой из них выбрать для решения конкретной задачи? В сложившейся ситуации очень кстати приходится сравнительно новый термин – "онтология". Онтология – это точная спецификация некоторой предметной области. Она обеспечивает словарь для представления и обмена знаниями об этой предметной области и множество связей, установленных между терминами в этом словаре. В простейшем случае построение онтологии сводится к:

Одним из преимуществ использования онтологий в качестве инструмента познания является системный подход к изучению предметной области. При этом достигаются:

Онтология анализа данных

Так как знания носят личностный характер, одну и ту же предметную область можно описать разными онтологиями. Особенно это касается плохо формализуемых предметных областей или при наличии большого числа спорных вопросов.

Математическая статистика

Для решения задач, связанных с анализом данных при наличии случайных и непредсказуемых воздействий, математиками и другими исследователями за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статистикой. За это время накоплен большой опыт успешного применения этих методов в разных сферах человеческой деятельности, от экономики до космических исследований. И при определенных условиях эти методы позволяют получать оптимальные решения. Например, одна из задач, решаемых в радиолокации – обнаружение известного сигнала на фоне аддитивной помехи в виде белого шума. Методы математической статистики решают эту задачу оптимальным образом и трудно себе представить необходимость применения других подходов к решению этой задачи. В тоже время, задача разрешения близко расположенных целей в условиях более сложной помеховой обстановки линейными статистическими методами решается менее успешно.

Эволюционное моделирование

На сегодняшний день, говоря об эволюционном моделировании, обычно имеют в виду генетические алгоритмы и искусственные нейронные сети. Термин "эволюционное моделирование" обязан своим происхождением источнику заимствования идей, лежащих в основе этой парадигмы. Если в основе классических подходов лежат формализованные каким-либо образом знания человека о предметной области, то для нейронной сети аналитическая форма представления знаний недоступна, все что она может – это запомнить и обобщить предъявленные ей на этапе обучения эмпирические зависимости между входными факторами и результирующими значениями. То есть нейронная сеть строит модель некоего процесса и в дальнейшем воспроизводит его поведение. Это дает повод некоторым исследователям утверждать, что искусственные нейросети моделируют свойственные человеку приемы мышления. По нашему мнению, для практического использования нейросетевых технологий достаточно того обстоятельства, что нейросети в состоянии строить сложные нелинейные модели процессов, а как на самом деле устроены человеческие мозги – дело десятое. Важно другое – качество модели зависит от качества обучающих данных (тут все как у людей).

Генетические алгоритмы используют механизмы генетической эволюции, которые в общем виде могут быть сформулированы так: чем выше приспособленность особи, тем выше вероятность того, что в его потомстве эта приспособленность будет выражена еще сильнее. Трактовка процесса приспособления как оптимизационного процесса приводит к идее использования генетических алгоритмов при обучении нейронных сетей. Причем, если градиентные методы обучения гарантирую нахождение локального минимума, то генетический алгоритм обеспечивает глобальную оптимизацию.

Область применения

Методами эволюционного моделирования решается широкий класс задач: классификация образов, кластеризация, аппроксимация, прогноз данных, оптимизация, ассоциативная память, управление динамическими объектами. Причем в силу всего вышесказанного, нейронные сети в сравнении с методами математической статистики справляются с перечисленными задачами тем успешнее, чем хуже формализуема задача.

Достоинства нейросетей

Машинное обучение

Цель методов машинного обучения – получение простых классифицирующих выражений, которые были бы легко понятны для человека. Достоинством таких методов является то, что во время работы того или иного метода не требуется участие человека.

Область применения

В исследовании, проведенном в рамках европейского проекта StatLog, был проведен анализ статистических методов (дискриминантый анализ, кластер-анализ и т.д.), деревьев решений(C4.5, AC2, CART, NewID, CN2, Itrule и т.д.) и нейронных сетей (многослойные сети, РБФ-сети, карты Кохонена) для решения задач классификации. Данные были взяты из различных предметных областей: распознавание образов (рукописного текста, автомобилей), медицинская диагностика (диабет, травмы головы, сердечные заболевания), молекулярной биологии (распознавание структуры ДНК) выдача кредитов и т.д.

В ходе исследования выяснилось, что деревья решений показали наилучшие результаты в решении следующих задач:

  1. Оценка кредитоспособности кандидата на получение кредита;
  2. Диагностика неисправностей в технических системах;
  3. Размещение радиаторов в Space Shuttle.

Достоинства деревьев решений

Заключение

На нашем форуме иногда можно встретить довольно раздраженные реплики по поводу всех этих умностей. Особой нелюбовью почему то пользуются нейронные сети. Нам бы хотелось призвать этих авторов к большей сдержанности и сказать следующее.

Во-первых, если трезво посмотреть вокруг, выясняется, что при помощи нескольких магических слов, таких как нейросеть, персептрон, факторный анализ, регрессионный анализ… , нельзя решить всех нерешенных проблем. "Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом". (К. Шеннон).

Во-вторых, эффективность методик нелинейного оценивания (имеется в виду нейрокомпьютниг) может быть повышена при сочетании их с уже известными линейными статистическими методами. Пример – сети РБФ, в которых настройка весов скрытого слоя ведется с помощью генетического алгоритма, а веса выходного слоя рассчитываются старым добрым методом псевдообратных матриц.

Это всего лишь инструмент. Как им пользоваться, решает в конце концов человек. Кстати история, описанная Чеховым в рассказе "Хирургия" (откуда взят эпиграф), произошла только потому, что вместо доктора, уехавшего жениться, больных принимал фельдшер Курятин.