Тевелев А. Д. Доклад на тему "Интеграция системы сбора и хранения информации с системой интеллектуального анализа данных"

Доклад подготовлен в качестве отчета перед научным руководством кафедры о работе, проведенной за 2004 год.


     Медицинская статистика Донецкого региона собирает данные с различных лечебно-профилактических учреждений, а также по районам, и населенным пунктам. Данные представляют собой числовые показатели распространенности различных заболеваний, количества больных, смертности и т. п. Данные собираются за определенное время, называемое отчетным периодом. За время функционирования Донецкого УЗО, накоплен достаточно обширный банк данных, поэтому возникает задача рационального хранения, и использования этих данных, получение из них знаний, с целью возможности прогнозирования и принятия решений, способствующих более эффективному функционированию здравоохранения. Для решения задач анализа накопленных данных можно выделить два класса систем. На первых стадиях информатизации всегда требуется навести порядок именно в процессах повседневной рутинной обработки данных, на что и ориентированы системы обработки данных (СОД). Системы второго класса – системы интелектуального анадиза данных (ИАД) - являются вторичными по отношению к ним.

     В качестве технологии системы СОД предполагается использовать технологию OLAP. В основе концепции оперативной аналитической обработки (OLAP) лежит многомерное представление данных. Cуществует два класса OLAP систем – многомерный OLAP (MOLAP) – данные хранятся в многомерном виде и реляционный OLAP – данные в OLAP систему поступают из плоских таблиц реляционных БД. Использование реляционных БД в качестве исходных данных в разрабатываемой системе имеет следующие достоинства.
- В случае, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP системы с динамическим представлением размерности являются оптимальным решением, так как в них такие модификации не требуют физической реорганизации БД.
- Системы ROLAP могут функционировать на гораздо менее мощных клиентских станциях, чем системы MOLAP, поскольку основная вычислительная нагрузка в них ложится на сервер, где выполняются сложные аналитические SQL-запросы, формируемые системой. Соответственно это облегчает внедрение системы в медицинских учреждениях, без необходимости закупки более мощного и дорогостоящего оборудования.
- Реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и разграничения прав доступа.
- Реляционные СУБД хорошо применимы для работы с очень большими базами данных, что является определяюще важным фактором для хранения такого огромного банка данных как данные медицинской статистики области.
Таким образом, при внедрении данной технологии в систему медицинской статистики вариант ROLAP является наиболее приемлемым.

     OLAP система дает основу для проведения интеллектуального анализа данных. Можно дать следующее определение: ИАД - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей. Большинство методов ИАД было первоначально разработано в рамках теории искусственного интеллекта (ИИ) в 70-80-х годах, но получили распространение только в последние годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов данных предприятий потребовала их использования в качестве надстройки над хранилищами данных . Большинство авторов приводит классификацию задач, решаемых средствами ИАД по типам производимой информации. Следующие пять видов называются всеми без исключений.

1)Классификация. Наиболее распространенная задача ИАД. Она позволяет выявить признаки, характеризующие однотипные группы объектов - классы, - для того чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу. Ключевым моментом выполнения этой задачи является анализ множества классифицированных объектов. С помощью классификации можно определить например районы с эпидемией вируса, или районы где заболеваемость имеет приемлемый уровень. Также можно определить группы граждан, наиболее подверженных тому или иному заболеванию, и т. д. В качестве методов решения задачи классификации могут использоваться алгоритмы типа Lazy-Learning , в том числе известные алгоритмы ближайшего соседа (Nearest Neighbor) и k-ближайшего соседа (k-Nearest Neighbor) , байесовские сети (Bayesian Networks), индукция деревьев решений, индукция символьных правил , нейронные сети.

2)Кластеризация. Логически продолжает идею классификации на более сложный случай, когда сами классы не предопределены. Результатом использования метода, выполняющего кластеризацию, как раз является определение (посредством свободного поиска) присущего исследуемым данным разбиения на группы. В качестве примера используемых методов можно привести обучение "без учителя" особого вида нейронных сетей - сетей Кохонена а также индукцию правил.

3)Выявление ассоциаций. В отличие от двух предыдущих типов, ассоциация определяется не на основе значений свойств одного объекта или события, а имеет место между двумя или несколькими одновременно наступающими событиями. При этом производимые правила указывают на то, что при наступлении одного события с той или иной степенью вероятности наступает другое. В частности, выявление ассоциаций позволяет определить, как часто события X и Y случаются вместе, в виде доли от общего количества событий X; скажем, рост процента заболеваемости одной болезнью (X) ведет к росту процента заболеваемости другой болезнью (Y).

4) Выявление последовательностей. Подобно ассоциациям, последовательности имеют место между событиями, но наступающими не одновременно, а с некоторым определенным разрывом во времени. Таким образом, ассоциация есть частный случай последовательности с нулевым временным интервалом.

5)Прогнозирование. Это особая форма предсказания, которая на основе особенностей поведения текущих и ранее собранных данных оценивает будущие значения определенных численных показателей. Данный класс задач является очень важным в системе медицинской статистики, и является важнейшей целью автоматизации анализа накопленных данных. В задачах подобного типа наиболее часто используются традиционные методы математической статистики, а также нейронные сети.

     Все перечисленные пять задач должны решаться в разрабатываемой системе. Каждая из задач имеет различные методы решения, и реализация каждого из этих методов может осуществляться с помощью различных блоков, с использованием также уже существующих средств ИАД. Таким образом, оперативная аналитическая обработка и интеллектуалный анализ данных - две составные части процесса поддержки принятия решений. Но сегодня большинство систем OLAP заостряет внимание только на обеспечении доступа к многомерным данным, а большинство средств ИАД, работающих в сфере закономерностей, имеют дело с одномерными перспективами данных. Эти два вида анализа должны быть тесно объединены в разрабатываемой системе, то есть система должны фокусироваться не только на доступе, но и на поиске закономерностей. На рисунке представлена общая схема интеграции систем ИАД и ROLAP.

     Таким образом можно выделить 3 основных направления исследований:
1)Построение оптимальной системы хранения и сбора данных на основе технологий OLAP и реляционных баз данных. Основные проблемы, этого направления – обеспечение надежного и достаточно быстрого функционирования системы, при ее специфических особенностях – большие обьемы данных, многопользовательская работа с распределенным хранилищем данных, необходимость оперативного изменения и синхронизации данных на различных уровнях функционирования системы, обеспечение функционирования системы в сети интернет.
2)Решение проблем анализа накопленных данных. Выбор наиболее приемлемых и эффективных методов анализа среди существующих, обеспечение автоматизированного принятия решений на основе собранных данных. Также имеет смысл рассмотреть вопросы принятия решений по оптимизации самого сбора данных, на основе результатов анализа.
3)Интеграция системы сбора и хранения данных с системой анализа данных в единую СППР. Данный вопрос наиболее интересен с точки зрения новизны, так как на сегодняшний день существует немного систем, функционирующих по принципу взаимодействия OLAP –ИАД. Совершенствование технологий в этой области откроет путь к созданию принципиально более мощных систем интеллектуальной обработки данных.