Реферат по теме выпускной работы
Содержание
- Введение
- 1. Актуальность темы
- 2. Цель и задачи исследования, планируемые результаты
- 3. Анализ существующих систем
- 4. Исследование и выбор методов
- 4.1 Метод накопленных частот
- 4.2 Метод Шеннона
- 4.3 Метод Кульбака
- 4.4 Анализ методов
- Структура СКС
- Выводы
- Список источников
Введение
Любая обработка медико-биологической информации посвящена конкретным целям, таким как исследование, лечение, выведение новых видов и т.д.
Едва ли не важнейшей целью медицинских исследований является классификация объекта или применительно к пациенту и заболеванию – диагностика. И это очевидно, так как от результатов диагностики зависят все дальнейшие действия. Исторически постановка диагноза являлась в определенной мере искусством, помноженным на опыт и интуицию врача, и только с математизацией медицины постановка диагноза может быть сформулирована, как математическая задача, а следовательно автоматизирована.
Так как поставить диагноз означает классифицировать объект (распознать его, как принадлежащий к какому-либо классу), то медицинская задача диагностики (классификации) становится математической задачей распознаваний образцов.
Классифицировать неизвестный объект, то есть распознать образ, означает определить, к какому классу относится объект, на основании анализа значений его признаков.
Применительно к медицине поставить диагноз, то есть распознать заболевание или его отсутствие, можно только тогда, когда получены и проанализированы некие признаки, присущие этому объекту (пациенту). Такие признаки называются информативными признаками. Другими словами информативными признаками называется полезная для данной цели информация, полученная из исходной информации.
Однако информативные признаки далеко не равнозначны для достижения конкретной цели, поэтому очень важной задачей является поиск и отбор признаков достаточно информативных для постановки достоверного диагноза. Чтобы понять, что значит понятие «достаточно информативный», вводится понятие информативности признака.
Информативность признака означает, насколько данный признак характеризует психофизическое состояние объекта, то есть насколько от него зависит постановка диагноза – результат распознавания.
1. Актуальность темы
Сердечно-сосудистые заболевания являются основной причиной смерти во всем мире: ни по какой другой причине ежегодно не умирает столько людей, сколько от сердечно-сосудистых заболеваний. По оценкам, в 2008 году от сердечно-сосудистых заболеваний умерло 17,3 миллиона человек, что составило 30% всех случаев смерти в мире. Из этого числа 7,3 миллиона человек умерло от ишемической болезни сердца и 6,2 миллиона человек в результате инсульта. Эта проблема в разной степени затрагивает страны с низким и средним уровнем дохода. Более 80% случаев смерти от сердечно-сосудистых заболеваний происходит в этих странах, почти в равной мере среди мужчин и женщин. К 2030 году около 23,6 миллионов человек умрет от сердечно-сосудистых заболеваний, главным образом, от болезней сердца и инсульта, которые, по прогнозам, останутся единственными основными причинами смерти [10]. Этим и обусловлена актуальность настоящего исследования.
Что бы подтвердить актуальность проектируемой СКС, рассмотрим некоторые особенности имеющихся на данный момент достижений в области оценки информативности:
- Большинство методик разрабатываются для конкретных заболеваний, и часто оказываются непригодными для ряда других.
- Анализ данных ведется статистическими методами, а большинство выводов статистических исследований делается при условии нормальности распределений данных, что не справедливо для всех медико-биологических показателей.
- Недостаточно хорошо изучена значимость многих факторов, оказывающих влияние на постановку диагноза, и часто в исследованиях изучаются лишь те признаки, которые, по мнению врача, наиболее явно отражают заболевание.
- Из-за сложности обработки данных не всегда применяются наиболее мощные критерии и медики ограничиваются, например, линейным приближением или степенным уравнением.
2. Цель и задачи исследования, планируемые результаты
Цель работы заключается в разработке эффективной математической модели интегральной количественной оценки больных сердечно-сосудистыми заболеваниями, а также в разработке проблемно-ориентированной системы анализа медико-биологической информации.
Основные задачи исследования:
- Анализ известных методик количественной оценки степени операционного риска.
- Исследование эффективности вероятностных и нейросетевых моделей для количественной оценки больных сердечно-сосудистыми заболеваниями.
- Разработка алгоритмов выделения комплекса факторов риска – набора наиболее значимых симптомов при оценке тяжести заболевания.
- Разработка программного продукта, реализующего систему анализа клинико-лабораторных данных, поиска факторов риска и количественной оценки операционного риска для больных сердечно-сосудистыми заболеваниями.
Научная новизна работы заключается в достижении следующих научных результатов:
- Обоснована эффективность совместного применения вероятностной и нейросетевой математических моделей для высокоточной и разносторонней количественной оценки степени операционного риска.
- Предложены алгоритмы поиска и найден комплекс факторов риска – наиболее значимых признаков при оценке сердечно-сосудистых заболеваний.
Объект исследования: комплекс признаков больных сердечно-сосудистыми заболеваниями.
Предмет исследования: реализация метода определения информативности для отбора признаков необходимых для постановки диагноза.
В рамках магистерской работы планируется получение актуальных научных результатов по следующим направлениям:
- Разработка СКС анализа статистической медико-биологической информации методом определения информативности отдельных признаков.
- Получение списка наиболее информативных признаков для постановки диагноза.
- Определение областей применения разрабатываемой СКС.
3. Анализ существующих систем
На сегодняшний день алгоритм оценки информативности по Кульбаку программно реализован только в программном комплексе ОМИС [3], причем автономное использование данной программы не предусмотрено.
В качестве иллюстрации на рис.3.1 приведен фрагмент экрана экспертного модуля с вероятностями гипотез на заключительном шаге последовательного байесовского алгоритма при распознавании лимфогранулематоза, зрелоклеточной и незрелоклеточной лимфом, у одного из пациентов без гистологической и цитологической информации.
Надежное решение для конкретного пациента о наличии лимфогранулематоза при отсутствии морфологических данных было бы вообще невозможно для современного клинического мышления без информационной поддержки. При разработке решающего правила из 70 исходных количественных признаков программный комплекс ОМИС отобрал шесть двумерных информационно-ценных признаков, приводимых ниже (каждому из них соответствуют три бинарные структуры – матрицы 4 х 4, по одной для каждой клинической ситуация), которые вместе с Байесом (S) оказались достаточными для решения важной клинической задачи.
Эксплуатация программного комплекса ОМИС в различных областях медицины показала, что данный алгоритм почти всегда приводит к более высоким результатам распознавания и может использоваться для повышения надежности клинических решений в здравоохранении.
Универсальность программный комплекс ОМИС является одновременно его достоинством и не достатком, так как в различных сферах медицины есть свои нюансы, и расчет должен выполняться с их учетом.
4. Исследование и выбор методов
Существует по меньшей мере 2 подхода к оценке информативности – энергетический и информационный. Энергетический подход основан на том, что информативность оценивается по величине признака.
Признаки упорядочиваются по величине, и наиболее информативным считается тот, чья величина больше. Например, при амплитудно-временном анализе ЭКГ самым информативным признаком среди амплитуд считается амплитуда R зубца.
Однако такой подход к оценке информативности может оказаться плохо пригодным для распознавания объекта. Действительно, если какой-то признак велик по абсолютной величине, но почти одинаков у объектов различных классов, то по значению этого признака трудно отнести объект к какому-то классу.
И наоборот – если признак относительно мал по величине, но сильно отличается у объектов разных классов, то по его значению можно легко классифицировать объект.
Поэтому более пригодным для распознавания объекта является информационный подход, согласно которому информация признака рассматривается, как достоверное различие между классами образов в пространстве признаков.
Если при распознании объекта его нужно отнести к одному из 2-х классов, то в качестве такого достоверного различия может выступать различие распределений вероятностей признака, построенных по выборкам из 2-х сравниваемых классов.
Оценкой информативности служит величина I(xj) – площадь одного распределения признака xj, не общая с площадью другого распределения этого же признака.
4.1 Метод накопленных частот
Сущность этого метода состоит в том, что если имеются две выборки признака х, принадлежащие двум различным классам, то по обеим выборкам в одних координатных осях строят эмпирические распределения признака х и подсчитывают накопленные частоты (сумму частот от начального до текущего интервала распределения).
Оценкой информативности служит модуль максимальной разности накопленных частот.
4.2 Метод Шеннона
Метод Шеннона – предлагает оценивать информативность как средневзвешенное количество информации, приходящиеся на различные градации признака. Под информацией в теории информации понимают величину устраненной энтропии.
Итак, информативность j-ого признака:
(4.1) |
G – количество градаций признака;
K – количество классов;
Pi – вероятность i-той градации признака.
(4.2) |
mi,k – частота появления i-той градации в К-том классе;
N – общее число наблюдений.
Pi,k – вероятность появления i-той градации признака в К-том классе.
(4.3) |
4.3 Метод Кульбака
Другой метод оценки информативности – метод Кульбака – предлагает в качестве оценки информативности меру расхождения между двумя классами, которая называется дивергенцией [5].
Согласно этому методу информативность или дивергенция Кульбака вычисляется по формуле:
(4.4) |
G – число градаций признака;
Pi1 – вероятность появления i-той градации в первом классе.
(4.5) |
mi1 – частота появления i-той градации в первом классе;
Знаменатель – появление всех градаций в первом классе, то есть общее число наблюдений в первом классе.
Pi2 – вероятность появления i-той градации во втором классе.
(4.6) |
mi2 – частота появления i-той градации во втором классе.
4.4 Анализ методов
Чтобы определиться со способом оценки информативности проведем сравнительный анализ трех методов определения информативности признака [8].
- Зависимость методов от способа кодировки признака.
Метод накопленных частот (МНЧ) зависит от способа кодировки признака, методы Шеннона и Кульбака – не зависят от способа кодировки.
- Зависимость методов от числа классов.
МНЧ и метод Кульбака служат для определения информативности признака, который участвует в распознавании только двух классов объектов. Метод Шеннона позволяет определить информативность признака, участвующего в распознавании произвольного числа классов объектов.
- Зависимость методов от числа градаций признака.
Все три метода не зависят от числа градаций признака.
- Зависимость методов от объема выборки.
Так как МНЧ оперирует частотами, то объем выборки наблюдений признака должен быть одинаков по обоим распознаваемым классам. Методы Кульбака и Шеннона оперируют вероятностями, поэтому объемы выборки наблюдений признака по двум распознаваемым классам могут быть различны.
- Зависимость методов от объема вычислений.
МНЧ – проще по объему вычислений. Методы Кульбака и Шеннона – сложнее.
- Универсальность методов или зависимость от абсолютной величины информативности.
Информативность, определяемая всеми тремя методами – величина положительная, однако в МНЧ и методе Кульбака она не является нормированной, поэтому об информативности, определенной этими методами можно говорить только в относительном плане – более высокая или более низкая по сравнению с информативностью другого признака. Метод Шеннона дает оценку информативности, как нормированной величины, которая изменяется от 0 до 1. Поэтому об информативности признака, определенной методом Шеннона можно говорить в абсолютном плане: ближе к 1 – высокая; ближе к 0 – низкая.
Метод определения информативности выбирает сам исследователь в зависимости от целей исследования, количества распознаваемых классов и медико-биологических данных – способа кодировки, объема выборки, количества градаций. Какой бы из способов ни применялся, если информативность всех признаков оценивать одним и тем же способом, то можно выбрать более информативные и отбросить менее информативные признаки для постановки конкретного диагноза.
5. Структура СКС
Входными данными СКС являться база данных Донецкой больницы профзаболеваний. В структуру СКС входят блоки расположенные ниже блока «База данных».
Основным блоком является «Блок обработки». В этом блоке подразумевается выполнить выборку признаков с последующим расчетом их информативности. Расчет информативности по критерию Кульбака состоит из следующих этапов [6]:
- Для объективизации разбиения общего упорядоченного ряда на диапазоны выбираем такие равные между собой диапазоны, правыми (нижними) границами которых служат круглые числа с таким расчетом, чтобы количество диапазонов составляло 8 – 12.
- Подсчитывают число наблюдений из групп А и В, попавших в данный диапазон. Это – частоты данного признака.
- Вычисляют относительные частости (вероятности) в процентах, принимая за 100% сумму частостей А во всех диапазонах и такую же сумму частостей В.
- Вычисляются сглаженные (средневзвешенные) частости. Фактически вычисление всех сглаженных частостей ведется по формуле:
(5.1) - Вычисление отношений сглаженных частостей А и В в каждом диапазоне.
- Расчет сглаженных диагностических коэффициентов по формуле:
(5.2) - Расчет информативности признака, в каждом диапазоне и итоговая информативность признака, получаемая суммирование информативностей всех диапазонов.
Выводы
На основе поставленных целей и задач сформирована структура разрабатываемой СКС. Рассмотрены методы реализации основной задачи – оценки информативности признаков. По результатам сравнительного анализа выбран метод и составлен алгоритм его реализации. Модифицирована структура базы данных, что позволит наблюдать динамику функционального состояния организма пациента по минимальному количеству показателей.
- Статистическое моделирование данных является эффективным приемом формирования выборок многомерных данных, позволяющим уменьшить вариабельность интегральной оценки состояния исследуемой системы.
- Объем выборки является существенным параметром для количественной оценки состояния биологических систем.
- В качестве интегральной оценки состояния биологических систем эффективно использование информационный подход.
При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: декабрь 2012 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.
Список источников
- Айвазян, С. А. Классификация многомерных наблюдений / С. А. Айвазян, З. И. Бежаева, О. В. Староверов. – М. : Статистика, 1974. – 200 с.
- Аркадьев А. Г. Обучение машины классификации объектов / А. Г. Аркадьев, Э. М. Браверманн. – М. : Наука, 1971. – 172 с.
- Генкин А. А. Новая информационная технология анализа медицинских данных; Программный комплекс ОМИС / А. А. Генкин. – СПб. : Политехника, 1999. – 191 с.
- Гублер Е. В. Алгоритм оценки расхождения распределений признаков в медицинских автоматизированных системах // Проблемы системотехники и автоматизированные системы управления. / Е. В. Гублер. – Л. : Медицина, 1978. – 230 с.
- Гублер Е. В. Вычислительные методы анализа и распознавания патологических процессов / Е. В. Гублер. – Л. : Медицина, 1978. – 296 с.
- Гублер Е. В. Применение непараметрических критериев статистики в медико-биологических исследованиях / Е. В. Гублер, А. А. Генкин – Л. : Медицина, 1973. – 144 с.
- Давнис В. В. Прогнозные модели экспертных предпочтений: монография / В.В. Давнис, В.И. Тинякова. – Воронеж: Изд-во Воронеж. гос. ун-та, 2005. – 248 с.
- Евтушенко Г. С. Выбор информативных признаков. Оценка информативности / Евтушенко Г.С.// Методические указания к лабораторной работе по дисциплине «Методы обработки биомедицинских данных» для бакалавров по направлению 553400 «Биомедицинская инженерия». – Томск: Изд. ТПУ, 2003. – 18 с. [Электронный ресурс] – Режим доступа: http://ime.tpu.ru/study....
- Ивантер Э. В. Основы биометрии: введение в статистический анализ биологических явлений и процессов: учебное пособие / Э. В. Ивантер, А. В. Коросов. – Петрозаводск: ПГУ, 1992. – 163 с.
- Сердечно-сосудистые заболевания / Центр СМИ // Информационный бюллетень. – 2011. – Сентябрь. – №17. [Электронный ресурс] – Режим доступа: http://www.who.int/mediacentre....