ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Вступ

Будь-яка обробка медико-біологічної інформації присвячена конкретним цілям, таким як дослідження, лікування, виведення нових видів і так далі

Чи не найважливішою метою медичних досліджень є класифікація об’єкту або стосовно пацієнта і захворювання – діагностика. І це очевидно, оскільки від результатів діагностики залежать всі подальші дії. Історично постановка діагнозу була до певної міри мистецтвом, помноженим на досвід і інтуїцію лікарки, і лише з математизацією медицини постановка діагнозу може бути сформульована, як математична задача, а отже автоматизована.

Оскільки поставити діагноз означає класифікувати об’єкт (розпізнати його, як той, що належить до якого-небудь класу), то медичне завдання діагностики (класифікації) стає математичним завданням розпізнавань зразків.

Класифікувати невідомий об’єкт, тобто розпізнати образ, означає визначити, до якого класу відноситься об’єкт, на підставі аналізу значень його ознак.

Стосовно медицини поставити діагноз, тобто розпізнати захворювання або його відсутність, можна лише тоді, коли отримані і проаналізовані деякі ознаки, властиві цьому об’єкту (пацієнтові). Такі ознаки називаються інформативними ознаками. Іншими словами інформативними ознаками називається корисна для даної мети інформацією, отримана з початкової інформації.

Проте інформативні ознаки далеко не рівнозначні для досягнення конкретної мети, тому дуже важливим завданням є пошук і відбір ознак достатньо інформативних для постановки достовірного діагнозу. Щоб зрозуміти, що означає поняття “досить інформативний”, вводиться поняття інформативності ознаки.

Інформативність ознаки означає, наскільки дану ознаку характеризує психофізичний стан об’єкту, тобто наскільки від неї залежить постановка діагнозу – результат розпізнавання.

1. Актуальність теми

Серцево-судинні захворювання є основною причиною смерті у всьому світі: ні за якої іншіої причині щорік не вмирає стільки людей, скільки від серцево-судинних захворювань. По оцінках, в 2008 році від серцево-судинних захворювань померло 17,3 мільйона чоловік, що склало 30% всіх випадків смерті в світі. З цього числа 7,3 мільйона чоловік померло від ішемічної хвороби серця і 6,2 мільйона чоловік у наслідок інсульту. Ця проблема різною мірою зачіпає країни з низьким і середнім рівнем доходу. Більше 80% випадків смерті від серцево-судинних захворювань відбувається в цих країнах, майже в рівній мірі серед чоловіків і жінок. До 2030 року близько 23,6 мільйонів чоловік помре від серцево-судинних захворювань, головним чином, від хвороб серця і інсульту, які, за прогнозами, залишаться єдиними основними причинами смерті [10]. Цим і обумовлена актуальність цього дослідження.

Що б підтвердити актуальність СКС, що проектується розглянемо деякі особливості досягнень, що є на даний момент, в області оцінки інформативності:

  1. Більшість методик розробляються для конкретних захворювань, і часто виявляються непридатними для ряду інших.
  2. Аналіз даних ведеться статистичними методами, а більшість виводів статистичних досліджень робляться за умови нормальності розподілів даних, що не справедливо для всіх медико-біологічних показників.
  3. Недостатньо добре вивчена значимість багатьох чинників, що впливають на постановку діагнозу, і часто в дослідженнях вивчаються лише ті ознаки, які, на думку лікаря, найясніше відображають захворювання.
  4. Із-за складнощів в обробці даних не завжди застосовуються найбільш потужні критерії і медики обмежуються, наприклад, лінійним наближенням або статечним рівнянням.

2. Мета і задачі дослідження та заплановані результати

Мета роботи полягає в розробці ефективної математичної моделі інтегральної кількісної оцінки хворих серцево-судинними захворюваннями, а також в розробці проблемно-орієнтованої системи аналізу медико-біологічної інформації.

Основне завдання дослідження:

  1. Аналіз відомих методик кількісної оцінки міри операційного ризику.
  2. Дослідження ефективності імовірнісних і нейромережевих моделей для кількісної оцінки хворих серцево-судинними захворюваннями.
  3. Розробка алгоритмів виділення комплексу чинників ризику – набору найбільш значимих симптомів при оцінці тяжкості захворювання.
  4. Розробка програмного продукту, що реалізовує систему аналізу клініко-лабораторних даних, пошуку чинників ризику і кількісної оцінки операційного ризику для хворих серцево-судинними захворюваннями.

Наукова новизна роботи полягає в досягненні наступних наукових результатів:

  1. Обґрунтована ефективність спільного вживання імовірнісної і нейромережевної математичних моделей для високоточної і різносторонньої кількісної оцінки міри операційного ризику.
  2. Запропоновані алгоритми пошуку і знайдений комплекс чинників ризику – найбільш значимих ознак при оцінці серцево-судинних захворювань.

Об’ект дослідження : комплекс ознак хворих серцево-судинними захворюваннями.

Предмет дослідження : реалізація методу визначення інформативності для відбору ознак необхідних для постановки діагнозу.

В рамках магістерської роботи планується здобуття актуальних наукових результатів за наступними напрямками:

  1. Розробка СКС аналізу статистичної медико-біологічної інформації методом визначення інформативності окремих ознак.
  2. Здобуття списку найбільш інформативних ознак для постановки діагнозу.
  3. Визначення сфер застосування СКС, що розробляється.

3. Аналіз існуючих систем

На сьогоднішній день алгоритм оцінки інформативності по Кульбаку програмно реалізований лише в програмному комплексі ОМІС [3], причому автономне використання даної програми не передбачене.

На сьогоднішній день алгоритм оцінки інформативності по Кульбаку програмно реалізований лише в програмному комплексі ОМІС [3], причому автономне використання даної програми не передбачене.

Як ілюстрація на рис.3.1 приведений фрагмент екрану експертного модуля з вірогідністю гіпотез на завершальному кроці послідовного байесовського алгоритму при розпізнаванні лімфогранулематозу, зрілоклітинної і незрілоклітинної лімфом, в одного з пацієнтів без гістологічної і цитологічної інформації.

Експертний модуль ОМІС

Рис.3.1. Експертний модуль ОМІС

Надійне рішення для конкретного пацієнта про наявність лімфогранулематозу за відсутності морфологічних даних було б взагалі неможливе для сучасного клінічного мислення без інформаційної підтримки. При розробці вирішального правила з 70 вихідних кількісних ознак програмний комплекс ОМІС відібрав шість двовимірних інформаційно-ціних ознак, що приводяться нижче (кожному з них відповідають три бінарні структури – матриці 4 х 4, по одній для кожної клінічної ситуація), які разом з Байесом (S) виявилися достатніми для вирішення важливого клінічної задачі.

Експлуатація програмного комплексу ОМІС в різних областях медицини показала, що даний алгоритм майже завжди приводить до вищих результатів розпізнавання і може використовуватися для підвищення надійності клінічних рішень в охороні здоров’я.

Універсальність програмний комплекс ОМІС є одночасно його гідністю і не достатком, оскільки в різних сферах медицини є свої нюанси, і розрахунок повинен виконуватися з їх обліком.

4. Дослідження і вибір методів

Існує щонайменше 2 підходи до оцінки інформативності – енергетичний і інформаційний. Енергетичний підхід заснований на тому, що інформативність оцінюється по величині ознаки.

Ознаки упорядковуються по величині, і найбільш інформативним вважається та, чия величина більша. Наприклад, при амплітудно-часовому аналізі ЕКГ найінформативнішою ознакою серед амплітуд вважається амплітуда R зубця.

Проте такий підхід до оцінки інформативності може виявитися погано придатним для розпізнавання об’єкту. Дійсно, якщо якась ознака велика по абсолютній величині, але майже однакова в об’єктів різних класів, то за значенням цієї ознаки важко віднести об’єкт до якогось класу.

І навпаки – якщо ознака відносно мала по величині, але сильно відрізняється в об’єктів різних класів, то по його значенню можна легко класифікувати об’єкт.

Тому придатнішим для розпізнавання об’єкту є інформаційний підхід, згідно з яким інформація ознаки розглядається, як достовірна відмінність між класами образів в просторі ознак.

Якщо при розпізнаванні об’єкту його потрібно віднести до одного з 2-х класів, то в якості такої достовірної відмінності може виступати відмінність розподілів вірогідності ознаки, побудованої по вибірках з 2-х порівнюваних класів.

Оцінкою інформативності є величина I(xj) – площа одного розподілу ознаки xj, не загальна з площею іншого розподілу цієї ж ознаки.

4.1 Метод накопичених частот

Суть цього методу полягає в тому, що якщо є дві вибірки ознаки х, що належать двом різним класам, то по обох вибірках в одних координатних осях будують емпіричні розподіли ознаки х і підраховують накопичені частоти (суму частот від початкового до поточного інтервалу розподілу).

Оцінкою інформативності служить модуль максимальної різниці накопичених частот.

4.2 Метод Шеннона

Метод Шенона – пропонує оцінювати інформативність як середньозважену кількість інформації, що доводиться на різні градації ознаки. Під інформацією в теорії інформації розуміють величину усуненої ентропії.

Отже, інформативність j-тої ознаки:

(4.1)

G – кількість градацій ознаки;
K – кількість класів;
Pi – вірогідність i-тої градації ознаки.
(4.2)

mi,k – частота появи i-тої градації в К-тому класі;
N – загальне число спостережень.

Pi,k – вірогідність появи i-тої градації ознаки в К-тому класі.

(4.3)

4.3 Метод Кульбака

Інший метод оцінки інформативності – метод Кульбака – пропонує як оцінку інформативності міру розбіжності між двома класами, яка називається дивергенцією [5].

Згідно з цим методом інформативність або дивергенція Кульбака обчислюється за формулою:

(4.4)

G – кількість градацій ознаки;
Pi1 – вірогідність появи i-тої градації в першому класі.
(4.5)

mi1 – частота появи i-тої градації в першому класі;
Знаменник – поява всіх градацій в першому класі, тобто загальне число спостережень в першому класі.

Рi2 – вірогідність появи i-тої градації у другому класі.

(4.6)

mi2 – частота появи i-тої градації в другому класі.

4.4 Аналіз методів

Щоб визначитися із способом оцінки інформативності проведемо порівняльний аналіз трьох методів визначення інформативності ознаки [8].

  1. Залежність методів від способу кодування ознаки.
    Метод накопичених частот (МНЧ) залежить від способу кодування ознаки, методи Шенона і Кульбака – не залежать від способу кодування.
  2. Залежність методів від числа класів.
    МНЧ і метод Кульбака служать для визначення інформативності ознаки, яка бере участь в розпізнаванні лише двох класів об’єктів. Метод Шенона дозволяє визначити інформативність ознаки, що бере участь в розпізнаванні довільного числа класів об’єктів.
  3. Залежність методів від числа градацій ознаки.
    Всі три методи не залежать від числа градацій ознаки.
  4. Залежність методів від об’єму вибірки.
    Оскільки МНЧ оперує частотами, то об’єм вибірки спостережень ознаки має бути однаковий по обох розпізнаваних класах. Методи Кульбака і Шенона оперують вірогідністю, тому об’єми вибірки спостережень ознаки по двох розпізнаваних класах можуть бути різні.
  5. Залежність методів від об’єму обчислень.
    МНЧ – простіше за об’ємом обчислень. Методи Кульбака і Шенона – складніше.
  6. Універсальність методів або залежність від абсолютної величини інформативності.
    Інформативність, що визначається всіма трьома методами, – величина позитивна, проте в МНЧ і методі Кульбака вона не є нормованою, тому про інформативність, визначену цими методами можна говорити лише у відносному плані, – вища або нижча в порівнянні з інформативністю іншої ознаки. Метод Шенона дає оцінку інформативності, як нормованої величини, яка змінюється від 0 до 1. Тому про інформативність ознаки, визначену методом Шенона можна говорити в абсолютному плані: ближче до 1 – висока; ближче до 0 – низька.

Метод визначення інформативності вибирає сам дослідник залежно від цілей дослідження, кількості розпізнаваних класів і медико-біологічних даних – способу кодування, об’єму вибірки, кількості градацій. Який би із способів не застосовувався, якщо інформативність всіх ознак оцінювати одним і тим же способом, то можна вибрати більш інформативні і відкинути менш інформативні ознаки для постановки конкретного діагнозу.

5. Структура СКС

Структура СКС, що розробляється

Рис.5.1. Структура СКС, що розробляється

Вхідними даними СКС є база даних Донецької лікарні профзахворювань. У структуру СКС входять блоки розташовані нижче за блок “База даних”.

Основним блоком є “Блок обробки”. У цьому блоці мається на увазі виконати вибірку ознак з подальшим розрахунком їх інформативності. Розрахунок інформативності за критерієм Кульбака складається з наступних етапів [6]:

  1. Для об’ективізації розбиття загального впорядкованого ряду на діапазони вибираємо такі рівні між собою діапазони, правими (нижчими) кордонами яких служать круглі числа з таким розрахунком, щоб кількість діапазонів складало 8 – 12.
  2. Підраховують число спостережень з груп А і В, що попали в даний діапазон. Це – частоти даної ознаки.
  3. Обчислюють відносні частості (вірогідність) у відсотках, приймаючи за 100% суму частостей А у всіх діапазонах і таку ж суму частостей В.
  4. Обчислюються згладжені (середньозважені) частості. Фактично обчислення всіх згладжених частостей ведеться по формулі:
    (5.1)
  5. Обчислення відношень згладжених частостей А і В в кожному діапазоні.
  6. Розрахунок згладжених діагностичних коефіцієнтів по формулі:
    (5.2)
  7. Розрахунок інформативності ознаки, в кожному діапазоні і підсумкова інформативність ознаки, що отримується підсумовування інформативностей всіх діапазонів.

Висновки

На основі поставлених цілей і завдань сформована структура СКС, що розробляється. Розглянуті методи реалізації основного завдання – оцінки інформативності ознак. За результатами порівняльного аналізу вибраний метод і складений алгоритм його реалізації. Модифікована структура бази даних, що дозволить спостерігати динаміку функціонального стану організму пацієнта по мінімальній кількості показників.

  1. Статистичне моделювання даних є ефективним прийомом формування вибірок багатовимірних даних, що дозволяє зменшити варіабельність інтегральної оцінки стану досліджуваної системи.
  2. Об’єм вибірки є істотним параметром для кількісної оцінки стану біологічних систем.
  3. Як інтегральна оцінка стану біологічних систем ефективне використання інформаційного підходу.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2012 року. Повний текст роботи і матеріали по темі можуть бути отримані у автора або його керівника після вказаної дати.

Перелік посилань

  1. Айвазян, С. А. Классификация многомерных наблюдений / С. А. Айвазян, З. И. Бежаева, О. В. Староверов. – М. : Статистика, 1974. – 200 с.
  2. Аркадьев А. Г. Обучение машины классификации объектов / А. Г. Аркадьев, Э. М. Браверманн. – М. : Наука, 1971. – 172 с.
  3. Генкин А. А. Новая информационная технология анализа медицинских данных; Программный комплекс ОМИС / А. А. Генкин. – СПб. : Политехника, 1999. – 191 с.
  4. Гублер Е. В. Алгоритм оценки расхождения распределений признаков в медицинских автоматизированных системах // Проблемы системотехники и автоматизированные системы управления. / Е. В. Гублер. – Л. : Медицина, 1978. – 230 с.
  5. Гублер Е. В. Вычислительные методы анализа и распознавания патологических процессов / Е. В. Гублер. – Л. : Медицина, 1978. – 296 с.
  6. Гублер Е. В. Применение непараметрических критериев статистики в медико-биологических исследованиях / Е. В. Гублер, А. А. Генкин – Л. : Медицина, 1973. – 144 с.
  7. Давнис В. В. Прогнозные модели экспертных предпочтений: монография / В.В. Давнис, В.И. Тинякова. – Воронеж: Изд-во Воронеж. гос. ун-та, 2005. – 248 с.
  8. Евтушенко Г. С. Выбор информативных признаков. Оценка информативности / Евтушенко Г.С.// Методические указания к лабораторной работе по дисциплине «Методы обработки биомедицинских данных» для бакалавров по направлению 553400 «Биомедицинская инженерия». – Томск: Изд. ТПУ, 2003. – 18 с. [Электронный ресурс] – Режим доступа: http://ime.tpu.ru/study....
  9. Ивантер Э. В. Основы биометрии: введение в статистический анализ биологических явлений и процессов: учебное пособие / Э. В. Ивантер, А. В. Коросов. – Петрозаводск: ПГУ, 1992. – 163 с.
  10. Сердечно-сосудистые заболевания / Центр СМИ // Информационный бюллетень. – 2011. – Сентябрь. – №17. [Электронный ресурс] – Режим доступа: http://www.who.int/mediacentre....