Главная страница ДонНТУ Портал магистров ДонНТУ
Магистр ДонНТУ Лобачева Марина Владимировна

Лобачева Марина Владимировна


Тема магистерской работы:

"Проектирование специализированной компьютерной системы диагностики сосудов головного мозга на примере ишемического инсульта"

Научный руководитель: д.т.н., проф. Скобцов Ю. А.

lobacheva_m@mail.ru lmarvl@sktel.com.ua english

Автореферат

Содержание

1 Актуальность

2 Цели и задачи работы

3 Научная новизна

4 Обзор по теме

5 Данные, используемые в магистерской работе

6 Математический аппарат, используемый в магистерской работе

7 Полученные и планируемые результаты по теме

8 Заключение

Литература

1 Актуальность

Ишемический инсульт (ИИ) - самая частая форма (около 80%) острых нарушений мозгового кровообращения. Инфаркт мозга - это зона некроза, образовавшаяся вследствие грубых, стойких нарушений метаболизма нейрональных структур, возникающих в результате недостаточности кровоснабжения головного мозга. [1]

Зона ишемического инсульта

Рисунок 1 - Зона ишемического инсульта

Проблема своевременной диагностики инсультов в настоящее время является высоко актуальной и представляет собой интерес для врачей различных специальностей. Об этом говорят следующие данные. Ежегодно в мире инсульт поражает около 6 млн. человек. Тридцатидневная летальность составляет 35% , в течение года умирает около 50% больных. Инвалидность после перенесенного инсульта достигает 3,2 на 10 000 населения, занимая первое место среди всех причин первичной инвалидности [2]. Поэтому возможность прогнозирования степени риска развития ишемического инсульта представляет особый интерес и является высоко актуальной в настоящее время.

2 Цели и задачи работы

Целью манистерской работы является прогнозирование степени риска ишемического инсульта с выводом правил, используя генетическое программирование. Задача данной работы - создание системы, прогнозирующей степень риска развития ишемического инсульта.

3 Научная новизна

В настоящее время прогнозирующие системы получают широкое развитие. Существует ряд работ по разработке таких систем в области медицины, однако в нашей стране подобного рода работы еще не нашли широкого распространения и находятся на начальном этапе своего развития.

Разрабатываемая система прогнозирования степени риска ишемического инсульта с выводом правил, использующая генетическое программирование, на сегодняшний день не имеет аналогов.

4 Обзор по теме

Генетическое программирование применяется для решения широкого круга проблем: символьной регрессии, анализа данных, оптимизации и исследования поведения появляющегося потомства в биологических сообществах. Нашло свое применение генетическое программирование и в медицине. Так, оно применяется для создания прогнозирующих систем. [3]

В Донецком национальном техническом университете уже проводились работы по созданию прогнозирующих систем магистрами прошлых лет. Однако в качестве математического аппарата при этом использовались нейросетевые технологии или генетические алгоритмы. Генетическое программирование также использовалось для решения различного рода задач: создания подсистемы сжатия данных, построения тестов для логических схем. Однако работ по созданию прогнозирующей системы, использующей генетическое программирование, в медицине не было создано в пределах ВУЗа. В настоящее время проводятся исследования проблем, связанных с генетическим программированием. Имеется ряд публикаций по данной теме, в частности публикации проф., д.т.н. Скобцова Ю.А. [4].

В мире, как отмечалось выше, в настоящее время прогнозирующие системы получают широкое развитие. Ярким примером использования генетического программирования для проектирования прогнозирующей системы может служить система диагностики рака горла, разработанная Саймоном Кентом [5, 6].

В качестве входных данных в этой системе использовались данные анкетного опроса пациентов. Однако они содержали много избыточной информации, которая мешала бы правильно оценить диагноз. Поэтому были состовлены утверждения (предикаты) о пациенте. Эти предикаты были следующие:

1. Пол (0=мужчина, 1=женщина).

2. Возраст> 40.

3. Возраст >55.

4. Возраст >70.

5. Возраст >85.

6. Курили в течение последних 10 лет.

7. В настоящее время курите >=20 сигарет в день.

8. Курили более 20 лет.

9. Пъете пиво и/или вино.

10. Пъете крепкие спиртные напитки.

11. Злоупотребляете алкоголем.

12. Не посещали дантиста последние 12 месяцев.

13. Положительный диагноз специалиста.

Данные экспортировались из базы данных как разграниченный текст, и были конвертированы в 13 битовые поля для каждой анкеты. Каждый бит представлял истинностное значение одного из тринадцати утверждений о пациенте.

Была выполнена проверка данных. Визуальная проверка выполнялась, чтобы выделить неправильные данные (возраст пациента равен 0.17 ). После того, как данные были конвертированы к бит-полям, они были проверены на несогласованность. То есть, были выявлены такие записи, которые, имея идентичные входные битовые поля, содержали противоречивый диагноз. Это могло возникнуть в результате неправильных данных в анкетных опросах или в результате потери информации, вызванной преобразованием в битовое поле. Битовое поле предоставляет более низкое решение описания характеристики пациента, чем первоначальные данные анкетного опроса. Поэтому были выделены группы несогласованнотей.

В результате проверок, сделанных для данных, 31 отчет о пациентах был удален из данных. Эти отчеты входили в общее количество - 1996 пациентов. Из пациентов 54 имели положительные диагнозы, и 1440 - отрицательные диагнозы. Они были разбиты в обучающий набор и тестовое. Обучающий набор содержал 1483 отчета (43 положительных диагноза, 1440 отрицательных) и тестовое множество содержало 513 отчетов (11 положительных диагнозов, 502 отрицательных). В обучающий набор входили 29 групп несогласованностей и в тестовое множество – 8.

Терминальное множество для данной задачи было представлено тринадцатью битовыми полями, которые представляют специфический образ жизни и привычки пациента.

Функциональное множество было составлено из трех логических операторов: и, или, и не.

При выполнении ГП были приняты определенные начальные параметры, такие как размер популяции, вероятность мутации, скрещивания и другие.

Вначале вначале была построена обучающая выборка. Система ГП выполнялась несколько раз с различными начальными популяциями.

Решениями такой системы являются те, которые, способны правильно диагностировать высокое число положительных и отрицательных диагнозов.

5 Данные, используемые в магистерской работе

Существует определенная группа риска людей, у которых развитие инсульта наиболее вероятно. К факторам риска ишемического инсульта относятся:

а) возраст (на каждые 10 лет жизни риск развития инсульта увеличивается в 3 раза);

б) пол (как правило, страдают мужчины старше 55 лет, женщины - старше 65 лет);

в) повышенное артериальное давление (риск инсульта у больных с АД более 160/95 мм. рт.ст. возрастает приблизительно в 4 раза в сравнении с пациентами, которые имеют нормальное давление, а при АД более 200/115 мм. рт.ст. - в 10 раз);

г) атеросклероз;

д) сахарный диабет;

е) курение;

ж) ожирение;

з) злоупотребление алкоголем;

и) гиподинамия;

к) факторы способа жизни (отсутствие физич. активности, нарушение питания, фактор стресса)[2].

В качестве исходных будут использоваться следующие данные. Будет определена группа пациентов, имеющих факторы риска и развившийся из-за них ишемический инсульт и группа пациентов, у которых наличие факторов риска не привело к его развитию. Для получения наиболее точных результатов количество пациентов желательно взять как можно больше.

Таким образом, для решения поставленной задачи – прогнозирования степени риска ишемического инсульта – необходимо будет собрать и определенным образом представить данные, касающиеся ишемического инсульта.

6 Математический аппарат, используемый в магистерской работе

Для решения поставленной задачи – прогнозирования степени риска развития ишемического инсульта- в качестве математического аппарата можно использовать как нейронные сети, так и генетическое программирование. Однако использование нейронных сетей обладает определенным недостатком. Работая по принципу «черного ящика», можно задать значения на входе и получить конечные результаты, не имея при этом возможности наблюдать за процессом принятия именно этого решения. Таких недостатков лишено генетическое программирование.

Генетическое программирование (genetic programming, GP) — одна из самых удобных и универсальных методик решения задач, встающих перед разработчиками. Оно применяется для решения широкого круга проблем: символьной регрессии, анализа данных (data mining), оптимизации и исследования поведения появляющегося потомства в биологических сообществах.[7]

Генетическое программирование относится к классу технологий, называемых эволюционными алгоритмами. Эволюционные алгоритмы основаны на понятиях, используемых при изучении естественного отбора и эволюции. Генетическое программирование использует дарвинистский принцип естественного отбора. Генетическое программирование - это процедуры поиска, основанные на механизмах естественного отбора и наследования. В них используется эволюционный принцип выживания наиболее приспособленных особей.

Генетическое программирование представляет собой модификацию генетического алгоритма с учетом возможностей компьютерных программ. При использовании генетического программирования популяция состоит из закодированных соответствующим образом программ, которые подвергаются воздействию генетических операторов для нахождения оптимального решения, которым считается программа, наилучшим образом решающая поставленную задачу. Программы оцениваются относительно определенной специальным образом функции приспособленности.

Компьютерные программы в генетическом программировании могут представляться как деревья, и производство последующих поколений достигается применением генетических операторов – скрещивания (кроссинговера), репродукции и мутации.[8, 9]

Основные генетические операторы

Анимация - Основные генетические операторы (кадров 31, циклов 10)

Оператор мутации играет второстепенную роль по сравнению с оператором скрещивания. Это означает, что скрещивание в классическом генетическом алгоритме производится практически всегда, тогда как мутация -достаточно редко. Вероятность скрещивания, как правило, достаточно велика (обычно 0,5 < рс < 1), тогда как вероятность мутации устанавливается весьма малой (чаще всего 0 < рт < 0,1). Это следует из аналогии с миром живых организмов, где мутации происходят чрезвычайно редко.[3]

В генетическом программировании мутация хромосом может выполняться на популяции родителей перед скрещиванием либо на популяции потомков, образованных в результате скрещивания.

Чтобы избежать потери сформировавшихся «ценных особей» и улучшить сходимость алгоритма, применяется репродукция, т. е. копирование удачных программ целиком в последующее поколение.

В генетическом программировании особи из популяции представляют собой программы, которые удобно представлять в виде деревьев, где функции- внутренниме узлы, к которым в качестве входных параметров присоединены поддеревья. При этом кроссинговер будет заключаться в подмене одного из поддеревьев первого родителя на какое-либо поддерево второго родителя. Мутация будет выполнять случайное изменение одного из узлов дерева.

Начальная популяция генерируется беспорядочно как отправная точка для процесса. Новая популяция генерируется от предыдущего поколения, используя генетические операторы. Вероятность того, что данная особь будет участвовать в генерации для нового поколения, увеличивается соответственно функции приспособленности. Оценка приспособленности и развития повторяется неоднократно, пока решение не будет найдено, или время ожидания не истечет. Таким образом, основные шаги ГП следующие:

а) инициализация, или выбор исходной популяции хромосом;

б) оценка приспособленности хромосом в популяции;

в) проверка условия остановки алгоритма;

г) селекция хромосом;

д) применение генетических операторов;

е) формирование новой популяции;

ж) выбор «наилучшей» хромосомы.

Алгоритм ГП приведен на рисунке 2.

Алгоритм ГП

Рисунок 2 - Алгоритм ГП

Первый главный шаг в подготовке использования генетического программирования должен идентифицировать множество терминалов. Набор терминалов, наряду с набором функций, представляет собой компоненты, из которых будет создаваться компьютерная программа для полного или частичного решения проблемы.

Второй шаг заключается в определении функционального множества, элементы которого должны использоваться для генерации математических выражений. Каждая компьютерная программа (то есть, анализируемое дерево, математическое выражение) является композицией функций от множества функций F и терминалов из терминального множества T (в случае программ-функций это константы и переменные).

Множество возможных внутренних узлов (не листовых), используемых в деревьях синтаксического анализа, используемых в генетическом программировании, называется функциональным множеством.[10]

Каждая функция из функционального множества характеризуется арностью - количеством входящих параметров.

Множество листовых узлов в деревьях синтаксического анализа, представляющих программы в генетическом программировании, называются терминальным множеством. Функциональное и терминальное множества могут быть объединены в однородную группу С, при условии, что терминалы рассматриваются как функции с нулевой арностью.

Пространством поиска генетического программирования является множество всех возможных рекурсивных композиций функций множества C.

В функциональном множестве могут быть применены арифметические, математические, булевы и другие функции. В терминальное множество могут войти переменные, константы или директивные команды.

Программы, как уже отмечалось, оцениваются относительно определенной специальным образом функции приспособленности. Чем больше значение этой функции, тем выше «качество» программы. Форма функции приспособленности зависит от характера решаемой задачи. Предполагается, что функция приспособленности всегда принимает неотрицательные значения и, кроме того, что для решения оптимизационной задачи требуется максимизировать эту функцию.

Определение условия остановки генетического алгоритма зависит от его конкретного применения. В оптимизационных задачах, если известно максимальное (или минимальное) значение функции приспособленности, то остановка алгоритма может произойти после достижения ожидаемого оптимального значения, возможно - с заданной точностью. Остановка алгоритма также может произойти, когда его выполнение не приводит к улучшению уже достигнутого значения или произошло истечение определенного времени выполнения либо после выполнения заданного количества итераций. Если условие остановки выполнено, то производится переход к завершающему этапу выбора «наилучшей» особи.

7 Полученные и планируемые результаты по теме

В настоящее время магистерская работа находится в стадии разработки. Окончание планиреутся к концу 2007 года.

В результате работы планируется получить систему, прогнозирующую стпень риска ишемического инсульта. Для этого необходимо выполнить кодирование особи, определить оптимальные параметры (размер популяции, вероятности применения генетических операторов скрещивания, репродукции, мутации, определить метод селекции), определенить целевую функцию. Программный продукт необходимо протестировать на стандартных тестовых примерах и реальных медицинских данных.

8 Заключение

В настоящее время ГП в области диагностики и прогнозирования конкурирует с нейронными сетями и обладает некоторыми преимуществами.

Проводившиеся в области прогнозирования исследования и уже имеющиеся разработанные системы, прогнозирующие степень риска заболевания, в частности, система диагностики, разработанная Саймоном Кентом, доказывают эффективность применения генетического программирования для создания таких систем.

Для создания прогнозирующей системы с помощью генетического программирования необходимо определить целевую функцию и оптимальные параметры: размер популяции, вероятности применения генетических операторов скрещивания, репродукции, мутации, определить метод селекции.

Данная работа расширяет область применения ГП на примере актуальной проблемы прогнозирования степени риска ишемического инсульта. Разрабатываемая система будет способна прогнозировать степень риска ишемического инсульта с выводом правил, используя генетическое программирование.

Литература

  1. Гусев Е.И. Ишемическая болезнь мозга //Вестник РАМН - 1993. - N7.- С.34-39.
  2. Валикова Т.А., к.м.н., доцент, Алифирова В.М., д.м.н., профессор - Инсульт, этиология, патогенез, классификация, клинические формы, лечение и профилактика. Исходный URL: http://medbookaide.ru/books/fold1002/book1117/p1.php
  3. Рутковская Н. Д., Пилиньский Д. М., Рутковский М. В. – Нейронные сети, генетические алгоритмы и нечеткие системы – М.- Горячая линия-телеком-2006.
  4. Скобцов Ю.А., Хмелевой С.В. Генетический подход к задачам прогнозирования // Наукові праці Донецького національного технічного університету, серія: “Обчислювальна техніка та автоматизація” - випуск 90.-Донецьк : ДонНТУ. – 2005.- С.127-136.
  5. Simon Kent - Diagnosis of Oral Cancer using Genetic Programming.- Technical Report CSTR-96-14 CNES-96-04 - July 1996.
  6. D. C. Dracopoulos and Simon Kent. Genetic Programming for Prediction and Control. Neural Computing and Applications, 6(4):214-228, 1997.
  7. Курейчик В.М., Родзин С.И. Эволюционные алгоритмы: генетическое программирование // Известия РАНБ ТиСУ. 2001. №6.
  8. A.Конушин Введение в генетические методы - Графика и Мультимедиа. Научно-образовательный сетевой журнал, посвященный компьютерной графике, машинному зрению и обработке изображений. Исходный URL: http://cgm.graphicon.ru/content/view/35/66/
  9. Sean Luke, Lee Spector. A Comparison of Crossover and Mutation in Genetic Programming. Исходный URL: http://cs.gmu.edu/~sean/papers/comparison/comparison.pdf
  10. Yuri Burger Раздел статьи "Мягкие вычисления" Исходный URL: http://www.codenet.ru/progr/alg/Smart/Genetic-Programming.php