В данной работе первичной задачей является отбор факторов риска.
В настоящее время быстро развивается новое направление в теории и практике искусственного интеллекта – эволюционные вычисления. Этот термин обычно используется для общего описания алгоритмов поиска, оптимизации или обучения основанных на некоторых формализованных принципах естественного эволюционного отбора. Особенности идей эволюции и самоорганизации заключаются в том, что они находят подтверждение не только для биологических систем развивающихся много миллиардов лет. Эти идеи в настоящее время с успехом используются при разработке многих технических и медицинских программных систем. Генетические алгоритмы были основаны в Мичиганском университете американским исследователем Холландом и первоначально разработаны для задач оптимизации в качестве достаточно эффективного механизма комбинаторного перебора вариантов решения. В отличие от многих других работ, целью Холланда было не только решение конкретных задач, но исследование явления адаптации в биологических системах и применение его в вычислительных системах. При этом потенциальное решение – особь представляется хромосомой – двоичным кодом. Популяция содержит множество особей. В процессе эволюции используются три основных генетических оператора: репродукция, кроссинговер и мутация. Также в 60-х годах в Германии Рехенберг заложил основы "эволюционных стратегий" при решении задачи оптимизации вещественных параметров в расчете линий электропередачи. Это направление развивалось долгие годы независимо и здесь были получены важные фундаментальные результаты. Фогель независимо от других исследователей основал эволюционное программирование, где потенциальное решение представляется конечным автоматом. Основным генетическим оператором здесь также является мутация, которая случайным образом изменяет таблицу переходов-выходов автомата. Немного позднее Коза в Массачусетском технологическом институте США заложил основы генетического программирования. Здесь в качестве особи выступала программа на LISP, которая представлялась древовидной структурой. На этих структурах были разработаны генетические операторы кроссинговера и мутации. В настоящее время указанные направления объединены в "эволюционные вычисления", которые успешно применяются при решении многих проблем. При этом отдельные направления успешно взаимодействуют за счет заимствования лучших черт друг у друга.
Наиболее перспективное направление для решения задач медицинского прогнозирования основано на интеллектуальном анализе данных с применением современного программного обеспечения. На первом этапе которого необходимо определить факторы риска и оценить их информативность. Как правило, отбор данных для анализа выполняется врачом по следующему принципу: сначала осуществляется выделение факторов риска относящихся к определенной патологии и в основном по формальному принципу: отягощенный семейный анамнез, перинатальные факторы, заболевания в анамнезе, неблагоприятная макросоциальная среда, социально-гигиенические факторы и т. д. Затем группы факторов риска определяются временем их воздействия, видом (биологические, средовые и т. д.) и количеством воздействующих факторов. Например, при анализе данных, предоставленных различными врачами для прогнозирования тех или иных заболеваний в области гинекологии можно сделать вывод, что перечень собранных факторов, является относительно стабильным, причем одинаковым для анализа большинства гинекологических проблем и очень большим. В него входят медицинские и социально-демографические факторы. Следует отметить, что в медицинских задачах, приходится анализировать большое количество неодинаковых по значимости факторов риска, которые к тому же могут быть взаимосвязаны, поэтому применение статистических методов в данном случае неэффективно. Теперь рассмотрим эту задачу с математической точки зрения. Предположим, существует набор факторов риска S, содержащий m примеров (1.1). Каждый пример, Si набора данных S состоит из n определяющих параметров Xi = (x1, x2, …, xn) и параметра – результата Yi
Таким образом, каждый i-й пример набора данных S представлен набором значений факторов риска Х и результата Y. При этом факторы риска X набора данных S могут включать в себя как факторы, содержащие полезную информацию, так и факторы, частично или полностью неинформативные. Кроме этого, информативные факторы тоже могут содержать шум.
Необходимо выполнить отбор значимых факторов и оценить качество такого набора данных по критерию оценки E(X) . Тогда задача сводится к нахождению такого вектора X, при котором достигается допустимая точность классификации при минимальном количестве входных параметров (1.3):
где є – допустимая погрешность, n– количество факторов риска, nmin – желаемое количество факторов риска.
В качестве критерия оценивания можно использовать формулу (1.4).
где М – количество обучающих примеров, F – полученный результат, Y – желаемый результат.
Целью данной работы является получить полезную информацию из набора параметров (факторов риска) и подготовить данные для обучения аналитической системы, предназначенной прогнозировать потерю крови при родах.
ГА используют принципы и терминологию, заимствованные у биологической науки – генетики. В ГА каждая особь представляет потенциальное решение некоторой проблемы. В классическом ГА особь кодируется строкой двоичных символов – хромосомой, каждый бит которой называется геном. Множество особей – потенциальных решений составляет популяцию. Поиск (суб)оптимального решения проблемы выполняется в процессе эволюции популяции - последовательного преобразования одного конечного множества решений в другое с помощью генетических операторов репродукции, кроссинговера и мутации.
ГА используют следующие механизмы естественной эволюции:
Первый принцип основан на концепции выживания сильнейших и естественного отбора по Дарвину, который был сформулирован им в 1859 году в книге «Происхождение видов путем естественного отбора». Согласно Дарвину особи, которые лучше способны решать задачи в своей среде, выживают и больше размножаются (репродуцируют). В генетических алгоритмах каждая особь представляет собой решение некоторой проблемы. По аналогии с этим принципом особи с лучшими значениями целевой (фитнесс) функции имеют большие шансы выжить и репродуцировать. Формализация этого принципа дает оператор репродукции.
Второй принцип обусловлен тем фактом, что хромосома потомка состоит из частей полученных из хромосом родителей. Этот принцип был открыт в 1865 году Менделем. Его формализация дает основу для оператора скрещивания (кроссинговера).
Третий принцип основан на концепции мутации, открытой в 1900 году де Вре. Первоначально этот термин использовался для описания существенных (резких) изменений свойств потомков и приобретение ими свойств, отсутствующих у родителей. По аналогии с этим принципом генетические алгоритмы используют подобный механизм для резкого изменения свойств потомков и тем самым, повышают разнообразие (изменчивость) особей в популяции (множестве решений).
Эти три принципа составляют ядро ЭВ. Используя их, популяция (множество решений данной проблемы) эволюционирует от поколения к поколению.
Эволюцию искусственной популяции – поиска множества решений некоторой проблемы формально можно описать алгоритмом, который представлен на рис. 2.1.
ГА берет множество параметров оптимизационной проблемы и кодирует их последовательностями конечной длины в некотором конечном алфавите (в простейшем случае двоичный алфавит «0» и «1») .
Предварительно простой ГА случайным образом генерирует начальную популяцию стрингов (хромосом). Затем алгоритм генерирует следующее поколение (популяцию), с помощью трех основных генетических операторов:
Оператор репродукции (ОР).
Оператор кроссинговера (ОК).
Оператор мутации (ОМ).
Генетические операторы являются математической формализацией приведенных выше трех основополагающих принципов Дарвина, Менделя и де Вре естественной эволюции.
ГА работает до тех пор, пока не будет выполнено заданное количество поколений (итераций) процесса эволюции или на некоторой генерации будет получено заданное качество или вследствие преждевременной сходимости при попадании в некоторый локальный оптимум.
В каждом поколении множество искусственных особей создается с использованием старых и добавлением новых с хорошими свойствами. Генетические алгоритмы - не просто случайный поиск, они эффективно используют информацию накопленную в процессе эволюции. В отличие от других методов оптимизации ГА оптимизируют различные области пространства решений одновременно и более приспособлены к нахождению новых областей с лучшими значениями целевой функции за счет объединения квазиоптимальных решений из разных популяций.
На первом этапе необходимо определится с математическим аппаратом для решения задачи прогнозирования развития акушерских кровотечений. Для решения этой задачи можно использовать нейронную сеть (НС) [2,3]. Для практики самым важным является определение риска потери крови при родах более чем 0,5% от массы тела, с целью принятия соответствующих мер. В этом случае, по сути, выполняется классификация на два класса: патологическое кровотечение и допустимое. Для реализации поставленной задачи в такой форме целесообразно использовать многослойную НС прямого распространения. Далее с помощью ГА определяется оптимальный набор входных параметров. После того как определена и успешно обучена НС, выполняется ГА, который подает различные комбинации факторов риска на входы НС и затем выполняется попытка обучить сеть при такой комбинации отобранных факторов риска. Принцип реализации кодирования хромосомы представлен на рис. 2.2. Каждая хромосома представляет собой последовательность определенного количества битов (определяется максимальным количеством факторов риска). Значение каждого бита равно 1, если фактор с соответствующим номером присутствует в данном наборе, и нулю, если этот фактор отсутствует. В предлагаемом подходе для выделения признаков использован генетический алгоритм, который имеет модифицированную схему реализации применительно к задаче многокритериальной оптимизации. В то время как большинство подобных методов, используемых для решения таких задач, использует единый, составной оптимизируемый критерий [4]. Решением задачи в данном случае является несколько недоминируемых подмножеств признаков. Разработана фитнесс-функция (2.1), которая предполагает поиск решения, являющегося оптимальным согласно двум критериям ? учитывается точность классификации и количество факторов риска. К тому же данная фитнесс-функция позволяет задавать желаемое соотношение точности классификации и количества факторов риска.
где Xi – количество присутствующих факторов риска в i-й хромосоме, Xn – максимальное количество факторов риска, Ei - ошибка обучения НС для i-й хромосомы, En – ошибка обучения НС при использовании максимального количества факторов, Q1 и Q2 - коэффициенты, с помощью которых регулируется соотношение между точностью классификации и числом факторов риска. Рекомендуется выбирать диапазон значений (2.2), и придерживаться условия (2.3).
Генетические операторы выполняются стандартные.
Самый простой метод реализации ОР – построение колеса рулетки, в которой каждая хромосома имеет сектор, пропорциональный ее значению ЦФ.
Простой оператор кросинговера с заданной вероятностью Pc выполняется в 3 этапа (рис.2.3):
1-й этап. Выбираются две хромосомы (родители) случайно из промежуточной популяции, сформированной при помощи оператора репродукции
2-й этап. Случайно выбирается точка скрещивания - число k из диапазона [1,2…n-1], где n – длина хромосомы (число бит в двоичном коде)
3-й этап. Две новых хромосомы A', B' (потомки) формируются из A и B путем обмена подстрок после точки скрещивания:
ОК выполняется с заданной вероятностью Pc (отобранные два родителя не обязательно производят потомков).
Оператор мутации играет вторичную роль и его вероятность обычно мала. Оператор мутации выполняется в 2 этапа:
1-й этап. В хромосоме A (рис. 3)случайно выбирается k-ая позиция (бит) мутации ( 1 <= k <= n ).
2-й этап. Производится инверсия значения гена в k-й позиции. (рис 4.)
Рассмотрена и решена актуальная задача отбора факторов риска развития акушерский кровотечений для разработки медицинской аналитической системы прогнозирования риска патологической потери крови при родах. Выполнена математическая постановка задачи отбора информативных данных. Разработана фитнесс-функция для эволюционного метода отбора информативных данных. В дальнейшем планируется реализация СКС для прогнозирования кровопотери при родах.
1. Скобцов Ю. О. Основи еволюційних обчислень / Скобцов Ю. О. – Донецьк: ДонНТУ, 2009. – 316 с.
2. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Рутковская Д., Пилинский М., Рутковский Л. - М.: Горячая линия – Телеком, 2006. – 452 с.
3. Саймон Хайкин Нейронные сети: полный курс, 2-е издание. : Пер. с англ. – М. : Издательский дом «Вильямс», 2006. – 1104 с.
4. Васяева Т.А. Отбор факторов риска потери крови при родах / Т.А. Васяева, Д.Е. Иванов, И.В. Соков. // Інтелектуальні системи прийняття рішень і проблеми обчислювального інтелекту: Матеріали міжнародної наукової конференції. Том 1. - Херсон: ХНТУ, 2011. – 472 с.
5. Архангельский А.Я. Программирование в С++ Builder
6. – М.: ЗАО «Издательство БИНОМ», 2002г. – 1152с.