А. Н. Никитин. Идентификация и локализация клеток на микроскопических
изображениях с использованием SIFT-алгоритма
ГНУ «Институт радиобиологии НАН Беларуси», Республика Беларусь, Гомель,
nikitinale@gmail.com
Источник: http://scipeople.com/publication/67736/
Аннотация
В данной статье описывается метод одновременного распознавания и локализации
клеток на микроскопических изображениях, использующий генеративную модель и SIFT
алгоритм поиска и описания особенных точек. Метод инвариантен к аффинным
трансформациям объекта на изображении и вариациям его формы. Подход довольно
эффективен для быстрой идентификации и локализации клеток различных типов, даже
при их частичном перекрытии клетками того же типа, либо другими объектами.
Введение
Существует два основных подхода для количественной оценки состояния отдельных
клеток: проточная цитометрия и цитометрия изображений (микроскопическая
цитометрия). Микроскопическая цитометрия подразумевает оценку свойств клетки на
изображении, полученном с помощью микроскопа и цифровой камеры. Изображения
могут быть проанализированы визуально, т.е. измерен размер клеток, подсчитано число
окрашенных элементов в каждой клетке и т.п. Визуальный анализ может быть выполнен с
помощью или без помощи компьютера, т.е. с использованием монитора и мыши для
задания места расположения и указания границ клеток. Главным затруднением при
визуальном анализе является значительные затраты времени и сил на ручное
маркирование и выделение клеток. Кроме того, визуальный анализ характеризуется
значительной долей субъективности. Если визуальный анализ выполняется повторно
одним и тем же либо другим наблюдателем, результат часто заметно отличается от
первоначального, т.е. данный метод не является полностью воспроизводимым.
Автоматизация обработки изображений с применением приемов компьютерного зрения
снимается ограничения по скорости выполнения анализа, его стоимости и
воспроизводимости и выводит цифровую цитометрию микроскопических изображений на
качественно иной уровень.
Сопоставления результатов анализа одного и того же образца методами проточной и
микроскопической цитометрии указывают на частое несоответствие между ними. Эти
различия, во-первых, могут быть вызваны потерей клеток при приготовлении суспензии
для проточного цитометра [1, 2]. Подобные потери могут быть избирательными в
отношении отдельных видов клеток и весьма трудны для обнаружения. Но скорость
микроскопической цитометрии не идет ни в какое сравнение с проточной, с помощью
первого подхода может быть обработано значительно меньшее количество клеток за
единицу времени. В тоже время с помощью микроскопа может быть оценено такое
количество параметров каждой клетки, которое недостижимо для проточной цитометрии.
Микроскопическая цитометрия может быть применена к срезам солидных тканей, без
необходимости разделения их на отдельные клетки – процедуры, существенно
изменяющей свойства изучаемого объекта. И что, не менее важно, при микроскопической
цитометрии клетки могут находиться в своей более или менее естественной среде, а
изображения могут быть сохранены и проанализированы повторно или
проконтролированы визуально, если результаты вызывают сомнения. Автоматизация
микроскопической цитометрии может значительно увеличить ее производительность.
Быстрые алгоритмы распознавания, локализации и сегментации клеток, вместе с
постоянным ростом производительности вычислительных систем и качества цифровых
камер могут со временем привести к достижению микроскопической цитометрией
скоростей проточной.
Благодаря постоянному совершенствованию методов подготовки препаратов и
появлению новых флуоресцентных маркеров отдельных молекул становится возможным
количественное изучение внутриклеточных биохимических процессов в большом
диапазоне пространственных и временных масштабов. Поэтому микроскопическая
цитометрия сегодня может применяться для изучения огромного количества
внутриклеточных процессов на большом количестве образцов с высоким уровнем
воспроизводимости результатов [3]. Новые перспективы использования оптической
микроскопии вызвали ее ренесанс. В дополнение к информации получаемой с помощью
специфических флуоресцентных меток, для анализа полученных данных необходима
дополнительная структурная информация, характеризующая клетки, включая количество
клеток, их локализацию, контуры, взаимное расположение. Автоматическое извлечение
данной информации из изображений затруднено из-за вариабельности формы, размеров,
внутреннего строения клеток и уникальности каждой отдельной клетки. Значительные
трудности создает невысокая контрастность изображений, а также присутствие на
препаратах клеток иных типов, атипичных клеток и неклеточных структур.
Проблема обнаружения и локализации объектов определенного класса на
изображениях уже давно привлекает внимание специалистов по компьютерному зрению.
Фундаментальным является вопрос о том, как охарактеризовать тот или иной класс
объектов на изображении. В отличие от распознавания образов, где необходимо выбрать
между относительно небольшим набором классов, проблема обнаружения требует
дифференцировать объект целевого класса среди всех остальных объектов, которые
только могут встретиться в данной задаче. Поэтому описание класса должно обладать
достаточной исключающей силой, чтобы выделять объекты даже при наличии на
изображении объектов имеющих сходный внешний вид или частичном перекрывании
целевых объектов другими, и в тоже время иметь достаточную гибкость, чтобы суметь
охарактеризовать все возможные проявления внешнего вида целевого объекта.
Классическим подходом для распознавания объектов на изображениях является
предварительная сегментация, с последующей классификацией в многомерном
пространстве свойств. В большинстве алгоритмов классификации используются
искусственные нейронные сети [4]. В частности, для решения проблемы автоматической
локализации и классификации клеток крови, подобная схема применена в системе Мекос-
Ц1/Ц2 [5] и DiffMasterTM Octavia (CellaVision AB, Lund, Sweden) [6]. Сегментация клеток
на микроскопических изображениях мазков основана на нескольких техниках,
включающих пороговую фильтрацию и сегментацию по водоразделам. Затем для каждого
сегментированного участка извлекается несколько сотен свойств, включающих
характеристики цвета, размера, формы, текстуры. Алгоритмы классификации, как
правило, основаны на искусственных нейронных сетях, тренированных с использованием
изображений, классифицированных экспертами в данной области. Искусственные
нейронные сети базируются на минимизации эмпирического риска, поэтому они склонны
к ложной оптимизации из-за локальных минимумов. В последние годы метод несущих
векторов обнаружил заметную эффективность во многих реальных приложениях, и он
является хорошей альтернативой нейронным сетям в алгоритмах распознавания объектов
на изображениях [7].
Сегментация клеток на микроскопических изображениях, являющаяся первой стадией
классического подхода к их распознаванию – наиболее сложная и неоднозначная задача.
Среди основных причин, препятствующих адекватной сегментации, можно назвать частое
перекрывание одной клеткой другой, сильная вариация клеток по форме и размеру,
воздействие различных факторов на внешний вид клетки, слабая контрастность
изображений с дополнительными проблемами, вызываемыми шумами. Часто
контрастность контуров структурных элементов внутри клетки, особенно после окраски,
значительно превышает контрастность границ самой клетки, из-за вариабельности
освещения, контраст между фоном и границей клетки может сильно изменяться, все это
делает невозможным применение стандартных алгоритмов без предварительного знания о
свойствах границ клетки.. В тоже время, в результате изучения зрительной системы
человека [8] и разработки систем компьютерного зрения [9, 10], известно, что
распознавание и сегментация объектов на изображении – это сильно
взаимообусловленные процессы и знание класса объекта и места его расположения
должно использоваться для повышения эффективности сегментации.
Существуют и альтернативные подходы для идентификации клеток на изображениях,
но как правило спектр применения каждого из этих методов ограничивается
определенными специальными случаями. Так для локализации клеток на
микроскопическом изображении Padfield [11] и др. использовали свертку набором
кольцеподобных примитивов различных размеров, имеющих положительные значения на
кольце, и равные нулю внутри и снаружи кольца, что позволило довольно успешно
идентифицировать темные клеточные ядра, окруженные светлой цитоплазмой. Но кроме
ядер этот метод обнаруживает ложные темные объекты фона, непосредственно
примыкающие к цитоплазме. Для уменьшения числа ложных объектов авторами на
следующем этапе используется классификация всех объектов с помощью заранее
откалиброванного классификатора. Необходимо отметить, что данный метод может быть
применен лишь в том случае, если форма клеточного ядра близка к кругу. Fenistein [12]
для высокопроизводительной цитометрии использовал размытие по гауссу со
стандартным отклонением равным среднему радиусу клетки. Последующий поиск
локальных максимумов позволяет находить наиболее вероятные места расположения
клеток. Данный метод эффективен в случае однородных по размеру, округлых клеток,
окраска ядра которых имеет, по крайне мере, такой же уровень яркости, как и у
цитоплазмы при темном фоне. Для локализации и последующей сегментации нервных
волокон на гистологических срезах Wang и др. [13] использовали мультимасштабное
сегментирование по методу водоразделов. В последующем ядра нервных волокон
выделялись на основании результатов сегментации в серии различных масштабов и
свойств, присущих нервным клеткам. Данный методы идентификации клеток на
гистологических препаратах является довольно перспективным, но каждый раз при
переносе его на новый класс объектов модель требует существенных преобразований и
доводки. Хорошие результаты идентификации и сегментации белых клеток крови показал
мультиспектральный метод, основанный на получении микроскопического изображения в
33 каналах в видимом диапазоне спектра [14]. Однако данный метод не позволяет
раздельно идентифицировать клетки в случае их очень близкого расположения или
частичного перекрытия, кроме того, необходимо специализированное оборудования для
получения мультиспектральных изображений.
Сегодня наиболее распространенными маркерами клеток определенного типа являются
флуоресцентные красители, идентифицирующие ядро или какую либо другую клеточную
структуру. Среди основных недостатков использования таких красителей высокая
токсичность большинства из них из-за чего они не позволяют наблюдать живую клетку в
течение продолжительного времени, а использование канала только для идентификации и
локализации клеток, во многих случаях, является весьма расточительным [7].
Таким образом, на сегодняшний день имеется довольно большое количество подходов
для идентификации и локализации клеток на микроскопических изображениях.
Большинство из них предназначено для решения узкоспециализированных задач и имеет
существенные ограничения. Задачей настоящей работы является разработка
универсальной обучаемой модели для идентификации и локализации клеток на
микроскопических изображениях, основанной на локальных специфичных
информативных участках изображения, характеризующих тип объекта – особенных
точках.
Особенные точки
Одним из подходов, применяемых в машинном зрении для распознавания и
локализации объектов, является использование модели объекта, состоящей из нескольких
характерных частей. Размеры таких характерных частей объекта, их количество и
специфичность могут быть различными. Предельным случаем такого подхода является
представление модели объекта в виде небольших инвариантных участков, точек
изображения.
Среди требований, предъявляемых к особенным точкам необходимо выделить
следующие: структура в окрестностях данной точки должна быть насыщена локальной
информацией, которая легко извлекается математическими методами и может быть
использована для дальнейшей обработки; свойства особенной точки должны быть
устойчивы к локальным и глобальным нарушениям, включая деформацию,
перспективную трансформацию, изменение освещения и проч.; желательно, чтобы
описание особенной точки включало масштабные характеристики для
мультимасштабного описания объектов, представленных на изображениях. На
сегодняшний день предложен ряд удачных детекторов особенных точек [15, 16], часто они
основываются на краевых детекторах [17, 18, 19] или даже извлекают такие точки из всего
изображения в различных масштабах [20]. Для идентификации объекта по особенным
точкам предпочтительным оказывается учет как можно большего их числа, но при этом
точки должны располагаться в тех местах изображения, где сигнал изменяется в
наибольшей степени [21], т.е. наиболее насыщенных локальной информацией.
Одним из наиболее удачных алгоритмов поиска и описания особенных точек является
масштабно-инвариантная трансформация свойств (Scale-invariant feature transform) – SIFT
[22, 23]. Особенные точки, полученные с помощью SIFT алгоритма инвариантны к
масштабированию и поворотам изображения. Они устойчивы к изменениям в освещении,
шумам и небольшим изменениям позиции наблюдателя. Кроме того, их извлечение –
относительно простая процедура, они хорошо различимы, что позволяет надежно их
идентифицировать с низкой вероятностью ошибки. Особенные точки SIFT отбираются в
экстремумах (максимумах или минимумах) разностей Гауссианов (DoG) в различных
масштабах. На следующей стадии исключаются точки с низкой стабильностью: имеющие
низкий контраст или расположенные на краях объектов. Для каждой точки определяется
одно или несколько направлений превалирующего градиента яркости. Этот шаг является
важным для достижения инвариантности к вращению, кроме того, ориентация особенной
точки важна для нашей модели, как базовая для определения ориентации на центр клетки
(см. ниже). Дескриптор SIFT обеспечивает инвариантность к изменению яркости, позиции
наблюдателя и незначительным аффинным преобразованиям. Он определяется по набору
гистограмм векторов градиента яркости между соседними пикселями (4Х4) на
изображении, обработанном Гауссовым фильтром в масштабе наиболее близком к
масштабу особенной точки. Гистограмма содержит 8 ключей, а каждый дескриптор
состоит из 4Х4 гистограмм, определенных в окружении особенной точки. Всего
дескриптор содержит 4Х4Х8=128 элементов. Дескриптор можно представить в виде
вектора в 128-размерном пространстве. Данный вектор нормализуется для улучшения
инвариантности к освещению. Как считает автор алгоритма, 128-размерный дескриптор
является оптимальным с точки зрения вычислительных затрат, уникальности,
устойчивости к трансформациям и шумам. Предлагаемая модель основывается на
обработке большого набора особенных точек, полученных с помощью SIFT-алгоритма.
Основной рабочей гипотезой является предположение, что любые целевые клетки имеют,
характерный только для них, набор особенных точек, позволяющий их идентифицировать.
Модель формы клетки
Использование модели основанной на большом количестве ключевых точек имеет то
преимущество, что позволяет распознать и локализовать объект, даже если он плотно
соприкасается или перекрывается другим объектом того же или другого типа. Само по
себе уникальное сочетание особенных точек может только указать на наличие целевого
объекта на изображении, но для того, что бы сказать, где конкретно расположен данный
объект, необходимо привлечь какую-либо пространственную модель взаимного
расположения особенных точек. Наиболее простым, но в тоже время довольно
неустойчивым и неэффективным является алгоритм поиска искомого сочетания
особенных точек с помощью рамки, имеющие размеры близкие к размеру целевого
объекта. К настоящему времени разработано несколько более совершенных способов
построения модели объекта, основанных на особенных точках. Среди них наибольшей
простотой для тренировки модели и идентификации объекта отличается звездообразная
модель [24, 25], в противоположность модели созвездия или сложной графической
модели. Звездообразная модель позволяет использовать неограниченное число составных
частей с линейным возрастанием ее сложности. Более того, эта модель достаточно гибкая,
для того, чтобы корректно представлять объекты вариабельные по форме. Также ее можно
слегка модифицировать для достижения инвариантности к повороту объекта, что важно
для описания клеток на микроскопических изображениях.
Тренировка модели
Для тренировки модели используются сегментированные экспертами изображения,
таким образом, что целевой объект (клетка или клетки) выделяются среди всех остальных
объектов изображения. По экстремумам в пространственно-масштабной системе
координат находятся все особенные точки на тренировочных изображениях, как
принадлежащие целевому объекту, так и не принадлежащие ему. Неустойчивые особенные
точки отбрасываются, как это описано выше. Для каждой отобранной особенной точки,
принадлежащей целевому типу клеток, определяется расположение относительно нее
центра клетки («центра масс») в полярных координатах, также сохраняется значение
масштаба, и 128-значный дескриптор. Для особенных точек, собранных вне целевого
объекта, сохраняется только значение масштаба и дескриптор.
Все описанные алгоритмы реализованы на платформе Java в качестве плагина к
популярной бесплатной графической программе ImageJ. Для поиска и описания SIFT-
точек использована библиотека JavaSIFT.
Наиболее простым вариантом использования собранных данных об особенных точках,
характерных для искомого объекта является поиск среди них k-ближайших соседей с
особенными точками, обнаруженными на анализируемом изображении, и, на этом
основании, принятие решения о вероятном расположении искомого объекта. С
возрастанием количества тренировочных образцов, прямопропорционально увеличивается
количество записей, характеризующих особенные точки. Использование подобного
набора данных требует значительных затрат времени на поиск соответствий между
особенными точками на обрабатываемом изображении и набором тренировочных данных.
Построение компактной «книги шифров», содержащей усредненные дескрипторы группы
визуально близких особенных точек, а также вероятность принадлежности данной группы
к искомой клетке и вероятное расположение ее центра, позволяет представить модель
более компактно.
Для построения «книги шифров» необходимо выполнить кластеризацию набора
тренировочных данных. Основным требованием к кластерам входящим в «книгу шифров»
является их визуальная компактность – визуальная похожесть всех членов кластера друг с
другом и «центром масс» кластера. Аггломеративная кластеризация позволяет добиться
необходимого уровня компактности кластеров, при заданном уровне минимального
расстояния между соседними кластерами. Однако данный метод кластеризации очень
требователен к вычислительным ресурсам и на современных персональных компьютерах
кластеризация особенных точек собранных с нескольких сотен тестовых изображений
может потребовать недели и месяцы. Довольно быстрым методом кластеризации
большого объема данных значительной размерности является k-means алгоритм. Однако
применение этого алгоритма было отклонено ввиду не всегда удовлетворительных
результатов кластеризации, основным источником неудовлетворительных результатов
является необходимость предварительного указания количества кластеров.
Для построения «книги шифров», использованной в настоящей модели, применен
алгоритм взаимно ближайших пар соседей (reciprocal nearest neighbor pairs),
использованный для аналогичных задач в [26] и подробно описанный в [27]. Для
кластеризации с помощью алгоритма взаимно ближайших пар соседей необходимо
задание только одного параметра – порогового уровня подобия (t), используемого в
дальнейшем и при идентификации объектов. Данный метод имеет линейную зависимость
скорости работы от объема данных и позволяет получить визуально компактные кластеры
по сравнению с k-means кластеризацией, при сходных требованиях к вычислительной
мощности. На начальном этапе каждый элемент из набора тренировочных данных
помещается в отдельный кластер. Затем, начиная со случайного кластера, начинается
построение цепочки ближайших соседей, посредством поиска наиболее близкого кластера
к кластеру, завершающему цепочку. Если найденный наиболее близкий кластер имеет
сходство с завершающим цепочку кластером меньшее, чем сходство последнего кластера
с предпоследним, то последние два кластера объединяются, при условии, что их сходство
выше порогового уровня подобия t. Если же это условие не выполняются, то далее
кластеры, находящиеся в цепочке не могут быть объединены с другими и попадают в
финальную группу кластеров и в дальнейшей кластеризации не учитываются. Новый
кластер, возникший при объединении двух взаимно ближайших соседей, вновь попадает в
общую группу кластеров и участвует в дальнейшем анализе.
Заключение
Предложена генеративная модель изображений клеток различного типа для их
идентификации и локализации при цифровом анализе микроскопических препаратов.
Модель основывается на обработке значительного количества особенных точек, отбор и
описание которых производится с использованием алгоритма масштабно-инвариантной
трансформации свойств (SIFT). Модель клетки представлена в виде звезды с лучами,
исходящими из центра клетки к каждой из особенных точек, расположенных внутри
изображения клетки. Для компактного представления модели и ускорения процесса
распознавания, собранные на тренировочных изображениях описания особенных точек
подвергаются кластеризации по методу взаимно ближайших пар соседей с последующей
генерацией «книги шифров», содержащей усредненный дескриптор визуально компактной
группы особенных точек, вероятность принадлежности данного ключа «книги шифров»
искомому объекту и распределение вероятности нахождения центра клетки относительно
особенных точек, относимых к данному ключу. Идентификация и локализация клеток
начинается со сбора особенных точек, с последующим их соотнесением с ключами «книги
шифров» и построением плотности распределения вероятности нахождения центра
искомых объектов в пространстве. Центры клеток искомого типа расположены в местах
локального максимума плотности распределения вероятности, при превышении
критического уровня абсолютного ее значения. Испытания модели показали высокую
степень ее избирательности к клеткам заданного типа.
Полная версия статьи доступна по следующей ссылке: