О СООТНОШЕНИИ ВОСПРИЯТИЯ И МЫШЛЕНИЯ В ЗАДАЧАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

4 Автоматический анализ флюорограмм грудной клетки [5]

В результате анализа каждая флюорограмма должна быть отнесена или к классу "нормальных" или "патологических". Важнейшей частью работы является реализация автоматического описания нормальной флюорограммы. Поскольку в данной задаче целью является автоматизация человеческой деятельности, то адекватным будет "человеческое" описание флюорограммы. Оно состоит по меньшей мере в умении выделять значимые объекты, описывать эти объекты и определять их взаимоотношения. Основными объектами на любой флюорограмме считаются: легочные поля; ребра (отдельно их задние части и передние части); ключицы; корни легких; сосуды.

Как ни тривиален такой подход, он не был использован в предшествующих работах.

Поставив задачу выделения на изображении основных объектов (ключиц, ребер, корней и др.), необходимо решить вопрос о том, каким образом в программы будут заложены знания об этих объектах, без чего их выделение на таком сложном изображении как флюорограмма грудной клетки невозможно. Обычно априорные знания об объектах формулировались и закладывались в программы на языке логических утверждений (например, площадь объекта не менее такой-то, кривизна границы не более такой-то и т.п.). В этом случае знания об объектах оказываются распыленными по всем программам и настолько тесно с ними переплетаются, что в конце концов программа становится узкоспециализированной. Это делало невозможным моделирование и исследование общих принципов обработки изображений.

В качестве альтернативы было предложено хранить знания об объекте в форме изображения самого объекта [5]. Естественно, что в этом случае эталонное изображение есть конкретный представитель своего класса (например, класса "ключицы"). Соответственно возникают две проблемы:

как использовать конкретное эталонное изображение для поиска на поступившей флюорограмме аналогичного (но не идентичного) объекта;
достаточно ли единичного объекта для представления знаний о всем классе.

Оба вопроса разрешаются введением промежуточного языка описания объектов с помощью полей характеристик.

Пусть имеется схематическое (черно-белое) изображение системы "задних частей ребер", лежащей в пределах легочных полей. Этому эталону можно поставить в соответствие поле направлений границ ребер, определенное в тех же пределах. Оно задает в каждой точке легочных полей среднее направление границ ребер в некоторой окрестности этой точки. С учетом допустимых отклонений это поле задает допустимые направления ребер в каждом месте легочного поля для всех возможных флюорограмм, что используется для нахождения границ ребер на каждой конкретной флюорограмме.

Аналогичным образом можно задать схематический эталон "передних частей ребер" (которые на рентгеновском снимке секут задние части ребер примерно под прямым углом), построить по нему эталонное поле направлений граней передних частей ребер и по тем же самым алгоритмам, которые использовались для определения задних частей ребер, искать их передние части. Точно так же для поиска ключиц на любой конкретной флюорограмме достаточно сменить эталонное изображение ребер на эталонное изображение ключиц.

Имея эталонное изображение объекта (например, ребер), можно по нему построить не только поля направлений границ, но и поля других характеристик, например, поля размеров объектов, поля расстояний между объектами и т.п. Эти поля используются при поиске объектов на реальных флюорограммах. Таким образом, единичное изображение объекта порождает комплект эталонных полей характеристик. Такой комплект полей представляет информацию обо всем множестве допустимых флюорограмм грудной клетки и является описанием данного класса изображений.

Язык полей характеристик является конструктивным (алгоритмы построения различных полей просты и работают как на реальном изображении, так и на эталоне). Язык этот беспереборный, ибо алгоритмы анализа изображений с помощью полей характеристик не проводят выделения объектов и сравнения их с набором эталонов, а ищут данный объект, подобный заданному эталону, игнорируя все остальные объекты на изображении. Наконец, язык полей характеристик обладает широтой (в определенном выше смысле), ибо применим к различным классам изображений. Кроме того, он позволяет по новому трактовать психологические и нейрофизиологические экспериментальные данные. В частности, обнаруженные Хьюбелом и Визелем картины возбуждения в зрительной коре млекопитающих при стимуляции сетчатки системой черно-белых полос можно трактовать как поле направлений границ объектов на изображении.

Итак, адекватный язык дает возможность по единичному образцу построить описание класса, т.е. образовать понятие. Заметим, что и в предыдущих примерах была такая же ситуация. По каноническому образцу буквы на основании правил трансформации (правил перехода одних элементов в другие) строится описание всего класса. Точно так же "прочтение" конкретной согласной на артикуляционном языке дает нам описание всего класса ("взрывной, глухой, заднеязычный"). Заметим, что такой подход в корне отличается от традиционного для распознавания образов обучения на примерах по совокупности отличительных признаков.

Следует отметить, что подход к проблеме образования понятий как к задаче построения алгоритма распознавания получил распространение и в психологии, и даже в философии. В "Философском словаре" (М.: Сов. энциклопедия, 1980) "понятие" трактуется как "мысль, представляющая собой обобщение (и мысленное выделение) предметов некоторого класса по их специфическим (в совокупности отличительным) признакам..." (с. 287). Собственно говоря, здесь описана суть алгоритма классификации объектов по косвенным признакам, и в искусственном интеллекте это очень часто и называлось образованием понятий.

То, что такая формулировка заимствована из арсенала искусственного интеллекта, подтверждается тем, что ничего подобного не встречается в статье на эту же тему в предыдущем издании "Философского словаря" (1954). И все же на первом месте в "Философском словаре" (1980) стоит определение понятия как одной из "форм отражения мира на ступени познания, связанной с применением языка". Такая точка зрения полностью согласуется с подходом, изложенным выше.

В истории развития исследований по искусственному интеллекту обращает на себя внимание следующее. Если на начальном этапе распознавание образов составляло одну из важнейших областей искусственного интеллекта, то в дальнейшем, не справившись с моделированием восприятия, искусственный интеллект вытеснил из своей сферы задачи распознавания. Процесс этот проходил методом "взгонки". Не справившись с задачей распознавания фонем, перешли к распознаванию слов и слитной речи. Не справившись с распознаванием букв и цифр, принялись за распознавание сцен. Не справившись с обработкой неподвижных изображений, перешли к обработке движущихся объектов. Неудачи в обработке плоских изображений имели своим следствием переход к анализу трехмерных сцен. И так далее. Теперь все упирается в базы данных, в представление знаний. Сосредоточившись на переработке символьной информации, искусственный интеллект тем самым отгородил себя от внешнего мира. К тому же и робототехника становится периферийной проблемой искусственного интеллекта. В связи с этими тенденциями встает вопрос о предмете искусственного интеллекта.

Кардинальной задачей мышления является посредничество между восприятием и поведением, обеспечивающее адекватную реакцию на различные внешние ситуации. Понятно, что мышление должно быть в высшей степени согласовано как с организацией восприятия, так и с организацией движения. То, что организация движения является одной из основ интеллекта, показали уже в конце 50-х годов И.М. Гельфанд, B.C. Гурфинкель, М.Л. Цетлин, М.Л. Шик. В 60-е и 70-е годы в психологии укрепилось понимание того, что восприятие не есть пассивный процесс обработки информации, продвижения ее по конвейеру, а осуществляется при участии верхних уровней, что восприятие тесно связано с организацией памяти. Фактически признано, что трудно провести грань между восприятием и мышлением, между мышлением и поведением. Такая точка зрения отразилась в выражении: глаз есть выдвинутая часть мозга.

Конечно, если рассматривать задачу распознавания как задачу принятия решения в условиях неопределенности по набору косвенных признаков, то распознавание следует считать интеллектуальной проблемой, а формирование набора признаков - "технической" работой. Однако выше мы показали, что для решения задач распознавания вовсе не обязательно строить разделяющую поверхность в многомерном пространстве, проводить обучение на множестве примеров из каждого класса. Использование адекватного языка делает излишними "интеллектуальные" этапы процесса распознавания: описание объекта становится названием класса и определяет его содержание. Например, весь механизм нормирования изображения букв (приведение к одному размеру, к одинаковой толщине и к одинаковому наклону) оказывается излишним при описании знаков на языке траектории пера. Таким образом, класс задач, которые необходимо решать на интеллектуальном уровне, в большой мере зависит от способа восприятия.

Список примеров, свидетельствующих о глубоком взаимном проникновении того, что мы называем восприятием и мышлением, можно было бы продолжить. Из изложенного следует, что попытка изучения "чистого" мышления кажется по меньшей мере искусственной. В соответствии с этим, представление о том, что понятие "обработка символьной информации" покрывает понятие "мышления", является неадекватным. Мы пытались выше показать, что многие интеллектуальные задачи не могут быть решены в изоляции от внешнего мира, от реального времени, от топологических и метрических свойств реального пространства. С такой позиции преимущественное внимание, которое уделяется в настоящее время работе с символьной информацией, представляется спорным. По нашему мнению, изучение интеллекта, моделирование его функций должно быть тесно связано с основной задачей, которая стоит перед всяким живым существом, в том числе и перед человеком, - отражением внешнего мира для построения соответствующего поведения.