О СООТНОШЕНИИ ВОСПРИЯТИЯ И МЫШЛЕНИЯ В ЗАДАЧАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Началом работ по искусственному интеллекту можно считать ставшей классической работу Мак-Каллока и Питса 1943 г., в которой показано, что на сети из нейроноподобных элементов можно реализовать любую логическую функцию. Появление этой публикации счастливо совпало с периодом бурного развития электроники вообще и вычислительной техники в частности, что сделало возможным создание действующих моделей из нейроноподобных элементов. Идея моделирования работы мозга базировалась не только на результатах Мак-Каллока и Питса. Она предполагала также, что принято следующее:

Главная трудность представлялась в том, как соединить между собой огромное количество нейронов. Казалось невероятным детерминировать каждую из связей. Для преодоления этой трудности была выдвинута идея самоорганизации: вначале связи никак не организованы, а затем (в процессе обучения решению той или иной задачи) должна формироваться необходимая (для решения данной задачи) система связей. Отсутствие организации связей было отождествлено с наличием случайных связей. Таким образом, возникла концепция обучения, сыгравшая в дальнейшем серьезную роль.

Важным этапом на пути развития нейронных сетей стало создание персептрона. Это была действующая модель, обучавшаяся распознаванию некоторых классов изображений, провозгласившая и реализовавшая принцип обучения на примерах - принцип, который определил во многом лицо той ветви искусственного интеллекта, которая стала называться распознаванием образов. В нейронных сетях (и в персептроне в том числе) обучение необходимо для формирования определенной системы связей между нейроноподобными элементами. Однако в дальнейшем, когда для решения задач распознавания были предложены другие схемы, имитировавшие только функциональную сторону процесса распознавания (набор арифметических функций М.М. Бонгарда, разделяющие плоскости Э.М. Бравермана и др.), обучение стало использоваться для выбора соответствующего решающего правила из множества возможных. С этого момента начинается развитие исследований по распознаванию, не связанных с моделированием нейронных структур.

Исследование нейронных сетей оказалось плодотворным и привело, в частности, к возникновению понятия возбудимой среды, а затем к открытию автоволновых процессов. Однако в области искусственного интеллекта моделирование нейронных ансамблей не привело к заметным успехам. Был подвергнут критике один из основных принципов нейронного моделирования - принцип самоорганизации. М.М. Бонгард показал, что для обучения распознаванию произвольной задачи на изображении из 32Х36 элементов пришлось бы осуществить фантастическое число показов при обучении (более 10330). Поэтому система, способная обучаться на разумном числе примеров, обязательно должна обладать достаточно высокой начальной организацией. Для этого необходимо, придумать систему, которая, "имея состояния, имитирующие человека, имела бы сверх того относительно мало других состояний. Именно придумать, ибо надежда, что такая система организуется сама, не более обоснована, чем надежда на то, что, бросив в ящик куски металла и набор инструментов, после долгой тряски мы вынем из ящика хорошо идущие часы" ([1], с. 180).

Со временем накапливались новые данные о свойствах нейронов, картина функционирования нейрона стала более сложной. Преобладающим стал принцип функционального моделирования работы мозга: в качестве цели выдвигается создание программ для ЭВМ, решающих те или иные интеллектуальные задачи.

На решение каких проблем были направлены усилия в первые годы развития исследований по искусственному интеллекту? Это распознавание образов, игры (шахматы, шашки и т.п.), доказательство теорем, перевод с одного языка на другой. Что предопределило этот набор задач? Если оставить пока в стороне распознавание, то для остальных задач характерно следующее:

Что можно сказать об этих задачах сегодня, четверть века спустя?

Удовлетворительного перевода с языка на язык нет до сих пор, однако работы в этом направлении стимулировали большое число глубоких исследований природы и функции языка. В качестве примера укажем на разработку Н. Хомским теории формальных грамматик, получивших столь широкое признание.

Работы по доказательству теорем очень скоро столкнулись с проблемой всевозрастающего перебора, он все чаще приводил к повторяющимся результатам. Некий просвет наметила работа X. Гелернтера в области доказательства теорем планиметрии. Он ввел в программу генератор гипотез, т.е. кандидатов в теоремы, которые можно пытаться доказывать. Эти гипотезы порождались в процессе "рассмотрения" программой конкретных чертежей, которые она сама строила. К сожалению, эта линия развития не нашла продолжения.

Вместе с тем в ходе исследований по моделированию логического вывода выяснилось, что в тех областях, которые не относятся к чистой математике, ценность получаемых истинных высказываний не столь высока, какой, казалось, должна была бы быть. Выяснилось, что для пользователя исключительно важно, чтобы результат был правдоподобным. Правдоподобным считается результат или высказывание, которое согласуется с имеющимися представлениями или может быть получено из общепринятых теорий общепринятыми методами рассуждения. Такая ситуация наиболее типична для медицины и геологии, чем во многом объясняется отказ врачей или геологов применять возможно истинные, но не объяснимые традиционным для них способом решающие правила в медицинской диагностике или геологической разведке. Все это побудило заняться разработкой систем правдоподобных рассуждений. Хотя одна из первых и очень известных программ в этой области "Логик-теоретик" Ньюэлла, Саймона и Шоу была представлена как вариант программы для решения проблем вообще, сейчас о "всеобщем решателе задач" уже не говорят.

В программировании игр довольно быстро были достигнуты успехи для относительно простых игр (крестики и нолики, карточные игры). Заметим, что и эта область искусственного интеллекта обладает той же привлекательной для программиста особенностью, что и доказательство теорем - позиции и ходы описываются совершенно формально и исчерпывающим образом. Довольно неожиданным (даже с сегодняшних позиций) представлялся успех, достигнутый Самюэлем в шашечной игре. Оказалось, что можно запомнить достаточное число типичных позиций и их оценок для игры хорошего уровня (и это при тех возможностях, которыми обладали ЭВМ в конце 50-х годов). Программа Самюэля не была даже по замыслу программой, имитирующей мышление человека. Поэтому ее достижения оказались чисто спортивными. Она не научила нас решать какой-нибудь класс задач и не помогла обнаружить в умственной деятельности каких-либо приемов, пригодных в иных ситуациях. Этот опыт должен послужить предостережением и для тех, кто с нетерпением ждет создания сильных шахматных программ: если совершенствование шахматных программ будет идти за счет роста быстродействия и объема памяти ЭВМ, то вряд ли из этого можно будет извлечь что-нибудь поучительное.

Между тем хорошей шахматной программы до сих пор нет. Нет и вдохновляющих идей в этой области. За исключением одной, но, возможно, решающей. Идея эта принадлежит М.М. Ботвиннику. Более 15 лет назад он обратился к программированию шахматной игры. И начал не с вопроса "Как написать программу, играющую в шахматы?", а с вопроса "Как шахматист играет в шахматы?". М.М. Ботвинник пришел к выводу, что в основе оценки позиции и планирования действия на шахматной доске лежат геометрические построения, т.е. для играющего существенно, что фигуры движутся по разного рода прямым линиям (горизонталям, вертикалям, диагоналям). Планирование движения фигур происходит на языке траекторий, которые являются ломаными линиями. Другими словами, любая статическая позиция для шахматиста наполнена движениями фигур (бывшими и будущими). Такое рассмотрение позиции напоминает фотографию оживленной вечерней улицы, когда наряду с изображениями автомашин видны тянущиеся за ними светящиеся шлейфы - траектории их недавнего движения. М.М. Ботвинник предложил ввести понятие "уровня достижимости" - число ходов, за которое данная фигура с данного поля может достичь заданного поля. Эта характеристика сочетает в себе как динамические особенности позиции, так и особенности данной фигуры в данной позиции, ибо скорость достижения определенного поля на доске зависит от самой фигуры и от расположения других фигур. Естественно, что уровень достижимости изменяется в ходе партии. Можно показать, что относительная сила фигур тесно связана с этой характеристикой и поэтому изменяется в ходе партии.

Такой подход к программированию шахматной игры представляется перспективным, однако пока он еще не реализован.

Обратимся теперь к проблеме распознавания образов, которая играла ведущую роль в исследованиях по искусственному интеллекту. В подтверждение приведем два высказывания. Одно из них принадлежит академику А. А. Дородницыну: "Информатика внесла два основных метода в решение задач прогнозирования (диагносцирования) явлений, изучаемых "описательными" науками: метод математического моделирования и метод распознавания образов..." (см. статью [2], с. 89).

Другое высказывание принадлежит Э. Ханту. Касаясь содержания своей книги, он пишет: "Я выделил два четко определенных класса научных проблем - распознавание образов и решение задач" (см. монографию [З], с 520).

За прошедшие десятилетия распознавание образов проделало довольно длинный путь. Начинается он с персептрона Ф. Розенблатта. Однако довольно быстро стало ясно, что персептрон обладает весьма ограниченными возможностями в распознавании изображений. Вскоре появился ряд новых принципов построения программ распознавания: гипотеза "компактности" и геометрическая интерпретация решающего правила, статистические концепции, принцип преобразования исходного пространства, структурно-лингвистические методы. Каждый из них был встречен с энтузиазмом и сулил решение имевшихся трудностей. Однако они не решены в удовлетворительном виде и сегодня. Имеющиеся за рубежом устройства предназначены для чтения лишь определенного шрифта и притом далеко не каждого. Трудности чаще всего возникают из-за того, что буквы оказываются сцепленными друг с другом (вследствие расплывания печатной краски, грубой структуры бумаги и т.п.). Судя по публикациям, распознавание рукописного текста возможно лишь для стилизованного шрифта и раздельных букв. О создании автомата, читающего слитную скоропись, пока речь не идет.

Распознавание речи пошло по пути чисто технического решения проблемы. Был ограничен словарь распознавания слов (до сотен), ограничено число дикторов (чаще до одного), и задача свелась к распознаванию нескольких сот сигналов, обладающих большим разнообразием. При этом, естественно, возникает возможность выбора словаря таким образом, чтобы уменьшить сходство сигналов. В качестве признаков для распознавания используются энергетические, частотные и временные характеристики, мало связанные с артикуляционной основой речи.

Уже в 60-е годы стали ясны причины неудач. Разработанные к тому времени методы узнавания касались решения задачи разделения объектов в заданном пространстве описания. Для решения же различных задач распознавания необходимо в каждом случае построить свое, адекватное задаче описание объектов. Идея была ясно сформулирована И.М. Гельфандом (подробнее см. статью [4]). М.М. Бонгард пытался разрешить эту проблему, выделив в алгоритме распознавания специальный блок, конструирующий в каждой задаче свое описание. Однако решить проблему в достаточно общем виде не удалось, хотя работа М.М. Бонгарда (совместно с В. И. Максимовым) по классификации картинок до сих пор является одним из высших достижений в области осмысленного распознавания изображений.

Авторы статьи [4] подошли к этой проблеме более кардинально. Они предположили, что выбор адекватного языка вообще вне традиционной тематики распознавания - построения решающих правил, а именно в сфере той специфической области, из которой взята задача распознавания (медицины, геологии, фонетики и т.п.).

Параллельно с исследованиями таких традиционных для распознавания проблем возникло направление, связанное с решением задач прогноза и диагноза в геологии, медицине, технике, социологии, психологии и т.д. Первая работа в этом направлении была посвящена распознаванию нефтеносных пластов по данным геофизики. В дальнейшем появилось много публикаций об использовании программ распознавания в геологии и геофизике, а затем и в медицине, психологии, социологии, химии. В чем причина того, что идея разделения объектов в многомерных пространствах, которая не привела к успеху в области распознавания изображений, оказалась плодотворной в некоторых задач технической и медицинской диагностики?

С точки зрения алгоритмов распознавания лучше всего было бы, если бы удалось так выбрать пространство характеристик и так определить метрику в этом пространстве, чтобы оказались все объекты одного класса близкими между собой, объекты другого класса также близкими, а расстояние между классами было бы велико. В случае распознавания изображений необходимо еще, чтобы такое положение имело бы место для всех интересующих нас задач, которые можно сформулировать на заданном растре. Ведь все картинки отражаются в одно и то же пространство рецепторов. Однако разные задачи предъявляют разные требования к понятию "близость объектов". В одних задачах необходимо, чтобы близкими считались объекты, почти совпадающие при наложении. Для других нужно чтобы близкими оказались объекты, полученные друг из друга путем переноса или поворота. Третьи задачи требуют, чтобы близкими считались подобные фигуры.

В геологических задачах узнавания ситуация в корне отлична. В распознавании изображений пространство рецепторов фиксировано, но мы обладаем возможностью конструировать знаки (например, шрифт или дорожные знаки) так, чтобы их легко было различать. В геологии ситуация обратная: мы не можем (или почти не можем) конструировать объекты распознавания (ибо они выбираются из экономических или научных соображений), но зато в широких пределах можем изменять пространство характеристик. Тем самым при выборе одной и той же метрики, по существу, в разных пространствах получим "близость" различного свойства. В одном случае это может быть близость пород по электрическому сопротивлению (полезная при разделении водоносных и нефтеносных пластов), а другом - близость объектов по положению относительно геологических структур (что полезно при определении сейсмичности).

Более того, измеряемые характеристики геологических объектов отбирались именно с позиций их эффективности при классифицировании в различных задачах (и в первую очередь в задачах разведки полезных ископаемых), т.е. значения характеристик должны были отличаться у объектов, принадлежащих различным классам. Таким образом, пространство измеряемых характеристик складывается в геологии (так же как и в медицине) под непрерывным давлением требования разделимости объектов по отдельным характеристикам, а тем самым (и тем более) во всем пространстве характеристик. Фактическая степень разделимости различна в разных геологических задачах. Все новые геологические, геохимические и геофизические методы направлены на увеличение этой разделимости в тех или иных задачах.

Задача описания объекта исследования в медицине и в геологии очень скоро привела к проблеме целостного описания. Проблема целостности была осознана как научная проблема гештальт-психологами в начале нашего века. Позднее были предприняты попытки положить понятие целостности в основание общей теории систем, но безуспешно: из всех формальных теорий понятие целостности исчезало. В физиологии понятие целостности, в частности, было введено через понятие синергии. Была также предложена трактовка целостного (системного) подхода как особого способа восприятия действительности или, другими словами, способа огрубленного описания [б]. Тем самым свойство целостности отторгается от объекта исследования и становится атрибутом исследующего субъекта.

Итак, оказалось, что гипотеза разделимости образов в пространстве характеристик гораздо лучше соответствует задачам узнавания в геологии и медицине, чем узнаванию изображений.

Вернемся теперь к задачам распознавания изображений и речи. Как мы уже указывали, в 60-е годы в нашей стране возникло понимание того, что корнем проблемы распознавания является выбор адекватного языка описания объектов. В то время еще не было ясного понимания того, что такое адекватный язык и как его конструировать. У авторов работ [1,4] была скорее ясность того, что не является адекватным языком. С изложенной точки зрения фундаментальным становится вопрос: имеются ли регулярные способы конструирования языка, адекватного задаче? В книге М.М. Бонгарда предложен один из путей решения этой проблемы - принцип имитации. Согласно этому принципу задача узнавания должна быть рассмотрена как задача имитации устройства, генерирующего объекты распознавания, и описание объекта должно вестись на языке функционирования этого устройства. Проиллюстрируем плодотворность такого подхода на нескольких примерах.