О СООТНОШЕНИИ ВОСПРИЯТИЯ И МЫШЛЕНИЯ В ЗАДАЧАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

1 Распознавание рукописного текста

Исходя из принципа имитации, рукописный текст необходимо интерпретировать как след траектории пера при написании. Тем самым принимается, что содержанием понятия рукописной буквы (графемы) является не геометрический образ, а картина движения (динамический стереотип). Такое представление находится в соответствии со многими известными фактами из области восприятия рукописного текста. Легко убедиться, что по любому тексту можно восстановить траекторию его написания, включая участки, на которых перо не касалось бумаги. При афазиях, возникающих вследствие поражения мозга, иногда наблюдается неузнавание цифр и букв. Однако больной может опознать букву, если обведет рукой ее контур. Каждый легко узнает букву, написанную на спине пальцем (в то же время невозможно узнать букву, вырезанную из дерева и приложенную к спине).

Однако переход от описания графемы на растре к ее описанию в виде однопараметрической кривой (траектории пера) еще не решает задачу. Необходимо выбрать способ описания этой траектории. В качестве элементов траекторий русского рукописного курсива предлагается выбрать следующие восемь элементов: - -. Каждой строчной букве русского курсива можно сопоставить код - определенную последовательность перечисленных элементов. Подавляющее число букв обладают различными кодами.

В процессе ускорения письма траектория написания букв начинает искажаться, изменяются их коды. Однако эти искажения носят закономерный характер. Закономерность эта проявляется в том, что один элемент может перейти только в соседний элемент указанного выше ряда, т.е. при искажениях траектории я-элемент может перейти в о-элемент или л-элемент, л-элемент может перейти только в я-элемент или п-элемент и т.д. Таким образом, выбранный алфавит элементов траектории рукописных букв является упорядоченным. А с учетом того, что крайние элементы этого ряда совпадают, цепочка базовых элементов может быть свернута в кольцо, т.е. элементы упорядочены на окружности.

Покажем, что выбранный алфавит элементов является конструктивным, т.е. можно указать алгоритм их нахождения в рукописных знаках. Заметим, что каждый из элементов траектории содержит ровно один локальный максимум или минимум траектории (лишь о-элемент содержит два экстремума). Следовательно, задача сводится к отысканию экстремумов траектории. Для выделения и классификации элементов можно использовать контур изображения. Для элементов л и u каждому максимуму (минимуму) траектории соответствует пара близко расположенных максимумов (минимумов) контура. Для элементов я и g также имеются пары близких экстремумов контура, однако они лежат на разных контурах (один - на внешнем, другой - на внутреннем). В о-элементе два экстремума лежат на одном внутреннем контуре. Элементы л и v имеют только по одному экстремуму контура.

Предложенное описание имеет ряд важных качеств.

  1. Оно позволяет распознавать рукописные буквы в довольно свободном написании (алгоритм распознавания настолько прост, что позволяет определить результаты распознавания вручную);
  2. Для распознавания не требуется предварительной стандартизации изображения (по размеру, толщине букв, наклону). Таким образом, целый ряд этапов распознавания, которые считались необходимыми при персептронном подходе, оказались излишними.
  3. При данном способе описания исчезает необходимость в операции сравнения с эталоном - одной из фундаментальных операций, которую искусственный интеллект приписывает естественному. Полученный код буквы и есть название класса: последовательность элементов есть буква a.
  4. По единичному каноническому изображению какой-либо буквы программа может получить его код и с помощью правил перехода между элементами описание всего класса изображений, представляющих данную букву. Тем самым мы отказываемся от способа построения описания класса (или понятия) с помощью обучения на примерах.
  5. Рассмотрение возможных переходов элементов друг в друга при скорописи показывает, что сложившиеся исторически графические образы букв носят не произвольный характер, а удовлетворяют естественным для теории кодирования принципам помехоустойчивости при небольшой избыточности. Это дает основания для выявления закономерностей в историческом процессе формирования и становления русского курсива.
  6. Выбранный способ описания позволяет в большой мере решить задачу членения непрерывного текста на буквы. Этот способ основан на том, что имеются такие пары элементов, которые не соседствуют внутри букв и встречаются только при соединении букв между собой.
  7. Рассмотрение рукописных знаков как траектории дает основания для постановки проблем разборчивости почерков. Выясняется, что основным источником неразборчивости являются соединения между буквами в тех случаях, когда место, с которого начинается написание той или иной буквы, отличается от канонического. А в результате читающий не может правильно проинтерпретировать видимую траекторию. Из этого следует, что для обеспечения сохранности разборчивого почерка необходимо укоренять в детях правильный способ написания букв, а не правильный их вид.

Преимущества выбранного языка описания настолько очевидны, что этот язык можно назвать адекватным задаче. Важнейшими свойствами адекватного языка можно считать конструктивность (существование алгоритма описания конкретного объекта на данном языке), беспереборность (отсутствует этап принятия решения, ибо описание на этом языке прямо дает название класса) и широту (возможность эффективного использования во многих задачах). В контексте данной статьи важно подчеркнуть, что выбор той или иной модели восприятия существенно изменяет наши представления о работе интеллектуальных уровней: с одной стороны, целый ряд операций оказался поглощенным механизмом восприятия, с другой - адекватный способ восприятия позволил разрешить проблемы более высоких уровней.