О СООТНОШЕНИИ ВОСПРИЯТИЯ И МЫШЛЕНИЯ В ЗАДАЧАХ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

3 Распознавание многогранников по схематическому изображению

Схематическое изображение многогранника состоит из отрезков прямых, представляющих видимые ребра многогранника. Задача состоит в том, чтобы по этому изображению определить, какой многогранник изображен. С изложенной выше точки зрения для порождения адекватного языка необходимо описать процесс, порождающий объект распознавания - многогранники. Такой подход выглядит на первый взгляд довольно неестественным. Ситуация существенно отличается от двух других задач,, описанных выше: в них, естественно, определялся генератор объектов распознавания - человек (а точнее, рука человека с пером или его артикуляторный аппарат). И тем не менее доверимся теории.

Начнем с простого случая - с призмы. Процесс генерации призмы можно представить себе следующим образом. Рассмотрим плоский многоугольник. При поступательном движении этого многоугольника вдоль некоторой прямой (не лежащей в его плоскости) он опишет призму. На условном изображении призмы изображены видимые ребра основания и боковых граней. Боковые ребра и являются следами движения вершин основания при генерации призмы описанным выше способом. Таким образом, приходим к следующему описанию изображения призм: система параллельных линий (ребер), опирающихся на основание.

Очевидно, что такое описание является конструктивным, так как может быть получено из плоского изображения. Кроме того, это позволяет свести описание призмы к описанию ее основания, что является тривиальной задачей. Таким образом, для частной задачи распознавания призм мы получили способ описания, к которому стремились: описание объекта (например, "призма с треугольным основанием") и есть название класса, к которому он принадлежит.

Рассмотренный подход допускает обобщение на более широкий класс многогранников.

Во-первых, для усеченных призм боковые грани на изображении не обязательно должны быть параллелограммами - они могут быть четырехугольниками.

Во-вторых, для распознавания пирамид необходимо рассмотреть не систему параллельных ребер, а систему ребер, исходящих из одной точки (а для усеченных пирамид продолжения ребер должны пересекаться в одной точке).

Для того чтобы результаты распознавания можно было использовать в других задачах (например, в задачах описания сложных конструкций, их сборки и разборки), желательно провести классификацию оснований. Кроме класса правильных многоугольников, можно ввести классы Г-, П-, Т-угольников, а также "почти треугольников", "почти прямоугольников", "почти параллелограммов" и т.п.

Анализ и огрубленное описание многоугольников приложимы не только к основаниям призм и пирамид, но и к любым другим граням. Собственно для призм и пирамид это лишено смысла, ибо боковые грани у них всегда параллелограммы и треугольники. Такая процедура имеет смысл для "почти призм" и "почти пирамид" (см. рисунок).

Рис 1 - Описание многогранников (а-в - T-угольная, почти треугольная и треугольная призма соответственно)

Анализируя изображение "почти призмы" алгоритм не может его идентифицировать как призму. Однако выполнив предварительно огрубление одной из граней, получим изображение, которое идентифицируется как призма.

Описанный алгоритм может быть использован почти без изменений для распознавания группы многогранников, в которых одни загораживают другие. Эта возможность обусловлена тем, что удачно был выбран язык описания одиночных призм.

Наконец, рассмотренный язык может служить основанием для образования понятий. Пусть имеется конструкция из трех прямоугольных призм, называемая аркой. Если определить такие характеристики многогранников, как "лежит", "стоит", "на", "перед" и т.п., то по изображению арки будет построено следующее описание:

"[(призма (основание - параллелограмм)) лежит] на {[(призма (осно-вание - параллелограмм)) стоит] [(призма (основание - параллелограмм)) стоит]}".

Замечательным свойством такого описания является то, что иерархия грамматических уровней совпадает с иерархией значимости признаков, используемых при описании арки. Например, вариация признака, лежащего на самом глубоком грамматическом уровне (т.е. в самых глубоких скобках), - формы основания призмы - не разрушает описания арки. Таким образом, из единичного описания арки, приведенного выше, можно получить обобщенное описание призмы:

"[((призма) лежит) на] [((призма) стоит) ((призма) стоит)]", т.е. в описании арки форма основания призмы несущественна. Если в этом описании изменить следующий уровень, например, сменив призму на пирамиду, то мы получим скорее карикатуру на арку, чем арку, но все же что-то сходное с ней. Если же изменить еще более высокий уровень грамматической структуры, поставив "стоит" вместо "лежит", то понятие арки будет полностью разрушено.

Приведем еще один пример, в котором описание класса тоже строится по единичному образцу, но совершенно иным методом.