Источник: Естественно-языковые системы: курс лекций. – Улан-Удэ: Изд-во
ВСГТУ, 2006. – 92 с.: илл. http://window.edu.ru/library/...
УДК 004.8 (075.8)
ББК 32.813 я73
Е155
Рецензент: Найханова Л.В., к.т.н., доцент, заведующая кафедрой систем информатики
ВСГТУ
Печатается по решению редакционно-издательского совета ВСГТУ
Курс лекций предназначен для студентов старших курсов специализации
«Искусственный интеллект» специальностей 230105 «Программное обеспечение
вычислительной техники и автоматизированных систем» и 010503 «Математическое
обеспечение и администрирование информационных систем». Данный курс содержит
теоретический материал по одноименной дисциплине, в нем изложены основные понятия
систем общения на естественном языке, рассматриваются архитектура и основные классы
ЕЯ-систем, вопросы создания основных компонент ЕЯ-систем и их методы организации.
Лекция 11. Анализ средств формального описания понятий
Локальная модель мира представляет собой формализованное описание некоторого
контекста, отражающего объекты и их отношения. Разделение лексем или групп лексем на
объекты и отношения является достаточно условной процедурой и зависит от семантических
ролей, исполняемых лексемами или группами лексем, отражающими некие значения в
определенном контексте.
Как известно, в лингвистике разделяются такие понятия, как значение высказывания
(или сущности) и его пресуппозиция. Пресуппозиция определяется как предшествующий
контекст, предшествующее знание, или как контекст, в котором происходит определение
значения сущности. Очевидно, что понимание сущности, прежде всего, обеспечивается
именно пресуппозицией.
Известно, что первая попытка категоризации, т.е. выделения ролей элементов
реального мира была осуществлена еще Аристотелем, который определил 10 категорий:
сущность, действие, количество, качество, место, время, положение, претерпеваемость,
обладаемость, соотнесенность. Понятия структурированы по двум типам отношений: «род-
вид», «часть-целое». Первый тип структур определяет факт понятия в родовидовом дереве
(РВД) понятий, второй - уровень понятия в иерархии понятий. В модели мира один и тот же
элемент, в зависимости от ситуации, может выступать в различных ролях и, наоборот,
разные элементы могут выступать в одной и той же роли. Идея семантических ролей или
семантических падежей достаточно активно исследовалась Ч. Филлмором, П. Уинстоном, Д.
Апресяном и другими известными учеными в этой области. Проявление объектов и
отношений в тексте можно рассматривать в трех аспектах:
1 - синтаксическом (КАК формируется?);
2 - семантическом (ЧТО означает?);
3 - прагматическом (ДЛЯ чего? В каких целях?).
Классификация элементов и назначение определенных ролей элементам или классам
элементов и у Ч. Филлмора, и у Д. Апресяна происходит не на семантической, а на
прагматической, целевой основе, т.е. по их назначению, а не по семантическому
содержательному признаку [16]. Поэтому, вместо принятой в литературе понятия
"семантическая роль", здесь предлагается новое понятие - "прагматическая роль" элемента,
означающее целевую функцию объекта в заданном контексте. В данной лекции приведен
анализ тех объектно-предикатных систем, которые, практически, покрывают все
пространство объектов и их отношений, описанных во всех упомянутых работах, тем не
менее, оставаясь лишь одним из вариантов выделения и описания прагматических ролей, не
претендующим на завершенность и даже на достаточность. Ч. Филлмор в своих работах
выделил 9 ролей элементов (рис. 19).
Данная система ролей, неоднократно модифицированная, стала основой для многих
ролевых моделей и дала импульс для развития соответствующей теории. Объекты (или
понятия), как правило, передаются на поверхностном уровне (в предложении, в дискурсе) в
виде группы существительного. Поэтому вместо термина "роль" стало общепринятым
использовать название соответствующей категории имени существительного - "падеж".
Число падежей, используемых разными авторами, естественно, различается, так как это
связано с моделью мира, которую они описывают, используя падежи. Описание модели мира
вплотную связано с менталитетом разработчика, с его представлениями об объектах и их
ролях, с его компетентностью, а также может раскрываться и дополняться возможностями,
которые также априори, независимо от разработчика, заложены в естественном языке,
единицами которого на поверхностном уровне кодируются элементы модели мира.
П. Уинстон в своих работах приводит 12 возможных падежей (см. рис. 19).
Семантические падежи (роли) выделены и в модели концептуальной зависимости (КЗ-
модель), разработанной группой Р. Шенка [16]. В КЗ-модели выделяется 9 семантических
ролей (см. рис. 19).
Концептуализация Шенка включает в себя действие, множество его концептуальных
актантов и участников действия (то есть ролей). В отличие от предыдущих систем, полная
КЗ-модель является достаточно сложной конструкцией, так как преследует цель не только
получить концептуальное представление текста на ЕЯ, но и "понимание" текста на его
основе. Система ролей в КЗ-модели, тем не менее, весьма ограничена и может быть
применена лишь для очень ограниченного контекста. Очевидно, расширение системы ролей
в целях универсализации КЗ-модели приведет к нелинейному увеличению ее сложности и,
соответственно, к неэффективности системы. Вместе с тем, КЗ-модели можно отнести к
одним из первых прагматически-ориентированных лингвистических моделей, использующих
анализ, основанный на ожиданиях. Анализ при этом строится на том предположении, что
наличие некоторого семантического представления текста, который уже начал
анализироваться, задает набор возможных типов ожидаемых концептуальных структур. В
рамках этого подхода используется прагматически-ориентированная технология, т.е. весь
комплекс средств лингвистического и нелингвистического обеспечения рассматривается как
единое знание, привлекаемое для обработки текста, определяющее «ожидание», следующее
за текущей точкой разбора. Рассмотренные системы Ч. Филлмора, П. Уинстона и Р. Шенка
отличаются друг от друга полнотой, терминологией, однако они схожи тем, что
предназначены для описания пресуппозиции, т.е. более широкого контекста, нежели
непосредственно объектно-предикатной ситуации, представленной в лексиколизованном
(текстовом) виде. В отличие от описанных выше ролевых систем, Р.Г. Бухараевым и Д.Ш.
Сулеймановым [16] разработана система ролей в вопросно-ответной ситуации,
продиктованная необходимостью построения языко-зависимого лингвистического
процессора. В основе системы Бухараева-Сулейманова лежит следующий Постулат 1.
Постулат 1. Множество ожидаемых значений вопроса определяет систему отношений
и ролей, а также смысловых конструкций, формируемых в виде последовательности
словоформ, т.е. текстов на естественном языке.
Бухараевым-Сулеймановым определено следующее множество ролей, необходимое для
разработки формальной базы семантической интерпретации ответных текстов. Множество
прагматических ролей (концептул), отражающих различные типы понятий:
Ks = {SS(i), SO, Sc, SA, SP}.
Здесь SS(i) - роль, отражающая i-ое главное понятие в тексте. Главное понятие - это
понятие (понятия), относительно которого (которых) задан вопрос.
SO - роль, отражающая понятие, состоящее в некоторой определенной связи с SS(i).
Sc - роль, отражающая обобщенное понятие. Обобщенное понятие - это понятие,
находящееся по отношению к SS(i) на более высоком уровне в иерархии понятий
проблемной области (например, понятие "человек" по отношению к понятию "студент").
SA - роль, отражающая понятие-аргумент.
SP - роль, отражающая понятие-результат.
Множество прагматических ролей, отражающих различные типы отношений
обозначены:
Kr = {Rso, Ros, Ra, Rr}, где
Rso, Ros = {Rс, Rсост, Rвкл, Rд, Rвро, Rпро, Rкло, Rкчо}.
Здесь Rso - роль, отражающая отношение SS(i) к другому понятию (понятиям); Ros -
роль, отражающая отношение другого понятия (понятий) к SS(i); Ra, Rr - роли, отражающие
отношение SS(i) к SA и SR, соответственно; Rс - роль, отражающая отношение
СОСТОЯНИЕ.
Рис. 19. Ролевые системы понятий ПО
Rсост, Rвкл, Rд, Rвро, Rпро, Rкло, Rкчо - отражают отношения Состав, Включение,
Действие, Временное отношение, Пространственное отношение, Количественное отношение,
Качественное отношение - соответственно. Кроме того, выделяются роли, отражающие
грамматические признаки лексем, необходимые для сокращения пространства ожидаемых
ответов (падежные окончания, предлоги и др.) и роли, отражающие специальные признаки
(возможно, некие ограничения, четкие и нечеткие).
Ролевые системы Уилкса, Апресяна, Филлмора и др., главным образом, строятся как
система ролей понятий. Причем, в этих системах не учитываются в необходимой мере
грамматические (синтаксические и морфологические) признаки, в работе же Шенка, как уже
упоминалось, они полностью игнорируются. Такой подход отражения контекста, очевидно,
оправдан и удобен при описании значений корневых морфем, более того, имен
существительных, или лексем, выступающих в роли имени или именной группы. Однако для
агент - одушевленный инициатор
действий, описываемых , как
правило , соответствующим
глаголом ("Джон открыл дверь");
контрагент - сила, против которой
направлено действие
("сопротивляться кому-либо");
объект - вещь или сущность,
которая передвигается или
изменяется, положение или
существование которой является
предметом внимания ("разбить
окно", "Камень упал ");
место - физическое тело ,
испытывающее непосредственное
воздействие со стороны деятеля
("задеть чей-либо нос", "задеть
кого-либо по носу");
адресат - лицо, в пользу которого
или во вред которого совершается
действие ("осуждать кого-либ о",
"учить кого-либо");
пациент - вещь, которая
испытывает эффекты действия
("разбить что-либо");
результат - вещь, которая
возникает в результате действия
("выжать сок из чего -либо ");
инструмент - стимул или
непосредственная физическая
причина действия ("ударить кого-
либо кнутом");
источник - исходное состояние
о
б
ъекта до выполнения действия
("он продает книгу ").
Ролевые системы понятий
объект (дополнение) - это, как
правило, то , чье состояние
претерпевает изменение;
агент - это то, что вызывает
осуществление действия;
инструмент - это то средство ,
которое используется агентом;
соагент - это группа агентов,
которые выступают совместно с
агентом, но в несколько
подчиненной форме к нему ;
пункт отправления - это
отправная позиция;
пункт назначения - это конечная
позиция (движение, относящееся к
отправному пункту и к пункту
назначения, необязательно
происходит в физическом
пространстве);
средство доставки - это то, в чем
или на чем происходит
перемещение;
траектория - перемещение от
пункта отправления к пункту
назначения всегда происходит по
некоторой траектории;
местоположение - это то место ,
где произошло , происходит или
произойдет действие;
потребитель - это то лицо, для
которого выполняется действие;
сырье - если некоторый материал
исчезает, превращаясь в продукт,
то мы имеем падеж сырья;
время - указывает на момент
совершения действия и на его
продолжительность.
актор - это то, что выполняет
действие;
объект - это то , с чем связано
действие;
получатель - это то, что
получает объект;
отправитель - это то , что
отдает объект;
место - расположение объекта:
начальное / конечное;
инструмент - средство ,
используемое актором ;
время - означает, что
концептуализация
характеризуется временем;
результат - результатом
концептуализации является
изменение состояния объекта с
одного на другое;
причина - означает, что
некоторая концептуализация
является причиной другой
концептуализации.
Модель
Ч. Филмора
Модель
П. Уинстона
Модель
Р.Шенка
описания значений аффиксальных морфем наиболее удачным оказалось описание их через
классы отношений. Рассмотрим крупноблочное описание объектно-предикатной системы
М.З. Закиева.
Предикаты - отношения, связи (действия или состояния):
•
предикат действия (я играю в футбол);
•
предикат движения (мяч залетел в ворота);
•
предикат чувственного восприятия (я обрадовался солнцу);
•
предикат речи (ты расскажи стих);
•
предикат состояния (ребенок спит);
•
предикат долженствования (тебе надо платить);
•
предикат предположения (похоже, он ушел);
•
предикат позволения (тебе можно смотреть);
•
предикат квалификации (моя сестра – певица);
•
предикат-материал (у них мост из камня);
•
предикат детерминации (парень очень умелый);
•
предикат принадлежности (эта книга твоя);
•
предикат обладания\отсутствия (он остался без коня);
•
предикат наличия\отсутствия (на лице видна улыбка);
•
предикат предназначения (эта книга дана тебе);
•
предикат цели (хочу, чтобы ты учился);
•
предикат времени (с театра вернулись рано);
•
предикат места (наша деревня у реки);
•
предикат сравнения (ты похожа на свою маму);
•
предикат порядковый (он пришел первым);
•
предикат количества (многие луга исчезли).
Субъект - предмет суждения, это то, о чем говорится, о чем сообщается
(утверждается, что это спорная категория). Объект - это то, на что направлено действие или
состояние:
•
объект воздействия (дождь испортил настроение);
•
объект активного воздействия, или контрагент (мы спрятались от грозы);
•
объект совместного действия, или коагент (дрова пилили вместе с отцом);
•
объект пассивного действия (сруб поднят);
•
объект содержания речи (диктор передает сообщения);
•
объект-место (живет в деревне);
•
объект неожиданности (разделся до рубашки’);
•
объект попутный (вместе с лошадью убежали и овцы);
•
объект, не ставший им (взял вместо кнута);
•
объект опережающий (после дождя выглянуло солнце);
•
объект в качестве исполнителя (он выступал в качестве мельницы);
•
объект-исполнитель (заставил делать брата домашние дела).
В работе Г.С. Осипова [17] выделено и описано 17 видов семантических связей:
1. Генеративная связь, один компонент которой обозначает лицо или предмет,
принадлежащий некоторой совокупности, категории, обозначаемой вторым компонентом
(корова - домашнее животное).
2. Дестинативная связь, один компонент которой обозначает назначение для другого
компонента (этот овес для лошади).
3. Директивная связь, в которой один компонент обозначает путь, направление другого
компонента (идет в лес).
4. Инструментальная связь, один компонент которой обозначает орудие действия,
обозначаемого другим компонентом (топор плотника).
5. Каузальная связь, один компонент которой обозначает причину проявления другого
компонента спустя какое-то время (проросло посаженное зерно).
6. Комитативная связь, один компонент которой обозначает сопровождающее другой
компонент действие, сопутствующий предмет, сопровождающее лицо (за самолетом
потянулся след).
7. Коррелятивная связь, один компонент которой выражает возможность наблюдения
другого компонента или соответствия предмета другому предмету, компоненту (в очках
могу прочитать).
8. Негативная связь, один компонент которой отрицает, исключает возможность
появления другого компонента (урожая не будет).
9. Лимитативная связь, один компонент которой обозначает сферу применения,
назначения другого компонента (морковь - чтобы грызть).
10. Медиативная связь, один компонент которой имеет значение способа, средства
действия другого (плывет на спине).
11. Поссесивная связь, один компонент которой выражает отношение владения другим
компонентом (карандаш папы).
12. Потенсивная связь, в которой один компонент приводит к увеличению возможности
появления другого спустя некоторое время (с удобрением растет быстрее).
13. Результативная связь, в которой один компонент выражает следствие действия
второго (я посадил дерево).
14. Репродуктивная связь, в которой один компонент обозначает исходную точку для
воспроизведения или превращения для другого компонента (пирог испекли в печи).
15. Ситуативная связь, в которой один компонент обозначает ситуацию,
определяющую состояние или область действия второго компонента (свадьба состоится в
деревне).
16. Трансагрессивная связь, в которой один компонент обозначает результат
превращения второго (дрова превратились в золу).
17. Финитивная связь, в которой один компонент имеет значение цели, назначения
другого (я поступил учиться).
Под семантической связью в [17] в общем случае также понимается отношение
понятий в понятийной системе предметной области, употребляющийся в качестве синонима
понятия предикат. Работа группы исследователей из Минска [18] содержит подробную
классификацию отношений между понятиями. Ниже проведена систематизация и описание
следующих 14 классов отношений, практически, охватывающих все отношения, касающиеся
работ по объектно-предикатным системам. Названия классов и подклассов и примеры
доступно отражают суть этих классов, и нет необходимости «накручивать» их
дополнительными, строгими определениями.
1. Отношения классификации.
•
Иметь имя. («Собаку звали Джек»).
•
Класс-подкласс. («Органическое соединение - спирт»).
•
Часть-целое. («Колесо трактора»).
•
Элемент-класс. («Домашнее животное - корова»).
•
Род-вид. («Млекопитающие - парнокопытные»).
•
Вышестоящее-нижестоящее. («Ректор - декан»).
•
Быть эталоном. («Победитель олимпиады»).
2. Признаковые отношения.
•
Иметь признак. («Цвет объекта»).
•
Иметь значение признака. («Синий»).
3. Количественные отношения.
•
Иметь меру. («Вес объекта»).
•
Иметь значение меры. («5 кг»).
4. Отношения сравнения.
•
Равно. («Все стороны равностороннего треугольника равны»).
•
Сравнимо. («Вес объекта и вес части объекта»).
•
Больше. («Индюк больше курицы»).
•
Больше или равно. («Количество дней в одном месяце больше или равно 28 »).
•
Меньше. («Плотность льда меньше плотности воды»).
•
Меньше или равно. («Количество листьев на дереве меньше или равно количеству
почек»).
•
Несравнимо. («Вес объекта и цвет объекта несравнимы»)
5. Отношения принадлежности. («Егор студент ВСГТУ»).
6. Временные отношения. («скорый поезд пришел после товарного»).
•
Быть одновременно. («Марат и Азат пришли к началу занятий»).
•
Быть раньше. («До яйца была курица»).
•
Быть позже. («Яйцо появилось после курицы»).
•
Совпадать во времени. («Время отлета самолета и отхода поезда в Москву - 19=00»).
•
Пересекаться во времени. («В три часа обе машины будут проезжать Казань»).
•
Быть внутри по времени. («В течение твоего пребывания в Казани мы сходим в театр»).
•
Начинаться одновременно. («Свисток судьи оповестил о начале бега на 5 и 10
километров»).
•
Кончаться одновременно. («Мое терпение лопнуло в тот момент, когда заглох мотор»).
7. Пространственные отношения.
•
Совпадать в пространстве. («И шайба и клюшка оказались в воротах»).
•
Быть слева. («Слева от дерева стояла машина»).
•
Быть справа. («Справа от машины зеленело дерево»).
•
Быть спереди. («Перед преподавателем сидели два студента»).
•
Быть сзади. («Далеко за горами виднелись облака»).
•
Наискосок. («Чуть сбоку от дороги вдали светились огни»).
•
Пересекаться в пространстве. («Над деревом сошлись два облака»).
•
Касаться. («Облака плыли касаясь крыши домов»).
•
Находиться на. («Стол стоит на полу»).
•
Быть сверху. («Перьевые облака плывут выше дождевых»).
•
Быть снизу. («Подо льдом мирно текла река»).
•
Находиться в. («В кабине сидело пять человек).
8. Каузальные отношения.
•
Быть целью. («Мы хотим покорить вершину»).
•
Быть мотивом. («Он нарушил клятву»).
•
Причина-следствие. («Горячий уголь прожег материал»).
9. Инструментальные отношения.
•
Служить для. («Бревно подпирает ворота»).
•
Быть средством для. («Он доехал в лес на машине»).
•
Способствовать. («Он предоставил ему свое ружье»).
•
Быть инструментом. («Обезьяна палкой сшибла банан»).
•
Быть вспомогательным средством. («У него на поясе висела веревка на случай сильного
течения реки»).
10. Информационные отношения.
•
Быть отправителем. («Он передал письмо для любимой).
•
Быть получателем. («Мне сегодня пришло письмо»).
•
Быть источником информации. («Он сообщил мне, что заказ готов»).
11. Порядковые отношения.
•
Быть следующим. («После Сидоровых пришли Ивановы»).
•
Быть очередным. («За весной настала очередь лета»).
•
Быть ближайшим. («Зеленодольск - ближайший к Казани город»).
12. Модальные отношения.
•
Возможность. («Самолет, который стоит на поляне полетит к вечеру»).
•
Действительность. («На фоне заката летит самолет»).
•
Необходимость. («Для вывоза урожая требуется пять бортовых машин»).
13. Модификаторы. («Желательно, чтобы Вы не опоздали к началу сеанса»).
14. Квантификаторы.
•
Квантор общности. («Все студенты первого курса сдали экзамен по ЭВМ и
программированию»).
•
Квантор существования. («Нашелся студент, который не смог решить квадратное
уравнение»).
Как видно по классификации М.З. Закиева, по работе минских исследователей
выделение классов предикатов и объектов есть процесс перманентный, требующий глубокой
лингвистической интуиции от автора. Очевидно, ни одна из рассмотренных классификаций
не является полной и завершенной и навряд ли вызовет сомнение у исследователей
утверждение, что вопросы полноты и достаточности объектно-предикатной системы могут
решаться лишь в ходе практического ее использования, причем, лишь для какой-то
фиксированной ситуации. Следовательно, весьма актуально иметь некий инструментарий
для фиксирования выделенных объектов и отношений, а также автоматизированного поиска
и установления их в огромных массивах машиночитаемых ЕЯ-текстов.