Источник: Естественно-языковые системы: курс лекций. – Улан-Удэ: Изд-во ВСГТУ, 2006. – 92 с.: илл. http://window.edu.ru/library/...

РАЗДЕЛ 2. ЛИНГВИСТИЧЕСКИЙ ПРОЦЕССОР - ЯДРО ЕЯ-СИСТЕМЫ
Лекция 5. Лингвистический процессор
Назначение лингвистического процессора
Попытки формализовать интеллектуальную деятельность человека привели к
постановке фундаментальной лингвистической задачи, состоящей в моделировании его
языкового поведения, т.е. в построении функциональной модели естественного языка.
Естественный язык служит человеку для выражения собственных мыслей и для понимания
мыслей других людей. Первому виду языковой деятельности соответствует производство
ЕЯ-текстов, а второму - понимание таких текстов. Если обозначить множество текстов через
{
Т
}
, а множество выражаемых ими смыслов через
{
С
}
, то модель естественного языка
можно определить как транслятор, устанавливающий соответствие между этими двумя
множествами:
{
Т
}
<=>
{
С
}
.
Формальные модели языка рассматриваются как компоненты различных прикладных
ЕЯ-систем. Компонента системы, реализующая формальную лингвистическую модель и
способная работать с ЕЯ во всем его объеме, называется лингвистическим процессором (ЛП).
Две основные функции ЛП состоят в извлечении смысла из заданного текста и в
выражении заданного смысла текстом на ЕЯ, иначе это функции:
моделирования понимания (анализ);
моделирования производства текстов (синтез).
Формальная модель, лежащая в основе ЛП, является наиболее полной моделью класса
«Смысл
<=>
Текст». Такая модель обеспечивает получение связных синтаксических структур
для всех предложений обрабатываемых текстов, независимо от степени их сложности, и
переработку текстов на естественном языке без смысловых потерь.
Структура и состав лингвистического процессора
Со стороны своего внутреннего устройства лингвистический процессор представляет
собой многоуровневый преобразователь. В нем различаются три уровня пофразного
представления текста - морфологический, синтаксический и семантический. Каждый из
уровней обслуживается соответствующим компонентом модели - массивом правил и
определенным словарем. На каждом из уровней предложение имеет формальный образ,
именуемый в дальнейшем его структурой - морфологической (МорфС), синтаксической
(СинтС) и семантической (СемС). Синтез представляет собой обратный переход от СемС
предложения к его записи в обычном орфографическом виде. Структура лингвистического
процессора представлена на рисунке 12.
Под морфологической структурой понимается последовательность входящих в
анализируемое предложение слов с указанием части речи и морфологических характеристик
(падежа, числа, рода, одушевленности, вида и т.п.).
Под синтаксической структурой понимается дерево зависимостей, в узлах которого
стоят слова данного естественного языка с указанием части речи и грамматических
характеристик, а дуги соответствуют специфичным для данного естественного языка
отношениям синтаксического подчинения.
Под семантической структурой понимается дерево зависимостей, в узлах которого
стоят либо предметные имена, либо слова универсального семантического языка, а дуги
соответствуют универсальным отношениям семантического подчинения, таким, как
аргументное, атрибутивное, конъюнкция, дизъюнкция, равенство, неравенство, больше,
меньше, принадлежит и т.п. Существенным компонентом СемС является информация о
кореферентности узлов, т.е. информация о том, в каких случаях речь идет об одном и том же
объекте, а в каких - о разных.
Рис. 12. Структура лингвистического процессора
Лингвистический процессор в целом должен обеспечивать выполнение следующих
преобразований:
предложение на ЕЯ
=>
МорфС
=>
СинтС
=>
СемС (при анализе)
СемС
=>
СинтС
=>
МорфС
=>
предложение на ЕЯ (при синтезе)
Таким образом, чтобы построить ЛП, необходимо разработать:
формальные языки для записи (образов) предложений на морфологическом,
синтаксическом, семантическом уровнях представления;
формальное понятие структуры предложения для каждого из этих уровней;
массивы правил для преобразования структур смежных уровней друг в друга;
морфологический, синтаксический и семантический словари, включив в них всю
информацию о каждой лексеме, необходимую для осуществления
Язык представления проблемных знаний
Морфологический
анализ
Профессионально -ориентированное подмножество ЕЯ - текста
Синтаксический
анализ
Семантическая
интерпретация
Проблемный
анализ
Словарь основ
словарь аффиксов
Синтаксические
правила анализа/
синтеза
Правила прямой/
обратной
интерпретации
Ситуативные
правила
проблемной
области
Морфологический
синтез
Синтаксический
синтез
Семантическая
интерпретация
Проблемный
синтез
соответствующего преобразования.
Анализ ЕЯ-текстов в лингвистическом процессоре
Цель анализа предложения на естественном языке - перевод их на М-язык ВС.
Функциями анализатора являются:
распознавание правильно построенных предложений ЕЯ;
фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте;
декомпозиция предложения на составляющие (фрагменты) и построение
соответствующей синтаксической структуры предложения;
семантическая интерпретация фрагментов ЕЯ-предложения во фрагменты М-
языка;
композиция фрагментов М-языка в структуру, описывающую ситуацию
проблемной среды.
Реализация этих функций осуществляется на этапах морфологического и
синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих
моделях ЛП два последних этапа объединяются в один этап семантического анализа.
Синтез фраз ЕЯ-текстов в лингвистическом процессоре
В большинстве случаев вместо полного синтеза используется синтез по шаблонам.
Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений,
относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для
каждого типа разработать шаблон, который заполняется при обращении к пользователю.
Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из
следующих этапов:
определение информации, которую нужно сообщить пользователю;
определение уровня общности синтезируемой информации;
выделение обязательной и необязательной информации, выражаемой в
синтезируемых фразах;
разбиение текста М-языка на фрагменты, соответствующие будущим фразам;
определение лексем для синтезируемой фразы;
построение синтаксической структуры фразы;
приписывание морфологической информации вершинам синтаксической
структуры фразы;
определение порядка слов;
осуществление морфологического синтеза лексем.
Суть семантического синтеза заключается в таком преобразовании текста М-языка, при
котором его части могли бы соответствовать будущим фразам и предложениям ЕЯ. При этом
требуется учет как языкового, так и смыслового факторов. Фраза должна быть приемлемой
по размерам, быть стилистически доступной и т.п. Иногда для этого достаточно
использовать простые правила с учетом ограничений, например, на число существительных,
на число определений, выражаемых придаточными предложениями, и т.п. Такие
преобразования осуществляются за счет правил фрагментирования текста М-языка.
Результатом семантического синтеза будет структура М-языка, разбитая на фрагменты,
соответствующие будущим фразам.
Цель синтаксической интерпретации - проинтерпретировать выделенные на
предыдущем этапе фрагменты синтаксическими структурами ЕЯ, т.е. определить порядок
следования фраз, сформировать их синтаксические структуры и заполнить эти структуры
соответствующими лексемами. Выбор лексем может зависеть от истории общения.
Например, при работе в системе типа «вопрос - ответ» синтезатор может использовать те
лексемы, которые применялись пользователем в вопросе. Не полностью определенные
синтаксические структуры подаются на этап синтаксического синтеза.
Задача синтаксического синтеза - конкретизация синтаксических структур с учетом
отношений между лексемами. Здесь выбираются форма фраз и морфологические
характеристики лексем.
Задача морфологического синтеза - построение конкретных словоформ ЕЯ по словарю
и заданной морфологической информации. Морфологический синтез завершает процесс
синтезирования, после чего сообщение на естественном языке выдается пользователю.
В данной лекции была рассмотрена архитектура лингвистического процессора,
который лежит в основе всех естественно-языковых систем, описаны этапы анализа и
синтеза ЕЯ-текстов. Основными задачами анализа ЕЯ-текстов являются морфологический,
синтаксический и семантический анализы, поэтому в последующих главах рассмотрены
методы, подходы и алгоритмы, позволяющие их реализовывать в существующих
лингвистических процессорах.