ИСТОЧНИК: Фундаментальные и прикладные проблемы приборостроения, информатики, экономики и права. Научные труды V международной научно-практической конференции в г. Сочи 1-5 октября 2002г.; Книга "Информатика" - Москва: МГАПИ, 2002. - С. 65-69
МОДЕЛИРОВАНИЕ СЕМАНТИКИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ВЫСКАЗЫВАНИЙ В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Лукьяненко С.А., Бессонов А.В.; Казакова Е.И.
(Донецкий национальный технический университет, г. Донецк, Украина)
Проблема автоматической обработки естественного языка привлекает ученых самых различных специальностей: математиков, специалистов по искусственному интеллекту, лингвистов и др. Решением данной проблемы является необходимость исследования и моделирования на ЭВМ процессов понимания естественного языка человеком. Разработке систем обмена информацией с ЭВМ на языке человека уделяется большое внимание. Необходимым условием построения таких систем является наличие простых и достаточно надежных процедур перехода от представления информации в виде предложений на входе ЭВМ к представлению ее на внутреннем языке системы.
Для систем, обеспечивающих доступ к информации в ограниченной области знаний, предложен широкий спектр методов анализа: от представления запросов в виде наборов ключевых слов до получения графов синтаксических и семантических структур входных текстов.
Системы языкового общения можно разделить на четыре группы: форматные, с текстовой основой, с ограниченной логикой и с общим выводом.
Форматные системы относятся к наиболее простым диалоговым системам и обычно используют два жестких формата: один - для представления знаний, хранимых в системе, другой - для представления входных и выходных сообщений. Примером может служить модель общения, использующая табличный язык. Входное сообщение представляет собой таблицу, заполняемую человеком. Выходное сообщение также может иметь табличную форму. Таблица жестко регламентирует формат и порядок слов в предложениях, что упрощает программы обработки и способы хранения данных в ЭВМ. Форматные системы используются, в частности для создания простых информационно-справочных и учетных систем. Они имеют узкую целевую направленность и характеризуются информационной жесткостью, не позволяющей перестраивать их для других целей.
В системах с текстовой основой непосредственно хранится текст на естественном языке. Текст снабжается различного рода схемами индексирования, на основе которых строятся запросы, и производится поиск запрашиваемых предложений или фрагментов текста. Наиболее распространенными в этой группе являются системы, использующие дескрипторные языки. Дескрипторы - это лексические единицы информационно-поискового языка, обладающие смысловой однозначностью. Они используются для индексирования текста. Дескрипторы и связи между ними устанавливаются на основе анализа профессионального языка пользователя и формализуются в виде дескрипторного графа. При общении разрешается использовать слова только из словаря дескрипторов. Структура запроса строится в соответствии со структурой связей между дескрипторами. Недостатком этих языков является невозможность организации процедур выбора более сложных, чем поиск по дескрипторному графу.
Системы с ограниченной логикой используют формальные модели представления знаний с упрощенными системами логического вывода. Наиболее известные системы этой группы реализованы с использованием языков PLANNER и LISP. Системы с общим выводом используют широкий класс формальных моделей, таких, как семантические модели, сети фреймов, нечеткие лингвистические переменные, предикатные модели и др. В ряде работ системы общения реализованы с использованием универсальной процедуры доказательства теорем. Форма представления информации в них не зависит от особенностей самой системы общения. Это свойство дает возможность использовать такие системы в любой области, представимой в исчислении предикатов. Очевидно, интеллектуальная в части языкового общения система должна понимать текст естественного или ограниченного естественного языка.
Поскольку естественный язык содержит все средства для выражения алгоритмов и всевозможных данных при их машинной обработке, он может служить прекрасным средством коммуникации человека и ЭВМ. Любая автоматизированная информационная система должна иметь в своем составе набор средств автоматической обработки естественно-языковых сообщений. Но в силу того, что естественный язык состоит из словаря и грамматики - любая автоматизированная система обработки естественно-языковых сообщений должна иметь в своем составе «средства грамматической обработки» и «средства словарной (семантической) обработки». Системы подобного рода принято называть интеллектуальным интерфейсом.
Средства грамматической обработки естественного языка представляют собой формализованный набор правил грамматики русского языка. Но так как изменение слов не всегда вкладывается в рамки регулярности, то формализованной может быть не вся грамматика. Формализованный набор может быть не полным также и из-за недостаточной научности грамматики. Таким образом, все неучтенные правила можно считать недопустимыми.
При формализации словаря наиболее приемлемой является поуровневая обработка лексических единиц. Для каждой предметной области должен быть определен словарь исходных (непроизводных) лексических единиц (нижний уровень), посредством которого и с использованием информации об имеющихся аффиксах можно исчислять семантику любого производного слова, при этом, также, средствами системы можно получать новые производные слова, имея их семантическое отображение.
Итак, любой вид машинной обработки естественного языка сообщений включает в себя обработку отдельных лексических единиц. В свою очередь, обработка отдельных
слов — обработка составляющих слово частей: корня и аффиксальных частей.
Структура подсистемы семантической обработки естественно-языковых сообщений может быть представлена в виде:
1. Модель текста.
2. Модель фразы (группы слов).
3. Модель словосочетания (пары слов).
4. Модель словa:
a) модели аффиксов;
b) модель корня.
Структура системы автоматизированной обработки естественного языка продиктована структурой смысла текста, ибо любой текст расчленяет на части именно смысл. Само слово, к примеру, нерасчленимо на части и именно смысл элементарных морфов позволяет выделить в нем минимальные значимые единицы.
При моделировании всех уровней подсистемы семантической обработки естественно-языковых сообщений используется единый подход. Это обстоятельство и позволяет создать общую модель смысла в виде системы алгебры конечных предикатов. Отдельная система уравнений алгебры конечных предикатов описывает словоизменение.
Естественный язык представлен, с точки зрения морфологии, одноморфными и многоморфными словами. С точки зрения словообразования одноморфные слова это — непроизводные лексические единицы, многоморфные - производные. Семантика производного слова опирается, как правило, на смысл непроизводной лексической единицы, входящей в состав этого слова, и семантику аффиксального окружения (префиксы, суффиксы). Иными словами, смысл производного слова исходит из семантики морфов, входящих в состав производного слова, поэтому естественной частью модели языка является модель его словообразовательного уровня.
Модель семантики производного слова представлена комплексом независимых математических моделей. Это модель префикса, модель корня, модель суффикса. Анализ семантики любой производной лексической единицы начинается с разбиения ее на морфы. Поле выполнения этой операции функционирование вышеперечисленных моделей возможно в параллельном режиме. При этом первоначально исчисляется смысл корня, затем с учетом его семантики, вследствие параллельной работы подсистем моделей аффиксов, исчисляется смысл производного слова. Такая организация систем семантического анализа позволяет существенно ускорить автоматическую обработку текстов.
Математические модели семантики производных слов могут быть использованы в любых автоматизированных системах обработки естественного языка. При этом следует иметь в виду, что каждый конкретный вариант системы обработки естественных языков вовсе необязательно должен содержать в себе средства, способные актуализировать все возможные семантические реализации того или иного слова. В каждом конкретном случае система может представлять собой некую редуцированную модель, ориентированную на конкретную предметную область. Остаточная неоднозначность языка, в частности явления омонимии, устраняются за счет соответствующих технологических мер: сочетанием данного слова с другими так, чтобы словосочетание в целом стало однозначным. В ряде случаев значения слов в словаре можно ограничить одним значением - единственно возможным в данном варианте системы.
Применение этих моделей возможно в различных системах обработки текстов русского языка. Это может быть широкий класс диалоговых систем; возможно применение разработанных моделей в системах автоматического редактирования, в системах автоматического корректирования для обнаружения ошибок во входных текстах, во всевозможных автоматизированных системах информационного поиска, в автоматизированных обучающих системах. Особую роль предлагаемые модели сыграют в системах машинного перевода. Перевод текста с одного языка на другой можно свести к получению семантического эквивалента, в дальнейшем на основе этого семантического эквивалента будет осуществляться синтез текста на русском, украинском и любом другом языке, при этом одновременно будет осуществляться семантический контроль как входных, так и выходных текстовых конструкций. Применение подобных моделей возможно и в системах анализа звучащей речи, эти модели смогут осуществлять как коррекцию ошибок, так и семантический анализ входных сообщений.