Назад в библиотеку

О новых возможностях лингвистического процессора инструментального комплекса АТ-ТЕХНОЛОГИЯ

Автор: Рыбина Г.В., Душкин Р.В., Душкина Е.Н.
Источник: Московский Государственный Инженерно-Физический Институт (Технический Университет)

Аннотация

Рыбина Г.В., Душкин Р.В., Душкина Е.Н. О новых возможностях лингвистического процессора инструментального комплекса АТ-ТЕХНОЛОГИЯ. В работе рассматриваются новые функции лингвистического процессора инструментального комплекса АТ-ТЕХНОЛОГИЯ, предназначенные для расширения спектра возможностей обработки текстов на ограниченном естественном языке. Предложены новые подходы к проблемам сбора лексики системного аналитика на этапе структурного анализа и получения информации о НЕ-факторах (в частности, о нечёткости) из естественно-языковых фраз.

Введение

Лингвистический процессор (ЛП) инструментального комплекса АТ-ТЕХНОЛОГИЯ предназначен для решения ряда задач, связанных с обработкой текстов на ограниченном естественном языке (ЕЯ). Главной задачей ЛП является трансляция входных ЕЯ-фраз в предикатно-аргументные конструкции на языке CAREL, отражающие логико-смысловую структуру входного текста для формирования соответствующей реакции системы, в том числе и для активации сценария диалога с экспертом на этапе автоматизированного приобретения знаний. Для этих целей применяется традиционная схема обработки ЕЯ-текста, включающая в себя этапы морфологического, синтаксического и семантического анализа, а также использование словарей предикатов, понятий и характеристик. Данные словари содержат базовый набор основ русского языка (деловая проза), необходимых для обработки ЕЯ-фраз.

Для облегчения понимания общих закономерностей колебательных процессов целесообразно начинать их изучение с простых и наглядных систем, например, замкнутая цепь, содержащая конденсатор и катушку индуктивности. Изменение во времени физических величин, характеризующих разные колебательные системы, описывается одинаковыми дифференциальными уравнениями.

Исследование компьютерных программ при моделировании разных способов возбуждения колебаний позволяет определить точностные и частотные характеристики программ.

Постановка задачи

В новой версии ЛП для более точной и оперативной настройки на конкретную проблемную область создаваемого приложения реализована функция сбора лексики системного аналитика. Входными данными для рассматриваемой функции являются все ЕЯ-слова и словосочетания, которые были внесены системным аналитиком в расширенные диаграммы потоков данных на этапе структурного анализа. Из полученных слов и словосочетаний формируются дополнительные словари, предназначенные для работы ЛП с рассматриваемой проблемной областью, причем создание новых словарных статей производится при помощи частичного морфологического синтеза, который для каждого рассматриваемого слова на основании морфологических таблиц русского языка строит неполную морфологическую информацию, уточняемую при помощи анализа "похожих" словоформ. Для получения семантической информации используются специально разработанные эвристики.

Другой новой функцией ЛП комплекса АТ-ТЕХНОЛОГИЯ является способность получения дополнительной информации о наличии НЕ-факторов в ЕЯ-текстах, использованных во время процесса интервьюирования экспертов на этапе извлечения знаний. В настоящее время реализована обработка таких НЕ-факторов, как нечёткость, неопределённость, неточность и недоопределённость. Для получения информации о нечёткости также используются эвристики, которые предполагают, например, что нечёткость присутствует в рассуждениях об измеримых параметрах физического мира и т.д. В связи с этим составлен список (около 100 основ) таких количественных параметров, к каждому из которых приписано множество их возможных нечётких значений с заранее построенными функциями принадлежности. Получение дополнительной информации о неопределённости, неточности и недоопределённости основано на распознавании во входных ЕЯ-фразах ключевых слов и словосочетаний, которые могут нести значения вероятности и возможности (например, словосочетания "скорее всего", "в большинстве случаев") и ограничения (например, слова "больше", "меньше"). Следует отметить, что такой НЕ-фактор, как неполнота, обрабатывается при помощи технологии Data Mining, на этапе верификации построенных полей знаний [4]. Обработка выделенных НЕ-факторов расширяет возможности комбинированного метода приобретения знаний, применяемого в инструментальном комплексе АТ-ТЕХНОЛОГИЯ.

Выводы

В настоящее время реализована бета-версия ЛП, находящаяся в стадии тестирования в составе комплекса АТ-ТЕХНОЛОГИЯ. Исследования выполнялись при поддержке РФФИ РАН

Список использованной литературы

1. Рыбина Г. В. Автоматизированное построение баз знаний для интегрированных экспертных систем//Известия РАН. Теория и системы управления, 1998. №5. С. 152-166.

2. Рыбина Г. В., Калинина Е. А. Применение технологий Data Mining для автоматизированного построения баз знаний интегрированных экспертных систем//7-ая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. В кн.: КИИ'2000. М.: Изд-во физико-математической литературы, 2000. Т. 1. С. 119-127.


Назад в библиотеку