УДК 519.767.6
Развитие средств аналитической обработки текста
в системе ИСИДА-Т*
Авторы: Д.А. Александровский1, Д.А. Кормалев1,
М.С. Кормалева1, Е.П. Куршев1, Е.А. Сулейманова1,
И.В. Трофимов1
Источник: http://rudocs.exdat.com/docs/index-368740.html
Ключевыми
компонентами систем извлечения информации из текста и ее аналитической
обработки являются средства описания контекста целевой информации (язык правил)
и средства описания и использования знаний о предметной области (ресурсы
знаний). Статья посвящена развитию этих компонентов (на основе реализации в
системе ИСИДА-Т).
Введение
Одним из важных направлений в области автоматической обработки текстов на
естественном языке является извлечение информации из текстов и представление ее
в виде формализованных структур, что делает возможным ее дальнейшую
автоматическую обработку. Ключевыми компонентами систем извлечения и аналитической
обработки информации служат средства выявления информации в тексте и средства
описания и использования знаний о предметной области. В большинстве современных
систем эти роли распределяются между множеством правил извлечения информации и
онтологией — именно об этих компонентах и пойдет речь в статье.
В 2003-2004 годах в ИПС РАН были разработаны инструментальные средства INEX
для создания систем извлечения информации из текстов [INEX, 2004a; INEX,
2004b]. Этот набор инструментов включал в себя:
· средства лингвистического
анализа текста;
·
средства
выявления семантических категорий объектов предметной области и отношений между
объектами на основе онтологии (а также средство создания и поддержки
онтологий);
·
язык
описания правил извлечения целевой информации и средство применения правил к
тексту.
В 2004 году при помощи системы INEX в рамках программы «СКИФ» Союзного
государства была создана прикладная система для извлечения информации о выпуске
новой вычислительной техники и комплектующих [INEX, 2004c]. Работа над
прикладной системой выявила недостаточную гибкость некоторых компонентов
инструментального средства для решения этой задачи. Практика показала также,
какие направления дальнейшего развития системы являются наиболее приоритетными
(в силу того, что без этих функций пользоваться инструментом неудобно) и
перспективными (дающими наибольший вклад в производительность инструментария и
конечных систем).
В настоящее время коллективом авторов ведется разработка новых
инструментальных средств — ИСИДА-Т. Данный программный комплекс создается на
базе технологий и программных средств системы INEX. В рамках этого проекта
предполагается исправить обнаруженные недостатки INEX, реализовать
обозначившиеся приоритетные функциональные направления, а также существенно
улучшить пользовательский интерфейс программных компонентов.
В разделе «Язык правил» рассматривается ряд новых расширений языка правил,
позволяющих описывать более сложные структурные контексты целевой информации.
Раздел «Представление знаний» посвящен нашему видению того, каким образом нужно
изменить подсистему представления знаний, чтобы в дальнейшем эти знания могли
быть эффективно использованы в рамках задачи извлечения информации.
1. Язык правил
Многие современные системы извлечения информации опираются на использование
диалектов языка CPSL — Common Pattern Specification Language [Appelt, 1996]. Ниже
рассматривается ряд расширений языка правил системы ИСИДА-Т по сравнению с
языком CPSL (и его диалектом, использованным в системе INEX). Языки этого типа
подразумевают представление информации о тексте при помощи системы аннотаций
(описаний) [Grishman, 1998; Кормалев,
2004].
Предлагаемые нами расширения преследуют две цели: 1) обеспечить возможность
описывать более сложные контексты, в которых встречается целевая информация, и
2) снизить объем рутинной работы при создании системы правил за счет более
компактного описания контекста. Иногда расширение возможностей и развитие языка
правил требует изменений в способе представления информации о тексте — это
будет отмечено отдельно.
1.1. Типы данных и переменные
Классический язык описания правил извлечения информации CPSL не позволяет
явным образом использовать связи между аннотациями; это обусловлено тем, что
эталонная модель TIPSTER [Grishman, 1998] и
большинство ее реализаций не предлагают встроенных средств для выражения такой
информации. Отсутствие таких средств приводит к тому, что невозможно (или
неудобно) посредством правил строить деревья синтаксического подчинения,
которые представляются нам более удобным формализмом для анализа предикатных
конструкций (макросинтаксиса в нашей терминологии),
чем деревья непосредственных составляющих. Что касается микросинтаксиса,
т.е. построения групп, состоящих из контактно расположенных элементов текста и
представляющих собой фрагменты описания релевантных задаче объектов, то и здесь
ссылки на аннотации полезны: с их помощью можно было бы явным образом указывать
главное слово формируемой группы и впоследствии в условиях правил ссылаться на
его атрибуты. Решить эту проблему можно, если в качестве значения атрибута
аннотации использовать не только строку или число, но и ссылку на аннотацию, а
также множество значений каждого из этих трех типов.
При обработке текста иногда требуется обнаружить аннотации, значения
некоторого атрибута (или атрибутов) которых совпадают; ограничений на само
значение не накладывается. Например, таким образом удобно описывать
согласование. В классическом CPSL эту задачу можно решить только перечислением всех
допустимых сочетаний значений. Для решения этой задачи мы ввели механизм
переменных, значения которых определяются во время сопоставления. Можно
сохранить значение атрибута первой аннотации в переменной, а в дальнейшем
сравнивать значения атрибутов с сохраненным значением (после определения
переменной ее значение может использоваться в последующих подвыражениях). Для
значений переменных могут использоваться те же типы данных, что и для
атрибутов.
Для работы с новыми типами данных были добавлены новые операторы сравнения.
1.2. Логические метасимволы
Возможности описания ограничений были расширены добавлением нового типа
метасимволов — логических метасимволов. В элементе шаблона могут задаваться не
только ограничения на значения атрибутов аннотаций из рассматриваемого
множества кандидатов, но и описание требуемых отношений между объектами
(переменными и аннотациями), доступными в исследуемом контексте. В частности,
логические метасимволы могут описывать взаимное расположение аннотаций
(вхождение, совпадение по границам, пересечение).
1.3. Метасимвол перехода
В язык правил добавлен метасимвол перехода, который позволяет более полно
управлять процессом сопоставления. По умолчанию переход от одной точки
сопоставления к другой происходит по дугам графа аннотаций. В каждой точке
сопоставления строятся множества аннотаций-кандидатов, для которых и
выполняется проверка на соответствие очередному набору условий. Иногда бывает
полезно явно указать, с какой точки начинать очередной шаг сопоставления.
Показательный пример — «продолжить сопоставление с главного слова именной
группы, непосредственно следующей за рассмотренным на предыдущем шаге словом».
Для задания перехода нужно указать либо границы множества аннотаций-кандидатов
(например, при помощи ссылки на аннотацию), либо точку сопоставления — в этом
случае будут рассмотрены все варианты множеств кандидатов. Не всегда переход
определяется однозначно: например, если для перехода задано значение атрибута,
представляющее собой множество ссылок на аннотации, то будет выполнена попытка
поочередного сопоставления для каждой из них. Метасимвол перехода работает в
контексте последнего выполненного сопоставления, поэтому в нем можно указывать
классы аннотаций, описанных в предшествующем сопоставлении, — будет выбрана
именно та аннотация нужного класса, сопоставление с которой прошло успешно.
Альтернативный способ заключается в использовании ранее определенных
переменных.
Для перехода можно указывать не только конкретное значение ссылки, но и
значения, которые порождаются динамически на основе отношений взаимного
расположения аннотаций. Например, «продолжить сопоставление с аннотации класса X,
которая охватывает рассмотренную на предыдущем шаге аннотацию». Ясно, что
вариантов перехода может быть несколько, поэтому на них устанавливается
линейный порядок и сопоставление выполняется поочередно, как и в случае с
атрибутом-множеством.
Таким образом, введение этого метасимвола позволяет использовать для
навигации все виды дуг в графе аннотаций: выражающие отношение
непосредственного следования, отношение взаимного расположения и структурные
отношения [Кормалев, 2005].
1.4. Списки значений
При разработке правил часто возникает потребность в проверке принадлежности
атрибута аннотации списку значений или сравнении атрибута со значениями из списка.
Например, такая потребность возникает при описании различных способов
лексического выражения понятия. Традиционно такая конструкция выражается в
языке описания правил при помощи дизъюнкции ограничений, но такой способ
приводит к увеличению объема текстового представления правил, большему числу
состояний построенного конечного преобразователя и, как следствие, к возможному
росту времени сопоставления. Чтобы избавиться от этих недостатков, в язык
добавлена возможность описывать списки значений для сопоставления и группа
операторов проверки на принадлежность атрибута списку. В эту группу включены
почти все операторы сравнения. Ограничение, заданное оператором сравнения,
выполняется, если оператор успешно применен хотя бы к одному элементу списка.
1.5. Операторы сравнения
Для удобства создания правил были добавлены новые операторы сравнения:
оператор сопоставления строки регулярному выражению и группа операторов для
работы с атрибутами-множествами (строгое сравнение, вхождение, пересечение).
Помимо этого, в язык правил введены два вида отрицания, которые выражаются
операторами «!» и «!!». Обозначим через P(a) высказывание о свойствах
аннотации a, а через C — множество аннотаций-кандидатов,
принадлежащих тому же классу, что и a. Тогда семантику этих операторов
можно определить следующим образом:
(в множестве кандидатов существует элемент, для которого не выполняется P(a)
);
(в множестве кандидатов отсутствует элемент, для которого выполняется P(a)
).
1.6. Опережающая и ретроспективная проверка
В развитых языках регулярных выражений существуют возможности так
называемых опережающей и ретроспективной проверки. Подвыражение, выполняющее
такую проверку, помечается особым образом. Это подвыражение описывает контекст
текущей точки сопоставления P справа (для опережающей проверки) или
слева (для ретроспективной). Особенность заключается в том, что после успешного
сопоставления проверка следующих подвыражений начинается не с точки, где
закончено сопоставление, а с точки P.
Опережающая (и ретроспективная) проверка приобретает дополнительную
ценность при сопоставлении на графах аннотаций, если вспомнить об отличительных
особенностях такого сопоставления. Во-первых, для ограничения может
существовать несколько выходов из текущей точки сопоставления из-за того, что в
этой точке начинаются несколько аннотаций, удовлетворяющих ограничению.
Во-вторых, множества кандидатов, удовлетворяющих разным ограничениям,
потенциально пересекаются.
Кроме положительной опережающей (или ретроспективной) проверки
рассматривают и отрицательную, которая считается успешно выполненной, если
подвыражение не сопоставляется. В настоящее время возможность отрицательной
проверки не реализована, потому что мы не столкнулись потребностью в ней.
Впрочем, принципиальных препятствий на этом пути нет.
1.7. «Нежадные» квантификаторы
Наряду с обычными («жадными») квантификаторами «?», «*», «+» в языке правил
используются «нежадные» квантификаторы «??», «*?», «+?», которые отдают
управление процессом сопоставления следующим за ними подвыражениям, как только
возникает такая возможность — по поведению они не отличаются от своих аналогов
в традиционных регулярных выражениях. Потребность в таких квантификаторах
возникла из-за особенностей сопоставления на графах аннотаций, указанных выше.
2. Представление знаний
Теперь рассмотрим проблемы, связанные с представлением и использованием
знаний о предметной области. Ресурсом предметных знаний в системе является
онтология. Не имея намерения включаться в полемику об определении онтологии,
отметим, что мы придерживаемся более или менее общепринятой точки зрения на
онтологию как на формальную спецификацию некоторой концептуализации предметной
области [Смирнов и др.]. В этом качестве онтология противопоставляется, с одной
стороны, тезаурусу (как понятийная модель предметной области — ее
систематизированной лексике), с другой стороны — модели предметной области (как
абстрактная модель знаний о предметной области, обеспечивающая словарь терминов
и отношения для ее моделирования, — конкретной базе знаний (фактов) этой
предметной области). Ни одно из этих противопоставлений не абсолютно: в обеих
плоскостях границы между противопоставляемыми понятиями довольно условны.
Поначалу, в силу разных причин, онтологии в обсуждаемой системе отводилась
скромная роль классификатора понятий предметной области, минимально
необходимого для применения правил извлечения информации. Некоторый дефицит
внимания к представлению знаний выразился в отсутствии систематического подхода
к решению таких принципиальных вопросов, как соотношение лингвистической и
экстралингвистической информации, типы и состав включаемых в онтологию понятий,
типы и арность отношений, возможности вывода на онтологии.
Онтология текущей версии системы строилась, по существу, как тезаурус
предметной области «компьютеры и комплектующие». Понятия — объекты, классы
объектов, собственные имена, свойства; каждое понятие представлено дескриптором
и, возможно, множеством альтернативных именований (синонимов). Между понятиями
могут устанавливаться следующие типы связей: родовидовая (AKO), часть-целое (PARTof), атрибутивные (ATTR — между объектом и атрибутом и
VAL — между атрибутом и его значением). Например:
AKO(ноутбук, персональный компьютер)
PARTof(дисплей, ноутбук)
ATTR(дисплей, размер диагонали)
ATTR(дисплей, разрешение)
ATTR(дисплей, соотношение сторон)
ATTR(дисплей, стандарт (технология) дисплея)
VAL(стандарт (технология) дисплея, ЖК)
2.1. От тезауруса к онтологии
Практический интерес представляют не столько системы собственно извлечения
информации, сколько системы, обеспечивающие возможности аналитической обработки
накопленной информации. В основе ресурса знаний подобных систем должна
лежать не просто таксономия понятий предметной области, обогащенная
атрибутивными или меронимическими связями, а
онтология, построение которой включает следующие шаги:
· концептуализация
предметной области: базовые понятия, атрибуты, отношения, атрибуты
(модификаторы) отношений;
·
построение
множества аксиом и правил вывода;
·
построение
словаря предметной области; разработка синтагматического аппарата для
представления в словаре и идентификации в тексте составных терминов, а также
для распознавания производных понятий, не включенных в онтологию, с последующей
интерпретацией новых понятий в онтологии и выводом новых фактов, не
содержащихся в тексте в явном виде.
2.2. Навигатор по онтологии
При анализе текста возникает необходимость в навигации по связям онтологии.
В текущей версии системы, которая предусматривает однократное обращение к
онтологии, приходится ограничиваться навигацией по аннотациям. В систему
аннотаций опознанного онтологией фрагмента текста включаются не только
соответствующий ему дескриптор, но и цепочки связанных с ним в онтологии
дескрипторов (первоначально это были цепочки только связей AKO, затем к ним
добавились ATTR и VAL). Таким решением вполне можно обойтись, если речь идет об
одном типе связей, в принципе же для эффективного использования данных
онтологии системе необходимо специальное средство — навигатор по онтологии. Язык
управления таким навигатором станет частью языка правил извлечения информации,
что позволит правилам обращаться с запросом непосредственно к онтологии для
проверки тех или иных условий, связанных с предметными знаниями.
2.3. Знания из текстов
Вопрос о конкретных путях интеграции извлеченной из текстов информации
(текстовых фактов) в знания системы пока открыт. Более насущные задачи ставит
перед нами необходимость оперативного «запоминания» и использования извлеченной
из некоторого текста информации для анализа этого же текста.
К примеру, если контекстное правило для извлечения именованных сущностей
определило принадлежность элемента текста некоторой семантической категории
(скажем, что «ABC» — это название компании), минимальная интеллектуальность
системы предполагает, что, будучи встречено в тексте в следующий раз, в
отсутствие «диагностического» контекста, «ABC» будет распознано другими
правилами как название компании. К сожалению, простым — «как есть» — включением
распознанной текстовой единицы в словарь текста обойтись не удастся: сама
единица (если это одно слово) или входящие в ее состав слова могут
отсутствовать в словаре морфологического анализатора, будучи при этом
склоняемыми. Поэтому необходимость автоматического запоминания новых фактов в
«базе знаний» текста влечет за собой необходимость механизма корректного
пополнения словаря (а для словосочетаний потребуется еще и распознавание
синтаксической модели, описывающей их словоизменение).
Заключение
Контекстные правила и онтологии — основные средства для выражения знаний о
предметной области в задачах извлечения информации из текста. Предложенные
усовершенствования позволят облегчить решение прикладных задач извлечения
информации. Мы надеемся, что дальнейшие исследования в этих направлениях
приведут к повышению качества работы прикладных систем извлечения информации.
Одно из перспективных направлений исследований — более тесная интеграция правил
и онтологии, в том числе, развитие языка запросов к онтологии.
Список литературы
[Кормалев, 2004] Кормалев Д.А.
Представление лингвистической и предметно-ориентированной информации при помощи
аннотаций // Тр. семинара ИАИ-2004. — Киев: Просвiта,
2004. — С. 120-128.
[Кормалев, 2005] Кормалев Д.А.
Автоматическое построение правил извлечения информации из текста // Тр. Первой междунар. конф. «Системный анализ
и информационные технологии» САИТ-2005, Переславль-Залесский, сентябрь 2005 г.:
В 2 т. — М.: КомКнига, 2005. — Т. 2. — С.
205-209.
[Смирнов и др.]
Смирнов А.В., Пашкин М.П., Шилов Н.Г., Левашова Т.В.
Онтологии в системах искусственного интеллекта: способы построения и
организации // Новости искусственного интеллекта. — 2002. — № 1-2.
[Appelt, 1996] Appelt D.E. The Common
Pattern Specification Language: Technical report / SRI International,
Artificial Intelligence Center. — 1996.
[Grishman, 1998] Grishman R. TIPSTER
Text Architecture Design. Version 3.1. — New
York: NYU, 1998.
[INEX, 2004a] Кормалев Д.А. , Куршев
Е.П. , Сулейманова Е.А. , Трофимов И.В. Архитектура инструментальных
средств систем извлечения информации из текстов // Тр. междунар.
конф. «Программные системы: теория и приложения», ИПС
РАН, Переславль-Залесский, май 2004 г.: В 2 т. — М.: Физматлит, 2004. — Т.2. — С. 49-70.
[INEX, 2004b] Кормалев Д.А. , Куршев
Е.П. , Сулейманова Е.А. , Трофимов И.В. Система извлечения информации
из текстов INEX // Тр. Девятой нац. конф. по
искусственному интеллекту с междунар. участием
КИИ-2004, Тверь, 28 сентября — 2 октября 2004 г.: В 3 т. — М.: Физматлит, 2004. — Т.3. — С. 908-915.
[INEX, 2004c]
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX). Программная
документация. 04832915.10028-01 33 01. 2004.
* Работа выполнена при поддержке
РФФИ по теме «Исследование методов извлечения информации из текстов с использованием
автоматического обучения и реализация исследовательского прототипа системы
извлечения информации» — проект № 05-01-00442а.
Работа
выполнена при поддержке исследовательской программы ОИТВС РАН «Фундаментальные
основы информационных технологий и систем» — проект № 2.2 «Развитие методов
аналитической обработки текстов и разработка на их основе экспериментальной
программной системы».
1 152020, г.
Переславль-Залесский, Исследовательский центр искусственного интеллекта ИПС
РАН, dalexand@dalexand.botik.ru, dk@conrad.botik.ru, mk@ai-sec.botik.ru, epk@epk.botik.ru, yes@helen.botik.ru, igor@warlock-98.botik.ru