Первоисточник: http://dictum.ru/?main=publications&page=5

Воспроизведение знаний
через телефонные сети

В.В.Окатьев, К.А.Баркалов, М.В.Бакулин
Dictum Software. OOO "Нижегородинвестсервис".
603028, Нижний Новгород, пер.Спортсменский, д.12А, оф. 201
Тел.: +7 8312 723647
Факс: +7 8312 754024
E-mail: oka@dictum.ru
Web: www.dictum.ru

В статье предложена технология оказания информационных услуг абонентам сетей телефонной связи посредством обмена текстовыми и мультимедиа сообщениями между абонентом и компьютерной программой извлечения ответов из текста на естественном языке. Технология предназначена для организации доступа абонентов сетей телефонной связи к электронным массивам текстовой и мультимедиа информации. Приводится описание принципов функционирования системы извлечения ответов Dictum и основанной на ней информационной услуги "Электронный консультант". Описано текущее состояние разработки и дальнейшие шаги. Технология рассчитана на поддержку основных мировых языков и применима к следующим способам передачи сообщений: e-mail, SMS, MMS, ICQ, WEB- и WAP-интерфейсы.

Цели разработки

Объем информации на электронных носителях постоянно растет и пользователю необходимо иметь оперативный доступ к информации, в том числе, не имея под рукой компьютера. Для организации (оперативного, мобильного) доступа к информации представляется целесообразным использование сети сотовой связи.

В настоящее время активно развиваются системы извлечения ответов. Компактность и точность извлекаемых ответов создают предпосылки для использования мобильного телефона в диалоге с компьютером в режиме обмена текстовыми и мультимедиа сообщениями. Разрабатываемая в лаборатории Dictum Software технология извлечения ответов позволит обеспечить доступ к электронным текстовым массивам с помощью мобильного телефона.

Операторы телефонных сетей связи, как сотовых, так и проводных, предоставляют множество автоматических информационных услуг, основанных на протоколах передачи текстовых и мультимедиа сообщений: SMS, MMS, WAP, e-mail. Чтобы воспользоваться такой услугой, абонент должен освоить навигацию в системе меню оператора связи, либо формальные правила для запросов с помощью SMS. В том и другом случае от абонента требуются навыки формального мышления.

Возможности передачи сообщений по телефонным сетям и их интеграция с компьютерными сетями позволяют обеспечить доступ абонентов телефонных сетей к компьютерным программам извлечения ответов из текстов на естественном языке. Однако, ограниченный формат передачи сообщений по телефонным сетям накладывает дополнительные требования к системе извлечения ответов. Кроме того, что ответ системы должен содержать релевантную информацию, он должен быть еще и коротким. Релевантность ответа будет выше, если система поможет пользователю корректно сформулировать запрос: пользователь не всегда владеет специальной терминологией.

Разрабатывzаемая с учетом указанных требований технология позволит улучшить качество автоматических информационных услуг, предоставляемых операторами телефонных сетей связи. Абоненты смогут формулировать запрос на естественном языке. Существенно будет расширен спектр информационных услуг.

Пользователями предлагаемой услуги будут абоненты телефонных сетей связи. Число абонентов сотовой связи в мире превысило в июне 2004 года 1,5 млрд человек (МОСКВА, 24 июня. ПРАЙМ-ТАСС). Число пользователей "Электронного консультанта" зависит от объема информационных услуг, который будет определяться количеством приложений. Каждое приложение будет иметь в сети связи свой уникальный телефонный номер для отправки SMS-сообщений и будет ориентировано на свою целевую группу из числа абонентов сети связи.

Примеры:

Целевая группа

Информационная услуга

Пример диалога
(Q - пользоваетель, A - программа)

Все абоненты

Философские советы (афоризмы, высказывания мыслителей)

Q: Жениться или не жениться?
A: Человеку, который спросил, жениться ему или не жениться, Сократ ответил: "Делай, что хочешь, - все равно раскаешься".

Водители автомобилей

Правила дорожного движения

Q: Можно ли останавливаться в тоннеле?
A: В тоннелях остановка запрещена.

Советы водителям

Q: Я буксую на песчаном пляже.
A: Для устранения пробуксовки колес на песчаном покрытии необходимо снизить давление в шинах.

Домохозяйки

Советы домохозяйкам

Q: Как очистить ковер от варенья?
A: Разлитое на ковре варенье убирает моющий пылесос.

Студенты

"Шпаргалка"

Q: Второй закон Ньютона.
A: Ускорение, производимое силой, действующей на тело, пропорционально величине этой силы и обратно пропорционально массе тела.

По разделам законодатель-ства*

"Электронный адвокат":
- Трудовое законодательство;
- Гражданское законодательство;
- Таможенное законодательство и т.д.

Q: Я был в отпуске, а меня уволили.
A: Не допускается увольнение работника по инициативе работодателя (за исключением случая ликвидации организации) в период пребывания в отпуске. [Cт.81, Трудовой Кодекс РФ]

*Предпосылкой для успешного применения "Электронного консультанта" в юридической сфере является строгий формальный стиль юридических текстов (слабая контекстная зависимость предложений), в силу этого они легче поддаются компьютерной обработке.

В случае, если ответ системы содержит ссылку на иллюстрацию, то иллюстрация будет передана на телефон абонента в формате MMS. Например, Правила дорожного движения содержат ссылки на иллюстрации с изображениями дорожных знаков, разметки и т.д.

Methodology

При разработке системы извлечения ответов Dictum используются следующие принципы функционирования, отличающие предлагаемую систему от аналогов (AskMSR [1], AnSel [2], ExactAnswer [3]):

A) Система помогает пользователю сформулировать такой вопрос, на который заведомо есть ответ в доступных системе текстах.

B) Находит в качестве ответа цитату - часть предложения, адекватную вопросу. Заведомо лишняя информация должна исключаться из найденного предложения.

C) Актуализирует цитату - приспосабливает ее к контексту запроса абонента.

Рассмотрим подробнее перечисленные принципы.

A) Существующие системы ищут ответ на любой вопрос пользователя, даже некорректный и составленный без учета терминологии предметной области. Следствием этого может являться неадекватная реакция системы.

Часто пользователь испытывает затруднения с формулировкой вопроса. Это связано с незнанием терминологии конкретной предметной области. В некоторых случаях система извлечения ответов может не дать корректного результата только из-за незнания пользователем терминологии. В то же время система на основе синтаксического и семантического анализа текста может "подсказать" пользователю необходимый термин, тем самым система будет способствовать формированию таких вопросов, на которые у нее заведомо есть ответ. Пользователь при этом осваивает терминологию предметной области.

Разрабатываемая система, прежде, чем начать поиск, помогает пользователю в режиме диалога корректно сформулировать вопрос в терминах предметной области, предлагает свои формулировки вопроса.

Пример:

Вопрос пользователя: May I turn around my car across a bicycle lane?

Система Dictum предложит следующие замены в тексте вопроса:

Формулировка системы: May I make a turn on a vehicle across a bicycle lane?

Предложенный вариант содержит термины, используемые в конкретном тексте Правил дорожного движения. Система Dictum начнет поиск и извлечение ответа после подтверждения пользователем новой формулировки.

Конечно, для уточнения вопроса требуется дополнительный обмен сообщениями с пользователем, но, с другой стороны, использование корректной терминологии повышает вероятность нахождения правильного ответа.

B) В рамках исследований по данной теме под термином "извлечение ответов" понимают поиск документов и их фрагментов, где, возможно, содержится ответ. Собственно ответ пользователь должен мысленно извлечь из найденного предложения в форме цитаты. Отметим, что в юридических текстах встречаются предложения размером в страницу и более. Передача такого предложения в формате SMS неудобна для абонента: экран сотового телефона не приспособлен для этого. Следует учесть, что подобные предложения, как правило, избыточны по отношению к вопросу, в этом случае требуется исключение заведомо лишней информации. Отличием предлагаемой системы является разложение сложных предложений на цитаты и выбор релевантных вопросу пользователя цитат в качестве ответов.

Рассмотрим пример:

Вопрос: May I make a turn on a vehicle across a bicycle lane?

Ответ: No person shall drive a vehicle across a designated bicycle lane, except when it is reasonable and necessary to make a turn within an intersection.

 

Ответ является цитатой, извлеченной из сложного предложения, найденного в Правилах дорожного движения:

No person shall drive a vehicle on or across a designated bicycle lane, except when it is reasonable and necessary:

  1. to enter or leave a driveway; or
  2. to enter or leave a legal curbside parking space; or
  3. to cross an intersection; or
  4. to make a turn within an intersection; or
  5. to comply with the direction of any law enforcement officer or other person authorized to enforce this rule; or
  6. to avoid an obstacle which leaves fewer than ten feet available for the free movement of vehicular traffic.

В исходном предложении выделены слова, включенные в ответ. Указанное предложение является композицией шести простых предложений, передавать его целиком в форме SMS нецелесообразно. В данном примере пользователя интересует информация только из пункта (iv), остальная информация является лишней. После разложения указанного предложения на простые система Dictum выберет в качестве ответа четвертое предложение, как наиболее релевантное.

C) Для того, чтобы форма ответа больше соответствовала ожиданию пользователя, необходимо актуализировать ответ - выделить в предложении тему и рему, приспособить к условиям контекста. Применительно к системе извлечения ответов контекст определяется вопросом абонента. В языках славянской группы, в том числе русском, порядок слов в предложении обладает большой степенью свободы, поэтому в этих языках развиты способы актуализации путем перестановки отдельных слов и словосочетаний внутри предложения. Разрабатываемые методы извлечения ответов предполагают автоматическую актуализацию найденных цитат с целью формирования контекстно-зависимых ответов (указанные методы не применяются к афоризмам и высказываниям великих мыслителей).

Технологическое описание разработки

Для реализации перечисленных принципов разработаны оригинальные методы синтаксического и семантического анализа и основанные на них методы извлечения ответов. При разработке системы Dictum используется собственная программа синтаксического анализа DictaScope . Для дальнейшей разработки предполагается использование дополнительного лингвистического программного обеспечения: словари синонимов, программы морфологического разбора и т.д.

Система Dictum предназначена для поиска ответов хоть и в большом, но в заранее фиксированном текстовом массиве. Это может быть электронный архив (например, раздел законодательства) или результат работы поисковой системы (Google, Yahoo, Яндекс и т.д.). Если цель поиска ознакомительная, то пользователю нужен весь документ целиком. В этом случае компьютер с доступом в Интернет является более адекватным средством. Если же пользователь ищет ответ на конкретный узкий вопрос, то система Dictum по SMS-запросу абонента сети телефонной связи выполнит следующий после поисковой системы этап обработки информации: извлечет точный и компактный ответ из доступных текстов (если он там есть).

К вопросно-ответным системам также относятся экспертные системы, но они предполагают наличие искусственного, специально разработанного языка представления знаний [5], необходимого для формализации знаний экспертов. Это оправданно для узкоспециальных областей (геология, химия, медицина). Формирование базы знаний для экспертной системы - весьма трудоемкая процедура. В отличие от экспертных систем "Электронный консультант" извлекает ответы из уже имеющихся текстов на естественном языке. Несомненно, самый распространенный язык представления знаний - естественный, а тексты - уже готовые базы знаний. Таким образом, зафиксированные в тексте знания система Dictum воспроизводит в форме ответов на вопросы и сообщения пользователя.

Структура системы Dictum в основном является традиционной для систем извлечения ответов [4]: она содержит модули синтаксического анализа, поиска фрагментов, ранжирования возможных вариантов ответа и т.д. Отличием является наличие модулей уточнения вопроса пользователя, разложения сложных предложений на простые и модуля актуализации ответа. Таким образом, в отличие от традиционной схемы ранжированию подвергаются не исходные фрагменты текста, а цитаты, полученные в результате разложения сложных предложений. Возможность такого разложения определяется наличием в предложении рядов однородных членов.

Результаты, полученные на данный момент и их бизнес-выгоды

Разработка находится в стадии теоретических исследований. Имеется экспериментальный прототип системы Dictum с возможностью извлечения цитат из предложений (заведомо лишняя информация исключается). Апробация производится применительно к русскому языку. На Интернет-сайте лаборатории доступна демонстрационная версия синтаксического анализатора DictaScope (русский язык).

В случае успешной реализации возможна следующая бизнес-модель коммерческого использования описываемой технологии:

1) Оказание информационных услуг абонентам сетей телефонной связи посредством обмена текстовыми и мультимедиа сообщениями между абонентом и компьютерной программой извлечения ответов. Расчет за услугу абонент будет производить с оператором связи с учетом стоимости передачи сообщений и налогов. Денежные средства от реализации услуг компания, учрежденная на основе лаборатории Dictum Software, будет получать по договорам с операторами сетей связи.

2) Разработка для операторов сетей связи решений в сфере информационных услуг и продажа лицензий на использование соответствующего программного обеспечения.

Стоимость услуги "Электронного консультанта" будет соизмерима с ценой передачи SMS-сообщения (5-10 центов), но при этом каждый абонент сотовой связи будет потенциальным пользователем "Электронного консультанта". В Западной Европе по состоянию на 1 августа 2004 г. насчитывалось 342.43 млн абонентов сотовой связи (Издание Mobile Communications, август 2004г.), из них 75% составляют абоненты пяти стран: Германии, Италии, Великобритании, Франции и Испании. Число абонентов мобильной связи РФ в сентябре 2004г. достигло 59,04 млн человек (РосБизнесКонсалтинг. 06.10.2004, Москва).

Попробуем сделать ориентировочные финансовые прогнозы. Предположим, что постоянно пользоваться услугой "Электронного консультанта" будет всего 10% от общего числа абонентов сотовой связи. При этом каждый из них будет задавать всего один вопрос в неделю. Посчитаем возможную выручку от реализации услуг за год для Западной Европы:

342.43 млн х 10% х 52 недели х 5 центов = 89 млн долларов.

В том числе на пять вышеуказанных Европейских стран приходится 66.7 млн долларов (75%). Приведем аналогичные расчеты для России:

59 млн х 10% х 52 недели х 5 центов = 15.34 млн долларов за год.

При этом абонент затратит на услуги "Электронного консультанта" (5 центов) с учетом услуги оператора связи (8 центов за передачу сообщения) и НДС (18% для России):

52 недели х (5+8) центов + 18% НДС= 8 долларов за год.

Дальнейшие шаги

Для продолжения разработки планируются следующие шаги:

Выводы

Объем информации на электронных носителях постоянно растет и пользователю необходимо разнообразие способов доступа к информации. В настоящее время активно развиваются системы извлечения ответов. Компактность и точность извлекаемых ответов создают предпосылки для использования мобильного телефона в диалоге с компьютером в режиме обмена текстовыми и мультимедиа сообщениями. Разрабатываемая в лаборатории Dictum Software технология извлечения ответов позволит обеспечить доступ к электронным текстовым массивам с помощью мобильного телефона. Технология предназначена не для замены существующих поисковых систем, а для последующей обработки найденной этими системами информации.

Не менее активно развиваются методы обработки и синтеза речи: уже сейчас можно получить телефонную справку, озвученную компьютерной программой (по желанию абонента - голосом известного политика или артиста). В случае успешной реализации описываемой в статье технологии будут созданы предпосылки для организации диалога с компьютером посредством обмена голосовыми сообщениями. Развитие технологий распознавания речи позволит сделать доступ с помощью мобильного телефона к электронной информации действительно массовой услугой.

Благодарности

Данная статья написана при поддержке проекта ADMIRE-P (IST-2001-35449).

Литература

  1. S. Dumais, M. Banko, E. Brill, J. Lin. Web Question Answering: Is More Always Better? Proceedings of the SIGIR 2002, (2002)
  2. J. Prager, E. Brown, A. Coden. Question-Answering by Predicitve Annotation. Proceedings of the SIGIR 2000, (2000)
  3. M. M. Soubbotin, S. M. Soubbotin. Use of Patterns for Detection of Answer Strings: A Systematic Approach. Proceedings of the TREC-11, (2002)
  4. D. Radev, W. Fan, H. Qi, H. Wu, A. Grewal. Probabilistic Question Answering on the Web. Proceedings of the 11th Intl WWW Conference, Honolulu, Hawaii, USA, May 7-11, (2002)
  5. P. Jackson. Introduction to Expert Systems, Third Edition, Addison-Wesley, 1998