Краснощеков Е. Е. - Применение нечеткой логики при поиске информации в сети интернет

Автор: Краснощеков Е. Е.
Источник: Известия Южного федерального университета. Технические науки Выпуск № 10 / том 65 / 2006

Аннотация

Краснощеков Е. Е. - Применение нечеткой логики при поиске информации в сети интернет. В статье рассматривается методы применения нечеткой логики при поиске информации в сети интернет

Применение нечеткой логики при поиске информации в сети интернет.

Поиск информации является обязательной функцией любой информационной системы. Сегодня, когда Интернет используется повсеместно, возникает проблема извлечения из него нужной информации, а также избыточности ответов на поисковые запросы. Поэтому необходимо использовать новые инструменты поиска информации, позволяющие решить эти проблемы. Механизм полнотекстового поиска не дает возможности найти информацию, если были допущены ошибки при вводе информации. Поиск на точное соответствие не позволяет найти слово, если в документе оно встречается в другой грамматической форме.

Современные информационно-поисковые системы (ИПС), ориентированные на работу в полнотекстовых базах данных, имеют некоторые отличные архитектурные особенности. По сути, построение индекса есть упрощение исходной информации, хранимой в коллекции документов, до уровня централизованной (или распределенной на небольшом числе компьютеров) коллекции регулярных данных. Тем самым решение задачи поиска информации сводится к давно отработанной задаче поиска информации в мощной, но вполне классической реляционной базе данных. Именно благодаря такому подходу удалось быстро построить работающие ПС, полезность которых ни у кого не вызывает сомнений.

Однако данному подходу присущи принципиальные недостатки, которые вытекают из неполного соответствия поискового индекса самому документу. Практически все существующие ПС обладают следующими недостатками:

Низкая интеллектуальность поиска документов в коллекции – индекс составляется с помощью простейших программ-роботов, использующих наибыстрейшие (а значит, и самые простые) методы. Индекс составляется для произвольного запроса и, следовательно, не может быть ориентирован заранее на конкретную информацию или предметную область;
Упрощенность процедуры вычисления степени релевантности документа на основе индекса. Сложные интеллектуальные методы пока мало применимы ввиду их повышенной вычислительной сложности, недостаточной информационной насыщенности запроса пользователя и индекса. Даже мощные интеллектуальные алгоритмы не смогут повысить релевантность ответа на достаточно простые запросы пользователя;
Отсутствие средств для полноценного расширения запроса пользователя с целью повышения полноты поиска информации. В данном случае подразумевается использование различного рода словарей и баз данных, позволяющих в автоматическом или диалоговом режиме расширять запрос сходными по смыслу терминами, позволяющими захватывать релевантные документы даже при отсутствии в них термов, указанных в запросе;
Отсутствие средств для удобного уточнения результатов запроса. В существующих традиционных ИПС указание дополнительных параметров запроса сильно уменьшает полноту поиска, нет возможности гибкого управления параметрами запроса для регулирования соотношения критериев полноты/точности поиска.

Следствием перечисленных недостатков является общее низкое качество поиска, производимого классическими ПС в случае существования неоднозначности в описании предмета поиска, при несовпадении моделей знаний о предметной области пользователя и ИПС. Отсутствие полноценного диалога с пользователем сильно затрудняет задачу поиска и приводит к получению нерелевантных ответов вследствие составления некорректного или неполного запроса. В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами-производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Yahoo, Yandex) поддерживают алгоритмы поиска текстов, «схожих» с данным, и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это «Следопыт», «ТекстАналист») позволяют проводить автоматическую классификацию и реферирование текстов.

В данной статье были перечислены недостатки существующих поисковых систем; для их устранения требуется применение моделей поиска, учитывающих смысловую составляющую текстовых документов; это приводит к необходимости привлечения методов искусственного интеллекта и анализа документов с использованием естественного языка (NLP – natural language processing) [1]. К наиболее мощным методам из этого класса относят аппарат нечеткой логики (семантические сети и нечеткие графы), имеющей во многом сходную с естественным языком структуру. Кроме того, использование этих подходов позволяет естественным образом учитывать экспертные знания о предметной области поиска, выраженные в виде различных тезаурусов и позволяющих существенно повысить полноту и точность поиска [2].

Существующие на сегодняшний день методы поиска не отвечают потребностям рядовых пользователей; поиск на точное соответствие не позволяет найти слово, если в документе оно встречается в другой грамматической форме, а также, если были допущены ошибки при вводе информации. Одним из методов решения этих проблем является применение нечеткой логики при поиске информации. Таким образом, для нахождения релевантной информации необходимо использовать информационно-поисковые системы, имеющие в основе алгоритмы нечеткого поиска. Под нечетким поиском понимается возможность найти достаточно близкое приближение к запрошенному термину или фразе. Он устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Уже нет необходимости пролистывать сотни страниц таблиц, заполненных корнями и основами ключевых слов, чтобы найти объект поиска

Существует технология адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), которая открывает новое измерение в поиске информации. Данная технология работает не с ключевыми словами, а с образами. Две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. APRP всегда в состоянии найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска. Нечеткий поиск особенно полезен в ситуациях, когда ввод данных осуществляется с помощью оптического распознавания символов, так как этот процесс не является на 100 процентов точным даже при очень высоком качестве печати. Например, если на данной странице с помощью оптического распознавания образов не удалось абсолютно правильно считать ни одного слова, практически никакая система четкого поиска не имеет шансов добиться успеха при поиске этой страницы

Гибкость методологии поиска APRP позволяет улучшить параметры процесса поиска данных, позволяя пользователю самому определять степень совпаде- ния найденной информации с запросом. Можно сформулировать эффективный запрос без знания правильного написания слов или фраз. Получив запрос найти какой-либо документ, система просматривает образы и составляет список «ближайших приближений» к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе документ является истинной целью поиска. Можно определить «ближайшую десятку», «ближайшую сотню» и т.д. Это потенциально создает среду поиска, в которой пользователь может производить поиск в интерактивном режиме, чтобы найти ответ, не определив точно, что же является ответом.

Технология поиска информации, основанная на применении нечеткой логики, позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Оригинальный алгоритм способен найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками символов. Вид поиска, при котором происходит сравнение не слов запроса и документа, а их «битовых образов», т.е. сопоставляются наборы нулей и единиц, представляющих собой битовый образ запроса, с наборами нулей и единиц, представляющих собой битовые образы документов, по определенному оригинальному алгоритму, позволяющему находить наиболее похожие сочетания, очень перспективен.

В результате пользователь ИПС может найти документы, содержащие слова с ошибками в написании, с неправильными транслитерациями и т.д. Использование «нечеткого» поиска по наименованиям товарных знаков позволяет найти знаки, «похожие» на искомый или почти эквивалентные по звучанию. Параметр «Количество слов при нечетком поиске» регулирует степень совпадения «битовых образов» запроса и документа. Увеличение данного параметра приводит к нахождению большего количества вариантов, менее совпадающих с искомым. Выявленные недостатки позволяют сделать вывод о необходимости разработки ИПС, ориентированной на интеллектуальный поиск, с привлечением алгоритмов искусственного интеллекта и аппарата нечеткой логики, как наиболее подходящих для решения задачи интеллектуального поиска информации в коллекциях документов на естественном языке.

Список литературы

Robert C. Berwick. Computational Linguistics. – MIT Press, Cambridge, MA, 1999. ISBN 0262-02266-4.
Андриенко Е.В. Концепции поиска адекватной информации в полнотекстовых базах данных. Перспективные информационные технологии и интеллектуальные системы. – Таганрог: Изд-во ТРТУ, № 3, 2003.