Назад в библиотеку

Анализ семантики поискового запроса в интернет-магазине

Автор: Дыков М. А. Воробкалов П. Н.
Источник: Известия Южного федерального университета. Технические науки. Выпуск № 2 / том 79 / 2008

Аннотация

Дыков М. А. Воробкалов П. Н. - Анализ семантики поискового запроса в интернет-магазине В данной статье рассмотрен существующий метод поиска товаров в Интернет-магазине и его недостатки. Предложен новый метод анализа семантики поискового запроса в Интернет-магазине, позволяющий выделять из строки поискового запроса на естественном языке упомянутые в ней свойства товара и их значения.

Анализ семантики поискового запроса в интернет-магазине

В настоящий момент в большинстве Интернет-магазинов для поиска товаров используют полнотекстовый поиск. Данный вид поиска ра- ботает следующим образом [1].:

  1. Метаданные товаров разбиваются на лексемы;
  2. Полученные слова поискового запроса ищутся среди проиндексированных метаданных товара;
  3. Полученные результаты сортируются по количеству вошедших в метаданные товара слов поискового запроса.

Одной из основных проблем обработки естественного языка является представление семантической составляющей слов [2]. Отсутствие распознавания смысла слов при полнотекстовом поиске приводит к ряду проблем:

  1. Не распознаются бинарные операции (и,или) и унарные операции (не, без);
  2. Не учитываются качественные характеристики количественных свойств товара (например, дешевый – для цены);
  3. Не определяются отношения слов в запросе, что может приводить к его неверному толкованию (например, запросы «плейер с наушниками» и «наушники для плейера» при полнотекстовом поиске будут эквивалентными).

Семантический поиск призван увеличить релевантность результатов поиска путем определения требований пользователя и значений ключевых слов в контексте поискового запроса [3].

Для распознавания качественных значений количественных свойств товаров для каждого количественного свойства составляется таблица соответствия качественного значения свойства количественному. Столбцами данной таблицы являются категории, строками – качественные значения свойства (например: дешевый, дорогой для цены). Данная таблица заполняется на основании анализа значений количественного свойства у товаров в каждой категории. В результате данного анализа каждому качественному значению в определенной категории сопоставляется диапазон количественных значений.

Рисунок 1 – Схема работы метода анализа семантики поискового запроса

Рисунок 1 – Схема работы метода анализа семантики поискового запроса закону Зипфа

Анализ строки поискового запроса в Интернет-магазине значительно проще по сравнению с анализом семантики массивов текста. Прежде всего, запрос состоит только из одного предложения. Строка поискового запроса в Интернет-магазине может быть представлена в следующем формализованном виде:

Q = {L1, L2, L3, …, Ln},

где Li – слово: союз, частица, предлог, прилагательное, существительное. В результате анализа семантики строки поискового запроса необходимо получить следующие данные:

K = {k1, k2, k3, …, kn} – набор категорий, к которым может принадлежать товар; Qвых = U1(E1) B1 U2(E2) B2 U3(E3) B3 … Un(En)), где Ei – фраза; Ui – унарная операция: {отрицание} (может отсутствовать); Bi – бинарная операция: {и; или}; Ei = (Oi Pi1 Vi1) и (Oi Pi2 Vi2) – «(Oi Pi2 Vi2)» – может отсутствовать; Oi – свойство; Pi – операция отношения:{включает; больше; меньше}; Vi – значение свойства.

Рассмотрим пример анализа поискового запроса: «Красный дорогой телефон с камерой» с применением разработанного метода. Ниже представлены результаты выполнения каждого шага:

  1. «Красный дорогой телефон с камерой»;
  2. Модель не найдена;
  3. Категория товара : телефоны (камеры – не является категорией искомого товара, так как это слово не находится в именительном падеже);
  4. «Красн дорог с камер»;
  5. «Красн дорог с камер»;
  6. Цена > 5000 рублей;
  7. Относительные качественные значения количественных свойств отсутствуют;
  8. (Цвет включает красный) и (камера присутствует).

Таким образом, получаем следующий результат работы метода: категория товара – телефоны; (цвет включает красный) и (цена > 5000 руб- лей) и (камера присутствует).Рассмотрим время, затраченное на выполнение шагов разработанного метода:

  1. Время, затраченное на поиск всех слов среди моделей товаров, составляет W × X × (1/P);
  2. Временными затратами на поиск всех слов среди категорий товаров можно пренебречь;
  3. Квременными затратами на поиск всех слов среди качественных значений количественных свойств товаров можно пренебречь;
  4. Время, затраченное на поиск каждого слова запроса среди свойств товаров и их значений, составляет X × Y (так как уже известна категория товаров). Таким образом, общее время, затраченное на поиск всех слов запроса, составляет X × Y × W. ;

Следовательно, соотношение производительности рассмотренных шагов разработанного метода и соответствующих этапов полнотекстового поиска = P/(YP + 1). В большинстве случаев P > 10, Y < 0,3. Таким образом, разработанный метод показывает прирост в производительности. К недостаткам данного метода можно отнести то, что он будет выдавать некачественные результаты при малом количестве товаров в Интернет-магазине, так как многие слова запроса не будут находиться среди значений свойств товаров и, таким образом, могут некорректно распознаваться свойства состоящие из нескольких слов. В перспективе данный недостаток можно исправить путем создания с последующим подключением словарей, содержащих названия и значений свойств товаров, взятых из других Интернет-магазинов.

Выводы

Таким образом, был разработан метод анализа семантики поискового запроса, позволяющий выделить из строки поискового запро- са, написанной на естественном языке, категорию, свойства и их значения у искомого товара. Применение данного метода позволяет определять требования пользователей: выделять качественные значения количественных свойств товаров, обрабатывать унарные и бинарные операции, выявлять принадлежность слов и словосочетаний определенной характеристике товара, определять отношения между словами или группами слов. Это приводит к повышению качества обработки поисковых запросов и релевантности поисковых результатов.

Список литературы

  1. Рыльников, А. Г. Объектная модель представления текста для организации естественно-языкового поиска в массиве физических эффектов. Известия Волгоградского государственного технического университета : межвуз. сб. науч ст. № 8 (46). ВолгГТУ. – Волгоград, 2008. – с. 141–144.
  2. Полнотекстовый поиск в PostgreSQL [Электронный ресурс]. – 2007. – Режим доступа : http://www.sai.msu.su/~megera/postgres/talks/fts-rit2007.pdf.
  3. Грищенков, К. А. Семантический поиск на основе системы полнотекстового поиска. Труды 53-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». – М.: МФТИ, 2010.– с. 90–91.