Назад в библиотеку

Анализ методов Data Mining с целью применения в рекомендательной системе

Автор: Гума С.Н., Коломойцева И.А.
Источник: VI Международная научно-техническая конференция СИТОНИ-2019, 26 ноября 2019г., г. Донецк

Аннотация

Гума С.Н., Коломойцева И.А. Интернет-сайт для рекомендации фильмов. В данной статье рассмотрены подходы к созданию рекомендательных систем, которые основаны на методах и моделях Data Mining. Проведён анализ существующих методов для решения задачи предсказания интересов пользователя рекомендательной системы, выбрана наиболее действенная комбинация подходов к реализации алгоритмов разрабатываемой системы.

Постановка проблемы

Технологии развиваются, чтобы облегчить жизнь пользователям, поэтому большинство современных сервисов внедряют функцию рекомендаций по предпочтениям. Существует множество реализаций алгоритма выдачи рекомендаций, но не все они являются эффективными в области кино, вследствие чего многие сервисы со временем оказываются бесполезными после оценивания некоторого количества фильмов.

В связи с этим актуальным является создание собственной системы, которая бы отвечала требованиям современного пользователя, активно использующего рекомендательные сервисы для поиска новых фильмов.

Data Mining — процесс автоматического обнаружения в исходных данных скрытой информации — ранее неизвестной, нетривиальной, практически полезной и доступной для интерпретации человеком [1].

Отдельной областью обработки знаний является анализ неструктурированной текстовой информации. Под неструктурированной текстовой информацией подразумевают набор документов, представляющих собой логически объединенный текст, не ограниченный структурными компонентами [2].

Данная работа посвящена анализу методов и моделей исследования схожести текстов. Результаты данной работы будут использоваться в реализации собственного метода анализа текстов на естественном языке с целью создания эффективной системы составления рекомендаций.

Задачи Data Mining

В основном задачи, которые связаны с Data Mining, сводятся к обучению с учителем и обучению без учителя, но также отличают особый случай — контентную и коллаборативную фильтрации [3]. Под решением задачи понимается применение подходов в разных сферах деятельности с целью повышения эффективности работы путём её автоматизации.

Для того, чтобы решить задачу автоматизации анализа схожести текстов, рассмотрим существующие подходы и определим алгоритм выдачи рекомендаций.

Обучение с учителем подразумевает, что каждый входящий объект будет соответствовать определённому заранее выходу. Для это необходимо использовать модели, которые определяют зависимость исходных описаний объектов от ответов. К обучению с учителем относятся такие задачи: классификация [4], регрессия, ранжирование и прогнозирование.

Классификация подразумевает распределение исходных объектов по существующим классам. Например, определение жанра произведения. То есть нужно определить какой-либо параметр (зависимый) по совокупности других параметров (независимых). Для текстов независимым параметром может быть частота появления слов, связанных с определением класса.

В случае, когда количество независимых параметров не определено, то такой подход называется регрессионным и подразумевает нахождение вероятностей, с которыми объект можно отнести к классу.

В анализе текстов часто применяется ранжирование — сортировка значений ответов происходит после получения этих ответов, а не в процессе извлечения информации. В случае с рекомендательной системой данный метод можно использовать для дополнительной сортировки результатов.

В задаче прогнозирования объектами являются временные ряды, по которым нужно определить дальнейшую динамику (например, рекомендовать пользователю фильмы в зависимости от времени дня/года).

При обучении без учителя нет заранее определённых классов, по которым можно рассортировать исходные объекты, в этом случае классы находят в процессе исследования зависимостей между объектами. Основными задачами, которые относят к обучению без учителя, являются кластеризация и поиск ассоциативных правил.

Кластеризация является методом статистического анализа — распределение объектов в группы так, чтобы внутри группы объекты обладали наиболее схожими свойствами [4]. В рекомендательных системах кластеризация применяется при коллаборативной фильтрации, используя методы которой определяют, насколько похожи пользователи между собой и, таким образом, в рекомендованный список текущего пользователя попадают объекты, которые понравились другим пользователям со вкусами, похожими на вкусы текущего пользователя.

Поиск ассоциативных правил применим для случаев, когда нужно проанализировать последовательность событий (сиквенциальный анализ), а 285 Секция 3. Инженерия программного обеспечения также подходит нахождения неслучайных зависимостей между объектами [5]. В случае рекомендательной системы фильмов такой подход поможет выявить общие черты у фильмов, и следуя принципам контентной фильтрации далее можно рекомендовать пользователю фильмы, которые подчиняются выявленным правилам.

Процесс анализа текстовых данных

На рисунке 1 отображена последовательность этапов извлечения данных из текста с целью получения полезных знаний.

Рисунок 1 — Этапы анализа текста

Рисунок 1 — Этапы анализа текста

Анализ информации, представленной в текстовом виде, включает в себя следующие этапы [1].

1. Поиск информации. На данном этапе определяется набор документов, которые должны быть подвергнуты анализу, и обеспечена их доступность для дальнейшей обработки. В рекомендательной системе фильмов к документам относятся описания фильмов и отзывы пользователей.

2. Предварительная обработка документов. Следующий этап является общим для всех методов анализа, однако отличается в реализации. Все найденные на предыдущем этапе текстовые документы подвергаются предобработке с целью выделения определённой структуры для дальнейшего использования этих данных в методах автоматического определения подобия. Таким образом, из текста удаляются лишние слова и текст обретает более структурированную форму.

3. Извлечение полезных знаний. На данном этапе работают выбранные методы Text Mining для извлечения структурированных данных в текстах. Например, определение частых наборов слов и объединение их в ключевые понятия, вычисление вероятностей принадлежности документа к классу, составление индекса документов для осуществления поиска по ключевым словам, сокращение текста с сохранением смысла и др.

4. Обработка результатов. Последний этап в процессе обнаружения полезной информации решает задачу анализа полученных результатов. Результатом работы в рекомендательной системе является вывод списка рекомендованных объектов.

Подходы к созданию рекомендательных систем

Задачей рекомендательных систем является анализ действий пользователя, свойств объектов и особенностей сферы рекомендаций с целью предсказания дальнейших действий пользователя. Существуют такие виды рекомендательных систем: основанные на контентной фильтрации (itemitem), основанные на коллаборативной фильтрации (user-user) и гибридные [6].

Контентная фильтрация основана на том, что у каждого фильма есть профиль с какими-то параметрами (например, жанр, актёры). Каждый такой профиль сравнивается с фильмами, которые пользователь оценил высоко, и алгоритм поиска похожих объектов будет искать среди этих профилей наиболее схожие по параметрам.

Коллаборативная фильтрация отображает отношение других пользователей к фильму и основана на создании для каждого пользователя таблицы оценённых фильмов. Производится поиск пользователей, которые оценили одинаковые фильмы. Среди списка фильмов этих пользователей в рекомендации текущего пользователя будут добавлены фильмы, которые текущий пользователь ещё не оценил, но другие пользователи оценили высоко.

Для составлений рекомендаций для конкретного пользователя предлагается использовать следующие методы.

1. Анализ описаний фильмов с целью выделения ключевых понятий и ассоциативных правил; пользователю будут рекомендованы фильмы, в описании которых встречаются ключевые слова из описаний тех фильмов, которые ему уже понравились, на основании ассоциативных правил.

2. Анализ отзывов к фильмам, с которыми пользователь ещё не взаимодействовал. Предлагается оценить тональность отзывов, т.е. выделить эмоционально окрашенную лексику и выявить отношение автора отзыва к данному фильму. В случае, если отзыв имеет положительную окраску, то высока вероятность, что фильм понравится пользователю.

3. Анализ отзывов текущего пользователя, которые он оставляет к фильмам, с которыми взаимодействовал. Применяя методы Text Mining можно выяснить, что именно понравилось/не понравилось пользователю в данном фильме, и на основе полученной информации подобрать новые фильмы. Например, если пользователь в отзыве указал, что сюжет фильма ему понравился, то рекомендательная система подберёт для него фильмы с параметрами, которые влияют на сюжет.

4. Статистический анализ на основе пользовательского рейтинга, жанров фильма, участвующих актёров, режиссёров и т. п. Таким образом, разрабатываемая рекомендательная система является гибридной, т. к. включает в себя методы и контентной, и коллаборативной фильтрации. Такой подход позволяет избавиться от главного недостатка новых систем — нехватки информации от пользователей и уменьшить проблему рекомендации одних и тех же объектов за счёт разнообразия методов предоставления рекомендаций.

Выводы

В рамках данной статьи рассмотрены основные задачи Data Mining относительно возможности их применения в системе рекомендаций фильмов. Для решения задачи рекомендаций предложены подходы к статистическому анализу независимых параметров объектов (фильмов), а также к анализу естественно языковой текстовой информации, такой как описания фильмов и отзывы к ним. В дальнейшем планируется определить алгоритмы в формальном виде и реализовать их и провести эксперименты для оценки эффективности системы.

Список использованной литературы

  1. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. — 2-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2007. — 384 с.
  2. Батура Т. В. Методы автоматической классификации текстов. — Новосибирск : Институт систем информатики им. А.П. Ершова СО РАН, 2017. — с. 87-93.
  3. Машинное обучение — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение. — Заглавие с экрана.
  4. Батура Т. В. Математическая лингвистика и автоматическая обработка текстов : учеб. пособие — Новосибирск : РИЦ НГУ, 2016. — 166 с.
  5. Завгородный А. Ю. Метод быстрого поиска ассоциативных правил. — Х.: Системы обработки информации, 2006. — № 8(57). — с. 109-114.
  6. Современные методы анализа тональности текста — Режим доступа: http://datareview.info/article/sovremennyie-metodyi-analiza-tonalnosti-teksta/ — Заглавие с экрана