Автор: Гуанся Сюй, Чжицзян Тан, Чжуан Ма, Янбинг Лю и Махмуд Данешманд
Источник: Журнал электротехники и вычислительной техники, 2019 г.
Переводчик: Гума С.Н.
Гума С.Н., Коломойцева И.А. Интернет-сайт для рекомендации фильмов. В данной статье рассмотрены подходы к созданию рекомендательных систем, которые основаны на методах и моделях Data Mining. Проведён анализ существующих методов для решения задачи предсказания интересов пользователя рекомендательной системы, выбрана наиболее действенная комбинация подходов к реализации алгоритмов разрабатываемой системы.
Системы персонализированных рекомендаций широко применяются для решения проблем информационной перегрузки и для предоставления персонализированных рекомендаций в отношении информации пользователей на сайтах электронной коммерции [2, 3]. Например, Taobao Shopping, Jing Dong Mall и рекомендации книг в Amazon [4] предоставили персональные рекомендации для всех типов пользователей. Выбор подходящего алгоритма рекомендации является ядром системы персонализированных рекомендаций [5]. В настоящее время популярные алгоритмы рекомендаций в основном делятся на основанные на контентной фильтрации, коллаборативной фильтрации (CF), гибридные системы и другие алгоритмы. Контентная (содержательная) фильтрация использует набор отдельных функций элементов, например, жанров, режиссеров и актеров в фильмах, для генерации рекомендаций [6]. Целью наиболее популярной коллаборативной фильтрации является выявление списка интересных элементов для целевых пользователей на основе предпочтений их единомышленников. Эти два подхода часто объединяются, чтобы сделать гибридную систему [7].
Как правило, алгоритм CF делится на рекомендации на основе памяти и на основе моделей по Breese et al. [10]. Рекомендация CF на основе памяти использует исторические данные для поиска похожих объектов. Рекомендация CF на основе памяти может быть разделена на рекомендацию на основе элементов и рекомендацию CF на основе пользователя. Рекомендация CF на основе элементов находит набор элементов, который похож на целевой объект на основе сходства между элементами. Пользовательская рекомендация CF опирается на информацию об активном пользовательском окружении, чтобы делать прогнозы и рекомендации [11]. Выбор соседних областей является одной из важнейших процедур пользовательского подхода CF, который выбирает группу пользователей из соседей-кандидатов, чтобы составить область активного пользователя. Рекомендация CF на основе модели обычно использует преимущества интеллектуального анализа данных, машинного обучения и других методов. Существуют некоторые традиционные меры сходства, такие как косинусное сходство (COS), коэффициент корреляции Пирсона (PCC), евклидово подобие, основанное на расстоянии (EDS), и скорректированное сходство на основе косинуса (ACOS), которые были широко используется в CF для оценки сходства [12].
В этой статье, направленной на улучшение традиционных алгоритмов CF для получения хорошего значения точности, мы предлагаем новый метод измерения сходства, называемый алгоритмом рекомендации совместной фильтрации, основанный на доверии пользователя и временном контексте (UCTC_User), новый подход, который улучшает основной ACOS. UCTC_User не только учитывает влияние того, является ли пользователь более надежным, чем другие, но также учитывает динамику его интересов. Экспериментальные результаты показывают, что UCTC_User не только улучшает меру подобия, но также может находить более точных соседей и повышать точность предсказания.
В совместной фильтрации традиционный способ поиска соседей для активного пользователя зависит от информации об оценке общих оцениваемых элементов двумя пользователями. Тем не менее, существуют некоторые недостатки в традиционных методах измерения сходства, то есть фактор доверия пользователя не учитывается, и контекст времени также является важным фактором в информации об оценке.<.p>
В повседневной жизни людей концентрация каждого человека в каждой области различна. Поскольку некоторые люди проводят больше времени и энергии в определенной области, эти люди делают свои слова более авторитетными. Например, в конкурсе Я певец
певцы как оценщики проводят больше времени, чем обычные люди, и у этих экспертов есть свои знаменитые работы. Следовательно, значение каждого пользователя различно для целевого пользователя при расчете сходства между пользователями, и пользователь имеет более высокую достоверность, если пользователь является экспертом в этой области. В результате мы вводим пользовательскую достоверность в метод расчета скорректированного сходства косинусов, чтобы повысить точность рекомендации.
Существующий алгоритм рекомендации совместной фильтрации рассматривает каждый ресурс, к которому обращается пользователь в процессе рекомендации рекомендации, как равный, что, очевидно, неразумно. В целом, элементы, которые недавно посещал пользователь, играют более важную роль в рекомендации ресурсов, которые могут представлять интерес для пользователя в будущем, тогда как записи раннего доступа оказывают относительно небольшое влияние на генерацию рекомендаций.
Мы вводим временной контекст в метод расчета скорректированного косинусного сходства, чтобы повысить важность данных, к которым недавно обращались, в процессе генерации рекомендаций.
Чтобы преодолеть эти недостатки, в этой статье предложен алгоритм совместной фильтрации, основанный на доверии пользователя и контексте времени. На основе скорректированного косинусного сходства добавляются достоверность пользователя и временной контекст, чтобы учитывать аналогичное эталонное значение пользователя и информацию о временном контексте. На рисунке 1 показана структура предложенного нами алгоритма.
Полезно учитывать популярность элемента при расчете сходства интересов пользователя для улучшения качества рекомендации. Следовательно, мы добавляем штрафной коэффициент популярных предметов в уравнение ACOS. Рассматривая книги в качестве примера, мы не думаем, что два пользователя схожи по своим интересам, если они когда-либо покупали Оксфордский словарь английского языка, потому что это очень распространенная книга. Однако, если оба пользователя купили Data Mining Введение, то их интерес можно было бы считать более схожим, поскольку только тот, кто изучает Data Mining, купит его. Соответственно, если два пользователя предприняли одно и то же действие с непопулярными предметами, тогда можно лучше проиллюстрировать сходство их интересов. Мы настраиваем числитель ACOS на новое уравнение и определяем его следующим образом:
где N(i) это номер объекта i в рейтинге
В контекстной информации временной контекст является важной информацией. Как правило, интересы людей меняются со временем. Например, молодым людям нравится красить волосы, носить индивидуальную одежду, и со временем выбор одежды постепенно переходит к зрелому стилю. Новые инженеры стремятся покупать книги с вводной классикой, и, проработав некоторое время, они выступают за выбор учебников с глубиной.
За очень короткий промежуток времени пользователи, которые похожи на целевого пользователя, дают приблизительную оценку того же элемента, что показывает, что пользователь больше похож на целевого пользователя, указывая на то, что рейтинг пользователя является более ценным. Более того, если пропорция пересечения между элементами обоих пользователей велика, высокое сходство между ними может быть отражено в некоторых областях. В соответствии с перспективой, мы определяем следующее уравнение:
где tu и tv это информация о времени, когда пользователи u и v оценили объект.
В этой статье предлагается алгоритм рекомендации совместной фильтрации, основанный на доверии пользователя и контексте времени. Основная идея заключается в том, чтобы рассчитать сходство между пользователями, улучшив ACOS, добавив в него доверие пользователей и временной контекст. Определим уравнение следующим образом:
где a - фактор воздействия, который можно отрегулировать, чтобы получить лучший результат при повторных экспериментах.
Чтобы дать четкое описание, мы показываем наш предложенный метод в следующих шагах:
Вход: рейтинговая матрица
Вывод: прогноз для активного пользователя.
Шаг 1: использовать итоговое уравнение для вычисления сходства между пользователями и сгенерированная матрица сходства
Шаг 2: сортировка получившейся матрицы сходства в порядке убывания.
Шаг 3: получить диапазон выбора соседей активного пользователя и затем сгенерировать набор соседей на основе сходства между пользователями.
Шаг 4: используйте следующее уравнение для прогнозирования рейтинга:
где Pu это точность активного пользователя u для целевого элемента i и K является соседним набором активного пользователя u.
В контекстной информации временной контекст является важной информацией. Как правило, интересы людей меняются со временем. Например, молодым людям нравится красить волосы, носить индивидуальную одежду, и со временем выбор одежды постепенно переходит к зрелому стилю. Новые инженеры стремятся покупать книги с вводной классикой, и, проработав некоторое время, они выступают за выбор учебников с глубиной.
За очень короткий промежуток времени пользователи, которые похожи на целевого пользователя, дают приблизительную оценку того же элемента, что показывает, что пользователь больше похож на целевого пользователя, указывая на то, что рейтинг пользователя является более ценным. Более того, если пропорция пересечения между элементами обоих пользователей велика, высокое сходство между ними может быть отражено в некоторых областях. В соответствии с перспективой, мы определяем следующее уравнение:
На сегодняшний день многие исследователи представили множество показателей для оценки эффективности систем рекомендаций. Метрики для оценки качества системы рекомендаций в основном включают две категории: средняя абсолютная ошибка (MAE) и среднеквадратичная ошибка (RMSE) [13]. MAE является одним из наиболее широко используемых показателей для оценки точности рекомендации и определяется как среднее абсолютной разницы между значениями прогноза и фактическими рейтингами. RMSE - это квадратный корень среднеквадратичной ошибки алгоритма. Среднеквадратичная ошибка - это ожидаемый квадрат разности между оценкой параметра и истинным значением параметра. Чем меньше значения MAE и RMSE, тем точнее прогнозы. В рекомендации top-N точность, отзыв и мера F1 часто используются для оценки точности рекомендаций. R это элементы рекомендаций и T это фактические элементы в тесте.
Точность, отклик и мера изображены на рисунке 2.
В рамках данной статьи рассмотрены основные задачи Data Mining относительно возможности их применения в системе рекомендаций фильмов. Для решения задачи рекомендаций предложены подходы к статистическому анализу независимых параметров объектов (фильмов), а также к анализу естественно языковой текстовой информации, такой как описания фильмов и отзывы к ним. В дальнейшем планируется определить алгоритмы в формальном виде и реализовать их и провести эксперименты для оценки эффективности системы.
A new similarity function for selecting neighbors for each target item in collaborative filtering,Knowledge-Based Systems, vol. 37, no. 1, pp. 146—153, 2013. View at Publisher · View at Google Scholar · View at Scopus
A model to represent users trust in recommender systems using ontologies and fuzzy linguistic modeling,Information Sciences, vol. 311, pp. 102—118, 2015. View at Publisher · View at Google Scholar · View at Scopus
Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions,IEEE Transactions on Knowledge and Data Engineering, vol. 17, no. 6, pp. 734—749, 2005. View at Google Scholar
Consumer surplus in the digital economy: estimating the value of increased product variety at online booksellers,Management Science, vol. 49, no. 11, pp. 1580—1596, 2003. View at Publisher · View at Google Scholar · View at Scopus
Using the opinion leaders in social networks to improve the cold start challenge in recommender systems,in Proceedings of 2017 3rd International Conference on Web Research (ICWR), pp. 62—66, Tehran, Iran, April 2017.
Fast algorithms to evaluate collaborative filtering recommender systems,Knowledge-Based Systems, vol. 96, pp. 96—103, 2016. View at Publisher · View at Google Scholar · View at Scopus
Recommender systems survey,Knowledge-Based Systems, vol. 46, no. 1, pp. 109—132, 2013. View at Publisher · View at Google Scholar · View at Scopus
Using collaborative filtering to weave an information tapestry,Communications of the ACM, vol. 35, no. 12, pp. 61—70, 1992. View at Publisher · View at Google Scholar · View at Scopus
Improved neighborhood-based algorithms for large-scale recommender systems,in Proceedings of KDD Workshop on Large-Scale Recommender Systems and the Netflix Prize Competition, Las Vegas, NV, USA, August 2008.
Empirical analysis of predictive algorithms for collaborative filtering,New Page, vol. 7, no. 7, pp. 43—52, 2013. View at Google Scholar
An empirical analysis of design choices in neighborhood-based collaborative filtering algorithms,Information Retrieval, vol. 5, no. 4, pp. 287—310, 2002. View at Publisher · View at Google Scholar · View at Scopus
A comprehensive survey of neighborhood-based recommendation methods,in Recommender Systems Handbook, pp. 107—144, Springer, Berlin, Germany, 2011. View at Google Scholar
An effective collaborative filtering algorithm based on user preference clustering,Applied Intelligence, vol. 45, no. 2, pp. 230—240, 2016. View at Publisher · View at Google Scholar · View at Scopus
A user trust-based collaborative filtering recommendation algorithm,in Information and Communications Security, pp. 411—424, Springer, Berlin, Germany, 2009. View at Publisher · View at Google Scholar · View at Scopus
A collaborative filtering algorithm based on double clustering and user trust,in Proceedings of International Conference on Sensor Network and Computer Engineering, Xi’an, China, July 2016.
A novel approach based on multi-view reliability measures to alleviate data sparsity in recommender systems,Multimedia Tools and Applications, vol. 78, pp. 1—36, 2019. View at Publisher · View at Google Scholar · View at Scopus
A reliability-based recommendation method to improve trust-aware recommender systems,Expert Systems with Applications, vol. 42, no. 21, pp. 7386—7398, 2015. View at Publisher · View at Google Scholar · View at Scopus
Reversed CF: a fast collaborative filtering algorithm using a k-nearest neighbor graph,Expert Systems with Applications, vol. 42, no. 8, pp. 4022—4028, 2015. View at Publisher · View at Google Scholar · View at Scopus
A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem,Information Sciences, vol. 178, no. 1, pp. 37—51, 2018. View at Google Scholar
A hybrid user similarity model for collaborative filtering,Information Sciences, vol. 418-419, pp. 102—118, 2017. View at Publisher · View at Google Scholar · View at Scopus
A new similarity measure based on adjusted euclidean distance for memory-based collaborative filtering,Journal of Software, vol. 6, no. 6, pp. 993—1000, 2011. View at Publisher · View at Google Scholar · View at Scopus
Time weight collaborative filtering,in Proceedings of the 14th ACM International Conference on Information and Knowledge Management, pp. 485—492, Bremen, Germany, November 2005.
Improvement of collaborative filtering algorithm based on user similarity,Journal of East China Normal University, vol. 2016, no. 3, pp. 60—66, 2016. View at Google Scholar
A novel hybrid similarity calculation model,Scientific Programming, vol. 2017, Article ID 4379141, 9 pages, 2017. View at Publisher · View at Google Scholar · View at Scopus