Реферат по теме выпускной работы

Содержание

Введение

В среднем в год выходит около 350 полнометражных фильмов [1], и наблюдается тенденция к увеличению этого числа. В таких условиях зрителю, который увлекается просмотром фильмов, необходимо документировать свои впечатления и делиться ими с остальными. Для этой цели были разработаны сервисы, содержащие информацию о фильмах и позволяющие пользователям высказать своё мнение.

Технологии развиваются, чтобы облегчить жизнь пользователям, поэтому большинство таких сервисов внедряют функцию рекомендаций по предпочтениям. Существует множество реализаций алгоритма выдачи рекомендаций, но не все они являются эффективными в области кино, вследствие чего многие сервисы со временем оказываются бесполезными после оценивания некоторого количества фильмов.

Внедрение рекомендательной системы является коммерчески выгодным, так как пользователь с большей вероятностью обратит внимание на сервис, который поможет ему в поиске продуктов в определённой отрасли. Рекомендации применяются при поиске фильмов, музыке, товаров в интернет-магазине, новостей и услуг различного рода. К примеру, рекомендательная система позволит без больших временных затрат продолжить просмотр фильмов, выше других в списке показав те фильмы, которые соответствуют вкусам данного пользователя.

В связи с этим актуальным является создание собственной системы, которая бы отвечала требованиям современного пользователя, активно использующего рекомендательные сервисы для поиска новых фильмов.

Данная работа посвящена анализу методов и моделей исследования схожести текстов. Результаты данной работы будут использоваться в реализации собственного метода анализа текстов на естественном языке с целью усовершенствования системы рекомендаций, разработанной для дипломного проекта бакалавра.

1. Актуальность темы

Для того, чтобы усовершенствовать систему, разработанную для дипломного проекта бакалавра, решено использовать не только алгоритм определения рекомендуемых фильмов на основе жанров, но и анализировать описание фильмов, а также отзывы пользователей. Описания и отзывы это неструктурированная информация, обрабатывать которую вручную чересчур трудозатратно. Но собирать и обрабатывать информацию необходимо хотя бы потому, что это даёт возможность получать новую информацию из уже имеющихся данных, с помощью которой можно повысить разнообразие принятых решений. В связи с этим задача автоматического анализа данных является актуальной, и для её решения разработано множество методов и моделей. Одним из методов является Data Mining.

Data Mining — процесс автоматического обнаружения в исходных данных скрытой информации, которая ранее не была известна, нетривиальна, практически полезна и доступна для интерпретации человеком [2].

Отдельной областью обработки знаний является анализ неструктурированной текстовой информации. Под неструктурированной текстовой информацией подразумевают набор документов, представляющих собой логически объединенный текст, не ограниченный структурными компонентами [3].

В работе проведено исследование подходов к выдаче рекомендаций и выявлена необходимость использования комбинации подходов: контентной и коллаборативной фильтрации. Также определены этапы создания списка рекомендованных фильмах, основанные на анализе информации, полученной от пользователей и из информации о фильмах.

2. Цель и задачи исследования, планируемые результаты

В новых системах зачастую нет сформированного списка предпочтений пользователей, на основе которого можно генерировать рекомендации похожих фильмов, а также для объектов рекомендации (фильмов) нет информации о взаимодействиях с ним. Такая ситуация называется проблемой холодного старта и стандартные, не модфицированные алгоритмы, применяемые для коллаборативной фильтрации, не могут быть эффективными в таком случае. Проблема зацикливания возникает тогда, когда пользователь, который запрашивает список рекомендованных фильмов, слишком редко пополняет списки просмотренных и оценённых объектов: в таком случае система рекомендует пользователю одни и те же объекты. Для решения этих проблем создают гибридные системы, которые сочетают в себе коллаборативную фильтрацию, основанную на действиях пользователя, и контентную фильтрацию, основанную на определённой информации о фильмах. Таким образом, целью исследования является разработка подхода к выдаче пользовательских рекомендаций фильмов, решающего проблему холодного старта и проблему зацикливания.

Основные задачи исследования:

  1. Анализ моделей и алгоритмов классификации текстовой информации.
  2. Анализ метрик для определения близости текстов.
  3. Разработка архитектуры программной модели.
  4. Модификация существующих метрик определения близости текстов для определения категории, к которой относится фильм.
  5. Оценка эффективности разработанной метрики для определения категории, к которой относится фильм

Объект исследования: алгоритмы обработки текстовой информации.

Предмет исследования: создание рекомендательной системы путём усовершенствования существующих методов выдачи рекомендаций.

В рамках магистерской работы планируется получение актуальных научных результатов по следующим направлениям:

  1. Разработка программной модели автоматизированной системы определения категории, к которой относится фильм, по его описанию.
  2. Разработка алгоритма автоматизированного определения категории, к которой относится фильм.
  3. Модификация известных метрик и методов составления рекомендаций и оценка эффективности их применения в системе.

Для экспериментальной оценки полученных теоретических результатов и формирования фундамента последующих исследований, в качестве практических результатов планируется разработка кроссплатформенной, настраиваемой и функциональной рекомендательной системы со следующими свойствами:

  1. Создание графического интерфейса пользователя в виде веб-сайта
  2. Реализация подхода к выдаче рекомендаций на основе отзывов пользователей, описаний и других данных из информации о фильмах
  3. Предоставление результатов генерации списка рекомендованных фильмов в удобочитаемом виде

3. Обзор исследований и разработок

3.1 Обзор международных источников

Способы выдачи рекомендаций изучаются постоянно, и в последние годы наблюдается повышенный интерес к этому направлению. В то время как М. Балабанович и Й. Шохам делают обзор на созданную в Университете Стэнфорд систему, не раскрывая деталей реализации [4], в своей статье Дж. Мишталь и Б. Индурхья исследуют возможность создания рекомендательной системы, использующей контекст фильма при генерации рекомендаций [5]. Контекстные рекомендации также исследовали Йиз Ли, Цзячжун Не и И Чжан [6].

Различные подходы к рекомендательным системам были предложены в литературе для рекомендации предметов [7]. Впервые использование коллаборативной фильтрации было предложено в книге Д. Голдберга, Д. Никольса, Б. Оки и Д. Терри [8], в которой была предложена поисковая система, основанная на содержании документа и ответах, полученных от других пользователей. Рекомендательная система для электронной коммерции путем объединения предварительной покупки и рейтинга после покупки были предложены Г. Гуо и М. Элгенди. [9].

Исследователи предлагают такие алгоритмы оптимизации рекомендательных систем как как оптимизация серого волка [11], искусственная пчелиная колония [10], оптимизация роя частиц [12] и генетические алгоритмы [13] и множество других. Авторы [11] азработали систему рекомендаций к фильмам, основанную на совместной фильтрации, которая использует био-вдохновленный оптимизатор серого волка и методы кластеризации fuzzy c-means (FCM). Оптимизатор серого волка был применен для получения начальной позиции кластера. Рейтинги фильмов прогнозируются на основе исторических данных пользователя и сходства пользователей. Авторы также предлагают ABC-KM (искусственная пчелиная колония и кластеры k-mean) для коллаборативной системы рекомендаций для уменьшения масштабируемости и сложности холодного запуска. Этот гибридный кластер и оптимизация комбинация методов показал лучшие результаты в предсказании фильмов по сравнению с существующими структурами.

3.2 Обзор национальных источников

Определение ключевых понятий это один из способов определения содержания текста. В данной работа этот способ применяется для сравнения описаний фильмов. И. Бессмертный и А. Нугуманова в своей статье рассматривают построение тезауруса для заданной предметной области на основе статистических методов обработки текстов на естественном языке [14]. Про выделение ключевых понятий и более глубокое описание с точки зрения языка написали в своей статье Д. Власов, Д. Пальчунов, П. Степанов [15]

Обработка ествественноязыковых текстов является основой Text Mining; этапы работы с текстов описал в своей статье П. Степанов [16].

М. Краснянский, А. Обухов, Е. Соломатина и А. Воякина рассмотрели способы классификации текстов с помощью машинного обучения [17]. Кроме задачи классификации существуют также задачи, решаемые методами кластеризации, которые рассмотрели К. Кириченко и М. Герасимов [18].

3.3 Обзор локальных источников

В ДонНТУ изданы статьи как по теме рекомендательных систем, так и по обработке текстовой информации. В статье Е. Чепиковой, Е. Савковой и М. Привалова проведён анализ типов рекомендательных систем и предложено решение проблемы холодного старта [19]. Д. Михнюк и А. Егошина также провели анализ алгоритмов, применяемых в рекомендательных системах [20] и сравнили эффективность наиболее популярных метрик для измерения близости текстов[21].

4. Обработка текстовых данных

4.1 Этапы обработки текстов на естественном языке

На рис. 1 отображена последовательность этапов извлечения данных из текста с целью получения полезных знаний.

Этапы анализа текста

Рисунок 1 — Этапы анализа текста

Анализ информации, представленной в текстовом виде, включает в себя:

  1. Поиск информации. На данном этапе определяется набор документов, которые должны быть подвергнуты анализу, и обеспечена их доступность для дальнейшей обработки. В рекомендательной системе фильмов к документам относятся описания фильмов и отзывы пользователей.
  2. Предварительная обработка документов. Следующий этап является общим для всех методов анализа, однако отличается в реализации. Все найденные на предыдущем этапе текстовые документы подвергаются предобработке с целью выделения определённой структуры для дальнейшего использования этих данных в методах автоматического определения подобия. Таким образом, из текста удаляются лишние слова и текст обретает более структурированную форму.
  3. Извлечение полезных знаний. На данном этапе работают выбранные методы Text Mining для извлечения структурированных данных в текстах. Например, определение частых наборов слов и объединение их в ключевые понятия, вычисление вероятностей принадлежности документа к классу, составление индекса документов для осуществления поиска по ключевым словам, сокращение текста с сохранением смысла и др.
  4. Обработка результатов. Последний этап в процессе обнаружения полезной информации решает задачу анализа полученных результатов. Результатом работы в рекомендательной системе является вывод списка рекомендованных объектов.

4.2 Способы предварительной обработки текстов

Предварительная обработка текста необходима для того, чтобы подготовить текст к дальнейшему выявлению ключевых слов. Обычный, необработанный текст содержит много слов, которые не несут полезную информацию. Например, естественные языки гибкие, поэтому формально разные слова могут обладать схожими или одинаковыми значениями (синонимы). Также ненужными для процесса анализа являются неинформативные слова, такие как вспомогательные части речи (союзы, предлоги). Поэтому на данном этапе все подобные слова удаляются, а слова со схожими значениями приводятся в общую форму. Это позволяет сократить время анализа и позволит системе дать более точные результаты.

Используют такие методы предварительной обработки текста [22]:

Наиболее эффективной обработка текста является при использовании всех перечисленных методов.

5. Подходы к созданию рекомендательных систем

Задачей рекомендательных систем является анализ действий пользователя, свойств объектов и особенностей сферы рекомендаций с целью предсказания дальнейших действий пользователя. Существуют такие виды рекомендательных систем: основанные на контентной фильтрации (item-item), основанные на коллаборативной фильтрации (user-user) и гибридные.

Контентная фильтрация основана на том, что у каждого фильма есть профиль с какими-то параметрами (например, жанр, актёры). Каждый такой профиль сравнивается с фильмами, которые пользователь оценил высоко, и алгоритм поиска похожих объектов будет искать среди этих профилей наиболее схожие по параметрам. Рекомендуется брать объекты из небольшого временного отрезка, так как вкусы людей меняются со временем.

Коллаборативная фильтрация отображает отношение других пользователей к фильму и основана на создании для каждого пользователя таблицы оценённых фильмов. Производится поиск пользователей, которые оценили одинаковые фильмы. Среди списка фильмов этих пользователей в рекомендации текущего пользователя будут добавлены фильмы, которые текущий пользователь ещё не оценил, но другие пользователи оценили высоко.

Для составлений рекомендаций для конкретного пользователя предлагается использовать следующие методы:

  1. Анализ описаний фильмов с целью выделения ключевых понятий и ассоциативных правил; пользователю будут рекомендованы фильмы, в описании которых встречаются ключевые слова из описаний тех фильмов, которые ему уже понравились, на основании ассоциативных правил.
  2. Анализ отзывов к фильмам, с которыми пользователь ещё не взаимодействовал. Предлагается оценить тональность отзывов, т.е. выделить эмоционально окрашенную лексику и выявить отношение автора отзыва к данному фильму. В случае, если отзыв имеет положительную окраску, то высока вероятность, что фильм понравится пользователю.
  3. Анализ отзывов текущего пользователя, которые он оставляет к фильмам, с которыми взаимодействовал. Применяя методы Text Mining можно выяснить, что именно понравилось/не понравилось пользователю в данном фильме, и на основе полученной информации подобрать новые фильмы. Например, если пользователь в отзыве указал, что сюжет фильма ему понравился, то рекомендательная система подберёт для него фильмы с параметрами, которые влияют на сюжет.
  4. Статистический анализ на основе пользовательского рейтинга, жанров фильма, участвующих актёров, режиссёров и т. п.

    Таким образом, разрабатываемая рекомендательная система является гибридной, т. к. включает в себя методы и контентной, и коллаборативной фильтрации. Такой подход позволяет избавиться от главного недостатка новых систем — нехватки информации от пользователей и уменьшить проблему рекомендации одних и тех же объектов за счёт разнообразия методов предоставления рекомендаций.

    На рисунке 2 показана цель определения тональности текста - выявление, является ли отзыв положительным или отрицательным.

    Определение тональности текста

    Рисунок 2 — Определение тональности текста

    (анимация, размер - 64.7KB, 7 слайдов)

    Выводы

    В рамках данной работы рассмотрены основные задачи Data Mining относительно возможности их применения в системе рекомендаций фильмов. Для решения задачи рекомендаций предложены подходы к статистическому анализу независимых параметров объектов (фильмов), а также к анализу естественно языковой текстовой информации, такой как описания фильмов и отзывы к ним. В дальнейшем планируется определить алгоритмы в формальном виде и реализовать их и провести эксперименты для оценки эффективности системы.

    Магистерская работа посвящена актуальной научной задаче обработки текстовой информации. В рамках проведенных исследований выполнено:

    1. Рассмотрены виды рекомендательных сетей и принципы выдачи рекомендация.
    2. На основании анализа литературных источников выделены основные алгоритмы, которые могут быть использованы в предложенном подходе к предоставлению рекомендованных фильмов.
    3. Проведён анализ методов Data Mining относительно решения задачи сравнения текстовой информации и извлечения полезных знаний.
    4. Предложена комбинация способов выдаче рекомендаций.

    Дальнейшие исследования направлены на следующие аспекты:

    1. Качественное совершенствование предложенного подхода к созданию списка рекомендованных фильмов, его дополнение и расширение.
    2. Адаптация известных методов предоставления рекомендаций и анализа текстов с целью извлечения полезных знаний
    3. Разработка кроссплатформенной и функциональной рекомендательной системы в виде веб-сервиса.

    При написании данного реферата магистерская работа еще не завершена. Окончательное завершение: июнь 2019 года. Полный текст работы и материалы по теме могут быть получены у автора или его руководителя после указанной даты.

    Список источников

    1. Гомзин, А. Г. Системы рекомендаций: обзор современных подходов [Текст] / А. Г. Гомзин, А. В. Коршунов — М. : Труды Ин-та сист. прогр. РАН, 2012. — 20 с.
    2. Батура Т. В. Методы автоматической классификации текстов. — Новосибирск : Институт систем информатики им. А.П. Ершова СО РАН, 2017. — с. 87-93.
    3. Принципы работы рекомендательных механизмов Интернета [Электронный ресурс] / Интернет-ресурс. — Режим доступа : https://www.ibm.com/developerworks/ru/library/os-recommender1/index.html. — Загл. с экрана. (дата обращения: 24.11.2019)
    4. Balabanovic, Marko & Shoham, Yoav. (1997). Fab: Content-Based, Collaborative Recommendation. Communications of the ACM. 40. 66-72.
    5. Misztal-Radecka, J., & Indurkhya, B. (2015). Explaining Contextual Recommendations: Interaction Design Study and Prototype Implementation.
    6. Halder, Shirsendu & De, Kanjar & Roy, Partha. (2018). Movie Recommendation System using Sentiment Analysis from Microblogging Data.
    7. Sembium, Vivek & Rastogi, Rajeev & Saroop, Atul & Merugu, Srujana. (2017). Recommending Product Sizes to Customers. 243-250.
    8. Goldberg, David & Nichols, D. & Oki, B.. (1992). Terry Using collaborative filtering to weave an information tapestry. Communications of the ACM. 35. 61-70.
    9. Guo, Guibing & Elgendi, Mohamed. (2013). A New Recommender System for 3D E-Commerce: An EEG Based Approach. Journal of Advanced Management Science. 61-65.
    10. Hsu, C., Chen, H., Huang, K., Huang, K., & Huang, Y. (2014). The Development of an Adaptive Group Composition System on Facebook for Collaborative Learning using an Artificial Bee Colony Algorithm.
    11. Selvaraju, P. & Bhuvaneshwaran, Kalaavathi. (2017). Grey Wolf Optimizer Based Web usage Data Clustering with Enhanced Fuzzy C Means Algorithm. International Journal of Data Mining Techniques and Applications, 6. 12-16.
    12. Charoensiriwath, Supiya & Bentley, Peter. (2003). Particle Swarm Optimization Recommender System. 124 - 131.
    13. Bobadilla, J., Ortega, F., Hernando, A., & Javier, A. (2011). Improving collaborative filtering recommender system results and performance using genetic algorithms. Knowledge-Based Systems, 24(8), 1310-1316.
    14. Бессмертный И.А, Нугуманова А.Б. Метод автоматического построения тезаурусов на основе статистической обработки текстов на естественном языке // Известия ТПУ. 2012. №5
    15. Власов Д. Ю., Пальчунов Д. Е., Степанов П. А. Автоматизация извлечения отношений между понятиями из текстов естественного языка // Вестник НГУ. Серия: Информационные технологии. 2010. №3.
    16. Степанов П.А. Автоматизация обработки текстов естественного языка // Вестник НГУ. Серия: Информационные технологии. 2013. №2.
    17. М. Н. Краснянский, А. Д. Обухов, Е. М. Соломатина, А. А. Воякина. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Научный вестник УВАУ ГА (И). — 2018. — Т. 3. — С. 158—161.
    18. Обзор методов кластеризации текстовой информации [Электронный ресурс] / Интернет-ресурс. — Режим доступа : http://www.dialog-21.ru/digest/2001/articles/kirichenko/. — Загл. с экрана. (дата обращения: 24.11.2019)
    19. Чепикова Е.Д., Савкова Е.О., Привалов М.В. Исследование алгоритмов рекомендательных систем. //ИНФОРМАТИКА И КИБЕРНЕТИКА. — Д.: ДонНТУ, — 2015. — № 2. — 104 c.
    20. Д.В. Михнюк, А.А. Егошина. Анализ современных тенденций использования коллаборативной фильтрации в веб-приложениях // Материалы IV международной научно-технической кнференции Донецк, 24 - 25 апреля 2013.- Донецк, ДонНТУ 2013, Том 2, с. 332-336.
    21. Д.В. Михнюк, А.А. Егошина. Метрики оценки близости пользователей в коллаборативных методах формирования рекомендаций. // Материалы V международной научно-технической кнференции Донецк, 24 - 25 апреля 2013.- Донецк, ДонНТУ 2013, Том 1, с. 232-236.
    22. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.