Реферат за темою випускної роботи

Зміст

Введення

В середньому в рік виходить близько 350 повнометражних фільмів [1], і спостерігається тенденція до збільшення цього числа. В таких умовах глядачеві, який захоплюється переглядом фільмів, необхідно документувати свої враження і ділитися ними з іншими. Для цієї мети були розроблені сервіси, що містять інформацію про фільми і дозволяють користувачам висловити свою думку.

Технології розвиваються, щоб полегшити життя користувачам, тому більшість таких сервісів впроваджують функцію рекомендацій по перевагах. Існує безліч реалізацій алгоритму видачі рекомендацій, але не всі вони є ефективними в галузі кіно, внаслідок чого багато сервісів згодом виявляються марними після оцінювання деякої кількості фільмів.

Впровадження рекомендаційної системи є комерційно вигідним, так як користувач з більшою ймовірністю зверне увагу на сервіс, який допоможе йому в пошуку продуктів у певній галузі. Рекомендації застосовуються при пошуку фільмів, музики, товарів в інтернет-магазині, новин і послуг різного роду. Наприклад, рекомендаційна система дозволить без великих затрат часу продовжити перегляд фільмів, вище інших в списку показавши ті фільми, які відповідають смакам даного користувача.

У зв'язку з цим актуальним є створення власної системи, яка б відповідала вимогам сучасного користувача, активно використовує рекомендаційні сервіси для пошуку нових фільмів.

Дана робота присвячена аналізу методів і моделей дослідження схожості текстів. Результати цієї роботи будуть використовуватися в реалізації власного методу аналізу текстів природною мовою з метою удосконалення системи рекомендацій, розробленої для дипломного проекту бакалавра.

1. Актуальність теми

Для того, щоб вдосконалити систему, розроблену для дипломного проекту бакалавра, вирішено використовувати не тільки алгоритм визначення рекомендованих фільмів на основі жанрів, а й аналізувати опис фільмів, а також відгуки користувачів. Описи та відгуки це неструктурована інформація, обробляти яку вручну надто трудомісткий. Але збирати і обробляти інформацію необхідно хоча б тому, що це дає можливість отримувати нову інформацію з уже наявних даних, за допомогою якої можна підвищити різноманітність прийнятих рішень. У зв'язку з цим завдання автоматичного аналізу даних є актуальною, і для її вирішення розроблено безліч методів і моделей. Одним з методів є Data Mining.

Data Mining - процес автоматичного виявлення у вихідних даних прихованої інформації, яка раніше не була відома, нетривіальна, практично корисна і доступна для інтерпретації людиною [2].

Окремою областю обробки знань є аналіз неструктурованою текстової інформації. Під неструктурованою текстовою інформацією мають на увазі набір документів, що представляють собою логічно об'єднаний текст, не обмежений структурними компонентами [3].

В роботі проведено дослідження підходів до видачі рекомендацій і виявлена ??необхідність використання комбінації підходів: тематичної і коллаборатівной фільтрації. Також визначено етапи створення списку рекомендованих фільмах, засновані на аналізі інформації, отриманої від користувачів і з інформації про фільми.

2. Мета і завдання дослідження, плановані результати

В нових системах найчастіше немає сформованого списку переваг користувачів, на основі якого можна генерувати рекомендації схожих фільмів, а також для об'єктів рекомендації (фільмів) немає інформації про взаємодії з ним. Така ситуація називається проблемою холодного старту і стандартні, що не модфіцірованную алгоритми, що застосовуються для коллаборатівной фільтрації, не можуть бути ефективними в такому випадку. Проблема зациклення виникає тоді, коли користувач, який запитує список рекомендованих фільмів, надто рідко поповнює списки переглянутих і оцінених об'єктів: в такому випадку система рекомендує користувачеві одні і ті ж об'єкти. Для вирішення цих проблем створюють гібридні системи, які поєднують в собі коллаборатівного фільтрацію, засновану на дії користувача, і контентну фільтрацію, засновану на певній інформації про фільми. Таким чином, метою дослідження є розробка підходу до видачі користувальницьких рекомендацій фільмів, що вирішує проблему холодного старту і проблему зациклення.

Основні завдання дослідження:

  1. Аналіз моделей і алгоритмів класифікації текстової інформації.
  2. Аналіз метрик для визначення близькості текстів.
  3. Розробка архітектури програмної моделі.
  4. Модифікація існуючих метрик визначення близькості текстів для визначення категорії, до якої відноситься фільм.
  5. Оцінка ефективності розробленої метрики для визначення категорії, до якої відноситься фільм

Об'єкт дослідження : алгоритми обробки текстової інформації.

Предмет дослідження : створення рекомендаційної системи шляхом удосконалення існуючих методів видачі рекомендацій.

В рамках магістерської роботи планується отримання актуальних наукових результатів за наступними напрямками:

  1. Розробка програмної моделі автоматизованої системи визначення категорії, до якої відноситься фільм, за його описом.
  2. Розробка алгоритму автоматизованого визначення категорії, до якої відноситься фільм.
  3. Модифікація відомих метрик і методів складання рекомендацій і оцінка ефективності їх застосування в системі.

Для експериментальної оцінки отриманих теоретичних результатів і формування фундаменту наступних досліджень, як практичних результатів планується розробка кроссплатформенной, що настроюється і функціональної рекомендаційної системи з наступними властивостями:

  1. Створення графічного інтерфейсу користувача у вигляді веб-сайту
  2. Реалізація підходу до видачі рекомендацій на основі відгуків користувачів, описів та інших даних з інформацією про фільми
  3. Надання результатів генерації списку рекомендованих фільмів в зрозумілому людині вигляді

3. Обзор исследований и разработок

3.1 Обзор международных источников

Способи видачі рекомендацій вивчаються постійно, і в останні роки спостерігається підвищений інтерес до цього напрямку. У той час як М. Балабановіч і Й. Шохам роблять огляд на створену в Університеті Стенфорд систему, не розкриваючи деталей реалізації [4], в своїй статті Дж. Мішталь і Б. Індурхья досліджують можливість створення рекомендаційної системи, що використовує контекст фільму при генерації рекомендацій [5]. Контекстні рекомендації також досліджували Йіз Лі, Цзячжун Хіба ж то й І Чжан [6].

Різні підходи до рекомендаційних систем були запропоновані в літературі для рекомендації предметів [7]. Вперше використання коллаборатівной фільтрації було запропоновано в книзі Д. Голдберга, Д. Нікольса, Б. Оки і Д. Террі [8], в якій була запропонована пошукова система, заснована на утриманні документа і відповідях, отриманих від інших користувачів. Рекомендаційна система для електронної комерції шляхом об'єднання попередньої покупки і рейтингу після покупки були запропоновані Г. Гуо і М. Елгенді. [9].

Дослідники пропонують такі алгоритми оптимізації рекомендаційних систем як як оптимізація сірого вовка [11], штучна бджолина колонія [10 ], оптимізація рою частинок [12] і генетичні алгоритми [13] і безліч інших. Автори [11] азработалі систему рекомендацій до фільмів, засновану на спільній фільтрації, яка використовує біо-натхненний оптимізатор сірого вовка і методи кластеризації fuzzy c-means (FCM). Оптимізатор сірого вовка був застосований для отримання початкової позиції кластера. Рейтинги фільмів прогнозуються на основі історичних даних користувача і подібності користувачів. Автори також пропонують ABC-KM (штучна бджолина колонія і кластери k-mean) для коллаборатівной системи рекомендацій для зменшення масштабованості і складності холодного запуску. Цей гібридний кластер і оптимізація комбінація методів показав найкращі результати в прогнозі фільмів в порівнянні з існуючими структурами.

3.2 Огляд національних джерел

Визначення ключових понять це один із способів визначення змісту тексту. У даній робота цей спосіб застосовується для порівняння описів фільмів. І. Безсмертний і А. Нугуманова в своїй статті розглядають побудову тезауруса для заданої предметної області на основі статистичних методів обробки текстів на природній мові [14]. Про виділення ключових понять і більш глибоке опис з точки зору мови написали в своїй статті Д. Власов, Д. Пальчун, П. Степанов [15]

Обробка ествественноязикових текстів є основою Text Mining; етапи роботи з текстів описав у своїй статті П. Степанов [16].

М. Краснянський, А. Обухів, Е. Соломатіна і А. Воякіна розглянули способи класифікації текстів за допомогою машинного навчання [17]. Крім завдання класифікації існують також завдання, які вирішуються методами кластеризації, які розглянули К. Кириченко і М. Герасимов [18].

3.3 Обзор локальных источников

В ДонНТУ видані статті як по темі рекомендаційних систем, так і по обробці текстової інформації. У статті Є. Чепікова, Е. Савкова і М. Привалова проведений аналіз типів рекомендаційних систем і запропоновано вирішення проблеми холодного старту [19]. Д. Михнюк і А. Єгошина також провели аналіз алгоритмів, застосовуваних в рекомендаційних системах [20] і порівняли ефективність найбільш популярних метрик для вимірювання близькості текстів [21].

4. Обробка текстових даних

4.1 Етапи обробки текстів на природній мові

На рис. 1 відображена послідовність етапів отримання даних з тексту з метою отримання корисних знань.

Етапи аналізу тексту

Рисунок 1 — Етапи аналізу тексту

Аналіз інформації, представленої в текстовому вигляді, включає в себе [книга]:

  1. Пошук інформації. На даному етапі визначається набір документів, які повинні бути піддані аналізу, і забезпечена їх доступність для подальшої обробки. У рекомендаційної системі фільмів до документів відносяться описи фільмів та відгуки користувачів.
  2. Попередня обробка документів. Наступний етап є загальним для всіх методів аналізу, однак відрізняється в реалізації. Всі знайдені на попередньому етапі текстові документи піддаються передобробці з метою виділення певної структури для подальшого використання цих даних в методах автоматичного визначення подібності. Таким чином, з тексту видаляються зайві слова і текст знаходить більш структуровану форму.
  3. Витяг корисних знань. На даному етапі працюють обрані методи Text Mining для вилучення структурованих даних в текстах. Наприклад, визначення частих наборів слів і об'єднання їх в ключові поняття, обчислення ймовірностей приналежності документа до класу, складання індексу документів для здійснення пошуку за ключовими словами, скорочення тексту зі збереженням сенсу і ін.
  4. Обробка результатів. Останній етап в процесі виявлення корисної інформації вирішує завдання аналізу отриманих результатів. Результатом роботи в рекомендаційної системі є висновок списку рекомендованих об'єктів.

4.2 Способи попередньої обробки текстів

Попередня обробка тексту необхідна для того, щоб підготувати текст до подальшого виявлення ключових слів. Звичайний, необроблений текст містить багато слів, які не несуть корисну інформацію. Наприклад, природні мови гнучкі, тому формально різні слова можуть мати схожими або однаковими значеннями (синоніми). Також непотрібними для процесу аналізу є неінформативні слова, такі як допоміжні частини мови (союзи, прийменники). Тому на даному етапі всі подібні слова видаляються, а слова зі схожими значеннями наводяться в загальну форму. Це дозволяє скоротити час аналізу та дозволить системі дати більш точні результати.

Використовують такі методи попередньої обробки тексту [22]:

  • позбавлення від неінформативних слів: заздалегідь складаються списки неінформативних слів ( тобто, як сказано, можливо) і процесі проходу по тексту видаляються всі збіги;
  • морфологічний пошук (stemming): перетворення слів в єдину форму, придатну до даної частини мови; наприклад, слова використання, котрий використовував можна привести до дієслова в формі інфінітива - використовувати. Для кожної мови необхідно впроваджувати різні алгоритми враховуючи лексичні особливості;
  • n-грами: рядки розбиваються на частини по n символів і проводиться аналіз символів навколо кожної такої частини. Даний метод менш залежить від випадкових помилок в написанні слів, ніж попередні два методи, і є незалежним від лінгвістичного подання слів, проте погано справляється із завданням зменшення кількості неінформативних слів;
  • приведення регістра: все літерні символи тексту наводяться до нижнього регістра для спрощення роботи з текстом.

Найбільш ефективною обробка тексту є при використанні всіх перерахованих методів.

5. Підходи до створення рекомендаційних систем

Завданням рекомендаційних систем є аналіз дій користувача, властивостей об'єктів і особливостей сфери рекомендацій з метою передбачення подальших дій користувача. Існують такі види рекомендаційних систем: засновані на контентної фільтрації (item-item), засновані на коллаборатівной фільтрації (user-user) і гібридні.

Контентная фільтрація заснована на тому, що у кожного фільму є профіль з якимись параметрами (наприклад, жанр, актори). Кожен такий профіль порівнюється з фільмами, які користувач оцінив високо, і алгоритм пошуку схожих об'єктів буде шукати серед цих профілів найбільш схожі за параметрами. Рекомендується брати об'єкти з невеликого тимчасового відрізка, так як смаки людей змінюються з часом.

коллаборатівного фільтрація відображає ставлення інших користувачів до фільму і заснована на створенні для кожного користувача таблиці оцінених фільмів. Проводиться пошук користувачів, які оцінили однакові фільми. Серед списку фільмів цих користувачів в рекомендації поточного користувача будуть додані фільми, які поточний користувач ще не оцінив, але інші користувачі оцінили високо.

Для складань рекомендацій для конкретного користувача пропонується використовувати такі методи:

  1. Аналіз описів фільмів з метою виділення ключових понять і асоціативних правил; користувачу будуть рекомендовані фільми, в описі яких зустрічаються ключові слова з описів тих фільмів, які йому вже сподобалися, на підставі асоціативних правил.
  2. Аналіз відгуків до фільмів, з якими користувач ще не взаємодіяв. Пропонується оцінити тональність відгуків, тобто виділити емоційно забарвлену лексику і виявити ставлення автора відкликання до даного фільму. У разі, якщо відгук має позитивне забарвлення, то висока ймовірність, що фільм сподобається користувачу.
  3. Аналіз відгуків поточного користувача, які він залишає до фільмів, з якими взаємодіяв. Застосовуючи методи Text Mining можна з'ясувати, що саме сподобалося / не сподобалося користувачеві в даному фільмі, і на основі отриманої інформації підібрати нові фільми. Наприклад, якщо користувач в відкликання вказав, що сюжет фільму йому сподобався, то рекомендаційна система підбере для нього фільми з параметрами, які впливають на сюжет.
  4. Статистичний аналіз на основі призначеного для користувача рейтингу, жанрів фільму, що беруть участь акторів, режисерів і т. П.

Таким чином, розробляється рекомендаційна система є гібридної, т. К. Включає в себе методи і тематичної, і коллаборатівной фільтрації. Такий підхід дозволяє позбутися від головного недоліку нових систем - брак інформації від користувачів і зменшити проблему рекомендації одних і тих же об'єктів за рахунок різноманітності методів надання рекомендацій.

Висновки

В рамках даної роботи розглянуті основні завдання Data Mining щодо можливості їх застосування в системі рекомендацій фільмів. Для вирішення завдання рекомендацій запропоновані підходи до статистичного аналізу незалежних параметрів об'єктів (фільмів), а також до аналізу природно мовної текстової інформації, такої як описи фільмів та відгуки до них. Надалі планується визначити алгоритми в формальному вигляді і реалізувати їх і провести експерименти для оцінки ефективності системи.

Магістерська робота присвячена актуальній науковій задачі обробки текстової інформації. В рамках проведених досліджень виконано:

  1. Розглянуто види рекомендаційних мереж і принципи видачі рекомендація.
  2. На підставі аналізу літературних джерел виділено основні алгоритми, які можуть бути використані в запропонованому підході до надання рекомендованих фільмів.
  3. Проведено аналіз методів Data Mining щодо вирішення завдання порівняння текстової інформації і вилучення корисних знань.
  4. Запропоновано комбінація способів видачі рекомендацій.

Подальші дослідження спрямовані на наступні аспекти:

  1. Якісне вдосконалення запропонованого підходу до створення списку рекомендованих фільмів, його доповнення і розширення.
  2. Адаптація відомих методів надання рекомендацій та аналізу текстів з метою вилучення корисних знань
  3. Розробка кроссплатформенной і функціональної рекомендаційної системи у вигляді веб-сервісу.

При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: червень 2019 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.

Перелік посилань

  1. Гомзин, А. Г. Системы рекомендаций: обзор современных подходов [Текст] / А. Г. Гомзин, А. В. Коршунов — М. : Труды Ин-та сист. прогр. РАН, 2012. — 20 с.
  2. Батура Т. В. Методы автоматической классификации текстов. — Новосибирск : Институт систем информатики им. А.П. Ершова СО РАН, 2017. — с. 87-93.
  3. Принципы работы рекомендательных механизмов Интернета [Электронный ресурс] / Интернет-ресурс. — Режим доступа : https://www.ibm.com/developerworks/ru/library/os-recommender1/index.html. — Загл. с экрана. (дата обращения: 24.11.2019)
  4. Balabanovic, Marko & Shoham, Yoav. (1997). Fab: Content-Based, Collaborative Recommendation. Communications of the ACM. 40. 66-72.
  5. Misztal-Radecka, J., & Indurkhya, B. (2015). Explaining Contextual Recommendations: Interaction Design Study and Prototype Implementation.
  6. Halder, Shirsendu & De, Kanjar & Roy, Partha. (2018). Movie Recommendation System using Sentiment Analysis from Microblogging Data.
  7. Sembium, Vivek & Rastogi, Rajeev & Saroop, Atul & Merugu, Srujana. (2017). Recommending Product Sizes to Customers. 243-250.
  8. Goldberg, David & Nichols, D. & Oki, B.. (1992). Terry Using collaborative filtering to weave an information tapestry. Communications of the ACM. 35. 61-70.
  9. Guo, Guibing & Elgendi, Mohamed. (2013). A New Recommender System for 3D E-Commerce: An EEG Based Approach. Journal of Advanced Management Science. 61-65.
  10. Hsu, C., Chen, H., Huang, K., Huang, K., & Huang, Y. (2014). The Development of an Adaptive Group Composition System on Facebook for Collaborative Learning using an Artificial Bee Colony Algorithm.
  11. Selvaraju, P. & Bhuvaneshwaran, Kalaavathi. (2017). Grey Wolf Optimizer Based Web usage Data Clustering with Enhanced Fuzzy C Means Algorithm. International Journal of Data Mining Techniques and Applications, 6. 12-16.
  12. Charoensiriwath, Supiya & Bentley, Peter. (2003). Particle Swarm Optimization Recommender System. 124 - 131.
  13. Bobadilla, J., Ortega, F., Hernando, A., & Javier, A. (2011). Improving collaborative filtering recommender system results and performance using genetic algorithms. Knowledge-Based Systems, 24(8), 1310-1316.
  14. Бессмертный И.А, Нугуманова А.Б. Метод автоматического построения тезаурусов на основе статистической обработки текстов на естественном языке // Известия ТПУ. 2012. №5
  15. Власов Д. Ю., Пальчунов Д. Е., Степанов П. А. Автоматизация извлечения отношений между понятиями из текстов естественного языка // Вестник НГУ. Серия: Информационные технологии. 2010. №3.
  16. Степанов П.А. Автоматизация обработки текстов естественного языка // Вестник НГУ. Серия: Информационные технологии. 2013. №2.
  17. М. Н. Краснянский, А. Д. Обухов, Е. М. Соломатина, А. А. Воякина. Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения // Научный вестник УВАУ ГА (И). — 2018. — Т. 3. — С. 158—161.
  18. Обзор методов кластеризации текстовой информации [Электронный ресурс] / Интернет-ресурс. — Режим доступа : http://www.dialog-21.ru/digest/2001/articles/kirichenko/. — Загл. с экрана. (дата обращения: 24.11.2019)
  19. Чепикова Е.Д., Савкова Е.О., Привалов М.В. Исследование алгоритмов рекомендательных систем. //ИНФОРМАТИКА И КИБЕРНЕТИКА. — Д.: ДонНТУ, — 2015. — № 2. — 104 c.
  20. Д.В. Михнюк, А.А. Егошина. Анализ современных тенденций использования коллаборативной фильтрации в веб-приложениях // Материалы IV международной научно-технической кнференции Донецк, 24 - 25 апреля 2013.- Донецк, ДонНТУ 2013, Том 2, с. 332-336.
  21. Д.В. Михнюк, А.А. Егошина. Метрики оценки близости пользователей в коллаборативных методах формирования рекомендаций. // Материалы V международной научно-технической кнференции Донецк, 24 - 25 апреля 2013.- Донецк, ДонНТУ 2013, Том 1, с. 232-236.
  22. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.