Назад в библиотеку

Дослідження сучаних тенденцій використання алгоритмів кластеризації при вирешенні задачі персоналізації

Автор: Вороной С.М., Трегубова Ю.О., Філонова О.О.
Источник: Інформатика та комп’ютерні технології / Збірка праць IX міжнародної науково-технічної конференції студентів, аспірантів та молодих науковців. – Донецьк, ДонНТУ – 2013, С. 308–311.


Анотація

Трегубова Ю.О., Філонова О.О., Вороной С.М. Дослідження сучаних тенденцій використання алгоритмів кластеризації при вирешенні задачі персоналізації. Проведено огляд сучасних підходів до вирішення задачі персоналізації при інформаційному пошуку у мережі Інтернет, детально проаналізовані існуючі алгоритми кластеризації. Показано доцільність використання кластеризації пошукових та навігаційних профілів користувачів з метою поліпшення процедури пошуку.

Уведення

Постановка проблеми

Кінець XX – початок XXI століття характеризується величезними масивами постійно зростаючої різноманітної інформації, яка є доступною і представляє інтерес для найширших шарів соціуму.

Більш того, Інтернет-технології та програмно-технічні засоби, які також є доступними для більшості людей, дозволяють здійснювати цей процес у будь-який час, практично в будь-якому місці за будь-якими запитами. Величезний обсяг інформації, який існує в Інтернет на сьогоднішній день, і необхідність його обробки призводять до розвитку технологій і систем пошуку інформації, при цьому зростає і актуальність проблеми випередження запиту користувача шляхом пропонування йому потенційно цікавої інформації. Цю проблему вирішують системи персоналізації, які пропонують користувачеві потенційно цікаву для нього інформацію без явного запиту з його боку [1].

У зв'язку з цим актуальним завданням є розробка методів для автоматичного надання конкретному користувачеві переліку посилань на сторінки з інформацією, що цікавить його. Системи, які надають такі можливості, відносяться до окремого випадку персоналізації, їх також називають рекомендаційними сервісами.

За даними «Harvard Business Review» за останні два роки людством згенеровано даних більше, ніж за всю свою попередню історію.

У зв'язку з цим на перше місце виходить проблема інформаційного перевантаження 21% проведеного в Інтернеті часу користувачі витрачають на пошук, а 41% цього часу припадає на пошук вже колись переглянутого контенту. Рішенням даної проблеми може стати розробка алгоритму визначення релевантності сторінок на основі кластеризації пошукових і навігаційних характеристик профілю користувача.

Мета статті — провести аналіз сучасних тенденцій використання кластеризації при вирішенні задачі персоналізації.

1 Аналіз існуючих підходів до вирішення задачі переоналізації

Розвиток Інтернет в глобальну інформаційну інфраструктуру дозволив звичайним користувачам бути не тільки споживачами інформації, але її творцями і розповсюджувачами. У цьому зв'язку для ефективного вирішення завдань пошуку, структурування та аналізу в основному хаотично організованої інформації в мережі призначений новий напрям у методології аналізу даних — WеЬ Міnіng.

Останнім часом все частіше зустрічається ситуація, коли компанії детально протоколюють дії своїх клієнтів:

Необхідно навчитися вилучати деяку корисну інформацію з цього величезного обсягу сирих даних, необхідну для вирішення низки аналітичних завдань з персоналізації контенту, прогнозуванню, виявленню переваг користувачів, виділенню груп схожих ресурсів і інші.

До таких завдань відносяться нижче зазначені.

Кластеризація ресурсів — групування схожих по множині відвідувачів ресурсів у кілька кластерів (груп) ресурсів. Кластеризація дозволяє будувати каталоги ресурсів, а також виявляти недоліки існуючих тематичних каталогів.

Кластеризація користувачів — групування схожих користувачів в кластери аналогічно кластеризації ресурсів. Дозволяє виявляти групи користувачів зі схожими інтересами.

Побудова стійких поведінкових профілів користувачів у вигляді переліку груп ресурсів, відвідуваних як даним користувачем, так і схожими з ним користувачами.

Персоналізація контенту — представлення кожному користувачеві сайту з найбільш цікавою для нього інформацією в найбільш зручному для нього вигляді. Володіння інформаційними уподобаннями користувача дозволяє динамічно перебудовувати контент сайту.

Для аналізу інформації про користувача слід в найменшій мірі використовувати декларовану їм інформацію, а швидше ґрунтуватися на стійких шаблонах його «поведінки» в мережі — послідовності кліків всередині ресурсу, переходах на інші під-ресурси. періодах мережевої активності, здійснюваних покупках і інші [2].

Існують такі підходи до здійснення персоналізації [3]:

1. Системи, засновані на сукупності правил. Для таких систем правила прийняття рішень закладаються при їх розробці, а інформація про користувача, яка використовується при виконанні правил — це інформація про загальні характеристики користувача. Правила системи виконуються у разі реалізації закладених в них умов.

2. Системи, які базуються на фільтруванні змісту. У таких системах користувачеві рекомендуються елементи, подібні тим, до яких користувач уже висловив інтерес. Алгоритм надання рекомендації полягає в порівнянні атрибутів товарів та визначенні товарів, схожих на товари з профілю цільового користувача. Порівняння може проводитися по одному атрибуту, або по множині атрибутів з використанням коефіцієнта кореляції.

3. Системи спільного фільтрування. У таких системах поведінку користувача порівнюється з поведінкою інших користувачів, і на підставі подібності поведінки їм рекомендуються елементи з профілю інших користувачів, яких називають сусідами.

Для вирішення завдань персоналізації використовуються алгоритми кластеризації. Головне призначення кластеризації — розбивка множини досліджуваних об'єктів і ознак на однорідні у відповідному розумінні групи або кластери. Це означає, що вирішується завдання кластеризації даних і виявлення відповідної структури в них.

2 Огляд сучасних тенденцій використання алгоритмів кластеризації у системах персоналізації

У сучасній літературі описані кілька методів кластеризації [4]:

Суть алгоритму k-середніх (k-means) в тому, що весь вихідний набір прикладів розбивається на k класів таким чином, що мінімізується евклідова відстань між об'єктами всередині класів і максимізується евклідова відстань між класами.

Привабливою особливістю нейронних мереж з адаптивним резонансом є те, що вони зберігають пластичність при запам'ятовуванні нових образів, і, в той же час, запобігають модифікації старої пам'яті.

Нейромережа має внутрішній детектор новизни — тест на порівняння пред'явленого образу з вмістом пам'яті. При вдалому пошуку в пам'яті пред'явлений образ класифікується з одночасною уточнюючою модифікацією синаптичних ваг нейрона, який виконав класифікацію. Про таку ситуацію говорять, як про виникнення адаптивного резонансу в мережі у відповідь на пред'явлення образу. Якшо резонанс не виникає в межах деякого заданого порогового рівня, то успішним вважається тест новизни, і образ сприймається мережею як новий.

Алгоритм функціонування карт, шо самостійно навчаються (Self Organizing Maps — SOM), або карт Кохонена являє собою один з варіантів кластеризації багатовимірних векторів. Прикладом таких алгоритмів може служити алгоритм k-середніх (k-means). Важливою відмінністю алгоритму SOM є те, що в ньому всі нейрони (вузли, центри класів) впорядковані в деяку структуру (зазвичай двовимірну сітку).

При цьому в ході навчання модифікується не тільки нейрон-переможець, але і його сусіди, але в меншому ступені. За рахунок цього SOM можна вважати одним з методів проекції багатовимірного простору в простір з більш низькою розмірністю. При використанні цього алгоритму вектори, які схожі у вихідному просторі, виявляються поряд і на отриманій карті.

Висновки

У зв'язку з розвитком глобальної мережі Інтернет і онлайн-ресурсів засобів масової інформації зокрема значно зросли обсяги інформації, з якими доводиться працювати кінцевому користувачеві. Одним з відомих шляхів полегшення процедури пошуку є групування документів за певною досить вузькою тематикою в кластери. У цьому випадку запит з ключовим словом, що фігурує в заголовку кластеру, призведе до того, що всі документи кластера будуть включені в список знайдених.

Пошуковий запит є формалізованим на природній для користувача мові описом його потреби. Тоді до користувачів зі схожими потребами можна віднести таких користувачів, у яких схожі пошукові профілі. Можна зробити висновок, що найбільш вагомі сторінки, які були переглянуті користувачами зі схожими пошуковими профілями, можуть відноситися до сфери їхніх спільних постійних інтересів. Для виявлення подібних сторінок необхідне вирішення задачі кластеризації пошукових і навігаційних профілів користувача.

Список использованной литературы

  1. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Д.В. Ландэ // М.: Издательский дом «Вильямс», 2005. – 272 с.
  2. Царев А.Г. Модель индикатора предпочтений конечного пользователя веб-сайта на основе многокритериальной комплексной оценки альтернатив / А.Г. Царев. // Мониторинг. Наука и технологи. – 2010. – №3. – С. 68–69.
  3. Mobasher B., Anand S.S. Intelligent Techniques for Web Personalization / B. Mobasher, S. S. Anand // Verlag Berlin Heidelberg: Springer, 2005 – P. 9–12
  4. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод // СПб.: БХВ-Петербург, 2004. – 336 с.