Русский   English
ДонНТУ   Портал магістрів

Реферат за темою випускної роботи

Зміст

Введення

1 Постановка завдання

2 Особливості вироблення рекомендацій і переваг

3 Інструменти аналізу запитів від google

4 Система персоналізації інформації

Висновки

Список літератури

                               

ВСТУП

 

Зараз більшість пошукових соціальних, новинних і рекламних сервісів в Інтернеті намагаються заманити людей простотою і зручністю використання своїх ресурсів, щоб користувачі якнайшвидше могли знайти те, що їх цікавить. Одним з таких інструментів стала персоналізація інформації. У користувача є улюблена сторінка або він ведете свій блог в який-небудь соціальної мережі. Якщо на такому сайті присутня алгоритм персоналізації, то вся інформація відображається в RSS стрічці або в рекламній розсилці буде відповідати тільки його інтересам і захопленням. Як вважають розробники того ж Google, персоналізація дає багато переваг. Головним з них є швидкість пошуку інформації, практично в один клік. Якщо розглядати весь процес більш докладно, то виходить, що пошукова система, використовуючи семантичний аналіз, сама визначає, що показувати, а що ні, оскільки інформація про відвідуваних Інтернет -ресурсах певним IP адресою, закладається в пам'ять пошуковика. Завдяки такому автоматичному відбору, користувач буде отримувати саме ту інформацію, яка йому насамперед необхідна. При цьому багато хто може дивуватися: звідки той чи інший Інтернет -ресурс може «знати», що кому потрібно? Виявляється, в сучасних інформаційних технологіях немає нічого неможливого. Вже зараз, зайшовши в той чи інший пошуковик і набравши ключову фразу, будь-який користувач скаже : «Куди вже простіше ! ». Будь-який вподобаний сайт можна внести в закладки браузера і відразу ж заходити на нього, не переймаючись пошуком.                

1 Постановка завдання


Метою даної роботи є дослідження моделі учня для комп'ютерних навчальних систем на основі історії пошукових запитів. Аналіз систем використовують пошукові запити для збору інформації про користувача. Для досягнення поставленої мети було вивчено матеріал про евристичних алгоритмах і методів які використовуються для аналізу інформації, проаналізовані найбільш популярні системи використовують аналіз користувача запитів.

2 Особливості вироблення рекомандецій та переваг


Напевно будь-який користувач інтернету у зустрічався системами рекомендованой не підозрюючи про це. Наприклад коли робив онлайнові покупки на таких сайтах, як Amazon. Amazon відстежує споживчі звички всіх своїх відвідувачів і, коли користувач заходите на сайт, користується зібраною інформацією, щоб запропонувати товари, які можуть його зацікавити. Amazon може навіть запропонувати фільми, які йому, можливо, сподобаються, хоча раніше користувач купував тільки книги. Деякі сайти з продажу квитків на концерти аналізують, що користувач відвідував раніше, і анонсують майбутні концерти, які можуть бути йому цікаві. Такі сайти, як reddit.com, дозволяють голосувати за посилання на інші сайти, а потім на основі результатів користувальницького голосування пропонують інші посилання, які, можливо, зацікавлять. Yandex надає статистику по запитах в пошуковику. Вид цієї статистики різноманітний, від географічного положення користувача до вікового чинника. Допусти турфірма може подивитися в якому місті, в якого місяця і хто зазвичай найбільш шукає тури в « Туреччину ». І за тим дати рекламу в цьому регіоні. Виходячи всього лише з запитів користувачів практично не обробляючи їх за допомогою алгоритмів, можна отримати дуже цінну інформацію яка здавалася б недоступна широкій аудиторії. З цих прикладів видно, що інформацію про переваги можна збирати по- різному. Іноді даними є куплені відвідувачем товари, а думки про ці товари представляються у вигляді голосування « так / ні» або оцінки за п'ятибальною шкалою, а іноді просто за словом яке було введено в пошуковий рядок. Вся ця інформація дає масу переваг, як і користувачеві так і самій системі.

Завдяки аналізу можна отримати наступні можливості:

І це лише мала частина тих можливостей які дає аналіз користувальницьких дій.

3 Інструменти аналізу запитів от Google


Навряд чи хтось поставить під сумнів зручність і перевагу спеціальних утиліт і сервісів дослідження keywords, над тією мізерною інформацією яку надають безпосередньо пошукові системи. Проте, першоджерелом зазвичай є якраз вони, а всілякі додатки лише обробляють отримуваний від них результат. До того ж "гола " інформація від пошукачів може бути досить цікавою та інформативною, особливо що стосується Google. На відміну від Yandex, Google дає більш цікаву статистику по запитах, яка сама по собі є самодостатньою і не потребує " обгортці ". Єдина проблема - "фірмові сервіси " не дозволяють працювати масштабно, аналізуючи keywords в " промисловому " масштабі. Але, навіть якщо користувач не є щасливим володарем крутих додатків для аналізу ключових слів, у кожного є можливість швидко оцінити потенціал ніші і визначитися із зразковим колом keywords. Google пропонує три сервісу : Google Trends, Google KeywordTool ( AdWords ) і Google InSights. Google InSights ( Google Trends ) незважаючи на те, що він давно вийшов з бета -тестування, чомусь не дуже відомий. До того ж - це старий знайомий Google Trends, тільки трохи більш інформативний ніж попередник (див. рис. 3.1). Незважаючи на те, що в статистиці пошуку Google і трендів Google використовуються одні й ті ж дані, статистика пошуку більшою мірою призначена для користувачів ( дослідників чи рекламодавців ), яким можуть бути корисні розширені функції цієї служби.

Статистика пошуку заданого слова за даними Google InSights

Малюнок 3.1 - Статистика пошуку заданого слова за даними Google InSights

Навіщо потрібен це сервіс ( сервіси ) якщо він не показує точну кількість можливих переходів, це в першу чергу маркетинговий інструмент який є індикатором інтересу до якого-небудь поняттю. Для прикладу був оцінений " blogspot ". Інтерес до терміна зростаючий (як в рунеті, так глобально ), прогноз теж обнадійливий, що означає, що користувач не помилиться якщо заведе блог на цій платформі. Додаткова цінність сервісу в тому що він дає інформацію по будь-якому географічному ареалу, показує новини які протягом історії збору даних викликали сплеск інтересу до терміна, можливість порівнювати поняття і т.д. Загалом, перед тим як запустити черговий проект потрібно, неодмінно, спочатку вивчіть нішу, хоча б за допомогою Google InSights. Google KeywordTool, на відміну від " Інсайтс ", інструмент добору ключових слів для AdWords кампаній цілком годиться і для SEO. Можна скористатися даним сервісом для складання хоча б приблизного списку keywords. Хіба що доведеться зробити не один прогін по різних keywords. Так само доступний таргетинг і багато чого ще. Існує сервіс KeywordTool так само для того щоб дослідити ніші на предмет їх потенціалу в контекстке (конкретно Adsense ), тому що у користувача є можливість подивитися середню ціну за клік, кількість конкурентів (мається на увазі по оголошенням adwords ).

4 Система персоналізації інформації


Коли система рекомендацій працює з великою кількістю контенту, основним завданням стає фільтрація цього контенту, а його ранжування. Якщо говорити про новини - щодня виходять сотні тисяч статей, тисячі з яких можуть зачіпати інтереси кожної людини, що читає новини. Але в основному користувачі не читають більше 5-10 статей в день. І тому стоїть завдання показу потрібної інформації в першу чергу. Для вирішення цього завдання, статті, які у систему з Інтернету, аналізуються на предмет виявлення додаткових відомостей :

        

Для простоти іменовані поняття, теми, рубрики і всі інші знання про статті називаються тегами статті. У вигляді цих же тегів система визначає інтереси користувача шляхом аналізу статей, які йому подобаються, або коли користувач явно повідомляє про свої інтереси (див рис. 4.1).

Система персоналізації запитів

     Малюнок 4.1- Система персоналізації запитів

Для подальшої оптимізації стрічки новин, система групує статті з різних джерел про одне й те ж, щоб в основний стрічці користувач не бачив повторів, але, занурившись в читання історії, міг вибрати, з якою точкою зору йому цікаво ознайомитися. Така кластеризація контенту здійснюється спеціальним механізмом заснованого на графах. Коли користувач читає статті, система з'ясовує, що більше подобається користувачеві. Таким чином, система навчається для кожного користувача, формуючи його « портрет» і використовує цей портрет для того, щоб вибирати найбільш, на її погляд, цікаві користувачеві новини. Вага - це впевненість системи в тому, що тематика буде цікава (див. табл. 4.1). Ця вага обчислюється на основі того, наскільки активно користувач « взаємодіє » з певною тематикою.


    
Таблиця 1 - Веса категорій щодо переваг користувача
Назва категорії Вага
Cloud Computing 0.95
API 0.72
Steve Jobs 0.62
Microsoft 0.44
Facebook 0.40
iPhone 0.24
Startups 0.18
Manu Ginobili 0.17

Такий підхід дозволяє позбавити користувача від нецікавих йому новин, але при сучасному достатку контенту не гарантує, що користувач дізнається все найважливіше, що відбувається в цікавих йому областях (див. рис. 4.2), тобто не вирішує проблему перевантаженості інформацією.

Фільтр за перевагою користувача

     Малюнок 4.2 - Фільтр за перевагою користувача (анімація: 6 кадрів, розмір - 761х298, 149 кілобайта)

Тобто система фільтрує контент за інтересами користувачів. Такий підхід дозволяє позбавити користувача від нецікавих йому новин, але при сучасному достатку контенту не гарантує, що користувач дізнається все найважливіше, що відбувається в цікавих йому областях, тобто не вирішує проблему перевантаженості інформацією. З введенням поняття «важливість новини для користувача » вводиться сравнительна характеристика ( тобто одні новини можуть бути більш важливими для користувача, інші - менш ), що призводить до необхідності ранжувати новини відповідно з цією характеристикою індивідуально для кожного користувача. Подібна техніка називається «рекомендації на основі контенту» і широко використовується різними продуктами, такими як система рекомендацій imdb.com. Для кожного документа виявляється набір атрибутів, кожен з яких зважується щодо користувача, визначаючи, наскільки новина може бути важлива для цього користувача.

 Припустимо можна використовувати такі параметри :

 

Таким чином розглянувши статтю з виявленими переваг користувача можна визначити яку зі статей вибере система.Чим більше критерій оцінювання тим більше вірогідності, що користувач отримає потрібну йому інформацію. Якщо будь-якої критерій відсутній у статті то його можна замінити на середній бал за всіма статтями або присвоїти йому 0 балів. При ранжируванні кластерів народжується три незаперечних переваги:

1. в результаті ранжування відразу ж з'являється стрічка, яку можна показувати користувачеві ;

2. елементів для ранжирування виходить менше ( кластер містить відразу багато статей), відповідно виходить зробити необхідну роботу швидше;

3. без додаткових витрат ми отримуємо такий параметр, як резонансність події ( тобто скільки джерел написали про цю подію ).

Але у даного підходу є проблема, яка привела нас до того, щоб піти від ранжирування кластерів і почати ранжувати статті поодинці. Проблема полягає в тому, що багато хто з обраних нами атрибутів кластера неможливо зіставити з інтересами користувача.

Наприклад, якщо в кластері п'ять статей, то резонансність кластера береться за 5, але це не означає, що всі п'ять статей цікаві користувачеві. Тобто, при ранжируванні конкретного кластера для конкретного користувача в кожному параметрі треба враховувати всі інтереси користувача. В даному випадку, обчислювати резонансність за кількістю статей кластера, цікавих користувачеві ( упоминающих інтереси користувача ), а не за загальною кількістю статей кластера.

Водночас користувачеві потрібно показувати саме історії ( кластери), а не статті. По-перше, тому що користувач не хоче в своїй стрічці бачити кілька різних статей про одне й те ж, навіть якщо вони опубліковані в різних джерелах ; по-друге, тому що для ранжирування нам обов'язково потрібен такий параметр, як резонансність події.

Система, в якій ранжуються статті, але при цьому враховується резонансність подій, а користувачеві показуються історії, більш перспективна щодо системи в якій ранжуються лише статті.

Крім використання ваг тегів з портрета користувача, система також може зважувати параметри статті по- різному щодо різних тегів. Параметри - це дата статті, кількість джерел, кількість текстової інформації, індекс впливовості в соціальних мережах та інші подібні атрибути статей. Наприклад, мало текстової інформації в аналітичних статтях для тега Politics - це погано. Однак точно таку ж кількість інформації для фотоблог - це припустимо. Таким чином, одна і та ж стаття буде володіти різними вагами для різних тегів. Після нормування за допомогою розробленої в системі функції ранжирування ці параметри агрегуються у вагу статті щодо тега.

Розглянувши портрет користувача як бажання бачити той чи інший тег у статті, тепер агрегируя ваги статті в тих тегах, які є у користувача в портреті, таким чином отримавши остаточний загальна вага статті щодо користувача.

Висновки


Проаналізувавши системи персоналізацію та методи аналізу запитів користувачів. Були виявлені величезний потенціал і переваги даних систем. В даний час існують всілякі системи аналізу даних користувача, деякі з них хороші деякі ще потребують доопрацювання.

Вже існують безліч систем використовують інформацію користувача про яких сам користувач навіть не підозрює. Це величезні бази знань які приносять зручності, як і користувачам так і матеріальну прибуток і популярність самим сервісам.

Більшість систем направлено на надання популярної інформації цікавою користувачеві але дуже мало систем які прогнозували б, яка ще б тематика була б цікава користувачеві, тобто персоналізація не замикається його в його ж перевагах а давала все нову і нову інформацію. Яка стане цікава користувачеві, просто але він ще про неї не знає або ні коли не шукав.

Перелік посилань