Реферат - Побудова і дослідження моделі учня для комп’ютерних навчальних систем на основі історії пошукових запитів

Реферат за темою випускної роботи

Зміст

Введення

1 Постановка завдання

2 Особливості вироблення рекомендацій і переваг

3 Інструменти аналізу запитів від google

4 Система персоналізації інформації

Висновки

Список літератури

ВСТУП

Зараз більшість пошукових соціальних, новинних і рекламних сервісів в Інтернеті намагаються заманити людей простотою і зручністю використання своїх ресурсів, щоб користувачі якнайшвидше могли знайти те, що їх цікавить. Одним з таких інструментів стала персоналізація інформації. У користувача є улюблена сторінка або він ведете свій блог в який-небудь соціальної мережі. Якщо на такому сайті присутня алгоритм персоналізації, то вся інформація відображається в RSS стрічці або в рекламній розсилці буде відповідати тільки його інтересам і захопленням. Як вважають розробники того ж Google, персоналізація дає багато переваг. Головним з них є швидкість пошуку інформації, практично в один клік. Якщо розглядати весь процес більш докладно, то виходить, що пошукова система, використовуючи семантичний аналіз, сама визначає, що показувати, а що ні, оскільки інформація про відвідуваних Інтернет -ресурсах певним IP адресою, закладається в пам'ять пошуковика. Завдяки такому автоматичному відбору, користувач буде отримувати саме ту інформацію, яка йому насамперед необхідна. При цьому багато хто може дивуватися: звідки той чи інший Інтернет -ресурс може «знати», що кому потрібно? Виявляється, в сучасних інформаційних технологіях немає нічого неможливого. Вже зараз, зайшовши в той чи інший пошуковик і набравши ключову фразу, будь-який користувач скаже : «Куди вже простіше ! ». Будь-який вподобаний сайт можна внести в закладки браузера і відразу ж заходити на нього, не переймаючись пошуком.

1 Постановка завдання

Метою даної роботи є дослідження моделі учня для комп'ютерних навчальних систем на основі історії пошукових запитів. Аналіз систем використовують пошукові запити для збору інформації про користувача. Для досягнення поставленої мети було вивчено матеріал про евристичних алгоритмах і методів які використовуються для аналізу інформації, проаналізовані найбільш популярні системи використовують аналіз користувача запитів.

2 Особливості вироблення рекомандецій та переваг

Напевно будь-який користувач інтернету у зустрічався системами рекомендованой не підозрюючи про це. Наприклад коли робив онлайнові покупки на таких сайтах, як Amazon. Amazon відстежує споживчі звички всіх своїх відвідувачів і, коли користувач заходите на сайт, користується зібраною інформацією, щоб запропонувати товари, які можуть його зацікавити. Amazon може навіть запропонувати фільми, які йому, можливо, сподобаються, хоча раніше користувач купував тільки книги. Деякі сайти з продажу квитків на концерти аналізують, що користувач відвідував раніше, і анонсують майбутні концерти, які можуть бути йому цікаві. Такі сайти, як reddit.com, дозволяють голосувати за посилання на інші сайти, а потім на основі результатів користувальницького голосування пропонують інші посилання, які, можливо, зацікавлять. Yandex надає статистику по запитах в пошуковику. Вид цієї статистики різноманітний, від географічного положення користувача до вікового чинника. Допусти турфірма може подивитися в якому місті, в якого місяця і хто зазвичай найбільш шукає тури в « Туреччину ». І за тим дати рекламу в цьому регіоні. Виходячи всього лише з запитів користувачів практично не обробляючи їх за допомогою алгоритмів, можна отримати дуже цінну інформацію яка здавалася б недоступна широкій аудиторії. З цих прикладів видно, що інформацію про переваги можна збирати по- різному. Іноді даними є куплені відвідувачем товари, а думки про ці товари представляються у вигляді голосування « так / ні» або оцінки за п'ятибальною шкалою, а іноді просто за словом яке було введено в пошуковий рядок. Вся ця інформація дає масу переваг, як і користувачеві так і самій системі.

Завдяки аналізу можна отримати наступні можливості:

інформація про уподобання ;
пошук схожих користувачів;
підбір інформації;
відбір і фільтрація по схожості та обсяг інформації ;
прогнозування;
формування тематичної спрямованості;

І це лише мала частина тих можливостей які дає аналіз користувальницьких дій.

3 Інструменти аналізу запитів от Google

Навряд чи хтось поставить під сумнів зручність і перевагу спеціальних утиліт і сервісів дослідження keywords, над тією мізерною інформацією яку надають безпосередньо пошукові системи. Проте, першоджерелом зазвичай є якраз вони, а всілякі додатки лише обробляють отримуваний від них результат. До того ж "гола " інформація від пошукачів може бути досить цікавою та інформативною, особливо що стосується Google. На відміну від Yandex, Google дає більш цікаву статистику по запитах, яка сама по собі є самодостатньою і не потребує " обгортці ". Єдина проблема - "фірмові сервіси " не дозволяють працювати масштабно, аналізуючи keywords в " промисловому " масштабі. Але, навіть якщо користувач не є щасливим володарем крутих додатків для аналізу ключових слів, у кожного є можливість швидко оцінити потенціал ніші і визначитися із зразковим колом keywords. Google пропонує три сервісу : Google Trends, Google KeywordTool ( AdWords ) і Google InSights. Google InSights ( Google Trends ) незважаючи на те, що він давно вийшов з бета -тестування, чомусь не дуже відомий. До того ж - це старий знайомий Google Trends, тільки трохи більш інформативний ніж попередник (див. рис. 3.1). Незважаючи на те, що в статистиці пошуку Google і трендів Google використовуються одні й ті ж дані, статистика пошуку більшою мірою призначена для користувачів ( дослідників чи рекламодавців ), яким можуть бути корисні розширені функції цієї служби.

Малюнок 3.1 - Статистика пошуку заданого слова за даними Google InSights

Навіщо потрібен це сервіс ( сервіси ) якщо він не показує точну кількість можливих переходів, це в першу чергу маркетинговий інструмент який є індикатором інтересу до якого-небудь поняттю. Для прикладу був оцінений " blogspot ". Інтерес до терміна зростаючий (як в рунеті, так глобально ), прогноз теж обнадійливий, що означає, що користувач не помилиться якщо заведе блог на цій платформі. Додаткова цінність сервісу в тому що він дає інформацію по будь-якому географічному ареалу, показує новини які протягом історії збору даних викликали сплеск інтересу до терміна, можливість порівнювати поняття і т.д. Загалом, перед тим як запустити черговий проект потрібно, неодмінно, спочатку вивчіть нішу, хоча б за допомогою Google InSights. Google KeywordTool, на відміну від " Інсайтс ", інструмент добору ключових слів для AdWords кампаній цілком годиться і для SEO. Можна скористатися даним сервісом для складання хоча б приблизного списку keywords. Хіба що доведеться зробити не один прогін по різних keywords. Так само доступний таргетинг і багато чого ще. Існує сервіс KeywordTool так само для того щоб дослідити ніші на предмет їх потенціалу в контекстке (конкретно Adsense ), тому що у користувача є можливість подивитися середню ціну за клік, кількість конкурентів (мається на увазі по оголошенням adwords ).

4 Система персоналізації інформації

Коли система рекомендацій працює з великою кількістю контенту, основним завданням стає фільтрація цього контенту, а його ранжування. Якщо говорити про новини - щодня виходять сотні тисяч статей, тисячі з яких можуть зачіпати інтереси кожної людини, що читає новини. Але в основному користувачі не читають більше 5-10 статей в день. І тому стоїть завдання показу потрібної інформації в першу чергу. Для вирішення цього завдання, статті, які у систему з Інтернету, аналізуються на предмет виявлення додаткових відомостей :

Система розпізнає іменовані поняття в тексті, такі, як згадувані головні учасники події - люди, компанії, бренди, місця, де відбувається подія. Для цього у нас реалізовано алгоритм, заснований на граматичному підході до пошуку шаблонів сутностей в тексті.
Система класифікує новини, використовуючи декілька різних підходів. Для класифікації статей по популярних рубриками, таким як спорт, бізнес, або політика, використовується метод опорних векторів.
Для виділення більш дрібних і вузьких тематик тексту використовується найпростіша реалізація rule - based classification.

Для простоти іменовані поняття, теми, рубрики і всі інші знання про статті називаються тегами статті. У вигляді цих же тегів система визначає інтереси користувача шляхом аналізу статей, які йому подобаються, або коли користувач явно повідомляє про свої інтереси (див рис. 4.1).

Малюнок 4.1- Система персоналізації запитів

Для подальшої оптимізації стрічки новин, система групує статті з різних джерел про одне й те ж, щоб в основний стрічці користувач не бачив повторів, але, занурившись в читання історії, міг вибрати, з якою точкою зору йому цікаво ознайомитися. Така кластеризація контенту здійснюється спеціальним механізмом заснованого на графах. Коли користувач читає статті, система з'ясовує, що більше подобається користувачеві. Таким чином, система навчається для кожного користувача, формуючи його « портрет» і використовує цей портрет для того, щоб вибирати найбільш, на її погляд, цікаві користувачеві новини. Вага - це впевненість системи в тому, що тематика буде цікава (див. табл. 4.1). Ця вага обчислюється на основі того, наскільки активно користувач « взаємодіє » з певною тематикою.

Таблиця 1 - Веса категорій щодо переваг користувача
Назва категорії	Вага
Cloud Computing	0.95
API	0.72
Steve Jobs	0.62
Microsoft	0.44
Facebook	0.40
iPhone	0.24
Startups	0.18
Manu Ginobili	0.17

Такий підхід дозволяє позбавити користувача від нецікавих йому новин, але при сучасному достатку контенту не гарантує, що користувач дізнається все найважливіше, що відбувається в цікавих йому областях (див. рис. 4.2), тобто не вирішує проблему перевантаженості інформацією.

Малюнок 4.2 - Фільтр за перевагою користувача (анімація: 6 кадрів, розмір - 761х298, 149 кілобайта)

Тобто система фільтрує контент за інтересами користувачів. Такий підхід дозволяє позбавити користувача від нецікавих йому новин, але при сучасному достатку контенту не гарантує, що користувач дізнається все найважливіше, що відбувається в цікавих йому областях, тобто не вирішує проблему перевантаженості інформацією. З введенням поняття «важливість новини для користувача » вводиться сравнительна характеристика ( тобто одні новини можуть бути більш важливими для користувача, інші - менш ), що призводить до необхідності ранжувати новини відповідно з цією характеристикою індивідуально для кожного користувача. Подібна техніка називається «рекомендації на основі контенту» і широко використовується різними продуктами, такими як система рекомендацій imdb.com. Для кожного документа виявляється набір атрибутів, кожен з яких зважується щодо користувача, визначаючи, наскільки новина може бути важлива для цього користувача.

Припустимо можна використовувати такі параметри :

Свіжість контенту.
Кількість тегів новини, які є в портреті користувача.
Імовірність того, що новини за відповідними тегами подобаються користувачеві ( коефіцієнт в таблиці 1 ).
Резонансність - кількість джерел, висвітлили цю новину, тобто кількість джерел, чиї статті беруть участь в поточному кластері.

Таким чином розглянувши статтю з виявленими переваг користувача можна визначити яку зі статей вибере система.Чим більше критерій оцінювання тим більше вірогідності, що користувач отримає потрібну йому інформацію. Якщо будь-якої критерій відсутній у статті то його можна замінити на середній бал за всіма статтями або присвоїти йому 0 балів. При ранжируванні кластерів народжується три незаперечних переваги:

1. в результаті ранжування відразу ж з'являється стрічка, яку можна показувати користувачеві ;

2. елементів для ранжирування виходить менше ( кластер містить відразу багато статей), відповідно виходить зробити необхідну роботу швидше;

3. без додаткових витрат ми отримуємо такий параметр, як резонансність події ( тобто скільки джерел написали про цю подію ).

Але у даного підходу є проблема, яка привела нас до того, щоб піти від ранжирування кластерів і почати ранжувати статті поодинці. Проблема полягає в тому, що багато хто з обраних нами атрибутів кластера неможливо зіставити з інтересами користувача.

Наприклад, якщо в кластері п'ять статей, то резонансність кластера береться за 5, але це не означає, що всі п'ять статей цікаві користувачеві. Тобто, при ранжируванні конкретного кластера для конкретного користувача в кожному параметрі треба враховувати всі інтереси користувача. В даному випадку, обчислювати резонансність за кількістю статей кластера, цікавих користувачеві ( упоминающих інтереси користувача ), а не за загальною кількістю статей кластера.

Водночас користувачеві потрібно показувати саме історії ( кластери), а не статті. По-перше, тому що користувач не хоче в своїй стрічці бачити кілька різних статей про одне й те ж, навіть якщо вони опубліковані в різних джерелах ; по-друге, тому що для ранжирування нам обов'язково потрібен такий параметр, як резонансність події.

Система, в якій ранжуються статті, але при цьому враховується резонансність подій, а користувачеві показуються історії, більш перспективна щодо системи в якій ранжуються лише статті.

Крім використання ваг тегів з портрета користувача, система також може зважувати параметри статті по- різному щодо різних тегів. Параметри - це дата статті, кількість джерел, кількість текстової інформації, індекс впливовості в соціальних мережах та інші подібні атрибути статей. Наприклад, мало текстової інформації в аналітичних статтях для тега Politics - це погано. Однак точно таку ж кількість інформації для фотоблог - це припустимо. Таким чином, одна і та ж стаття буде володіти різними вагами для різних тегів. Після нормування за допомогою розробленої в системі функції ранжирування ці параметри агрегуються у вагу статті щодо тега.

Розглянувши портрет користувача як бажання бачити той чи інший тег у статті, тепер агрегируя ваги статті в тих тегах, які є у користувача в портреті, таким чином отримавши остаточний загальна вага статті щодо користувача.

Висновки

Проаналізувавши системи персоналізацію та методи аналізу запитів користувачів. Були виявлені величезний потенціал і переваги даних систем. В даний час існують всілякі системи аналізу даних користувача, деякі з них хороші деякі ще потребують доопрацювання.

Вже існують безліч систем використовують інформацію користувача про яких сам користувач навіть не підозрює. Це величезні бази знань які приносять зручності, як і користувачам так і матеріальну прибуток і популярність самим сервісам.

Більшість систем направлено на надання популярної інформації цікавою користувачеві але дуже мало систем які прогнозували б, яка ще б тематика була б цікава користувачеві, тобто персоналізація не замикається його в його ж перевагах а давала все нову і нову інформацію. Яка стане цікава користувачеві, просто але він ще про неї не знає або ні коли не шукав.

Перелік посилань

1. Сегаран Т. Программируем коллективный разум. – Пер. с англ. – СПб: Символ-Плюс, 2008. – С. 368.
2. В.А. Лексин Персонализация контента на основе оценок сходства пользователей и ресурсов сети интернет. - 49-я научная конференция МФТИ.
3. Система персонализации News360: ранжирование кластеров информации [Электронный ресурс] Режим доступа: http://habrahabr.ru/post/191528/
4. Traboulsi, H. N. (2006). Named entity recognition: A localgrammar-based approach. PhD thesis, Department of ComputingSchool of Electronics and Physical Sciences, University of Surrey, Guildford, Surrey, U.K. Retrieved from: scribd.com
5. Boser, Bernhard E.; Guyon, Isabelle M.; and Vapnik, Vladimir N.; A training algorithm for optimal margin classifiers. In Haussler, David (editor); 5th Annual ACM Workshop on COLT, pages 144–152, Pittsburgh, PA, 1992. ACM Press. Retrieved from: citeseer.ist.psu.edu
6. Chang, C., & Lin, C. (n.d.). Libsvm — a library for support vector machines.
7. Дмитрий Ночевнов. Методы и средства сегментации пользователей web-сайтов
8. Kornfein, M. M., Goldfarb, H. (2007, July). In M.M. Kornfein (Chair). A comparison of classification techniques for technical text passages. WCE 2007, London, U.K. Retrieved from: citeseerx.ist.psu.edu
9. Мини проект «Vizitator» — дознаватель пользовательских предпочтений [Электронный ресурс] Режим доступа:http://habrahabr.ru/post/46784/
10. Анализ данных и процессов: учеб. пособие / а. а. барсегян, м.с. куприянов, и. и. холод, м. д. тесс, с. и. елизаров. — 3-е изд., перераб. и доп. — спб.: бхв-петербург, 2009. — C. 512.

Ігнатов Пилип Юрійович

Факультет комп'ютерних наук та технологій

Кафедра програмного забезпечення інтелектуальних систем

Спеціальність "Програмне забезпечення систем

Побудова і дослідження моделі учня для комп’ютерних навчальних систем на основі історії пошукових запитів

Науковий керівник: д.т.н., проф. Шевченко Анатолій Іванович

Реферат за темою випускної роботи

Зміст

ВСТУП

1 Постановка завдання

2 Особливості вироблення рекомандецій та переваг

3 Інструменти аналізу запитів от Google

4 Система персоналізації інформації

Висновки

Перелік посилань