Реферат за темою випускної роботи
Зміст
- Вступ
- 1. Актуальність теми
- 2. Цілі і завдання, плановані результати
- 3. Огляд відомих досліджень і розробок
- 3.1 Аналіз міжнародних джерел
- 3.2 Аналіз національних джерел
- 3.3 Аналіз робіт випускників ДонНТУ
- 4. Принципи інформаційного пошуку
- Висновки
- Перелік посилань
Вступ
В даний час при веденні бізнесу активно застосовуються сучасні інформаційні технології на основі глобальної комп'ютерної мережі Інтернет. Хоча сама мережа Інтернет має досить довгу історію, її комерційне використання почалося лише в 1988 році. Ми вже не можемо уявити життя без інтернету, який наповнений мільйонами сайтів, які створюють віртуальний інформаційний простір. Ресурси Інтернету перетворившись на інструмент для повсякденної роботи людей багатьох професій.
В даний час при веденні бізнесу активно застосовуються сучасні інформаційні технології на основі глобальної комп'ютерної мережі Інтернет. Хоча сама мережа Інтернет має досить довгу історію, її комерційне використання почалося лише в 1988 році. Ми вже не можемо уявити життя без інтернету, який наповнений мільйонами сайтів, які створюють віртуальний інформаційний простір. Ресурси Інтернету перетворившись на інструмент для повсякденної роботи людей багатьох професій.
1. Актуальність теми
На зорі розвитку мережі пошук проводився за спеціальними каталогами, що містить посилання на існуючі ресурси, але на сьогоднішній день їх число настільки велике, що потрібні спеціальні повністю автоматизовані системи для пошуку в Інтернеті.
На сьогоднішній день інтернет простір постійно поповнюється новими сайтами. Для того, щоб залучати більше відвідувачів на свої сайти, майстри шукають нові шляхи оптимізації, які допоможуть утримувати лідируючі позиції.
Магістерська робота присвячена актуальній задачі оптимізації пошукових запитів, огляду сучасних моделей поведінки користувачів, а також дослідженню того, як моделі поведінки комбінуються з іншими ознаками у функції ранжирування. Існують різні методи пошукових запитів, для яких затрачається чимало часу і навичок. Тому предметом дослідження є вплив різних методів пошукової оптимізації на підняття рівня сайту.
2. Мета і задачі дослідження та заплановані результати
Значну частину запитів становить пошук товарів і послуг. Давати відповіді на питання основна функція пошуку. Серед безлічі сайтів з товарами і послугами пошуковій системі потрібно знайти і запропонувати користувачам найбільш зручні, інформативні та авторитетні. Зрозуміло, що всі ці характеристики суб'єктивні, а пошуковий алгоритм може використовувати тільки вимірні параметри. Головною метою є нові і більш об'єктивні показники ефективності орієнтованого пошуку, ефективність управлінських рішень і запитів у сфері пошуку товарів і послуг.
Основні задачі дослідження:
- Аналіз моделей поведінки для користувача [9].
- Аналіз моделювання сесії користувача.
- Аналіз нових принципів побудови більш досконалих пошукових систем [8].
- Розробка методу оптимізації пошукових запитів у сфері пошуку товарів і послуг.
Об'єкт дослідження: оптимізація пошукових запитів у сфері пошуку товарів і послуг.
Предмет дослідження:метод моделювання поведінки користувачів.
В рамках магістерської роботи планується отримання актуальних наукових результатів по наступним напрямкам:
- Розробка підходу до моделі поведінки користувача при формуванні замовлення у сфері пошуку товарів і послуг програмним методом.
- Розробка особистого сайту, на основі якого будуть проведені дослідження, для апробування цього методу.
- Модифікація відомих методів моделі поведінки користувача та оцінка ефективності застосування їх для оптимізація пошукових запитів.
3. Огляд досліджень та розробок
З кожним роком все більш звичним способом доступу до різної інформації стає мережу Інтернет. Пошукові системи – найважливіша частина сучасного інтернету і став вже невід'ємним ознака сучасного інформаційного суспільства. Моделі поведінки користувачів – один з основних напрямків досліджень у галузі поліпшення пошуку.
3.1 Огляд міжнародних джерел
Технології інтернет пошуку ростуть разом із запитами користувачів. Фахівцям постійно доводиться розвиватися і встигати відслідковувати інформацію про внесені зміни у вимоги і алгоритми провідних пошукових систем. Можна припустити, що в цій галузі досліджень можна чекати нових проривів в самий найближчий час.
Хотілося б виділити зарубіжних експертів даної тематики:
- Eugene Agichtein – професор університету Еморі штат Джорджія США [1].
- Chris Bishop – член Королівської академії технічних наук [2].
- Nick Craswell – науковий співробітник Bing в Bellevue Вашингтоні [4].
- Monica Wright – директор по роботі з аудиторією в друкованих виданнях.
- Trevor Hastie – професор математичних наук Стенфордського університету [3].
3.2 Огляд національних джерел
В Україні досить мало фахівців, які розглядали б дану тематику дослідження. Першим за фахівців став Дубинський А.Г. аспірант Національного технічного унівестітета України Київський політехнічний інститут
[10]
3.3 Огляд локальних джерел
У Донецькому національному технічному університеті проблемами інтелектуального аналізу інтернет сторінок займався магістр Шинкаренко В. С. по темі: Аналіз аудиторії та прогнозування відвідуваності інтернет
. В роботі проводиться аналіз цільової аудиторії інтернет-ресурсу і знаходження залежностей для прогнозування і оцінки відвідування сайту та інших параметрів.
4. Принципи інформаційного пошуку
інформаційний пошук
У наш час під пошуком інформації зазвичай мають на увазі пошук в інтернеті, проте термін інформаційний пошук
виник набагато раніше. згідно монографії [6] інформаціонний пошук – це процес пошуку у великій колекції (зберігається, як правило, в пам'яті комп'ютерів) якогось неструктурованого матеріалу (зазвичай - документа), що задовольняє інформаційні потреби.
Для взаємодії з пошуковою системою користувач робить запит мовою, зрозумілою системі. У відповідь на запит система видає користувачеві впорядкований список документів. Для визначення відповідності документів запитам в теорії інформаційного пошуку вводиться таке поняття: релевантність – це відповідність документа інформаційним запитом. За методом визначення зазвичай розрізняють формальну і змістовну релевантності. Формальна релевантність визначається за допомогою деякого алгоритму, реалізованого в пошуковій системі. Змістовна релевантність – це відповідність документа запиту користувача, яке визначається неформальним шляхом, за семантикою документа.
На перший погляд, мета інформаційного пошуку можна сформулювати наступним чином: знайти всі релевантні документи. Але при роботі з великими колекціями документів підсумкове кількість документів, що відповідають запиту, може бути на стільки великим, що людина просто не зможе переглянути їх усі. Таким чином, одним з важливих завдань пошукової системи є ранжування документів за ступенем їх відповідності запиту.
Імовірнісна модель пошуку
Користувач неточно формулює свою інформаційну потребу у вигляді запиту. Маючи лише запит, система не може точно визначити релевантність того чи іншого документа. Для прийняття рішень в умовах невизначеності необхідний математичний апарат теорії ймовірностей.
Припустимо, що оцінки релевантності бінарні: документ може бути або релевантним даному запиту, або не релевантним. Таким чином, для кожного документа d і запиту q вводиться випадкова величина R (d, q) - показник релевантності; вона дорівнює одиниці, якщо документ d є релевантним запитом q, і дорівнює нулю в іншому випадку. Коли це не викликає непорозумінь, будемо позначати показник релевантності просто R.
В рамках такої моделі природним є ранжування документів по оціненим ймовірностям їх релевантності запиту: p (R (d, q) = 1). Такий підхід лежить в основі імовірнісного принципу ранжирування, запропонованого Робертсоном в 1977 році [7].
Особливості оцінки технічної ефективності пошуку
1. Тестування точності. У типовому випадку за запитом знаходиться дуже багато документів, серед яких чимало і релевантних. Тому більше значення має не повнота, а точність пошуку. Дійсно, розглянемо 2 пошукові машини. По деякому запитом 1-я машина знаходить 200 документів і всі вони релевантні. 2-я машина з цього ж запиту знаходить +5000 документів, з яких релевантні 500, причому серед перших 200 документів релевантні тільки 100. І хоча повнота поіска2-й машини істотно вище, абсолютно очевидно, що краще 1-я машина, оскільки рідкісний користувач здатний переглянути кілька сотень знайдених документів (найчастіше ж користувач обмежується першою сторінкою результатів пошуку).
2. Потрібно тестувати якість ранжирування. Знайдені документи видаються в ранжированному вигляді, тому при оцінка якості пошуку потрібно враховувати позицію документа в списку знайденого, тобто якість пошуку за запитом слід характеризувати набором значень точності при різному розмірі початковій частині списку документів, наприклад, задавати значення точності при 10, 30, 50 , 70 і 100 документах з початкової частини списку. Чим більше кількість значень, тим точніше оцінка, але і трудомісткість оцінки більше.
3. Потрібна градація значень точності. З безлічі значень точності, що характеризують якість пошуку за запитом, більш важливі ті, які отримані для невеликої кількості документів. Наприклад, точність при 30 документах важливіше точності при 300 документах. Іншими словами, основний інтерес представляє залежність між повнотою і точністю в області малих значень повноти.
Критерії оцінки якості пошуку
Для оцінки якості пошуку необхідно мати деякий тестове безліч, що містить «достовірну» інформацію про те, який документ є релевантним яких запитах. Зазвичай тестове безліч будується спеціальними експертами і складається з оцінок релевантності для пар (запит, документ). Оцінки можуть бути числовими або категоріальними. Оскільки оцінки отримують від людей, тестове безліч покриває лише малу частину всієї бази пошукової системи і його отримання є трудомістким і дорогим.
Класичними параметрами для оцінки якості роботи пошукової системи є точність і повнота:
- Точність (precision) – кількість релевантних запиту документів у видачі, поділене на загальну кількість документів у видачі;
- Повнота (recall) – кількість релевантних запиту документів у видачі, поділене на загальну кількість релевантних документів у базі пошукової системи.
Висновки
На основі аналізу розміщення інформації в ресурсах Internet, тематичного розшарування інформаційного Web-простору, особливостей функціонування пошукових роботів і механізмів індексування пошукових систем, а також найбільш актуальних способів і методів дослідження і оптимізації пошукових запитів, був зроблений висновок про можливість і необхідність створити спрощену методику швидкої користувальницької оцінки якості і ранжирування пошукових запитів.
Результати будуть представлені в кілька етапів. На першому етапі буде проводиться порівняльний аналіз декількох методів інформаційного пошуку. Буде проведена експериментальна перевірка запропонованих методів на основі стандартних наборів тестових даних.
При написанні даного реферату магістерська робота ще не завершена. Остаточне завершення: грудень 2015 року. Повний текст роботи та матеріали по темі можуть бути отримані у автора або його керівника після зазначеної дати.
Перелік посилань
- Ageev M., Guo Q., Lagun D., Agichtein E. Find it if you can: a game for modeling different types of web search success using interaction data. Proceedings of the 34th Annual ACM SIGIR Conference, 2011.– P. 345–354.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Hastie T., Tibshirani R., Friedman J. Elements of StatisticalLearning. Springer, 2008.
- Craswell N., Zoeter O., Taylor M., Ramsey B. An experimental comparison of click position-bias models. Proceedings of the 1st ACM International Conference on Web Search and Data Mining,2008.– P. 87–94.
- Яндекс. Поиск в интернете: что и как ищут пользователи.Информационный бюллетень «Яндекс»
- Manning C. D., Raghavan P., Sch¨utze H. Introduction to Information Retrieval. Cambridge University Press, 2008.
- Robertson S. E. Probability ranking principle in IR. Journal of Documentation, 1977.– P. 294–304.
- Breiman L., Friedman J. H., Olshen R. A., Stone C. T. Classification and Regression Trees. New York: Chapman Hall, 1984.
- Николенко С. И., Фишков А. А. SCM: новая вероятностная модель поведения пользователей интернет-поиска. Труды СПИ-ИРАН, 2012.
- Дубинский А.Г. Факторы, влияющие на качество информационного поиска. Системний аналіз та інформаційні технології: Зб. тез доп. Міжн. наук.-практ. конф. студ., аспірантів та молод. вчених. - Киев: НТУУ «КПІ», 2001.– c. 43– 48.