Реферат - Построение и исследование модели обучаемого для компьютерных обучающих систем на основе истории поисковых запросов

Реферат по теме выпускной работы

Содержание

Введение

1 Постановка задачи

2 Особенности выработки рекомендаций и предпочтений

3 Инструменты анализа запросов от Google

4 Система персонализации информации

Выводы

Список литературы

Введение

Сейчас большинство поисковых социальных, новостных и рекламных сервисов в Интернете стараются завлечь людей простотой и удобством использования своих ресурсов, чтобы пользователи как можно быстрее могли найти то, что их интересует. Одним из таких инструментов стала персонализация информации. У пользователя есть любимая страничка или он ведёте свой блог в какой-нибудь социальной сети. Если на таком сайте присутствует алгоритм персонализации, то вся информация отображаемая в RSS ленте или в рекламной рассылке будет соответствовать только его интересам и увлечениям. Как считают разработчики того же Google, персонализация даёт много преимуществ. Главным из них является скорость поиска информации, практически в один клик. Если рассматривать весь процесс более подробно, то получается, что поисковая система, используя семантический анализ, сама определяет, что показывать, а что нет, поскольку информация о посещаемых Интернет-ресурсах определённым IP адресом, закладывается в память поисковика. Благодаря такому автоматическому отбору, пользователь будет получать именно ту информацию, которая ему прежде всего необходима. При этом многие могут недоумевать: откуда тот или иной Интернет-ресурс может «знать», что кому необходимо? Оказывается, в современных информационных технологиях нет ничего невозможного. Уже сейчас, зайдя в тот или иной поисковик и набрав ключевую фразу, любой пользователь скажет: «Куда уже проще!». Любой понравившийся сайт можно внести в закладки браузера и сразу же заходить на него, не утруждая себя поиском.

1 Постановка задачи

Целью данной работы является исследование модели обучаемого для компьютерных обучающих систем на основе истории поисковых запросов. Анализ систем использующих поисковые запросы для сбора информации о пользователе. Для достижения поставленной цели был изучен материал о эвристических алгоритмах и методов которые используются для анализа информации, проанализированы наиболее популярные системы использующие анализ пользовательских запросов.

2 Особенности выработки рекомендаций и предпочтений

Наверно любой пользователь интернета у встречался системами рекомендования не подозревая об этом. Например когда делал онлайновые покупки на таких сайтах, как Amazon. Amazon отслеживает потребительские привычки всех своих посетителей и, когда пользователь заходите на сайт, пользуется собранной информацией, чтобы предложить товары, которые могут его заинтересовать. Amazon может даже предложить фильмы, которые ему, возможно, понравятся, хотя раньше пользователь покупал только книги. Некоторые сайты по продаже билетов на концерты анализируют, что пользователь посещал раньше, и анонсируют предстоящие концерты, которые могут быть ему интересны. Такие сайты, как reddit.com, позволяют голосовать за ссылки на другие сайты, а затем на основе результатов пользовательского голосования предлагают другие ссылки, которые, возможно, заинтересуют. Yandex предоставляет статистику по запросам в поисковике. Вид этой статистики разнообразен, от географического положения пользователя до возрастного фактора. Допусти турфирма может посмотреть в каком городе, в какого месяца и кто обычно наиболее ищет туры в «Турцию». И за тем дать рекламу в этом регионе. Исходя всего лишь из запросов пользователей практически не обрабатывая их с помощью алгоритмов, можно получить очень ценную информацию которая казалась бы недоступна широкой аудитории. Из этих примеров видно, что информацию о предпочтениях можно собирать по-разному. Иногда данными являются купленные посетителем товары, а мнения об этих товарах представляются в виде голосования «да/нет» или оценки по пятибалльной шкале, а иногда просто по слову которое было введено в поисковую строку. Вся эта информация дает массу преимуществ, как и пользователю так и самой системе. Благодаря анализу можно получить следующие возможности:

информация о предпочтениях;
поиск схожих пользователей;
подбор информации;
отбор и фильтрация по схожести и объёме информации;
прогнозирование;
формирование тематической направленности;

И это лишь малая часть тех возможностей которые дает анализ пользовательских действий.

3 Инструменты анализа запросов от Google

Вряд ли кто-то поставит под сомнение удобство и превосходство специальных утилит и сервисов исследования keywords, над той скудной информацией которую предоставляют непосредственно поисковые системы. Тем не менее, первоисточником обычно являются как раз они, а всевозможные приложения лишь обрабатывают получаемый от них результат. К тому же “голая” информация от поисковиков может быть достаточно интересной и информативной, в особенности что касается Google. В отличие от Yandex, Google дает более интересную статистику по запросам, которая сама по себе является самодостаточной и не нуждается в “обертке”. Единственная проблема - “фирменные сервисы” не позволяют работать масштабно, анализируя keywords в “промышленном” масштабе. Но, даже если пользователь не являетесь счастливым обладателем крутых приложений для анализа ключевых слов, у каждого есть возможность быстро оценить потенциал ниши и определиться с примерным кругом keywords. Google предлагает три сервиса: Google Trends, Google KeywordTool (AdWords) и Google InSights. Google InSights (Google Trends) несмотря на то, что он давно вышел из бета-тестирования, почему-то не очень известен. К тому же – это старый знакомый Google Trends, только несколько более информативный чем предшественник (см. рис. 3.1). Несмотря на то, что в статистике поиска Google и Трендах Google используются одни и те же данные, статистика поиска в большей степени предназначена для пользователей (исследователей или рекламодателей), которым могут быть полезны расширенные функции этой службы.

Рисунок 3.1 – Статистика поиска заданного слова по данным Google InSights

Зачем нужен это сервис (сервисы) если он не показывает точное количество возможных переходов, это в первую очередь маркетинговый инструмент который является индикатором интереса к какому-либо понятию. Для примера был оценен “blogspot”. Интерес к термину растущий (как в рунете, так глобально), прогноз тоже обнадеживающий, что означает, что пользователь не прогадает если заведет блог на данной платформе. Дополнительная ценность сервиса в том что он дает информацию по любому географическому ареалу, показывает новости которые на протяжении истории сбора данных вызвали всплеск интереса к термину, возможность сравнивать понятие и т.д. В общем, перед тем как запустить очередной проект нужно, непременно, вначале изучите нишу, хотя бы с помощью Google InSights. Google KeywordTool, в отличие от “Инсайтс”, инструмент подсказки ключевых слов для AdWords кампаний вполне годится и для SEO. Можно воспользоваться данным сервисом для составления хотя бы примерного списка keywords. Разве что придется сделать не один прогон по разным keywords. Так же доступен таргетинг и много чего еще. Существует сервис KeywordTool так же для того чтобы исследовать ниши на предмет их потенциала в контекстке (конкретно Adsense), потому что у пользователя есть возможность посмотреть среднюю цену за клик, количество конкурентов (имеется ввиду по объявлением adwords).

4 Система персонализации информации

Когда система рекомендаций работает с большим количеством контента, основной задачей становится не фильтрация этого контента, а его ранжирование. Если говорить о новостях — каждый день выходят сотни тысяч статей, тысячи из которых могут затрагивать интересы каждого человека, читающего новости. Но в основном пользователи не читают больше 5-10 статей в день. И поэтому стоит задача показа нужной информации в первую очередь. Для решения этой задачи, статьи, поступающие в систему из Интернета, анализируются на предмет выявления дополнительных сведений:

Система распознает именованные понятия в тексте, такие, как упоминаемые главные участники события — люди, компании, бренды, места, где происходит событие. Для этого у нас реализован алгоритм, основанный на грамматическом подходе к поиску шаблонов сущностей в тексте.
Система классифицирует новости, используя несколько разных подходов. Для классификации статей по популярным рубрикам, таким как спорт, бизнес, или политика, используется метод опорных векторов.
Для выделения более мелких и узких тематик текста используется простейшая реализация rule-based classification.

Для простоты именованные понятия, темы, рубрики и все остальные знания о статье называются тэгами статьи. В виде этих же тэгов система определяет интересы пользователя путем анализа статей, которые ему нравятся, или когда пользователь явно сообщает о своих интересах (см рис. 4.1).

Рисунок 4.1- Система персонализации запросов

Для дальнейшей оптимизации ленты новостей, система группирует статьи из разных источников об одном и том же, чтобы в основной ленте пользователь не видел повторов, но, погрузившись в чтение истории, мог выбрать, с какой точкой зрения ему интересно ознакомиться. Такая кластеризация контента осуществляется специальным механизмом основанного на графах. Когда пользователь читает статьи, система выясняет, что больше нравится пользователю. Таким образом, система обучается для каждого пользователя, формируя его «портрет» и использует этот портрет для того, чтобы выбирать наиболее, на ее взгляд, интересные пользователю новости. Вес — это уверенность системы в том, что тематика будет интересна (см. табл. 4.1). Этот вес вычисляется на основе того, насколько активно пользователь «взаимодействует» с определенной тематикой.

Таблица 1– Веса категорий относительно предпочтений пользователя
Название категории	Вес
Cloud Computing	0.95
API	0.72
Steve Jobs	0.62
Microsoft	0.44
Facebook	0.40
iPhone	0.24
Startups	0.18
Manu Ginobili	0.17

Такой подход позволяет избавить пользователя от не интересных ему новостей, но при современном изобилии контента не гарантирует, что пользователь узнает все самое важное, что происходит в интересных ему областях (см. рис. 4.2), т.е. не решает проблему перегруженности информацией.

Рисунок 4.2 – Фильтр по предпочтению пользователя (анимация: 6 кадров, размер - 761х298, 149 килобайта)

То есть система фильтрует контент по интересам пользователей. Такой подход позволяет избавить пользователя от не интересных ему новостей, но при современном изобилии контента не гарантирует, что пользователь узнает все самое важное, что происходит в интересных ему областях, т.е. не решает проблему перегруженности информацией. С введением понятия «важность новости для пользователя» вводится сравнительна характеристика (т.е. одни новости могут быть более важными для пользователя, другие — менее), что приводит к необходимости ранжировать новости в соответствии с этой характеристикой индивидуально для каждого пользователя. Подобная техника называется «рекомендации на основе контента» и широко используется различными продуктами, такими как система рекомендаций imdb.com. Для каждого документа выявляется набор атрибутов, каждый из которых взвешивается относительно пользователя, определяя, насколько новость может быть важна для этого пользователя. Допустим можно использовать такие параметры:

Свежесть контента.
Количество тэгов новости, которые есть в портрете пользователя.
Вероятность того, что новости по соответствующим тэгам нравятся пользователю (коэффициент в таблице 1).
Резонансность — количество источников, осветивших эту новость, т.е. количество источников, чьи статьи участвуют в текущем кластере.

Таким образом рассмотрев статью с выявленными предпочтениями пользователя можно определить какую из статей выберет система. Чем больше критерий оценивание тем больше вероятности, что пользователь получит интересующую его информацию. Если какой либо критерий отсутствует в статье то его можно заменить на средний бал по всем статьям или присвоить ему 0 баллов. При ранжировании кластеров рождается три неоспоримых преимущества:

1) в результате ранжирования сразу же появляется лента, которую можно показывать пользователю;

2) элементов для ранжирования получается меньше (кластер содержит сразу много статей), соответственно получается сделать необходимую работу быстрее;

3) без дополнительных затрат мы получаем такой параметр, как резонансность события (т.е. сколько источников написали об этом событии).

Но у данного подхода есть проблема, которая привела нас к тому, чтобы уйти от ранжирования кластеров и начать ранжировать статьи поодиночке. Проблема заключается в том, что многие из выбранных нами атрибутов кластера невозможно сопоставить с интересами пользователя.

Например, если в кластере пять статей, то резонансность кластера берется за 5, но это не значит, что все пять статей интересны пользователю. То есть, при ранжировании конкретного кластера для конкретного пользователя в каждом параметре надо учитывать все интересы пользователя. В данном случае, вычислять резонансность по количеству статей кластера, интересных пользователю (упоминающих интересы пользователя), а не по общему количеству статей кластера.

В то же время пользователю нужно показывать именно истории (кластеры), а не статьи. Во-первых, потому что пользователь не хочет в своей ленте видеть несколько разных статей об одном и том же, даже если они опубликованы в разных источниках; во-вторых, потому что для ранжирования нам обязательно нужен такой параметр, как резонансность события.

Система, в которой ранжируются статьи, но при этом учитывается резонансность событий, а пользователю показываются истории, более перспективна относительно системы в которой ранжируются только статьи.

Кроме использования весов тэгов из портрета пользователя, система также может взвешивать параметры статьи по-разному относительно разных тэгов. Параметры — это дата статьи, количество источников, количество текстовой информации, индекс влиятельности в социальных сетях и другие подобные атрибуты статей. Например, мало текстовой информации в аналитических статьях для тега Politics — это плохо. Однако точно такое же количество информации для фотоблога — это допустимо. Таким образом, одна и та же статья будет обладать разными весами для разных тегов. После нормирования с помощью разработанной в системе функции ранжирования эти параметры агрегируются в вес статьи относительно тега.

Рассмотрев портрет пользователя как желание видеть тот или иной тег у статьи, теперь агрегируем веса статьи в тех тегах, которые есть у пользователя в портрете, таким образом получив окончательный общий вес статьи относительно пользователя. ?

Выводы

Проанализировавши системы персонализацию и методы анализа запросов пользователей. Были выявлены огромный потенциал и преимущества данных систем. В настоящее время существуют всевозможные системы анализа пользовательских данных, некоторые из них хорошие некоторые еще нуждаются в доработке.

Уже существуют множество систем использующие информацию пользователя о которых сам пользователь даже не подозревает. Это огромные базы знаний которые приносят удобства, как и пользователям так и материальную прибыль и популярность самим сервисам.

Большинство систем направленно на предоставление популярной информации интересной пользователю но очень мало систем которые прогнозировали бы, какая еще бы тематика была бы интересна пользователю, то есть персонализация не замыкала его в его же предпочтениях а давала все новую и новую информацию. Которая станет интересна пользователю, просто но он еще про нее не знает или ни когда не искал.

Список литературы

1. Сегаран Т. Программируем коллективный разум. – Пер. с англ. – СПб: Символ-Плюс, 2008. – С. 368.
2. В.А. Лексин Персонализация контента на основе оценок сходства пользователей и ресурсов сети интернет. - 49-я научная конференция МФТИ.
3. Система персонализации News360: ранжирование кластеров информации [Электронный ресурс] Режим доступа: http://habrahabr.ru/post/191528/
4. Traboulsi, H. N. (2006). Named entity recognition: A localgrammar-based approach. PhD thesis, Department of ComputingSchool of Electronics and Physical Sciences, University of Surrey, Guildford, Surrey, U.K. Retrieved from: scribd.com
5. Boser, Bernhard E.; Guyon, Isabelle M.; and Vapnik, Vladimir N.; A training algorithm for optimal margin classifiers. In Haussler, David (editor); 5th Annual ACM Workshop on COLT, pages 144–152, Pittsburgh, PA, 1992. ACM Press. Retrieved from: citeseer.ist.psu.edu
6. Chang, C., & Lin, C. (n.d.). Libsvm — a library for support vector machines.
7. Дмитрий Ночевнов. Методы и средства сегментации пользователей web-сайтов
8. Kornfein, M. M., Goldfarb, H. (2007, July). In M.M. Kornfein (Chair). A comparison of classification techniques for technical text passages. WCE 2007, London, U.K. Retrieved from: citeseerx.ist.psu.edu
9. Мини проект «Vizitator» — дознаватель пользовательских предпочтений [Электронный ресурс] Режим доступа:http://habrahabr.ru/post/46784/
10. Анализ данных и процессов: учеб. пособие / а. а. барсегян, м.с. куприянов, и. и. холод, м. д. тесс, с. и. елизаров. — 3-е изд., перераб. и доп. — спб.: бхв-петербург, 2009. — C. 512.

Игнатов Филипп Юрьевич

Факультет компьютерных наук и технологий

Кафедра программного обеспечения интеллектуальных систем

Специальность «Программное обеспечение систем»

Построение и исследование модели обучаемого для компьютерных обучающих систем на основе истории поисковых запросов

Научный руководитель: д.т.н., проф. Анатолий Иванович Шевченко

Реферат по теме выпускной работы

Содержание

Введение

1 Постановка задачи

2 Особенности выработки рекомендаций и предпочтений

3 Инструменты анализа запросов от Google

4 Система персонализации информации

Выводы

Список литературы