Авторы: Joseph A. Konstan, John Riedl, and Bradley N. Miller
Источник: The GroupLens Research Project: Exploring Collaborative Filtering
Перевод: Жулидов А.Ю.
Коллаборативная фильтрация пытается решить информационную перегрузку путем формирования рекомендаций, основанных на мнениях других людей, которые видели информационные элементы. Проект GroupLens обеспечивает персонализированный коллаборативной фильтрации для Usenet новостей. Персонализация основана на личном наборе «соседей», выбранных на основе предыдущих моделей соглашения. Первоначальные испытания GroupLens проекта показали, что система содержит полезные рекомендации и что он может быть реализован эффективно. Они также позволили нам проверить несколько гипотез о мерах мнений и соглашения. Мы сейчас начинаем многолетний проект с несколько других вопросов исследования.
Коллаборативная фильтрация, информация фильтрации, информационная перегрузка..
Информационная перегрузка является серьезной проблемой для современных потребителей информации. "Компьютерная революция" создала огромное богатство имеющихся данных, но этот объем данных часто является слишком большым для людей, чтобы эффективно использовать. Есть много разных подходов к просеиванию информации через огромные наборы данных, в том числе поиска и визуализации методов, программируемых или обучения агентов, которые обнаруживают вопросы, представляющие интерес, и неформальных социальных методов, в которых друзья и коллеги рекомендуют вопросы, представляющие интерес друг к другу. Термин "коллаборативной фильтрации" включает в себя ряд формализованных социальных методов, которые захватывают мнения людей, которые потребляют часть информации и используют эти мнения для формирования рекомендаций для других потребителей информации.
Проект GroupLens, начался в 1992 году Полом Резник и Джон Ридл, был сосредоточен на применении коллаборативной фильтрации, чтобы Usenet новости, с большим объемом, набора дискуссионных групп, распределенных по сети Интернет. Несколько характеристики делают Usenet интересной областью исследований для коллаборативной фильтрации:
Большое количество пользователей и новостных сообщений представляют собой богатый источник данных и вызов для реализации в реальном времени.
Короткий срок службы изделий ставит более высокие требования к скорости, с которой новые мнения перевариваются и, в свою очередь влияют на рекомендации.
Относительная разреженность матрицы мнение (т.е. тот факт, что большинство людей читают лишь малую часть имеющихся статей) позволяет нам исследовать большую проблему проектирования алгоритмов, которые работают на очень редких наборах данных общественного мнения.
Иерархические категории телеконференций позволяют нам для проверки гипотез о том, как соответствующее соглашение пользователь в одной категории в выработке рекомендаций в родственных и неродственных категорий.
Двойные организации новостей Usenet - свободный временной порядок и дискуссионные темы - позволит нам исследовать эффективное представление рекомендаций для пользователей.
Разнообразие содержания и предметной области позволяют нам для проверки гипотез о значении коллаборативной фильтрации в модераторами немодерируемых дискуссий, вопросов и ответов, списки, структурированные доски объявлений и другие формы общения. GroupLens исследованияна текущих проект, который уже продемонстрировал некоторые существенные результаты. Среди достижений проекта до сих пор являются следующие:
Испытания пользователя, чтобы продемонстрировать систему действительно работающую в пользу.
Алгоритм анализа сравнения эффективности различных алгоритмов для принятия рекомендациями.
Анализ данных показывает, что время, проведенное читая статью является полезным неявное мера мнению пользователя от стоимости изделия.
Анализ данных показывает, что соглашение с пользователями в одной новости обычно не прогнозировать соглашения с другими новостями.
Дизайн и оценка надежной архитектуры, которая может быть расширена до обслуживания крупных сообществ пользователей и больших наборов элементов.
Кроме того, это исследование привело к созданию старт-ап компании программного обеспечения, Net восприятия, то есть коммерциализации коллаборативной фильтрации инструментарий и сервер для более широкого круга приложений.
По мере продвижения вперед с дальнейшими исследованиям, существует целый ряд ключевых вопросов, которые до сих пор остаются без ответа и в области Usenet новостей. Мы находимся в начале нового многолетнего усилия, чтобы собрать данные и изучить этот набор тем:
Обсуждаемые темы.
Являются ли пользователь мнения статей в потоках значительно более последовательным, чем рейтинги статей из разных потоков, но тегже новостей?
Если да, то как личность нить сравнить с другими мерами тему (например, ключевые слова матчей) для создания доменов консистенции?
Кроме того, каковы эффективные пользовательские интерфейсы для отображения рекомендации для пользователей, которые читают новости каждый день?
Многие программы вешания новостей дисплей только одна строка для каждого потока, следует, что линия показывает среднее рекомендацию, лучший, или что-то еще?
Неявные Меры мнения. Мы начали проверять значение времени, потраченного чтение как неявный меры мнения и были воодушевлены нашими результатами. Есть много других наблюдаемых действий пользователя, которые могли бы хорошо коррелироваться с мнением пользователя, в том числе такие действия, как сохранение, печать; отвечая на статью; и " убийство" в дискуссионную тему. Мы заинтересованы в том, как эффективно оценивать эти неявные меры могут быть, как в изоляции и вместе в качестве замены для или дополнения к явных оценок.
Влияние Рекомендации. Показать на принятие решений задач. Из разговоров с пользователями, мы предполагаем, что существует несколько много различных стилей новостей, которые поддерживаются по-разному для чтения новостей. Включены разные цели, связанные с относительной стоимостью и пользователей стоимость ассоциированной с чтения и пропавших без вести хорошие и плохие статьи, и время пользователи предпочитают проводить чтения. Мы расследуем, как тип рекомендации на дисплее влияет на производительность в различных задач отбора статей.
Меры доверия. Наши алгоритмы (и другие совместные алгоритмы фильтрации) обеспечивают лишь грубые меры доверия, с которым рекомендация сделана. Мы заинтересованы в изучении всех аспектов этого вопроса доверия, в том числе расследование лучшие способы расчета уверенности и исследовать путь проявления доверия влияет на поведение пользователя и восприятие.
Дополнительные инструменты, методы и алгоритмы . Мы продолжаем исследовать широкий спектр систем по вопросам проектирования, включая алгоритмы, интеграции с другими рекомендательными системами и общих интерфейсов.
Есть три основных метода, которые используются в этом исследовании: тесты пользователей, контролируемые испытания и открытие судебных процессов. Мы используем тесты пользователей для того что бы оценить эффективность дисплея для задачи, и для других научных вопросов, которые трудно оценить от более широких испытаний, не смешивая данные. Мы используем контролируемые испытания - испытания, где пользователям предлагается читать и оценить конкретный набор статей, не видя рекомендации - чтобы создать полную матрицу тестовый ряд, из которого контролируемые эксперименты могут быть запущены (например, оценивая точность предсказания для различных алгоритмов в различных рейтингов плотности). Мы используем открытые испытания, чтобы собрать реальные результаты, включая информацию о реальном использования системы (от журналах трассировки) и производительности в реальном системы и точности (от ретроспективного анализа данных журнала трассировки) . Мы также рассматриваем открытый судебный процесс, чтобы быть ценным служение новостей сообщества.
Мы считаем, что есть несколько способов, в которых этот исследовательский проект могут извлечь выгоду из идей и мыслей участников Базового симпозиума исследований. В частности, мы надеемся получить обратную связь по этим вопросам: Определение конкретных вопросов исследования, которые более широко применяются и что заслуга конкретного исследования фокус. Количество вопросов доступных исследований далеко опережает наши ресурсы для их решения. У нас есть довольно хорошие отзывы от сообщества пользователей и коммерческого сообщества на свои приоритеты, но ищем вход к более широкому научному сообществу.
Сбалансированные преимущества контролируемых и открытых судебных процессов. В области новостей Usenet, не контролируемое исследование может точно отражать тот факт, что пользователи делают реальный выбор, когда читать новости, и что эти выборы отражают широкий спектр входных данных включая время, при условии, что у него есть настроение и показанны рекомендации.
Определение требований к полезной коллаборативной фильтрации. Мы надеемся, в конечном счете, сделать базу данных данных журнала трассировки доступных для других исследователей, и выработке рекомендаций о том, как сделать эту базу данных наиболее полезно использывать. Мы также надеемся, что это исследование представляет интерес для участников BRS. Мы находим коллаборативную фильтрацию очень интересной областью исследований со многими сложными вопросами исследования и многих интересных приложений.
1. P. Resnick, N. Iacovou, M. Sushak, P. Bergstrom, and J. Riedl. "GroupLens: An Open Architecture for Collaborative Filtering of Netnews," Proceedings of the 1994 Computer Supported Cooperative Work Conference, ACM, 1994.;
2. J. Konstan, B. Miller, D. Maltz, J. Herlocker, L. Gordon, and J. Riedl. "GroupLens: Collaborative Filtering for Usenet News," to appear in Communications of the ACM special issue on collaborative filtering, March 1997.;
3. B. Miller, J. Riedl, and J. Konstan. "Experiences with GroupLens: Making Usenet Useful Again," Proceedings of the Usenix 1997 Winter Technical Conference, Anaheim, CA, January 1997.