Ограниченная рациональность в многоагентных системах. Улучшение подхода к обучению

Автор: Anita Raja, Victor Lesser

Автор перевода: А.С. Стропалов
Источник: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.24.4325&rep=rep1&type=ps

Введение

Открытая среда является динамичной и неопределенной. Сложные агенты, работающие в этих условиях должны судить о решениях локальных проблем, взаимодействовать с другими агентами, планировать курс действий и выполнять его. Все это должно быть сделано в условиях ограниченных ресурсов и неопределенности в отношении результатов и действий других агентов в реальном времени. Кроме того, новые задачи могут быть вызваны существующими или новыми агентами в любое время, таким образом, обсуждения агентов должно выполняться с чередованием. Планирование и координация нетривиальных задач требует либо экспоненциальной работы или сложных схем на практике.

Рисунок 1 – Классическая архитектура ограниченного рационального агента

Активность агента можно подразделить на три категории - домен, контролирование и мета-деятельность на уровне управления. Домен деятельности исполняет примитивные действия для достижения различных задач высокого уровня. Управление деятельностью бывают двух типов: планирование деятельности, которая выбирает высокие цели уровня, устанавливающие ограничения на путях их достижения и последовательность мероприятий на уровне домена, а также координации деятельности, которая способствует сотрудничеству с другими агентами для достижения целей высокого уровня. Агенты выполняют эти контрольные меры для повышения их производительности. Многие эффективные архитектуры и алгоритмы, которые поддерживают эти виды деятельности были разработаны и изучены [24, 4, 27]. Рисунок 1 описывает классическую архитектуру агента, где агенты получают ощущения от окружающей среды и реагируют, выполняя действия, которые влияют на среду с помощью эффекторов. Выбор действий осуществляется с помощью решателя задач и это может быть связано с вызовом модуля планирования и модуля координирования, которые имеют постоянные накладные расходы. Это значит, что столько же усилий тратится на рассуждения о всех задачах, независимо от важности и полезности задач. Большинство современных реализаций либо выходят на стоимость этих контрольных мероприятий или они предполагают фиксированную стоимость и явно не рассуждают о времени и других ресурсов, потребляемых контрольной деятельностью, которая в действительности может привести к снижению производительности агента.

Рассмотрим административного агента, который способен решать несколько задач, таких, как ответы на телефон, оплата счетов и написание отчетов. Предположим, агент тратит столько же времени принятия решения об ответе на звонок телефона, как и на определение того, какие счета ему нужно оплатить. Обычно это у агента занимает много времени, чтобы отсортировать счета и не кажется необходимым, что он должен тратить время на принятие решения - ответить ли на звонок, так как есть большая вероятность, что он его пропустит. Это означает, что агент должен динамически подстраивать использование ресурсов для контроля деятельности в зависимости от его текущего состояния и входящих задач.

Для поддержки этого динамического процесса на рисунке 2 описывается предлагаемое решение, которое включает в себя ограниченные рациональности управления агентом. Классическую архитектуру дополняет компонент контроля мета-уровня и существуют различные варианты привлечения планирования и координации компонентов. Эти варианты отличаются по их использованию ресурсов и производительности. Компонент контроля мета-уровня принимает решение о том, когда и сколько контрольной деятельности необходимо для каждого события воспринимаемого агентом.

Компонент контроля мета-уровня оптимизирует производительность агента, выбирая и последовательности домена и контроля. Это включает в себя выделение соответствующих ресурсов процессора и других ресурсов в соответствующее время. Если расходуются значительные средства на компонент контроля мета-уровня, чем на решения мета-мета-уровня, должны тратить ли эти ресурсы на мета-уровне контроля. Для этого агент будет знать эффект всех комбинаций действия досрочно, что является неразрешимой задачей для любых разумных размеров проблемы. Вопрос о том, как приблизить этот идеал последовательности домена и управления деятельностью без потребления большого количества ресурсов в процессе мета-уровня задачи управления ресурсами ограниченным рациональным агентом.

Рисунок 2 – Новая архитектура ограниченного рационального агента

1.1 Предположения

Приведем следующие предположения: агенты кооперативны и предпочитают альтернативы, которые увеличивают социальную полезность, даже если это происходит за счет снижения полезности. Тем не менее, подход предложен и разработан в данном документе. Это обсуждается далее в разделе 2. Агент может одновременно преследовать несколько целей высокого уровня и завершение цели происходит с пользой для системы или агента. Общая цель системы или агента - максимизация пользы, порожденной над некоторым горизонтом за конечное время. Качество и полезность эквивалентны показателям деятельности в этой системе. Цели высокого уровня генерируются с помощью внутренних или внешних событий, которые почувствовали и / или задали агенты для поддержки. Эти цели должны быть завершены к определенному времени, чтобы достичь какой-либо полезности. Это не обязательно для всех целей высокого уровня - быть завершенными для того, чтобы агент получил пользу от его деятельности. Частичное удовлетворение высоким уровнем целей иногда допустимо при определении количества полезности, полученное для уменьшения использования ресурсов. Планирование решений агента связано с выбором, какую из этих целей высокого уровня преследовать и как достичь их. Могут быть нелокальные и местные зависимости между задачами и методами. Местные зависимости взаимосвязаны с агентом при нелокальной зависимости внутри агента. Эти зависимости могут жестко или мягко превосходить отношения. Координация решения связаны с выбором задач, которые требуют координации, а также, какой агент координирует свои действия и сколько усилий должно быть потрачено на координацию. Планирование и координация деятельности не должны быть выполнены перед запросами на них и в некоторых случаях может быть не сделано вообще. Существуют альтернативные способы завершения планирования и координации деятельности, которая учитывает вероятность компромисса этих мероприятий и приводит к оптимальным решениям по сравнению с количеством используемых ресурсов.

1.2 Пространство решений агента

Есть два типа решений, принимаемых агентом: решения мета- или макро – уровня обрабатываются контроллером мета - уровня и планированием или решениями микро-уровня обрабатывается на уровне контроллера домена. Рисунок 3 описывает иерархию решений. Контроллер мета-уровня будет разработан, чтобы делать быстрые и недорогие решения о том, сколько ресурсов нужно потратить на домен в сравнении с контролем действий. Первоначальные управленческие решения классифицируются на три типа:

Координация решения, которая решает, координировать или нет работу с другими агентами и сколько ресурсов должно тратиться на координацию. Планировщик решений, который определяет, следует ли вызывать планировщик доменного уровня, и сколько ресурсов должно быть потрачено на планировщик. Бездействующие решения, которые предписывают, как много общего бездействующего/ свободного время должно быть включено в график, чтобы работать с неожиданными событиями.

В этой работе, координация - это между-агентный переговорный процесс, который устанавливает обязательства по завершению времена задач или методов. Примером координации решений мета-уровня на уровне заключается в определении, сколько времени должны длиться переговоры. Если агент решает вести переговоры, он должен также решить, следует ли вести переговоры с помощью одного шага или многоступенчатого протокола, который может потребовать ряд циклов переговоров, чтобы найти приемлемое решение или даже дороже, поиск близкого к оптимальному решения. Выбор более дорогого протокола объясняется тем, что общественной пользы, скорее всего, будет больше, в результате успешного завершения переговоров. Расходы, связанные с тем, что дополнительные ресурсы инвестируются на переговорах и задержка в выполнении задач, таких как домена задач способствуют тому, что переговоры не могут выполняться, пока переговоры не завершены.

Основная цель данной работы является создание средств, которые могут с максимальной общественной полезностью успешно завершить свои цели. Эти агенты также обязательно имеют ограничения в вычислениях и детализированные модели задач еще не доступны. Усиление обучения полезно для изучения полезности этих контрольных мероприятий и принятия стратегий в таких контекстах. Это, естественно, приводит к построению MDP-ориентированных контроллеров мета-уровня, который использует методы обучения с улучшением для аппроксимации оптимальной политики распределения вычислительных ресурсов. Этот подход к управлению мета-уровнем неявно занимается альтернативной стоимостью как результатом долгосрочных последствий решений мета-уровня.

[31] утверждает, что альтернативная стоимость решения возникает потому, что выбирая одну вещь в мире дефицита означает отказ от чего-то еще. Альтернативная стоимость определяется как стоимость товара или услуги заранее. Это означает, что выбор контроллера мета-уровня одной задачи на другую, из-за сроков и других ресурсов, содержит подразумеваемую альтернативную стоимость.

Основное предположение моего подхода является создание контроллера мета-уровня для конкретной среды, которая имеет хорошо определенный набор агентов, задач и моделей задач, а не справляться с любой задачей в произвольной среде. Для того, чтобы эффективно принимать решения мета-уровня, агенты должны развивать хорошие модели возможностью затраты на выполнение действий. Точность анализа агента Брокерская расположенных вниз по течению эффектов различного выбора мета-уровня зависит от точности модели альтернативных издержек. Из-за сложных взаимодействий между задачами и агентами в задаче средах, точная модель альтернативные издержки могут быть построены только по отношению к конкретным условиям. Мы планируем создать библиотеку специфических условий и соответствующие им политики. Мы будем анализировать характеристики различных сред, которые разделяют ту же политику, чтобы собрать представление о разбиении пространства задачи в средах. Пространство поиска для каждой среды представляется с помощью Марковских процессов принятия решений (MDP).