Головина Г.М., Савченко Т.Н. - Моделирование поведения: от стохастического к нечеткому автомату Крылова

Данная работа посвящена разработке новых автоматных моделей. Их прообразом служит стохастический автомат. Что же такое стохастический автомат? Можно сказать, что это – математическая модель агента, обладающего памятью о принятых ранее решениях и способного принимать решения на основании вероятности выигрыша при том или ином действия.

В 1960-е годы в нашей стране появились работы А.А.Ляпунова, М.Л.Цетлина [8], В.И.Варшавского [1,2], Д.А.Поспелова [2], связанные с построением моделей коллективного поведения. Развиваемые учеными идеи об эволюции технических систем и управлении ими опередили свое время и стали по-настоящему востребованными лишь в самом конце XX – начале XXI вв. Об этом говорит публикация нового издания популярной монографии В.И.Варшавского и Д.А.Поспелова «Оркестр играет без дирижера», впервые вышедшей в свет в 1984г. [2]. В основе базовых понятий и моделей теории коллективного поведения и управления лежит гипотеза простоты, высказанная М.Л. Цетлиным: «любое достаточно сложное поведение складывается из совокупности простых поведенческих актов». На этой гипотезе построены автоматные модели: автомат с линейной тактикой М.Л. Цетлина [8], «доверчивый» автомат В.И.Кринского. Ученик М.Л. Цетлина В.Ю. Крылов, работая со своим учителем, с энтузиазмом вносил новые идеи. Им была разработана новая модель автомата – «осторожный» автомат Крылова [6]. Были также разработаны модель автомата с переменной структурой, предназначенного для функционирования в динамических средах, общая концептуальная схема коллективного поведения автоматов, взаимодействующих со средой.

В работах Гинзбурга, Крылова, Цетлина (cм.[3]) был предложен язык и аппарат моделирования – стохастические автоматы, с помощью которых удалось построить нормативные модели принятия решений.

Обозначим через n глубину памяти автомата. Смысл этого параметра заключается в следующем. Чем больше n, тем более инерционным является автомат, ибо тем большая последовательность проигрышей вынуждает его к смене действий. Интуитивно ясно, что, чем больше инерционность автомата, тем ближе он к тому, чтобы, выбрав наилучшее в данной среде действие, продолжать выполнять только его. С ростом глубины памяти растет целесообразность поведения автомата в стационарных средах. И, наоборот, при малом значении n функционирование автомата более подвержено воздействию проигрышей, которые могут перевести автомат в новое действие. Конструкция автомата, рассмотренная нами выше, была названа М.Л. Цетлиным автоматом с линейной тактикой [7]. Эта простая в технической реализации система решает сложную задачу о целесообразном поведении в любой заранее не фиксированной стационарной среде. Факт этот вызывает глубокое изумление. Сколь же простыми оказываются конструкции, способные выполнять процедуры адаптации, представляющиеся на первый взгляд весьма сложными. Но оказывается, что целесообразное поведение это еще не все. М.Л. Цетлин показал, что если min P не превосходит 0.5, то при росте величины n мы получим последовательность автоматов с линейной тактикой со все увеличивающейся глубиной памяти, которая является асимптотически оптимальной. Это означает, что при n ®бесконечность имеет место M(q,E) ®М, где М – минимальный суммарный штраф, который можно получить в данной стационарной случайной среде. Таким образом, во многих таких средах конструкция, предложенная М. Л. Цетлиным, обеспечивает при достаточно больших значениях поведение, сколь угодно близкое к наилучшему. А это уже совсем фантастично.

Опишем еще одну конструкцию автомата (предложенного В.Ю.Крыловым), обеспечивающего целесообразное поведение в любой стационарной среде. При этом имеется возможность построения асимптотически оптимальной последовательности автоматов, позволяющей получать минимальный возможный штраф в данной среде с любой наперед заданной точностью. В отличие от ранее рассмотренных конструкций этот автомат будет не детерминированным, а вероятностным. Устроен он подобно автомату с линейной тактикой. При поступлении сигнала «выигрыш» смена состояний в нем происходит аналогично автомату Цетлина.

Но при сигнале «проигрыш» такой автомат не спешит менять состояние. Сначала он «подбрасывает монетку» и по результату подбрасывания либо переходит в другое состояние, либо сохраняет то состояние, в котором автомат получил сигнал «штраф». Эта конструкция, предложенная В.Ю. Крыловым, может быть названа «осторожным» автоматом [2,6].

Автомат Крылова имеет n положений (объем памяти). Переход от положения к положению зависит от выигрыша или потери и номера положения на предыдущем шаге. Такой автомат является асимптотически оптимальным в стохастической среде, задаваемой с помощью вероятностей выигрыша (P1, … , Pm). Это означает, что предельное математическое ожидание выигрыша автомата равно максимальной вероятности Pi в среде fi, i = 1, … ,m:

Lim M = max Pi

Целью настоящей работы является исследование случая коалиционной игры с несколькими заранее фиксированными коалициями, а также коалиционная игра с возможностью входа и выхода игроков из коалиции. Предлагаются правила, которые моделируют психологические механизмы, такие как мотивация, принятие себя, социальная активность.

В.Ю.Крыловым была впервые рассмотрена однородная игра многих одинаковых автоматов. Тем самым было открыто новое направление в применении автоматных моделей: моделирование коллективного поведения при помощи автоматов, асимптотически оптимальных в стационарной случайной среде. Пример коллективного поведения автоматов авторы назвали игрой в размещение.

Дадим определение игры в размещение. Пусть в игре участвуют k игроков, каждый из которых может выбрать в каждой партии игры одно действие из возможных m. Игра определяется набором выигрышей. Рассмотрим коалиционный вариант игры в размещение. Предположим, все игроки образовали одну коалицию, и суммарный выигрыш делится между членами коалиции.

Пусть игроки Aj, j = 1,..,K в каждой партии выбирают действия независимо друг от друга. Обозначим через К число игроков, выбравших в данной партии действие и пусть в этой партии игрок Aj выбирает действие fi, i = 1, … , m, тогда для любого игрока выигрыш определяется по формуле: Wj = Pi /Ki

Выигрыш каждого игрока равен выигрышу за данные действия, деленному на общее число игроков, выбравших это действие. Определенную таким образом игру будем называть игрой в размещения.

Пусть действие fi выбрали Ki игроков K1+ K2+ … + Km = K и числа Ki удовлетворяют неравенству: Pi /Ki > Pl /Kl +1 для любых пар i, l = 1,2,…,m; i ? l

Ясно, что в этом случае ни одному из игроков невыгодно изменять свое действие. Набор K1, K2, … ,Km будем называть точкой равновесия.

Рассмотрим теперь коалиционный вариант игры в размещения.

Предположение. Все игроки образовали одну коалицию и договорились о том, что суммарный выигрыш, полученный всеми игроками, делится поровну между членами коалиции (принцип общей кассы). Тогда очевидно, что в случае M > K (действий больше, чем игроков), наибольший суммарный выигрыш будет получен, если игроки выберут первые К действий: K1 = K2 = … = Kk = 1; Kk +1 = …= Km = 0.

При этом выигрыш каждого игрока будет определяться формулой:

Wj =1/k ?Wj j = 1,..,K

Такое распределение игроков всегда будет обеспечивать наибольший суммарный выигрыш. Однако, если игра бескоалиционная, то игроку, выбравшему действие, может оказаться выгодным сменить его на действие с максимальным значением выигрыша.

Рассмотрим теперь игру автоматов, соответствующей описанной игре в размещения. Для этого будем интерпретировать числа Pi, i = 1 , … , m как вероятности единичного выигрыша игрока, выбравшего соответствующее действие, при условии, что оно выбрано только одним этим игроком. Проигрышей нет. Они равны нулю. Тогда числа Pi являются не только вероятностями единичного выигрыша, но и математическими ожиданиями выигрыша игрока, избравшего действие. В соответствии с определением игры в размещение предположим, что в случае, когда К игроков выбрали действие fi, для любого игрока А вероятность единичного выигрыша определяется по формуле:

Wj =1/k ?Wj, j = 1,..,K

Пусть теперь в качестве игроков Aj в игре в размещения участвуют автоматы, являющиеся обобщением автоматов [6].

Участие в игре в размещения фактически является для автоматов функционированием в случайной среде. Важно отметить, что автоматы (в случае отсутствия коалиции) не обладают информацией ни об условиях игры, ни даже о том, что они участвуют в игре. Для каждого автомата действие остальных участников игры приводят лишь к образованию некоторой случайной среды, определяя связь между действиями автомата и величиной вероятности единичного выигрыша при выбранном действии.

В работе сравниваются для одного и того же набора вероятностей (выигрышей) следующие случаи: 1) бескоалиционная игра К автоматов; 2) коалиционная игра, при которой все автоматы объединены в одну коалицию; 3) коалиционная игра К автоматов с несколькими фиксированными коалициями, 4)-коалиционная игра К-автоматов с возможностью образования коалиций и выхода из них в соответствии с некоторыми правилами.

Случаи 1 и 2 были разобраны ранее Крыловым и Цетлиным. Случаи 3 и 4 впервые разобраны в работе [4]. Уточним, что коалицией в игре в размещения будем называть множество игроков, объединившихся друг с другом, чтобы делить суммарный выигрыш по принципу «общей кассы».

Задача определения выигрышей в различных упомянутых ситуациях достаточно плохо поддается аналитическому решению. Было проведено имитационное моделирование для конкретного набора вероятностей. Выбраны следующие конкретные значения параметров, определяющих игру в размещения:

число действий: M = 10,
число автоматов, принимающих участие в игре K=6
вероятности выигрышей соответственно:
P1 = 0.9; P2 = 0.9; P3 = P4 = P5 = P6 = 0.2;
P7 = P8 = P9 = P10 = 0.1

1. В случае бескоалиционной игры максимальный выигрыш будет получен каждым игроком при следующем распределении их по действиям

K1 = 3; K2 = 3; K3 =…= K10 = 0.

При этом выигрыш каждого игрока W1 = 0.30

Проведен вычислительный эксперимент, в котором в качестве игроков использовались автоматы с различными значениями параметра памяти. Для предельного значения числа шагов (t ? 15000) экспериментальное значение выигрыша оказалось равным W*1 = 0.35.

2. В случае коалиционной игры в размещения с общей кассой для всех игроков максимальный выигрыш получается при распределении игроков по действиям

K1 =…= K6 = 1; K7 =…= K10 = 0 и равен W2 = 0.43.

Вычислительный эксперимент показал, что в этом случае среднее значение выигрыша равно W*2= 0.42.

Данные выигрыши получены при значении параметра памяти п =5. В общем случае автоматы меняют свои действия по сравнению с теоретической ситуацией. Очевидно, что в рассмотренной среде средний экспериментально полученный выигрыш в первом случае может оказать больше теоретического, а во втором случае обязательно будет не больше теоретического.

3. В качестве третьего случая в вычислительном эксперименте было выбрано три фиксированные коалиции. В первой коалиции 4 игрока, во второй и третьей – по одному.

Из теоретических соображений ясно, что четыре игрока, составляющих первую коалицию, будут выполнять по одному четыре первых действия с максимальными вероятностями выигрыша. Если предположить, что при этом, каждый из оставшихся игроков (каждый из которых образует свою «коалицию», состоящую из одного игрока) будет выполнять действия с максимальной вероятностью выигрыша, то первый будет выполнять первое действие, а второй – второе. Теоретические значения выигрышей следующие:

Для каждого из игроков первой коалиции W(1) = 0,325,
а для игроков второй и третьей коалиции W(2) = W(3) = 0,450.

В результате вычислительного эксперимента были получены следующие значения выигрышей: W*(1) = 0.28; W*(2) = 0.49; W*(3) = 0.51

4. Случай образования коалиций в ходе игры в размещения. Приняты следующие правила. Если индивидуальный выигрыш за фиксированный интервал времени меньше, чем выигрыш коалиции, то игрок вступает в коалицию с некоторой вероятностью «А». Если теоретический индивидуальный выигрыш при выходе из коалиции больше фактически получаемого среднего выигрыша в коалиции, то игрок выходит из коалиции с некоторой вероятностью «Б».

Интересно сравнить предельное значение выигрыша при одинаковом объеме памяти для различных вариантов, рассмотренных выше.

Предельный выигрыш зависит от величины объема памяти, как для бескоалиционной игры, так и для игры с одной фиксированной коалицией, объединяющей автоматы по принципу «общего дохода».

При всех значениях объема памяти предельный выигрыш каждого игрока, входящего в коалицию больше, чем предельный выигрыш индивидуалистов. С ростом объема памяти различия в предельном выигрыше автомата, включенного в коалицию и автомата-индивидуалиста, растут.

Сравнивались предельные значения выигрыша для различных вариантов. Предельный выигрыш каждого игрока, входящего в коалицию больше, чем предельный выигрыш игроков, не входящих в коалицию. В случае, когда некоторые игроки объединены в коалицию, а другие играют индивидуально, последние получают значительно больший выигрыш, чем объединенные в коалицию.

Таким образом, рассмотрена теория и проведен компьютерный эксперимент для моделирования коллективного и индивидуального поведения в случайной среде. Получено хорошее согласование эмпирических данных с теоретической моделью. С помощью автоматов можно моделировать многие психологические механизмы, например: тип когнитивного стиля (рефлективность, ригидность, мобильность), стиль жизни, тип удовлетворенности жизнью, субъективное качество жизни, психодинамический тип [7]. В настоящее время нами собран эмпирический материал по этим характеристикам для того, чтобы определить параметры автомата: вероятности выигрыша в различных средах, объем памяти и другие.

В психодинамической диагностике личность рассматривается как некое пространство состояний, которые постоянно сменяют друг друга. Исследователя интересует не выраженность состояния (например, удовлетворенности жизнью), а состояние, которое последует за ним (например, удовлетворенность сменится неудовлетворенностью), и т.д. В основе психодинамической диагностики лежит эмпирический факт, что человеку свойственно переживать циклы состояний, в обычной ситуации это простые циклы. Такая циклическая смена двух состояний со временем становится типичной психодинамикой, типичным циклом личности. Психодинамическая диагностика направлена на выявление типичного цикла тех или иных состояний личности, который часто состоит из двух состояний.

В рамках нами были разработаны методики для исследования удовлетворенности жизнью с использованием методов психодинамической диагностики [5] По существу, они предполагают формализованное описание некоторого свойства, которое образуется постоянно повторяющейся, цикличной динамикой элементарных состояний в когнитивной сфере.

На основании устойчивых циклов были выделены шесть психодинамических типов по двум методикам.

Типы «принятия себя» условно названы: капризный, самокритичный, депрессивный, мазохист, критикан, зависимый.

Типы «социальной устроенности» условно названы: ситуационист, бунтарь, перспективист, бродяга, реалист мечтатель.

Автомат Крылова, который можно назвать «нечетким», позволяет моделировать циклическую динамику выделенных типов.

Предполагается с помощью модифицированного автомата Крылова прогнозировать удовлетворенность жизнью людей различных типов. В нашей модели шесть автоматов описываются правилами и вероятностями смены своих состояний, а также объемом памяти, который обозначает степень их мобильности.

Список использованной литературы

Варшавский В.И. Коллективное поведение автоматов. – М: Наука, 1973.
Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера: Размышления об эволюции некоторых технических систем и управлении ими. – М.: Наука. Главная редакция физико-математической литературы, 1984.
Гинзбург С.Д., Крылов В.Ю., Цетлин М.Л. Об одном примере игры многих одинаковых автоматов / Автоматика и телемеханика. – 1964. – Т.25, №5.
Головина Г.М., Крылов В.Ю. Коалиционный вариант игры в размещения многих автоматов // Математические методы в исследованиях индивидуальной и групповой деятельности. – М: ИП АН СССР, 1990.
Головина Г.М., Савченко Т.Н., Сочивко Д.В. Новый метод исследования и моделирования удовлетворенности жизнью // Материалы итоговой научной конференция института психологии РАН/ Под ред. А.Л.Журавлева, Т.И.Артемьевой. – М.: ИПРАН, 2008.
Крылов В.Ю. Об одном стохастическом автомате, асимптотически оптимальном в случайной среде. – 1963. – Т. 24, № 9. – С. 1226–1228.
Савченко Т.Н., Головина Г.М. Субъективное качество жизни: подходы, методы оценки, прикладные исследования. – М.: ИПРАН, 2006.
Цетлин М.Л. Некоторые задачи о поведении конечных автоматов//Доклады АН СССР. – 1963. – Т.139, №4.