назад Оглавление вперед


[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [ 9 ] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90]


9

2.3.Если игрок 2 имеет в игре Г более одной стратегии и априорные вероятности их использования игроку 1 неизвестны или даже вовсе не имеет смысла говорить об этих вероятностях, то все только что сказанное неприменимо.

Однако на основе сказанного естественно считать, что оптимальность для игрока 1 состоит, во всяком случае, в некоторой максимизации, и остается только открытым вопрос, что именно следует максимизировать.

Говоря формально, это означает, что оптимальной стратегией игрока 1 в случае произвольной игры Г из (1.1) будет та его стратегия, на которой достигается максимум от некоторого функционала /, определенного на семействе всех функций вида Я(- ,у), где / G у.

Очевидно, функционал / должен сочетать в себе черты экзогенной характеристики задачи, связанной с априорным подходом к ней и универсальной для всего рассматриваемого класса теоретико-игровых задач, и черты ее эндогенной характеристики, вытекающей из ее конкретных условий. Мы рассмотрим два варианта функционала/.

Если, как в п. 2.2, множество у конечно: у ={ji, ... ,Уп}> то функционал / превращается в функцию fn от п переменных: /пЩ(х, yi), ... ...,Н(х,Уп)).

2.4.На первый взгляд представляется достаточно правдоподобным, чтобы функция /„ была некоторым взвешенным средним своих аргументов, т.е. некоторой выпуклой комбинацией:

fn(H(x,yi), . . . ,Я(х, j„))= Да.Я(х, jp,

ос. = 1,(2.1)

где коэффициенты а, . . . , а:„ 0 - одни и те же для всего класса игр с у =п. Очевидно, такая функция / оказывается "жестко" экзогенной. Покажем, что такой подход приводит к противоречию.

Ввиду равноправия стратегий игрока 2 функция должна быть симметричной функцией своих. аргументов. Это значит, что oti = .. . = о:„ = 1/п, так что

Гп(Н(х,Уг),...,Н(х,у,))=- ЪН(х,уд.(2.2)

п f = i

Такой выбор функции fn отражает высказанные еще Лапласом представления о целесообразности, состоящие в том, что если мы не знаем, в каких условиях приходится принимать решение (т.е. выбирать стратегию игрока 1 в игре, не зная, какую стратегию выберет игрок 2), то будет разумным ориентироваться на ожидаемый выигрыш в предположении равновероятной реализации каждой из стратегий игрока 2.

Рассмотрим далее вместо игры Г из (1.1) игру Г = <х, у,Я), получаемую из игры Г присоединением к множеству у ={ji,.. . , j„ } нового элемента у о, причем Н{х,Уо) =Н(х, yi) для всех л: G х. Фактически стратегию у о можно считать как бы "вторым экземпляром" стратегии ji.



применяя к новой игре все проведенные выше рассуждения, мы получим

/„+1 (Н(х,Уо), Н(х,у,),... ,Н(х,у)) =

= 2 а;Н(х,у-)= Н(х,у,) -i: Н{х,у).(2.3)

Но задача выбора игроком 1 оптимальной стратегии в условиях игры Г по существу ничем не отличается от аналогичной задачи в игре Г (можно сказать, что в игре Г по сравнению с игрой Г одна из стратегий просто дважды упоминается). Поэтому естественно, что оптимальные стратегии игрока 1 в играх Г и Г должны совпадать, и поэтому должно быть

fn(H(x,yO,,H(x,y,)) =

=/„.1 (Н(х,уо),Н(х,Уг),. .. ,Я(х, j„)).

Это, однако, противоречит соотношениям (2.3) и (2.2).

2.5. Вместе с тем, участвуя в антагонистической игре Г = <х, у, Я>, игрок I может рассуждать следующим образом: "Предположим, что я

выберу стратегию х; тогда в худшем для меня случае я получу minH(x,y).

Поэтому естественно, чтобы я выбрал такую стратегию хЕ х, при которой этот минимум будет максимальным: max minЯ(х, у). Этот "максимин"

X у

я получу уверенно, даже в том наименее благоприятном для меня случае, когда я ничего не знаю о намерениях противника, а он о моих, напротив, - все".

Такая схема рассуждения соответствует выбору в качестве функции оператора минимизации:

/ЛЯ(х, jO, -. . , (, Уп)) = min Я(х, yj).(2.4)

Подобно линейной функции из (2.1), оператор минимизации однороден (степени 1). Кроме того, он симметричен, и эта симметрия, как легко убедиться, уже не приводит к противоречию того типа, который бьш описан в п. 2.3.

Такой выбор функции /„ отражает сформулированное А. Вальдом представление о том, что принятие решения в условиях неопределенности разумно ориентировать на реализацию наименее благоприятной, минимизирующей альтернативы. Такой принцип оптимальности, основанный на максимизации минимального вьшгрыша, носит название принципа максимина, а выбираемая игроком 1 на его основе стратегия - максимин-ной стратегией. В соответствии с принципом максимина игрок 1 в игре Г может обеспечить себе максиминный вьшгрыш

max min Я(х, у).

XхуGy

Если отказаться от предположения о конечности множества у и о достижимости участвующих в последнем выражении экстремумов и соответствующим образом видоизменить проведенные рассуждения, то мы получим, что игрок 1 может в игре Г уверенно получить выигрыш, сколь угодно



близкий к максимину

sup mfH(x,y).(2.5)

Этот максимин называется нижним значением игры Г и обозначается через i;p.

2.6.Сходным образом в той же игре Г может рассуждать и игрок 2: "Предположим, что я выберу стратегию у; тогда в худшем случае я потеряю тгхН(х, у). Поэтому мне естественно выбрать такую стратегию у у

при которой этот максимум будет минимальным: min тахЯ(х, >). Я не

дам своему противнику выиграть больше, чем этот "минимакс", даже в том наименее благоприятном для меня случае, когда я ничего не знаю о его намерениях, а он о моих - все".

Таким образом, разумной стратегией игрока 2 можно считать ту, при которой наибольшие его потери окажутся минимальными. Такой принцип оптимальности, основанный на минимизации максимальных потерь, называется принципом минимакса, а выбираемая в соответствии с этим принципом стратегия игрока 2 - его минимаксной стратегией. Заметим, что принимаемый игроком 2 принцип минимакса является таковым с точки зрения игрока 1; с собственной же точки зрения игрока 2, оценивающего свой выигрыш - Н, его следовало бы называть также принципом макси-мина. Поэтому часто говорят об использовании принципа максимина обоими игроками в антагонистической игре. После сделанной оговорки употребление этого оборота не должно будет приводить нас к недоразумениям. Минимаксные потери игрока 2 в игре Г будут равны

min max Н(х,у),

уX Е:Х

Если, как и выше, снять предположение о достижимости экстремумов, то игрок 2 может сделать так, чтобы его потери не превосходили минимакса

inf 8ирЯ(д:,;).(2.6)

у у хх

Этот минимакс назьшается верхним значением игры Г и обозначается через ?7р.

Минимакс (2.6) можно понимать также как такой выигрыш игрока 1, что получению им большей суммы может воспрепятствовать игрок 2. Естественно считать, что максимин (2.5) не должен превосходить минимакса (2.6). В следующем параграфе это предположение будет доказано.

2.7.Смешанные экстремумы (2.5) и (2.6) (т.е. верхнее и нижнее значения игры) обладают непосредственно проверяемыми свойствами инвариантности.

Теорема. Если Г=<х,у, Я> w Г= (х, у,Я>, причем ГГ и соблюдается (1.3), то

v.=kv(2.7)

v,=kv+a.(2.8)

[Старт] [1] [2] [3] [4] [5] [6] [7] [8] [ 9 ] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90]