Нижняя и верхняя цена игры

Найдем наилучшую стратегию игрока A, для чего проанализируем последовательно все его стратегии. Выбирая стратегию A_i, мы должны рассчитывать, что игрок B ответит на нее такой стратегией B_j, для которой выигрыш A будет минимальным. Поэтому среди чисел первой строки выбираем минимальное, обозначим его

, запишем его в добавочный столбец. Аналогично для каждой стратегии A_i выбираем

, т.е. α_i – минимальный выигрыш при применении стратегии A_i.
В примере 1:
α₁ = min {0, –1, –2} = –2;
α₂ = min {1, 0, –1} = –1;
α₃ = min {0, –1, –2} = 0.
Эти числа запишем в добавочном столбце. Какую же стратегию должен выбрать игрок A? Конечно же, ту стратегию, для которой α_iмаксимально. Обозначим

. Это гарантированный выигрыш, который может обеспечить себе игрок A, т.е.

; этот выигрыш называется нижней ценой игры или максимином. Стратегия A_i, обеспечивающая получение нижней цены игры, называется максиминной (перестраховочной). Если игрок A будет придерживаться этой стратегии, то ему гарантирован выигрыш ≥α при любом поведении игрока B.
В примере 1

. Это означает, что если A будет писать «3», то он хотя бы не проиграет. Игрок B заинтересован уменьшить выигрыш A. Выбирая стратегию B₁, он из соображений осторожности учитывает максимально возможный при этом выигрыш A. Обозначим

. Аналогично при выборе стратегии B_j максимально возможный выигрыш A–

; запишем эти числа в добавочной строке. Чтобы уменьшить выигрыш A, надо из чисел β_j выбрать наименьшее

. Число

называется верхней ценой игры или минимаксом. Это гарантированный проигрыш игрока B (т. е. он проиграет не больше, чем β). Стратегия игрока B, обеспечивающая выигрыш ≥ - β, называется его минимаксной стратегией.
В примере 1:
β₁=max{0,1,2}=2;
β₂=max{-1,0,1}=1;
β₃=max{-2,-1,0}=0;
β=min{2,1,0}=0;
Это означает, что оптимальная стратегия B – писать «3», тогда он хотя бы не проиграет.

`B`↓`A`→	B₁	B₂	B₃	α_i
A₁	0	– 1	–2	–2
A₂	1	0	–1	–1
A₃	2	1	0	0
β_j	2	1	0	0

Принцип, диктующий игрокам выбор наиболее «осторожных» минимаксной и максиминной стратегий, называется принципом минимакса. Этот принцип следует из разумного предположения, что каждый игрок стремится достичь цели, противоположной цели противника.
Можно доказать, что

, т.е. α≤β.
В примере 1 α=β. Если α=β, т.е. минимакс совпадает с максимином, то такая игра называется игрой с седловой точкой. Седловая точка – это пара оптимальных стратегий ( A_i, B_j). В примере 1 игра имеет седловую точку (А₃, B₃). В этом случае число α = β называется (чистой) ценой игры (нижняя и верхняя цена игры совпадают). Это означает, что матрица содержит такой элемент, который является минимальным в своей строке и одновременно максимальным в своем столбце. В примере 1 это элемент 0. Цена игры равна 0.
Оптимальные стратегии в любой игре обладают важным свойством, а именно – устойчивостью. Это означает, что каждый из игроков не заинтересован в отходе от своей оптимальной стратегии, т. к. это ему невыгодно. Отклонение от оптимальной стратегии игрока А приводит к уменьшению его выигрыша, а одностороннее отклонение игрока В – к увеличению проигрыша. Говорят, что седловая точка дает положение равновесия.

Перейти к онлайн решению

Пример 2. Первая сторона (игрок А) выбирает один из трех типов вооружения – А₁, А₂, А₃, а противник (игрок В) – один из трех видов самолетов: В₁, В₂, В₃. Цель В – прорыв фронта обороны, цель А – поражение самолета. Вероятность поражения самолета В₁ вооружением А₁ равна 0,5, самолета В₂ вооружением А₁ равна 0,6, самолета В₃ вооружением А₁ равна 0,8 и т.д., т.е. элемент a_ij платежной матрицы – вероятность поражения самолета В_j вооружением А_i. Платежная матрица имеет вид:

`В` / `А`		Вид самолета
`В` / `А`		В₁	В₂	В₃
Тип вооружения	А₁	0,5	0,6	0,8
	А₂	0,9	0,7	0,8
	А₃	0,7	0,5	0,6

Решить игру, т.е. найти нижнюю и верхнюю цену игры и оптимальные стратегии.
Решение. В каждой строке находим минимальный элемент и записываем его в добавочном столбце. В каждом столбце находим максимальный элемент и записываем его в добавочной строке.

`В` / `А`	В₁	В₂	В₃	α_i
А₁	0,5	0,6	0,8	0,5
А₂	0,9	0,7	0,8	0,7
А₃	0,7	0,5	0,6	0,5
β_j	0,9	0,7	0,8	0,7 / 0,7

В добавочном столбце находим максимальный элемент &alpha=max α_i=0,7, в добавочной строке находим минимальный элемент β= min β_j=0,7.
Ответ: α=β=0,7. Оптимальные стратегии – А₂ и В₂.

Пример 3. Игра в орлянку. Каждый игрок при своем ходе может выбирать одну из двух стратегий: орел или решка. При совпадении выбранных стратегий А получает выигрыш +1, при несовпадении B получает выигрыш 1 (т. е. А получает выигрыш –1). Платежная матрица:

`В` / `А`	В₁(орел)	В₂(решка)
А₁(орел)	1	-1
А₂(решка)	-1	1

Найти нижнюю и верхнюю цену игры. Имеет ли игра седловую точку?

Решение.

	В₁	В₂	α_i
А₁	1	-1	-1
А₂	-1	1	1
β_j	1	1	-1 1

α = -1, β = 1, т. е. А проиграет не больше 1, и B проиграет не больше 1. Так как α ≠ β, игра не имеет седловой точки. Положения равновесия в этой игре не существует, и оптимального решения в чистых стратегиях найти нельзя.

Пример. Найдите нижнюю цену игру, верхнюю цену игры, определите седловые точки, оптимальные чистые стратегии и цену игры (если они существуют).

Найти верхнюю и нижнюю цену игры.

Игроки	B₁	B₂	B₃	B₄	a = min(A_i)
A₁	7	6	4	5	4
A₂	2	1	9	7	1
A₃	4	5	3	5	3
b = max(B_i)	7	6	9	7

Находим гарантированный выигрыш, определяемый нижней ценой игры a = max(ai) = 4, которая указывает на максимальную чистую стратегию A1.
Верхняя цена игры b = min(bj) = 6.
Что свидетельствует об отсутствии седловой точки, так как a ≠ b, тогда цена игры находится в пределах 4≤y≤6. Находим решение игры в смешанных стратегиях. Объясняется это тем, что игроки не могут объявить противнику свои чистые стратегии: им следует скрывать свои действия. Игру можно решить, если позволить игрокам выбирать свои стратегии случайным образом (смешивать чистые стратегии)
Стратегия A1 доминирует над стратегией A3 (все элементы строки 1 больше или равны значениям 3-ой строки), следовательно исключаем 3-ую строку матрицы. Вероятность p3 = 0.

7	6	4	5
2	1	9	7

Решим задачу геометрическим методом, который включает в себя следующие этапы:
1. В декартовой системе координат по оси абсцисс откладывается отрезок, длина которого равна 1. Левый конец отрезка (точка х = 0) соответствует стратегии A₁, правый - стратегии A₂ (x = 1). Промежуточные точки х соответствуют вероятностям некоторых смешанных стратегий S₁ = (p₁,p₂).
2. На левой оси ординат откладываются выигрыши стратегии A₁. На линии, параллельной оси ординат, из точки 1 откладываются выигрыши стратегии A₂.
Решение игры (2 x n) проводим с позиции игрока A, придерживающегося максиминной стратегии. Доминирующихся и дублирующих стратегий ни у одного из игроков нет.
Максиминной оптимальной стратегии игрока A соответствует точка N, лежащая на пересечении прямых B₂B₂ и B₃B₃, для которых можно записать следующую систему уравнений:
y = 6 + (1 - 6)p₂
y = 4 + (9 - 4)p₂
Откуда
p₁ = ⁴/₅
p₂ = ¹/₅
Цена игры, y = 5
Теперь можно найти минимаксную стратегию игрока B, записав соответствующую систему уравнений, исключив стратегию B₁,B₄, которая дает явно больший проигрыш игроку B, и, следовательно, q₁ = 0,q₄ = 0.
6q₂+4q₃ = y
q₂+9q₃ = y
q₂+q₃ = 1
или
6q₂+4q₃ = 5
q₂+9q₃ = 5
q₂+q₃ = 1
Решая эту систему методом Гаусса, находим: q₂ = ¹/₂, q₃ = ¹/₂

Нижняя и верхняя цена игры

Правила ввода данных

Поиск

Процесс

Сообщение