НОВОСТИ    БИБЛИОТЕКА    ЭНЦИКЛОПЕДИЯ    БИОГРАФИИ    КАРТА САЙТА    ССЫЛКИ    О ПРОЕКТЕ  

предыдущая главасодержаниеследующая глава

7. Игровые модели

7.1. "Метеор" - "Вымпел" (на футбольную тему)


Приближался к концу финальный матч за переход в более высокую лигу между командами "Метеор" и "Вымпел". Счет был ничейным, каждая команда имела в запасе по нападающему и защитнику, но могла провести только по одной замене. Тренер "Метеора" Всезнаев знал, что его нападающий переиграет запасного защитника "Вымпела", но проиграет запасному нападающему, в то время как запасной защитник "Метеора" удержит нападающего "Вымпела", но сыграет хуже защитника команды противника. Всезнаев составил следующую таблицу:


в которой положительное число соответствует преимуществу "Метеора", а отрицательное - преимуществу "Вымпела" (в некоторых условных оценках). Тренер "Метеора" стал рассуждать следующим образом: "Если я выпущу нападающего (назовем это решение стратегией* A1) и тренер "Вымпела" это узнает, то он тоже выпустит нападающего (стратегия B1), и мы проиграем с оценкой - 1 (т. е. преимущество получит "Вымпел"), а если я выпущу защитника (стратегия A2), то он выставит тоже защитника (стратегия B2), и мы вновь проиграем с оценкой - 1. Но тренер "Вымпела" Находчивый не знает, что я собираюсь делать. Поэтому он будет считать, что против его нападающего я выпущу защитника, и он тем самым проиграет единицу, а против его защитника я выпущу своего нападающего, и мы получим преимущество в три единицы".

* (О понятии стратегии подробнее см. дальше.)

Всезнаев был немного знаком с теорией игр и решил выпустить защитника. Почему же он пришел к такому решению?

А потому, что рассуждал следующим образом: "Допустим, что p - вероятность (частота), с которой я выпускаю в ситуациях, аналогичных данной, нападающего. Тогда с вероятностью 1-p я в этих же ситуациях выпускаю защитника. В таком случае, если "Вымпел" выставит нападающего, мы, в среднем, приобретем преимущество, равное

v1(p) = -1*p + 1(1-p) = 1-2p,

а если Находчивый выставит защитника, то мы, в среднем, приобретем преимущество, равное

v2(p) = 3p - 1(1-p) = 4p - 1".

Таким образом, Всезнаеву надо найти такое значение p из отрезка [0, 1], при котором наименьшее значение из двух величин v1(p) и v2(p) оказывается наибольшим, т. е., как говорят, найти такое p, которое максимизирует минимум из двух величин: v1(p) и v2(p). Очевидно, что при увеличении p увеличивается v2(p), но зато уменьшается v1(p), и наоборот, уменьшение p повлечет за собой увеличение v1(p), но уменьшение v2(p). Всезнаев решил изобразить эти ситуации графически (рис. 20).

Рис. 20
Рис. 20

В качестве оси x он выбрал горизонтальную ось и предназначил ее для изображения величины p. От точки О он отложил единичный отрезок [0, J]. Левый конец (точку О) он отождествил со стратегией A1, правый (точку J) - с A2. Всезнаев твердо знал, что придерживаться во всех случаях только одной из этих стратегий, так сказать, в чистом виде (чистой стратегии), нецелесообразно. В самом деле, если использовать A1 с вероятностью p(A1) = 0 (т. е. вовсе не использовать), и A2 с вероятностью p(A2) = 1, то тренер Находчивый всегда станет выпускать своего защитника. Вот почему Всезнаев обратился к так называемым смешанным стратегиям А, в которых используются чистые стратегии A1, A2 с вероятностями p(A1) = p = p1 и p(A2) = p2 = 1-p. Каждой смешанной стратегии (p1, p2) Всезнаев сопоставил точку MA отрезка [0, J], определив ее так, чтобы расстояние |0 М(А)| = p1, |M(A) J| = p2. Затем через концы отрезка [0, J] провел пару вертикальных осей Oy и Jy', перпендикулярных оси Ox. Первую из этих осей предназначил для изображения выигрышей при использовании чистой стратегии A1, вторую - для выигрышей при A2. Если Находчивый будет придерживаться своей чистой стратегии B1, то выигрыш "Метеора" составит - 1 (точка B1), если он выберет стратегию B2, то выигрыш станет равным 3 (точка B2). Это при условии, что Всезнаев остановился на стратегии A1. Если же он выбрал стратегию A2, то выиграет либо 1 (при стратегии B1), либо - 1 (при стратегии B2). Эти выигрыши Всезнаев изобразил на оси Jy' точками B1' и B'2 соответственно. Затем он прямой B1B'1 (I) соединил соответствующие точки B1 и B'1. Прямая (I) проходит через точки B1 с координатами (0, 1) и В'2 с координатами (1, -1). Поэтому ее уравнением в системе координат Oxy служит y = 2x - 1. При любой смешанной стратегии A = (p1, p2), примененной Всезнаевым, он получает выигрыш, отвечающий Точке N(A) на прямой B1B'1 (стратегия B1 Находчивого), лежащей над точкой M(A). Действительно, ордината y(А) точки N (А) на прямой (I) равна y(А) = 2p2 - 1 = 2(1 - p1) - 1 = 1 - 2p1 = v1(p).

Подобным же способом он построил прямую B2B'2 (II) (стратегия B2 Находчивого) и отметил на ней точку L(A), ордината которой - выигрыш при использовании им смешанной стратегии A и при стратегии B2 Находчивого. На возникшем чертеже величина v2(p) изображается точкой L(A). Действительно, прямая (II) проходит через точки B2 (0, 3) и B2 (0, -1) и определена уравнением y = -4x + 3. При x = p2 ордината точки L(A) равна y(A) = -4p2 + 3 = -4 (1 - p1) + 3 = 4p1 - 1 = v2(p).

Всезнаев искал оптимальную для себя стратегию A0 = (p10, p20), т. е. такую, при которой его минимальный выигрыш (при наихудших для него действиях Находчивого) был возможно большим. Он сразу заметил, что ломаная B1B'0B'2 соответствует значениям минимума из двух величин v1 (p) и v2 (p) для различных p из отрезка [0, 1] и что максимум этих минимумов достигается в точке B0, т. е. в точке пересечения прямых (I) и (II).

Всезнаев нашел эту точку пересечения и соответствующее значение p0, решив уравнение

v1 (p) = v2 (p),

или

-1*p + 1*(1 - p) = 3p - 1*(1 - p).

Решением этого уравнения оказалось значение p0 = 1/3. Таким образом, в среднем, из трех случаев только в одном надо выпускать нападающего и в двух - защитника. Именно поэтому тренер "Метеора" решил выпустить защитника. Заметим, что такое "максиминное" (новый термин!) значение из значений v1 (p) и v2 (p) называется средним выигрышем тренера "Метеора" (отрицательный выигрыш - это проигрыш, но в теории игр всегда говорят о выигрыше). В нашем случае этот выигрыш составит при p0 = 1/3

v = v1(1/3) = v2(1/3) = 1/3.

А как же действовал Находчивый - тренер "Вымпела"? Он рассуждал аналогично (не забывайте, его выигрыш - отрицательные числа!): "Пусть с вероятностью q = q1 я выпущу нападающего, а с вероятностью 1 - q = q2 - защитника. Если Всезнаев выпустит нападающего, то наш выигрыш составит

v1(q)= -1*g + 3(1 - q)= -4q + 3 = 4q2 - 1,

а если тренер "Метеора" выпустит на поле защитника, то наше преимущество оценится величиной

v2(q) = 1*q - 1(1 - q) = 2q - 1 = -2q2 + 1".
Рис. 21
Рис. 21

Затем Находчивый также построил чертеж (рис. 21), аналогичный чертежу Всезнаева. Каждой точке T(В) единичного отрезка [0, J] он сопоставил свою смешанную стратегию B = (q1, q2) так, чтобы |OT(B)| = q2, |T(B)J| = q1. Оси Oz и Oz' он предназначил для изображения выигрышей при использовании чистых стратегий B1 и B2 соответственно. Если при выборе стратегии B1 Всезнаев выпустит нападающего (стратегия A1), то выигрыш Находчивого составит - 1 (точка A1). Если же Всезнаев выпустит защитника, то выигрыш Находчивого составит (точка A2). При использовании только стратегии B2 на оси Oz' возникают точки A1' (выигрыш, равный 3) и A2' (выигрыш -1). Находчивый подсчитал, что в системе координат xOz ординаты прямых A1A1' и A2A'2 определяют соответственно v1(q) и v2(q). Цель Находчивого состоит в нахождении такого q из [0, 1], которое минимизировало бы максимум двух величин v1(q) и v2(q), так как, чем меньше эта величина, тем выгоднее команде "Вымпел". Положительные числа - это выигрыш "Метеора", а отрицательные - "Вымпела". Посмотрев на рисунок, тренер "Вымпела" заметил, что ломаная A2A0A1' соответствует максимальным значениям из пары чисел v1(q) и v2(q) для различных q из отрезка [0, 1], а точка A0 - минимуму из этих максимумов, следовательно, при соответствующем значении q0 достигаются так называемые "минимаксные" (также новый термин!) значения v1(q) и v2(q). Решая уравнение

v1(q) = v2(q),

или

-4q + 3 = 2q - 1,

он нашел, что q0 = 2/3, т. е., в среднем, в двух случаях из трех целесообразно выпускать нападающего и только в одном случае - защитника. Средний выигрыш команды "Вымпел" в этом случае составит

v(q) = v1(q) = v2(q) = 1/3.

Следовательно, команда проиграла 1/3, так как ее выигрыш - отрицательное число, а проигрыш - положительное. Нетрудно понять, что сколько в среднем выиграл "Метеор", ровно столько же проиграл "Вымпел", и наоборот, т. е. сумма выигрышей двух этих команд равна нулю. Такие игры, в которых суммарный выигрыш равен 0, называются играми с нулевой суммой.

На примере действий тренера Всезнаева читатель познакомился с методикой принятия решения на основе рекомендаций математической теории игр. Знакомство окажется приятней и полезней, если его подкрепить дополнительными сведениями. К их изложению мы переходим.

предыдущая главасодержаниеследующая глава











© MATHEMLIB.RU, 2001-2021
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://mathemlib.ru/ 'Математическая библиотека'
Рейтинг@Mail.ru