Методы решения матричных игр
маленькой и чего-то жду, рассчитываю, стою по целым дням у игорного стола и наблюдаю игру.
Наши рассмотрения мы начнем с матричных игр, число стратегий хотя бы одного из игроков в которых равно двум. 1.Для построения решений 2 Согласно теореме о двойном описании игры (теорема 2) нахождение цены игры и оптимального значения р Опишем общую схему, приводящую к искомому результату. Максимум функции
Поэтому сначала на плоскости
Решение. 1) Анализ игры на наличие седловой точки. Нижняя цена игры равна -1, верхняя цена игры равна 1. Седловой точки нет. Решение игры нужно искать в смешанных стратегиях.
легко получаем: 3) Построение нижней огибающей. Аккуратно строим на координатной плоскости
получаем Этим заканчивается решение игры для игрока А, поскольку в первую очередь интересует отыскание собственной оптимальной стратегии и ожидаемого наилучшего гарантированного результата. Замечание. Решающий матричную игру обычно отождествляет себя с одним из игроков (как правило, это игрок А), считая другого своим противником. Это связано еще и с тем, что в некоторых случаях основное внимание уделяется поиску оптимальных стратегий только игрока А, а стратегии противника могут вообще не интересовать исследователя. Однако в целом ряде случаев оказывается важным знать оптимальные смешанные стратегии обоих игроков.
а) Нижняя огибающая имеет ровно одну наивысшую точку
2. Если р
Пример 5 (продолжение). Покажем теперь, как найти полное решение игры, то есть еще и оптимальную смешанную стратегию 1) Пусть 2) Приравняем любой из двух средних выигрышей игрока В (игрок А выбирает только чистые стратегии), отвечающих предложенной смешанной стратегии 0 0 0 q 1-q 0
-2 -1 1 0 5 4 к цене игры 3) получают один и тот же результат Полное решение игры имеет следующий вид
2 Пусть теперь в матричной игре две чистые стратегии имеет игрок В, а число чистых стратегий у игрока А произвольно (равно m).
Пусть Q={q, 1-q} - произвольная смешанная стратегия игрока В. Если игрок А выбирает i-ю чистую стратегию, i = 1,2,...,m, то средний выигрыш игрока В в ситуации {i, Q} будет равным Зависимость этого выигрыша от переменной q описывается прямой. Графиком функции Абсцисса нижней точки полученной ломаной определяет оптимальную смешанную стратегию игрока В, а ордината Замечание. Отыскание оптимальной смешанной стратегии игрока А проводится по той же схеме, которая позволяет найти оптимальную смешанную стратегию игрока В в игре 2 Решение. 1) Анализ игры на наличие седловой точки. Нижняя цена игры равна 0, верхняя цена игры равна 3. Седловой точки нет. Решение игры нужно искать в смешанных стратегиях.
3) Построение верхней огибающей. Построим на координатной плоскости
5) Отыскание оптимальной смешанной стратегии игрока А. Полагая
Решение любой матричной игры может быть найдено методами линейного программирования. При этом требуемый объем вычислений напрямую зависит от числа чистых стратегий игроков (растет с его увеличением и, значит, с увеличением размеров матрицы игры). Поэтому любые приемы предварительного анализа игры, позволяющие уменьшать размеры ее платежной матрицы или еще как-то упрощать эту матрицу, не нанося ущерба решению, играют на практике весьма важную роль. В целом ряде случаев анализ платежкой матрицы обнаруживает, что некоторые чистые стратегии не могут внести никакого вклада в искомые оптимальные смешанные стратегии. Отбрасывание подобных стратегий позволяет заменить первоначальную матрицу на матрицу выигрышей меньших размеров. Опишем одну из таких возможностей более подробно. Пусть А= Замечание. Игрок А поступит разумно, если будет избегать стратегий, которым в матрице игры отвечают доминируемые строки. Если в матрице А одна из строк (j -я) доминирует другую строку (i-ю), то число строк в матрице А можно уменьшить путем отбрасывания доминируемой строки (i-й). Аналогично, можно определять l-й столбец доминирующий k-й столбец, или что стратегия В
Замечание. Игрок В поступит разумно, если будет избегать стратегий, которым в матрице игры отвечают доминируемые столбцы. Если в матрице А один из столбцов (l-й) доминирует другой столбец (k-й), то число столбцов в матрице А можно уменьшить путем отбрасывания домииируемого столбца (k-го).
Сравнивая строки матрицы, видим, что 1-я строка совпадает с 4-й строкой, или, что то же, стратегия А
Поэлементно сравнивая 1-ю и 2-ю строки, замечаем, что 1-я строка доминирует 2-ю строку, или, что то же, стратегия А
Замечая, что 4-й столбец полученной матрицы доминирует ее 3-й столбец, и вычеркивая его, приходим к игре с 2 х 3-матрицей
Решая эту 2 х 3 игру графическим методом, находим ее решение - цену игры и оптимальные смешанные стратегии игроков А и В: Возвращаясь к исходной 4 х 4 игре, получаем окончательный ответ: Замечание. При отбрасывании доминируемых строк и столбцов некоторые из оптимальных стратегий могут быть потеряны. Однако цена игры не изменится, и по усеченной матрице может быть найдена хотя бы одна пара оптимальных смешанных стратегий. При поиске решения матричных игр часто оказывается полезным следующее свойство. Допустимые преобразования матрицы игры и ее цена. Оптимальные стратегии у матричных игр, элементы матриц А и С которых связаны равенствами Пример 8. Элементы матриц
связаны равенством
1-й этап - проверка наличия (или отсутствия) равновесия в чистых стратегиях (при наличии равновесной ситуации указываются соответствующие оптимальные стратегии игроков и цена игры). 2-й этап - поиск доминирующих стратегий (в случае успеха этого поиска - отбрасывание доминируемых строк и столбцов в исходной матрице игры). 3-й этап - замена игры на ее смешанное расширение и отыскание оптимальных смешанных стратегий и цены игры. 2. Итерационный метод решения матричных игр. Опишем метод отыскания решения матричной игры (цены игры и оптимальных смешанных стратегий), в известной степени верно отражающий некоторую реальную ситуацию накопления опыта постепенной выработки игроками хороших стратегий в результате многих повторений конфликтных ситуаций. Основная идея метода заключается в том, чтобы мысленно смоделировать реальное практическое «обучение» игроков в ходе самой игры, когда каждый из игроков на собственном опыте прощупывает способ поведения противника и старается отвечать на него наиболее выгодным для себя образом. Иными словами, всякий раз при возобновлении игры игрок выбирает наиболее выгодную для себя стратегию, опираясь на предыдущий выбор противника. Проиллюстрируем этот метод на примере игры, заданной матрицей
(здесь maxmin = 0, minmax = 2 и, следовательно, седловой точки нет). Опишем правила выбора ходов игроками, предположив, для определенности, что начинает игрок А: ход игрока А - стратегия А игрок В выбирает свою стратегию так, чтобы выигрыш игрока А был минимален: ход игрока B - стратегия B игрок А выбирает свою стратегию так, чтобы его выигрыш при стратегии В ход игрока А - стратегия А игрок В выбирает свою стратегию так, чтобы «накопленный» выигрыш игрока А при стратегиях А (2 0 3)+(1 3 -3)=(3 3 0), был минимален: игрок А выбирает свою стратегию так, чтобы его «накопленный» выигрыш при стратегиях В
ход игрока А - стратегия А игрок В выбирает свою стратегию так, чтобы «накопленный» выигрыш игрока А при стратегиях А ход игрока В - стратегия В и т.д. Разобьем последовательные ходы игроков А и В на пары (ход игрока А, ход игрока В) и запишем результаты в таблице.
Описание таблицы. 1-й столбец - номер n шага (пары последовательных ходов игроков А и В), 2-й столбец — номер i стратегии, выбранной игроком А, 3-й столбец — «накопленный» суммарный выигрыш игрока А за первые n шагов при выборе игроком В стратегии В шагов при выборе игроком В стратегии В шагов при выборе игроком В стратегии В 6-й столбец — минимальный средний выигрыш игрока А, равный минимальному накопленному им выигрышу за первые n шагов, деленному на число этих шагов, шагов при выборе им стратегии А 9-й столбец — «накопленный» суммарный выигрыш игрока А за первые n шагов при выборе им стратегии А максимальному накопленному им выигрышу за первые n шагов, деленному на число этих шагов, и максимального среднего выигрыша игрока А. Решение игры определяется приближенно по окончании любого из шагов. Например, за приближенную цену игры можно взять среднее арифметическое v(n), полученное на n-м шаге. Смешанные стратегии противников определяются частотами появления чистых стратегий. После 9-го шага имеем v(9) = 1,00. При этом игрок А 6 раз использовал стратегию А v(12) =1,00, P заметим, что по мере увеличения числа шагов приближенные значения все меньше отличаются от точных.
Популярное: Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... ![]() ©2015-2024 megaobuchalka.com Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (2687)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |