Автор: Пользователь скрыл имя, 29 Сентября 2012 в 20:03, курс лекций
Лекция 1. Управленческие решения.
Принятие решений делится на два блока:
1. На основе интуиции - интуитивные методы (весьма не точны);
2.1. Принятие решений в условиях определённости - на основе формальных моделей;
2.2. Принятие решений в условиях риска;
2.3. Принятие решений в условиях неопределённости;
Будем условно обозначать конкретную партию игры в виде
g = (x, y, h) (3.2)
Результатом партии игры является выигрыш (или проигрыш) каждого из игроков. Этот результат не всегда имеет количественное выражение. Однако для получения количественных оценок принимаемых решений результат игры необходимо хотя бы условно, представить числом (например, выигрыш – 1, проигрыш – 0, ничья – 0,5).
Рассмотрим одну из конкретных партий игры g = (x, y, h) и обозначим через L1 (x, y, h) и L2 (x, y, h) величины проигрыша первого и второго игрока соответственно. Условимся проигрышу приписывать знак «+», а выигрышу –
«-», то есть выигрыши рассматривать как отрицательные проигрыши. Общая сумма L∑ (x, y, h) проигрышей обоих игроков в партии g = (x, y, h) равна
L∑ (x, y, h) = L1 (x, y, h) + L2 (x, y, h) (3.3)
В парной антагонистической игре общая сумма проигрышей L∑ (x, y, h) равна нулю: проигрыш одного игрока – выигрыш другого.
Проигрыш игрока 2 в теории игр называется потерями. С их помощью оценивают результат игры. Обозначим потери как L (x, y, h). Очевидно, что
L (x, y, h) = L2 (x, y, h) = - L1 (x, y, h) (3.4)
Поскольку стратегия h является случайной, то при выбранных стратегиях x и y игроков 1 и 2 потери L (x, y, h) будут случайной величиной с распределением вероятностей P(h) на множестве H случайных стратегий. Чтобы оценить выбранные стратегии x и y игроков на бесконечном множестве партий игры, прибегнем к приему усреднения потерь L (x, y, h) по всему множеству случайных стратегий H, для чего введем понятие средних потерь Lср(x, y), определяемых по формуле для математического ожидания случайной величины:
Lср (x, y) = (3.5)
Функция Lср (x, y) в теории игр называется функцией средних потерь или просто функцией потерь. Очевидно, что при многократном повторении партий игры с одними и теми же конкретными стратегиями x и y игроков суммарный проигрыш игрока 2 (а значит и суммарный выигрыш игрока 1) стремится к величине функции средних потерь Lср (x, y). В этом смысле последняя является характеристикой качества стратегий игроков (результат игры как бы «очищается» от влияния случайных стратегий h Є H).
В теории игр принято считать, что парная антагонистическая игра формально определена, если перечислены все возможные стратегии игроков 1 и 2, то есть заданы множества стратегий X и Y, и для любых конкретных стратегий x Є X и y Є Y определена функция потерь Lср (x, y). Таким образом, мы приходим к следующему формальному определению игры:
Игра G определяется тремя элементами X, Y, Lср, что условно можно записать в виде
G = (X, Y, Lср) (3.6)
Игры, в которых каждый игрок имеет конечное число стратегий (конечные игры), удобно задавать с помощью так называемых матриц потерь. В случае игры с нулевой суммой достаточно задавать одну матрицу. Пусть G – некая конечная игра с нулевой суммой, в которой игрок 1 имеет m возможных стратегий, игрок 2 – n возможных стратегий, то есть X и Y есть конечные множества.
X = {x1, x2, … xn},
Y = {y1, y2, … yn}.
Тогда матрица порядка m*n
, (3.7)
элемент которой qij = Lср (xi, yi), называется матрицей потерь. Элемент матрицы qij, очевидно, имеет смысл средних потерь игрока 2 при реализации игроками стратегии xi и yi, иначе – среднего платежа игрока 2 игроку 1, если игрок 1 предпринимает стратегию xi, а игрок 2 – стратегию yi. Отсюда другое название матрицы потерь – платежная матрица.
С использованием платежной матрицы Q конечная парная антагонистическая игра G может быть формально определена тремя элементами X, Y, Q, что условно можно записать в виде:
G = (X, Y, Q) (3.8)
где
X = {xi}, i Є 1,m – m-мерное множество возможных стратегий игрока 1;
Y = {yi}, j Є 1,n – n-мерное множество возможных стратегий игрока 2;
Q = {qij}, i Є 1,m j Є 1,n – платежная матрица размера m*n.
Задание игры в виде 3.6 или 3.8 определяет ее в том только смысле, что задает все возможные стратегии обоих игроков и определяет средний результат игры для каждого возможного сочетания стратегий. Непосредственное же разыгрывание каждой партии игры g = (x, y, h) регламентируется правилами игры, определяющими порядок чередования ходов и признак окончания партии игры, объем информации каждого игрока о поведении других игроков, а также сведения о случайных ходах в игре и вероятностях их возможных исходов.
Основная теорема теории игр – теорема о существовании решения игры – гласит: любая конечная антагонистическая игра имеет решение, то есть оптимальные стратегии для обоих игроков и соответствующую цену игры. Решение конечной парной антагонистической игры лежит в области чистых или смешанных стратегий. Решение в чистых стратегиях имеет место в играх с седловой точкой. Если же игра не имеет седловой точки, то ее решение лежит в области смешанных стратегий.
3.4. Игры с седловой точкой
Для того чтобы определить понятие седловой точки, необходимо определиться с тем, что понимается под максимином и минимаксом платежной матрицы.
Максимином или нижней ценой игры называется элемент платежной матрицы, равный максимуму из минимумов по строкам матрицы. Если обозначить максимин через v1, то
(3.9)
Минимаксом или верхней ценой игры называется такой элемент матрицы, который равен минимуму из максимумов по столбцам матрицы. Если обозначить минимакс через v2, то
(3.10)
Например:
y1 |
y2 |
y3 |
y4 |
qi min | |
x1 |
3 |
8 |
2 |
3 |
2 |
x2 |
4 |
3 |
8 |
5 |
3 maxmin |
x3 |
7 |
2 |
1 |
6 |
1 |
qj max |
7 |
8 |
8 |
6 minmax |
Очевидно, что величины максимина и минимакса связаны соотношением
v1 ≤ v2 (3.11)
Стратегия игрока 1, соответствующая максимину v1 называется максиминной стратегией. Стратегия игрока 2, соответствующая минимаксу v2, называется минимаксной стратегией. Минимаксная и максиминная стратегии образуют пару минимаксных стратегий.
Если игрок 1 будет придерживаться своей максиминной стратегии, то он независимо от поведения противника гарантирует себе выигрыш не менее чем максимин v1, то есть не менее нижней цены игры. Если игрок 2 будет придерживаться своей минимаксной стратегии, то он гарантирует себе, что проиграет не более чем минимакс v2, то есть не более верхней цены игры. Минимаксные стратегии часто называют стратегиями предельной осторожности или стратегиями гарантированного результата (выигрыша или проигрыша).
Принцип осторожности, диктующий игрокам выбор соответствующих стратегий (максиминной или минимаксной), является в теории игр одним из основных и называется принципом минимакса. Он вытекает из предположения о разумности каждого игрока, стемящегося в операции достигнуть цели, противоположной цели противника.
Существуют игры, для которых максимин равен минимаксу, то есть v1 = v2. Соответствующий элемент платежной матрицы называется седловой точкой. Иначе, седловой точкой называется элемент, который является одновременно минимальным в своей строке и максимальным в своем столбце.
y1 |
y2 |
y3 |
qi min | |
x1 |
1 |
3 |
10 |
1 |
x2 |
6 |
4 |
5 |
4 maxmin |
x3 |
8 |
3 |
2 |
2 |
qj max |
8 |
4 minimax |
10 |
Элемент платежной матрицы, соответствующий ее седловой точке (если она существует), называется чистой ценой игры. Обозначим ее через v. Совокупность минимаксных стратегий и чистая цена игры v являются решением игры с седловой точкой или, иначе, решением игры в чистых стратегиях (стратегия, выбираемая игроком в результате сознательного акта, без привлечения какого-либо случайного механизма).
В этих условиях если один из игроков узнает о намерении другого придерживаться минимаксной стратегии, то эта информация вынуждает его придерживаться своей минимаксной стратегии, а, значит, в игре с седловой точкой нет необходимости скрывать свои намерения.
3.5. Методы решения игр.
Покажем, что любая конечная антагонистическая игра m*n может быть сведена к задаче линейного программирования и, следовательно, решена методами линейного программирования, в частности точными, например симплекс-методом.
Рассмотрим конечную игру G = (X, Y, Q) размера m*n, где множества стратегий X = {xi}, Y = {yi} и платежная матрица Q = |qij|, i Є 1,m, j Є 1,n заданы.
Поскольку в реальных ситуациях чистых стратегий не бывает, требуется найти решение игры в смешанных стратегиях (добавляется фактор вероятности), то есть цену игры vp и две оптимальные смешанные стратегии P1 = (p1i) и P2 = (p2i), где P1 и P2 – вероятностные векторы, компоненты которых удовлетворяют условиям:
(3.12)
(3.13)
Будем сначала искать оптимальную стратегию P1 игрока 1. При ее определении будем исходить из свойств оптимальной стратегии, а именно будем учитывать, что эта стратегия должна обеспечить игроку 1 выигрыш не меньший vp, при любом поведении противника, и равно vp – при его оптимальном поведении.
Цена игры vp пока неизвестна. Будем считать, что vp > 0. Чтобы это условие выполнялось, достаточно, чтобы все элементы платежной матрицы Q = |qij| были неотрицательными, то есть qij ≥ 0. Этого всегда можно добиться, прибавляя ко всем элементам qij достаточно большое число M. При этом цена игры увеличится на М, а оптимальные стратегии не изменятся.
Предположим, что игрок 1 применяет свою смешанную стратегию P1, а игрок 2 – чистую стратегию yi. Тогда средний выигрыш игрока 1, обозначенный q1j, равен
q1j = = p11q1j + p12q2j + … + p1mqmj, j Є 1,n (3.14)
Поскольку ищется оптимальная стратегия игрока 1, то его средний выигрыш q1j должен удовлетворять условию q1j ≥ vp, откуда следует n условий:
(3.15)
Введем обозначения
L1 = 1 / vp;
z1i = p1i / vp , i Є 1,m.
С использованием введенных обозначений из (3.12) и (3.15) получаем:
Поскольку игрок 1 стремится максимизировать свой выигрыш (доставить максимум цене игры vp), то это равносильно требованию минимизировать величину L1 = 1/vp, то есть равносильно требованию
L1 = (3.19)
Аналогичным образом можно найти оптимальную стратегию игрока 2.
5.1. Общая постановка многокритериальной детерминированной статистической ЗПР.
Пусть имеет место
некоторая операция, исход которой
зависит от действия ЛПР и некоторых
неслучайных фиксированных
Компоненты xj вектора управления X связаны рядом ограничений, обусловленных конкртеным физическим и экономическим существом задачи. Эти ограничения можно представить в общем виде как условия
gi = gi (Ci, X) ≥ bi, i Є 1,m (5.1)
где gi – некоторая функция; bi – фиксированная скалярная величина; Сi – некоторая совокупность фиксированных величин (например, скаляр, вектор и т.п.).
Условия (5.1) определяют область ΩX допустимых значений X. ЛПР управляет операцией, выбирая ту или иную стратегию из области ΩX их допустимых значений.
Эффективность действий ЛПР оценивается совокупностью критериев e1, e2, …, ek, которые могут различаться своими коэффициентами относительной важности λ1, λ2, …, λk.
Критерии eq, q Є 1,k образуют вектор критериев E = (eq), а коэффициенты λq – вектор важности Λ = (λq). Критерии eq, q Є 1,k, входящие в состав векторного критерия E, будем называть частными или локальными критериями. Каждый локальный критерий характеризует некоторую локальную цель операции.
Локальные критерии, в свою очередь, могут быть как скалярами, так и векторами или какими-то более сложными образованиями.
Каждый локальный критерий eq связан со стратегией, то есть
eq = eq (Aq, X), q Є 1,k (5.2)
где Aq – некоторая совокупность фиксированных факторов.
Тогда векторный критерий Е будет представлять собой вектор-функцию от стратегии Х, то есть
Е = ( еq (Аq, Х) ) = Е (А, Х) (5.3)
где А – совокупность констант, соответствующая совокупности локальных констант Аq, q Є 1,k.
Пусть цель ЛПР состоит
в увеличении возможных значений
всех локальных критериев