为了了解博弈论中引入“混合策略”概念的动机,我们来看用“划线法”对相当简单的“猜谜博弈”求解的结果,其结果如图8.3.1所示。
一、混合策略
1.混合策略的定义
设 Ⅰ与Ⅱ是一个博弈的两个局中人。他们的纯策略集(c8.2)分别记为:
S={s1,s2,…sn}和T={t1,t2, …tm} (8.3.1)
x=(x1,x2, …xn)T;xi≥0(i=1,2, …n);∑xi = 1
y=(y1,y2, …ym)T;yj≥0(j=1,2, …m);∑yj = 1
Ⅰ 以概率x1选择策略s1,以概率x2选择策略s2,……以概率xn选择策略sn。
Ⅱ 以概率y1选择策略t1,以概率y2选择策略t2,……以概率ym选择策略tm。
则 称x为局中人Ⅰ的混合策略;称y为局中人Ⅱ的混合策略。
混合策略的实践意义是表示局中人对各个纯策略的偏好程度,或是对多次博弈达到均衡结局的各个纯策略选择的概率估计,因此体现了主观概率的意义。
2.混合策略集
根据混合策略的定义,易见,纯策略可视为特殊的混合策略。例如局中人Ⅰ的一个纯策略策略si∈S 就是特殊的混合策略x' :此概率向量的分量取值为:
x'i=1 ,x'j=0 (j≠i)
也就是Ⅰ选择策略s1的概率为0(不妨设i≠1),……选择策略si的概率为1,……选择策略sn的概率为0(不妨设i≠n)。有了这个见解,后文中,我们将记:
X={x∈Rn| x=(x1,x2, …xn)T;xi≥0(i=1,2, …n); ∑xi = 1}; (8.3.2)
Y={y∈Rm| y=(y1,y2, …ym)T;yj≥0(j=1,2, …m);∑yj = 1}。 (8.3.3)
注意到纯策略集S是一个有限集,由它生成的凸集,也就是单纯形(参阅第二章有关内容)可表示为:
![]()
可见,混合策略集X与纯策略集S生成的凸集(单纯形)1-1对应(在数学上称为同构),因此可以把混合策略集X“看成”由纯策略集S拓展的凸集(单纯形),而且集S是集X的极点子集。同理可以把混合策略集Y“看成”由纯策略集T拓展的凸集(单纯形),而且集T是集Y的极点子集。按照这样的理解,就不难把握混合策略的概念,即每一个混合策略x表示了由全部纯策略si∈S以凸组合方式产生的一个策略。
3.混合策略结局的盈利函数
设 博弈的局中人Ⅰ与Ⅱ各自的纯策略集S和T,以及各自的混合策略集X、Y分别由式(8.3.1)、式(8.3.2)和式(8.3.3)定义。博弈的盈利矩阵模型为:



则 定义混合策略结局的盈利函数如下:
(1) 任取si∈S,任取y∈Y,定义结局(si, y)的盈利函数为:
(8.3.4)
(2) 任取tj∈T,任取x∈X,定义结局(x, tj)的盈利函数为:
(8.3.5)


将式(8.3.6)给出的u1(x,y)的定义与(8.3.4)给出的u1(si,y)的定义作联系分析,以及将式(8.3.7)给出的u2(x,y)的定义与(8.3.5)给出的u2(x,tj)的定义作联系分析,容易得出u1(x,y)以及u2(x,y)有下列等价的表达式:
(8.3.9)
(8.3.10)
二、混合策略的纳什均衡
(一)混合策略纳什均衡的概念
1、混合策略纳什均衡的定义
设 博弈的局中人Ⅰ与Ⅱ各自的纯策略集S和T,以及各自的混合策略集X、Y分别由式(8.3.1)、式(8.3.2)和式(8.3.3)定义。
若 一个混合策略的结局(x, y)∈X×Y满足下列条件:
(1)
(8.3.11)
(2)
(8.3.12)
则 称混合策略的结局(x, y)是纳什均衡。
2、混合策略纳什均衡的含义
因为可以把混合策略集X“看成”以纯策略集S为极点子集而拓展的凸集(单纯形)。因此根据定义在凸集上的函数(称为凸函数)的性质,可以证明,若式(8.3.11)成立,则下式也必然成立:
(8.3.13)
(8.3.14)
由于在博弈中局中人Ⅰ和局中人Ⅱ都选择“理性”行动,这样双方的博弈将在结局(x, y)下达到均衡状态。
[例8.3.1] 验证x=(1/2, 1/2)T , y=(1/2, 1/2)T 构成的混合策略结局(x, y)是“猜谜博弈”的纳什均衡。
解 “猜谜博弈”的模型是:



(二)”2策略博弈“的求纳什均衡的方法
[定理8.3.1]
若 博弈的局中人Ⅰ与Ⅱ各自的纯策略集S和T都是2策略集:
S={s1,s2 }和T={t1,t2 }
则 混合策略结局(x, y)是纳什均衡的充要条件是:
(8.1.15)
(8.1.16)
证明 可设:
![]()

![]()
![]()
![]()
再正充分性,设u1(s1,y)=u1(s2,y),则

![]()
[例8.3.2] 求图8.3.2给出的博弈的纳什均衡。

解 由式(8.3.4)

2q-1=0
∴ q=1/2



三、混合策略纳什均衡的两则应用
我们介绍“监察博弈”和“共同投资博弈”来认识混合策略纳什均衡的典型应用
(一)监察博弈
1、监察博弈的模型
代理商为委托人干活,有两个策略可供选择:工作(W)与偷懒(S)。假设工作使代
商花费g,由此获得委托人付给他的工资w(w>g是一个合理的假设,否则代理商没有任何工作积极性)。委托人在监督方面也有两个可供寻则的纯策略:检查(I)与不检查(N)。如果委托人检查需要费用h,以此代价换得代理商是否在偷懒的信息。一旦发现代理商偷懒,则扣除工资作为惩罚,若代理商工作而不偷懒,则将为委托人增加价值v的财产(显然v>w)。如果这些信息是共同知识,两个局中人进行完全信息静态博弈。进而, 不妨假设g>h>0,即抓住主要矛盾,忽视次要情况,以简便讨论。这个博弈的盈利矩阵如图8.3.3所示。

2.求图监察博弈的纳什均衡,并求委托人应付给代理人的工资的参考值。
(1)求图监察博弈的纳什均衡。
首先用划线法试求纯策略纳什均衡,结果如图8.3.3所示,可见,监察博弈在不存在纯策略纳什均衡。下面依据定理8.3.1求混合策略纳什均衡。

由u1(W,y)=u1(S,y),得:
(8.3.19)
(8.3.20)
由u2(x,I)=u2(x,N)得:
(8.3.21)
由(8.3.10)式,以及(8.3.19)式和(8.3.20)式委托人的期望盈利是:

![]()
![]()
(二)共同投资博弈
1、共同投资博弈模型
有两个投资者,共同投资一个较大的项目,他们可以获得较大的回报。但若他俩中有一人抽出资金用于一个小项目,抽出者尽管比投资较大项目时收益要小,但他肯定可以获得相应回报,然而他的这一做法将使较大项目陷于困境,会使另一投资者蒙受损失。是冒一定风险坚持投资于较大的项目,以获取较大的回报,还是抽回资金投资于小项目以图有个“旱涝保收”这就是“共同投资博弈”要解决的问题。图8.3.4给出了这个博弈的模型,其中的数据是假设的,但能刻画这个博弈的各种结局是的局中人的收益。模型中U表示局中人Ⅰ坚持投资大项目,D表示局中人Ⅰ抽回资金投资小项目;模型中L表示局中人Ⅱ坚持投资大项目,R表示局中人Ⅱ抽回资金投资小项目。

(1)“有效”最优均衡
用划线法求纯策略解,如图8.3.4所示。博弈存在两个纯策略均衡:(U,L)与(D,R), 毫无疑问结局(U,L)是“有效”(经济学概念)的最优结局,因为(U,L)是在不损害他人的前提下,局中人将不可能再增加自己的利益,因此在经济上也是有效结果。
风险占优要考虑的是:局中人Ⅱ取R的可能性有多大时,局中人Ⅰ只要选择 D的盈利会大于选择U的盈利。
我们可设局中人Ⅱ取R概率为y,这时局中人Ⅰ取U时的期望盈利为:
u1(U,y)=9(1-y)+0*y=9-9y
u1(D,y)=8(1-y)+7y=8-y
这表明,如果局中人Ⅰ预测到局中人Ⅱ取策略R的概率大于1/8的话,从期望盈利考虑,局中人Ⅰ应采取D。注意到盈利矩阵关于两个局中人是对称的,同样的讨论告知,如果局中人Ⅱ预测到局中人Ⅰ取策略D的概率大于1/8的话,从期望盈利考虑,局中人Ⅰ应采取R。1/8是个小概率,因此一般来说,从风险占优角度,(D,R)优于(U,L)。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/119229.html