试题详情
简答题用“小偷与守卫的博弈”说明“激励悖论”。
  • 犯罪和防止犯罪是罪犯和警察之间进行博弈的一场游戏。警察可以加强巡逻,或者休息。犯罪者可以采取作案、不作案两种策略。如果罪犯知道警察休息,他的最佳选择就是作案;如果警察加强巡逻,他最好还是不作案。对于警察,如果他知道犯罪者想作案,他的最佳选择是加强巡逻,如果犯罪者采取不作案,自己最好去休息。当然,犯罪者和警察都不可能完全知晓对方将采取的行动,因此他们都将估计对方采取某种行动的概率,从而决定自己要采取的行动。结果是,他们将以一定的概率随机地采取行动,这叫“混合策略”。 我们可以简单地分析一下混合策略(对数字不感兴趣的读者可以不看下面一段)。下面是犯罪者与警察的支付矩阵(假定犯罪者在警察休息时一定作案成功,在警察巡逻时作案一定会被抓住):


    这个矩阵的数字含义可以表示,警察巡逻,犯罪者不作案,双方都没有收益也没有损失;警察巡逻,犯罪者作案,警察因抓到罪犯受到表彰,得到效用2单位,罪犯被判刑丧失效用2单位;警察休息,犯罪者不作案,警察休息的很愉快得到效用2单位,犯罪者没有收益也没有损失;警察休息,犯罪者作案,警察因失职被处分而丧失效用1单位,罪犯犯罪成功获得效用1单位。这个博弈是没有纳什均衡的。
    但是,如果警察知道犯罪者以p的概率选择作案(不作案概率就为1-p),他该怎样采取自己的行动?对警察而言,巡逻的预期效用为0×(1-p)+2p=2p,休息的预期效用为2×(1-p)-1×p=2-3p。显然,当2p>2-3p即p>0.4的时候,警察最好选择巡逻;反之2p<2-3p即p<0.4的时候,警察宁愿选择休息。假设警察应以q的概率巡逻(休息的概率就为1-q),那么犯罪者最好的行动是什么?他作案的预期效用是-2×q+1×(1-q)=1-3q,不作案的预期效用为0×q+0×(1-q)=0。显然,当1-3q>0即q<0.33时,他的理性选择是作案,反之不作案。在这个博弈中,警察以0.33的概率巡逻0.67的概率休息,犯罪者以0.4 的概率作案0.6的概率不作案构成一个混合纳什均衡。
    上述混合纳什均衡可以这样理解,如果警察以高于0.33的概率巡逻,犯罪者最好是躲避起来。犯罪者一旦躲避,警察就没有收获,于是降低巡逻的概率,于是犯罪者重新活跃,于是警察又提高巡逻概率„„从一个长期来看,两者的均衡将维持在警察以0.33的概率巡逻犯罪者以0.4的概率作案上面。现实中,我们看到,当严打的时候(警察出击的概率较高),犯罪分子便收敛一阵(降低作案概率);严打的时期一过,犯罪分子又开始兴风作浪,在不能容忍罪犯过分猖狂的时候,警界不得不再次开始严打。
    在上述例子中,可能大家觉得警察和犯罪者都根据一定概率采取自己的行动不太好理解,那么可以尝试这样理解他们:作案的犯罪者越多,那么出动的警察将会越多,作案的犯罪者越少,出动的警察将越少;反过来,出动的警察越多,作案的犯罪者就越少,出动的警察越少,作案的犯罪者就越多。极端地假设一个例子(它有助于我们的理解),警局有100名警察,犯罪集团有100名犯罪者,那么上例博弈中,警察以0.33的概率巡逻而犯罪者以0.4 的概率作案这一纳什均衡可以理解为:在巡逻的警察少于33人时,犯罪集团最好派40名以上的犯罪者作案;在巡逻警察多于33人时,犯罪集团最好派40名以下的犯罪者作案;反过来,犯罪集团派40名以下犯罪者作案,警局最优选择出动33名以下的警察;犯罪集团派40名以上犯罪者作案,警局最优选择出动33名以上的警察。当然,如果犯罪集团倾巢出动,那么警察的选择也是全部出动,但警察一旦全部出动,犯罪者最好选择全部不作案,犯罪者一旦选择全部不作案,警察最好全部选择休息„„最后长期的均衡状态是,警局派33名警察巡逻,犯罪集团派40个人作案。这可以解释现实中,为什么警界总安排有巡逻力量,而犯罪者也总保持一定的作案数量。总之,这种警察和犯罪者的博弈所揭示出:加重对罪犯的处罚在长期中并不能抑制犯罪(而只能使警察偷懒);加重处罚失职警察恰恰是会降低犯罪发生的概率。 这种警察和犯罪者的博弈所揭示的,政策目标和政策结果之间的这种意外关系,常被称为“激励的悖论”。
  • 关注下方微信公众号,在线模考后查看

热门试题