深入博弈论


0x00 前言

博弈论最初只是用来研究象棋、赌博等游戏的一些胜负问题,它发展至今其实已经衍生出很多理论分支。简单归纳博弈的原理,其实就是两点:

  • 预测行为: 在游戏对局中,预测个体的行为是怎样的
  • 策略优化: 这些个体又如何利用对方的策略优化自身策略,最终达到取胜目的

这次分开两个篇章,教大家如何利用博弈论玩狼人杀。

为了给部分同学补盲,在这个篇章《深入博弈论》中,先通过一些简单的案例带大家认识博弈的过程和方法,在下个篇章再谈狼人杀。

0x10 静态博弈(纳什均衡)

0x11 囚徒困境

这里拿博弈论中最著名的例子 《囚徒困境》 来让大家感受一下博弈的过程。

【题目】

囚徒困境描述了这样的一件事情:

  • 有 A B 两个小偷同时被警察抓住了,分别关在两个审讯室单独审问
  • 两个小偷只能选择坦白或者抗拒,而且这两个小偷没有串供的机会

【规则】

警察就分别跟他们说:

  • 如果你们 2 人都坦白,那就坦白从宽,都关 8 年
  • 如果你们都抗拒,那我也没什么证据,只能意思意思,每人都关 1 年
  • 但如果 1 个坦白 1 个 抗拒,那抗拒的那个就从严,关 10 年; 坦白的那个因为是污点证人,直接释放

【问题】

这个时候 A 和 B 会做如何选择呢?


我们不妨画一个表,看看 A 和 B 在不同选择下会有什么样的收益。

  • 假如 A 和 B 都坦白,两人都判 8 年,收益就是 (-8, -8)
  • 假如 A 和 B 都抗拒,两人都判 1 年,收益就是 (-1,-1)
  • 假如 A 坦白 B 抗拒,那么 A 释放,B 判 10 年,收益就是 (0, -10)
  • 假如 A 抗拒 B 坦白,那么 A 判 10 年,B 释放,收益就是 (-10, 0)

显然全局最大收益是两人都抗拒,各判 1 年。

但是个人最大收益并不在这里,因为 A 和 B 都没有串供:

  • 所以在 A 看来: 坦白判 8 年,抗拒判 10 年,A 会选择坦白
  • 对 B 也是一样: 坦白判 8 年,抗拒判 10 年,B 也会选择坦白

所以最终 A 和 B 都会选择坦白,都关 8 年,而这个在博弈里面称之为 纳什均衡

那究竟什么是 纳什均衡 呢?这里再通过一个经济学模型详细分析一下:

0x12 旅行者困境

在 1994 年的时候,印度的经济学家 巴苏 提出了这么一个 旅行者困境 模型:

【题目】

有两个旅行者 A 和 B,他们在旅游的时候各买了一件相同的瓷器,但坐飞机回家的时候都弄丢了。

于是他们就找航空公司索赔,但是他们俩声称不记得瓷器的价格是多少,只知道是在 2 ~ 100 元之间。

【规则】

航空公司就说,好,我们可以赔,但是你们要分别在纸上写出这个瓷器的价格:

  • 如果两人写的价格都是一样的,那么航空公司就认为这个价格是真实的,按这个价格赔偿
  • 如果两人写的价格是不同的,那么肯定有一个人在说谎,航空公司只会按低的价格赔偿

同时,写高价的人要罚 2 元; 写低价的人会奖 2 元。

【问题】

那么问题就来了:假设 A 和 B 都是理性派,就是只会考虑自己的利益最大化,不会考虑别人。在 A 和 B 不串谋的前提下,两人分别会写下什么样的价格呢?

首先很明显地,全局最优是 A 和 B 都填 100 元,但是个人最优并不在这里。

不妨来推演一下两个人会怎么想:

  1. 假如 A 想写 100 元
  2. B 这个时候就会想我该写多少钱:
    • 如果 我也写 100 元,因为价格相同,那我也拿 100
    • 但如果我写 99 元,因为我比 A 低,虽然只赔 99 元,但我还会奖励 2 元,实际可以拿到 101 元
    • 所以 B 会写 99 元
  3. A 也考虑到这个情况,他就会想,如果 B 写 99 我该写多少?
    • 如果我写 100 元,因为我比 B 高,即使赔 99 但还要罚 2 元,实际只能拿 97 元
    • 如果我写 99 元,因为价格相同,那我也只能拿 99 元
    • 但如果我写 98 元,因为我比 B 低,虽然只赔 98 但会奖励 2 元,我还是能够拿 100 元
    • 所以 A 会写 98 元
  4. 但是 B 也考虑到 A 会想到这个情况,那么 B 就会改成 97 元
  5. 这个时候 A 再深入一想,他也考虑到 B 会想到他会想到这个情况,于是 A 又改成了 96 元

循环往复,两个人都想着要比对方低 1 块钱,最终两人都会写下多少钱呢?

两个人都会写下 2 元,因为瓷器估值最低就是 2 块,不然他们还得往下写。

最后这 2 元就是纳什均衡解。

它描述的其实就是在博弈中的各方,如果都没有串谋的前提下,那么就会按照自己利益最大化的方向去决策,而这个决策行为所导致最终收敛的结果,就是纳什均衡。

但是纳什均衡解不一定是全局最优解。


其实这个结果看上去,一般人第一感觉上都会觉得经不起推敲,因为它不是符合我们生活经验的。

在当时也有很多人对这个模型提出质疑,于是就有人做了实验:

首先还是 2 元奖罚的,有一大堆人参与了实验,但是写 2 元的人微乎其微,大部分人都是写了 90 多块钱。

事后问他们为什么,他们承认是因为实验的时候并没有深入地去思考这个问题,反正奖罚也就 2 块钱,对总体收益影响不大。

于是他们又找另一批人做了另一个实验,这次奖罚力度是 50 块,这个时候大部分人都写了 2 元。

因为很多人都会想到,如果别人写 49 我写 50 ,那我最终一块钱都拿不到,写 2 元至少还有 2 元。

其实这也说明了,做人有时候不要算计得太厉害,不然聪明反被聪明误,什么都得不到;

当你没什么想法的时候,可能会傻人有傻福,会得到更多。

0x20 静态博弈(不/完全信息博弈)

介绍完纳什均衡之后,再来聊一下静态博弈的另外两个分支: 完全信息博弈 和 不完全信息博弈。

这里引申一下三国时期的一场著名战役,赤壁之战。

众所周知,在三国时期论综合实例排名,那是: 曹操 > 孙权 > 刘备。

在赤壁之战的时候,曹操一个不小心把孙权摁在地上打得半死,

所以为了对抗 曹操,当时 孙权 和 刘备 就结成同盟, 成就了以少胜多的经典一战。

虽然赤壁之战孙刘好不容易打赢了曹操,刘备也拦住了曹操,本来可以补刀补死曹操的,但是偏偏却派关羽守华容道,关羽这个 “二五仔” 就义薄云天把曹操放了。

刘备为什么要这么做呢,其实这个是可以用博弈论去解释的。

0x21 赤壁之战(完全信息博弈)

【题目】

首先我们简化一下这段历史,曹孙刘 对应 甲乙丙三国,这三个国家轮流交战,其中:

  • 甲进攻任意一方的成功率是 80%
  • 乙进攻任意一方的成功率是 60%
  • 丙进攻任意一方的成功率是 40%

【规则】

为了方便推演,我们再定一些规则:

  • 三个国家都互相清楚每一方的进攻能力
  • 每一轮交战的时候,每方只能选择一方进攻
  • 只要某个国家的主城被攻占,就属战败被灭国,不考虑是否还有剩余兵力
  • 若一轮交战结束后,被进攻方还存活,他就可以通过补兵恢复进攻能力,进攻成功率不变

【问题】

那么问题来了,在第一轮交战结束后,谁的生存几率最大?


为了解决这个问题,我们可以分析一下三者之间的策略:

  • 对于甲来讲,只有 乙 或 丙 会攻击他,但是 乙 的成功率是 60%,丙 只有 40%,显然 乙的威胁更大,所以甲希望把乙干掉,因此甲一定会进攻乙
  • 类似地,对于 乙 来讲,甲的威胁最大,他一定会选择进攻甲
  • 对于丙来说,甲乙都是威胁,但是甲的威胁最大,他也会选择进攻甲

所以 乙 和 丙 自然而然就会结成同盟, 可以算一下在这个情境下三者的存活率:

  • 甲被乙丙同时进攻,他想存活必须是乙丙均进攻失败,所以甲存活率是 24%
  • 乙只被甲进攻,甲进攻失败率是 20%,所以乙存活率是 20%
  • 丙没有人进攻他,存活率是 100%

反而是能力最差的丙存活几率最高。

联想三国的情形,曹操的能力最强,孙权和刘备都联合起来对抗曹操,而曹操和孙权都不会把刘备当作进攻的主要目标,反而刘备是最安全的。

刘备很清楚自己是最弱的,选择把曹操放走,目的就是保持三足鼎立之势,避免在曹操死后直面第二大集团孙权,从而提高自己的存活率。

只要曹操不死,刘备就可以看着曹操和孙权互掐,开心的时候还能背后捅一刀。

在现实生活中这也是很常见的,甲就是特别优秀的一类人,会遭到其他人的嫉妒,而丙因为没什么能力,大家都不把他放在眼里,这也就是所谓的英雄创造历史,庸人繁衍子孙。

有人就觉得这很消极,难道我明明实力很强,为了活下来一定要做丙吗?

其实不是的,这个三足之势有一个前提条件,就是信息对所有人都是公开透明的,大家彼此知道所有人的进攻成功率。

在现实生活中很多时候其实并不清楚别人的进攻成功率,也就是所谓的 不完全信息博弈。

那么在不完全信息的情况下,这个博弈会发生什么变化呢?

0x22 赤壁之战(不完全信息博弈)

比如说,甲为了防止乙和丙联合进攻他,于是大放烟雾弹,宣称自己很弱。

乙和丙也这么干,都宣称自己很弱鸡。

于是三方都不清楚彼此的真正实力。

那么这个时候甲乙丙会选择什么呢? 会选择随机进攻。

在这个情况下,在第一轮的交战就会有 2^3 = 8 种可能:

对每一种情况甲乙丙的存活率加权求和,得到他们这一轮交战结束的存活率。

显然在信息不透明的情况下,甲的存活率可以从 24% 提升到 56%, 而丙的存活率则下降到最低的 42%

说明我们优秀的同时还低调的话,就不容易被淘汰。

0x30 动态博弈

介绍完静态博弈,接下来再简单聊一下动态博弈。

在静态博弈的时候,各方的决策都是同时的,所以相对会更容易做推演。

而在动态博弈的时候,各方的决策是有顺序性的,这时候对局会开始变得复杂。

0x31 三姬分金

这里还是通过一个叫 “三姬分金” 的故事来解说。

【题目】

有一天韩非子到大王那里想要军饷,刚好发现有三个妃子在分 100 个金币。

【规则】

韩非子就说你们三个人这么玩没意思,咱们玩点更刺激的,我们可以定一个规则:

  • 你们 A B C 三个人,按顺序提议每个人拿多少个金币(A 先提议,然后 B 提议,C 最后提议)
  • 如果提议未获半数以上通过(不包括半数),那么提议就无效,而且提议人要处死
  • 如果提议通过,那就按这个规则分金币

然后我们做一些假设:

  • 首先这三个人都是理性的:她们都知道如何选择会使得自己的收益最大化
  • 其次就是她们都是邪恶的:就是在自己的收益最大化的前提下,如果还可以多杀人,那就多杀人,这样其他人死了金币还是我的,还可以得到大王宠幸

【问题】

那么在这个前提下, A 会做什么提议呢?


一般来说, A 先选,B 次之,C 最后选,那么 A 是不是很危险?

因为不论 A 怎么选,只要 B 和 C 都不同意,B 和 C 都可以拿到更多钱,还可以杀死 A,对不对?

其实不是这样子的,我们可以来分析一下为什么。

假如现在只剩下 B 和 C 两个人:

  • 在这种情况下 A 已经被杀了,不论 B 怎么提议, C 都会杀掉 B
  • 因为只要 C 否决,那么 B 的提议就未获半数以上通过,B 就得死,然后 C 就可以拿到全部的金币
  • B 说那我把全部的金币都给你不行吗?
  • C 说你可以给我,但我还是要把你杀掉,这样我不单能拿到所有金币,还能杀掉你,还能得到大王宠幸,毕竟人性本恶。

B 知道这个结果,所以她为了保命,会无条件支持 A 的所有提议。

然后 A 也知道 B 一定会支持自己,所以 A 就可以随便提议了。

于是 A 可以这么提议:我拿 100 个金币, B 和 C 你们就不要拿了。

B 会不会同意? 会同意,因为如果 B 不同意,她就要死。

C 会不会同意? A 才不管 C 同不同意,因为只要 A B 同意就已经超过半数了,方案就会通过。


然后我们不妨再假设再来一个人 M,他要在 A 之前先选,那么情况会有什么变化呢?

现在大王 M 发现这个游戏也挺好玩的,他也知道这个游戏规则,知道 A 怎么选。

M 会想,如果我死了,A 就会独吞 100 个金币,那我怎么让自己的收益最大化呢?

现在 B 和 C 只有 0 个金币,但如果我给他们各 1 个金币,他们是不是得感激我?

所以 M 会这样分: 我拿 98 个金币, B 和 C 各拿 1 个金币, A 你就不要拿了。

这种情况下 B 和 C 会不会同意 ?

会同意,因为如果他们不同意, A 就会把 M 杀掉,那他们就什么也没有。同意的话他们至少还能拿到 1 个金币。

因为这个时候提议已经超过半数通过了,A 同不同意就已经没所谓了。

其实这个现象在生活中是很常见的,我们把 M 称为 先手优势。

M 为什么可以拿 98 个金币? 因为他先选,他可以在一定的规则下使得自己的收益最大化,所以他就有先手优势。

B 和 C 呢? 他们最后选择,没有什么决策力,但是他们是低端人群。低端人群有什么好处呢?他们是 M 的拉拢对象。

为什么 M 要拉拢 B 和 C ? 因为他们好拉拢,如果没有 M 的话,他们什么也没有,但是现在 M 可以给他们一些好处,虽然收益低,但是也没有风险。

A 就很尴尬了,他夹在中间,既没有先手优势,得不到最大利益;同时他又不是 M 的拉拢对象,连保底都做不到。

我们不妨联想一下,为什么特朗普可以赢了大选,就是因为他拉拢了低端人群,特别是乡村选民,长期被主流社会淘汰、呼声得不到重视,特朗普就抓住这个点斩获了大量的选票。

同样的很多电影也会看到这种现象,黑帮的二把手把老大弄死了自己当老大,为什么,就是为了争取先手优势使得自己利益最大化。


但是我们知道,这个现象只在一定规则下才会成立的,那有没有办法打破这个规则呢?

事实上, A B C 三个人可以背着 M 坐下来喝酒尬聊:

你看只要有 M 在,我们都三个只能拿这么点钱,不如我们不管 M 说什么都否决,一起把 M 弄死,然后我们每人均分 33 个金币,剩下 1 个扔海里,这样我们每人的收益就最大化了。

这种现象在博弈里面称之为 共谋 或 串谋。

当 ABC 共谋之后,他们收益确实可以提高。

但是有一个问题就是,他们共谋把 M 弄死了,A 会不会反悔呢? 如果 A 反悔了,B 和 C 还是什么都得不到。

所以 B 和 C 必须想清楚这件事情:

  • 如果这个游戏是 一遍又一遍 地玩,那么可以共谋,因为如果 A 反悔了,下次就不跟 A 玩了。
  • 但如果这个游戏只能玩一次,那么 A 就一定会反悔,B 和 C 不敢冒这个风险,这时他们一定会同意 M 的方案。

0x40 后话

关于博弈论,在这里先说这么多。

之后进入姐妹篇《浅出狼人杀》,开始聊一下如何利用博弈论玩狼人杀这个游戏。


文章作者: EXP
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 EXP !
  目录