深入博弈论

博弈论

算法

原创

发布日期: 2021-10-25

更新日期: 2025-06-15

文章字数: 4.7k

阅读时长: 16 分

阅读次数:

0x00 前言

博弈论最初只是用来研究象棋、赌博等游戏的一些胜负问题，它发展至今其实已经衍生出很多理论分支。简单归纳博弈的原理，其实就是两点：

预测行为：在游戏对局中，预测个体的行为是怎样的
策略优化：这些个体又如何利用对方的策略优化自身策略，最终达到取胜目的

这次分开两个篇章，教大家如何利用博弈论玩狼人杀。

为了给部分同学补盲，在这个篇章《深入博弈论》中，先通过一些简单的案例带大家认识博弈的过程和方法，在下个篇章再谈狼人杀。

0x10 静态博弈（纳什均衡）

0x11 囚徒困境

这里拿博弈论中最著名的例子《囚徒困境》来让大家感受一下博弈的过程。

【题目】

囚徒困境描述了这样的一件事情：

有 A B 两个小偷同时被警察抓住了，分别关在两个审讯室单独审问
两个小偷只能选择坦白或者抗拒，而且这两个小偷没有串供的机会

【规则】

警察就分别跟他们说：

如果你们 2 人都坦白，那就坦白从宽，都关 8 年
如果你们都抗拒，那我也没什么证据，只能意思意思，每人都关 1 年
但如果 1 个坦白 1 个抗拒，那抗拒的那个就从严，关 10 年；坦白的那个因为是污点证人，直接释放

【问题】

这个时候 A 和 B 会做如何选择呢？

我们不妨画一个表，看看 A 和 B 在不同选择下会有什么样的收益。

假如 A 和 B 都坦白，两人都判 8 年，收益就是 (-8, -8)
假如 A 和 B 都抗拒，两人都判 1 年，收益就是 (-1，-1)
假如 A 坦白 B 抗拒，那么 A 释放，B 判 10 年，收益就是 (0, -10)
假如 A 抗拒 B 坦白，那么 A 判 10 年，B 释放，收益就是 (-10, 0)

显然全局最大收益是两人都抗拒，各判 1 年。

但是个人最大收益并不在这里，因为 A 和 B 都没有串供：

所以在 A 看来：坦白判 8 年，抗拒判 10 年，A 会选择坦白
对 B 也是一样：坦白判 8 年，抗拒判 10 年，B 也会选择坦白

所以最终 A 和 B 都会选择坦白，都关 8 年，而这个在博弈里面称之为 纳什均衡。

那究竟什么是 纳什均衡 呢？这里再通过一个经济学模型详细分析一下：

0x12 旅行者困境

在 1994 年的时候，印度的经济学家巴苏提出了这么一个旅行者困境模型：

【题目】

有两个旅行者 A 和 B，他们在旅游的时候各买了一件相同的瓷器，但坐飞机回家的时候都弄丢了。

于是他们就找航空公司索赔，但是他们俩声称不记得瓷器的价格是多少，只知道是在 2 ~ 100 元之间。

【规则】

航空公司就说，好，我们可以赔，但是你们要分别在纸上写出这个瓷器的价格：

如果两人写的价格都是一样的，那么航空公司就认为这个价格是真实的，按这个价格赔偿
如果两人写的价格是不同的，那么肯定有一个人在说谎，航空公司只会按低的价格赔偿

同时，写高价的人要罚 2 元；写低价的人会奖 2 元。

【问题】

那么问题就来了：假设 A 和 B 都是理性派，就是只会考虑自己的利益最大化，不会考虑别人。在 A 和 B 不串谋的前提下，两人分别会写下什么样的价格呢？

首先很明显地，全局最优是 A 和 B 都填 100 元，但是个人最优并不在这里。

不妨来推演一下两个人会怎么想：

假如 A 想写 100 元
B 这个时候就会想我该写多少钱：
- 如果我也写 100 元，因为价格相同，那我也拿 100
- 但如果我写 99 元，因为我比 A 低，虽然只赔 99 元，但我还会奖励 2 元，实际可以拿到 101 元
- 所以 B 会写 99 元
A 也考虑到这个情况，他就会想，如果 B 写 99 我该写多少？
- 如果我写 100 元，因为我比 B 高，即使赔 99 但还要罚 2 元，实际只能拿 97 元
- 如果我写 99 元，因为价格相同，那我也只能拿 99 元
- 但如果我写 98 元，因为我比 B 低，虽然只赔 98 但会奖励 2 元，我还是能够拿 100 元
- 所以 A 会写 98 元
但是 B 也考虑到 A 会想到这个情况，那么 B 就会改成 97 元
这个时候 A 再深入一想，他也考虑到 B 会想到他会想到这个情况，于是 A 又改成了 96 元

循环往复，两个人都想着要比对方低 1 块钱，最终两人都会写下多少钱呢？

两个人都会写下 2 元，因为瓷器估值最低就是 2 块，不然他们还得往下写。

最后这 2 元就是纳什均衡解。

它描述的其实就是在博弈中的各方，如果都没有串谋的前提下，那么就会按照自己利益最大化的方向去决策，而这个决策行为所导致最终收敛的结果，就是纳什均衡。

但是纳什均衡解不一定是全局最优解。

其实这个结果看上去，一般人第一感觉上都会觉得经不起推敲，因为它不是符合我们生活经验的。

在当时也有很多人对这个模型提出质疑，于是就有人做了实验：

首先还是 2 元奖罚的，有一大堆人参与了实验，但是写 2 元的人微乎其微，大部分人都是写了 90 多块钱。

事后问他们为什么，他们承认是因为实验的时候并没有深入地去思考这个问题，反正奖罚也就 2 块钱，对总体收益影响不大。

于是他们又找另一批人做了另一个实验，这次奖罚力度是 50 块，这个时候大部分人都写了 2 元。

因为很多人都会想到，如果别人写 49 我写 50 ，那我最终一块钱都拿不到，写 2 元至少还有 2 元。

其实这也说明了，做人有时候不要算计得太厉害，不然聪明反被聪明误，什么都得不到；

当你没什么想法的时候，可能会傻人有傻福，会得到更多。

0x20 静态博弈（不/完全信息博弈）

介绍完纳什均衡之后，再来聊一下静态博弈的另外两个分支：完全信息博弈和不完全信息博弈。

这里引申一下三国时期的一场著名战役，赤壁之战。

众所周知，在三国时期论综合实例排名，那是：曹操 > 孙权 > 刘备。

在赤壁之战的时候，曹操一个不小心把孙权摁在地上打得半死，

所以为了对抗曹操，当时孙权和刘备就结成同盟，成就了以少胜多的经典一战。

虽然赤壁之战孙刘好不容易打赢了曹操，刘备也拦住了曹操，本来可以补刀补死曹操的，但是偏偏却派关羽守华容道，关羽这个 “二五仔” 就义薄云天把曹操放了。

刘备为什么要这么做呢，其实这个是可以用博弈论去解释的。

0x21 赤壁之战（完全信息博弈）

【题目】

首先我们简化一下这段历史，曹孙刘对应甲乙丙三国，这三个国家轮流交战，其中：

甲进攻任意一方的成功率是 80%
乙进攻任意一方的成功率是 60%
丙进攻任意一方的成功率是 40%

【规则】

为了方便推演，我们再定一些规则：

三个国家都互相清楚每一方的进攻能力
每一轮交战的时候，每方只能选择一方进攻
只要某个国家的主城被攻占，就属战败被灭国，不考虑是否还有剩余兵力
若一轮交战结束后，被进攻方还存活，他就可以通过补兵恢复进攻能力，进攻成功率不变

【问题】

那么问题来了，在第一轮交战结束后，谁的生存几率最大？

为了解决这个问题，我们可以分析一下三者之间的策略：

对于甲来讲，只有乙或丙会攻击他，但是乙的成功率是 60%，丙只有 40%，显然乙的威胁更大，所以甲希望把乙干掉，因此甲一定会进攻乙
类似地，对于乙来讲，甲的威胁最大，他一定会选择进攻甲
对于丙来说，甲乙都是威胁，但是甲的威胁最大，他也会选择进攻甲

所以乙和丙自然而然就会结成同盟, 可以算一下在这个情境下三者的存活率:

甲被乙丙同时进攻，他想存活必须是乙丙均进攻失败，所以甲存活率是 24%
乙只被甲进攻，甲进攻失败率是 20%，所以乙存活率是 20%
丙没有人进攻他，存活率是 100%

反而是能力最差的丙存活几率最高。

联想三国的情形，曹操的能力最强，孙权和刘备都联合起来对抗曹操，而曹操和孙权都不会把刘备当作进攻的主要目标，反而刘备是最安全的。

刘备很清楚自己是最弱的，选择把曹操放走，目的就是保持三足鼎立之势，避免在曹操死后直面第二大集团孙权，从而提高自己的存活率。

只要曹操不死，刘备就可以看着曹操和孙权互掐，开心的时候还能背后捅一刀。

在现实生活中这也是很常见的，甲就是特别优秀的一类人，会遭到其他人的嫉妒，而丙因为没什么能力，大家都不把他放在眼里，这也就是所谓的英雄创造历史，庸人繁衍子孙。

有人就觉得这很消极，难道我明明实力很强，为了活下来一定要做丙吗？

其实不是的，这个三足之势有一个前提条件，就是信息对所有人都是公开透明的，大家彼此知道所有人的进攻成功率。

在现实生活中很多时候其实并不清楚别人的进攻成功率，也就是所谓的不完全信息博弈。

那么在不完全信息的情况下，这个博弈会发生什么变化呢？

0x22 赤壁之战（不完全信息博弈）

比如说，甲为了防止乙和丙联合进攻他，于是大放烟雾弹，宣称自己很弱。

乙和丙也这么干，都宣称自己很弱鸡。

于是三方都不清楚彼此的真正实力。

那么这个时候甲乙丙会选择什么呢？会选择随机进攻。

在这个情况下，在第一轮的交战就会有 2^3 = 8 种可能：

对每一种情况甲乙丙的存活率加权求和，得到他们这一轮交战结束的存活率。

显然在信息不透明的情况下，甲的存活率可以从 24% 提升到 56%，而丙的存活率则下降到最低的 42%

说明我们优秀的同时还低调的话，就不容易被淘汰。

0x30 动态博弈

介绍完静态博弈，接下来再简单聊一下动态博弈。

在静态博弈的时候，各方的决策都是同时的，所以相对会更容易做推演。

而在动态博弈的时候，各方的决策是有顺序性的，这时候对局会开始变得复杂。

0x31 三姬分金

这里还是通过一个叫 “三姬分金” 的故事来解说。

【题目】

有一天韩非子到大王那里想要军饷，刚好发现有三个妃子在分 100 个金币。

【规则】

韩非子就说你们三个人这么玩没意思，咱们玩点更刺激的，我们可以定一个规则：

你们 A B C 三个人，按顺序提议每个人拿多少个金币（A 先提议，然后 B 提议，C 最后提议）
如果提议未获半数以上通过（不包括半数），那么提议就无效，而且提议人要处死
如果提议通过，那就按这个规则分金币

然后我们做一些假设：

首先这三个人都是理性的：她们都知道如何选择会使得自己的收益最大化
其次就是她们都是邪恶的：就是在自己的收益最大化的前提下，如果还可以多杀人，那就多杀人，这样其他人死了金币还是我的，还可以得到大王宠幸

【问题】

那么在这个前提下， A 会做什么提议呢？

一般来说， A 先选，B 次之，C 最后选，那么 A 是不是很危险？

因为不论 A 怎么选，只要 B 和 C 都不同意，B 和 C 都可以拿到更多钱，还可以杀死 A，对不对？

其实不是这样子的，我们可以来分析一下为什么。

假如现在只剩下 B 和 C 两个人：

在这种情况下 A 已经被杀了，不论 B 怎么提议， C 都会杀掉 B
因为只要 C 否决，那么 B 的提议就未获半数以上通过，B 就得死，然后 C 就可以拿到全部的金币
B 说那我把全部的金币都给你不行吗？
C 说你可以给我，但我还是要把你杀掉，这样我不单能拿到所有金币，还能杀掉你，还能得到大王宠幸，毕竟人性本恶。

B 知道这个结果，所以她为了保命，会无条件支持 A 的所有提议。

然后 A 也知道 B 一定会支持自己，所以 A 就可以随便提议了。

于是 A 可以这么提议：我拿 100 个金币， B 和 C 你们就不要拿了。

B 会不会同意？会同意，因为如果 B 不同意，她就要死。

C 会不会同意？ A 才不管 C 同不同意，因为只要 A B 同意就已经超过半数了，方案就会通过。

然后我们不妨再假设再来一个人 M，他要在 A 之前先选，那么情况会有什么变化呢？

现在大王 M 发现这个游戏也挺好玩的，他也知道这个游戏规则，知道 A 怎么选。

M 会想，如果我死了，A 就会独吞 100 个金币，那我怎么让自己的收益最大化呢？

现在 B 和 C 只有 0 个金币，但如果我给他们各 1 个金币，他们是不是得感激我？

所以 M 会这样分：我拿 98 个金币， B 和 C 各拿 1 个金币， A 你就不要拿了。

这种情况下 B 和 C 会不会同意？

会同意，因为如果他们不同意， A 就会把 M 杀掉，那他们就什么也没有。同意的话他们至少还能拿到 1 个金币。

因为这个时候提议已经超过半数通过了，A 同不同意就已经没所谓了。

其实这个现象在生活中是很常见的，我们把 M 称为先手优势。

M 为什么可以拿 98 个金币？因为他先选，他可以在一定的规则下使得自己的收益最大化，所以他就有先手优势。

B 和 C 呢？他们最后选择，没有什么决策力，但是他们是低端人群。低端人群有什么好处呢？他们是 M 的拉拢对象。

为什么 M 要拉拢 B 和 C ？因为他们好拉拢，如果没有 M 的话，他们什么也没有，但是现在 M 可以给他们一些好处，虽然收益低，但是也没有风险。

A 就很尴尬了，他夹在中间，既没有先手优势，得不到最大利益；同时他又不是 M 的拉拢对象，连保底都做不到。

我们不妨联想一下，为什么特朗普可以赢了大选，就是因为他拉拢了低端人群，特别是乡村选民，长期被主流社会淘汰、呼声得不到重视，特朗普就抓住这个点斩获了大量的选票。

同样的很多电影也会看到这种现象，黑帮的二把手把老大弄死了自己当老大，为什么，就是为了争取先手优势使得自己利益最大化。

但是我们知道，这个现象只在一定规则下才会成立的，那有没有办法打破这个规则呢？

事实上， A B C 三个人可以背着 M 坐下来喝酒尬聊：

你看只要有 M 在，我们都三个只能拿这么点钱，不如我们不管 M 说什么都否决，一起把 M 弄死，然后我们每人均分 33 个金币，剩下 1 个扔海里，这样我们每人的收益就最大化了。

这种现象在博弈里面称之为共谋或串谋。

当 ABC 共谋之后，他们收益确实可以提高。

但是有一个问题就是，他们共谋把 M 弄死了，A 会不会反悔呢？如果 A 反悔了，B 和 C 还是什么都得不到。

所以 B 和 C 必须想清楚这件事情：

如果这个游戏是一遍又一遍地玩，那么可以共谋，因为如果 A 反悔了，下次就不跟 A 玩了。
但如果这个游戏只能玩一次，那么 A 就一定会反悔，B 和 C 不敢冒这个风险，这时他们一定会同意 M 的方案。

0x40 后话

关于博弈论，在这里先说这么多。

之后进入姐妹篇《浅出狼人杀》，开始聊一下如何利用博弈论玩狼人杀这个游戏。

EXP

https://exp-blog.com/algorithm/shen-ru-bo-yi-lun/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 EXP !

博弈论

浅出狼人杀

《深入浅出狼人杀》的姐妹篇（后篇）：主要讲解博弈论在狼人杀中的典型应用，教你如何在游戏中立于不败之地！

2021-10-25 算法

博弈论狼人杀

CTF 解题报告导航

Capture The Flag，夺旗赛。通过在线靶场进行实战，磨炼网络安全技巧的一种竞技，通过不断刷题可以很好地锻炼发掘 EXP 的能力 ~

2021-08-17 CTF

解题报告 CTF

0x00 前言

0x10 静态博弈（纳什均衡）

0x11 囚徒困境

0x12 旅行者困境

0x20 静态博弈（不/完全信息博弈）

0x21 赤壁之战（完全信息博弈）

0x22 赤壁之战（不完全信息博弈）

0x30 动态博弈

0x31 三姬分金

0x40 后话

你的赏识是我前进的动力