博弈论教程系列(2)— 零和博弈与混合策略纳什均衡

如何在零和博弈中,运用混合策略纳什均衡
博弈论教程系列(2)— 零和博弈与混合策略纳什均衡
category
tags
type
slug
date
summary
status
icon
password

前言

在资源有限的谈判中,各方的每一步都可能影响利益的分配;在股票或期货市场中,买家与卖家形成了一个典型的零和对抗,盈亏如同跷跷板。了解混合策略,不仅让我们更好地理解这些博弈背后的逻辑,还能帮助我们在实际场景中制定更有效的策略。
接下来,我们将以“匹配硬币”游戏为例,逐步揭示混合策略纳什均衡的奥秘。

匹配硬币游戏介绍

这个游戏的规则很简单:你和朋友同时揭示一枚硬币。如果两枚硬币结果一致(都是正面或反面),你赢,朋友付给你1美元;如果不一致,你输,需付给朋友1美元。游戏的收益矩阵如下:
朋友选“正”
朋友选“反”
你选“正”
(+1, -1)
(-1, +1)
你选“反”
(-1, +1)
(+1, -1)
在这个游戏中,双方的利益完全对立,因此它是一个零和博弈

匹配硬币与现实的联系

这种博弈形式在现实中很常见,尤其在体育比赛中,例如足球中的点球大战。踢球者希望将球踢到守门员扑不到的方向,而守门员则希望猜中踢球者的方向。这种情况下的策略选择非常类似于“匹配硬币”游戏。

为什么没有纯策略纳什均衡?

💡
在阅读本章前推荐先阅读《博弈论教程入门篇-纯策略纳什均衡》的部分。
notion image
让我们逐一检查每种纯策略组合:
  1. 双方都选“正”
    1. 如果玩家2知道玩家1会选“正”,她会选择“反”以获胜。因此,“正-正”不能是纳什均衡。
  1. 玩家1选“正”,玩家2选“反”
    1. 玩家1会想改为选“反”以匹配玩家2的选择。因此,这种组合也不能是纳什均衡。
其他两种组合(“反-反”和“反-正”)也存在类似的问题。在所有情况下,双方都有激励改变自己的策略,因此没有纯策略纳什均衡。

混合策略纳什均衡:随机化的妙用

约翰·纳什的定理指出,任何有限博弈至少存在一个纳什均衡。在纯策略中找不到均衡时,我们可以转向混合策略。混合策略指玩家以一定概率分配在多个纯策略上。
在“匹配硬币”游戏中:
  • 如果你随机选择“正”或“反”,每个策略的概率为50%,则无论对手选择什么,她都无法预期自己总是获胜或总是失败。
  • 同样,如果你的对手随机选择,她的策略也让你无法通过调整来增加自己的收益。
这种相互随机化的局面就是混合策略纳什均衡。在这种情况下,双方都无法通过改变策略提高收益,满足纳什均衡的定义。

一个更复杂的例子

如果收益矩阵变复杂,例如:
  • 两枚硬币都为“正”时,你赢3美元。
  • 硬币匹配为“反”时无收益变化。
  • 不匹配时,收益各有不同。
在这种情况下,简单地“抛硬币”可能不再是最佳策略。我们需要一种算法来求解混合策略纳什均衡。下一步,我们将学习混合策略算法,帮助我们处理这种复杂情况。

在下一章中,我会详细讲解这种算法的工作原理,以及如何应用到复杂博弈中。
 

如何找到混合策略纳什均衡

本次内容聚焦于 混合策略算法,这一工具可以帮助我们在更加复杂的博弈中找到混合策略纳什均衡。
在上一节中,我们分析了“抛硬币”的博弈(Matching Pennies),证明了没有纯策略纳什均衡,并通过简单推测,发现双方若随机选择硬币的正反面(即按概率各50%选择),就能满足纳什均衡的条件——双方均无法通过改变策略获得更高的收益。
然而,大多数博弈的收益矩阵并不像抛硬币博弈那样简单,直接猜测均衡策略通常行不通。例如,在下面这个更复杂的收益矩阵中,每个结果的权重不相同,这时我们就需要 混合策略算法 来找到正确的均衡。

混合策略算法的核心思想

目标:找到每个玩家的混合策略,使得其他玩家在该策略下的所有选择预期收益相等。
  • 混合策略 是指玩家以某些概率选择不同的纯策略。
  • 如果一个玩家的所有选择收益相等,他对选择哪种策略无所谓,则说明对方的混合策略让他 无差别,从而达到均衡。
通过设置预期收益函数并求解,我们可以一步步找出满足纳什均衡的混合策略。

实例解析:如何解混合策略?

博弈收益矩阵

notion image
  • 玩家1的选择:(Up)、(Down)
  • 玩家2的选择:(Left)、(Right)
(-3, 3)
(2, -2)
(1, -1)
(0, 0)

步骤 1:求玩家1的混合策略

玩家1需要找到一个混合策略,使得玩家2在选择“左”或“右”时的预期收益相等。
玩家2的预期收益公式
  1. 玩家2选择“左”的预期收益:
    1. 其中, 是玩家1选择“上”的概率。
  1. 玩家2选择“右”的预期收益:
    设置等式
    求解
    化简得到:
    结果: 玩家1的混合策略为:
    • 选择“上”的概率:
    • 选择“下”的概率:

    步骤 2:求玩家2的混合策略

    同样,玩家2需要找到一个混合策略,使得玩家1在选择“上”或“下”时的预期收益相等。
    玩家1的预期收益公式
    1. 玩家1选择“上”的预期收益:
      1. 其中, 是玩家2选择“左”的概率。
    1. 玩家1选择“下”的预期收益:
      设置等式
      求解
      化简得到:
      结果: 玩家2的混合策略为:
      • 选择“左”的概率:
      • 选择“右”的概率:

      混合策略纳什均衡

      最终的混合策略纳什均衡为:
      • 玩家1:
      • 玩家2:
      在这个策略组合下,双方都无法通过改变策略获得更高的收益,从而达到均衡。

       
      混合策略算法是解决复杂博弈的重要工具。通过让对手对自己的策略“无差别”,我们能精确找到混合策略纳什均衡。下一节,我将分享一些常见错误,以及如何避免在计算混合策略时出错!

      混合策略纳什均衡:尽量使用“分数”

      我们继续学习博弈论,本次话题是:如何避免写错混合策略纳什均衡。这个问题看似简单,但很多初学者在作业或考试中常常犯错,白白丢分。通过这次讲解,您将掌握正确的方法,不再因这些小问题失分。

      背景回顾

      在上一节中,我们研究了一个博弈,其混合策略纳什均衡为:
      • 玩家1:的概率为 的概率为
      • 玩家2:的概率为 的概率为
      这些概率是通过精确的数学推导得到的。然而,常见的错误是将 错误地简化为“0.33”或“33%”。这看起来是一个无伤大雅的习惯,但实际上可能导致整个解答不再是纳什均衡。

      为什么不能用近似值?

      要理解这个问题,我们来复盘如何推导出玩家2的混合策略 σ左=13\sigma_{\text{左}} = \frac{1}{3}σ左=31:
      1. 设定条件:玩家2的策略必须让玩家1对“上”和“下”的选择无差别,即:
          • 玩家1选择“上”的期望收益:
            • 玩家1选择“下”的期望收益:
          1. 求解:通过解方程,我们得到

          如果错误地写成 会发生什么?

          当我们将带回上述方程,会发现不一致的问题:
          1. 计算玩家1选择“上”的期望收益
            1. 计算玩家1选择“下”的期望收益:
              结果显示:
              这里 ,说明玩家1对“上”和“下”并非无差别。他会更倾向于选择“下”,从而打破原本的策略均衡。

              为什么分数形式是必要的?

              混合策略纳什均衡的本质在于 精确性。一旦任何玩家的预期收益稍有差异,他就可能改变策略,而混合策略均衡的条件要求玩家 完全无差别。使用近似值(如“0.33”)可能导致微小误差累积,进而破坏均衡。

              正确做法:坚持用分数

              无论是推导过程中还是最后的结果陈述,请始终保留分数形式,例如 。这样可以避免以下问题:
              1. 由于小数近似带来的计算误差;
              1. 结果不再满足纳什均衡条件;
              1. 作业或考试中因结果不精确而丢分。

              总结

              为了避免书写混合策略纳什均衡时犯错,请牢记以下几点:
              1. 保持分数形式:不要将分数转换为小数或百分比,除非题目明确要求。
              1. 检查预期收益:确保玩家的预期收益完全相等,才能保证均衡成立。
              1. 关注精确性:即使差异很小,也可能影响最终结果。
              希望通过这节课,大家能避免这一常见错误。下一节,我们将把混合策略概念应用到一个经典博弈:“性别之战”(Battle of the Sexes)。
               

              纳什均衡案例分析

              本节我们要讨论的是一个经典的博弈论问题——“性别之战”(Battle of the Sexes)

              故事背景

              “性别之战”描述了一对男女在没有任何沟通手段的情况下,试图选择晚上共同娱乐的场所。选项有两个:芭蕾格斗比赛
              • 男性更偏好格斗比赛。
              • 女性则更喜欢芭蕾。
              • 然而,无论选择哪个场所,他们都更希望和对方一起,而不是独自一人。
              如果两人没有协调好,各自去了不同的场所,他们会感到失望。这种情况可以用一个简单的收益矩阵来表示:
              女性:芭蕾
              女性:格斗
              男性:芭蕾
              (2, 1)
              (0, 0)
              男性:格斗
              (0, 0)
              (1, 2)
              在收益矩阵中,括号里的数字分别代表男性和女性的满意程度(收益)。

              寻找纯策略纳什均衡

              notion image
              纯策略纳什均衡是指双方都不会通过单方面改变策略获得更高收益的局面。在这个博弈中,有两个纯策略纳什均衡:
              1. 两人都选择芭蕾(芭蕾-芭蕾)
                1. notion image
                  • 男性得到1分,女性得到2分。
                  • 如果男性改变策略去看格斗比赛,他的收益会从1降为0。因此,他没有动机改变策略。
                    • notion image
                  • 同样,女性也没有理由改变。
                    • notion image
              1. 男性选择芭蕾,女性选择格斗
                1. 这显然不协调,他们彼此都有更好的选择。
                  notion image
              1. 男性选格斗,女性选芭蕾
                1. 同理,这不是一个好的选择
                  notion image
              1. 两人都选择格斗比赛(格斗-格斗)
                1. notion image
                  • 男性得到2分,女性得到1分。
                  • 如果女性改变策略去看芭蕾,她的收益会从1降为0。
                  • 男性也没有动机改变。
              以上两个均衡表明,双方必须协调才能获得最佳结果,但每个人的偏好不同,协调可能并不容易。

              混合策略纳什均衡

              除了纯策略,博弈论还允许混合策略纳什均衡,即玩家以某种概率随机选择策略。在“性别之战”中,使用混合策略算法可以找到一个新的均衡:
              • 男性1/3 的概率选择芭蕾,2/3 的概率选择格斗比赛
                • notion image
                  notion image
              • 女性2/3 的概率选择芭蕾,1/3 的概率选择格斗比赛
              这种混合策略的结果是一个概率分布,它反映了玩家在不确定对方选择时的权衡。
              “性别之战”揭示了协调问题冲突偏好如何影响决策。这不仅适用于情侣的娱乐选择,还可以推广到商业合作、国际谈判等场景。例如,在商业伙伴之间,双方可能都希望合作,但对具体的合作方式或分工存在偏好上的分歧。

              下一节内容中,我们将深入探讨如何计算混合策略的实际收益,从而更好地比较纯策略均衡和混合策略均衡的福利差异。
               

              计算混合策略的实际收益

              在上一节课中,我们讨论了“性别之战”这个博弈模型。我们发现,它有两个纯策略纳什均衡
              notion image
              1. 两人都选择芭蕾
              1. 两人都选择打斗
              此外,还有一个混合策略纳什均衡
              • 男性(玩家一)以1/3的概率选择芭蕾,以2/3的概率选择打斗。
              • 女性(玩家二)以2/3的概率选择芭蕾,以1/3的概率选择打斗。

              为什么需要计算混合策略的收益?

              纯策略纳什均衡的收益非常直观——直接从收益矩阵中找到对应的值即可。
              例如,当两人都选择芭蕾(芭蕾-芭蕾):
              • 男性收益为1
              • 女性收益为2
              但对于混合策略纳什均衡,收益并不那么直观。我们需要通过一系列计算来确定玩家在混合策略中的期望收益,这样才能将其与纯策略的收益进行比较。

              计算混合策略收益的步骤

              计算混合策略收益分为三步:
              1. 计算每种结果在均衡中的概率
              1. 将每种结果的概率与对应玩家的收益相乘
              1. 所有结果的加权收益相加,得到玩家的期望收益

              第一步:计算结果的概率

              在混合策略纳什均衡中,我们知道玩家选择策略的概率:
              • 男性:芭蕾1/3,打斗2/3
              • 女性:芭蕾2/3,打斗1/3
              根据独立性假设,每种结果的概率是对应策略概率的乘积。例如:
              • 芭蕾-芭蕾:1/3 × 2/3 = 2/9
              • 芭蕾-打斗:1/3 × 1/3 = 1/9
              • 打斗-芭蕾:2/3 × 2/3 = 4/9
              • 打斗-打斗:2/3 × 1/3 = 2/9
              notion image
              所有概率总和应为1,验证:
              2/9 + 1/9 + 4/9 + 2/9 = 9/9 = 1,计算正确。

              第二步:计算玩家的加权收益

              接下来,我们分别计算两位玩家的收益。

              男性的收益

              notion image
              根据收益矩阵:
              • 芭蕾-芭蕾:收益1
              • 芭蕾-打斗:收益0
              • 打斗-芭蕾:收益0
              • 打斗-打斗:收益2
              将收益与概率相乘:
              • 2/9 × 1 = 2/9
              • 1/9 × 0 = 0
              • 4/9 × 0 = 0
              • 2/9 × 2 = 4/9
              将这些值相加:
              2/9 + 0 + 0 + 4/9 = 6/9 = 2/3
              因此,男性在混合策略中的期望收益为2/3

              女性的收益

              根据收益矩阵:
              notion image
              • 芭蕾-芭蕾:收益2
              • 芭蕾-打斗:收益0
              • 打斗-芭蕾:收益0
              • 打斗-打斗:收益1
              同样地,计算加权收益:
              • 2/9 × 2 = 4/9
              • 1/9 × 0 = 0
              • 4/9 × 0 = 0
              • 2/9 × 1 = 2/9
              将这些值相加:
              4/9 + 0 + 0 + 2/9 = 6/9 = 2/3
              因此,女性在混合策略中的期望收益也为2/3

              对比:纯策略与混合策略的收益

              在纯策略均衡中:
              notion image
              • 芭蕾-芭蕾:男性收益1,女性收益2。
              • 打斗-打斗:男性收益2,女性收益1。
              在混合策略均衡中:
              • 男性收益:2/3
              • 女性收益:2/3
              显然,混合策略均衡的收益低于纯策略均衡的收益。这表明:
              当双方无法达成一致时,随机化选择的结果并不令人满意。

              总结

              通过计算混合策略纳什均衡的收益,我们可以更全面地分析博弈的结果。对于“性别之战”,混合策略均衡反映了冲突的结果,但对双方都不理想。与其如此,不如让某一方妥协选择纯策略,双方的整体福利反而更高。
              下节课,我们将讨论如何将混合策略应用于“严格支配策略”的情境中,比如囚徒困境的迭代消除。敬请期待!
              上一篇
              博弈论教程系列(1)— 博弈论入门之纯策略纳什均衡
              下一篇
              博弈论教程系列(3) — 纳什均衡中的支配关系
              Loading...