我肯定你说对了。对付我们这些早期数学发热友来说,电影《俏丽心灵》(A Beautiful Mind)已经深深地印在了我们的影象中。Russell Crowe在电影中扮演John Nash,一位诺贝尔经济学奖得主(上图左侧)。
现在,你该当还记得那个经典场景:“不要追金发女郎”。在这个场景中,约翰·纳什引用道:
“当团队中的每个人都在做对自己和团队最有利的事情时,最好的结果就会涌现。”
许多人认为这是著名的“纳什均衡”的创造。虽然这场景很经典,但也不一定是对的。这个场景实际上描述了“帕累托最优”。但这对我们理解博弈论还是有帮助的。
以是在这篇文章中,我们将鸟瞰博弈论。我们还将谈论博弈论在人工智能领域的运用。我以一种纵然是初学者和非技能职员也能跟上的办法来写这篇文章。
目录什么是博弈论?博弈论中的纳什均衡博弈类型人工智能中的博弈论1.什么是博弈论?什么是博弈论?我相信你在某个时候曾经碰着过这个观点,但从来没有真正深入研究过它。相信我,在人工智能领域,这是一个耐人寻味的话题。
我们先来给博弈论下一个正式的定义。
博弈论可以被认为是两个或多个理性的代理人或玩家之间相互浸染的模型。
在这里,我必须强调理性这个关键字,由于它是博弈论的根本。但理性究竟意味着什么呢?
我们可以大略地把理性称为一种理解,即每个行为人都知道所有其他行为人都和他/她一样理性,拥有相同的理解和知识水平。同时,理性指的是,考虑到其他行为人的行为,行为人总是方向于更高的报酬/回报。
简而言之,每个行为人都是自私的,都试图使报酬最大化。
既然我们已经知道了理性意味着什么,让我们来看看与博弈论干系的其他一些关键词:
游戏:一样平常来说,游戏是由一组玩家,行动/策略和终极收益组成。例如:拍卖、象棋、政治等。玩家:玩家是参与任何游戏的理性实体。例如:在拍卖会的投标人石头剪刀布的玩家参加选举的政治家等。收益:收益是所有玩家在得到特定结果时所得到的褒奖。它可以是正的,也可以是负的。正如我们之前所谈论的,每个代理都是自私的,并且想要最大化他们的收益:博弈论中的纳什均衡纳什均衡是人工智能博弈论方法的“基石”。纳什均衡是每个玩家选择的行动知足:
“没有玩家会想要改变他们的行动。从纳什均衡中改变他们的行为意味着他们没有达到最佳状态"
或
“考虑到其他所有代理人都是理性的,他们都为他们自己选择最好的行动,纳什均衡产生的行动对我来说是最好的。”
任何玩家都不可能通过改变之前的决定来增加收益。我们也可以将其视为“无悔”,即一旦做出决定,玩家便不会由于考虑到后果而后悔。
为了理解纳什均衡的浸染,我们现在来办理博弈论中最常见的问题——囚徒困境。这个游戏是一个经典的例子,它解释了在代理人只关心自身利益的情形下,为了共同利益而协同行动的困难。
在这个游戏中,我们有两个犯人,Alan和Ben,他们由于同样的罪过被抓了起来,被关在两个不同的审讯室里。他们有两个选择:
保持沉默承认罪过假设每个人都有两个选择。统共有4种结果:
{沉默,沉默}{承认,沉默}{沉默,承认}{承认,承认}这4个结果可以方便地表示为一个博弈矩阵:
在这个表达式中,支付的形式是(Alan的支付,Ben的支付)。沿着行,我们有Alan的动作,沿着列,我们有Ben的动作。
好好思考收益。为什么有收益是负的?这是由于,根据他们的行动,他们将得到预先确定的监禁年限。
结果如下:
如果两人都保持沉默,两人都将被监禁一年如果他们中的任何一人认罪,认罪的人将得到自由,而另一名囚犯将被判15年监禁如果两人都认罪,两人都将被判处10年监禁这一困境的涌现是由于两个囚犯都不知道另一个囚犯做了什么。那么,你认为这个问题中的纳什均衡产生的结果是什么呢?人们凭直觉大概因此为犯人会相互互助,保持沉默。
但我们也知道,囚犯会尽力减少他们所受的监禁,这关乎他们的个人利益。纵然他们保持沉默,他们仍旧会被监禁一年。
实际情形是这样的:
Ben也会这么想。如果我们专注于博弈矩阵,思考过程将会变得非常有趣:
在Ben坦白的情形下,Alan最好的选择便是坦白。这将导致10年的监禁而不是15年如果Ben保持沉默,Alan最好还是坦白,由于如果他也保持沉默,他将面临一年的监禁,而不是一个自由人
以是这个博弈矩阵和Alan的想法是完备同等的。现在,如果Ben也有同样的想法,博弈矩阵对他来说该当是这样的:
假设Ben也像Alan一样经历了理性思考过程。Ben还得出结论,无论艾伦选择什么,坦白总是有益的。现在,如果我们把这两个囚犯的理性思维叠加起来,结果是这样的:
从结果来看,最好的策略是{坦白,坦白}。纵然他们中的任何一个试图偏离这个动作,他们的情形也比他们通过玩这个动作所得到的更糟。因此,{坦白,坦白}是一种纳什均衡策略。
很有道理,对吧?对付纳什均衡,我们可以得出这样的结论:对付任何游戏来说,它都是一个“无悔”的办理方案,但不一定是最优的。
博弈类型我们刚刚看到一个囚徒困境的例子,两个囚徒必须同时做出决定,我们用一个博弈矩阵来表示。这些类型的博弈常日被称为正则形式的博弈。
在博弈论中,游戏可以根据许多不同的标准分为许多不同的种别。
代理之间的交互直不雅观上,我们可以根据游戏中的代理是竞争还是互助来区分游戏。
政治竞选便是一个竞争游戏的好例子,一个候选人的褒奖导致另一个候选人的失落败。另一方面,一场篮球比赛可以被看作是一场合作的比赛,每个球员如果相互互助就会得到更多的褒奖。
代理怎么进行游戏我们还可以根据游戏是否同时存在或是否具有广泛性来对它们进行分类。
为了理解这一点,让我们以一个名为“性别之战”的问题为例。
考虑到Bob和Amy两个常常一起玩。他们很清楚对方分别喜好出去踢足球和参加舞会。这次他们决定这次一起出去玩,他们可以给对方一个惊喜或者各自玩自己的。
如果他们打算给对方一个惊喜,他们并不知道对方的周末操持。博弈矩阵描述了4种不同的情形:
博弈矩阵清楚地阐明了如果Bob和Amy彼此不合营,他们就得不到任何回报。这是一个同时进行的游戏的例子,在这个游戏中,两个玩家同时行动,并且事先不知道其他玩家的行动。
另一方面,如果他们通过见告对方自己的行动来相互合营,游戏的形式如下:
这是一个广泛的形式游戏或“回合制游戏”的例子。在这里,每个玩家都可以看到其他玩家在玩什么动作。
这是另一个直不雅观的例子——石头-剪刀-布的游戏是同时进行游戏中的一个很好的例子。另一方面,井字棋游戏是一种广泛的形式游戏。
信息在博弈论中,常常会涌现这样的情形:玩家的信息不完全。他们可能不知道其他玩家所有可用的策略或潜在的回报。玩家可能不知道他们在和什么样的人打交道,也不知道他们的动机是什么。
根据玩家对其他代理的理解程度,游戏大致可以分为三类:
完美信息不完美信息不完全信息完美信息:
在完美信息中,每个代理都知道:
其他代理可能采纳的所有操作他们在做什么他们得到了多少回报井字游戏和国际象棋便是很好的例子。在现实天下中,完美信息游戏非常罕见。此外,机器学习和深度学习方法在这些游戏中也非常有效。
不完美信息:
在这种情形下,行为人知道其他行为人的性子和动机,以及在所有可能的结果中他们会得到多少回报。但他们不知道自己在做什么。
在这里,将军知道在每个可能的情形下仇敌的动机和回报。但他不知道仇敌藏在哪里。因此,将军不知道他所在的确切决策节点(用虚线框表示)。不完备信息游戏在现实场景中常常碰着。
不完备信息
不完备信息是一种非常紧密地仿照现实天下的情形。在这里,代理没有关于其他代理的“类型”的信息。
纵然任何给定的代理能够看到其他代理所采纳的操作,他/她也不知道其他代理的动机,也不知道其他代理将从该操作中得到什么褒奖。
从实质上说,不完备信息博弈是最普遍的博弈形式。
扑克是一个范例的不完备信息游戏的例子,由于玩家不知道对手手里拿的是好派司样坏牌。
我们对扑克游戏特殊感兴趣,由于它的不完备信息的性子使它很好地代表了现实天下。正由于如此,它一贯被认为是不完备信息博弈的人工智能领域的一个基准问题。
人工智能中的博弈论啊——你一定想知道这统统在人工智能的背景下意味着什么。这些不同类型的游戏和信息与人工智能有什么关系?好吧,让我们来看看!
就人工智能而言,博弈论基本上有助于做出决策。考虑到“理性”是博弈论的根本,这并不难。事实上,博弈论已经开始在人工智能中确立自己的地位——你能猜到它在哪里吗?
个中一个是天生对抗网络(GANs)的观点。它们被引述如下:
“这是过去二十年来机器学习中最酷的想法。”——Yann LeCun,人工智能和深度学习领域的领导者之一
那么博弈论是如何帮助GANs的呢?
要回答这个问题,我们须要首先理解GANs的根本知识。GAN是两个神经网络的组合,即:
天生器判别器天生器是天生随机图像的神经网络。另一方面,判别器考试测验对天生的图像是属于给定的数据集还是天生的图像进行分类。
如果图像被分类为“天生的”或伪图像被判别器捕获,则天生器网络调度其参数。另一方面,如果“判别器”将天生的假图像作为数据集中的一个分类,那么“判别器”将调度其参数。
这种竞争过程一贯持续下去,直到达到一种没有更多改进余地的状态。这种状态被称为“纳什均衡”。惊异吗?
实质上,这是两个神经网络之间的竞争游戏。虽然在这种情形下,他们不断优化自己,以找到纳什均衡。
博弈论的核心履行在于信息不完备博弈。正如我们已经谈论过的,扑克是一个经典例子,它也是AI运用在不完备信息上一个不错的基准问题。
不完备信息非常主要,由于现实天下中的问题常常属于这一类。迄今为止,在人工智能的历史上,机器学习和深度学习方法在不完备信息游戏方面还暂时未取得特殊大的成功。
个中一个这样的游戏是德州扑克。这是一个不完美信息游戏,由于对手的信息隐蔽在他手中的牌中。这是一个非常具有寻衅性的问题,考虑到在游戏中这个扑克有10的161次方的可能性。
详细来说,可不雅观测宇宙中的原子总数是10的82次方!
因此,利用蛮力建模这个游戏是不可能的。也有人考试测验过利用深度学习和深度强化学习,但效果一样平常。
不过,由美国卡内基梅隆大学(Carnegie Mellon University)的托马斯•桑德赫姆(Tuomas Sandholm)教授和人工智能研究员诺姆•布朗(Noam Brown)开拓的名为Libratus的人工智能程序,迄今为止的表现超过了以往任何一种方法。Libratus已经赢了赢过两万多次扑克牌的天下冠军。Libratus的神奇之处在于它不该用任何机器学习方法!
博弈论是Libratus的核心思想。与深度学习或强化学习方法比较,它的打算能力相对较低。为了理解更多关于博弈论在Libratus的发展中是如何运用的,以及博弈论在未来如何成为人工智能的一部分,我强烈推举Lex Fridman和Tuomas Sandholm之间的人工智能播客:https://youtu.be/b7bStIQovcY
另一方面,人们常常谈论将机器学习和深度学习研究转移到真实的用例。由于现实天下中的案例常日是不完全信息游戏,因此大多数机器学习和深度学习方法在这方面都存在困难。
由于博弈论方法在真实用例中的通用性,它们正逐渐得到发展势头。最好的例子是Milind Tambe的事情,她是“社会公益AI”的卖力人。利用博弈论的观点,米琳德坦贝处理现实天下的问题如下:
公共安全野生动物保护公共卫生等我强烈建议大家看看这段视频,看看Tambe教授是如何利用博弈论办理与上述运用干系的现实问题的。视频播放五分钟后,你将会看到博弈论是如何在真实的用例中实现的:https://youtu.be/O2su1u2AXG0
结尾在这篇文章中,我们谈论了博弈论的基本事理,并简要先容了基本的主题。我们乃至谈到了博弈论是如何在机器学习领域及其在现实天下中的运用。
这是一篇先容性的文章——在往后的文章中,我们将更深入地谈论博弈论以及如何将它运用到人工智能领域,那这篇文章中,我将从技能角度进行剖析。