智能体也“囚徒困境”？DeepMind设置强迫机制要求AI合作

首页> 新闻> 正文

回到顶部

2020-03-17 作者：[db:作者]

大数据摘要产生

来源:venturebeat

编译:赵继科

最近DeepMind提出了一种新的强化学习技术，它以一种全新的方式模拟人类行为它可能比以前发布的人工智能决策系统更强大，这对于希望通过自动化提高生产率的企业来说可能是一个福音。

如何解决多方零和博弈中的合作困境？

深度思维使用强化学习来最大化人工智能的优势这是一个基于对等契约机制的经济竞争模型，允许多方游戏中的联盟。这篇论文的一位作者说，这个联盟有它自己没有的特殊优势。

长期以来，零和博弈以其丰富的策略选择空间和清晰的策略评估方法指导着人工智能的研究更重要的是，这种竞争广泛存在于生物学、市场经济甚至阿尔法零。

DeepMind科学家首先寻求形成联盟的挑战的数学定义，重点是联盟中多玩家零和游戏的形成——也就是说，在数学表示的情况下，每个参与者效用的收益或损失是其他参与者完全平衡的损失或收益的效用。

什么是多方零和游戏？

深度智力定义为每个玩家的损失或收益完全由剩余玩家的损失或收益提供在一个对称的多方零和游戏中，每个玩家的行为模式是相同的，这通常会导致社会困难(一个非常简单的例子是“囚徒困境”)

零和游戏引入了合作，使事情变得非常复杂。在紧急情况下，团队必须在内部进行协调，以有效地参与比赛。形成合作的过程本身就是一个社会困境——直觉上，玩家应该合作以击败其他人，但合作团队要求个人为了更广泛的利益做出妥协，但这种牺牲可能不符合他们自己的利益。此外，决定加入或离开哪个团队以及团队战略是重要的问题。

DeepMind已经尝试了一种“礼物游戏”，人工智能玩家从一堆标有他们自己颜色的数字芯片开始在每个玩家的回合中，他们必须拿出相应颜色的筹码，交给另一个玩家或者扔掉。当所有玩家都失去相应颜色的数字筹码时，游戏结束。这时，筹码最多的玩家获胜。获胜者分享值为“1”的筹码，其他玩家分享值为“0”的筹码

研究发现，玩家倾向于自私自利，囤积筹码，从而导致三方平局。但事实上，如果两个玩家交换筹码，回报会更好。DeepMind将这一过程描述为:尽管合作可以带来更好的结果，但每个人都想从欺骗中获利，也就是说，说服对方进行交流，然后食言。

也就是说，如果有一种机制维持合作行为的存在，强化学习就能适应这种游戏这个机制是一个契约——在游戏中，每个玩家必须提交一个报价，首先选择一个伙伴，然后为该伙伴建议行动，最后是玩家承诺采取的行动如果两个参与者提供相同的合同，那么这些合同是有约束力的，也就是说，环境执行承诺的操作

是一种强制性机制，是合作的基础

是一个模型，它使我们能够考虑合同在更广泛的应用环境中的作用如果一个没有执行机制的契约系统能够在多方动态博弈中继续运行，它最终会产生一个有价值的反馈回路，这将导致人工智能在社会学和经济学中的应用。