编 | 储信仪
导语:人工智能创造力的另一面,展现的是其偏离主线的执行行为。面对AI与程序规范之间的规则博弈,任务设计者将如何应对严峻挑战?
智东西4月22日消息,昨日,DeepMind发表新博客,展示了AI环境中的“规则博弈”现象,并认为任务规范和AI执行间的“规则博弈”在未来可能会变得更有挑战性。
“规则博弈”是一种虽然满足了目标所制订的规范,但没有达到设计者预期结果的情况,这也是AI训练中面临着的一大问题。以下是编译DeepMind的博客原文,文章中回顾了规则博弈可能产生的原因,分享了其在实践中发生情况的示例,以及讨论了关于解决规则问题的原则方法的进一步工作。
可能很多人都听说过希腊神话中迈达斯王的故事,故事中贪财的国王向酒神狄俄尼索斯请求,将他触碰到的任何东西都变成黄金。但他很快就感到后悔了,因为就连他的食物和水,甚至他的女儿也都变成了黄金。在现实中,当学生因为将一项家庭作业完成得好而获得奖励时,他可能不会参考学习资料,而去会借鉴另一个学生的作业来获得正确答案,从而利用任务规则中的漏洞而获得奖励。
▲迈达斯王点石成金
同样,这个问题也出现在人工智能产品的设计中。例如,一个能力较强的AI可以找到获得大量奖励的捷径,而不必按照人工智能设计者的意图完成任务。
这些行为很常见,让我们来先看一个例子:在乐高积木任务中,理想的结果是使红色块最终位于蓝色块的顶部。 玩家会因红块底面的高度而得到奖励。玩家没有执行相对困难的操作,比如捡起红色方块并将其放置在蓝色方块的顶部,而是简单地将其翻转到红色方块上以得到奖励。这种行为达到了既定目标(红色方块的底面高度),而牺牲了设计人员实际关心的内容(将其堆叠在蓝色方块的顶部)。
▲乐高积木示意图
一、规则博弈的两面性:意图与目标的差异
在开发强化学习(RL)算法的范围内,目标是构建学会实现既定目标的AI。例如,当我们使用Atari游戏作为训练RL算法的基准时,我们的目标是评估我们的算法是否可以解决困难的任务。 在这种情况下,AI的操作程序是否通过利用漏洞来解决任务并不重要。从AI可以找到一种实现指定目标的新颖方法的角度来看,规则博弈是一个好迹象。这些行为说明了算法的独创性和强大功能,AI可以找到并确切地执行我们告诉他们的操作的方法。
但是,当我们希望AI实际堆叠乐高积木时,同样的创造力可能会带来问题。在构建AI能够在世界范围内实现预期结果的统一呈现的更广泛范围内,规则博弈是有问题的,因为它涉及到AI以牺牲预期结果为代价来利用规范中的漏洞。这些行为是由于预期任务的错误说明,而不是RL算法中的任何缺陷造成的。除了算法设计之外,构建行为一致的AI的另一个必要组件是奖励设计。
准确地反映人类设计者意图的设计任务规范(奖励功能,环境等)往往比较困难。即使存在轻微的错误指定,一个非常好的RL算法也可能能够找到一个与预期解决方案完全不同的复杂解决方案;相对而言,即使较差的算法无法找到该解决方案,但其也可能产生更接近预期结果的解决方案。这意味着,随着RL算法的改进,正确指定意图对于实现预期结果变得更加重要。因此,至关重要的是,研究人员正确指定任务的能力必须与AI寻找新颖解决方案的能力保持一致。
我们在广义上使用术语“任务规范”来涵盖AI开发过程的许多方面。在RL设置中,任务规范不仅包括奖励设计,还包括培训环境和辅助奖励的选择。任务规范的正确性可以确定AI的创造力是否符合预期结果。如果规格正确,AI的创造力就会产生一个令人满意的新解决方案。这让阿尔法围棋(AlphaGo)打出了著名的37步,让人类围棋专家大吃一惊,而这一步在它与李世石的第二场比赛中至关重要。如果规则错误,它可能会产生例如翻转棋子等不良的游戏行为。这些类型的解决方案是在一个范围内的,我们没办法以客观的方法来区分它们。
二、规则博弈的可能原因:奖励机制不当与泛化反馈
设计不当的奖励形式是奖励功能不规范的来源之一。奖励的形成是通过在解决任务的过程中给予AI一些奖励,使学习一些目标变得更加容易,而不是仅仅奖励最终结果。但是,如果奖励不是基于潜力的,那么就会改变最优策略。假设在“海岸赛跑游戏”中有一个AI控制着一条船,它的目标是尽快完成比赛。在赛道上撞到绿色障碍物的人会得到一个奖励,这便会使得最优策略变成了兜圈子,一次又一次地撞到相同的绿色障碍物。
指定能够准确捕捉期望的最终结果的奖励本身就是一项挑战。在乐高堆叠任务中,仅指定红色块的底面必须高出地面是不够的,因为AI可以简单地翻转红色块来实现此目标。对期望结果的更全面的规范还应包括:红色块的顶面必须位于底面之上,并且底面必须与蓝色块的顶面对齐。在指定结果时,很容易忽略其中的一个标准,从而使规范变得过于宽泛,并且可能更容易满足此类解决方案。
与其尝试创建一个涵盖所有可能的极端情况的规范,不如从人们的反馈中学习奖励功能。评估一个结果是否已实现通常比明确指定结果要容易得多。但是,如果奖励模型没有清楚反映设计者偏好的真实奖励功能,则此方法也会遇到规则博弈问题。用于训练奖励模型的人为反馈的不准确也是造成博弈问题的原因之一。例如,执行抓取任务的AI,通过在相机和被摄者之间悬停,可造成评估者信息接收的错误呈现。
奖励模式也可能由于其他原因而被错误指定,例如泛化反馈。额外的反馈可以用来纠正AI尝试利用奖励模型中的不准确性的尝试。
另一类规则博弈的案例来自AI会利用仿真躯壳的bug。例如,一个模拟的人工智能机器人本来应该学习走路,但它却想出了如何把腿勾在一起并在地上滑动的方法。
乍一看,这类示例似乎很有趣,但事实并不是这样,因为在真实世界中没有模拟器bug,这类示例也与在真实世界中部署的AI代理无关。
然而,潜在的问题并不是bug本身,而是AI可以利用的抽象规则的含糊性。在上面的例子中,由于对模拟器的错误假设,错误地指定了机器人的任务。类似地,如果错误地假设流量路由基础设施没有软件缺陷或安全漏洞(足够聪明的AI可以发现这些缺陷),可能会错误地指定现实世界的流量优化任务。
更有可能的是,这些细节是设计者从未想到过的。而且,由于任务变得过于复杂,无法考虑每一个细节,研究人员更有可能在规范设计过程中引入错误的假设。这就提出了一个问题:是否有可能设计能够纠正这种错误假设而不是进行偏离主线的AI架构?
任务规范中常见的一个假设是任务规范不会受到AI行为的影响。这对于在沙箱模拟器中运行的AI是正确的,但是对于在真实世界中运行的AI则不是这样。任何任务规范都有物理表现形式:存储在计算机上的奖励功能,或存储在人脑中的偏好。部署在现实世界中的AI可能会操纵这些目标的表示,从而产生一个篡改奖励的问题。
在我们假设的流量优化系统中,在满足用户偏好(例如提供有用的方向)和影响用户选择更容易满足的偏好(例如推动用户选择更容易到达的目的地)之间并没有明显的区别。前者满足目标,而后者操纵用户偏好,两者都为AI系统带来了丰厚的回报。再举一个极端的例子,一个非常先进的人工智能系统可以劫持它所运行的计算机,并手动将它的奖励信号设置为一个高值。
综上所述,解决规范博弈至少需要克服三个挑战:
1、我们如何在奖励功能中明确地捕捉设定者对给定任务的概念?
2、我们如何避免在对领域的隐含假设中犯错误,或者设计AI来纠正错误的假设而不是博弈它们?
3、我们如何避免奖励篡改?
虽然已经提出了许多方法,但AI的博弈行为依旧严重,从建模奖励到激励AI的设计来看,规则博弈还远远没有解决。
结语:AI的规则博弈在未来可能更有挑战性
人工智能系统在以预期结果为代价的情况下,更有能力满足任务规范。当设计者构建更高级的AI时,将需要专门针对克服规范问题的设计原则,并确保这些AI坚定地追求设计者所期望的结果。