继星际争霸后,科学家成功用AI来玩愤怒的小鸟,但还是赢不过人类玩家

几年前的热门手游 愤怒的小鸟 如今也被 AI 看上了。 在本周于Arxiv.org 上 发表的预印本

几年前的热门手游 愤怒的小鸟 如今也被 AI 看上了。

在本周于Arxiv.org 上 发表的预印本 论文中 ,布拉格查尔斯大学的研究人员详细介绍了使用Deep Q学习技术训练的AI系统DQ-Birds,该技术是Alphabet的DeepMind率先提出的,它指示代理商在什么情况下应采取何种行动。 使用先前行动的随机样本的情况。 研究人员选择实施“深层Q学习”风格的Double Q学习,该策略不同于用于选择下一个动作的策略,用于评估第一个策略的决策。

参与项目的研究人员表示,由于顺序决策,不确定性的游戏环境,极大的状态与角色可行动空间,同时又要求区分不同小鸟的能力和最佳射击时间等问题,愤怒的小鸟可以说是解决人工智能代理的一项艰巨任务。

为了在看似毫无头绪的关卡空间中找出最佳解法,研究人员捕捉了关卡的屏幕截图,并将之进行裁剪,同时隐藏UI等与游戏互动无关的元素,裁剪之后在调整大小并进行规范化,接着再传递给Deep Q机器学习技术来找出模型。

为了学习他们的模型,团队编辑了《愤怒的小鸟经典》的《荷包蛋》合集中的21道关卡的数据集,其中包括超过经过裁剪与整理的115,000张屏幕截图。 接下来,他们将AI系统设置为一个包含10个关卡的验证集。 研究人员指出,他们的AI玩家能够在某些关卡中超过一组四个专业玩家的得分,但是就21个关卡获得的得分的总和而言,它的表现其实还是追不上人类。

研究人员指出,Deep Q在尝试让AI玩愤怒的小鸟赢过人类玩家的这个目标并没有成功,但已经是历年来尝试用AI解决愤怒的小鸟问题的案例中表现最好的一次了。

研究人员认为,目前AI解决愤怒的小鸟的不足之处,在于缺乏足够关卡差异的训练数据集,然而AI也常常在初次尝试解决关卡时,首发就过关,而某些关卡的弱点过于明显,也让AI很难从错误模式中学习到不同关卡的解法,关卡完成了,但没能提升多少AI的解题经验。

这是很有趣的一点,可能是愤怒的小鸟本身的关卡设计逻辑并不一致所导致。

打开APP阅读更多精彩内容