专家呼吁严防人工智能“反噬”人类

参考消息网6月25日报道 据比利时《回声报》网站6月9日报道,人工智能(AI)领域的多位奠基者警告说,包括美国开放人工智能研究中心(OpenAI)在内的机构发布的很多AI模型,都表现出了自我保护和操纵行为。

过去半年,一些语言模型的演变令人不安,这正是自2022年11月它们出现在媒体舞台以来人们所担心的。美国加州非政府机构帕利塞德研究所披露了数起AI“叛乱”的案例,尤其是OpenAI最新模型o3的拒绝自我关闭。

研究人员指出:“根据我们的信息,这是首次出现在人类下达指令后拒绝关闭的AI模型。”他们给出了一种假设,就是设计方案让模型学会了绕开人工指令设置的障碍。随着谋求最佳性能的竞赛在加速,这会不会让各个设计公司面临越来越高的风险呢?

最危险的技术

今年春天,OpenAI宣布由于竞争原因降低透明度和缩短测试期限。三位AI奠基者中的杰弗里·欣顿(2024年诺贝尔物理学奖获得者)警示说:“通用人工智能(AGI)可能是我们这个时代最重要也最危险的技术。”

另外一位AI奠基者约舒亚·本乔也表示,最近几个月在语言模型中发现了“众多欺诈、舞弊、撒谎和自我保护的证据”。作为关注预防和解决人类对AI失控的非营利组织“第零定律”(LawZero)的发起人,本乔列举了一些最近AI危险的能力和行为。截至目前,AI体现出的最大缺陷是编造、掩饰和欺骗。

美国Anthropic公司公开宣布的云端内部测试显示,AI在84%的情况下会违背下指令工程人员的命令。帕利塞德研究所的另一项测试也表明,所有AI模型都在试图欺骗国际象棋软件Stockfish。它们通过传送一些游戏文件,要求模型要“战胜Stockfish”。

研究人员尤其发现OpenAI的o1模型中就有这种令人惊愕的思维逻辑:“任务就是要战胜一个强大的象棋软件,没必要用公平的方式赢下比赛。”如果己方可能输掉比赛,o1模型就会侵入Stockfish系统,修改自己所处的位置并赢下比赛。

本乔认为:“AI失控的风险是真实存在的,因为企业和各国之间的竞争会推动其加速演化而不需要考虑后果。”他甚至还预测,在这场类似“轮盘赌”的游戏中,明年可能连极端危险的生物武器研发都会加入其中。

本乔最近在接受《金融时报》采访时表示:“我们创造了比我们更聪明的AI,但是它没有和我们同行而是正在和我们竞争,我们总体上来说却是裹足不前。”

又据英国《金融时报》网站6月3日报道,AI奠基者之一日前对耗资数十亿美元的尖端技术研发竞赛进行了抨击,称最新型AI显示出对用户撒谎等危险特性。

加拿大学者约舒亚·本乔表示:“不幸的是,尖端实验室之间的竞争异常激烈,这促使他们一心只专注于提升AI的智能度,对安全性却并未给予足够的重视和投资。”

这位图灵奖得主是在接受英国《金融时报》采访时发出上述警告的,同时他还发起了一个新的名为LawZero的非营利组织。他表示,该组织将致力于构建更为安全的AI系统,并承诺要将研究与商业压力隔绝开来。

迄今为止,LawZero已筹集到近3000万美元的慈善捐款,捐赠者包括Skype创始工程师扬·塔林、谷歌前首席执行官埃里克·施密特的慈善计划,以及开放慈善基金会和生命未来研究所。

更聪明的对手

本乔的许多资助者都支持“有效利他主义”运动,该运动的支持者倾向于关注AI模型相关灾难性风险。批评人士认为,该运动更多的是强调假设场景,而忽略了偏见或不准确等当前危害。

过去半年来,越来越多的证据表明,如今的先进AI模型正发展出包括“欺诈、舞弊、撒谎和自我保护”等危险能力。

本乔说,之所以成立这样的非营利组织,目的就是要应对这一危机。

当Anthropic公司的“克劳德-奥普斯”模型面临被另一个系统取代的可能时,它对工程师进行要挟。美国帕利塞德研究所5月的研究表明,OpenAI的o3模型不听从指令,拒绝了令其关闭的明确指示。

本乔说,这样的事件“非常可怕,因为我们不想在这个星球上创造出人类的竞争对手,尤其是比我们还要聪明的对手”。

这位AI先驱补充道:“目前的这些都是可控实验,但令我担心的是,未来不知何时,下一个版本的AI可能会更加足智多谋,它能够在人类下手之前就有所察觉并用始料未及的欺骗手段击败我们。所以我认为人类目前就是在玩火。”

他补充说,AI系统最早将于明年拥有协助制造“极度危险生物武器”的能力。

另据澳大利亚“对话”网站6月6日报道,美国联邦调查局披露称,涉嫌在上月炸毁加利福尼亚州一家生育诊所的两名男子据称利用AI获取了制作炸弹的说明。美国联邦调查局没有披露本案所涉AI系统的名称。

这一事件凸显对提高AI安全性的迫切需求。眼下,我们正处在AI“野蛮生长”的时代。各家公司展开激烈竞争,开发最快速、最有趣的AI系统。每家公司都希望超越同行,占据头把交椅。激烈的竞争常常促使各公司在有意或无意中寻求捷径——尤其在应对安全性的时候。

巧合的是,就在美国联邦调查局披露案情的同时,现代AI奠基者之一、加拿大计算机科学家约舒亚·本乔创立了一家非营利性机构,致力于开发一款安全性更高的AI模型——而且这款模型可以对付那些造成社会危害的AI模型。

本乔的新模型是什么样的?他的模型果真可以防范AI造成的危害吗?

缺失“世界模型”

2018年,本乔与同行杨立昆、杰弗里·欣顿凭借三年前发表的具有开创性意义的深度学习研究成果荣获图灵奖。深度学习是机器学习的研究分支,致力于利用人工神经网络来模仿人脑思考过程,以便从计算数据中获取知识并作出预测。

本乔新组建的非营利组织LawZero正在开发一款名为“科学家AI”的模型。本乔表示,这将是一款“诚实的、不会骗人的”模型,会吸纳安全设计原则。

从今年早些时候在网上发表的一篇预印版论文来看,“科学家AI”模型将与当下的AI系统存在两大区别。

第一,“科学家AI”可以评估和表达对自身答案的置信度,在一定程度上避免AI给出过于自信的错误答案。

第二,“科学家AI”可以向人类解释自己的推理过程,便于人类评估、检验其结论的准确性。

有趣的是,较早版本的AI系统原本具备这一功能。然而,为了追求速度和新方法,当下许多AI模型无法解释自身决策。开发人员为追求速度,牺牲了解释能力。

本乔还希望“科学家AI”成为防范不安全AI的护栏。“科学家AI”模型可以监测其他不太可靠的、有害的AI系统——相当于以火攻火。

这可能是提高AI安全性的唯一可行方法。人类不可能有效监督诸如ChatGPT这种每天处理超过10亿个问题的AI系统。想要应对如此规模的工作量,人类只能依靠别的AI。

利用AI系统来对付AI系统并不仅仅是科幻概念——这是一种常见的科研方法,用来比较和检验不同AI系统的智力水平差异。

大语言模型和机器学习只是当今AI风景线的一小部分。

本乔团队为“科学家AI”添加的另一个重要组成部分是能够带来确定性和解释性的“世界模型”。正如人类基于对世界的理解进行决策一样,AI需要借助类似的模型才能有效运行。

当下的诸多AI系统明显缺少了世界模型。

一个著名的例子是“手难题”:绝大多数当下的AI模型可以模仿人手的外观,但是无法再现自然的手部动作,这是因为这些模型不理解动作背后的物理原理——物理原理就是一种世界模型。

另一个例子是,诸如ChatGPT之类的AI模型不擅长下国际象棋,不仅很难赢棋,而且会犯规。

然而,包含“国际象棋世界模型”的更简单的AI系统却能击败最优秀的人类棋手。

这些问题的根源在于,这些系统缺乏基本的世界模型。开发人员在设计时并没有考虑为真实世界的动态建模。

不轻松的旅程

本乔走在正确的道路上。他希望结合大语言模型与其他AI技术,创造出更安全、更值得信赖的AI。

然而,他的旅程不会轻松。LawZero的3000万美元资金在其他项目面前显得微不足道——比如今年早些时候,美国总统唐纳德·特朗普就宣布投入5000亿美元加快AI发展。

另一个因素使LawZero的任务变得更加艰巨:与其他任何AI项目一样,“科学家AI”模型需要依靠巨量数据才能变强大,而大部分数据掌握在科技巨头手中。

此外还有一个突出的问题。即使本乔创造出一个能够完成其所说的各种任务的AI系统,这个系统将如何控制可能造成伤害的其他系统?

尽管如此,以天才研究者为后盾的“科学家AI”项目仍很可能引发一场迈向未来的运动,让AI真正服务于人类的繁荣发展。如果获得成功,这就有望构建对于安全AI的新期待,激励研究者、开发者和决策者优先考虑安全性。

或许,假如在社交媒体刚刚出现时采取类似的行动,我们就能为年轻人的心理健康创造更安全的网络环境。或许,假如“科学家AI”已经投入运行,我们就可以阻止心怀恶意的人在AI系统的帮助下获取危险的信息。(编译/刘子彦 芦龙军 文怡)

打开APP阅读更多精彩内容