背景
86岁的罗马教皇方济各大概不会料到,在他饱受支气管炎困扰的那些日子里,一张机器生成的图片让他成了时尚界的“顶流”。
那件巴黎世家风格的白色羽绒服里包裹着的人仿佛是他,又不是他。
一些人在社交平台上留言称,他们已无法判断何为真实、何为虚构。
机器生成的虚假图像:教皇穿着巴黎世家风格羽绒服,走在城市街道上。
巴勃罗·塞维尔(Pablo Xavier,假名)——一个31岁的芝加哥建筑工人,是这张热门图片的缔造者。他在一个周五的下午吸食毒品时产生了灵感,决定创作一组和“教皇”相关的作品,于是便有了那张“教皇穿着巴黎世家/盟可睐的羽绒服,走在罗马和巴黎的街道上”的图片。
与传统的艺术工作者不同,塞维尔的创作并不涉及专业美术知识。他使用的工具叫Midjourney。这是一款时兴的人工智能(AI)绘画工具,即便是没有美术基础的人也能将其掌握。用户需要做的只是在输入框中填入描述性的文字,等待数分钟,便会有对应的图片产出。
Midjourney目前需要搭载Discord使用,在输入框中填入描述性文字,会有对应的图片产出。
与之类似的AI图像生成器还包括OpenAI开发的DALL-E,以及Stability AI与慕尼黑大学(LMU)合作研发的Stable Diffusion。虽然使用的训练模型略有差异,这些工具的共同点在于,它们都能将简单的文字描述转化成图像输出。
左图来自Midjourney图例; 右图由OpenAI根据“野花,草地,秋韵,水彩”描述进行创作。注意右下角的5个色块,这是DALL-E 2制图的标志(水印)。
塞维尔告诉美国聚合新闻网站BuzzFeed的记者,他觉得让教皇身穿羽绒服的图片“很完美”。他把它发到了一个名为AI Art Universe的Facebook小组里,又传到了社交论坛Reddit上。之后,这张图片就像外界所看到的那样——像病毒一般传开了。
长期关注互联网文化的美国记者布罗德里克(Ryan Broderic)在推特上表示,“巴黎世家教皇”可能是第一个真正被大规模传播的AI虚假信息(misinformation)案例。但类似的案例层出不穷。就在“巴黎世家教皇”被“曝光”的同时,一组声称“美国前总统特朗普被逮捕”的图片已经在赛博空间传播开来。网络上还流传着一张显示“俄罗斯总统普京单膝跪地”的图片。只不过,这些图片无一例外是用机器生成的。
Bellingcat创始人Eliot Higgins用Midjourney创造了一组展示特朗普被捕的图片。
当技术的发展模糊了现实和虚构之间的界限,面临人工智能被武器化的风险,人类要怎么做,才能避免被愚弄?答案或许飘荡在风中。但现阶段,相较于在现实世界中用各类镜头拍摄的照片,用AI生成的图片在仿真性上仍有一些“瑕疵”。通过探寻这些“瑕疵”,我们在当下仍有较大可能识别出用机器生成的图片。
此处,“澎湃明查”将结合具体图例,为大家介绍一些当下仍可使用的鉴别AI生成图片的方法。
工具
严格来说,塞维尔发布的图片并没有他所认为的那般“完美”。无论是图中教皇那只以奇怪的姿势抓着不完整的咖啡杯的右手,还是其身上挂着的没有显示出适当直角的十字架的佩饰,或是其戴着的眼镜镜片边缘不合理的阴影,都暗示了这不是一张在正常物理空间拍摄的照片。
左:图中人物右手受到挤压,咖啡杯的形状和手握咖啡杯的姿势极不自然;中:配饰上的十字架图案没有呈现适当的直角;右:眼镜镜片在人物脸部呈现不合理的阴影。
在判断一张图片是否是由机器生成时,首先值得关注的是图片中是否存在一些异常的细节。《华盛顿邮报》技术专栏作家奥维德(Shira Ovide)对此提出了4点可供参考的建议:
第一,查看图中人物的双手,是否存在手指过多或其它怪异的情况。早期的AI在生成人物手部图像时常常出现问题,业界普遍认为这是由于训练集中人类手部图像出现的频率往往低于脸部导致的。Midjourney从V5版本起已经对机器生成的手部效果进行了较大改进,但不意味着已经没有漏洞。
DALL-E生成的虚假图像:骚乱中的法国总统马克龙。其手部手指的数量和姿势均十分怪异。
例如,在塞维尔创作的教皇图像中,人们可以轻易地观察到,图中人物的右手看起来被压扁了,而他手握咖啡杯的姿势也显得极不自然。
第二,观察图像中人物的配件。是否存在缺少或不匹配的耳环、眼镜架?只有一个轮子的自行车?如果图像中出现了一些违背现实的物体,那么它就很有可能是用机器生成的。
同样以塞维尔创作的教皇图像为例。一些目光敏锐的人或许已经注意到,方济各脖子上佩戴的传统胸饰十字架只有一条带子,这是不合理的。
方济各脖子上佩戴的传统胸饰十字架(红圈内)只有一条带子。
第三,观察图像中的文字。当一张图片中出现路牌、广告牌、产品包装袋时,不妨留心一下这些物体上包含的文字内容。它是一堆乱码吗?你能看懂文字显示的信息吗?
以英国哈里王子打包麦当劳食品的图像为例,这是一张用AI生成的图片。尽管图中黄色包装袋上显示的餐厅标志看起来很逼真,但袋子上的文字却是胡言乱语。
机器生成的虚假图像:英国哈里王子打包麦当劳食品。包装袋上的文字是一堆乱码。
第四,扫描背景。人工智能生成的图像可能会有模糊或扭曲的细节,这一点在图像背景中尤其明显。例如在这张显示特朗普被捕的假图中,当我们将目光从画面中心移开时,就不难注意到,背景中执法人员的脸早已模糊或变形。
Higgins用Midjourney生成的“特朗普被捕”的虚假图像背景中,执法人员的脸产生了模糊或变形。
除上述4点,AI生成的图像还有可能会出现一些常见的异常细节。例如人物的脸部不对称,牙齿偏离中心,配饰与身体融为一体等。这些细节之前也常常被应用于对深假图像(DeepFake,俗称AI换脸)的观测中。但随着人工智能技术的发展,这些发现AI图像的线索也许很快就会过时。人们可能将越来越难用肉眼发现AI生成的内容。
在业界,一些科学家近年来开始尝试将解决问题的目光转向机器,期待“用魔法打败魔法”。例如Mayachitra的工程师在2021年建立了一个用以检测图片是否使用生成对抗网络技术的GAN检测器;开源社区Hugging Face上搭建有针对AI生成内容的AI图像检测器和OPENAI检测器;2020年,微软公司还曾发布过一项名为Microsoft Video Authenticator的工具,用以针对网络上用深假技术制作的虚假视频。但出于安全的考虑,微软公司并未将这款工具开放供人们使用。
用Hugging Face的AI图像检测器检测“巴黎世家教皇”图像,反馈此图有62%的概率由机器生成。
需要指出的是,现阶段,许多用于检测AI图片的工具反馈的结果并不总是准确,这可能是由于它们只能针对某些使用了特定模型的AI图片进行检测。
面对人工智能技术被武器化的风险,人类目前的应对之法还存有诸多局限。但这不意味着要因噎废食,阻止新技术的发展。奥维德指出,伪造图像的现象由来已久,把AI造假看作世界末日的做法是不负责任的。
目前,除了将希望寄托于技术和监管,人们更多可以做的,或许是在传播信息前,能够冷静思考,寻找图片的来源,阅读和图像相关的标题、背景信息,留心图片上是否存有AI生成图片的水印,并对图片的细节进行判断。
“澎湃明查”也将持续关注人工智能技术的发展前沿,探寻帮助人类在享受技术便利性同时应对技术应用可能导致的虚假信息泛滥之法。