撰文/《财经天下》周刊作者 赵子坤
编辑/ 董雨晴
星空、沙漠、孤岛,自然、虚拟、火星,人类会如何理解这些意象,又会如何落笔,将文字幻化为画?依据不同作者的“人格”,答案往往各不相同。
今年夏天,一个短红发“少女”初出茅庐创作的四幅画作,在24小时内卖出超17万元的高价,还得到了美院教授“达到本科美术毕业生的基本要求”的高评价。
只是这个少女,并非人类。
诞生于2019年,“年仅”三岁的百度数字人度晓晓,是百度人工智能技术落地的重要场景。如今,她也不仅扮演一个助手角色,在不断丰富完善的数据库、持续迭代的技术支持下,开始“自主”生产内容,也就是AIGC (AI generated content)。
度晓晓的“无界”系列画作在西安美术学院展出
左图:《宇宙无界》右图:《自然无界》
“未来十年,AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”7月21日,百度公司创始人、董事长兼首席执行官李彦宏在大会上说。
过去二十年,互联网快速发展下,内容生产门槛降低、平台开放程度增加,“去中心”的生产模式下,内容不再仅掌握在少数组织手中,普通人也能自我展露,创作,生产出的内容数以千亿,海量UGC、PUGC内容涌向人群。
如果未来世界中,AI可以拥有“人格”,他们又能在内容创作中做到什么?又是如何做到的?
家有“女儿”初长成
可以说,“度晓晓”就是百度AI的“亲女儿”,她坐拥了百度几乎全部的先进资源,也是百度AI在搜索场景下的重要落地案例。其也呈现了一种搜索进化的可能性。
1990 年,第一个互联网搜索引擎出现。这期间,搜索框从电脑走进手机等智能设备,一直没变的,是搜索形态:输入问题,好奇就能变成答案。
2011 年,苹果 Siri 让搜索有了新形态:语音。这将人类提问方式从文字扩延开来。从微软 Cortant、谷歌 Assistant、亚马逊 Alexa,再到百度小度、小米小爱、天猫精灵,搜索“进化”成了人类的生活助理。
而度晓晓的“出世”,更是搜索功能的一次巨大飞跃。
在AI交互技术加持下,幻化为“搜索助手”的AI数字人,有了可视化的外表和更接近人类习惯的语言表达。冷冰冰的答案,也变得趣味起来。
更为关键的是,在技术的迭代发展下,度晓晓的“学习能力”呈指数级增长。
今年6月初,度晓晓创作的四款画作被制作为数字藏品,在百度App上线售卖。作为国内首个数字人创作的艺术数字藏品,该系列画作24小时售卖额就超过17万元。
这已经不是她第一次在大众面前展现AIGC能力了,在刚刚过去的高考,度晓晓作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》的议论文,被专家评定为水平超过75%的考生。
7月8日,度晓晓再战上海高考,直播写英语作文,这考验了她对多种语言的理解和生成。
在直播中,除了英语之外,度晓晓在现场还一口气生成了韩语、法语等多个语种的作文,这背后都是百度飞桨文心大模型提供的技术支持。
据百度相关技术人员透露,度晓晓除了使用百度最新推出的文心ERNIE 3.0 Zeus千亿大模型,还使用了一种可以理解超过上百种语言的多语言大模型ERNIE-M。也就是说,在文心大模型的支撑下,度晓晓不仅能够写出立意明确、引经据典的高分中文作文,还能够快速生成超过100多种语言的优质内容。
度晓晓的「无界」系列画作采用的正是文心大模型跨模态图文生成大模型 ERNIE-ViLG,它构建了包含 1.45 亿高质量中文文本 - 图像对的大规模跨模态对齐数据集,而且基于飞桨平台在该数据集上训练了百亿参数模型。
这样看来,“百国语言能力者”度晓晓,算得上是父母口中“别人家的孩子”。
“女儿”背后的模型
度晓晓体现出来的类似于“人格”的特征,离不开百度飞桨(PaddlePaddle)的文心大模型提供的底层技术支持。
更复杂一点看,度晓晓整合了多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等多项技术,可以在“汲取”海量数据后,听懂语言,看懂图片、视频,并能根据文字,自主“创作”。
那么,度晓晓的绘画“灵感”到底来源于哪儿呢?它的创作过程又是怎样的?
首先,AI从海量图文对应的数据中学习到了“语言描述”与“艺术画面”的关联,但每一个关键字后,对应的绘画风格不同。比如“山峰”,可以是中国画中的壁立千仞,也可以是油画中的威严庄重,也可能在科幻设定图中是光怪陆离、霓虹闪烁的都市幻影背景。
当有人输入一段语言描述,AI将会调动海量数据,以“随机化”的起点开始,经过数百轮不断更新、修正画作,一点点填轮廓、上彩色。
每一轮,AI都会仔细检查草稿与语言描述的一致性,让作品与输入的语言描述有正确的关联。在整体修正的过程中,构图不断明晰,模糊、噪点的部分不断被更精确的配色和轮廓代替,最终形成在审美上与人类经验与知识高度一致的成品。
度晓晓“创作”的西安大雁塔
对于AI而言,“风格”,是一种从海量数据中学习到的知识。也就是说,AI是学习人类画作的过程中,通过比对来逐步了解哪些是油画、哪些是中国画的。通过“拆解”不同的风格,AI将学习到各类的构图、配色、轮廓和对各种物体的不同描绘方式。
AI的“创作力”,本质上是一种“随机性”生成。就像人类将不同风格的绘画杂糅、创建新的画派,AI可以学习一千种人类绘制月亮的方式,并借助随机性的“意外”得到第一千零一种。而这种“意外”也就近似人类创作过程中所拥有的“作者性”。
人类常说“由画观情”,也就是从一副画作中识别出作画人的情绪和性格。那么,AI能做到吗?
“技术上,可以实现,但并不容易。人类对思想和情绪的表达,有时是含蓄和微妙的,一个微小的眼神和动作、一个衣服上丢失的纽扣、一缕山间微风吹起的落叶……这些是AI还很难精确呈现的细节,也是AI未来理解人类的更高目标。”百度相关技术人员向《财经天下》周刊介绍。
但通过学习大规模高质量的文本-图像对数据,文心ERNIE-ViLG模型建模了融入情感的文字描述与图像之间的语义对应关系,在给定特定情绪描述时,就能够在生成图像的过程中考虑图像中的元素、色调、动作、眼神、表情等方面,恰当的表达出AI的“情绪”。
2016年,百度打造了中国第一个自主研发、开源开放的产业级深度学习平台飞桨。基于飞桨,百度进一步攀登预训练大模型的技术高地,打造具备“知识增强”能力的文心大模型。
除了AIGC方向,目前文心大模型也已应用于百度信息流、智能音箱等互联网产品,同时在媒体、医疗、金融等行业都有实际落地场景。
例如,在媒体创意行业,文心大模型的理解和生成创作能力激发创意,能降低制作成本;在人力资源领域,文心大模型能“解放”HR手动分类,实现候选人信息智能分类,模型识别准确率达到99%;在医疗领域应用中,文心大模型将每份病历的检查时间,从30分钟缩短到了秒级别。
这种人工智能技术在千行百业中落地应用,都是在帮助人类从重复性、无意义劳作中解放出来。
数字人会梦见毕加索吗?
科学技术通常是以一个指数级曲线在发展,在普通人还未曾设想的领域,就已经悄然发生改变。
就在一个月前,谷歌研究员Blake Lemoine在与聊天机器人LaMDA对话时,相信“对方”所说,自己已经拥有“人格”,也就是独立意识。他递交了21页调查报告,试图说服高层。但上司驳回了他的说法,该研究员也被迫“带薪休假”(这一举动近些年普遍被视为解雇前奏)。
这个拥有博士学位、7年AI工作经验的研究员公开了自己的“发现”,引起轩然大波,但这一说法并未得到科技界认可。
虽然还没人能准确预判技术“奇点”何时到来,但不可否认的是,在如今的技术加持下,AI也能越来越像人类了。比如,用户可以将定制化声音输入到小度、百度地图等产品中,用自家小孩的声音叫起床、报天气、导航。
不只是服务型角色,现在,AI在情绪感知方面也在精进,比如高兴、生气、沮丧、伤心等,可以通过文本、语气分析感知到。据百度技术人员透露,百度目前“正负向”做得非常准,有7-8种正负向情感能明显感觉出来,每一项准确率能够达到90%以上。
事实是,AI基础性算法的核心本质,仍然是模拟人的大脑的决策过程,而非原创。但这并不妨碍AI能够在预训练大模型下,不断增加参数量、丰富体系结构,能减少需要的标注数据量,同时提升模型的泛化能力。
“百度文心大模型学习效率更高、学习能力更强,还能跨语言、跨模态学习。一旦跨过某个奇点,就能产生真正意义上的AI原创内容。”李彦宏在百度大会上说。
李彦宏介绍,AIGC将走过三个发展阶段:第一,“助手阶段”,用来辅助人类进行内容生产。第二,“协作阶段”,AIGC以虚实并存的虚拟人形态出现,人机共生。第三个阶段,“原创阶段”,AIGC将独立完成内容创作。而大模型技术的突破,正在加速这个发展趋势。
在技术“奇点”到来的那天前,持续滚动的技术模型,仍在日夜无休地“汲取”海量的人类知识。
数字人,不只是“工具人”
不得不承认,开年以来,虚拟人赛道的柴愈添愈热,也出现了一些困惑声音,虚拟人的前景在哪儿?除了担任企业“吉祥物”般的角色,还能有多少想象空间?
“现在的数字人行业,已经过了仅当‘亮点’的阶段,更多企业在追求它的真实价值,也就是由投入期逐步走向收益期,我们现在推出的一些标品,不仅能帮客户省钱,还能帮客户挣钱。”百度数字人与机器人业务负责人李士岩说。
目前,虚拟人赛道的需求争夺,除了要能提供语音、语义、视觉全链路服务,也到了竞争低成本运维和使用的阶段。
越来越多企业愿意让虚拟人做代言人
看到了直播领域的火热,百度智能云专门打造了一个数字人平台“曦灵”,要做无人值守,全年无休的超写实数字人直播平台。
据业内人士介绍,因为AI大模型具备了很强的通用能力,能够在零样本、少样本情况下在多种任务上取得较好效果,省去了在这些任务上训练单独模型的成本。也因此,数字人制作成本能从百万级别降低到万元级别,生产周期也从几个月,缩短到小时级别。
而且,数字人不仅能帮助真人解放重复性、空缺性的工作内容,还能解决一些闲时阶段、高并发的诉求。尤其是,像彩妆、美妆、假发和服装等垂类,更适合表现力强的数字人出镜。
就拿服装领域来说,数字化能从本质解决两个环节:第一,销售端不用有实物也能够售卖,有一定订单量再返给工厂做生产,缓解库存周转问题;第二,面料数字化,解决了面料几次打版打样的成本。据知情人士透露,百度将在今年Q3、Q4公布其与部分地方政府做产业链改造。
现在数字人的直播,最主要的应用场景是在闲时流量延长直播时长。真人主播卖服装,受制于场地、环境限制,只能单维度展现面料、个人穿着情况,但放置在一个数字空间,数个模特走秀、穿梭在各种虚拟背景下,全方位运镜,展现力更强。
“非常有机会在可预见的1-2年内能够做到数字人整个表现力和交互能力,可以无限制趋近于真人的水平。”李士岩说。
根据中商产业研究院预计,2022年中国电商直播市场规模将上升至15073亿元。商家往往要花费高昂的佣金雇佣头部主播,不同级别的主播佣金差距很大,从几百元到几十万都有。而数字人直播便可降低人、时间、空间的限制、无需真人主播、中控人员、复杂硬件支持,为商家降低30%以上的直播成本。
百度去年发布智能云曦灵数字人平台,核心就是要解决行业里数字人应用周期长、成本高的问题。降低成本,就是搭建一个安装即用、门槛极低的标准化产品。
在此前AI财经社&《财经天下》周刊联合发起的数字人综合能力评估中,依据底层技术、产品形态、交付效率、落地案例等维度评判,百度智能云曦灵平台也达到了综合能力第一的结果。
今年4月,百度发布了手语平台,甚至都不用下载,访问一个网页就可以使用。7月,百度发布的是直播平台,将直播赛道再做成标准化的产品。据百度方面透露,2022年末,曦灵平台会有一次大的迭代。
未来,小微、中型企业甚至都不需要一个运营团队,一个具有基础技能应用人员,下载一个软件就可以帮企业做企业营销运营。虚拟主持人、虚拟主播、虚拟偶像、虚拟员工、虚拟二分身等等赛道,百度都会逐步推出标准化产品。
“人的创造力是AI短期内无法完全100%取代的,但是AI的优势在于耐久度与并发性,可以同时个性化与每个用户回答问题,耐久度可以全天7×24小时,这是真人做不到的。” 李士岩说。
而像度晓晓这样具备AIGC生产能力的数字人,在数据模型的飞轮支持下,未来能做到的事情会更多。
(文中图片皆来自百度相关业务)
本文由《财经天下》周刊旗下账号AI财经社原创出品,未经许可,任何渠道、平台请勿转载。违者必究。