在RTE2024,窥见实时AGI的未来

作者|周一笑

1

AI+RTE:让《Her》走进现实

GPT-4o的高级语音模式让我们看到了AI也可以具备低延迟且自然流畅的对话能力。丝滑的体验让智能助手真正摆脱了“智障”的帽子,科幻电影《Her》中的场景,走进了现实。

10月,OpenAI发布的Realtime API,让开发者可以轻松地将这种丝滑的语音体验植入自己的应用。

在此之前,需要串联多个模型的繁琐过程才能实现,例如,开发者需要使用自动语音识别工具,比如Whisper,来转录音频,将转录的文本传递给推理模型,然后使用文本转语音模型来播放响应。这种方法不仅耗时,且常常导致对话中情感、腔调和口音等重要元素的丢失。

相比之下,OpenAI的Realtime API能进一步降低语音交互的延时,能够实现更接近真人的情感和情绪表达,提供更自然的对话体验。

要实现这种体验,离不开端到端训练的语音基础模型,这依靠的是OpenAI强大的科研和工程能力,而要让这种体验走进更多用户的日常,不仅仅是停留在demo演示当中,则离不开成熟的语音模态基础设施提供支撑。为此,OpenAI找到了合适的合作伙伴,其中就有声网的兄弟公司Agora。

Agora与OpenAI宣布合作,发布了对话式AI SDK,该SDK集成了Realtime API,同时利用了Agora的智能路由和超低延迟实时网络,集成了AI回声消除和背景噪声消除等功能,确保在任何环境下都能进行精准的语音处理,成为开发者和OpenAI的GPT模型之间的可靠连接。

眼光转向国内,AI+RTE的故事同样精彩。各大模型厂商都在摩拳擦掌,试图突破“冷冰冰”的文本对话框,让用户与AI的交互来得更实时、更自然、更有温度。智谱清言、豆包和Kimi等产品都推出了自己的实时语音通话功能。

这波AI+RTE的浪潮,正在悄然改变着我们与AI对话的方式,而这可能只是智能交互新时代的开始。

1

AI浓度拉满的RTE2024

Agora与OpenAI的合作成为行业焦点,标志着实时互动(RTE)与人工智能正加速融合,这不是个例,已经成为一个显而易见的趋势,行业正在朝着“实时构建AGI”的愿景迈进。

十年光阴,见证变革。2015年,当第一届RTE大会在国内召开时,实时音视频还是一个相对小众的技术领域。彼时的行业氛围基本是“一片荒芜”:没有专业的技术交流平台,没有系统的知识传承,也缺乏活跃的技术社区。十年间,声网以实干者的姿态,作为RTE领域的领军企业,通过持续举办RTE大会、建设开发者社区、出版专业技术书籍等方式,逐步构建起行业完整的知识体系和交流生态。

今年8月,声网还出版了行业首本系统介绍实时互动的技术型科普书籍《读懂实时互动》,填补了RTE领域无专业书籍的空白,为行业的学习和普及提供了重要参考。

如今,RTE大会早已不是单纯的音视频技术聚会,从娱乐直播、出海、音视频会议,到在线教育、iot、数字化......历年的RTE大会就像是一个风向标 ,成为行业风口和技术变迁的第一手见证。随着AI大模型技术与音视频技术的深度融合,今年十周年的RTE大会更是成为AI浓度最高的一届。

从技术演进的脉络来看,实时互联网技术(RTE)经过十余年发展,已从最初的点对点通讯,发展到支撑直播、远程协作等复杂应用场景。而生成式 AI 的出现,则为RTE注入了全新的想象空间,今年的RTE2024会场内外,与会者们热切讨论着AI与RTE的结合将带来怎样的可能性。

在本届大会上,声网也正式发布了RTE+AI能力全景图,从实时AI基础设施、RTE+AI生态能力、声网AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,从底层的实时AI基础设施,到上层的多模态对话解决方案,再到丰富多样的应用场景,展现了RTE与AI融合的技术版图。

声网创始人赵斌描绘了生成式AI驱动下的IT行业四大变革:AI PC、AI Native Software、AI Native Cloud以及以自然语言为主的人机交互界面。值得关注的是,声网与MiniMax正在打造中国首个Realtime API,现场展示的人工智能体已实现了流畅的实时对话效果。

AI Native是一个倍受关注的概念,与其说这是一种技术选择,不如说这预示着整个产业的思维方式正在发生转变。正如Lepton AI创始人贾扬清所指出的:AI是继Web云、数据云之后的“第三朵云”。在他看来,未来应用开发将从“以流程为中心”转向“以模型为中心”,他还强调实时性与智能的结合将直接等同于生产力。这种转变堪比上世纪90年代从字符界面到图形界面的革命性跃迁。

在基础架构层面,声网CTO钟声现场展示了端边云结合的方案,在超过千人的嘈杂会场环境下,基于端边云架构的AI智能体依然展现出优秀的实时对话能力。不仅证明了分布式端边云结合方案的可行性,也展示了在复杂环境下突破次秒级响应、噪声对抗等技术难题的可能性,为解决AI大规模落地面临的成本、延迟和隐私等核心问题提供了新思路。

在商业化落地方面,与会嘉宾们普遍认为,模型小型化、计算效率提升将是必然趋势。特别是在开源架构日益普及的背景下,企业可以通过开源模型+定制化路线,实现更低成本、更快速度的落地。

当然,挑战依然存在。算力成本、端侧优化困难、商业模式待验证等问题都需要时间去解决。但从历史经验来看,一旦技术演进方向确立,这些问题往往会在产业链的共同推动下逐步得到解决。

从现场的讨论来看,RTE和AI的结合正在催生新的技术范式和商业模式,大会传递出一个清晰的共识:多模态能力的不断拓展可能成为引爆下一轮革新的关键。语音、视觉、文本等多种模态的融合,不仅扩展了AI的能力边界,更为创新应用提供了沃土。从创作辅助到智能客服,从教育培训到娱乐互动,多模态AI正在开启更多的可能性。

1

人机交互进化,RTC筑基未来

视觉和听觉是人类感知世界的主要通道,不仅是我们最原始的信息获取方式,也是信息密度最高、最直观的交互模式,这一基本事实决定了无论技术如何更迭,科技行业风口如何变迁,实时音视频技术(RTE)始终是提供实时通信和交互支持的核心基础,将在人机交互中扮演关键角色。

据CCW Research的报告,超过80%的客户仍然偏好基于语音的服务。这一数据印证了在AI时代,语音交互的重要性不减反增。Meta发布的智能眼镜Ray-Ban Meta就展现了这一潜力,升级后的Ray-Ban一大亮点正是实时AI视频处理和实时语言翻译能力,这些多模态功能虽然还没有全部正式推出,但从市场反馈已足见其对消费者的吸引力。可以预见,无论是对于大模型厂商还是AI硬件厂商,实时交互能力将成为行业的新标配。

然而要实现这种新的标配能力,离不开强大的底层基础设施的支撑。厂商没必要,也不可能全都去做一遍重复造轮子的事情。正如我们在视频会议、社交泛娱乐等行业发展历程中所看到的,各个厂商与声网这样的RTE-PaaS平台合作成为了一种自然的选择,这种趋势如今正在向AI领域扩展。大模型公司和开发者可以专注于模型优化和应用开发,而不必过多关注底层通信技术的复杂性。

1

结语

过去十年,我们见证了太多技术从概念走向普及的精彩瞬间。在技术进化的大潮中,RTE的发展轨迹同样令人瞩目。声网和RTE大会走过的这十年,是一段从技术突破到产业变革的关键旅程:RTE从一个前沿通信概念,蜕变为数字时代的关键基础设施。与此同时,我们也亲历了AI技术的加速进化——从实验室的尖端研究到开放商用,AI正以前所未有的速度渗透到各个产业场景。

传统认知中,实时交互主要解决的是人与人之间的连接问题,但在AI时代,这种连接延伸到了人与AI之间。RTE会上展示的次秒级AI对话能力,也暗示着我们正在接近一个临界点:AI不再是一个被动的工具,而是能够与人类进行真正自然交互的智能体。

当RTE与AI这两股技术浪潮交汇,我们看到的不仅是简单的技术叠加,而是一次革命性的范式转变。这种融合正在重塑我们对AGI的理解和想象——也许在下一个十年,那个能够实时感知、实时思考、实时决策的AGI,将从科幻走进现实,开启人类与人工智能协同进化的新纪元。

打开APP阅读更多精彩内容