Soul张璐团队升级全双工语音大模型,让AI交互更“主动”

当下,人工智能正以前所未有的速度参与我们的生活,AI对话、AI陪伴类产品,成为大众接触AI的重要窗口。然而,传统的人机对话体验却存在明显短板,“一问一答”的机械式互动模式像一道无形的屏障,阻碍着用户与AI之间实现更自然、流畅地交流。近期,Soul张璐团队自研端到端全双工语音通话大模型的全面升级,赋予 AI 自主决策对话节奏的能力。

2024年,Soul推出自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言。如今,Soul再次升级模型,重新定义“全双工”交互范式,新模型摒弃了传统语音交互中依赖的VAD(话音活性检测)机制与延迟控制逻辑,打破行业中普遍存在的“轮次对话”模式。AI可实现主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等。同时,模型具备多维度感知(包括时间感知、环境感知、事件感知等),口语化表达(如语气词、结巴、明显情绪起伏)、音色复刻等能力,让AI更具“真人感”,支持打造更沉浸、类现实交互的语音互动新体验,进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

值得一提的是,目前Soul张璐团队正探索全双工语音通话模型在多人场景的扩展,例如在多人语音对话中,AI凭借自主决策能力,判断说话时机,有效组织话题讨论与延伸,融入真实关系生态。

作为较早思考将AI应用于社交的互联网平台,Soul App自2016年上线便深度拥抱AI技术;2020年,Soul启动系统的AIGC技术研发,在智能对话、语音、3D虚拟人等领域积累前沿技术;2023年推出自研语言大模型Soul X后,陆续上线语音生成、语音通话、音乐生成等大模型能力,并于2024年将AI大模型升级为多模态端到端大模型,支持文字、语音、多语种等多模态交互。基于深厚的AI技术积累与对社交领域的深刻洞察,Soul创始人张璐团队明确“AI 辅助社交”与“人机互动”双路线,推出“AI伴侣”、AI聊天辅助体系等受用户欢迎的新应用场景和功能。

此次全双工语音通话大模型的升级,无疑是AI社交领域的又一次突破。它极大提升了AI的互动能力,突破传统人机交互的桎梏,让对话充满在场感和情感温度,推动AI社交正式迈入全新阶段。Soul张璐团队始终坚守初心,在新技术探索之路上坚定前行、持续深耕,致力于构建AI Being和Human Being共存的社交社区,让AI深度融入社交关系网络,成为用户情感支撑体系中的重要组成部分。

免责声明:本文为企业宣传商业资讯,仅供用户参考,如用户将之作为消费行为参考,凤凰网敬告用户需审慎决定。

打开APP阅读更多精彩内容