豆包大模型应用落地,又有新进展。
8月21日,火山引擎在AI创新巡展活动上发布了豆包大模型的一系列产品升级。
据活动现场披露,最新版豆包大语言模型的综合能力相比三个月前首次发布时提升了20.3%:
在六项关键能力评测中,角色扮演能力提升38.3%,具备了更强的上下文感知,让对话情境更连贯、角色更拟人化;语言理解提升33.3%,包括信息分类和抽取、总结摘要、阅读理解和问答等能力增强。此外,模型在长文任务、数学、专业知识、代码能力上也有不同程度提升。
值得关注的是,此次活动还发布了豆包大模型的一系列语音能力升级。豆包大模型团队的Seed-ASR、Seed-TTS研究成果(论文见文末),已成功应用于豆包语音识别模型和语音合成模型。在此基础上,火山引擎整合了RTC技术(实时音视频),全新发布对话式AI实时交互解决方案。
此方案让用户不仅能用语音与AI进行交谈,还能像平时说话一样、在对话过程中适时打断或插话,整体对话质量不受影响。经过升级后的AI声音相较以往而言更具表现力和感情色彩,对话也因此更自然、更真实、更流畅,让大模型交互体验更强。
现场,火山引擎还携手多点DMALL成立零售大模型生态联盟,基于豆包大模型打造零售AI解决方案。首批联盟成员包括物美集团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南7-11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ、电通等。
自然流畅的AI实时语音应用,一站式搞定
搭载火山方舟大模型服务平台,通过火山引擎RTC实现语音数据的高效采集、处理和传输,并深度整合豆包·语音识别模型和豆包·语音合成模型,简化语音到文本和文本到语音的转换过程,火山引擎对话式AI实时交互解决方案,提供优秀的智能对话和自然语言处理能力,帮助应用快速实现用户和云端大模型的实时语音通话。
豆包·语音识别模型:更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别。
豆包·语音合成模型:解锁「豆包」同款音色,提供自然生动的语音合成能力,善于表达多种情绪,演绎多种场景。
火山方舟:提供模型精调、推理、评测等全方位功能与服务,提供丰富的插件生态和AI原生应用开发服务,全方位保障企业级AI应用落地。
△
对话式AI实时交互服务方案架构
开箱即用快速搭建,只需调用标准的OpenAPI接口即可配置所需的语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)类型和参数。而火山引擎AIGC RTC-Server负责边缘用户接入、云端资源调度、文本与语音转换处理以及数据订阅传输等环节。整体简化开发流程,让企业应用更专注在对大模型核心能力的训练及调试,加速AI实时语音场景创新。
随时打断,交流自然
要让与AI的交流像和朋友一样自然,随时打断甚至直接插话,关键在于:当用户和AI同时说话时,如何解决互相干扰的音频“双讲”现象。
火山引擎RTC基于成熟的音频3A处理技术,针对“双讲”通过传统回声消除算法和深度学习算法的结合,不仅有效去除回声,还能避免用户语音被过度处理,确保云端语音识别(ASR)能准确捕捉和识别用户的语音信息。
此外,火山引擎RTC通过简化算法提高处理速度,避免因算法复杂性带来的额外延时。