AI早知道|ChatGPT免费开放高级语音模式;B站推出IndexTTS文本转语音模型

1.字节跳动与中国和新加坡大学研究团队联合推出的PhotoDoodle,利用Flux.1模型重新定义图像创作。该系统通过少量样本学习艺术风格,精准执行编辑指令,极大地提高了创意表达的可能性。

2.B站推出的IndexTTS模型是基于XTTS和Tortoise的GPT风格文本转语音系统,具备独特的拼音纠正汉字发音能力和精准的停顿控制。

3.微软开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界,处理图像、视频和文本等多种数据类型,并具备心理预测功能,能够更准确地理解人物或物体的意图。

4.ChatGPT的高级语音模式正式向用户免费开放。该模式基于GPT-4o mini模型,通过优化计算效率,性能已接近完整版GPT-4o。

5.DeepSeek在开源周最后一天发布了Fire-flyer File system(3Fs)和Smallpond数据处理框架。3FS是一种高性能并行文件系统,专为AI训练和推理设计,支持大规模集群的高吞吐量数据访问,峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建,支持高效数据处理,可扩展至PB级数据集。

6.ElevenLabs 最近推出了其最新的语音转文本模型 Scribe v1,声称在多种语言中达到了最高的准确性。该模型支持99种语言,能够在复杂音频环境中准确区分多达32位不同说话者。

打开APP阅读更多精彩内容