AI早知道｜ChatGPT免费开放高级语音模式；B站推出IndexTTS文本转语音模型_

AI早知道｜ChatGPT免费开放高级语音模式；B站推出IndexTTS文本转语音模型

1.字节跳动与中国和新加坡大学研究团队联合推出的PhotoDoodle，利用Flux.1模型重新定义图像创作。该系统通过少量样本学习艺术风格，精准执行编辑指令，极大地提高了创意表达的可能性。

2.B站推出的IndexTTS模型是基于XTTS和Tortoise的GPT风格文本转语音系统，具备独特的拼音纠正汉字发音能力和精准的停顿控制。

3.微软开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界，处理图像、视频和文本等多种数据类型，并具备心理预测功能，能够更准确地理解人物或物体的意图。

4.ChatGPT的高级语音模式正式向用户免费开放。该模式基于GPT-4o mini模型，通过优化计算效率，性能已接近完整版GPT-4o。

5.DeepSeek在开源周最后一天发布了Fire-flyer File system(3Fs)和Smallpond数据处理框架。3FS是一种高性能并行文件系统，专为AI训练和推理设计，支持大规模集群的高吞吐量数据访问，峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建，支持高效数据处理，可扩展至PB级数据集。

6.ElevenLabs 最近推出了其最新的语音转文本模型 Scribe v1，声称在多种语言中达到了最高的准确性。该模型支持99种语言，能够在复杂音频环境中准确区分多达32位不同说话者。

打开APP阅读更多精彩内容