deepseekv3模型意外泄露,跑分超越claude3.5sonnet

品玩12月26日讯,据 Reddit 用户表示,DeepSeek 的最新 V3 版本模型已经意外泄露,在 API和网页端上出现,而该模型的榜单跑分结果也已出炉。

据悉,该模型目前在Aider多语言编程测试排行榜中的成绩已经超过了 Anthropic 的Claude 3.5 Sonnet,排名第二,仅次于 OpenAI 的O1 模型。据悉,DeepSeek V3 模型采用MOE 架构,参数规模达685B,同时支持 64K的 上下文窗口。

目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重。

打开APP阅读更多精彩内容