超过DeepSeek、o3,双思维模型Claude 3.7来了

Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型

今天凌晨2点,著名大模型平台Anthropic发布了首个双思维模型——Claude 3.7 Sonnet。

Claude3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案,例如,当用户询问“巴黎的埃菲尔铁塔有多高?”,会迅速给出324米。

扩展思维则提供复杂的推理过程,会展示详细的推理思维链,用户可以清晰地看到模型是如何逐步分析问题、应用逻辑,非常适合数学、生物等科研领域,还能通过API精准控制模型的思考时间。

根据SWE Bench测试数据显示,Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同样表现出色。此外,Anthropic还发布了一个专用于代码Agent Claude Code。

扩展思维简单介绍

Claude3.7的扩展思考模式核心在于模拟人类的思考过程。在面对复杂问题时,人类往往会通过逐步分析、逻辑推理和验证来得出结论。允许模型在生成最终答案之前,通过一系列推理步骤深入思考问题。

在技术实现上,扩展思考模式主要通过强化学习训练模型,使其能够生成一系列推理步骤。这些步骤被封装在一个“思考过程”(Thinking Process)的文本块中,用户可以在模型给出最终答案之前,看到这些推理步骤。

打开凤凰新闻客户端 提升3倍流畅度

扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如,在解决复杂的数学问题时,模型的准确率显著高于标准思考模式。此外,模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。

这种性能提升不仅体现在模型的最终答案上,还体现在其推理过程的质量上。模型能够生成更详细、更准确的推理步骤,帮助用户更好地理解问题的解决方法。这种透明的推理过程不仅增强了用户对模型输出的信任,还为开发者提供了优化模型的依据。

扩展思考模式的另一个重要特点是其透明性。通过展示推理过程,可为用户提供了更丰富的信息,不仅可以看到模型的最终答案,还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任,为开发者提供了优化模型的依据。

此外,扩展思考模式的透明性也为模型的安全性提供了额外的保障。通过监控模型的推理过程,开发者可以及时发现潜在的风险,并采取相应的措施。例如,如果模型在推理过程中表现出异常行为,开发者可以及时干预,防止模型生成有害内容。

ClaudeCode

ClaudeCode支持全自动化代码开发,包括搜索和读取代码,帮助开发者快速定位和理解项目中的代码逻辑。

例如,当开发者需要了解用户登录功能的实现逻辑时,Claude Code 能快速扫描整个代码库,精准定位到与用户登录相关的代码文件和关键代码段,并通过分析代码中的注释、函数命名和调用关系,帮助开发者迅速理解这部分代码的逻辑。

可以对文件进行编辑,无论是修改现有代码还是添加新功能都能胜任;编写并运行测试,及时发现代码中的潜在问题,确保代码质量;

还能将代码提交并推送到 GitHub 的功能,方便开发者进行版本管理,在整个执行过程中,Claude Code会让开发者随时了解每一步的进展情况。

目前,Claude Code还处于预览阶段,在测试驱动开发、调试复杂问题以及大规模重构等方面,已经在 Anthropic 内部成为重要开发工具。在早期测试中,Claude Code 表现非常出色,能够一次性完成通常需要 45 分钟以上手动代码任务,极大缩短了开发时间,减少了开发成本。

目前,Claude 3.7 Sonnet 已在包括免费版、专业版、团队版和企业版的所有套餐中上线,支持Anthropic API、亚马逊 Bedrock 和谷歌云 Vertex AI 平台。

除免费版外,其他版本均提供扩展思考模式。在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与之前的版本保持一致,输入每百万token收费3美元,输出(包括思考token)每百万token收费15美元。

打开APP阅读更多精彩内容