Claude 3.7 Sonnet

OpenAI前成员创立的Anthropic公司推出的语言大模型，全球首个混合推理模型

收录时间：

2025-04-04

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是什么？号称是“全球首个可两用的混合推理模型”，它采用混合推理方式，一个模型，两种思考模式。

在标准模式下，它是Claude 3.5的升级版，能快速生成响应；在切换到扩展思考（推理）模式，它能进行深入的逐步推理，大幅提升在数学、物理、指令理解和编程等复杂任务上的表现。可以简单理解为 Deepseek V3+R1。

这次 Claude 3.7 Sonnet 的编程能力推到了新高度，被开发者评价为：“它像是一个会主动协作的编程助手，而不是机械执行命令的工具。”自己做产品经理让AI写代码的日子不远了！

功能特点

标准模式：快速生成响应，适合日常对话和简单任务。
扩展思考模式：进行深度自我反思和逐步推理，适合复杂任务，如数学、物理、逻辑推理和编程。
复杂任务处理能力：在数学、物理、编程等需要强逻辑推理的领域表现卓越。在基准测试中表现出色，如SWE-bench Verified和TAU-bench测试。
代码协作能力：支持代码编辑、测试执行等开发流程。支持与GitHub集成，帮助开发者修复Bug、开发新功能和处理全栈更新。
安全性提升：更准确地区分恶意请求和正常请求，与前代相比减少不必要的拒绝（减少45%）。
多平台支持：适用于免费版、专业版、团队版和企业版订阅计划，通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI访问。
灵活的使用方式：在API使用中，用户能指定思考的token数量，输出限制为128K token。

推理能力任务表现：在数学、物理、指令执行、编程等任务中，扩展思考模式下的Claude 3.7 Sonnet表现优异，相比上一代模型提升超过10%。
SWE-bench Verified测试：Claude 3.7 Sonnet创下70.3%的高分，刷新了SOTA（State of the Art）记录。
多模态和智能体能力：在OSWorld测试中，Claude 3.7 Sonnet能基于虚拟鼠标点击和键盘按键完成任务。在Pokémon游戏测试中，基于扩展思考能力和智能体训练，获得相应的徽章，表现远超早期版本。
测试时计算Scaling：在生成最终输出之前，执行多个连续的推理步骤，持续增加计算资源投入。在数学问题求解中，其准确率随着思考Token数量的增加呈对数增长。通过采样多个独立的思维过程，选择最佳结果，显著提升模型性能。