Claude3.7深夜炸场：“编程+推理”双杀

约 1156 字大约 4 分钟

2025-02-25

前言

今天凌晨2点半，Anthropic突然甩出王炸——Claude 3.7 Sonnet携全新Claude Code编程工具横空出世！

这款号称“迄今最智能”的混合推理模型，估计会让目前已经火热的AI程序员赛道更加白热化起来。

Claude 3.7 Sonnet首次将普通模式与扩展模式（推理模式）合二为一：

看过以往分享的朋友应该都知道，Cursor 目前已经是我的主要生产力工具之一。而使用 Cursor 时 Claude 3.5 Sonnet一直是我的首选，个人感觉生成质量远超 GPT-4o。现在增加了思考模式，不知道会进化到什么程度。

Claude 3.7 Sonnet 首次引入思考预算机制，允许开发者通过 API 对模型的思考过程进行细粒度控制：

动态调节思考深度：用户可设定模型思考的 token 上限（最高支持 128K token），在速度、成本与答案质量间灵活权衡。例如，简单任务可限制为 500 token 快速响应，复杂数学题则开放更多 token 进行深度推理。
双模式无缝切换：标准模式（快速响应）与扩展模式（深度思考）共享同一模型架构，无需切换接口即可实现功能调用，开发者仅需调整参数即可适应不同场景需求。
成本透明化：API 定价沿用前代标准（输入 3 美元/百万 token，输出 15 美元/百万 token），且思考 token 消耗计入输出成本，避免隐性费用。

虽然使用 Cursor 后不再关注 API 的消耗细节，但是这部分升级确实还是很地道的。

同步推出的 Claude Code 工具，则是将 AI 协作能力直接嵌入开发者的工作流：

和 Cursor 比起来，Claude Code 可能更加的 Agent 一些，它没有代码审查、编辑界面，直接通过对话方式，借助思维链“边写边改”来生成最终应用。

这种模式好像更加符合人人都是程序员的未来。

虽然 Anthropic 宣城重点关注AI的应用实践优化，但是各项打榜指标依旧非常亮眼。

编码能力断层领先：在 SWE-bench 测试中，扩展模式以 70.3% 通过率刷新行业纪录（对比 Claude 3.5 Sonnet 的 62.3%），尤其在处理全栈更新、复杂依赖关系时展现超强稳定性。
数学与科学推理升级：扩展模式下，数学竞赛题（如 AIME）准确率大幅提升，物理问题解决精准度接近人类专家水平。
多模态与游戏测试突破：在《宝可梦红》模拟测试中，模型通过数万次虚拟按键交互击败三位道馆馆主，验证其长期任务处理能力。

Cursor 已经支持Claude 3.7了，分为两种模式。

一般模型更新，笔者也有关注，但不是很多，但是作为编程使用最频繁的Claude更新了，那一定要好好使用下，大家期待下后续分享吧~