Skip to content

Claude3.7深夜炸场:“编程+推理”双杀

约 1156 字大约 4 分钟

claude3.7AI编程深度推理

2025-02-25

前言

今天凌晨2点半,Anthropic突然甩出王炸——Claude 3.7 Sonnet携全新Claude Code编程工具横空出世!

这款号称“迄今最智能”的混合推理模型,估计会让目前已经火热的AI程序员赛道更加白热化起来。

发布内容

混合推理:一个模型,两种模式​

Claude 3.7 Sonnet首次将普通模式与扩展模式(推理模式)​合二为一:

  • ​普通模式:流畅对话,适合日常问答、创意写作(比如生成催泪爱情故事,文笔细腻到以假乱真)。
  • ​扩展模式:用逆向推理、思维链拆解复杂问题(如经典的海盗分金币博弈),专治数学、编程、逻辑分析等硬核场景。

看过以往分享的朋友应该都知道,Cursor 目前已经是我的主要生产力工具之一。而使用 Cursor 时 Claude 3.5 Sonnet一直是我的首选,个人感觉生成质量远超 GPT-4o。现在增加了思考模式,不知道会进化到什么程度。

20250225160908

API 灵活控制

Claude 3.7 Sonnet 首次引入思考预算机制,允许开发者通过 API 对模型的思考过程进行​细粒度控制:

  • ​动态调节思考深度:用户可设定模型思考的 token 上限(最高支持 ​128K token),在速度、成本与答案质量间灵活权衡。例如,简单任务可限制为 500 token 快速响应,复杂数学题则开放更多 token 进行深度推理。
  • ​双模式无缝切换:标准模式(快速响应)与扩展模式(深度思考)共享同一模型架构,无需切换接口即可实现功能调用,开发者仅需调整参数即可适应不同场景需求。
  • ​成本透明化:API 定价沿用前代标准(输入 3 美元/百万 token,输出 15 美元/百万 token),且​思考 token 消耗计入输出成本,避免隐性费用。

虽然使用 Cursor 后不再关注 API 的消耗细节,但是这部分升级确实还是很地道的。

Claude Code

同步推出的 ​Claude Code​ 工具,则是将 AI 协作能力直接嵌入开发者的工作流:

  • ​终端级工程代理:支持从代码搜索、文件编辑到测试运行、Git 提交的全流程操作,甚至能通过命令行调用工具链(如 Replit 构建 Web 应用)。
  • 效率革命性提升:早期测试中,该工具​单次任务可节省 45 分钟以上手动操作​(例如重构代码库或修复复杂 Bug)。
  • GitHub 深度集成:所有订阅计划用户均可将代码仓库直连 Claude,模型可基于完整项目上下文提供精准建议(如修复版本冲突或生成 API 文档)。

v2_f2da162950444256b7d3a3852fdb2b7e@1743780481_oswg131025oswg1080oswg608_img_000

和 Cursor 比起来,Claude Code 可能更加的 Agent 一些,它没有代码审查、编辑界面,直接通过对话方式,借助思维链“边写边改”来生成最终应用。

这种模式好像更加符合人人都是程序员的未来。

性能跃迁

虽然 Anthropic 宣城重点关注AI的应用实践优化,但是各项打榜指标依旧非常亮眼。

  • 编码能力断层领先:在 SWE-bench 测试中,扩展模式以 ​70.3% 通过率刷新行业纪录(对比 Claude 3.5 Sonnet 的 62.3%),尤其在处理全栈更新、复杂依赖关系时展现超强稳定性。
  • ​数学与科学推理升级:扩展模式下,数学竞赛题(如 AIME)准确率大幅提升,物理问题解决精准度接近人类专家水平。
  • ​多模态与游戏测试突破:在《宝可梦红》模拟测试中,模型通过数万次虚拟按键交互击败三位道馆馆主,验证其 ​长期任务处理能力。

f6c55bb30c8c877b06b314d897ef4f9

Cursor集成

Cursor 已经支持Claude 3.7了,分为两种模式。

20250225132046

总结

一般模型更新,笔者也有关注,但不是很多,但是作为编程使用最频繁的Claude更新了,那一定要好好使用下,大家期待下后续分享吧~