今年会·(jinnianhui)金字招牌-Claude Opus 4.7来了，公开模型里的SOTA！

2026-05-25 15:45:58

首页财产ai正文 Claude Opus 4.7来了，公然模子里的SOTA！ Anthropic推出Claude Opus 4.7，于多方面有前进也有不足。它全平台开放，订价与4.6一致，利用时于提醒词及token计谋上需注意。 2026-04-17 10:32 ·微信公家号：量子位存眷前沿科技 AI投资人解读· Opus 4.7于高级软件工程、视觉能力、指令遵照与推理、Agent能力等方面有凸起前进，如高级软件工程范畴多项测试数据晋升，视觉长边像素是Opus 4.6的3倍以上。已经全平台开放，订价与Opus 4.6一致。 · 进级可能需调解提醒词计谋tokenizer更新或者增长token耗损。总结：Opus 4.7能力显著晋升且全平台开放、订价亲平易近，虽有调解成本，但对于相干团队是不错选择，不外仍需存眷利用中提醒词和token耗损变化。内容由AI天生，仅供参考

用Mythos向外界虚晃一枪后，Anthropic猝不和防把Claude Opus 4.7抬了上来。

不少小伙伴都熬夜玩儿疯了！

一骨碌从床上坐起来边冲浪边上手体验，我从Opus 4.7身上总结了一个坏动静及一些好动静。

先说坏动静吧——Opus 4.7身上，怎么看怎么有点故人之姿。

动不动就要“稳稳接住”我。

不少网友也反馈，怎么说是进级，但Opus 4.7越用越像GPT？？？

假如是真的，这可不是甚么功德情（无奈闭眼.jpg）。

比拟坏动静只有一个，好动静那是有一箩筐。

于Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面，都比前作更好。但Agentic search等几个单项能力上有所降落。

Anthropic还有很臭屁地暗示：

Opus 4.7是咱们家今朝最强盛的公然可用模子。不外这不是咱们最强盛的模子哟～～

看来最强盛的还有是密而不发的Mythos。

看看上面的表格，Mythos于那些测试上的总体体现，均优胜约10%至15%。

毫无疑难，Mythos Preview是今朝Anthropic手里最夯的一张牌，能力拉满，但价格也是Opus 4.7的5倍。

比拟之下，Opus 4.7更像是安全系统完玉成验证、订价亲平易近且全平台开放的最强量产版。

但……所谓智者千虑必有一掉。

强盛的Opus 4.7还有是于昨日的暗沟内里翻了船：

Claude Opus 4.7突袭，焦点进级四年夜标的目的

通览下来，这个公然最强的Opus 4.7，于四个标的目的上都有凸起体现。

高级软件工程范畴：值患上拜托

Opus 4.7最显著的前进于高级软件工程范畴。

来看这组数据：

SWE-bench Verified测试到达78.2%；

SWE-bench Multimodal到达72.7%；

Terminal-Bench 2.0拿下68.8%；

Rakuten-SWE-Bench 中解决出产使命的数目更是Opus 4.6的3倍；

GitHub 93项使命编码基准也晋升了13%。

Cursor的CEO Michael Truell给出了一个要害评价：

于CursorBench上，Opus 4.7从58%跃升到70%，这个跃升意义庞大。

这类晋升表现于三个要害特征上。

*，严酷遵照指令。

Opus 4.7再也不像初期模子那样“矫捷解读”用户的恍惚表述，而是字面履行。

这象征着之前你写“假如可能的话，测验考试优化这段代码”这类提醒词，模子可能会选择性纰漏。

此刻你说“优化这段代码”，它就必然会履行。

这类变化要求用户从头调解提醒词计谋，软润色符如“if possible/ideally/try to”的权重变患上更高，硬限定需要更明确。

第二，输出前自我验证。

Opus 4.7会于陈诉成果前devise ways to verify its own outputs，就像一个资深工程师于提交接码前会本身跑一遍测试。

第三，擅长繁杂多文件变动、恍惚调试、跨办事代码审查。

Notion的AI Lead Sarah Sachs分享了一个数据：

面临繁杂多步调事情流，Opus 4.7比Opus 4.6晋升14%，并且token耗损更少，东西过错只有三分之一。它是*个经由过程咱们隐性需求测试的模子。

视觉能力：分辩率×3，瞥见更多细节

于视觉能力方面，Opus 4.7也有很不错的前进。

官方数据显示，长边*撑持2576像素（≈3.75百万像素），是Opus 4.6的3倍以上；XBOW视觉敏锐度到达 98.5%（Opus 4.6仅54.5%）。

现实落地场景险些全笼罩，能直接辨认完备Figma设计稿、1080p终端截图（含灰色小字），精准解析繁杂技能架构图、财报图表，于计较机利用（Computer Use）场景中，可清楚读取高密度UI元素，视觉处置惩罚能力近乎满分。

换句话说，化学布局解析、繁杂技能图表辨认、像素级切确的UI元素定位，这些已往需要专门模子的使命，此刻可以直接用Opus 4.7一个模弄定。

Figma听了马上股价年夜跌，怎一个惨字了患上。

指令遵照与推理：更可控，更靠得住

Opus 4.7于指令遵照上也有长足前进。

它再也不试图预测用户的真实用意，而是严酷根据字面履行。

此次进级的焦点上风于在严苛的字面履行，假如用户要求 “不要用 TypeScript” ，模子就果断不消；用户要求 “输出 JSON” ，获得的输出就必然没有任何分外前缀。

这类变化对于老用户来讲可能需要顺应（同时旧提醒词易呈现不测成果，需从头校准），但对于需要切确节制的场景来讲是福音。

于推理方面，100万token长上下文场景体现亮眼，BFS使命患上分58.6%*（Opus 4.6成就为41.2%），繁杂推理中逻辑联贯性显著晋升。

Agent能力加强：为Agent而生的版本

假如说以前的Claude是为对于话而生，Opus 4.7则是为Agent而生。

这表现于几个方面。

起首整体来讲，Opus 4.7的焦点Agent能力有了全方位晋升。

多家AI知名企业拿出了现实利用效果相干数据——Notion多步调事情流乐成率晋升14%，东西挪用过错率降至1/3；Vending-Bench 2持久谋划模仿中，终极余额达10937美元（Opus 4.6剩了8018美元），长周期决议计划更稳健；Genspark场景下，抗死轮回、一致性、过错恢复三年夜出产级特征拉满。

同时具有文件体系影象，跨多会话靠得住记住要害信息，新使命可削减40%反复上下文输入。

Cognition的CEO Scott Wu的描写更形象：

Opus 4.7于Devin中将长周期自立性晋升到新程度。它能联贯事情数小时，冲破难题而不是抛却，解锁了咱们之前没法靠得住运行的一类深度查询拜访事情。

与此同时，Opus 4.7还有为开发者提供了很多使人狂喜的Agent相干四件套。

*，新增xhigh推理等级，作为默许等级介在high与max之间。

这给了开发者更邃密的节制权，可以于推理深度及延迟之间找到均衡点，均衡智能与token成本，适配大都编码/Agent使命。

第二，新增自顺应思索模式，替换固定预算长思索，模子自立决议思索深度，简朴查询快速相应，繁杂步调重点投入。

第三，使命预算（公然beta），开发者可指导token耗损，优化长使命资源分配。

第四，Claude Code新增/ultrareview号令，可创立专属审查会话，标志细微过错与设计问题。

想做一个靠谱的模子：首发防护，影象加强

Anthropic官方暗示，Opus 4.7的收集安万能力不如Mythos Preview。

不外这是他们决心为之。

这类“自我设限”暗地里，是Anthropic对于AI安全的一向对峙。

自2021年景立以来，这家公司花了四年时间精心打造本身的荣誉，试图对于外塑造一个“比OpenAI等竞争敌手更看重安全及卖力任AI部署”的荣誉。

于Mythos Preview激发业界对于强盛AI模子安全危害的热议以后，Opus 4.7被设计成一道缓冲带。

详细来讲，Anthropic于练习中测验考试了差异化降低Opus 4.7的收集能力，让模子于面临收集安全相干使命时体现出更审慎的举动模式。

与此同时，官方发布了主动检测及制止高危害收集安全哀求的防护办法，这些safeguards可以或许主动辨认并阻挡注解prohibited或者high-risk收集安全用途的哀求。

而对于在确凿有正当收集安全需求的专业人士，Anthropic推出了Cyber Verification Program。

安全专业职员如需将Opus 4.7用在缝隙研究、渗入测试、红队练习训练等正当目的，可以经由过程正式渠道申请。

官网还有于上线播客的末了写到，假如开发者们想从Opus 4.6迁徙到4.7版本，有一些事项需要非分特别留意。

起首是tokenizer的更新。

Opus 4.7利用了新的分词器，虽然改善了文本处置惩罚效率，但不异输入可能映照到更多tokens，约莫是1.0到1.35倍之间。

这象征着一样的提醒词可能会耗损更多token，需要于成本预算中留出余量。

其次是于更高努力级别下会孕育发生更多输出tokens。

Opus 4.7于high及xhigh级别下的思索深度较着增长，尤其是于Agent场景的多轮对于话后期。

这类“多思索、更靠得住”的举动模式晋升了输出质量，但也象征着token耗损会随会话长度增加。

与Opus 4.6同价，有这些留意事项你需要知道

今朝，Opus 4.7已经实现全平台开放。

除了Claude官方路子外，新模子不仅登岸 Claude Pro/Max/Team/Enterprise 全系产物、官方API，还有同步上线微软Foundry、googleCloud Vertex AI、亚马逊Bedrock三年夜云平台。

其订价与Opus 4.6连结一致：输入5美元每一百万tokens，输出25美元每一百万tokens。

虽然如前所述，Opus 4.7触及提醒词的重构需乞降token利用计谋的调解，但Anthropic于本身的内部测试中给出了踊跃旌旗灯号。

于一个内部Agent编码评估中，所有effort level下的token利用效率比拟Opus 4.6都有改善。

换句话说，虽然单次挪用的token数可能增长，但完成使命所需的总token往往更少，由于模子犯错的次数削减了。

年夜概就像你雇了个时薪更高的资深工程师，但他完成使命的速率更快、返工更少，终极总成本可能更低。

别的，Opus 4.7于后续轮次中会越发审慎，尤其是于Agent场景中。

这象征着更靠得住的输出，但也象征着更多的token耗损。

开发者可以经由过程调解effort参数、设置使命预算或者优化提醒词来均衡机能与成本。

Anthropic建议，于测试Opus 4.7的编码及Agent用例时，从high或者xhigh努力级别最先，按照现实需求慢慢调解。

Anyway～

总的来讲，现实利用成本会因利用方式的差别而变化，但年夜大都环境下，能力晋升带来的效率增益会抵消token耗损的增长。

对于在依靠Claude举行繁杂开发事情的团队来讲，这极可能是一笔画算的生意业务。

参考链接：[1]https://www.anthropic.com/news/claude-opus-4-7[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html[3]https://x.com/i/trending/2044560325509316766

【本文由投资界互助伙伴微信公家号：量子位授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下一篇：和合共生积极有为——今年会·(jinnianhui)金字招牌诚信至上集团2025年度工作总结会顺利召开