菜单
首页财产ai正文 Claude Opus 4.7来了,公然模子里的SOTA! Anthropic推出Claude Opus 4.7,于多方面有前进也有不足。它全平台开放,订价与4.6一致,利用时于提醒词及token计谋上需注意。 2026-04-17 10:32 ·微信公家号:量子位存眷前沿科技 AI投资人解读· Opus 4.7于高级软件工程、视觉能力、指令遵照与推理、Agent能力等方面有凸起前进,如高级软件工程范畴多项测试数据晋升,视觉长边像素是Opus 4.6的3倍以上。已经全平台开放,订价与Opus 4.6一致。 · 进级可能需调解提醒词计谋tokenizer更新或者增长token耗损。 总结:Opus 4.7能力显著晋升且全平台开放、订价亲平易近,虽有调解成本,但对于相干团队是不错选择,不外仍需存眷利用中提醒词和token耗损变化。内容由AI天生,仅供参考
用Mythos向外界虚晃一枪后,Anthropic猝不和防把Claude Opus 4.7抬了上来。
不少小伙伴都熬夜玩儿疯了!
一骨碌从床上坐起来边冲浪边上手体验,我从Opus 4.7身上总结了一个坏动静及一些好动静。
先说坏动静吧——Opus 4.7身上,怎么看怎么有点故人之姿。
动不动就要“稳稳接住”我。
不少网友也反馈,怎么说是进级,但Opus 4.7越用越像GPT???
假如是真的,这可不是甚么功德情(无奈闭眼.jpg)。
比拟坏动静只有一个,好动静那是有一箩筐。
于Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning等多个方面,都比前作更好。但Agentic search等几个单项能力上有所降落。
Anthropic还有很臭屁地暗示:
Opus 4.7是咱们家今朝最强盛的公然可用模子。不外这不是咱们最强盛的模子哟~~
看来最强盛的还有是密而不发的Mythos。
看看上面的表格,Mythos于那些测试上的总体体现,均优胜约10%至15%。
毫无疑难,Mythos Preview是今朝Anthropic手里最夯的一张牌,能力拉满,但价格也是Opus 4.7的5倍。
比拟之下,Opus 4.7更像是安全系统完玉成验证、订价亲平易近且全平台开放的最强量产版。
但……所谓智者千虑必有一掉。
强盛的Opus 4.7还有是于昨日的暗沟内里翻了船:
Claude Opus 4.7突袭,焦点进级四年夜标的目的
通览下来,这个公然最强的Opus 4.7,于四个标的目的上都有凸起体现。
高级软件工程范畴:值患上拜托
Opus 4.7最显著的前进于高级软件工程范畴。
来看这组数据:
SWE-bench Verified测试到达78.2%;
SWE-bench Multimodal到达72.7%;
Terminal-Bench 2.0拿下68.8%;
Rakuten-SWE-Bench 中解决出产使命的数目更是Opus 4.6的3倍;
GitHub 93项使命编码基准也晋升了13%。
Cursor的CEO Michael Truell给出了一个要害评价:
于CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义庞大。
这类晋升表现于三个要害特征上。
*,严酷遵照指令。
Opus 4.7再也不像初期模子那样“矫捷解读”用户的恍惚表述,而是字面履行。
这象征着之前你写“假如可能的话,测验考试优化这段代码”这类提醒词,模子可能会选择性纰漏。
此刻你说“优化这段代码”,它就必然会履行。
这类变化要求用户从头调解提醒词计谋,软润色符如“if possible/ideally/try to”的权重变患上更高,硬限定需要更明确。
第二,输出前自我验证。
Opus 4.7会于陈诉成果前devise ways to verify its own outputs,就像一个资深工程师于提交接码前会本身跑一遍测试。
第三,擅长繁杂多文件变动、恍惚调试、跨办事代码审查。
Notion的AI Lead Sarah Sachs分享了一个数据:
面临繁杂多步调事情流,Opus 4.7比Opus 4.6晋升14%,并且token耗损更少,东西过错只有三分之一。它是*个经由过程咱们隐性需求测试的模子。
视觉能力:分辩率×3,瞥见更多细节
于视觉能力方面,Opus 4.7也有很不错的前进。
官方数据显示,长边*撑持2576像素(≈3.75百万像素),是Opus 4.6的3倍以上;XBOW视觉敏锐度到达 98.5%(Opus 4.6仅54.5%)。
现实落地场景险些全笼罩,能直接辨认完备Figma设计稿、1080p终端截图(含灰色小字),精准解析繁杂技能架构图、财报图表,于计较机利用(Computer Use)场景中,可清楚读取高密度UI元素,视觉处置惩罚能力近乎满分。
换句话说,化学布局解析、繁杂技能图表辨认、像素级切确的UI元素定位,这些已往需要专门模子的使命,此刻可以直接用Opus 4.7一个模弄定。
Figma听了马上股价年夜跌,怎一个惨字了患上。
指令遵照与推理:更可控,更靠得住
Opus 4.7于指令遵照上也有长足前进。
它再也不试图预测用户的真实用意,而是严酷根据字面履行。
此次进级的焦点上风于在严苛的字面履行,假如用户要求 “不要用 TypeScript” ,模子就果断不消;用户要求 “输出 JSON” ,获得的输出就必然没有任何分外前缀。
这类变化对于老用户来讲可能需要顺应(同时旧提醒词易呈现不测成果,需从头校准),但对于需要切确节制的场景来讲是福音。
于推理方面,100万token长上下文场景体现亮眼,BFS使命患上分58.6%*(Opus 4.6成就为41.2%),繁杂推理中逻辑联贯性显著晋升。
Agent能力加强:为Agent而生的版本
假如说以前的Claude是为对于话而生,Opus 4.7则是为Agent而生。
这表现于几个方面。
起首整体来讲,Opus 4.7的焦点Agent能力有了全方位晋升。
多家AI知名企业拿出了现实利用效果相干数据——Notion多步调事情流乐成率晋升14%,东西挪用过错率降至1/3;Vending-Bench 2持久谋划模仿中,终极余额达10937美元(Opus 4.6剩了8018美元),长周期决议计划更稳健;Genspark场景下,抗死轮回、一致性、过错恢复三年夜出产级特征拉满。
同时具有文件体系影象,跨多会话靠得住记住要害信息,新使命可削减40%反复上下文输入。
Cognition的CEO Scott Wu的描写更形象:
Opus 4.7于Devin中将长周期自立性晋升到新程度。它能联贯事情数小时,冲破难题而不是抛却,解锁了咱们之前没法靠得住运行的一类深度查询拜访事情。
与此同时,Opus 4.7还有为开发者提供了很多使人狂喜的Agent相干四件套。
*,新增xhigh推理等级,作为默许等级介在high与max之间。
这给了开发者更邃密的节制权,可以于推理深度及延迟之间找到均衡点,均衡智能与token成本,适配大都编码/Agent使命。
第二,新增自顺应思索模式,替换固定预算长思索,模子自立决议思索深度,简朴查询快速相应,繁杂步调重点投入。
第三,使命预算(公然beta),开发者可指导token耗损,优化长使命资源分配。
第四,Claude Code新增/ultrareview号令,可创立专属审查会话,标志细微过错与设计问题。
想做一个靠谱的模子:首发防护,影象加强
Anthropic官方暗示,Opus 4.7的收集安万能力不如Mythos Preview。
不外这是他们决心为之。
这类“自我设限”暗地里,是Anthropic对于AI安全的一向对峙。
自2021年景立以来,这家公司花了四年时间精心打造本身的荣誉,试图对于外塑造一个“比OpenAI等竞争敌手更看重安全及卖力任AI部署”的荣誉。
于Mythos Preview激发业界对于强盛AI模子安全危害的热议以后,Opus 4.7被设计成一道缓冲带。
详细来讲,Anthropic于练习中测验考试了差异化降低Opus 4.7的收集能力,让模子于面临收集安全相干使命时体现出更审慎的举动模式。
与此同时,官方发布了主动检测及制止高危害收集安全哀求的防护办法,这些safeguards可以或许主动辨认并阻挡注解prohibited或者high-risk收集安全用途的哀求。
而对于在确凿有正当收集安全需求的专业人士,Anthropic推出了Cyber Verification Program。
安全专业职员如需将Opus 4.7用在缝隙研究、渗入测试、红队练习训练等正当目的,可以经由过程正式渠道申请。
官网还有于上线播客的末了写到,假如开发者们想从Opus 4.6迁徙到4.7版本,有一些事项需要非分特别留意。
起首是tokenizer的更新。
Opus 4.7利用了新的分词器,虽然改善了文本处置惩罚效率,但不异输入可能映照到更多tokens,约莫是1.0到1.35倍之间。
这象征着一样的提醒词可能会耗损更多token,需要于成本预算中留出余量。
其次是于更高努力级别下会孕育发生更多输出tokens。
Opus 4.7于high及xhigh级别下的思索深度较着增长,尤其是于Agent场景的多轮对于话后期。
这类“多思索、更靠得住”的举动模式晋升了输出质量,但也象征着token耗损会随会话长度增加。
与Opus 4.6同价,有这些留意事项你需要知道
今朝,Opus 4.7已经实现全平台开放。
除了Claude官方路子外,新模子不仅登岸 Claude Pro/Max/Team/Enterprise 全系产物、官方API,还有同步上线微软Foundry、googleCloud Vertex AI、亚马逊Bedrock三年夜云平台。
其订价与Opus 4.6连结一致:输入5美元每一百万tokens,输出25美元每一百万tokens。
虽然如前所述,Opus 4.7触及提醒词的重构需乞降token利用计谋的调解,但Anthropic于本身的内部测试中给出了踊跃旌旗灯号。
于一个内部Agent编码评估中,所有effort level下的token利用效率比拟Opus 4.6都有改善。
换句话说,虽然单次挪用的token数可能增长,但完成使命所需的总token往往更少,由于模子犯错的次数削减了。
年夜概就像你雇了个时薪更高的资深工程师,但他完成使命的速率更快、返工更少,终极总成本可能更低。
别的,Opus 4.7于后续轮次中会越发审慎,尤其是于Agent场景中。
这象征着更靠得住的输出,但也象征着更多的token耗损。
开发者可以经由过程调解effort参数、设置使命预算或者优化提醒词来均衡机能与成本。
Anthropic建议,于测试Opus 4.7的编码及Agent用例时,从high或者xhigh努力级别最先,按照现实需求慢慢调解。
Anyway~
总的来讲,现实利用成本会因利用方式的差别而变化,但年夜大都环境下,能力晋升带来的效率增益会抵消token耗损的增长。
对于在依靠Claude举行繁杂开发事情的团队来讲,这极可能是一笔画算的生意业务。
参考链接:[1]https://www.anthropic.com/news/claude-opus-4-7[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html[3]https://x.com/i/trending/2044560325509316766
【本文由投资界互助伙伴微信公家号:量子位授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-今年会·(jinnianhui)金字招牌