今年会·(jinnianhui)金字招牌-AI可以自审代码了，Opus 4.7出手解决「屎山」

2026-05-25 16:02:02

首页财产ai正文 AI可以自审代码了，Opus 4.7脱手解决「屎山」 2026年4月17日Anthropic发布Claude Opus 4.7，机能有晋升，于多方面体现优良，价格名义未变但利用成本或者增长，还有推出相干项目和功效。 2026-04-17 10:16 ·微信公家号：字母榜苗正 AI投资人解读· Opus 4.7于多个基准测试上超Opus 4.6，指令遵照、多模态撑持、现实事情体现和影象能力均有晋升，安全性及对于齐方面总体体现与Opus 4.6相似，价格名义稳定但现实利用成本增长。Anthropic推出分级发布计谋和新功效，于能力、安全、成本间寻觅均衡。 · 指令遵照能力晋升可能致旧提醒词掉效模子能力分级发布计谋若不被市场承认，可能掉去竞争上风。总结：Opus 4.7有机能上风与立异计谋，但存于必然危害，建议连续存眷其市场体现与技能成长。内容由AI天生，仅供参考

另外AI厂商发模子，上来必然会告诉你“咱们此次的产物多厉害多强盛”。但Anthropic纷歧样，他们说“咱们有更强的，但先不克不及给你。”

在是于2026年4月17日，Anthropic发布了Claude Opus 4.7。

此次发布没有太多牵挂，官方博客循序渐进地列出了跑分、能力晋升及运用场景。但若你细心读完备篇通知布告，会发明一些不太平常之处。

Opus 4.7紧跟于Anthropic的Project Glasswing及Mythos Preview以后。而上周他们方才公布Mythos Preview由于收集安万能力过强，暂时限定发布。

是以Opus 4.7被明确定位为“*款用来测试新收集安全护栏的公然模子”。

官方甚至还有说，他们于练习历程中试验性地减弱了这个模子的收集安万能力。

那Opus 4.7详细怎样呢？

0一、Opus 4.7的机能怎样？

先说通例部门。

Opus 4.7于多个基准测试上跨越了Opus 4.6，特别是于高级软件工程使命上。

官方图内外，Opus 4.7于SWE-Bench Verified上为87.6%，Opus 4.6为80.8%；于更难的SWE-Bench Pro上，Opus 4.7为64.3%，Opus 4.6为53.4%；于Terminal-Bench 2.0上，Opus 4.7为69.4%，Opus 4.6为65.4%；Finance agent v11上，Opus 4.7为64.4%，Opus 4.6为60.1%。

让咱们用人话来注释一下这一串数字：你此刻可以把更繁杂的编程事情交给Opus 4.7，它会更严谨地处置惩罚永劫间运行的使命，更切确地遵照指令，还有会于报告请示以前想措施验证本身的输出。

于Opus 4.7初期测试者的反馈里，有几个点值患上留意。

*个是指令遵照能力年夜幅晋升。

Opus 4.7会严酷根据字面意思理解指令，而以前的模子往往会疏松解读或者者跳过某些部门。

这听起来是功德，但现实上可能带来贫苦。其体现为Opus 4.7更“听话”了，但这反而会让一些旧提醒词掉效。

之前的Claude可能会比力“会心”。你写一个恍惚指令，它会主动补全你的真实用意，或者者纰漏一些不过重要、互相冲突、写患上不清晰的要求。许多用户的提醒词，实在是于这类旧模子习气上调出来的。

但Opus 4.7官方说，它更偏向在严酷按字面意思履行指令。如许一来，旧提醒词里那些之前被模子主动纰漏的小细节，此刻可能会被当真履行。而之前模子会矫捷处置惩罚的恍惚表达，此刻反而会按最直接的方式理解。

成果就是模子明明更强了，但输出反而及用户预期纷歧样。

第二个是多模态撑持改良。

Opus 4.7可以接管长边最高2576像素的图象，约莫3.75兆像素，是以前Claude模子的三倍多。

这不是平凡的“识图能力”进级，而是为了让AI能看懂软件界面，办事在Anthropic的Computer Use功效。

Opus 4.7的视觉进级，不是为了让用户问“这张图里有甚么”，而是为了让agent能看懂软件界面。

agent假如看不清密集表格、终端输出、设计稿细节、代码截图，它的操作能力再强也没用，由于它只知道怎么干活，殊不知道去哪上班。

Anthropic把图象分辩率往上提，素质上是于给Claude装更清晰的眼睛。

将来AI办公、AI测试、AI安全、AI前端开发，许多使命都不是纯文本使命，而是屏幕使命。

第三个是现实事情体现。

内部测试显示，Opus 4.7于金融阐发使命上比Opus 4.6更有用，能产出更严谨的阐发及模子、更专业的演示文稿，以和更慎密的跨使命整合。

它于GPQAval-AA这个第三方评估中也是最高分，这是一个笼罩金融、法令等范畴的评估。

第四个是影象能力。

Opus 4.7更会利用基在文件体系的影象。它能于长周期、多会话的事情中记住主要条记，后续使命需要的前置信息更少。

这个点于官方通知布告里不显眼，但我认为多是持久利用中最要害的一个更新特征。

一个能跨会话记住项目约束、用户偏好、架构决议计划及前次掉败缘故原由的agent，才可能从“智慧姑且工”酿成“不变同事”。

安全性及对于齐方面，Opus 4.7及Opus 4.6的总体体现相似。

它于老实度及抵挡歹意提醒注入进犯的能力上有所晋升，于给出风险建议的能力上有所降落，好比怎样建造利用管束刀具这种问题。

官方的对于齐评估结论是，这个模子“基本对于齐且值患上相信，但举动上还有不彻底抱负”。

价格方面，Opus 4.7及Opus 4.6连结一致。输入每一百万token 5美元，输出每一百万token 25美元。

但迁徙指南里提到了两个成本变化。新的tokenizer可能让不异输入酿成1.0到1.35倍的token。于强思索模式下，特别是agent的多轮对于话，模子会思索更多，输出的token也可能更多。

以是这就是Anthropic耍小心思之处了，名义上价格确凿没变，但跑多了就会变贵。

已往模子计费重要看输入输出长度，此刻还有要看思索的等级、使命预算、agent跑了几轮、东西掉败后有无继承推理。

Anthropic新增的x-high effort及task budgets，申明高端模子的利用方式正于走昔时云计较的那套逻辑。你买的不是一次回覆，而是于给一个会思索、会试错、会验证的使命历程付费。

0二、Anthropic为什么会发布阉割模子？

话又说回来，Opus 4.7的真正卖点之一，偏偏是它没有彻底开释能力。

这听起来有点反直觉，但多是下一代模子公司的常态。

模子越靠近真实出产情况，越不克不及只寻求更强。它要知道哪些事能做、哪些事不克不及做、哪些用户能开放更多权限，哪些哀求必需拦住。

Anthropic于发布Opus 4.7的同时，推出了Cyber Verification Program。

这个项目素质上是于给能力分级。平凡用户拿到的是有护栏的Opus，颠末验证的安全专家才能申请更宽的收集安全用途。

模子会主动检测及制止那些注解禁止或者高危害收集安全用途的哀求。

Anthropic说，他们会从Opus 4.7的真实部署中进修，为将来Mythos级别模子的广泛发布做预备。

不能不说还有是Anthropic会玩，他们认为Opus今朝的能力是多余的，以是他们就把安全这件事，酿成了产物能力。

已往几年，AI公司的竞争逻辑是“我比你强”。跑分更高、参数更多、能做的事更繁杂。但当模子能力到达某个临界点后，这个逻辑最先掉效。

一个于收集安全测试中体现太好的模子，可能象征着它也能被歹意利用。一个彻底不设限的agent，就有可能会于用户不知情的环境下做出伤害决议计划。

Anthropic选择的路径是，先把最强的模子锁起来，用稍弱但充足好的模子来测试安全机制。这不是技能上做不到，而是自动选择不做。这类“克制”自己成为了产物差异化的一部门。

这个计谋能不克不及乐成，取决在市场是否定可“审慎”这个观点。

假如用户只于乎“能不克不及做到”，那Anthropic的做法会显患上守旧。但若企业客户最先器重“会不会失事”，那这类分级发布、自动减弱某些能力的做法，反而可能成为竞争上风。

于发布Opus 4.7的同时，Anthropic还有更新了Claude Code，新增了auto mode及/ultrareview功效。

auto mode不是模子主动选型，而是权限选项。它答应Claude替用户做一些权限决议计划，让长使命少被打断，但危害低在彻底跳过权限确认。

这个设计针对于的是agent产物的焦点抵牾：问太多，agent像实习生；不问，危害又太年夜。

agent时代最难设计的按钮，不是“最先”，而是“答应”。

已往AI只是回覆问题，权限很少。

此刻它要改代码、读文件、跑号令、开网页、提交PR，每一一步都牵扯危害。

假如每一个操作都要用户确认，agent的自立性就掉去了意义。但若彻底罢休，用户又会担忧AI做出不成逆的过错决议计划。

auto mode的素质，就是于“别烦我”及“别糊弄”之间找均衡。

它会按照操作的危害级别，决议是主动履行、提醒用户、还有是要求明确授权。

这也是agent从“能干甚么”，到“能不克不及用”之间巨年夜的奔腾。

/ultrareview是一个专门的代码审查会话，读取变动并指出bug及设计问题。

这个功效可比写代码好玩多了，由于它申明AI编程正式进入了第二阶段，让AI本身审查AI本身天生的代码。

AI写代码已经经不稀奇，真正稀缺的是AI能不克不及审本身的代码。

/ultrareview像是Anthropic给Claude Code补上的第二双眼睛。

一个agent卖力写，另外一个更审慎的会话卖力审。

不消看数据我都能猜到，这两个功效必然是高频功效。由于素质上，这两个功效已往就是所有利用Claude Code的步伐员干的活。

天生代码只是开发流程的一部门，审查、测试、重构、文档一样主要。假如AI只能做*步，它永远只是辅助东西。假如它能介入整个流程，它才可能真正转变软件开发的方式。

此次发布还有有一个细节值患上留意。官方于迁徙指南里专门提示泛博用户，Opus 4.7的token利用可能增长，但于现实编程评估中，总体效率反而晋升了。

这申明他们于优化的不是单次挪用的成本，而是完成使命的总成本。一个agent假如*次就把工作做对于，纵然单次挪用贵一点，总成本也比重复试错要低。

这是一种更成熟的产物思绪。初期AI产物寻求的是“自制”及“快”，此刻最先寻求“靠谱”。

Opus 4.7不是最强的模子，Anthropic也没有把它包装成最强的模子。

它是于能力、安全、成本之间的一个均衡点。可是说它是否是真的均衡，我不知道，这个要等市场来验证。

至少于发布计谋上，Anthropic给出了一种新思绪，由于有时辰“不做甚么”比“能做甚么”更主要。

【本文由投资界互助伙伴微信公家号：字母榜授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下一篇：和合共生积极有为——今年会·(jinnianhui)金字招牌诚信至上集团2025年度工作总结会顺利召开