今年会·(jinnianhui)金字招牌-实测Claude Opus 4.7，好好的模型也开始不说人话了

2026-05-26 13:42:01

首页财产ai正文实测Claude Opus 4.7，好好的模子也最先不说人话了这三年里，我眼睁睁看着这些模子，一个接一个，变患上愈来愈智慧，愈来愈能打，Benchmark一个比一个猛，SWE-bench一个比一个高。 2026-04-17 07:47 ·微信公家号：数字生命卡兹克数字生命卡兹克 AI投资人解读· Claude Opus 4.7全渠道上线，虽价格未变，但换用新tokenizer使一样输入切成更多token，现实隐形涨价。视觉能力年夜幅晋升，乐成率从54.5%跃至98.5%，审美也有前进，还有新增功效。 · 行业竞争激烈，模子成长快，Claude需连续晋升连结上风新tokenizer增长利用成本功效增长后不变性待察于创作上再也不“说人话”或者流掉用户。总结：Claude Opus 4.7有亮点也有危害，其视觉等能力晋升和新功效值患上存眷，但成本增长、不变性和语言气势派头变化需注意，建议联合市场动态评估投资价值。内容由AI天生，仅供参考

果不其然，近来一周Claude每天崩，就是为了新模子做贮备。

在是昨晚10点半，Claude Opus 4.7发布了。

这玩意火到甚么水平呢，我本身开发的给公司内部用的全网AI信息监控的产物AIHOT上，监控了精挑细选的几十个有价值的信源，一般一个信息，有3个信源同时报导，就已经经比力受存眷了。

假如有5到6个，那就是年夜热门了。

可是Claude Opus 4.7这玩意，有尼玛10个信源同时发布= =

给我一会儿整不会了。

今朝Claude Opus 4.7已经经全渠道上线。

我10点半下的飞机，一下飞机就发明手机上可以用了。

Claude Code内里也更新了。

也是1M的上下文，没有减量，还有是挺爽的。

最屌的是，凌晨3点的时辰，直接把我一周的额度，给重置了。

Claude*回做了点人事。

我知道许多伴侣必定会说哎你不怕KYC或者者认证啥的问题吗，我只能说，真的碰到了或者者被遣返了再说吧，我也没有任何解法，这就是悬于头上达摩利斯之剑，要不是于常识创作上真的没有啥替换品，能跟Claude掰掰手段的都没有，我真的早换了。。。

此刻的立场就是，能用一天是一天，谁叫Claude模子真的牛逼，Claude Code这个Agent框架又这么好用呢。

说回Claude Opus 4.7。

价格跟4.6彻底同样，美金5/M输入、美金25/M输出，没有变化。

跑分就不细睁开讲了，横竖此刻各人民风就是赢学，该赢的都赢了，你要是不赢你也没脸放出来。

最成心思的是，Claude Opus 4.6绝年夜大都的机能从官方发出来的看，彻底没跑过GPT-5.4，这个是最成心思的，可以算是*次认可，我的Opus 4.6于编程上打不外GPT 5.4。

这个实在也跟我的体感一致，许多产物BUG来往返回弄不了的GPT-5.4全数都能干，*就是GPT-5.4于创作及一些用户体验设计上真的是一坨屎，一年夜坨巨年夜的屎。

Claude知道我要的交互设计是甚么样的，甚么样的页面是一个用户体验的很丝滑的页面，GPT-5.4做出来的我作为一个用户体验设计师，那玩意我真的用不大白，一个个都像给黑客用的后台。

然后创作能力险些为0，你于影视行业险些可以看到绝年夜大都编剧都是用Claude来辅助本身优化脚本，单你*看不到有几个好编剧会用GPT-5.4来辅助本身，真的，最*的那帮做创作者，真的是会用脚投票的。

这就是很年夜的差距，Claude Opus 4.5及4.6，牛逼就牛逼于水桶及周全。

可是此次，Opus 4.7我实测下来，还有是有一些纷歧样的觉得。

有几个要害更新点，咱们一个一个说下。

1. 又一次隐形涨价了。

Anthropic此次换了新的tokenizer。

博客原文说，新的tokenizer改良了文本处置惩罚，trade-off是一样的输入此刻会被切成更多token，年夜概是本来的1.0到1.35倍，详细看内容类型。

意思就是，你把统一段代码、统一份文档、统一个prompt丢给4.7及4.6，4.7要多吃至多35%的token。

虽然可能效果确凿更好了，可是实打实的，Token耗损又变患上更高了。

API的订价美金5/美金25确凿没涨。

但一样的使命，token耗损多了35%，你末了账单可能也要多烧不少了。

他们的意思就是，假如你的使命，每一个哀求吃更多token，但由于模子更准、一次过的几率更高、少了往返修改的轮次，以是总体你花的钱没那末多。

逻辑上没弊端，但这个逻辑建立的条件是，你的使命是4.7真的擅长的那种高难的繁杂使命。

假如你一样平常跟Claude对于话的是一些它晋升不较着的场景，好比常识治理创作做筹谋方案数据阐发之类的这类，那你可能就是纯纯简直实更烧token了。

好惨，牛逼模子的Token，真的是这个世界愈来愈值钱的工具。

2. 视觉能力晋升巨年夜。

这个我前面提过，XBOW的视觉测试，4.6是54.5%，4.7是98.5%。

先说一下XBOW是啥。

这家公司2024年景立，干的事儿一句话归纳综合就是让AI本身去当白帽黑客，做的是autonomous penetration testing，自立渗入测试，本年3月刚拿了1.2亿$融资，是这个赛道里今朝跑最快的一家。

他们测模子的视觉能力是由于AI要本身去打渗入，就患上看患上懂各类参差不齐的阅读器界面、后台治理体系、开发者东西里的收集哀求、过错提醒弹窗，这些画面密度极高、细节极多，模子视觉能力差一点，那基本就GG了。

4.6只有54.5%，也就是一半的图模子看患上模模糊糊的，但4.7直接98.5%，基本等在全数经由过程。

乐成率从一半直接干到近乎满，这个意义还有是挺主要的。

焦点实在除了了多模态能力的晋升，也由于4.7撑持的图片分辩率晋升了。

此刻至多可以处置惩罚2576像素长边的图、约莫3.75兆像素，是以前Claude模子的3倍多。

Claude本身的视觉基准评测晋升也很较着。

我之前有的时辰偷懒，直接给Claude Opus 4.6传一张截图，说XXX有问题，或者者这个数据它不合错误，它能年夜概认出你于干啥，但细节常常看不清。

以是致使常常会有过错，咱们本身的AIHOT网站就是个典型，字还有挺多的，各类卡片兼容的展示样式及逻辑我以前跟Claude Opus 4.6改了很久。

有的时辰来往返回改不大白，常常把我的文字辨认过错。

但今天测了一下，险些没有辨认过错的问题了。

这个对于在常识事情者是一个年夜的BUFF加成。

我都能想象到许多场景了，好比做状师的伴侣扔一份几十页的合同扫描件给它，它能把内里的日期、条目编号、金额都读对于。

好比一个做金融的伴侣扔一份年报PDF给它，它能把图内外的每一根柱子都抓出来。

好比一个做产物的伴侣扔一堆竞品截图给它，它能逐个阐发界面上的每一个组件啥的。

这个进级确凿很好，于多模态上发力了。

3. 审美有不错的晋升。

我以前做一些触及到用户体验还有有美学的，实在说真话，我感觉Claude Opus 4.6效果不是很好，属在比上不足比下有余的。

跟Gemini比拟差距还有是很较着，许多视觉效果都做的其实不好，还有有交互设计这块，也很是的呆，许多时辰是不以用户为焦点，而是为了完成开发使命为焦点。

以是逼的我于CLAUDE.md里加了一年夜段限定。

而此次，可能患上益在多模态能力的晋升，我用Claude Opus 4.7，随手做了一下我以前要做可是还有没来患上和做的公司雇用网站，效果出奇的好。

由于咱们此刻很缺人，还有于疯狂招人中，以是需要这么一个工具。

我就描写了一下我的需求，这里没有效任何Skill，Fontend Skill被我删了。

它就正常列规划，然后开跑了。

*轮出来基本可用，我又简朴微调了两轮，加了logo及其他职位的信息，就出来了，一共耗时20分钟。

我感觉于这类微型项目的效果及开发体验是要比Claude Opus 4.6好不少，审美更强了，也更听患上懂人话，动效效果也更强了，切合我想要的用户体验法则的。

我本身还有是相称满足的。

4. 也最先不说人话了。

这是让我最掉望的一个点。

我日常平凡会用Claude做许多许多的常识治理类的需求，不论是辅助创作，还有是汇集资料，写陈诉，做PPT，写方案等等等等。

Claude Opus 4.6我都感觉于创作上，文字咀嚼长短常好的。

而GPT-5.4及海内许多模子，实在是纯粹的编程特化，于人味上极端缺掉，典型的如GPT-5.4。

以前我其实忍不了GPT-5.4就是由于垃圾话太多了，网上我找了一个案例。

稳稳接住，根因，按这条切，收口，压实这些破词懂的都懂。

然后这一次Opus 4.7，于我开发上面的雇用网站的时辰，觉得看到了很是欠好的偏向。

我对于文字还有是轻微有点敏感的，当我看到这几句的时辰，我的PTSD就主动激活了。

不再会撞，不会爬到logo头上，还有有稀里糊涂的破折号。

我差点应激。

然后马上去让它同文风续写一下我昨天发的文章，直接心凉了半截。

狗屎，一坨狗屎。

一股子伪人味道，我真的佛了，好好的Claude，怎么也最先不说人话了。

去社区内里搜了一下。

果然，我不是一小我私家。

说真的，我心态有点爆炸了。

5. 一些新功效。

再说一下新功效吧。

Claude以前的effort档位是low、medium、high、max四档。

4.7此次于high及max中间加了一档，叫xhigh，extra high的缩写。

补上了high及max之间的跨度。

以前Max烧的太狠，可是high有时辰觉得又有点笨，此次来了个中间值，而且直接预设为默许了。

然后是/ultrareview。

这是Claude Code里一个新的号令，专门跑code review，会把你的代码仔细心细过一遍，找出所有的bug及设计问题。

并且这玩意未便宜，跑一次可能要5～20美刀。

Pro及Max用户有3次免费的试用额度。

真的贵。

然后是Cyber Verification Program。

这个多是最轻易被纰漏、但我感觉最值患上存眷的一个点。

Anthropic开了一个正式的通道，让正当的安全研究、渗入测试、red-teaming可以申请利用Claude的某些原本受限的能力。

申请进口是claude.com/form/cyber-use-case

这个事的配景是，之前白帽子、安全团队想用Claude做缝隙研究、做渗入测试，常常被模子一刀切拒绝。

由于模子辨认不了你是歹意还有是正当，安全起见全拒。

此刻Anthropic说，正当从业者你可以来申请，咱们走一个非凡流程，经由过程了给你开通响应能力。

实在AI行业愈来愈走到这一步了，以前 Claude Mythos太牛逼了不敢给平凡人放出来，由于可能真的会失事。

可是你全拒及全开之间，实在需要一个身份核验+分级授权的中间态。

并且这个思绪一旦跑通，后面会被年夜量复用。

好比医疗场景的合规研究、金融场景的模仿进犯练习训练、生物研究场景的合规用药、甚至兵工范畴的正当研发，均可以走近似的Verify通道。

这是我感觉一个进入财产里，蛮有持久价值的一个设计。

此次Claude Opus 4.7差未几就都讲完了。

看到编程能力及视觉能力的晋升，我很惊喜。

可是看到一个好好的有文字咀嚼的模子，又一次倒于了不说人话上。

说真的，我此刻也有点被稳稳的接住了。

三年，从GPT-3.5最先，一起用到此刻。

这三年里，我眼睁睁看着这些模子，一个接一个，变患上愈来愈智慧，愈来愈能打，Benchmark一个比一个猛，SWE-bench一个比一个高。

但也是这三年，我眼睁睁看着它们，一个接一个，都不会说人话了。

所有公司卷的都是编程，编程，还有是编程。

我不是说编程不主要，我本身也是Claude Code的重度用户，我公司内部此刻一半的东西都是我用Claude Code搓出来的，编程能力对于我来讲很是很是主要。

但问题是，一个模子，它不该该只是一个编程东西啊。

语言，是人类所有智力勾当的底座。一个好的语言模子，应该能写小说，能写诗，能写散文，能陪你聊深夜三点睡不着的那点心事。

但此刻的年夜模子，似乎除了了会写代码，其他的甚么都不会了。

或者者说，甚么都于退步。

究竟似乎没啥贸易价值的工具，无法量化的工具，于AI公司眼里可能确凿就不是高优先级。

在是它们就被逐步地、暗暗地、体系性地捐躯失了。

我真的感觉。

这事还有挺悲恸的。

【本文由投资界互助伙伴微信公家号：数字生命卡兹克授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下一篇：和合共生积极有为——今年会·(jinnianhui)金字招牌诚信至上集团2025年度工作总结会顺利召开