今年会·(jinnianhui)金字招牌-实测Claude Opus 4.7,好好的模型也开始不说人话了

2026-05-26 13:42:01

首页财产ai正文 实测Claude Opus 4.7,好好的模子也最先不说人话了 这三年里,我眼睁睁看着这些模子,一个接一个,变患上愈来愈智慧,愈来愈能打,Benchmark一个比一个猛,SWE-bench一个比一个高。 2026-04-17 07:47 ·微信公家号:数字生命卡兹克数字生命卡兹克 AI投资人解读· Claude Opus 4.7全渠道上线,虽价格未变,但换用新tokenizer使一样输入切成更多token,现实隐形涨价。视觉能力年夜幅晋升,乐成率从54.5%跃至98.5%,审美也有前进,还有新增功效。 · 行业竞争激烈,模子成长快,Claude需连续晋升连结上风新tokenizer增长利用成本功效增长后不变性待察于创作上再也不“说人话”或者流掉用户。 总结:Claude Opus 4.7有亮点也有危害,其视觉等能力晋升和新功效值患上存眷,但成本增长、不变性和语言气势派头变化需注意,建议联合市场动态评估投资价值。内容由AI天生,仅供参考

果不其然,近来一周Claude每天崩,就是为了新模子做贮备。

在是昨晚10点半,Claude Opus 4.7发布了。

这玩意火到甚么水平呢,我本身开发的给公司内部用的全网AI信息监控的产物AIHOT上,监控了精挑细选的几十个有价值的信源,一般一个信息,有3个信源同时报导,就已经经比力受存眷了。

假如有5到6个,那就是年夜热门了。

可是Claude Opus 4.7这玩意,有尼玛10个信源同时发布= =

给我一会儿整不会了。

今朝Claude Opus 4.7已经经全渠道上线。

我10点半下的飞机,一下飞机就发明手机上可以用了。

Claude Code内里也更新了。

也是1M的上下文,没有减量,还有是挺爽的。

最屌的是,凌晨3点的时辰,直接把我一周的额度,给重置了。

Claude*回做了点人事。

我知道许多伴侣必定会说哎你不怕KYC或者者认证啥的问题吗,我只能说,真的碰到了或者者被遣返了再说吧,我也没有任何解法,这就是悬于头上达摩利斯之剑,要不是于常识创作上真的没有啥替换品,能跟Claude掰掰手段的都没有,我真的早换了。。。

此刻的立场就是,能用一天是一天,谁叫Claude模子真的牛逼,Claude Code这个Agent框架又这么好用呢。

说回Claude Opus 4.7。

价格跟4.6彻底同样,美金5/M输入、美金25/M输出,没有变化。

跑分就不细睁开讲了,横竖此刻各人民风就是赢学,该赢的都赢了,你要是不赢你也没脸放出来。

最成心思的是,Claude Opus 4.6绝年夜大都的机能从官方发出来的看,彻底没跑过GPT-5.4,这个是最成心思的,可以算是*次认可,我的Opus 4.6于编程上打不外GPT 5.4。

这个实在也跟我的体感一致,许多产物BUG来往返回弄不了的GPT-5.4全数都能干,*就是GPT-5.4于创作及一些用户体验设计上真的是一坨屎,一年夜坨巨年夜的屎。

Claude知道我要的交互设计是甚么样的,甚么样的页面是一个用户体验的很丝滑的页面,GPT-5.4做出来的我作为一个用户体验设计师,那玩意我真的用不大白,一个个都像给黑客用的后台。

然后创作能力险些为0,你于影视行业险些可以看到绝年夜大都编剧都是用Claude来辅助本身优化脚本,单你*看不到有几个好编剧会用GPT-5.4来辅助本身,真的,最*的那帮做创作者,真的是会用脚投票的。

这就是很年夜的差距,Claude Opus 4.5及4.6,牛逼就牛逼于水桶及周全。

可是此次,Opus 4.7我实测下来,还有是有一些纷歧样的觉得。

有几个要害更新点,咱们一个一个说下。

1. 又一次隐形涨价了。

Anthropic此次换了新的tokenizer。

博客原文说,新的tokenizer改良了文本处置惩罚,trade-off是一样的输入此刻会被切成更多token,年夜概是本来的1.0到1.35倍,详细看内容类型。

意思就是,你把统一段代码、统一份文档、统一个prompt丢给4.7及4.6,4.7要多吃至多35%的token。

虽然可能效果确凿更好了,可是实打实的,Token耗损又变患上更高了。

API的订价美金5/美金25确凿没涨。

但一样的使命,token耗损多了35%,你末了账单可能也要多烧不少了。

他们的意思就是,假如你的使命,每一个哀求吃更多token,但由于模子更准、一次过的几率更高、少了往返修改的轮次,以是总体你花的钱没那末多。

逻辑上没弊端,但这个逻辑建立的条件是,你的使命是4.7真的擅长的那种高难的繁杂使命。

假如你一样平常跟Claude对于话的是一些它晋升不较着的场景,好比常识治理创作做筹谋方案数据阐发之类的这类,那你可能就是纯纯简直实更烧token了。

好惨,牛逼模子的Token,真的是这个世界愈来愈值钱的工具。

2. 视觉能力晋升巨年夜。

这个我前面提过,XBOW的视觉测试,4.6是54.5%,4.7是98.5%。

先说一下XBOW是啥。

这家公司2024年景立,干的事儿一句话归纳综合就是让AI本身去当白帽黑客,做的是autonomous penetration testing,自立渗入测试,本年3月刚拿了1.2亿$融资,是这个赛道里今朝跑最快的一家。

他们测模子的视觉能力是由于AI要本身去打渗入,就患上看患上懂各类参差不齐的阅读器界面、后台治理体系、开发者东西里的收集哀求、过错提醒弹窗,这些画面密度极高、细节极多,模子视觉能力差一点,那基本就GG了。

4.6只有54.5%,也就是一半的图模子看患上模模糊糊的,但4.7直接98.5%,基本等在全数经由过程。

乐成率从一半直接干到近乎满,这个意义还有是挺主要的。

焦点实在除了了多模态能力的晋升,也由于4.7撑持的图片分辩率晋升了。

此刻至多可以处置惩罚2576像素长边的图、约莫3.75兆像素,是以前Claude模子的3倍多。

Claude本身的视觉基准评测晋升也很较着。

我之前有的时辰偷懒,直接给Claude Opus 4.6传一张截图,说XXX有问题,或者者这个数据它不合错误,它能年夜概认出你于干啥,但细节常常看不清。

以是致使常常会有过错,咱们本身的AIHOT网站就是个典型,字还有挺多的,各类卡片兼容的展示样式及逻辑我以前跟Claude Opus 4.6改了很久。

有的时辰来往返回改不大白,常常把我的文字辨认过错。

但今天测了一下,险些没有辨认过错的问题了。

这个对于在常识事情者是一个年夜的BUFF加成。

我都能想象到许多场景了,好比做状师的伴侣扔一份几十页的合同扫描件给它,它能把内里的日期、条目编号、金额都读对于。

好比一个做金融的伴侣扔一份年报PDF给它,它能把图内外的每一根柱子都抓出来。

好比一个做产物的伴侣扔一堆竞品截图给它,它能逐个阐发界面上的每一个组件啥的。

这个进级确凿很好,于多模态上发力了。

3. 审美有不错的晋升。

我以前做一些触及到用户体验还有有美学的,实在说真话,我感觉Claude Opus 4.6效果不是很好,属在比上不足比下有余的。

跟Gemini比拟差距还有是很较着,许多视觉效果都做的其实不好,还有有交互设计这块,也很是的呆,许多时辰是不以用户为焦点,而是为了完成开发使命为焦点。

以是逼的我于CLAUDE.md里加了一年夜段限定。

而此次,可能患上益在多模态能力的晋升,我用Claude Opus 4.7,随手做了一下我以前要做可是还有没来患上和做的公司雇用网站,效果出奇的好。

由于咱们此刻很缺人,还有于疯狂招人中,以是需要这么一个工具。

我就描写了一下我的需求,这里没有效任何Skill,Fontend Skill被我删了。

它就正常列规划,然后开跑了。

*轮出来基本可用,我又简朴微调了两轮,加了logo及其他职位的信息,就出来了,一共耗时20分钟。

我感觉于这类微型项目的效果及开发体验是要比Claude Opus 4.6好不少,审美更强了,也更听患上懂人话,动效效果也更强了,切合我想要的用户体验法则的。

我本身还有是相称满足的。

4. 也最先不说人话了。

这是让我最掉望的一个点。

我日常平凡会用Claude做许多许多的常识治理类的需求,不论是辅助创作,还有是汇集资料,写陈诉,做PPT,写方案等等等等。

Claude Opus 4.6我都感觉于创作上,文字咀嚼长短常好的。

而GPT-5.4及海内许多模子,实在是纯粹的编程特化,于人味上极端缺掉,典型的如GPT-5.4。

以前我其实忍不了GPT-5.4就是由于垃圾话太多了,网上我找了一个案例。

图像

稳稳接住,根因,按这条切,收口,压实这些破词懂的都懂。

然后这一次Opus 4.7,于我开发上面的雇用网站的时辰,觉得看到了很是欠好的偏向。

我对于文字还有是轻微有点敏感的,当我看到这几句的时辰,我的PTSD就主动激活了。

不再会撞,不会爬到logo头上,还有有稀里糊涂的破折号。

我差点应激。

然后马上去让它同文风续写一下我昨天发的文章,直接心凉了半截。

狗屎,一坨狗屎。

一股子伪人味道,我真的佛了,好好的Claude,怎么也最先不说人话了。

去社区内里搜了一下。

果然,我不是一小我私家。

说真的,我心态有点爆炸了。

5. 一些新功效。

再说一下新功效吧。

Claude以前的effort档位是low、medium、high、max四档。

4.7此次于high及max中间加了一档,叫xhigh,extra high的缩写。

补上了high及max之间的跨度。

以前Max烧的太狠,可是high有时辰觉得又有点笨,此次来了个中间值,而且直接预设为默许了。

然后是/ultrareview。

这是Claude Code里一个新的号令,专门跑code review,会把你的代码仔细心细过一遍,找出所有的bug及设计问题。

并且这玩意未便宜,跑一次可能要5~20美刀。

Pro及Max用户有3次免费的试用额度。

真的贵。

然后是Cyber Verification Program。

这个多是最轻易被纰漏、但我感觉最值患上存眷的一个点。

Anthropic开了一个正式的通道,让正当的安全研究、渗入测试、red-teaming可以申请利用Claude的某些原本受限的能力。

申请进口是claude.com/form/cyber-use-case

这个事的配景是,之前白帽子、安全团队想用Claude做缝隙研究、做渗入测试,常常被模子一刀切拒绝。

由于模子辨认不了你是歹意还有是正当,安全起见全拒。

此刻Anthropic说,正当从业者你可以来申请,咱们走一个非凡流程,经由过程了给你开通响应能力。

实在AI行业愈来愈走到这一步了,以前 Claude Mythos太牛逼了不敢给平凡人放出来,由于可能真的会失事。

可是你全拒及全开之间,实在需要一个身份核验+分级授权的中间态。

并且这个思绪一旦跑通,后面会被年夜量复用。

好比医疗场景的合规研究、金融场景的模仿进犯练习训练、生物研究场景的合规用药、甚至兵工范畴的正当研发,均可以走近似的Verify通道。

这是我感觉一个进入财产里,蛮有持久价值的一个设计。

此次Claude Opus 4.7差未几就都讲完了。

看到编程能力及视觉能力的晋升,我很惊喜。

可是看到一个好好的有文字咀嚼的模子,又一次倒于了不说人话上。

说真的,我此刻也有点被稳稳的接住了。

三年,从GPT-3.5最先,一起用到此刻。

这三年里,我眼睁睁看着这些模子,一个接一个,变患上愈来愈智慧,愈来愈能打,Benchmark一个比一个猛,SWE-bench一个比一个高。

但也是这三年,我眼睁睁看着它们,一个接一个,都不会说人话了。

所有公司卷的都是编程,编程,还有是编程。

我不是说编程不主要,我本身也是Claude Code的重度用户,我公司内部此刻一半的东西都是我用Claude Code搓出来的,编程能力对于我来讲很是很是主要。

但问题是,一个模子,它不该该只是一个编程东西啊。

语言,是人类所有智力勾当的底座。一个好的语言模子,应该能写小说,能写诗,能写散文,能陪你聊深夜三点睡不着的那点心事。

但此刻的年夜模子,似乎除了了会写代码,其他的甚么都不会了。

或者者说,甚么都于退步。

究竟似乎没啥贸易价值的工具,无法量化的工具,于AI公司眼里可能确凿就不是高优先级。

在是它们就被逐步地、暗暗地、体系性地捐躯失了。

我真的感觉。

这事还有挺悲恸的。

【本文由投资界互助伙伴微信公家号:数字生命卡兹克授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下载360浏览器