菜单
首页财产ai正文 DeepSeek V4的五个要害旌旗灯号 DeepSeek V4 模子预览版正式开源上线,推出双版本并标配百万级上下文,依托全新稀少留意力架构年夜幅降低算力耗损。其 API 订价远低在海外闭源模子,主打高性价比。产物聚焦 Agent 场景深度优化,同时快速完成华为昇腾、寒武纪等国产芯片全适配,叠加国产年夜模子团体迭代,标记海内 AI 模子与算力生态迈入协同成长新阶段。 2026-04-24 15:51 ·微信公家号:全天候科技林克 AI投资人解读本文缭绕 DeepSeek V4 发布睁开周全解析,既对于比了开源与闭源模子的订价差异,也拆解了模子架构、机能上风与产物定位。文章跳出单一产物视角,串联国产年夜模子竞争格式与国产算力适配结果,凸显海内 AI 财产的体系性前进。V4 以开源、低成本、强适配、锚定 Agent 底座的线路,为开发者降本增效,也为本土 AI 生态自立化成长提供坚实支撑,行业参考价值凸起。内容由AI天生,仅供参考
4月24日,备受存眷的DeepSeek的V4模子预览版终究发布并同步开源了权重。
此次发布的两个版本,一个是总参数1.6万亿,激活49B的旗舰版V4 PRO,一个是经济型V4-Flash,总参数284B,激活13B,均撑持100万token上下文,MIT和谈彻底开源。
就于前一天,OpenAI方才上线GPT-5.5,每一百万输出token订价30美元。今天DeepSeek V4-Flash的输出订价是2元人平易近币/百万token,折合不到0.3美元。
先后两天,闭源与开源的两种订价逻辑,面临面出现于了市排场前。
0一、时点:三次跳票以后
DeepSeek这一天来患上不算忽然,但比所有人预期的都晚。
从去年末到本年2月、3月、4月初,DeepSeek V4的发布窗口推了三次,行业里各年夜模子的频仍更新险些进入了最密集的时刻。
必需认可于2026年4月末,百万上下文已经称不上是**,Gemini、Qwen等都到了这个量级。此次DeepSeek V4落地,要回覆的不是"能不克不及做到",而是"做到了以后,成本撑不撑患上住"。
V4给出的回覆是一套全新的混淆留意力架构。它于token维度引入压缩机制,联合自研的DSA稀少留意力,其让模子于处置惩罚超长文本时再也不对于所有token做全量计较,而是区别轻重:强联系关系的token精读,弱联系关系的压缩或者跳过。
这套机制从预练习阶段就转变了模子处置惩罚长序列的方式。按照技能陈诉,V4还有引入了流形约束超毗连(mHC),替换传统残差毗连来加强深层收集旌旗灯号流传的不变性,并利用Muon优化器晋升练习收敛速率。整个模子于跨越32万亿token上完成为了预练习。
现实效果用两个数字就能归纳综合:于百万token上下文设置下,V4-Pro每一处置惩罚一个token的算力耗损只有V3.2的27%,KV缓存占用只有10%。
官方于通知布告里说患上更清晰:"从此刻最先,1M上下文将是DeepSeek所有官方办事的标配。"这象征着长上下文正式从"加价功效"酿成了"默许配置",这对于整个行业的成本预期是一次从头校准。
0二、矩阵:两型号+三模式
于此次发布中,旗舰V4-Pro及经济型V4-Flash都撑持三种推理模式:非思索模式(快速相应)、思索模式-高(显式推理链)、思索模式-极限(推到模子能力界限)。官方建议繁杂Agent场景利用极限模式。
DeepSeek对于V4-Pro的定位给了一个直白的对于标:内部员工已经经把它看成一样平常Agentic Coding东西利用,体验优在Claude Sonnet 4.5,交付质量靠近Opus 4.6非思索模式,但与Opus 4.6思索模式仍有差距。
推理机能方面,于数学、STEM及竞赛型代码评测中逾越当前所有已经公然评测的开源模子,比肩世界*闭源模子;世界常识年夜幅*其他开源模子,稍逊在Gemini-Pro-3.1。
V4-Flash的推理能力靠近Pro版,但世界常识贮备稍逊;简朴Agent使命半斤八两,高难度使命有差距。
这组自评有一处值患上留意,DeepSeek自动划出了与Opus 4.6思索模式的差距,于国产年夜模子发布话术的传统里,这类克制自己就是一种技能自傲的表达。
0三、扳机:Token价格差
跟着预览版的公然,V4的API订价已经随发布同步上线。
每一百万token,V4-Flash的输入价是1元(缓存掷中0.2元),输出价2元;V4-Pro的输入价12元(缓存掷中1元),输出价24元。官方注明这是预览版订价,Pro版下半年算力扩容后将年夜幅下调。
这组数字需要放于坐标系里看才成心义。
Flash版每一百万token输入1元——这个价格让险些所有开发者都能无承担地挪用一个万亿参数级MoE架构的开源旗舰模子。
对于比之下,GPT-5.5前一天方才上线的输出订价是30美元/百万token,折合人平易近币跨越200元,与V4-Flash的2元输出价差距跨越100倍。即便拿V4-Pro的24元输出价来比,差距仍于一个数目级以上。
Pro版当前价格较高,但官方已经经给出了明确的降价预期。暗地里的约束并不是订价计谋,而是算力供应——Pro版的高机能推理对于芯片资源要求更高,当前办事吞吐十分有限。这也从侧面印证了V4于自立算力适配上的深度投入。
缓存掷中的扣头幅度一样值患上存眷。Flash的缓存掷中价只有未掷中价的五分之一,Pro是十二分之一。
这象征着DeepSeek于用订价杠杆鼓动勉励一种利用方式:把体系提醒词、东西界说、文档模板等固定内容放于哀求头部,让缓存机制主动生效,对于在Agent类运用,这刚好是最典型的挪用模式。
用Flash的白菜价铺量,用Pro的高阶能力撑住顶端场景,用缓存机制降低Agent开发者的边际成本。每一一刀都切于运用层最痛之处。
0四、标的目的:Agent底座
假如于V4的发布里只提炼一个要害标签,那末Agent比百万上下文也许更主要。
官方明确写道:V4针对于Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产物举行了专项适配及优化,于Agentic Coding评测中到达开源模子*程度。这份适配名单同时包罗Anthropic的产物及国产开发者东西。
这个旌旗灯号很明确,DeepSeek不筹算自建运用生态,而是要成为Agent时代的底座供给商。
这个选择放于当前的行业格式里是一个成心识的弃取。Anthropic的年化收入已往四个月从90亿美元翻到300亿美元,增量险些全数来自Claude Code;Cursor一个代码编纂器估值已经到600亿美元。运用层的钱于那里,但DeepSeek选择不去碰。
这申明它的定位不是下一个Anthropic,更有多是Agent时代的基础举措措施。
长上下文+低价API+Agent适配的组合,素质上是把本身做成一个供电站,让所有电器都能更自制地跑起来。
对于在那些成天跟Token耗损作斗争的Agent开发者来讲,V4打开的是一个详细的场景:把整个代码堆栈、完备的需求文档、几百轮汗青对于话一次性塞进挪用,再也不需要切分、检索、择要这套工程绕路。已往做Agent最头疼的就是上下文治理——每一多一轮对于话,token就指数级重叠,成本及不变性同时恶化。
V4假如能于真实负载下兑现承诺,这个痛点的成本布局将被改写一次。
0五、生态:模子、算力竞走
V4延期的这段时间里,国产开源年夜模子的疆场从未平静过。
本年夏历年先后呈现了一次密集发作:阿里Qwen3.5总参数3970亿、激活仅170亿,百万token的API价低至0.8元,是Gemini-3-Pro的十八分之一;智谱GLM-5的代码天生的HumanEval96.2%打到开源最强。
4月继承加快:Kimi K2.6于SWE-Bench Verified上拿到80.2%,险些追平Claude Opus 4.6;智谱GLM-5.1于SWE-Bench Pro上以58.4%跨越了GPT-5.4及Claude Opus 4.6;Qwen 3.6 Plus也跨入百万token上下文行列。
Qwen、Kimi、GLM、MiniMax、MiMo,这些国产模子于国际开发者社区的呈现频率正于肉眼可见识上升。
除了了模子,算力测的匹配也于同步落地。
华为于V4发布同日确认昇腾全系列产物——A二、A3和最新的昇腾950已经周全适配V4-Flash及V4-Pro。
说话是"两边芯模技能慎密协同",象征着DeepSeek及昇腾的适配事情从模子研发阶段就于同步推进。
华为给出了一组详细的机能数据:基在昇腾950超节点,V4-Pro于8K输入场景下实现了约20ms的单token解码时延,单卡吞吐4700 TPS;V4-Flash可以做到约10ms时延,单卡吞吐1600 TPS。
昇腾A3超节点上,V4-Flash于64卡年夜范围部署下单卡吞吐跨越2000 TPS。
这些数字暗地里是昇腾950于底层架构上的三项代际进级:原生撑持FP8/MXFP4等低精度格局(内存占用降低50%以上,算力翻倍)、针对于MoE稀少访存特性的硬件级优化,以和Vector与Cube单位同享片上内存的新设计。
更值患上存眷的是工程生态层面的动作。
华为同步开源了PyPTO编程范式,让V4新架构中触及的Attention压缩、mHC等繁杂算子的开发周期从周级缩短到天级,开发者不需要手动处置惩罚硬件层面的同步及数据搬运。
寒武纪一样于发布当天公布,已经基在vLLM框架完成V4-Flash及V4-Pro的Day 0适配,代码开源到GitHub。
两家国产芯片厂商于模子发布首日就拿出了完备的推理部署方案,这个相应速率自己就申明,适配事情不是姑且赶出来的,而是跟模子研发深度咬合了很永劫间。
DeepSeek为此次底层算力迁徙支付的工程价钱不小。据此前报导,团队重写了年夜量焦点代码,完成为了从CUDA生态到昇腾CANN框架的整套技能栈迁徙,这也是V4重复跳票的缘故原由之一。
但当一个万亿参数级的开源旗舰模子,于发布首日就能跑于国产算力的全系列产物上,适配代码直接开源,推理机能给出了详细的吞吐及时延数据而不是"行将撑持"——这件事的意义,已经凌驾了任何单一模子的评测领域。
不管模子还有是算力,他们之间存于竞争瓜葛,但从更年夜的维度看,它们都于证实了统一件事:
中国AI研发的体系机能力不是一两个特例,而是可以不停持续性立异的生态。
2025年1月,DeepSeek R1发布,激发美股单日市值蒸发超1万亿美元,被业界称为人工智能范畴的“斯普特尼克时刻”。
今天V4的发布没有那种戏剧性的震撼,但中国AI研发已经经从“偶然使人震撼”进入了“连续于场”阶段。
DeepSeek于通知布告末尾引了《荀子》中的一句话:
不诱在誉,不恐在诽,率道而行,端然正己。
放于一家三次跳票、焦点人材流掉、刚传出融资的公司身上,这句话读起来有几分强硬。
但于整个国产开源模子群体站出来的2026年,这句话不只属在DeepSeek,更属在中国所有AI立异坚定前行的脚步。
【本文由投资界互助伙伴微信公家号:全天候科技授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-今年会·(jinnianhui)金字招牌