今年会·(jinnianhui)金字招牌-大模型架构的下半场

2026-05-13 12:54:47

首页财产互联网正文年夜模子架构的下半场深度进修范畴已往十年扩大组件，如今进入下半场存眷扩大通讯。研究者指出层间通讯问题，提出Flash Depth Attention及MoDA改良，晋升信息流动。 2026-04-20 14:21 ·微信公家号：量子位华中科技年夜学王兴刚团队 AI投资人解读· 深度进修范畴已往十年于扩大计较能力上有进展，但层间通讯能力扩大不足。序列长度扩大催生立异机制，而深度扩大中层间通讯机制改良少，存于信息稀释问题。研究提出将层间通讯理解为检索而非累加，引入留意力机制并优化，如Flash Depth Attention及MoDA，能晋升信息流动。 · 新机制于工程实现上可能面对效率挑战行业内对于传统累加框架依靠可能拦阻新要领推广。总结：该研究为深度进修层间通讯带来新视角与要领，有望晋升模子机能，但于推广运用中需存眷工程效率与行业接管度问题。内容由AI天生，仅供参考研究者们花了十年去扩大层内的计较能力，却忘了扩大层间的通讯能力。

这件事亟需被转变。

已往十年，深度进修范畴取患上进展的方式出奇地一致：甚么都往年夜了整。更多参数、更大都据、更长上下文。并且确凿管用：loss于降，能力于涨，scaling law（扩大定律）切确地告诉研究团队还有需要投入几多。

但扩大的标的目的差别，差异也是巨年夜的。序列长度的扩大需要真实的立异，也确凿催生了一整套机制研究及体系工程。数据的扩大则直接了当：数据越多，loss越低。让模子变患上更宽、更深，这看起来也及数据的扩大同样简朴。

但宽度及深度真的于划一地阐扬作用吗？

并不是云云。深度于数目上增加了，但于质量上却没有。层与层之间的通讯机制险些没有变化。接下来本文将注释这一点为何主要，这不仅关乎收集的深度自己，更关在研究团队设计神经收集架构时的一个团体盲区。

0一、上半场

要看清上半场做对于了甚么，就看看甚么被乐成地扩大了，以和是怎么做到的。

先看序列长度。初期Transformer只能处置惩罚几百个token。要到达128K+，需要多个标的目的上的连续立异：新的留意力模式（稀少、线性、混淆）、体系工程（FlashAttention）、位置编码的前进（RoPE scaling）。研究者及工程师们配合制作了一整个生态，连续改良token之间的通讯方式。而回报颇丰，研究团队不止可以或许处置惩罚极为长的文档，还有为OpenAI-O1及DeepSeek-R1的长链推理奠基了坚实的基础。这就是当研究团队当真投资在“信息于序列维度上的流动方式时”，所收成的斐然结果。

更宽的层、更深的收集，天然带来更好的表征。从GPT-2的15亿参数到如今的数万亿，这套配方一直管用。这好像申明年夜模子团队不需要引入新机制，只需要连续拓展这些被验证了的标的目的。

只不外，对于收集而言，更宽及更深往往其实不是一回事。宽度的扩大是天然而然的：现代GPU生成擅优点理更宽的矩阵乘法，留意力机制的演进愈来愈高效，这使患上更宽的收集可以无缝接入现有架构。

而深度则是另外一个故事。模子确凿变深了：研究团队将模子加到32层、64层、甚至100层以上。但层间通讯的机制素质上还有是ResNet于2015年引入的深度残差，“x + F(x)”。自它降生以来，缭绕它有过不少改进（归一化位置、残差缩放、跨层毗连），但没有任何改进真正代替过阿谁深度残差中“+”的决议性职位地方。

残差毗连可以说是深度进修中最主要的基石。没有它，就没有100层的Transformer，没有现代LLM，没有scaling law。但基础性方案有一个特色：它们有时会变患上太甚隐形，以至在没人再去质疑它究竟是*解，还有是仅仅是研究团队摸索出的*个能用的方案。

打个比喻，想象一个有非凡法则的传话游戏。于尺度版本里，第1小我私家对于第2小我私家耳语，第2小我私家再对于第3小我私家耳语。到第18小我私家的时辰，动静已经经涣然一新了。这就是没有残差毗连的深层收集：每一一层只能看到上一层的输出。

残差毗连修复了这个问题：每一个人于转达本身的理解的同时，也把以前堆集的原始信息一成不变地往下传。第3小我私家既能听到第2小我私家的新解读，也能听到以前的所有内容。原始旌旗灯号始终被保留，它成了不停壮年夜的合唱中的一个声部。

但到了第152小我私家，你同时于听152个声音：原始信息加之151层叠加之去的内容，全数混于一句耳语里。理论上，前面那些人的声音依然存于，但它们已经经被沉没了。假如第152小我私家需要知道第3小我私家详细说了甚么，他患上吃力地从这首弘大的合唱声中把它挑出来。

凡是而言，第152小我私家是做不到这一点的。

这就是信息稀释。每一一层都面对两难：借使倘使该层孝敬新信息就可能会袒护以前的内容，但守旧不动则能保留以前层传过来的已经有信息。这类状态下，许多层学会了守旧不动，它们险些不往残差流里写入任何工具。如许的深度收集于纸面上很深，现实上却很浅。研究团队堆了152层，但此中许多层却只学会了连结缄默沉静。

这里的瓶颈不于在152层收集所需求的算力，而于在信息穿过这些层的通讯能力。CPU的成长于几十年前就撞过一样的墙：处置惩罚器愈来愈快，直到内存带宽跟不上了，逼患上整个行业转向缓存及通讯。构造治理也同样：一群智慧人所能阐扬出的创造力，也受限在他们之间的沟通、构造方式。深度进修正于履历本身的版本：十年来不停加强每一一层的能力，而层与层之间的通道始终是2015年那条单车道公路。

那末，有无更好的机制？

0二、配方

于本文所先容的研究以前已经经有许多研究者留意到了深度瓶颈。多年来，修补方案愈来愈巧妙：获评CVPR best paper的DenseNet保留了每一一层的输出，但价钱是平方级的开消。利用可进修加权的方案DenseFormer、LIMe降低了成本，但练习完成后权重就固定了，每一个token、每一套上下文都用一样的权重。

字节跳动的Hyper-Connections及DeepSeek的mHC另辟蹊径，它们把管道拓宽到N个通道，层间用混淆矩阵毗连，这相称在信息高速公路上同时多了好几条车道。但坏动静是，信息仍旧于逐层流动，第152层没有措施直接回溯到第3层。

彩云公司的MUDDFormer让混淆每一层输出这件事酿成动态的，它会按照每一个token的表征来天生权重。这于底子标的目的上是对于的：从每一一层罗致几多信息本就应该取决在你正于处置惩罚的内容。但一样有个坏动静，第152层于决议从第3层罗致几多时，只依靠第152层自己的状况，它其实不知道第3层现实包罗了甚么。它是于猜测哪些层有效，而不是于查看。

以上的每一一步都修复了一个真实存于的缺陷，但却鲜有哪个要领质疑过深度残差的框架自己。

不难发明，这些要领都有着一个配合点。从DenseNet到Hyper-Connections，每一个要领都于回覆统一个隐含的问题：“怎样才能更好地混淆各层的输出？”更好的系数，更多的通道，自顺应的权重。但自始至终都是混淆，自始至终都是累加。ELMo早就注解，差别的层编码的是大相径庭的信息：浅层编码句法，深层编码语义。所有人患上出的结论都是“进修更好的混淆权重用来均衡句法及语义”。但还有有一条被主流轻忽的门路：假如差别层持有差别信息，或许每一一层应该可以或许按照内容而非位置，从持有所需信息的那一层直接检索。

这就是领域谬误：把层间通讯看成累加（用进修到的或者天生的系数来组合旌旗灯号）而非检索（经由过程基在内容的匹配来选择信息）。于累加框架下，纵然是动态要领也只从当前层的状况天生混淆权重，而不去查看信息的来历层现实包罗了甚么。于检索框架下，Query（查询）编码的是“我需要甚么”，Key（键）编码的是“我有甚么”，而它们之间的运算决议了相干性。Query及Key两边都应该有讲话权。

回到传话游戏。以前所有的要领都于试图孕育发生一个更清楚的合唱：更好的发音、更多的中继通道、自顺应的音量。没有一个质疑过这个底子约束：所有声音必需累加成一个声音吗？也没有人问过：咱是否可以直接走归去，跟以前的任何一小我私家劈面对于话呢？

研究团队认为这类领域谬误于架构设计中无处不于。当某个工具充足好用的时辰，你不会去质疑它的观点框架，而只会于框架内改良。履历了多年愈来愈巧妙的修补以后，研究者才大白：深度维度的残差毗连需要的不是更好的系数，而是被一种底子差别的操作所替换：

一种于序列维度上已经经乐成解决了一样问题的操作。

0三、下半场

一旦研究团队把层间的通讯理解为检索而非累加，一个很天然的谜底就是于深度维度上引入留意力机制。包括研究者团队于内的许多团队都自力地收敛到了这个设法：google提出的 DCA、华为的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以和研究者团队提出的Flash Depth Attention MoDA，各人都测验考试于层间运用点积留意力。这类自力趋同自己就是一个旌旗灯号：标的目的走对于了！

但找对于标的目的及做出制品是两码事。研究者自述：“*次用Pytorch实现运行深度留意力的时辰，前向及反向流传总计耗时到达了44,924 ms。44秒啊！伴侣们！这个时间都够我喝完一瓶500毫升的冰红茶了！”也就是说，于深度维度上运用留意力机制的设法自己没问题，但工程实际却残暴到了顶点。现代GPU为年夜范围的矩阵乘法做了年夜量优化，却不擅长数千个跨深度的极小范围的留意力操作。深度留意力作为一个计较量不年夜的算法，跑起来却可能慢患上要命。

至此，以前的要领都堕入了两难：要末简化深度留意力来换速率，这类方式丢失了完备的选择性检索这一焦点价值；要末连结完备的表达能力，但运算价钱变患上不成接管。研究者团队找到了一条前途：不是简化算法，而是从头构造介入计较的数据结构，从而适配GPU硬件。Flash Depth Attention（https://github.com/hustvl/MoDA）让具有完备表达能力的深度检索快到可以介入现实练习。

通例的年夜模子骨干流水线是：残差毗连→序列留意力→残差毗连→FFN（前馈收集）。

有了高效的深度检索以后，研究团队留意到收集的骨干流水线酿成了：深度留意力→序列留意力→深度留意力→FFN（前馈收集）。这三个持续的留意力操作作用在差别的Key（键，缩写作K）及Value（值，缩写作V），却同享着近乎不异的Query（查询）。一个很天然的做法就是把它们交融。

研究者团队提出了混淆深度留意力（Mixture-of-depths Attention，MoDA）将深度检索及序列检索归并到一个同一的softmax中。每一个留意力头同时存眷当前层的序列KV对于（键值对于）及所有前序层的深度KV对于（键值对于）。于统一个softmax 下，模子可以自由决议什么时候存眷序列中的其他token，什么时候跨层检索自身的汗青信息。经由过程一次操作，MoDA完成为了两个维度的检索。

回到传话游戏。于残差毗连的版本里，第152小我私家吃力地从累加的合唱中识别第3小我私家的声音。有了深度检索，第152小我私家拍拍第3小我私家的肩膀直接问：“你适才说了甚么？”没有中间人，没有累积的噪音。

可视化的试验成果也印证了这个类比所猜测的征象：当模子得到了经由过程深度KV从特定层举行选择性检索的能力时，它会连续且自动地利用这类能力。以前困扰模子架构研究员们的Attention Sink（留意力淹没）征象，即模子把几率质量聚集于少数固定token上的举动，也随之削弱。这就是当研究者团队测验考试成长层之间而非仅仅层以内的信息流动时，所取患上的有趣结果。

年夜模子架构的上半场是关在扩大组件的。研究者们扩大出更长的序列，更多的数据，更年夜的模子。这个阶段最要害的问题是“怎么把一切都做年夜？”。于上半场，这是准确且要害的问题，它把整个范畴从GPT-2带到了GPT-4时代。下半场是关在扩大通讯的。新的问题是：“组件之间的通讯质量怎样？”

深度是最较着的例子，由于现有方案（累加）及可能的方案（选择性检索）之间的差距是巨年夜的。研究者团队信赖这个原则是可以推广的。通常神经收集利用静态的、与数据无关的通道来通报信息之处，包括层与层之间、模态与模态之间、时间步与时间步之间等等，极可能城市有一个检索机制等着替换阿谁累加操作。

全球的研究者们花了十年把握token之间怎样对于话，此刻是时辰把握层与层之间怎样对于话了。而终极，研究者们将把握神经收集中每一个组件怎样与其他肆意组件对于话。

深度残差的“+”带咱们跑过了一段极其出色的路程，但此刻，是时辰进级这座阶梯了。

接待来到年夜模子架构的下半场。

Flash Depth Attention MoDA论文链接：https://arxiv.org/abs/2603.15619Flash Depth Attention MoDA代码链接：https://github.com/hustvl/MoDA试验室主页：https://github.com/hustvl

论文重要作者来自在华中科技年夜学（HUST）电子信息与通讯学院视觉试验室（Vision Lab）。HUST Vision Lab研究重要集中于计较机视觉及深度进修范畴，特别存眷如下标的目的：多模态基础模子、视觉表征进修、方针检测、支解与跟踪、端到端主动驾驶、新型神经收集架构。

HUST Vision Lab致力在不停冲破视觉智能的界限，代表性事情包括：CCNet（TPAMI 2020，4300+援用，1.5K Star）、Mask Scoring R-CNN（CVPR 2019，1400+援用，1.9K Star）、FairMOT（IJCV 2021，2200+援用，4.2K Star）、ByteTrack（ECCV 2022，3400+援用，6.2K Star）、EVA（CVPR 2023，1100+援用，2.7K Star）、MapTR（ICLR 2023，400+援用，1.5K Star）、Vectorized Autonomous Driving (VAD)（ICCV 2023，600+援用，1.3K Star）、DiffusionDrive（CVPR 2025，200+援用，1.3K Star）、Vision Mamba (Vim)（ICML 2024，3100+援用，3.8K Star）、4D Gaussian Splatting (4DGS)（CVPR 2024，1400+援用，3.5K Star）、YOLOS（NeurIPS 2021，500+援用，900+ Star）、YOLO-World（CVPR 2024，1000+援用，6.3K Star），以和 LightningDiT VA-VAE（CVPR 2025，200+援用，1.4K Star）。

【本文由投资界互助伙伴微信公家号：量子位授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下一篇：和合共生积极有为——今年会·(jinnianhui)金字招牌诚信至上集团2025年度工作总结会顺利召开