中经记者 李昆昆 李正豪 北京报道
在刚刚过去的元旦假期,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中。
《中国经营报》记者就论文相关问题致电DeepSeek方面,截至发稿未获回复。AIGCLINK发起人、微软MVP占冰强告诉记者,这是DeepSeek的又一历史性时刻,2026年第一天DeepSeek最新论文提出mHC,将深度学习领域的残差连接直接推向了新高度,直接升级了深度学习基石,这将为大模型训练收敛带来巨大贡献,避免训练半天梯度爆炸无法收敛。
mHC是什么?
简单来说,DeepSeek提出的mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。
“2015年后大家通常使用的残差连接方式是Resnet,训练模型的时候,通常有很多层,为了让后面的层知道前面的信息,每一层都传递信息,导致最后一层收到以前所有层的信号,一下子噪音太大(信息量太大)容易导致直接崩溃,这也就是为啥AI训练容易‘炸机’。”占冰强说。
后来为了提起残差连接性能,字节团队提出了HC,相当于把Resnet从单条高速连接残差扩展到4条,虽然性能有所提升,但经常会梯度大爆炸不稳定。
而DeepSeek发布的mHC架构,相当于每个人都发了一个智能导航系统,实时引导数据从不同的高速公路走,保证进来多少车、出去也是多少车,车速依旧快,不再撞车,解决了HC不稳定的问题,mHC也就是流形约束确保信号传递和梯度同时有保障。
它的核心目的是,在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。
业内人士认为,DeepSeek团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形(双随机矩阵)上。这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略。
硬核工程论文
值得注意的是,与HC中近3000的最大增益幅度相比,mHC将其降低了三个数量级。
这些结果表明,mHC相比HC显著增强了传播稳定性,确保了前向信号与后向梯度的稳定流动。
此外,团队观察到,对于HC,当最大增益较大时,其他值也往往显著,这表明所有传播路径普遍存在不稳定性。相比之下,mHC始终产生稳定的结果。
更值得关注的是,在这个论文中DeepSeek提到他们在mHC技术研究的结论已经得到了内部大规模实验的进一步证实。如果mHC被整合进下一代模型,再结合此前的一系列技术和工程创新,我们可能会看到一个在效率、性能和稳定性上全面升级的架构。
在原始HC设计中,多残差流意味着更高的内存占用和访问成本,显存带宽是现代AI芯片最昂贵的资源,如此高昂的成本在大模型时代是很难让人接受的。DeepSeek团队没有停留在算法层面,而是深入到了底层进行优化。
DeepSeek团队进行了一系列基础设施优化,其使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数;针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销;同时,他们还提出了DualPipe并行策略。在大模型训练中,计算和通信往往是串行的,也就导致了GPU在等待数据传输时经常处于闲置状态。
理论上完美的数学方案(Sinkhorn-Knopp迭代),如果直接跑在现有的训练框架上,会带来巨大的计算延迟和显存开销。
为了让这个“数学护栏”真正落地,DeepSeek并没有调用现成的库,而是直接手写了底层的CUDA内核代码,利用算子融合(Operator Fusion)技术,把复杂的数学计算硬生生塞进了毫秒级的训练循环里。同时,他们采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟。
业内人士认为,从行业意义上来看,mHC或许能让企业在训练更大规模的基础模型时,减少硬件投入、缩短训练周期。比如算力有限的中小AI企业,也能尝试开发更复杂的大模型,降低了大模型研发的门槛。此外,训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,比如需要超大规模参数的多模态模型、工业级的智能决策系统。
有行业人士评价认为,DeepSeek这一研究是底层创新,这次创新的架构看到的是Transformer最基础的问题,结合此前的积累,他预测DeepSeek有望在V4版本中做出重大的更新。
(编辑:吴清 审核:李正豪 校对:陈丽)