Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+21月1日,DeepSeek在北京时间当天下午发布新论文,提出名为mHC(流形约束超连接)的新架构,旨在缓解传统超连接在大规模模型训练中因连接多样化削弱恒等映射属性而导致的训练不稳定与可扩展性受限,并降低内存访问开销。论文称通过将残差连接空间投影到特定流形以恢复恒等映射属性,并结合基础设施优化提升效率;实验结果显示mHC在大规模训练中带来性能改进与更好的扩展性。论文第一作者包括解振达、韦毅轩、曹焕琪,DeepSeek创始人兼CEO梁文锋亦在作者名单中,论文已在Hugging Face与Arxiv公开。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练深度求索+2DeepSeek在元旦发布新论文,提出mHC(流形约束超连接)这一新架构,旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保持其带来的显著性能增益。论文署名显示共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)与Huanqi Cao;DeepSeek创始人兼CEO梁文锋亦列入作者名单,体现团队在大模型结构与训练稳定性方向的持续投入,相关方法或为后续更大规模训练提供结构层面的改进思路。-