Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文大模型训练学术论文模型架构+2元旦当天,DeepSeek在arXiv发布新论文,提出mHC(流形约束超连接)新架构,目标是在大规模模型训练中缓解传统超连接带来的不稳定性,同时保持其性能增益。论文第一作者为解振达,作者还包括韦毅轩、曹焕奇等,DeepSeek创始人兼CEO梁文锋亦在署名中。该研究被视为对大模型架构与训练稳定性优化的探索。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+21月1日,DeepSeek在北京时间当天下午发布新论文,提出名为mHC(流形约束超连接)的新架构,旨在缓解传统超连接在大规模模型训练中因连接多样化削弱恒等映射属性而导致的训练不稳定与可扩展性受限,并降低内存访问开销。论文称通过将残差连接空间投影到特定流形以恢复恒等映射属性,并结合基础设施优化提升效率;实验结果显示mHC在大规模训练中带来性能改进与更好的扩展性。论文第一作者包括解振达、韦毅轩、曹焕琪,DeepSeek创始人兼CEO梁文锋亦在作者名单中,论文已在Hugging Face与Arxiv公开。-
Notable国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+2DeepSeek于元旦发布一篇新论文,提出名为mHC(流形约束超连接)的新架构,目标是在大规模模型训练场景中缓解传统超连接带来的训练不稳定问题,同时尽量保持其显著的性能增益。论文披露共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao,DeepSeek创始人兼CEO梁文锋亦出现在作者名单中。该论文被视为公司在模型架构与训练稳定性方向的最新研究进展。-