Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文大模型训练学术论文模型架构+2元旦当天,DeepSeek在arXiv发布新论文,提出mHC(流形约束超连接)新架构,目标是在大规模模型训练中缓解传统超连接带来的不稳定性,同时保持其性能增益。论文第一作者为解振达,作者还包括韦毅轩、曹焕奇等,DeepSeek创始人兼CEO梁文锋亦在署名中。该研究被视为对大模型架构与训练稳定性优化的探索。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练深度求索+2DeepSeek在元旦发布新论文,提出mHC(流形约束超连接)这一新架构,旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保持其带来的显著性能增益。论文署名显示共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)与Huanqi Cao;DeepSeek创始人兼CEO梁文锋亦列入作者名单,体现团队在大模型结构与训练稳定性方向的持续投入,相关方法或为后续更大规模训练提供结构层面的改进思路。-