Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文大模型训练学术论文模型架构+2元旦当天,DeepSeek在arXiv发布新论文,提出mHC(流形约束超连接)新架构,目标是在大规模模型训练中缓解传统超连接带来的不稳定性,同时保持其性能增益。论文第一作者为解振达,作者还包括韦毅轩、曹焕奇等,DeepSeek创始人兼CEO梁文锋亦在署名中。该研究被视为对大模型架构与训练稳定性优化的探索。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+21月1日,DeepSeek在北京时间当天下午发布新论文,提出名为mHC(流形约束超连接)的新架构,旨在缓解传统超连接在大规模模型训练中因连接多样化削弱恒等映射属性而导致的训练不稳定与可扩展性受限,并降低内存访问开销。论文称通过将残差连接空间投影到特定流形以恢复恒等映射属性,并结合基础设施优化提升效率;实验结果显示mHC在大规模训练中带来性能改进与更好的扩展性。论文第一作者包括解振达、韦毅轩、曹焕琪,DeepSeek创始人兼CEO梁文锋亦在作者名单中,论文已在Hugging Face与Arxiv公开。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文DeepSeek人工智能大模型训练+22026年元旦,人工智能公司DeepSeek发布新论文,提出名为mHC(流形约束超连接)的新架构。论文称该设计旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保留超连接带来的性能增益,以提升训练过程的可靠性与可扩展性。作者名单包括第一作者解振达、韦毅轩、曹焕奇,DeepSeek创始人兼CEO梁文锋亦在列。该论文被视为其在大模型训练架构方向的新进展,可能为相关研究与工程实践提供新的思路与参考。-
Notable国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+2DeepSeek于元旦发布一篇新论文,提出名为mHC(流形约束超连接)的新架构,目标是在大规模模型训练场景中缓解传统超连接带来的训练不稳定问题,同时尽量保持其显著的性能增益。论文披露共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao,DeepSeek创始人兼CEO梁文锋亦出现在作者名单中。该论文被视为公司在模型架构与训练稳定性方向的最新研究进展。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练深度求索+2DeepSeek在元旦发布新论文,提出mHC(流形约束超连接)这一新架构,旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保持其带来的显著性能增益。论文署名显示共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)与Huanqi Cao;DeepSeek创始人兼CEO梁文锋亦列入作者名单,体现团队在大模型结构与训练稳定性方向的持续投入,相关方法或为后续更大规模训练提供结构层面的改进思路。-