Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文大模型训练学术论文模型架构+2元旦当天,DeepSeek在arXiv发布新论文,提出mHC(流形约束超连接)新架构,目标是在大规模模型训练中缓解传统超连接带来的不稳定性,同时保持其性能增益。论文第一作者为解振达,作者还包括韦毅轩、曹焕奇等,DeepSeek创始人兼CEO梁文锋亦在署名中。该研究被视为对大模型架构与训练稳定性优化的探索。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文DeepSeek人工智能大模型训练+22026年元旦,人工智能公司DeepSeek发布新论文,提出名为mHC(流形约束超连接)的新架构。论文称该设计旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保留超连接带来的性能增益,以提升训练过程的可靠性与可扩展性。作者名单包括第一作者解振达、韦毅轩、曹焕奇,DeepSeek创始人兼CEO梁文锋亦在列。该论文被视为其在大模型训练架构方向的新进展,可能为相关研究与工程实践提供新的思路与参考。-
Notable国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文人工智能推理大模型训练学术论文+2DeepSeek于元旦发布一篇新论文,提出名为mHC(流形约束超连接)的新架构,目标是在大规模模型训练场景中缓解传统超连接带来的训练不稳定问题,同时尽量保持其显著的性能增益。论文披露共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao,DeepSeek创始人兼CEO梁文锋亦出现在作者名单中。该论文被视为公司在模型架构与训练稳定性方向的最新研究进展。-