Back to Feed
总结
DeepSeek在元旦发布新论文,提出mHC(流形约束超连接)这一新架构,旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保持其带来的显著性能增益。论文署名显示共有三位第一作者:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)与Huanqi Cao;DeepSeek创始人兼CEO梁文锋亦列入作者名单,体现团队在大模型结构与训练稳定性方向的持续投入,相关方法或为后续更大规模训练提供结构层面的改进思路。
正文
DeepSeek 在元旦发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。
发布时间: