Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文arXiv大模型训练模型架构+2AI公司DeepSeek于2025年12月31日在arXiv公开新架构mHC(Manifold-Constrained Hyper-Connections,流形约束超连接),并在2026年1月1日登上Hugging Face Papers页面。该方法通过对超连接施加流形约束,旨在缓解大模型训练中连接不稳定带来的训练波动,在提升训练稳定性的同时尽量保持原有性能优势。相关论文编号2512.24880已被收录,并披露了实验结果,或为后续大规模训练提供更稳健的架构思路。-
Routine国内 · 科技DeepSeek发布mHC(流形约束超连接)架构论文大模型训练模型架构流形约束+2DeepSeek于2025年12月31日在arXiv公开mHC(流形约束超连接)架构论文,并于2026年1月1日登上Hugging Face Papers。该方法以流形约束强化大模型训练中的超连接,目标是在保持性能增益的同时提升训练稳定性、缓解大规模训练中连接不稳定问题。论文已被相关页面收录,并报告了实验结果,显示稳定性有所改善,后续效果仍待更多复现与应用验证。-