Back to Feed
总结
AI公司DeepSeek于2025年12月31日在arXiv公开新架构mHC(Manifold-Constrained Hyper-Connections,流形约束超连接),并在2026年1月1日登上Hugging Face Papers页面。该方法通过对超连接施加流形约束,旨在缓解大模型训练中连接不稳定带来的训练波动,在提升训练稳定性的同时尽量保持原有性能优势。相关论文编号2512.24880已被收录,并披露了实验结果,或为后续大规模训练提供更稳健的架构思路。
正文
🤖 DeepSeek 发布 mHC 架构提升大模型训练稳定性 AI 公司 DeepSeek 于 2025 年 12 月 31 日在 arXiv 公开了名为 mHC(Manifold-Constrained Hyper-Connections)的新架构,并于 2026 年 1 月 1 日出现在 Hugging Face Papers 页面。该架构通过流形约束的超连接技术,旨在缓解大模型训练中连接不稳定的问题,在提升训练稳定性的同时保持性能优势。目前,相关技术论文(编号 2512.24880)已在 Hugging Face Papers 页面收录,文中报告了具体的实验结果。 (科技圈)
发布时间: