Back to Feed
总结
DeepSeek于2025年12月31日在arXiv公开mHC(流形约束超连接)架构论文,并于2026年1月1日登上Hugging Face Papers。该方法以流形约束强化大模型训练中的超连接,目标是在保持性能增益的同时提升训练稳定性、缓解大规模训练中连接不稳定问题。论文已被相关页面收录,并报告了实验结果,显示稳定性有所改善,后续效果仍待更多复现与应用验证。
正文
DeepSeek 发布 mHC 架构,提升大模型训练稳定性 AI 公司 DeepSeek 于 2025 年 12 月 31 日在 arXiv 公开了名为 mHC(Manifold-Constrained Hyper-Connections)的新架构,并于 2026 年 1 月 1 日出现在 Hugging Face Papers 页面。该架构旨在使大模型训练过程中的超连接更加稳定,同时保持其性能优势。 相关技术论文已在 Hugging Face Papers 页面收录。mHC 架构通过流形约束的超连接技术,旨在缓解大规模模型训练中连接稳定性的不稳定问题,并在论文中报告相关实验结果。 Adina Yakup | Hugging Face 🍀 在花频道 🍵 茶馆聊天 📮 投稿
发布时间: