Back to Feed
总结
2026年元旦,人工智能公司DeepSeek发布新论文,提出名为mHC(流形约束超连接)的新架构。论文称该设计旨在缓解传统超连接在大规模模型训练中易出现的不稳定问题,同时尽量保留超连接带来的性能增益,以提升训练过程的可靠性与可扩展性。作者名单包括第一作者解振达、韦毅轩、曹焕奇,DeepSeek创始人兼CEO梁文锋亦在列。该论文被视为其在大模型训练架构方向的新进展,可能为相关研究与工程实践提供新的思路与参考。
正文
元旦,DeepSeek 发布新论文,提出名为 mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题并保持性能增益。论文第一作者有解振达、韦毅轩、曹焕奇,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。
发布时间: