Back to Feed
总结
元旦当天,DeepSeek在arXiv发布新论文,提出mHC(流形约束超连接)新架构,目标是在大规模模型训练中缓解传统超连接带来的不稳定性,同时保持其性能增益。论文第一作者为解振达,作者还包括韦毅轩、曹焕奇等,DeepSeek创始人兼CEO梁文锋亦在署名中。该研究被视为对大模型架构与训练稳定性优化的探索。
正文
DeepSeek 元旦发布新论文 开启架构新篇章 元旦,DeepSeek 发布新论文,提出名为 mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题并保持性能增益。论文第一作者有解振达、韦毅轩、曹焕奇,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。 来源: arxiv / 格隆汇
发布时间: