Back to Feed
总结
今日凌晨,DeepSeek 开源全新架构模块“Engram”并发布技术论文,署名作者包括梁文锋。该模块在 Transformer 中引入可扩展的查找式“条件记忆”结构,以现代化哈希 N-Gram 嵌入实现 O(1) 级别的查表检索,通常放置在模型早期层承担模式重建,从而缓解主流大模型在查表记忆与复杂推理计算上的结构性低效。27B 参数实验显示,在等参数、等算力条件下模型多任务表现显著提升。讨论认为 Engram 或可降低早期层静态记忆重建需求与 GPU 存储压力,并被推测为 DeepSeek 下一代 V4 的核心技术基础。
正文
今日凌晨,DeepSeek 开源全新架构模块「Engram」并发布技术论文,署名作者有梁文锋。Engram 引入可扩展的查找式记忆结构,为大模型提供新的稀疏性维度。当前主流大模型处理「查表式」记忆和复杂推理计算任务时存在结构性低效,Engram 基于现代化哈希 N-Gram 嵌入实现 O (1) 查找式记忆,检索成本稳定,提供「条件记忆」,通常置于模型早期层承担「模式重建」职责。27B 参数规模实验显示,等参数、等算力条件下,模型在多任务上显著提升。相关讨论认为其减少模型早期层对静态模式的重建需求,部分开发者指出该架构使大规模静态记忆脱离 GPU 存储限制、推理开销低。多位观察者推测 Engram 可能成为 DeepSeek 下一代模型「V4」的核心技术基础。
发布时间: