最新标签话题

Magic NewsRoom - AI-Powered News Aggregation

DeepSeek Engram条件记忆论文发布

Notable

国内 · 科技

DeepSeek Engram条件记忆论文发布

人工智能推理

大模型架构

+2

今日凌晨，DeepSeek 开源全新架构模块“Engram”并发布技术论文，署名作者包括梁文锋。该模块在 Transformer 中引入可扩展的查找式“条件记忆”结构，以现代化哈希 N-Gram 嵌入实现 O(1) 级别的查表检索，通常放置在模型早期层承担模式重建，从而缓解主流大模型在查表记忆与复杂推理计算上的结构性低效。27B 参数实验显示，在等参数、等算力条件下模型多任务表现显著提升。讨论认为 Engram 或可降低早期层静态记忆重建需求与 GPU 存储压力，并被推测为 DeepSeek 下一代 V4 的核心技术基础。

Notable

国内 · 科技

DeepSeek Engram条件记忆论文发布

人工智能推理

+2

DeepSeek团队在梁文锋等署名论文中提出为Transformer加入“条件记忆”范式，并给出Engram模块实现：通过N-gram哈希查表以O(1)速度检索静态实体与短语，并用上下文门控缓解冲突与歧义。实验在固定计算量下，将稀疏参数在MoE专家与记忆间重新分配，显示约20%—25%预算分给记忆时效果最优；在27B规模上，知识与推理/代码数学等任务较同规模纯MoE均有提升，且表征显示“有效深度”增加。工程实现支持推理时将百亿级记忆表卸载到CPU并异步预取，吞吐额外开销约3%，论文将其视为下一代稀疏模型关键原语。

No more articles