Routine国内 · 科技DeepSeek发布条件记忆论文DeepSeek大模型条件记忆+21月12日晚,DeepSeek发布与北京大学合作的新论文《基于条件查找的条件记忆》,提出在稀疏大模型中引入“条件记忆”作为新的稀疏性维度,并用Engram模块在MoE动态计算与静态知识检索间做更优分工与资源配比。论文认为Transformer缺乏原生知识查找机制会造成算力浪费,并给出U型缩放规律,显示混合稀疏分配优于纯MoE;且在通用推理、代码、数学上收益更明显。业内据此猜测其为DeepSeek V4技术路线之一,但发布时间与性能说法尚未获官方回应。-
Notable国内 · 科技DeepSeek Engram条件记忆论文发布Engram模块人工智能推理条件记忆+2DeepSeek团队在梁文锋等署名论文中提出为Transformer加入“条件记忆”范式,并给出Engram模块实现:通过N-gram哈希查表以O(1)速度检索静态实体与短语,并用上下文门控缓解冲突与歧义。实验在固定计算量下,将稀疏参数在MoE专家与记忆间重新分配,显示约20%—25%预算分给记忆时效果最优;在27B规模上,知识与推理/代码数学等任务较同规模纯MoE均有提升,且表征显示“有效深度”增加。工程实现支持推理时将百亿级记忆表卸载到CPU并异步预取,吞吐额外开销约3%,论文将其视为下一代稀疏模型关键原语。-