Routine国内 · 科技DeepSeek发布条件记忆论文DeepSeek大模型条件记忆+21月12日晚,DeepSeek发布与北京大学合作的新论文《基于条件查找的条件记忆》,提出在稀疏大模型中引入“条件记忆”作为新的稀疏性维度,并用Engram模块在MoE动态计算与静态知识检索间做更优分工与资源配比。论文认为Transformer缺乏原生知识查找机制会造成算力浪费,并给出U型缩放规律,显示混合稀疏分配优于纯MoE;且在通用推理、代码、数学上收益更明显。业内据此猜测其为DeepSeek V4技术路线之一,但发布时间与性能说法尚未获官方回应。-