跳到正文
Back to Feed

总结

谷歌最新研究分析 DeepSeek-R1、QwQ-32B 等推理模型的思维轨迹与隐藏层激活,提出模型在解题时会自发形成带有不同“性格/职能”的虚拟角色并进行内部对话与争辩,类似“左右脑互搏”。研究称在 GPQA 等高难度科学题和复杂数学推导中观点冲突更强,而在布尔表达式等简单任务中对话减少。团队用稀疏自编码器(SAE)将高维激活拆解为“自问自答、切换视角”等语义特征,并据此标注“规划者、验证者”等角色;放大“哦”等对话标记可将 Countdown 任务准确率由27.1%提升到54.8%。强化学习只奖励答对也会促使模型自发学会对话式思考,对话微调后再训推理提升更快,并与“社会脑假说”相呼应。

正文

AI 变聪明的真相居然是正在"脑内群聊"?! 谷歌最新研究表明,DeepSeek-R1 这类顶尖推理模型在解题时, 内部会自发"分裂"出不同性格的虚拟人格 ,比如外向的、严谨的、多疑的...... 大模型的解题推理过程,就是这些人格一场精彩的社交、辩论会;左右脑互搏 be like: "这个思路对吗?试试这样验证......" "不对,之前的假设忽略了 xx 条件" ...... 有意思的是,AI 还 越吵越聪明 。 研究发现,当遇到 GPQA graduate-level 科学问题、复杂数学推导这类高难度任务时,这种内部观点冲突会变得更加激烈。 相比之下,面对布尔表达式、基础逻辑推理等简单任务,模型的脑内对话会明显减少。 模型推理过程就是"左右脑互搏" 团队通过分析 DeepSeek-R1 和 QwQ-32B 等模型的思维轨迹发现,它们的推理过程充满了对话感。 内部分裂出来的虚拟角色不仅性格迥异,还能覆盖更多解题角度。 创意型角色擅长提出新颖思路,批判型角色专注挑错补漏,执行型角色负责落地验证...... 通过这些人格的一场交流,不同观点的碰撞能让模型更全面地审视解决方案。 就连网友都说,自己在思考的时候,也会"左右脑互搏"。 不过,这种多角色互动并不是开发人员刻意设计的,而是模型在追求推理准确率的过程中自发形成的。 那么实验是如何证明这一点的呢? 团队借助稀疏自编码器 SAE,对 AI 的推理黑盒进行了深度解码,成功"监听"到了 AI 的脑内群聊。 首先,研究者让 AI 执行复杂的数学或逻辑推理任务。在模型产出思维链的同时,团队同步提取其隐藏层神经元的激活数值。 但此时的数据是由数亿个参数构成的复杂非线性信号,无法直接对应任何语义。 将这些激活数据输入 SAE,通过 SAE 的稀疏约束机制,就可以把杂乱的激活拆解为"自问自答"、"切换视角"等独立的对话语义特征; 通过分析这些特征的激活频率以及它们在时间序列上的协同关系,团队成功识别出了不同的内部逻辑实体。 再给上述特征打上"规划者"、"验证者"等虚拟角色的标签,就成功解码了 AI 内部的多角色对话行为。 "哦!"能让推理更准确 通过对比 DeepSeek-R1 与 DeepSeek-V3、Qwen-2.5-32B-IT 这类普通指令模型的推理轨迹,发现 推理模型的对话式行为出现的频率显著更高 。 这里还有个很有意思的发现 -- "哦!"能让推理更准确 。 当团队通过激活添加法强化模型的对话特征,放大"哦!"这类表达惊讶、转折的话语标记时,模型在 Countdown 算术推理任务中的准确率直接从 27.1% 翻倍至 54.8%。 更关键的实验证据来自强化学习训练。 研究人员不提供任何对话结构的训练信号,只奖励模型答对题目的行为,结果发现模型会自发学会用对话式思考; 而先通过多智能体对话数据对模型进行微调,再进行推理训练,进步速度会远快于直接训练推理或用独白式推理数据微调的模型。 在 Qwen-2.5-3B 和 Llama-3.2-3B 两个模型体系中,早期训练阶段对话微调模型的准确率比独白微调模型高出 10% 以上,Llama-3.2-3B 到训练后期差距甚至扩大到 22%。 这一发现恰好呼应了人类演化生物学中的著名理论 社会脑假说 。 假说认为人类大脑的进化主要是为了应对复杂的社交关系和群体互动需求。 如今看来,AI 也是一样,为了变聪明,得先会和不同"人格"社交! 论文地址: https://arxiv.org/abs/2601.10825
发布时间: