Routine国际 · 科技谷歌研究解码DeepSeek-R1多角色对话推理机制人工智能推理多智能体对话强化学习+2谷歌最新研究分析 DeepSeek-R1、QwQ-32B 等推理模型的思维轨迹与隐藏层激活,提出模型在解题时会自发形成带有不同“性格/职能”的虚拟角色并进行内部对话与争辩,类似“左右脑互搏”。研究称在 GPQA 等高难度科学题和复杂数学推导中观点冲突更强,而在布尔表达式等简单任务中对话减少。团队用稀疏自编码器(SAE)将高维激活拆解为“自问自答、切换视角”等语义特征,并据此标注“规划者、验证者”等角色;放大“哦”等对话标记可将 Countdown 任务准确率由27.1%提升到54.8%。强化学习只奖励答对也会促使模型自发学会对话式思考,对话微调后再训推理提升更快,并与“社会脑假说”相呼应。-