Notable国内 · 科技DeepSeek更新R1模型论文扩展至86页人工智能推理大语言模型强化学习+2近日,DeepSeek将其关于R1模型的论文从约20页扩展至86页,并补充了方法细节与结果展示。论文强调,大语言模型的推理能力可在不依赖监督微调的情况下,通过纯粹强化学习进行训练;在数学、编程竞赛及STEM等可验证任务上,训练出的模型取得较好表现。文中同时给出训练效率信息,称DeepSeek-R1-Zero训练仅耗时约198小时,意在说明该路线在效果与训练成本上具备竞争力。-