最新标签话题

Magic NewsRoom - AI-Powered News Aggregation

DeepSeek更新R1模型论文扩展至86页

Notable

国内 · 科技

DeepSeek更新R1模型论文扩展至86页

人工智能推理

大语言模型

+2

近日，DeepSeek将其关于R1模型的论文从约20页扩展至86页，并补充了方法细节与结果展示。论文强调，大语言模型的推理能力可在不依赖监督微调的情况下，通过纯粹强化学习进行训练；在数学、编程竞赛及STEM等可验证任务上，训练出的模型取得较好表现。文中同时给出训练效率信息，称DeepSeek-R1-Zero训练仅耗时约198小时，意在说明该路线在效果与训练成本上具备竞争力。

No more articles