Notable国内 · 科技DeepSeek更新R1模型论文扩展至86页人工智能推理大语言模型强化学习+2近日,DeepSeek将其关于R1模型的论文从约20页扩展至86页,并补充了方法细节与结果展示。论文强调,大语言模型的推理能力可在不依赖监督微调的情况下,通过纯粹强化学习进行训练;在数学、编程竞赛及STEM等可验证任务上,训练出的模型取得较好表现。文中同时给出训练效率信息,称DeepSeek-R1-Zero训练仅耗时约198小时,意在说明该路线在效果与训练成本上具备竞争力。-
Notable两岸三地 · 科技智谱港股上市首日交易IPO基础模型强化学习+21月8日,智谱在港交所上市当天,清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信,表示公司将很快推出新一代模型GLM-5,并要求团队全面回归基础模型研究。内部信同时明确了2026年三项技术聚焦:全新的模型架构设计、更通用的强化学习(RL)范式,以及对模型持续学习与自主进化的探索,均围绕提升基础模型能力展开。相关表态释放出公司在上市后将把资源更多投向底层能力升级的信号,但具体发布时间与技术细节尚未披露。-