Back to Feed
总结
报道称,已离职的AI科学家杨立昆(Yann LeCun)公开指责Meta旗下Llama4在基准测试“刷榜”,称团队为获得更好成绩在不同基准上使用了不同模型,并对结果做过一定程度篡改;前FAIR成员田渊栋也在总结中提到被临时拉去“救火”后遭边缘化的经历。文章将矛盾归因于DeepSeek带来的竞争压力与扎克伯格对GenAI加速落地的强推,导致团队沟通破裂、人员更迭与裁撤。两人随后均表示将选择创业,杨立昆拟以AMI推进开源世界模型路线。
正文
离职的 LeCun(IT之家注:杨立昆),反手就给 Meta 一记重锤:差评如潮的 Llama4 真的作弊刷榜了! 结果的确被篡改了一点。 为了更好的结果,团队 对不同基准测试使用了不同的模型 。 都说别惹离职 er,不止 LeCun,田渊栋也在个人年终总结中透露了一点内幕。 明明是被拉来给 Llama4 救火的,事先预想了四种可能,结果小扎给了我第五种...... (扶额苦笑.jpg) Anyway,至于离职后的打算,两位大神都不约而同地表示: 创业! Llama4 刷榜引发的离职潮 DeepSeek 还是给小扎压力太大。 此前就有消息爆料, DeepSeek 的横空出世,让 Llama 4 还没发布就被甩在身后,逼得小扎疯狂加码 AI 投资。 这一点也得到了 LeCun 的证实。 小扎确实慌了,对内 push 上强度,要求 GenAI 部门加速 AI 开发和部署,还拉来原 FAIR 团队的田渊栋救火。 结果就是,团队之间沟通直接破裂。LeCun 他们想要做些新东西,但小扎更想要已经被验证过的、可以直接落地的技术。 真正的导火索则来自于 Llama 4 的惨败。 不仅输了,还因为排行榜造假名声大跌,于是小扎彻底对团队所有人失去了信心,并将他们全部边缘化。 这也直接导致 Meta 开启了团队大换血: 一边天价从硅谷各个公司挖人,一边又大刀阔斧裁掉老员工们 。 田渊栋及其团队则是被率先波及的一群人。一月份被赶鸭子上架加入 Llama 4,十月份 Llama 4.5 一训完就被卸磨杀驴。这波田渊栋都得喊冤...... 因为上头的压力,全组被迫放下手头正在做的工作,来 Llama 4 接烂摊子,距离发布 ddl 就剩 2 个月,还要处理所有 dirty work。 为此,田渊栋那时还专门画了个 2x2 的回报矩阵,计算了下干这事的 四种结局 : 但老板都发话了,不得不干啊,田渊栋想着那就但求尽力而为,问心无愧吧。 结果哼哧哼哧干了几个月,小扎一个都没选,给了 Plan E:不问责负责人,转头把田渊栋和组员们一脚踢了出去。 难怪田渊栋复盘这段经历时,也要来一句: 这也让我对这社会的复杂性有了更为深刻的认识。 不过好在田渊栋自己也想得开,他说自己已经待在 Meta 十多年了, 最近几年更是抱着"公司快把我开了吧"的心态 ,所以也算是因祸得福吧,还给他接下来的小说创作提供了很多新素材(doge)。 (咳咳)言归正传,这几个月对于田渊栋来说,也不算一无所获,在强化学习训练的核心问题上他也有了些新的探索。 首先是 大模型推理 ,继 2024 年底团队公开的连续隐空间推理(coconut)引发广泛关注后,团队继续通过理论工作 Reasoning by Superposition 进一步阐明了连续隐空间推理的优势所在。 与此同时,也分别从不同角度尝试提升模型推理效率:Token Assorted 通过隐空间的离散 token 减少计算开销、DeepConf 基于置信度提前终止推理、ThreadWeaver 制造并行思维链加速推理,以及在不同规模模型中用 RL 学习推理能力。 在 可解释性 方面,研究聚焦于 Grokking(顿悟)这一特征涌现现象,从记忆到泛化的突变过程入手,试图解释模型究竟学到了什么、和输入数据的关系、能达到怎样的泛化,也就是打开模型的黑箱。 简而言之,对于被拉来"背黑锅"这事,田渊栋对老东家还是手下留情了,虽然你不地道,但我已经 Let it go~ 不过紧随其后离职的 LeCun 就没那么心软了,直接痛批 Meta 内部对 LLM 上瘾过甚,尤其是那些新挖来的超级智能实验室成员。 他点名批评亚历山大王: 年轻且缺乏经验 。 虽然学得快,但压根不懂研究,不知道怎么做、也不知道如何和研究员们共处。 在 LeCun 面前,这个 27 岁的年轻人,简直像个 little baby。 但大语言模型并非他们所想象的那样美好,LeCun 直言,LLM 有用但本质受限于语言,夸张一点说: LLM 是死胡同。 要实现人类水平智能,就必须了解物理世界的运作规律,也就是 LeCun 长期专注的世界模型,但 Meta 对此已经丧失了兴趣。 在研究路线上的分歧,也让 LeCun 不得不离开公司,开启自己人生的下一章 -- 创业 。 离开 Meta 做点啥?创业 LeCun 的新公司名为 Advanced Machine Intelligence(AMI),做的还是他心心念念的世界模型,而且 all in 开源 。 不过据他自己透露,他只会担任新公司的执行主席而不是 CEO。 我是一名科学家,我能激励人们从事工作,以及猜测哪项技术会成功,但我不擅长组织管理,也实在太老了。 LeCun 将拥有和之前在 Meta 相同的研究自由度,而负责带领 AMI 的将交给法国医疗 AI 初创公司 Nabla 的联合创始人兼 CEO Alex LeBrun。 他们将目光聚焦在 V-JEPA 架构 上,试图通过学习视频和空间数据来理解物理世界,让 AI 完成规划、推理并拥有长期记忆,也就是他常说的高级机器智能。 LeCun 预计将在 12 个月内,见证该项技术的初始版本诞生,并在最近几年内实现大规模进展,虽然它显然还远远称不上超级智能,但至少在通往 AGI 的道路上,它存在希望。 而作为 LeCun 的老下属,田渊栋也拒绝了大厂们纷纷为他抛来的橄榄枝, 刚刚正式宣布创业! 具体细节暂时未表,但他表示: 乘着自己还年轻,去当一家新初创公司的联合创始人。 不管怎样,先安静地忙活一阵。 参考链接: [1] https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2 [2] https://zhuanlan.zhihu.com/p/1990809161458540818 本文来自微信公众号: 量子位(ID:QbitAI) ,作者:鹭羽,原标题《LeCun 曝 Meta 作弊刷榜,田渊栋:我没想到这个结局》
发布时间: