跳到正文
Back to Feed

总结

1月15日,Appleinsider报道称苹果发表研究论文,推出名为DeepMMSearch-R1的多模态模型,面向复杂视觉场景的事实检索与问答,旨在减少AI“幻觉”。该模型引入视觉定位工具,必要时主动裁剪图像以排除干扰、锁定微小目标,再进行针对性网络搜索验证,从而避免“漏看”或答非所问。训练上结合监督微调与在线强化学习,控制裁剪调用频率以节省算力。测试显示其在精确图文对应与常识事实检索上优于RAG流程及提示词搜索智能体。

正文

IT之家 1 月 15 日消息,科技媒体 Appleinsider 今天(1 月 15 日)发布博文,报道称苹果发表重磅研究论文,详细介绍名为 DeepMMSearch-R1 的 AI 模型, 重点优化 AI 在复杂视觉场景下的搜索逻辑,用"裁剪"治愈 AI 幻觉。 针对现有 AI 模型在处理复杂视觉信息时常出现的"答非所问"或"漏看"问题,苹果推出了 DeepMMSearch-R1 模型。传统模型在面对"图中左上角那只鸟的最高时速是多少"这类复合问题时,往往因无法聚焦局部细节而给出错误的平均数据。 DeepMMSearch-R1 引入了独特的"视觉定位工具(Grounding Tool)", 能够主动裁剪图片以剔除干扰信息,先精准识别微小目标,再进行针对性的网络搜索验证,从而确保答案的事实准确性。 为确保模型仅在必要时才启用裁剪功能以节省算力,研究人员采用了"监督微调(SFT)+ 在线强化学习(RL)"的组合训练法。SFT 负责教会模型"不乱剪",而 RL 则提升了工具调用的效率。 测试数据显示,该模型在处理需精准图文对应的问题上,表现显著优于目前的 RAG(检索增强生成)工作流及基于提示词的搜索智能体,成功解决了 AI 在常识性事实检索中的"偷懒"现象。 IT之家附上参考地址 DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
发布时间: