Routine国内 · 科技MiniMax开源OctoCodingBench编程智能体指令遵循基准人工智能推理开源许可指令遵循基准+2AI大模型公司MiniMax开源编程智能体指令遵循基准OctoCodingBench,用于评估智能体在代码仓库场景下对脚手架感知指令的规则遵循能力。MiniMax指出现有基准多强调任务完成度,易忽略系统级约束与项目编码规范等规则执行。该基准覆盖7种异构指令来源,强调区分“完成任务”与“遵守规则”、多源约束并存等特性。首批发布含72个精选实例并提供打包好的公开Docker镜像,便于直接拉取复现实验,数据集已在Hugging Face公开。-