Back to Feed
总结
AI大模型公司MiniMax开源编程智能体指令遵循基准OctoCodingBench,用于评估智能体在代码仓库场景下对脚手架感知指令的规则遵循能力。MiniMax指出现有基准多强调任务完成度,易忽略系统级约束与项目编码规范等规则执行。该基准覆盖7种异构指令来源,强调区分“完成任务”与“遵守规则”、多源约束并存等特性。首批发布含72个精选实例并提供打包好的公开Docker镜像,便于直接拉取复现实验,数据集已在Hugging Face公开。
正文
AI 大模型公司 MiniMax 开源编程智能体指令遵循基准 OctoCodingBench,用于评估代码仓库场景下脚手架感知指令遵循能力。现有基准测试多关注任务完成度,忽略智能体完成任务时是否遵循规则,而在真实编程场景中,智能体需遵守系统级行为约束、项目编码规范等。OctoCodingBench 测试智能体对 7 种异构指令来源的遵循程度,具有区分任务完成与规则遵循、多源异构约束等核心特性。本次发布包含 72 个精选实例,涵盖任务规范、系统提示等内容,所有任务环境打包为公开的 Docker 镜像,可直接拉取查看。详情查看:https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench 。
发布时间: