平均而言,论文显示代码行动比 JSON 少 30% 的步骤,这在某种程度上预示着生成的 token 也相应减少。由于大模型调用通常是 Agent 系统的主要成本,这在某种程度上预示着 Agent 系统的运行成本降低了约 30%。
3、这种系统在基准测试中的表现更好,因为大模型在训练时广泛接触了代码数据,这种行动表达方式对它们来说更为直观。
4、更好的状态解决能力:在多模态任务中,若需要存储图像、音频等内容后续使用,只需将其作为变量分配给状态。但在 JSON 中,必须让大模型在字典键中命名它,大模型后续能否理解和使用也还是未知数。
同时,Agent 系统要配备正确的工具集,Hugging Face 的复现团队使用了微软研究院现成的的 Magentic-One Agent,试图用最低的复杂性获得最高的性能。工具集中包含 2 个工具:
1、一个网络浏览器。虽然像 Operator 这样的完整网络浏览器交互要达到全性能,但 Hugging Face 团队目前先使用了一个简单的基于文本的网络浏览器,作为概念验证。
为测试上述系统的性能,Hugging Face 团队使用了 GAIA 这一全面且难度较高的 Agent 测试基准,涉及许多基于大语言模型的挑战。
在 2008 年的画作《乌兹别克斯坦刺绣》中展示的水果,哪些被用作 1949 年 10 月邮轮早餐菜单的一部分,该邮轮后来被用作电影《最后的航行》的浮动道具?请以逗号分隔列出这些水果,按照画作中从 12 点位置开始按顺时针方向排列的水果顺序,使用每个水果的复数形式。
此类问题对 Agent 系统提出了多个挑战:识别水果要使用到多模态能力;搜集信息时需要理解信息间的相互依赖关系;输出回答时需要按照指定的格式。此外,系统还需将问题解决的轨迹按正确顺序串联起来。
解决此问题是需要高级规划能力和严格的执行,这两个领域在使用时单独使用大模型时会遇到很多困难。
在 GAIA 的公共排行榜上,GPT-4 在没有一点 Agent 设置的情况下,连 7% 的验证集分数都达不到。但通过 Deep Research,OpenAI 在验证集上达到了 67.36% 的分数,提升了一个数量级。
在 Hugging Face 24 小时的复现尝试中,代码 Agent 的使用对系统的整体表现提升明显。之前,Magentic-One 是 GIGA 测试中表现最佳的开源系统,Hugging Face 团队将其表现从 46% 提升至 55.15%,这种性能提升主要归功于让 Agent 以代码的形式编写其动作。
当切换到以 JSON 而不是代码编写动作的标准 Agent 时,相同设置的验证集性能会立即下降到 33% 左右。
Hugging Face 团队认为,未来此类系统还可以从三方面做改进:
DeepSeek 凭借其透明、可操作性强的发布与开源模式,成为了全球 AI 模型开源的最佳实践案例之一。