OpenAI Deep Research“被开源”：24小时成功复现揭秘背后技术细节

时间：2025-02-09 05:40:19 来源：竞博job在线登录

平均而言，论文显示代码行动比 JSON 少 30% 的步骤，这在某种程度上预示着生成的 token 也相应减少。由于大模型调用通常是 Agent 系统的主要成本，这在某种程度上预示着 Agent 系统的运行成本降低了约 30%。

3、这种系统在基准测试中的表现更好，因为大模型在训练时广泛接触了代码数据，这种行动表达方式对它们来说更为直观。

4、更好的状态解决能力：在多模态任务中，若需要存储图像、音频等内容后续使用，只需将其作为变量分配给状态。但在 JSON 中，必须让大模型在字典键中命名它，大模型后续能否理解和使用也还是未知数。

同时，Agent 系统要配备正确的工具集，Hugging Face 的复现团队使用了微软研究院现成的的 Magentic-One Agent，试图用最低的复杂性获得最高的性能。工具集中包含 2 个工具：

1、一个网络浏览器。虽然像 Operator 这样的完整网络浏览器交互要达到全性能，但 Hugging Face 团队目前先使用了一个简单的基于文本的网络浏览器，作为概念验证。

为测试上述系统的性能，Hugging Face 团队使用了 GAIA 这一全面且难度较高的 Agent 测试基准，涉及许多基于大语言模型的挑战。

在 2008 年的画作《乌兹别克斯坦刺绣》中展示的水果，哪些被用作 1949 年 10 月邮轮早餐菜单的一部分，该邮轮后来被用作电影《最后的航行》的浮动道具？请以逗号分隔列出这些水果，按照画作中从 12 点位置开始按顺时针方向排列的水果顺序，使用每个水果的复数形式。

此类问题对 Agent 系统提出了多个挑战：识别水果要使用到多模态能力；搜集信息时需要理解信息间的相互依赖关系；输出回答时需要按照指定的格式。此外，系统还需将问题解决的轨迹按正确顺序串联起来。

解决此问题是需要高级规划能力和严格的执行，这两个领域在使用时单独使用大模型时会遇到很多困难。

在 GAIA 的公共排行榜上，GPT-4 在没有一点 Agent 设置的情况下，连 7% 的验证集分数都达不到。但通过 Deep Research，OpenAI 在验证集上达到了 67.36% 的分数，提升了一个数量级。

在 Hugging Face 24 小时的复现尝试中，代码 Agent 的使用对系统的整体表现提升明显。之前，Magentic-One 是 GIGA 测试中表现最佳的开源系统，Hugging Face 团队将其表现从 46% 提升至 55.15%，这种性能提升主要归功于让 Agent 以代码的形式编写其动作。

当切换到以 JSON 而不是代码编写动作的标准 Agent 时，相同设置的验证集性能会立即下降到 33% 左右。

Hugging Face 团队认为，未来此类系统还可以从三方面做改进：

DeepSeek 凭借其透明、可操作性强的发布与开源模式，成为了全球 AI 模型开源的最佳实践案例之一。

上一篇：楼宇自控智能化监管：赋能医疗机构运营与服务双升级竞博job在线登录

返回下一篇：京津冀社会保证卡居民服务“一卡通”7场景运用人次超4亿

OpenAI Deep Research“被开源”：24小时成功复现揭秘背后技术细节

时间：2025-02-09 05:40:19 来源：竞博job在线登录

关于我们

新闻资讯

产品中心

资质荣誉

联系我们

网站地图