开源AI搜索智能体Harness-1问世:凭借“外部记忆”架构检索力超越GPT-5.4

近日,由伊利诺伊大学厄巴纳-香槟分校(UIUC)、加州大学伯克利分校以及开源AI原生向量数据库平台Chroma联合开展的一项研究,正式揭晓了名为Harness-1的开源搜索智能体。该模型基于OpenAI的gpt-oss-20B开源模型构建,拥有200亿个参数,旨在从根本上重新设计AI执行复杂检索任务的方式。

在信息检索能力的评测中,Harness-1实现了性能的飞跃。在一个精心策划的数据集上,其相关信息召回率的平均得分高达73%,不仅超越了拥有海量参数的闭源巨头GPT-5.4(70.9%),还比目前最强的开源搜索智能体——阿里巴巴的通义DeepResearch 30B高出11.4个百分点。值得注意的是,尽管GPT-5.5已发布一个月,但由于开发周期原因,研究团队并未将其纳入对比范围。目前,Harness-1及其运行环境已在Hugging Face上开源,并采用极具商业友好性的Apache 2.0许可协议。

本次研究的关键突破在于解决了AI智能体在处理长路径复杂搜索时经常出现的“搜索失忆症”问题。传统的搜索智能体通常将所有搜索记录、阅读内容和思考过程全部堆叠在上下文窗口(Context Window)中,导致模型在处理数千份企业文档或金融报表时,容易忘记初始查询目标或陷入死循环。这种依靠“暴力扩容”上下文窗口的方法不仅成本极高,且认知负载过重。

为了打破这一瓶颈,Harness-1引入了一种“状态外部化约束”(State-Externalizing Harness)架构。研究团队将其比作给AI提供了一张“办公桌”和一套“文件柜”:模型不再需要在脑中死记硬背所有引用和死胡同,而是将候选文档池、带有重要性标签的证据集、证据链接以及验证记录等“簿记”工作卸载到外部的结构化软件环境中。在这种设计下,AI模型仅负责决策(决定搜索什么、保留什么、何时停止),而环境负责维护状态。这种将语义选择与结构化状态管理分离的范式,证明了AI自律性的瓶颈不在于模型参数规模,而在于运行环境的效率。

在训练方法上,Harness-1展现了极高的数据效率。研究团队并未依赖海量数据,而是采用了极其精简的管线:首先通过GPT-5.4作为“教师”生成了899条过滤后的监督微调(SFT)轨迹,教会模型如何操作结构化接口;随后利用CISPO算法进行强化学习(RL),通过特定的奖励函数将“发现相关文档”与“成功筛选入最终答案集”区分开,并加入“工具多样性”奖励以防止模型陷入简单的查询循环。整个模型仅用了约4,400个独特样本完成训练,远低于同类开源模型(如Search-R1需22万个样本)的训练量。

对于企业级应用而言,Harness-1提供了极高的实用价值。它能够以极低的成本和延迟执行多步研究任务,且不会因为上下文窗口的膨胀而导致Token成本指数级增长。在实际运行中,Harness-1充当了一个高级检索模块(Agentic RAG),它可以花费最多40个回合深入调查复杂查询,最终将精炼后的证据包移交给一个“冻结”的前沿模型(如GPT-5.4或Opus-4.6)生成最终答案。这种“检索智能体+生成模型”的解耦架构,显著提升了复杂任务下的回答准确率。

此次发布在开发者社区引发了强烈共鸣。领衔研究员Patrick Jiang在X平台上指出,以往我们要求AI在脑中完成所有“文书工作”,而Harness-1的成功证明,为模型构建一个更智能的认知框架,比盲目追求参数规模或上下文长度要有效得多。

来源: ventureBeat report

类似文章

发表回复