关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2025-10-25 00:00:0196人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。



该方法创新性地将智能体协作推理与强化学习融为一体,提出流中强化学习机制,让智能体系统在推理流中协同演化,形成「动态共振」效应。使其在长期规划能力、工具调用效率和动态推理深度上实现大幅提升,并在搜索、数学、科学及智能体任务等多个领域展现优秀的泛化能力。



  • 项目主页:https://agentflow.stanford.edu/
  • 论文链接:https://huggingface.co/papers/2510.05592
  • 开源代码:https://github.com/lupantech/AgentFlow
  • 开源模型:https://huggingface.co/AgentFlow
  • 在线 Demo:https://huggingface.co/spaces/AgentFlow/agentflow
  • YouTube 视频:https://www.youtube.com/watch?v=kIQbCQIH1SI



该工作目前不仅在X 上收获了超高的关注度,同时荣登Huggingface Paper 日榜第二名!



https://x.com/lupantech/status/1976016000345919803



https://huggingface.co/papers/date/2025-10-08

研究动机:

从「单兵作战」到「团队协作」

目前,让语言模型学会使用工具进行复杂任务推理主要有两种思路:一种是训练一个「全能型」模型,让它既要思考又要调用工具,所有操作都在一个完整的上下文中交织进行;另一种是采用「智能体系统」,将任务分解给多个专门化的智能体模块协同完成。



第一种方法在简单场景中表现良好,但在面对长链推理、多样化工具调用以及动态环境反馈时,训练过程往往不稳定,难以实现良好的可扩展性。第二种方法虽然具备更高的灵活性,但多数系统依赖人工设计的提示词与逻辑,缺乏从经验中自我学习与优化的能力。

这使得研究团队思考:能否让智能体系统也具备「边做边学」的能力,使其能够在交互中不断进化?

AgentFlow:

在流中学习的智能体系统

为了解决以上挑战,研究团队提出了AgentFlow—— 一个可训练的、工具集成的智能体系统,旨在突破现有方法在可扩展性与泛化能力上的限制。AgentFlow 采用了模块化的智能体结构,由四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现「即时学习」:

  • 规划器(Action Planner):分析任务、制定策略并选择最合适的工具
  • 执行器(Tool Executor):调用工具集并整合工具执行结果
  • 验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束
  • 生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议

AgentFlow 的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的「流」(flow)中实时进行 on-policy 优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。通过这一机制,各模块在推理流中协同演化,使整个智能体系统在复杂环境下实现自适应推理(adaptive reasoning)与鲁棒工具调用(robust tool-calling)



Flow-GRPO:

流中强化学习优化算法

实现智能体流中强化学习训练的核心挑战在于多轮信用分配(multi-turn credit assignment):即如何在长时跨度(long-horizon)奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)的多轮推理优化目标:



通过将轨迹最终结果的成功或失败信号(outcome reward)广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。



实验结果:

AgentFlow 全面基准测试

为了充分评估 AgentFlow 的泛化能力与高效性,研究团队在 10 个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 以 Qwen-2.5-7B-Instruct 为基座模型的 AgentFlow 在各项基准上均超越现有领先方法:

  • 知识检索(Search):提升 +14.9%
  • 智能体推理(Agentic Reasoning):提升 +14.0%
  • 数学推理(Math):提升 +14.5%
  • 科学推理(Science):提升 +4.1%

值得注意的是,AgentFlow 的表现甚至超过了大规模的专有模型,如 GPT-4o(~200B)。





实验发现:

小模型的「大智慧」

研究团队在 10 个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 一些有趣的发现:

  • 模型规模不是唯一答案

使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o,Llama3.1-405B,在搜索任务上领先 8.2%,在智能体任务上领先 15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。

  • 「在流中学习」至关重要

对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低 19%。这表明,智能体在真实交互环境「流」中进行在线学习是实现高效推理的必要条件。此外,尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。

这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。





  • 自主发现新的解决路径

有意思的是,经过 Flow-GRPO 的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。



  • 动态推理深度与性能提升

对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow 在经过 Flow-GRPO 训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。



结语

AgentFlow 为智能体训练提供了一种全新的思路:与其追求一个功能完备的单一大语言模型或「一次性完美」的智能体系统,不如让智能体在系统中自我适应与持续学习。通过将群体智能与「边做边学」的范式相结合,AgentFlow 使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际应用仍有较长的距离,但这样的工作让我们看到:Agentic AI 依然蕴藏着巨大的潜力与想象空间。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

买插混车盯紧这个数!明年可能多花上万元

中新经纬 浏览 78 10-13

特朗普为美军袭击委内瑞拉附近海域“贩毒船”辩护

环球网资讯 浏览 39 10-17

6月新势力销量:你别说,带“油箱”真好卖

汽车公社 浏览 2409 07-03

向太儿子向佑近照流出 威胁父母“不给钱我就去借”

鲁中晨报 浏览 31 10-16

下周,A股还能不能修复?分析来了

每经牛眼 浏览 41 10-19

咪蒙短剧《八零后妈》火爆,合作发行方每月收入超4亿元,曾折戟创业板

红星资本局 浏览 2451 04-25

斯基拉:丹尼斯-曼已和帕尔马续约至2027年

懂球帝 浏览 2388 07-09

夏天穿衣显瘦的秘诀,在这里|好物

LinkFashion 浏览 2518 07-09

有望明年初亮相 小米YU9假想图曝光

车质网 浏览 16 10-24

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 32 10-17

人到中年穿搭不必浮夸 注意这三个优雅细节

Yuki时尚酱 浏览 2469 01-08

看来看去还是这些穿搭舒适!深浅互补、多穿阔腿裤,简约自然

静儿时尚达人 浏览 31 10-14

陈伟霆无预警官宣结婚生子,与何穗相恋6年终圆满,众星发声祝福

扒虾侃娱 浏览 27 10-18

小鹏MONA M03 7月3日首发 15万元紧凑级

网易汽车 浏览 2377 07-03

中航大学:AI聊天机器人的"假身份证"攻击如何骗过智能助手

科技行者 浏览 79 10-22

售价或超60万元 LEVC L380将于今晚正式上市

网易汽车 浏览 2469 06-25

坚持自己底线的新一代哈弗H6 能否重拾过去?

汽车公社 浏览 2455 06-25

清华REMA框架:透视AI推理错误根源

科技行者 浏览 85 10-22

追觅进军衣物护理市场,推出首款产品 P7 蒸汽挂烫机

IT之家 浏览 29 10-29

刚刚!利好突袭,直线爆拉!

中国基金报 浏览 29 10-29

国内首张大型无人直升机特殊适航证诞生,华奕航空HY600完成评定

IT之家 浏览 17352 07-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2