热讯看点

新智元报道

编辑：LRST

【新智元导读】斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP，在长上下文任务中全面超越了现有的主流框架ReAct，性能提升显著。ReCAP通过独特的递归树结构和三大机制，解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。在多项基准测试中，ReCAP均取得了大幅领先的成绩，展现出强大的通用性和稳定性。尽管计算成本略有增加，但其在关键任务中的表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架提出以来，AI智能体推理领域便进入了百家争鸣的时代，各种复杂架构如雨后春笋般涌现。

然而，这些架构大多昙花一现，因其复杂的结构导致在更换评测基准时需要大幅修改示例，表现远不如ReAct稳定泛用，这也使得ReAct在过去三年中，成为了该领域事实上的主流与标杆。

但是，我们真的不能再做得更好了吗？

面对大模型在长上下文任务中走几步就忘的短期记忆顽疾，业界是否只能止步于此？

来自斯坦福大学与MIT的研究团队给出了肯定答案，正式发布的AI Agent推理新框架——ReCAP（递归上下文感知推理与规划），从真正意义上统一了序列推理和层级推理，在多种任务中全面战胜了ReAct，且继承了ReAct示例简单、高通用性，和即插即用的优势。

论文链接：https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1（一次通过）的评测原则下，ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%（同步）和112.5%（异步）的巨大性能提升。

长上下文任务的三大「死穴」

团队指出，当今大语言模型在执行复杂任务时普遍有三种问题：

目标漂移（Goal Drift）：执行几步后就逐渐忽略了原本的目标，使得执行结果与期望不符。
上下文断层（Context Loss）：高层的规划信息在长序列执行中丢失，导致高层思考与低层执行不协调。
成本爆炸（Prompt Explosion）：每次递归都重新铺开上下文示例和提示词，推理成本指数增长。

简单说，LLM就像一个短期记忆型天才，而主流推理框架各有局限：

序列推理（例如Chain of Thoughts，ReAct）虽然上下文连贯，但常常因为任务太长导致目标漂移；
层级推理（例如ADaPT，THREAD）将任务分解为子任务来明确目标，但给子任务单独分配上下文示例和提示词，导致上下文断层和成本爆炸。

ReCAP

让序列推理和层级推理有机结合

ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区，其三大机制环环相扣：

计划前瞻分解（Recursive Task Decomposition with Plan-Ahead）：模型首先生成一个完整的子任务列表，但只执行第一个子任务，完成后再动态优化后续计划。
结构化父任务再注入（Consistent Multi-level Context and Structured Injection）：整个执行流程只有一个上下文，由所有任务共享。每次子任务递归返回时，父任务会将自身的思考和计划再次注入上下文，使父任务在重新计划时可以参考上次的思维和执行结果，规划出能真正达成任务目标的底层操作。
滑动窗口记忆（Sliding Window and Scalable Memory Efficiency）：通过滑动窗口机制，在统一上下文中只保留最新关键历史，实现了内存占用可控的深度递归，从根本上杜绝了成本爆炸。

实验结果

长上下文任务性能大幅跃升

团队在多个典型长上下文推理基准上验证了ReCAP的效果。结果令人瞩目：

在Robotouille（同步）上取得70%成功率，较ReAct（38%）提升84.2%
在Robotouille（异步）上取得53%成功率，较ReAct（24%）提升112.5%
在ALFWorld上取得91%成功率，稳定优于ReAct（84%）
在SWE-bench Verified取得44.8%的成功率，优于ReAct基线（39.58%）

值得注意的是，团队在实验中始终秉持pass@1的实验原则，即不使用样本层面的重试、多数投票或者束搜索。这意味着ReCAP能在真实多步环境中，更好地保持目标一致性与执行连贯性——不仅「想得对」，还能「做得稳」。

ReCAP是除ReAct之外，又一个能够在具身推理、以及代码编辑这两种截然不同的任务上都取得稳健表现的通用推理架构。

论文中排除了THREAD、Reflexion等其他基线，因其在实验设置中难以稳定复现或与 pass@1 协议不兼容，这进一步凸显了ReCAP作为新一代通用推理基线的潜力。

优势与成本的权衡

任何强大的能力都伴随着成本。团队对此进行了透明分析：ReCAP的总计算成本约为ReAct的三倍。这主要来自于其核心的计划前瞻分解机制所额外需要的LLM调用。

然而，考虑到其在关键任务上带来的性能巨幅提升与目标一致性，这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。

递归，是通往通用智能的钥匙？

从人类思维到图灵机，递归始终是智能的底层逻辑。ReCAP的提出，可视为AI迈向通用推理系统的关键一步。

其潜力远不止于论文所验证的任务范畴。任何依赖复杂决策回路与长期上下文记忆的大型任务，都是ReCAP的理想应用场景。

例如在深度研究中自主遍历文献、整合多源信息并生成洞察报告；或在复杂软件工程中管理庞大代码库与依赖关系，推进需多步验证的系统项目。

长远来看，ReCAP的递归规划能力可以与空间智能相结合，解决更为复杂的现实世界问题。李飞飞教授近日指出，空间智能——即理解、推理并与三维世界交互的能力，是AI的下一个前沿。

ReCAP可以为具身智能机器人规划复杂的长期任务序列，而空间智能模型则负责处理实时感知与动作控制，二者结合实现机器人在动态环境中的自主规划与可靠执行。

随着代码的开源，一个更擅长长期规划、稳健执行的AI时代或许即将到来。

作者介绍

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均为斯坦福大学工程学院计算机系硕士研究生

Alex Pentland教授，麻省理工学院媒体实验室创始人之一，美国国家工程院院士，Toshiba Professor at MIT，斯坦福大学 HAI Fellow。

Jiaxin Pei博士，斯坦福大学博士后研究员，研究兴趣集中在大语言模型、人机交互、Agentic AI，即将前往得克萨斯大学奥斯汀分校任教。

参考资料：

https://arxiv.org/pdf/2510.23822

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

全面战胜ReAct！斯坦福全新智能体推理框架，性能提升112.5%

《浪姐7》4...

马克龙不加入...

铜师傅的资本...

享界S9同款...

A股突发！刚...

法国宣布推出...

联合国官员：加沙教育系统状况是灾难性的

这不是危言耸听：最快明年，比亚迪的插混和纯电，就没有区别了

比亚迪仰望 U8 豪华版推送 OTA 升级，支持“近距代客泊车”功能

XREAL启用上海浦东全球总部，明年推出首款Android XR系统AR眼镜

应聘者被骂「吃的不如狗」？格力回应；市占率存疑？影石回应市占率下滑及大疆价格战；零跑汽车辟谣将被一汽集团收购：消息不实丨雷峰早报

外媒：向乌提供“幻影”战机马克龙自有小算盘

包贝尔新片上映就爆了！没想到真敢拍！事实证明：它的尺度真不小

比亚迪10月销售441706辆新能源累计销售超1420万辆

CES 2026见：摩托罗拉有望推出Razr品牌首款大折叠手机

再一次分别，刘军帅告别李霄鹏：感谢这一生遇到最好的教练

亏损超2亿？《用武之地》票房崩塌，我感慨：这块金字招牌算砸了

王一博被指脱发长疮身体状况堪忧已经400多天没进组

美称对“占领”委内瑞拉保留选择权

拜登通告全球＂特朗普让国家蒙羞＂罕见措辞引全球关注

精读季报丨好气！姜诚管理规模掉到115亿元，相较巅峰缩水1/4

李昊：五年、十年后的未来，我希望代表中国队站在世界杯赛场

Altman放话：2028年，超级智能将超越人类

东风奕派2026款纳米01、2026款eπ008五座版上市

官方：克雷马斯基当选美国2025年度最佳青年球员

充满争议仍获放行：密歇根州批准为甲骨文与OpenAI超级数据中心供电

从造豪车到百万亿美元公司，追觅俞浩：怕我们膨胀，但我们稳得很

企业只让新能源车进厂卸货国六货车在门口换电动车头

理想汽车11月交付33,181辆累计交付1,495,969辆

银行批量直售房产价格从几万元到几亿元不等