热讯看点

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

论文标题：What Can RL Bring to VLA Generalization? An Empirical Study
项目网站和代码：https://rlvla.github.io/
论文地址：https://arxiv.org/abs/2505.19789

为了解决 VLA 模型泛化能力有限的问题，研究团队构建了一个涵盖多种视觉、语义和执行挑战的全新评测基准，并系统性地对比了强化学习（RL）和传统有监督微调（SFT）在提升模型泛化性上的表现。通过大量实验发现：采用 PPO 等强化学习算法微调 VLA，不仅显著提升了模型在语义理解和任务执行上的鲁棒性，还能在视觉变化场景下保持与 SFT 相当的表现。同时提出了一套简单高效的 PPO 训练方案，使得强化学习在 VLA 领域的应用更加实用和高效。

具身基础模型：开源 OpenVLA 大模型

研究团队采用了目前 SoTA 之一的开源 OpenVLA 模型为基础进行研究。OpenVLA 从 Llama2-7b 微调而来，在每一个时间步，接收一张 RGB 图像和一条指令（即历史长度 H=1），并输出一系列离散的动作 token 控制机械臂行动。

问题 1：何种 RL 方法更好？

研究团队测试了三种在大语言模型领域广受认可的强化学习算法，包括 RLHF 中常用的 PPO（近端策略优化）和 DPO（直接偏好优化），以及在数学等推理任务中展现出色的 GRPO（组相对策略优化）。

实验结果令人意外：在机器人控制这一多步决策任务中，经典的 PPO 算法展现出了显著优势，而专为语言模型设计的 DPO 和 GRPO 却难以高效学习。研究团队分析认为，这源于机器人任务的部分可观测马尔可夫决策过程（POMDP）特性 —— 每个动作都会改变环境状态，这种非平稳性可能破坏了 GRPO 的优势估计稳定性。而 DPO 面临的挑战则在于稀疏奖励结构难以区分轨迹质量，以及离线数据与在线执行之间存在显著的分布偏移。

问题 2：如何实现高效的 PPO 训练？

为了让 PPO 在 VLA 模型上高效运行，研究团队提出了三个关键创新。

1. 共享 Actor-Critic 架构设计：让 Actor 和 Critic 共享同一个主干网络，仅在最后添加一个轻量级的 MLP 作为价值头。这一设计将显存占用减少了 45%，训练速度提升 35%，还保持了相当的性能表现。

2. VLA 模型预热策略：使用 140 条高质量轨迹对模型进行预热，此步骤让后续的强化学习收敛速度提升 50%，大幅减少了所需的环境交互次数。

3. 最小化 PPO 训练轮次：传统 PPO 通常会对每批数据进行多轮梯度更新，但研究发现在 VLA 场景下，将 PPO 训练轮次（epoch）设为 1 就已足够 —— 更多的更新轮次不仅无法提升性能，反而会增加训练时间。通过这一优化，整个训练过程在单张 A100 GPU 上仅需 42 小时即可收敛。

问题 3：SFT 和 RL 的对比

为了公平比较，研究团队首先探究了 SFT 的数据规模上限。研究团队使用动作规划器（Motion Planner）采集了不同规模的 SFT 数据集，实验显示，当演示轨迹数量达到 16,000 条（约 126 万个状态 - 动作对）时，无论是训练分布内、还是分布外新物体 / 桌面的 SFT 性能都趋于饱和。

然而对于 RL，虽然收敛时训练分布内任务性能与 SFT 相当，但是在分布外任务上却取得了 42.6% 的性能提升，这展现出 RL 具有更强的泛化性。

为了深入剖析泛化性差异，研究团队基于 ManiSkill 仿真器构建了一个全面的评测基准，从视觉（如动态纹理、新桌面）、语义（如未见物体、指令变体）和执行（如物体位置变化、机器人初始姿态）三个维度系统地对泛化能力进行拆解。

实验结果清晰地展现了 RL 的优势：RL 在语义理解任务上表现出明显优势，特别是在处理未见物体的抓取任务时；在执行鲁棒性方面更是大幅领先，无论是物体位置变化、机器人初始姿态偏移，还是任务执行中途的物体移位，RL 都展现出了显著更强的适应能力；而在视觉泛化上，两种方法表现相当。

通过对具体案例的可视化分析，研究团队发现了更深层的差异。在强噪声干扰下，SFT 策略会在抓取物体后反复掉落，而 RL 策略能够稳定完成任务。面对未见物体时，SFT 容易陷入重复尝试抓取已持有物体的死循环，RL 则能正确判断并完成放置。最引人注目的是执行轨迹分布的差异：RL 探索了更广阔的工作空间和更丰富的末端执行器姿态，而 SFT 的轨迹则紧密聚集在演示数据的运动规划路径周围。这种更广泛的覆盖或许解释了 RL 在执行任务上具有的优越泛化能力。

这项研究不仅为 VLA 模型的训练提供了新的方向，更重要的是证明了强化学习在构建真正通用的具身智能体中的核心价值。随着机器人应用场景日益复杂多变，这种能够通过试错学习、自主适应新环境的能力将变得愈发重要。

团队致力于研究强化学习在 VLA 中的运用，开源了首个面向具身智能的 “渲训推一体化” 大规模强化学习框架 RLinf（https://github.com/RLinf/RLinf），更多大规模的实验结果参见网站。

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

曼联阻止青训...

赵心童：要学...

Lisa陪男...

在红海被胡塞...

全年终端销量...

对标帕美腾...

阿雅的女儿都这么大了？长相黝黑像混血，在西雅图和王伟忠合影

全球造船业变革：亚洲崛起，美国地位下滑

夏天，建议五六十岁女人少穿这3种“大妈装”，显老俗气、很廉价

宁王大涨有巧合？大摩席位先加仓，看多报告随后出分析人士：下游需求或超预期

这次，换歪果仁特种兵一下！

大S带具俊晔新年露面，夫妻同框恩爱十足，大S瘦了很多

表现不俗！小皮蓬14投8中&罚球7中4 贡献21分5助3断

媒体:台湾＂立法院长＂争夺战将打响柯文哲今天亮底牌

宗馥莉，没有娃哈哈

美洲杯最新赔率：阿根廷居首，巴西、乌拉圭分列二三

司乘天平上的滴滴

电动皮卡只巡展不上市，怪中国法规？完全是特斯拉自己的锅

中年女人要想穿出女神范，选择时尚单品时，注重展现气质美

合规上路的“老爷车” Cyan发布P1800 GT复刻版

马尔基尼奥斯：没拿下哥斯达黎加让情况变复杂，踢巴拉圭一定会赢

白宫:拜登明白允许乌军使用美国武器打击俄领土的后果

香港法院作历史性判决许家印家族信托＂防火墙＂被击穿

用这几件单品，轻松get秋日氛围！

买插混车盯紧这个数！明年可能多花上万元

号称可减少 70% 浪费，SK On 联合 Sakuu 开发 3D 打印汽车电池

十年7.5个版本的钉钉：命运反复折腾，现在承载阿里AI驱动的厚望

辛巴：辛选超级年货节正式开启，2023实现GMV超500亿元

加量不加价阿维塔11鸿蒙版智享升级版30万起

真正优雅的50、60岁女人，不留黑长直，更不扮嫩，这样太美了