关闭广告

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

新智元2025-12-05 12:00:0122人阅读


新智元报道

编辑:LRST

【新智元导读】在「大模型+机器人」的浪潮中,让机器人「听懂人话」已经不难,真正难的是——既要听得懂,还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考(Chain-of-Thought)」真正搬进了四足机器人,在VLN导航仿真和真实Unitree Go2实验中,对标GPT-4o、NaVILA等强基线,在成功率和路径效率上实现全线提升,向「既会想、又会走」的具身智能迈出关键一步。

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上,两大老问题依然突出:

  • 语义和控制断层模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;

  • 决策黑盒,难以纠错大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管。

简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。


论文链接:https://arxiv.org/pdf/2511.17889

项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/


MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT,把一条任务轨迹拆成

  • 「去哪、做什么」的高层目标,

  • 「从哪绕、先避什么」的中层规划,

  • 以及「当前是加速、转向还是减速等待」的低层意图;

Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令,驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。


MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加,下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」。

第一步:监督阶段(SFT)

先把「内心独白」造出来。

如下左图所示,研究人员构建了多粒度的MobileVLA-CoT 数据引擎

  • 既有面向单步控制的Step-CoT,也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT

  • 输入同时包含RGB–Depth视觉、导航轨迹和指令文本,再交给Gemini-2.5生成结构化的 … … 链式推理;

  • 通过半自动校验,确保每一步「想法」都和动作、轨迹对得上。

在这一阶段,模型通过监督微调学会像人一样分步思考、拆解任务,也就是先学会「说得对」。


MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt,借助Gemini-2.5生成多粒度链式推理标注。

第二步:强化阶段(GRPO 风格)

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线

  • 对同一条指令,策略模型一次性生成多条 CoT + 动作方案;设计了三类奖励:

  • Movement Reward:速度、转向等连续控制是否接近专家轨迹;

  • Action Reward:离散动作选择是否正确;

  • Format Reward:是否严格遵守 / 结构,保证推理可解析;

  • 综合奖励和KL约束,只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励,MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量,真正把「大模型式慢思考」压进了四足机器人的行走行为中。


MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案,结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上,MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路:

VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上,在「未见环境」下的成功率(SR)、路径效率(SPL)均显著高于现有导航模型和 VLA 基线;


在四足控制基准QUARD六大任务上,MobileVLA-R1将平均成功率提升至0.73,在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定;


在真实平台Unitree Go2上,研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上,结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知,在室外街道、室内走廊等典型场景中执行长时语言指令(如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」),对比GPT-4o、NaVILA,在简单与复杂长指令下都取得更高完成率和更低导航误差。


下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1:室内 demo

MobileVLA-R1根据指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真实室内走廊中完成多模态感知(RGB/ Depth / 3D 点云)–链式推理–连续控制的完整闭环:自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2:室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作,结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示,MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中,一边「内心独白式」规划路径,一边稳定完成导航与避障。


MobileVLA-R1在Unitree Go2上的真实部署示意。左:机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程;右:在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA,MobileVLA-R1的意义不只在于多了几分成功率,而是在于构建了一个更具「工程可用性」的范式:

  • 可解释:每个动作前都有清晰的CoT,方便线上排查和安全审计;

  • 可优化:可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈;

  • 可扩展:天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合,走向更大尺度的具身智能系统。


结语

从一条走廊,到更大的世界

当我们看着一只四足机器人,在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物,听懂「帮我把快递送到前台,再自己回充电桩」这样的指令,并稳稳完成任务时,

我们看到的不只是单个模型的性能提升,而是具身智能的一次范式升级

MobileVLA-R1告诉我们:

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链,机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料:

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

缅甸突袭KK园区后引发"招聘潮" 有人被7万美元"转卖"

红星新闻 浏览 45 11-06

大陆优化M503航线 给台湾多年的"面子"这次不给了

观察者网 浏览 2505 02-02

思特威推出国产 50MP 手机图像传感器 SC5000CS

IT之家 浏览 16157 02-02

宋仲基时隔一年再当爸,妻子凯蒂被证实怀二胎,宝宝性别引热议

扒虾侃娱 浏览 2506 07-09

业主私挖300平地下室 同楼住户:家里没一面墙是完整的

新民周刊 浏览 77 10-15

拜登在国情咨文演讲中宣布"大计划" 招致多方嘲讽

环球时报新闻 浏览 2544 05-09

北交所新股认购火爆创纪录,本周有三新股可申购

澎湃新闻 浏览 2607 01-08

镜报:阿联酋财团准备收购曼联股份,小贝或任此次收购代言人

懂球帝 浏览 78 10-20

戏全被配角抢走!《大生意人》朱亚文向涵之出场,陈晓前10集白干

温柔娱公子 浏览 0 12-05

追梦:当勇士保持健康,我认为没有哪支球队是我们无法击败的

懂球帝 浏览 79 10-13

燕翔:A股上市公司增减持特征与近况

首席经济学家论坛 浏览 83 10-20

赣州队1-0宜春队,总比分3-0夺得赣超冠军,卢欣头球破门

懂球帝 浏览 54 11-03

今年最强阵容的大片,杀疯了

独立鱼 浏览 28 11-25

马斯克:特斯拉将消灭任何空头 盖茨也不例外;“爱奇艺限制投屏案”一审判补原告会员时长|AI daily早新闻

科创板日报 浏览 2422 07-03

《狂野时代》外网爆口碑!西方观众惊叹,中国连电影都遥遥领先

娱乐圈笔娱君 浏览 24 11-25

俄外长:俄罗斯不会就乌克兰问题与任何一方私下谈判

环球网资讯 浏览 2515 06-25

欧文:篮球是团队运动 今天我们的所有球员团结一致

直播吧 浏览 2623 01-08

55岁港星宣萱自曝:放弃结婚,29岁最后一晚哭一天,黄金时代过去

温柔娱公子 浏览 63 10-31

连衣裙+运动鞋,今秋最美穿法!舒适又时髦!

Yuki女人故事 浏览 97 10-22

TA:维拉已与卡什就续约达成原则性协议,将续约至2029年

懂球帝 浏览 84 10-22

奥特曼零食之父,要去IPO了

投资家 浏览 66 10-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2