热讯看点

这项由上海交通大学、上海人工智能实验室、中国科学技术大学和复旦大学联合开展的研究发表于2025年10月，论文编号为arXiv:2510.01982v1。研究团队开发了一套名为G?RPO的全新技术框架，专门用于让AI绘画模型更好地理解和满足人类的审美偏好。

要理解这项研究的意义，我们可以把AI绘画过程想象成一个学习画画的学生。传统方法就像给学生一张完整的作品后说"画得好"或"画得不好"，但学生并不知道具体哪一笔画得好，哪一笔需要改进。这种模糊的反馈让学习过程变得缓慢而低效。

研究团队发现了现有AI绘画训练方法的两个关键问题。第一个问题是"奖励信号稀疏"，就好比一位厨师做菜时，只有等整道菜完成后才能品尝，无法在烹饪过程中及时调整火候和调料。第二个问题是"评估不够全面"，类似于只从一个角度评判一幅画作，而忽视了从不同距离、不同光线下观看的效果。

针对这些挑战，研究团队提出了创新的"颗粒化GRPO"解决方案。这套方案包含两个核心技术：单步随机采样策略和多粒度优势集成模块。

单步随机采样策略的工作原理就像给绘画过程装上了"定点导航系统"。传统方法在整个绘画过程中都会随机添加变化，就像在每个路口都可能随机转向，最终很难判断哪个转向决策导致了最终的结果。而新方法只在特定的一个关键步骤引入随机性，其他步骤都按照确定路径进行。这样一来，最终结果的好坏就能明确归因于那个关键步骤的决策，从而提供精准的学习信号。

多粒度优势集成模块则像是给作品安装了"多倍镜检查系统"。当评估一个绘画方向的优劣时，传统方法只看最终完成的作品，就像只看建筑的外观。而新方法会在不同的完成阶段都进行评估——有时看半成品，有时看粗稿，有时看精细版本，然后综合所有这些不同"分辨率"下的评估结果。这种多角度评估让AI能够更全面地理解什么样的绘画方向真正符合人类偏好。

研究团队在实验中使用了Flux.1-dev这一业界领先的流模型作为基础，并在包含103,700个训练提示和400个测试提示的HPSv2数据集上进行验证。实验涵盖了多个维度的评估指标，包括语义对齐度、视觉连贯性、美学质量和整体图像品质等。

实验结果显示，G?RPO在各项指标上都取得了显著改进。在核心的HPS-v2.1评估指标上，新方法相比现有的DanceGRPO基线方法实现了6.52%的相对提升。更重要的是，这种改进不仅体现在训练时使用的评估标准上，在其他独立的评估标准上也表现出色，证明了方法的泛化能力。

为了验证技术的稳健性，研究团队还测试了在不同推理步数下的表现。无论是50步、20步还是10步的快速生成模式，G?RPO都保持了一致的性能优势。这意味着这项技术不仅在高质量慢速生成场景下有效，在需要快速响应的实际应用中同样表现出色。

从视觉效果对比来看，使用G?RPO生成的图像在细节保真度和文本提示遵循性方面都有明显改善。比如在生成"国际象棋棋子表情"的复杂场景时，新方法能够准确捕捉到提示中描述的微妙表情差异。在生成"环保海报"等需要精确布局的图像时，新方法也能更好地理解和实现左右分割的空间要求。

这项研究的技术创新还体现在训练效率的提升上。由于单步随机采样策略中的多个样本可以共享同一个起始点的计算结果，整个训练过程变得更加高效。这就像批量生产时可以共用某些生产线设备，降低了整体成本。

研究团队特别关注了"模型偏好操纵"这一AI训练中的常见问题。传统方法容易让AI学会"投其所好"——专门迎合某个特定评估标准的偏好，但在其他标准下表现糟糕。G?RPO通过多粒度评估有效缓解了这个问题，让AI学到的是更加通用和真实的人类审美偏好。

从应用前景来看，这项技术的影响将是深远的。对于内容创作者而言，更精准的AI绘画助手能够更好地理解创作意图，减少反复调整的时间成本。对于普通用户来说，AI绘画工具将变得更加智能和贴心，能够生成更符合个人喜好的作品。

技术的可扩展性也值得关注。研究显示，多粒度优势集成的思路可以轻松适配不同数量的评估层次。实验表明，使用一层、两层或三层不同粒度的评估都能带来性能提升，为实际部署时的计算资源配置提供了灵活性。

说到底，这项研究解决的是AI如何更好地理解人类偏好这一根本问题。通过提供更精准、更全面的学习信号，G?RPO让AI绘画模型能够像一个真正用心的学生一样，从每一次练习中获得有价值的指导，不断改进自己的技能。这不仅是技术上的进步，更是AI与人类协作方式的优化，为未来更多AI应用的人性化发展提供了有价值的参考路径。

Q&A

Q1：G?RPO技术是什么？它解决了AI绘画的什么问题？

A：G?RPO是上海交大团队开发的AI绘画优化技术，主要解决两个问题：一是传统方法只能在整个绘画完成后给出好坏评价，无法精确指导每个绘画步骤的改进；二是评估维度单一，无法全面判断绘画质量。新技术就像给AI安装了"定点导航"和"多倍镜检查"系统，让学习过程更精准高效。

Q2：这项技术相比现有方法有什么具体改进？

A：G?RPO在核心评估指标上实现了6.52%的性能提升，而且这种改进不仅体现在训练标准上，在其他独立评估标准上也表现出色。更重要的是，技术在不同速度的生成模式下都保持稳定性能，生成的图像在细节保真度和文本遵循性方面都有明显改善。

Q3：普通用户什么时候能用上这项技术？会对AI绘画应用产生什么影响？

A：虽然论文没有明确商业化时间表，但技术已在业界主流的Flux.1-dev模型上验证有效。对普通用户而言，这意味着未来的AI绘画工具将更智能，能更准确理解用户需求，生成更符合个人喜好的作品，同时减少反复调整的时间成本。

上海交大突破：AI精准学习人类审美偏好

山东通报3亿...

阳光电源：从...

激烈攻防暴露...

萧蔷原来这么...

史上最大IP...

黄慧颐手撕保...

“半固态”出局！中国制定全球首个固态电池国标

特朗普与泽连斯基再会面详情公开见面就夸后者时尚

中国小伙赴越南＂赚快钱＂失联疑遭拐卖刺伤司机后被捕

今年流行“洋葱式”穿法，这样穿高级又好看！

资负统筹，多元发展，中国人寿前三季度新业务价值强劲增长41.8%

西芒杜铁矿石准备装船，榨取中国钢企利益的时代该结束了

向佐表示父母不该公开说向佑:为什么不私下解决

王牌4年3冠！威尔逊单年包揽MVP+DPOY+FMVP全满贯

腾讯元宝接入微信支付

许绍雄葬礼设公祭时段，开放公众致意，曝他去年查出肾脏有肿瘤

抖音发布2025直播治理白皮书，违规曝光量减少37%

空间升级/后排配腿托豹8大五座版上市售37.98万起

蒙特利尔大学团队发现让AI＂分段思考＂的惊人秘密

盛阅春当选武汉市市长曾在杭州工作多年

保姆机器人来做饭！全国人大代表、海尔集团董事局主席周云杰：机器人会成为新的家电

小米智能门锁 2 人脸识别版开启预售，首发 1899 元

霸总真的是魏哲鸣的统治领域

媒体:马杜罗大难临头仍相信＂不至于＂但美却赶尽杀绝

1.2亿辆车被召回，超半数源于监管调查，车企自查缺陷就这么难？

夏天的衣服没必要太多，会这样搭配就足够了，简约时髦显气质

《堡垒之夜》放弃日本iOS，Epic硬刚苹果指控违法

＂斩首＂行动细节揭秘：美以战机同地起飞直扑哈梅内伊

视频：解放军远程火力实弹射击全部命中

76岁“欢喜哥”许绍雄病危，tvb多名艺人紧急探望，众人神情严肃