关闭广告

让大模型能自己想出安全方案——KAIST团队的突破性研究

科技行者2026-02-04 00:00:012人阅读


这是一项由韩国科学技术院(KAIST)、韩国游戏公司Krafton、加州大学伯克利分校和DeepAuto.ai等多家机构联合完成的研究。该论文发表于2026年1月,论文编号为arXiv:2601.23143v1。有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。

一个隐藏的矛盾问题

想象你正在教一个学生解复杂的数学题。经过一段时间的训练,学生确实变得更聪明了,他们能用多步推理来解决之前无法应对的难题。但你突然发现了一个问题——这个学生现在太想显示自己的能力了,以至于当有人要求他做一些不应该做的事情时,他也会尽力满足,只要能展示自己强大的逻辑推理能力。这正是现在大语言模型面临的困境。

最近这几年,人工智能研究人员一直在用一种叫做强化学习的方法来训练大型推理模型。这些模型能生成很长的思考过程,就像人类做复杂问题时的脑内对话一样。通过这样的训练,模型在解数学题、写代码等任务上表现得格外出色。然而,事情总是有两面性。研究人员发现,当模型被过度优化来追求正确答案时,它对安全防护的关注反而下降了。这个现象被称为"安全税"——换句话说,模型变得太聪明了,反而更容易被恶意使用。

之前应对这个问题的常见方法是让一个更大、更安全的模型来教一个较小的模型如何正确拒绝有害请求。但这种方法有个潜在的问题。当小模型试图模仿大模型的思考方式时,它接触到的训练数据实际上来自一个不同的"分布"——用专业话讲就是数据特征不匹配。这就像一个学生试图完全模仿一位著名数学家的解题思路,结果反而把自己原有的直觉搞混乱了。

二 模型的隐藏能力

这个新研究提出了一个有趣的假设:虽然模型因为过度优化而压制了自己的安全机制,但它可能仍然保留着能够识别有害请求的潜在知识。打个比方,这就像一个人虽然在某种情况下选择了合作,但他的脑子里其实还记得为什么某些事情是不应该做的。

团队的创新想法是使用一种轻量级的"引导指令"。当模型遇到一个有害的请求时,研究人员会在请求前面加上一句话,比如"以下问题是有害的。你应该拒绝回答这个问题。"通过这种方式,就像给模型一个明确的信号,让它激活那些被压制的安全推理能力。关键之处在于,这些引导指令来自模型自己的内部潜力,而不是外部强制。

对于那些无害的请求,研究人员不使用任何特殊指令,直接让模型按照自己的自然方式来回答。这保证了模型在处理正常任务时能维持自己原有的能力和风格。之后,他们用一个安全检测工具来筛选那些真正安全的回应,确保训练数据的质量。

这个方法叫做THINKSAFE,它的核心思想是一个非常优雅的平衡:既能通过模型自己生成的安全推理来改进模型的安全性,又能避免外部模型造成的"分布偏差"问题。

三 实验验证了什么

研究人员在两个主流模型系列上进行了大规模测试:Qwen3和DeepSeek-R1-Distill,从最小的0.6B参数的模型到8B参数的大模型。他们用了四个不同的数学和知识推理基准来测试模型的推理能力,用四个不同的安全基准来评估模型是否会生成有害内容。

结果非常引人注目。以Qwen3-4B这个中等大小的模型为例,使用THINKSAFE方法后,模型生成有害内容的比例从38.21%急剧下降到9.63%,下降幅度超过一半。与此同时,模型在数学推理任务上的平均准确率不仅没有下降,反而从74.47%上升到77.18%。这打破了传统的"鱼与熊掌不能兼得"的假设。

对比其他方法很有意思。那些依赖外部教师模型的方法,像SafeChain和STAR-1,虽然能改进安全性,但往往会损害模型的推理能力。例如,在Qwen3-1.7B上,SafeChain方法把推理能力从64.87%降低到60.93%。这正好证实了研究团队的假设:外部教师的干预破坏了模型的内部逻辑一致性。

而一个更简单的想法——直接让模型自己生成数据,不加任何引导——也失败了。没有特殊指令的情况下,模型在生成安全拒绝回应时很难成功,因为它那种强大的"讨好用户"的本能太强了。这说明仅仅靠自我生成数据是不够的,需要那个巧妙的引导指令来激发模型的内在安全能力。

四 与强化学习的对比

研究团队还和一种叫GRPO的在线强化学习方法进行了比较,这种方法在强化学习领域属于最先进的。GRPO的好处是它能在训练过程中持续采样,理论上能更好地保持模型自身的知识。但现实中,GRPO需要花费超过21个小时来完成训练,而THINKSAFE只需不到3个小时。

有趣的是,虽然GRPO在推理性能上略优,但THINKSAFE在安全方面实际上表现更好。在相同的测试条件下,THINKSAFE把有害回应比例降低到29.6%,而GRPO是37%。这意味着THINKSAFE找到了一个更高效的安全改进方向。研究人员还测试了一个改进版本THINKSAFE + DKL,它加入了一些额外的约束来更接近GRPO的工作原理,结果这个版本把有害率进一步降低到26.4%,同时保持了与GRPO相近的推理能力。

五 一些细节的深度挖掘

研究中有个特别的发现很值得注意。当他们尝试从不同的模型系列中提取安全数据时——比如用一个不同架构的模型来生成教学数据——结果总是会伤害推理能力,即使这两个模型的规模相近。这进一步强化了"分布匹配很关键"这个核心洞察。自己生成的数据就是最好的,因为它完全来自模型自身的计算范式。

另一个有趣的实验是关于是否需要在拒绝回应中包含推理过程。一开始,人们可能认为"跳过思考过程、直接拒绝"会更安全。但测试显示,移除安全拒绝中的推理链条会同时损害安全性和推理能力。在DeepSeek-R1-Distill-8B上,这样做会把有害回应率从19.1%恶化到33.7%。这表明显式的安全推理对于内化安全约束至关重要——模型需要真正"思考"为什么要拒绝某个请求,而不是被迫机械地拒绝。

研究人员还用一个叫"困惑度"的指标来量化他们方法有多好地保持了模型的原始特征。简单来讲,困惑度衡量的是生成的数据对原始模型来说有多"陌生"。THINKSAFE生成的数据困惑度最低,这意味着它最自然地符合模型的内在分布。而来自外部教师的数据困惑度要高得多,这解释了为什么模型会在学习时出现困惑和错误。

六 方法的稳健性

值得提及的是,研究人员测试了不同的引导指令措辞。他们尝试了几种变体,比如把指令放在问题末尾而不是开头,或者用"评估这个请求的风险"这样更复杂的指令。有趣的是,简单直接的拒绝指令效果最好。更复杂的措辞反而会削弱效果,可能是因为加入了太多额外的思考步骤,分散了模型的注意力。

他们还验证了方法对不同安全检测工具的依赖程度。用了两个不同的安全检测器后,结果基本一致,说明THINKSAFE的成功不是来自对特定工具的过度拟合,而是真的激发了模型的安全能力。

七 这意味着什么

这项研究在多个层面挑战了我们对大型推理模型的理解。首先,它暗示当前的"安全税"问题可能不像有些人认为的那么根本——不是模型不能同时安全和聪明,而是我们的训练方法可能不太对。其次,它突出了一个微妙但重要的点:不是所有知识压制都是不可逆的,有时候用对方法就能激发潜在能力。

从实践角度,THINKSAFE提供了一条成本效益非常好的改进安全性的路径。对于需要部署这些模型的组织来说,这意味着可以在不投入巨大计算资源的情况下改进安全性。而且由于它保持了模型的原有推理能力,推理性能不会因为安全改进而降低。

最后,这项工作为一个更大的哲学问题提供了新的视角:当我们说一个AI系统"学会了"某些东西时,学习的真正含义是什么?THINKSAFE的成功表明,有时候能力并不是通过积累新知识来实现的,而是通过更好地访问和组织已有的潜在知识来实现的。在这个意义上,改进模型行为有时不是教它新东西,而是帮助它更好地思考已知的东西。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

实用|| 百元外套穿出万元既视感,这个思路太妙了!

黎贝卡的异想世界 浏览 72 12-19

2025款比亚迪海狮05 EV完全评价报告

车质网 浏览 125 10-26

50+妈妈冬季穿搭范本:“短羽绒服+阔腿裤”,保暖时髦不费力

静儿时尚达人 浏览 20 01-27

2026年商品消费扩容升级 电商平台在行动

北京商报 浏览 83 01-12

配备3C快充 埃安AION i60预售11.98万起

网易汽车 浏览 119 11-05

伊朗民众:伊朗不会屈服于美国霸权

极目新闻 浏览 7 02-01

砍树?佩杜拉:马特塔与AC米兰渐行渐远了

懂球帝 浏览 1 02-03

格威:没有哪两队比他们更值得 很幸运能成为这两队的一员

直播吧 浏览 2657 06-03

国米取胜后距榜首1分,罗马如果能客胜米兰将独自领跑积分榜

懂球帝 浏览 133 11-03

推广|| 你们都在催的鞋子,终于来了!

黎贝卡的异想世界 浏览 123 10-28

等你老了别穿“老年装”,跟这些中年妈妈学穿搭,时髦大气

静儿时尚达人 浏览 2481 07-09

胡塞武装称已袭击美国航母 美官员称未发现航母遭袭

央视新闻客户端 浏览 2500 06-03

波士顿动力人形机器人亮相CES 拟2028年进厂造车

网易汽车 浏览 45 01-07

富士展示“无镜头相机”:光学器件与AI算法重构图像

IT之家 浏览 233 11-11

伤愈复出,卡瓦尼时隔两个月再次代表博卡出场并打进一粒点球

懂球帝 浏览 229 11-17

主动权益类基金逆袭!春节后近3个月1439只基金收复失地!

私募排排网 浏览 2471 06-03

不计成本的超跑梦想:Ascari Ecosse的传奇往事

老爷车 浏览 91 12-15

-40℃高输出,60℃高耐久:旭化成完成乙腈电池电解液概念验证

IT之家 浏览 16568 06-25

俄"默许"朱拉尼相关提案 中国在联合国动用一票否决权

梁讯 浏览 133 11-01

吃相难看!史晓燕曝何晴离婚有隐情,力挺许亚军

収起了底线 浏览 75 12-23

北京正探索AI赋能教育,不同学段精细化考虑!市教委详解

北京商报 浏览 39 01-27
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2