热讯看点

机器之心报道

机器之心编辑部

在过去十年中，AI 的进步主要由两股紧密相关的力量推动：迅速增长的计算预算，以及算法创新。

相比之下，计算量的增长较容易衡量，但我们仍然缺乏对算法进步的清晰量化，究竟哪些变化带来了效率提升，这些提升的幅度有多大，以及它们在不同计算规模下是否依然成立。

2024 年，有研究通过分析数百个语言模型，他们估计在过去十年里，算法进步在所谓的有效计算量（effective compute）方面贡献了超过 4 个数量级的提升；而根据对历史 AI 文献的分析，计算规模本身增长了 7 个数量级。

具体而言，所有算法创新加起来使模型的效率提高了大约 22,000 倍，这意味着在理论上可以用少得多的浮点运算次数（FLOPs）达到相同的性能水平。

然而，我们仍然缺乏对这类进步的精确分解，而关于算法进步来源的许多关键问题仍未得到充分研究。例如：各种算法改进之间是如何相互作用的？算法进步是由一系列小改动累积而成，还是由少数几次重大突破推动的？算法改进是像摩尔定律那样平滑持续地发展，还是呈现间断平衡（即长时间停滞 + 突然大跳跃）的模式？

为回答这些问题，来自 MIT 等机构的研究者采用了三种互补的方法：

对语言模型中的重要算法改进进行消融实验；
开展 scaling 实验，以测量不同架构在最优 scaling 行为上的差异；
对数据与参数 scaling 转换进行理论分析。

论文地址：https://arxiv.org/pdf/2511.21622
论文标题：On the Origin of Algorithmic Progress in AI

最终得到三条结论：

1：经过实验评估的大多数算法创新都只带来了小幅的、与规模无关的效率提升，总体计算效率提升不到 10 倍，并且在推算到 2025 年的计算能力极限（2 × 10²³ FLOPs）时，这些提升仅占总改进的不到 10%。这表明，与规模无关的算法进步在整体效率提升中所占的份额很小

2：本文发现有两项强烈依赖规模（scale-dependent）的算法创新：从 LSTM 到 Transformer，以及从 Kaplan 到 Chinchilla 。当将其外推到 2025 年的计算前沿时，这两项创新合计占据了全部效率提升的 91%。这意味着：对于小规模模型而言，算法进步的幅度比此前认为的要小几个数量级。

3：在规模依赖型创新的情况下，效率提升不仅需要持续的计算投入，而且算法进步的速度还强烈依赖于你选择的参考算法。换句话说，相对于某一个基线算法，连续模型之间的进步率可能看起来是指数级的；但相对于另外一个基线算法，它却可能完全为零。

总体来看，这些发现表明：算法进步可能本质上就是依赖规模的，要真正体现其效益需要不断增长计算规模。同时，这也意味着算法进步对大模型开发者的益处远大于对小规模参与者的益处。

规模不变型算法

本文首先通过大量的消融实验来分析单个算法的影响，从而绘制出算法改进的细粒度图景。此外，本文还尝试估计了多项算法组合后的联合效果。

本文发现：原始论文（即提出某项算法改进的那篇论文）所声称的效率提升，往往远高于后续文献给出的估计，也高于本文的实验结果。

规模不变型算法的效率提升既小且分布高度不均

实验中发现，从 LSTM 切换到 Modern Transformer 的总效率提升为 6.28×，而从 LSTM 切换到 Retro Transformer 的效率提升为 4.69×。这比 Ho 等人（2024）的估计（他们认为 LSTM→Transformer 的提升约 60×）小得多。

虽然本文确实观察到一些改进（例如 Adam 优化器、以及从 post-layernorm 切换到 pre-RMSNorm）带来了大约 2× 的效率提升，但作者测量的大多数创新带来的提升都很小。

有趣的是，他们看到一个高度偏斜的效率提升分布：尽管所有被消融的创新带来的提升都低于 4×，但提升倍数却极不均匀，主要集中在少数几项改进上，例如 Adam 或 pre-layernorm。

从这个角度来看，算法进步比之前想象的更加断裂 / 不连续：多年小幅改进之后，会出现一次较大的算法跃迁。

许多改进的效率提升幅度很小，这也推动本文开展第二部分实验，比较算法变化在不同规模下的影响，从而揭示这些变化对神经网络 scaling laws 的作用。

依赖于规模的算法

前文提到，算法改进在小规模模型上带来的收益非常有限。因此自然会产生一个问题：在大规模下，算法收益会变得更大吗？

因此，本文对不同架构、优化器，以及算法创新进行了 scaling 实验，以更好地理解它们的效率提升如何随计算规模变化。

实验模型主要为 LSTM、Transformer，以及两种 Transformer 变体：Modern Transformer、Retro Transformer。

规模扩展实验：从 LSTM 到 Transformer

图 4A 展示了 LSTM 与现代 Transformer 在 scaling 上的差异，图 4B 展示了现代 Transformer 与 Retro Transformer 的 scaling 差异。

Scaling 图表表明，神经网络架构的改进并不是规模不变的，而是具有随规模增加而回报提升的特性（increasing returns to scale）。

算法进步强烈依赖于算力规模与参考基线

算法进步可能主要由算力提升所驱动

本文提出一个疑问：此前将算法进步与时间挂钩的说法，是否其实是由算力投入的持续增长所驱动？

已有估计表明，前沿模型的计算预算正以每年 4.2 倍的速度呈指数增长。因此，随着算力预算呈指数级提升，算法进步的速率可能更多是受这一规律性的算力扩张所推动，而不是源于不断涌现的算法创新。

本文发现：在 2017–2025 年间，几乎所有可解释的算法进步都来自两项规模依赖型的创新：从 LSTM 换成 Transformer，以及从 Kaplan 换成 Chinchilla 的训练策略。其他所有算法改进加起来只占很小一部分。

在总计 21,400 倍（相对于 LSTM 模型）的性能提升中，本文发现 846 倍的提升是通过从 LSTM 模型转向 Kaplan Transformer 模型实现的，而近 10 倍的提升则归功于 Chinchilla 调整训练策略。这两项创新共同构成了总相对效率提升的 91%。

算法进步的速度，取决于你拿谁当对照组

如果算法变得更强，是不是意味着进步更快，其实这完全取决于你选谁来当参照物。换个参照物，算法进步的速度立刻就变了。

因为有些算法改进是规模依赖型（scale-dependent）的：在大模型、大算力下提升巨大；但在小模型、小算力下几乎没作用。

这导致一个有趣现象：如果你用 LSTM 当参照：Transformer 系列（尤其是更大模型）会显得算法进步是指数增长的（论文测到一年增长率大约 63%，非常快）；但如果你用 Transformer 自己当参照，随着规模变大，你只看到算法只比以前好 2 倍，几乎没增长。

也就是说：换个对照组，算法进步就从指数增长变成增长幅度很少。

MIT最新发现：这十年，算法进步被高估了

上汽通用五菱...

以军空袭加沙...

71岁TVB...

这张外卡不白...

大S女儿和汪...

秋天衣服没有...

或将年内上市阿维塔全新旅行车谍照曝光

第37届电影百花奖来了，看完提名名单，我要说：内娱影坛要完了！

徐彬：这边训练节奏快，能适应英国生活，语言已能听懂五六十

连券商首席都被妈妈“科普”，商业航天太火了

心系球队，梅西一家现身看台观战阿根廷vs委内瑞拉

港股今年最大车企IPO要来了！赛力斯拟募资超130亿港元，基石投资者阵容豪华

穆西亚拉评心目中年度蓝阵容：巴黎五人入选，队长选择凯恩

加拿大德比：巴雷特37-3碾压维金斯创3项纪录成灭勇士头号英雄

白百何好友下场了！揭露争奖细节，放话大不了鱼死网破电影不上了

补时绝平，曼联终结各项赛事对阵热刺四连败

唐嫣站位风波升级！被扒不分场合爱站C位

这顶级尤物，也凉了

联发科将于2024Q4推出天玑9400，将具有更先进的AI功能

与黄晓明离婚后，杨颖背后的男人是有妻女的他

三镇小将姜利勋：中超首秀还是有点放不开，教练一直在鼓励我

俄＂默许＂朱拉尼相关提案中国在联合国动用一票否决权

丰田睡醒了？续航超1200km 皇冠插混车型10月上市卖20万能行吗？

“平安家医”春节服务超65万人次，日均服务超8.6万人次

336万年薪请来的CEO，上任两个月就“失联”，高鑫零售的转型阵痛期

特朗普否认美军将领“反对与伊朗开战”

北约谈格陵兰岛问题渲染＂中国威胁＂外交部回应

特朗普：将取消一些制裁以平抑国际油价

俄三防部队司令遇袭身亡案调查结束细节披露

“裤子+靴子”今年又火了，这样穿时髦又显高