训练AI只需要跑完前10%,剩下的90%都能在小模型上跑

这项技术叫 CompreSSM,针对的是一类叫做“状态空间模型”(state-space models)的 AI 架构。这类架构支撑着从语言处理、音频生成到机器人控制的广泛应用。

本文来自微信公众号“麻省理工科技评论APP”,【作者】Rachel Gordon。

微信图片_2026-04-14_165438_227.png

(来源:麻省理工科技评论)

训练一个大型AI模型的代价很高,不只是钱,还包括时间、能源和算力。

要得到一个更小、更快的模型,传统做法要么是先训练一个庞大的模型再削减它,要么是直接从头训练一个小模型,但接受性能上的妥协。

MIT计算机科学与人工智能实验室(CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室(ELLIS)、苏黎世联邦理工学院(ETH)和Liquid AI的研究人员共同提出了一种新方法,直接绕过了这个二选一的难题:在训练过程中就对模型进行压缩,而不是在训练之后。

这项技术叫CompreSSM,针对的是一类叫做“状态空间模型”(state-space models)的AI架构。这类架构支撑着从语言处理、音频生成到机器人控制的广泛应用。研究人员借用控制论里的数学工具,在训练早期就能识别出模型中哪些部分是在真正发挥作用、哪些是累赘,然后把那些多余的部分精准地切除掉。

“本质上这是一种让模型在训练过程中变小、变快的技术,”论文第一作者、CSAIL成员、电气工程与计算机科学系的博士生马克拉姆·查希内(Makram Chahine)说,“学习过程中,模型也在同时扔掉那些对它的发展没有帮助的部分。”

这项研究的关键洞察是:一个状态空间模型里哪些组件更重要、哪些更次要,这个格局在训练过程中很早就稳定下来了。研究团队使用一种叫“汉克尔奇异值”(Hankel singular values)的数学量来衡量每个内部状态对模型整体行为的贡献程度,结果表明只需完成大约10%的训练,就能可靠地排出哪些维度重要、哪些不重要。一旦排序确定,那些不重要的组件就可以被安全地丢弃,剩下90%的训练则以一个小得多的模型的速度继续进行。

“这项工作有意思的地方在于,它把压缩这件事从‘事后再说’变成了学习过程本身的一部分,”论文通讯作者、MIT教授、CSAIL主任丹妮拉·鲁斯(Daniela Rus)说,“我们不再是先训练一个大模型再想办法把它缩小,而是让CompreSSM在模型学习的过程中自己发现高效的结构。这是一种构建AI系统的全新思路。”

结果令人印象深刻。在图像分类基准测试中,压缩后的模型保持了与完整版几乎相同的准确率,训练速度最高提升1.5倍。一个被压缩到原始状态维度四分之一左右的模型,在CIFAR-10基准上达到85.7%的准确率,而一个从一开始就以这么小的规模训练的模型只能达到81.8%。在目前应用最广的状态空间架构之一Mamba上,这种方法实现了大约4倍的训练加速,把一个128维的模型压缩到约12维,性能仍然具有竞争力。

“你能拿到大模型的性能,因为在热身阶段你就捕获了大部分复杂的动力学特征,之后只保留最有用的那些状态,”查希内说,“模型的表现仍然优于从一开始就训练小模型。”

CompreSSM与现有方法的不同之处在于它有坚实的理论支撑。常规的剪枝方法是先把完整模型训练完,再把参数剔掉,这意味着你仍然要承担训练大模型的全部算力成本。另一种流行的技术是知识蒸馏,需要先训练好一个大的“教师”模型,再在它的基础上训练一个更小的“学生”模型,相当于训练成本翻倍。CompreSSM在训练过程中就做出明智的压缩决策,从而避免了这两种额外成本。

研究团队把CompreSSM与这两种方法分别做了对比。对比一种最近提出的、用于引导紧凑状态空间模型的谱方法“汉克尔核范数正则化”,CompreSSM速度超过它40倍以上,同时准确率更高。那种正则化方法会把训练速度拖慢约16倍,因为它在每一次梯度更新时都需要做昂贵的特征值计算,即便如此,最终得到的模型性能还是不如CompreSSM。

在CIFAR-10上与知识蒸馏对比时,CompreSSM在高压缩率下的优势非常明显:当状态维度很小时,蒸馏出的模型准确率大幅下降,而CompreSSM压缩后的模型几乎保持了完整版的性能。而且由于蒸馏在每一步训练中都需要让教师模型和学生模型各做一次前向传播,即便它的学生模型更小,训练速度反而比完整的基线模型还慢。

研究人员用Weyl定理证明了一件事:在训练过程中,单个模型状态的重要性是平滑变化的,这些状态的相对排序是稳定的。这两点结合在一起,让使用者可以放心:那些在早期被判定为无关紧要的维度,不会在后面突然变得关键。

这项方法还带有一个务实的安全机制。如果某次压缩意外导致性能下降,使用者可以退回到此前保存的检查点。“这让人们对愿意付出多少性能代价拥有主动权,而不是去定义一个不那么直观的能量阈值,”查希内解释说。

这项技术也有一些实际边界。CompreSSM在那些“内部状态维度与整体性能强相关”的模型上效果最好,而这种相关性在不同任务和架构之间差异较大。该方法对多输入多输出(MIMO)模型特别有效,因为这类模型中状态规模与表达能力之间的关系最强。对于每通道、单输入单输出的架构,收益就比较有限,因为这类模型本身对状态维度变化就不太敏感。

这套理论最适用于线性时不变系统,不过团队也已经开发出适用于输入依赖、时变架构的扩展版本——后者正在变得越来越流行。由于状态空间模型这一大家族还延伸到了“线性注意力”等新兴架构(一种作为传统Transformer替代方案、关注度日益上升的方向),CompreSSM的潜在应用范围相当广泛。

查希内和合作者把这项工作看作一块垫脚石。团队已经展示了向Mamba等线性时变系统的扩展,未来的方向是把CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统,这会让这项技术更接近支撑当今绝大多数大型AI系统的Transformer架构。

“这必须是第一步,因为在这里理论是干净的,方法能保持原则性,”查希内说,“这是一块垫脚石,之后再向业界今天实际使用的其他架构扩展。”

“查希内和同事的工作,为现代状态空间模型(SSM)的压缩问题提供了一个有趣且理论扎实的视角,”ELLIS图宾根研究所首席研究员、马普智能系统研究所独立课题组组长安东尼奥·奥尔维耶托(Antonio Orvieto)评价道。他未参与这项研究。“这项方法提供了证据,证明这类模型的状态维度可以在训练过程中被有效降低,而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向,所提出的算法有潜力成为预训练大型SSM模型的标准做法。”

这项研究已被ICLR 2026接收,将于本月晚些时候在会议上发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。

原文链接:

https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论