本文来自微信公众号“电子发烧友网Elecfans”,【作者】梁浩斌。
电子发烧友网报道(文/梁浩斌)又一“Deepseek时刻”来了?谷歌在3月24日发布了一项名为TurboQuant的先进向量量化压缩算法,旨在解决大语言模型和向量搜索引擎中的内存瓶颈问题,令KV Cache内存占用降低至原来的1/6且几乎无精度损失。
随后在当地时间3月25日,美光科技开盘最高跌幅超6%,收盘跌3.4%,四天累计跌幅超过13%;闪迪当天收跌3.5%;3月26日三星电子跌近5%,SK海力士跌超6%。
而这一轮存储股价下跌,谷歌近期推出的TurboQuant可能就是主因。
TurboQuant如何降低AI对内存的需求?
根据Google Research在官网发布的技术资料,TurboQuant是通过解决高维向量处理中的内存瓶颈,在不损失精度的前提下,提升大语言模型和向量搜索引擎的效率,让大型AI系统运行得更快、更省钱。
在计算力领域中,“量化”通常是指数据从高精度转换为低精度的过程,其核心目的在于通过牺牲极微小的数值精度,换取显著的存储空间节省与计算效率提升。低精度意味着对内存占用空间更小,以节省GPU以及AI芯片上DRAM(主要是HBM)用量。
举个例子,比如一张照片中可能有数百万种颜色,如果要完整记录下来,每一种颜色都需要用不同的数字来记录下来,那么这就会产生大量数据,非常占内存。那么经过量化后,可以指定这张照片只能使用16种颜色,此前的数百万种颜色各自取这16种颜色中最接近的一种来进行存储,尽管丢失了颜色精度,但图片依然保留了大致的画面信息,同时图片体积也大幅缩小。
而在大语言模型中,在对话过程中,模型推理产生的对话记忆则存储在KV Cache中。虽然KV Cache极大地加快了生成速度,但它带来了严重的内存挑战,KV Cache的大小随着对话长度线性增长,对话越长,占用的显存就越多。
这也是很多模型有所谓的“上下文限制”的原因,限制的背后是显存不够用了。因此一般也会用到量化的方式对KV Cache进行压缩,比如从FP16(16位浮点数)的精度压缩到INT4(4位整数)。
那么TurboQuant,实际上就是针对这里的KV Cache进行了极致压缩。传统的量化技术虽然能减少数据大小,但往往需要为每个小数据块计算并存储额外的“量化常数”(如缩放因子),这会产生额外的内存开销,抵消了量化带来的好处。就好比你创造了一种暗号,那么为了读懂这个暗号,还需要一个对照表来进行解密,同时就需要额外的存储空间去收纳这个对照表。
TurboQuant解决的其中一个问题就是“对照表”带来的额外内存开销。TurboQuant利用PolarQuant技术,改变了传统的笛卡尔坐标(X,Y,Z)视角,将向量转换为极坐标(半径和角度)。由于角度分布在数学上是可预测且集中的,更适合数据压缩,模型不再需要存储昂贵的数据归一化参数,从而消除了内存开销。
另外一项核心的技术是QJL(Quantized Johnson-Lindenstrauss),这是一种基于Johnson-Lindenstrauss变换的压缩方式。将向量压缩到仅用符号位(+1或-1)的1-bit表示,同时保留向量间的距离关系。通过一个专门的估计器来准确计算注意力分数,并用极少的1-bit残差压缩消除隐藏误差,实现零内存开销的压缩。
最终,评估结果显示,通过TurboQuant可以将LLM的KV cache压缩到3-bit,内存占用至少减少6倍,而模型准确性零损失。
在4-bit模式下,在英伟达H100 GPU上,注意力logit计算速度可比32-bit未量化版本快8倍,整体推理速度也比原始模型更快。
在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等长文本基准测试中,表现接近无损。在相同的内存占用下,向量搜索的召回率(recall)也优于传统方法如PQ、KIVI等。
值得一提的是,Google Research表示,它可以直接应用到现有的开源模型中,不需要重新训练或微调。这项技术也非常适用于边缘AI设备,包括智能手机等DRAM有限的设备中高效运行LLM;同时能够大幅提升LLM的长上下文能力,让LLM拥有更长久的记忆。
总体来说,TurboQuant有望推动LLM在更多智能硬件上的部署和应用,助力AI硬件的创新。
又一个“deepseek时刻”?
对于内存开销需求的大幅降低,很容易让人将TurboQuant与2025年初Deepseek R1的发布联想起来。因为Deepseek R1的目标同样是在更少的硬件资源下保证LLM的高性能,通过引入MLA架构和优化训练策略等创新降低了算力硬件上的需求;TurboQuant则同样是通过极致的压缩算法来减少缓存,降低了对内存的需求。
但另一方面,从deepseek R1推出一年后的今天来看,实际上这种提高硬件利用效率的技术,并不意味着算力硬件就不再重要。反而这些技术是更多推动了应用层面的落地,硬件利用率高意味着LLM的训练和推理成本降低,能够吸引更多应用端的开发和商业落地。
实际上,存储需求确实仍在不断高涨,产能扩张也在持续加速。韩国金融监督院近日披露,三星和SK海力士两大存储巨头在中国投资总额超过1.5万亿韩元,同比大幅增长。
2025年,三星电子在西安工厂投资4654亿韩元用于扩产,这一数字相比2024年大幅增长67.5%。西安工厂是三星电子在海外的唯一NAND Flash生产基地,产量约占三星总产量的40%左右。
据了解,自2020年开始到2023年,三星电子都没有对西安工厂进行任何大规模投资,但从2024年恢复了投资计划,开始升级产线扩大产能。三星电子目前计划将其西安NAND芯片厂的制造工艺从128层(第六代)升级为236层(第八代)。
有韩国官员称,为了防止国家核心技术的泄露,海外工厂与韩国工厂在技术发展上会保持大约两代产品的差距。“由于三星计划今年在韩国生产第4代(10代)NAND产品,因此中国工厂向第8代技术升级的进程很可能会加快。”
而SK海力士2025年在无锡DRAM工厂和大连NAND Flash工厂共投入了超过1万亿韩元,其中无锡的DRAM工厂上的投资达到了5810亿韩元,比2024年的2873亿韩元增加了102%;而在大连的NAND闪存工厂上的投资则为4406亿韩元,同比增长了52%。这是自2022年SK海力士收购英特尔在大连的NAND闪存工厂以来,该公司首次在中国工厂上进行规模达万亿韩元的投资。
类似地,SK海力士也将其位于无锡的工厂中DRAM的生产工艺从10纳米级的第三代(1z)工艺升级到了第四代(1a)工艺,未来可以大规模生产DDR5内存芯片。
因此,从存储厂商的扩产动作来看,存储需求并不会因为LLM算法和架构的迭代而有所降低,反之,算法和架构层面的创新,将帮助LLM的使用成本降低,从而加速在更多领域中的应用落地。
小结
过去存储和算力是端侧AI硬件落地的最大门槛之一,在先进制程进入2nm时代后,内存成为了端侧AI的显著障碍,因此能降低内存需求的TurboQuant对于端侧AI硬件的意义更为重大。历史表明,算法效率提升往往能够降低应用门槛,刺激需求增长而非抑制硬件需求,未来存储产业在AI效率革命与应用爆发的双轮驱动下,也将继续狂飙。
