外媒:DeepSeek V4的三重意义

外媒MIT Technology Review撰文指出,在过去一年多时间里,DeepSeek经历一系列波折,比如核心员工离职、模型发布延迟、美国加强审查。相比R1,V4的“震撼程度”可能有所不及,但本次更新依然很重要,背后蕴含三重意义。

本文来自极客网(www.fromgeek.com)。

极客网·极客观察4月28日一直以来DeepSeek都很低调,近日DeepSeek宣布推出V4推理模型,距其2025年1月发布的R1已经过去一年多,所以业界对新版本格外关注。

外媒MIT Technology Review撰文指出,在过去一年多时间里,DeepSeek经历一系列波折,比如核心员工离职、模型发布延迟、美国加强审查。相比R1,V4的“震撼程度”可能有所不及,但本次更新依然很重要,背后蕴含三重意义。

20260424807796.jpg

第一重:塑造开源模型新局面

和之前的R1一样,DeepSeek声称V4的性能可与最佳模型媲美,但价格便宜很多。对于开发者和企业来说,这是一个好消息,意味着他们可以快速获得前沿AI能力,不必担心成本飙升。

DeepSeek V4有两个版本,一个是V4-Pro,它的规模更大,专为编程、复杂智能体构建;另一个是V4-Flash,规模较小,旨在运行得更快、更便宜。

两个版本都提供推理模式,在这种模式下,模型可以仔细解析提示词,并在解决问题时展示每一个步骤。

就定价而言,V4-Pro的收费为每百万输入词元(Input Tokens)1.74美元,每百万输出词元(Output Tokens)3.48美元,只相当于OpenAI和Anthropic的一小部分。

V4-Flash更便宜,每百万输入词元约0.14美元,每百万输出词元约0.28美元。

至于大众关注的性能,V4相比R1有了巨大飞跃。按照DeepSeek的描述,V4-Pro可以与领先的闭源大模型竞争,和Claude-Opus-4.6、GPT-5.4、Gemini-3.1相当。

与开源模型Qwen-3.5、GLM-5.1相比,DeepSeek V4在编程、数学和STEM(科学、技术、工程和数学)问题上有所超越,它是有史以来最强的开源模型之一。

在智能体编程任务中,V4-Pro也是最强开源模型之一,其写作能力和世界知识也处于领先地位。

DeepSeek表示,他们已针对Claude Code、OpenClaw和CodeBuddy等流行智能体框架进行了专门优化。

第二重:用新方法对内存效率进行优化

拥有长上下文窗口(Context Window)是V4的关键创新之一,也就是说,模型可以一次处理更长的文本。

两个版本都能处理100万个词元(Tokens)。DeepSeek称,这样的上下文窗口是所有服务的默认配置,与Gemini和Claude的尖端版本相当。

DeepSeek是如何做到的?这点更重要。它对模型进行了架构调整,格外重视“注意力机制(Attention Mechanism)”,这一机制是模型理解提示词各部分与其他部分关联的重要变量。当提示词变长,注意力机制成为长上下文模型的主要瓶颈之一。

DeepSeek通过创新技术,让模型对关注的内容有了更强的选择性。V4不会将文本看得同等重要,而是压缩旧信息,专注当前时刻最可能重要的部分,同时保留附近文档,避免遗漏重要细节。

在100万个词元的上下文中,V4-Pro使用的算力只有V3.2的27%,内存使用量也削减至10%。V4-Flash的降幅更大,仅使用10%的计算能力和7%的内存。

AI模型如何“记忆”信息是DeepSeek的研究重点,它在过去一年发表一系列论文,尝试通过压缩和数学技术扩展AI模型实际能处理的内容。

第三重:摆脱英伟达

V4针对华为昇腾(Ascend)等国产芯片进行了优化,之前没有过,这是一次检验,检查DeepSeek能否摆脱对英伟达芯片的依赖。

The Information报道称,在新模型发布前,通常会向英伟达、AMD提前开放权限,方便芯片商支持,但这一次DeepSeek没有这样做,而是给了中国芯片制造商早期访问权限。

华为表示,基于昇腾950系列的昇腾超节点产品将支持DeepSeek V4。也就是说,如果企业和个人想运行修改版DeepSeek V4,可以使用华为芯片。

不难看出,AI全面国产化已经提速,从芯片到软件框架再到数据中心,必须全面国产化,刻不容缓。

摆脱英伟达体系并不简单,主要是受到软件生态系统的制约。转向华为体系,意味着要调整模型代码、重建工具,要证明系统足够稳定,可以投入使用。

从现有信息看,DeepSeek似乎并没有完全摆脱英伟达,它只将V4训练过程的一部分适配了中国芯片。一些人认为,V4可能仍然是在英伟达芯片上训练的。

中国芯片仍有差距,仍需要追赶,目前国产芯片更适合推理而非训练。V4的未来成本将与华为芯片联系起来。DeepSeek宣称,华为昇腾950超节点于今年下半年开始大规模出货后,届时V4-Pro的价格可能会大幅下降。如果能奏效,V4可能表明中国正在成功构建新AI基础设施。

分析师怎么看?

除了媒体解读,业界分析师也对DeepSeek V4的推出发表了各自的看法。

金融服务公司晨星(MorningStar)的高级股票分析师苏伟(Ivan Su)说:“R1震惊了美国市场,因为没人料到中国模型能达到如此高的水平。V4只是这一趋势的延续,而趋势不会像冲击那样成为头条新闻。”

中国模型比美国模型便宜,这已经是公认事实,美国股市早将这一因素考虑在内,所以这次美国股市并没有暴跌。

Counterpoint Research首席分析师孙伟(Wei Sun)认为:“R1是在英伟达硬件上训练的,V4不一样,它在华为和寒武纪芯片上运行。也就是说,中国AI系统的构建和部署不再依赖英伟达,因此,V4可能比R1带来的影响更大,它将加速国内采购,促进全球AI更快发展。”

DeepSeek在声明中表示,V4在开源模型中拥有最好的智能体编程能力,并实现了“世界级”的推理能力。在广泛的世界知识方面,V4的表现优于其他开源模型,只是不及Gemini。

据估计,美国AI初创公司内部约有80%都在使用中国开源模型,亚马逊、微软、谷歌的云平台也提供中国模型。

一项分析发现,中国模型的运行成本仅为美国竞争对手的六分之一到四分之一,价格战是中国模型的一大优势,也是抢占市场的关键。

有趣的是,V4模型刚刚发布,DeepSeek便宣布降价打折,全系API的输入缓存命中价格永久降至原有的1/10,DeepSeek-V4-Pro模型的API限时享受2.5折优惠,该优惠活动将持续至2026年5月5日。

有观点认为,DeepSeek以如此快的速度重拳出击,优惠力度如此之大,绝非偶然或者随意为之。在美国模型的压力下,中国AI的竞争力没有被削弱,反而一直在增强。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论