本文来自至顶网(ai.zhiding.cn),来源:cnet。
虽然大语言模型是当前AI的技术基础,但世界模型可能更具影响力。世界模型将物理世界的物理定律、物体检测和运动转化为AI可理解的数字蓝图,专注于理解自然世界而非生成文字。多位AI先驱表示正转向构建世界模型,包括Meta的杨立昆和"AI教母"李飞飞。英伟达在CES上展示了其世界模型Cosmos在自动驾驶中的应用。这些模型是开发物理AI的重要基石,将实现AI创建真实视频、指导手术机器人和增强自动驾驶能力。
大语言模型是当今人工智能的技术基础。像ChatGPT和Gemini这样的聊天机器人使用大语言模型来生成你在屏幕上看到的自然语音文本。但大语言模型可能不是最具影响力的AI技术。
谷歌DeepMind首席执行官德米斯·哈萨比斯在世界经济论坛上对彭博社表示:"这些大语言模型将是最终AI系统的一个极其重要的组成部分,我心中唯一的疑问是,它是唯一的组成部分吗?"
哈萨比斯接着谈到其他突破性技术的到来将如何确保下一代AI系统无缝协作。其中一个"非常重要"的突破就是世界模型。世界模型旨在将我们的物理世界——如物理定律、物体检测和运动——转化为AI能够理解的数字蓝图。它不太关注创建文字,而更专注于理解我们的自然世界,这正是当前AI模型不擅长的地方。
你可能不会像使用基于大语言模型的技术(如聊天机器人)那样与世界模型进行交互。然而,世界模型将展示AI如何创建逼真的视频、引导手术机器人以及增强自动驾驶汽车的驾驶能力。它们是开发所谓物理AI的重要构建模块——这种技术不仅理解我们的世界,还能在其中采取行动。
各种AI先驱者都发出了转向构建世界模型的信号。领先的AI先驱扬·勒丘恩最近离开了他在Meta领导AI工作的职位,加入了一家专注于构建世界模型的初创公司。被亲切地称为AI教母的李飞飞表示,空间智能——理解物理环境的能力——是技术创新的下一个前沿。
"空间智能将改变我们创建真实和虚拟世界以及与之交互的方式——彻底改变叙事、创造力、机器人技术、科学发现等领域,"她在11月的一篇博客文章中写道。
英伟达首席执行官黄仁勋也在他的CES 2026主题演讲中专门讲述了公司在世界模型方面的努力。黄仁勋表示,构建一个基于物理定律和客观真理的AI模型首先要从用于训练的数据开始。
每种类型的AI模型都需要大量数据来构建和完善其输出。通常,AI公司依赖真人创建的内容——无论是否得到许可——这导致了重大的法律纠纷。世界模型可以用人类数据(包括模拟数据)来构建。这些数据对于构建能够推理和做出因果判断的世界模型至关重要。
英伟达使用世界模型的一个领域是自动驾驶汽车。在现场演示中,英伟达展示了其世界模型Cosmos如何使用汽车传感器来理解自身位置以及道路上每一辆附近汽车的位置,以创建周围环境的实时视频。开发人员可以使用这些信息运行各种场景,如车祸,来查看车辆会如何响应并进行必要的安全改进。合成数据或非人工生成的数据也可以与世界模型一起使用,帮助预测罕见的"边缘情况"。
随着AI继续融入我们在线生活的每一个部分,它能够理解我们的物理世界变得至关重要,而不是继续出现幻觉和犯错误。行业领导者对空间智能、世界模型和物理AI的重新研究和投资表明,该行业不会只是构建更多的聊天机器人——它正在致力于构建更植根于我们现实的AI,而不是相反。
Q&A
Q1:世界模型是什么?它有什么作用?
A:世界模型是将物理世界——如物理定律、物体检测和运动——转化为AI能够理解的数字蓝图的技术。它专注于理解自然世界,能让AI创建逼真视频、引导手术机器人以及增强自动驾驶汽车的驾驶能力。
Q2:世界模型与大语言模型有什么区别?
A:大语言模型主要用于生成自然语音文本,而世界模型不太关注创建文字,更专注于理解物理世界。世界模型是构建物理AI的重要组成部分,这种技术不仅理解世界还能在其中采取行动。
Q3:英伟达的世界模型Cosmos在自动驾驶中如何应用?
A:英伟达的Cosmos使用汽车传感器来理解自身位置以及道路上每辆附近汽车的位置,创建周围环境的实时视频。开发人员可以运行车祸等场景来测试车辆响应并进行安全改进。
