选择城市
更多
点赞
评论
收藏
分享
问编辑
当前位置:
商汤科技王晓刚:世界模型重构世界 让安全有更多确定性
秦超
秦超
原创 · 0浏览·2025-09-22 17:29 · 北京
关注

● 智能驾驶、自动驾驶也是人工智能非常重要的一个部分,它的技术的变迁也反映了人工智能发展的三个阶段。

● 我们需要有个非常强大的质量非常高的世界模型重构我们的万千世界,能够让安全有更多的确定性。

[汽车之家 行业] 伴随L2级辅助驾驶的加速普及,智能驾驶技术迎来关键的窗口期。行业内既涌动着对技术突破的期待与积极探索,也存在对技术落地、安全应用等方面的审慎讨论。

为凝聚共识、共促发展,汽车之家于9月21日举办“汽车之家全球AI科技大会”,以“Hi Future”为主题,汇聚行业顶尖技术专家、车企领袖及生态伙伴,探索智能技术如何筑牢安全底线、重塑竞争边界。在本次大会上,商汤科技联合创始人、执行董事、CTO,商汤绝影CEO王晓刚分享了主题为《世界模型:智能驾驶范式演进新路标》的演讲。

汽车之家

王晓刚认为,世界模型可以推动自动驾驶在三个方面取得突:一是数据瓶颈,可以通过世界模型产生无限长尾场景。二是能够得到验证技术边界,因为它能够通过仿真模拟恢复物理的世界,在仿真环境不断地尝试进行实现。三是通过强化学习达到超越人类驾驶的体验。

我们需要有个非常强大的、质量非常高的世界模型来重构我们的万千世界,能够让安全有更多的确定性。在王晓刚看来,我们对世界模型的要求会有三方面:一是生成的数据应该是能够面向量产,能够一键生成复杂的场景。二是场景里面有各种因素,可以针对各种因素进行编辑,能够把各种的因素通过自由的组合,能够实现更多的拓展。三是实时性,在一定空间里面有非常高效的推理的效率,可以在一个世界模型里面实时进行互动。

汽车之家

对于世界模型在具身智能领域的应用,王晓刚认为,今天在自动驾驶的场景里用到的世界模型,所开发出来所有技术的体系,其实也可以用到具身智能领域,具身智能对世界模型的需求更加迫切。因为机器人的数量会更少,每个机器人硬件的配置千差万别。未来通过大量的模拟仿真的数据,能够推动自动驾驶与具身智能,跨越到下一个阶段。

以下为演讲实录,经汽车之家精编整理:

各位领导、各位同仁、各位嘉宾,大家下午好!

非常感谢汽车之家的邀请,来到会场参加全球AI科技大会,也能够有机会能够跟大家分享我们世界模型通用人工智能给自动驾驶带来的技术的变迁。

我们认为自动驾驶的技术是演进的频率是非常快的,我们认为它有三个阶段,智能驾驶、自动驾驶也是人工智能非常重要的一个部分,它的技术的变迁也反映了人工智能发展的三个阶段。所以说大家比较熟悉的像我们说第一个阶段基于规则的智能驾驶,我们又通过AI输出感知的结果,能够各种规则预定义这些逻辑,能够根据优化物理模型实现规控。在人工智能发展的每个阶段我们也会问这样的问题,智能到底是从哪里来?实际在第一个阶段很多的智能来自于人工,我们需要大量的标注各种感知数据,得到它的输出,人工的书写各种各样的规则。所以在那个时候有一句话有多少人工就有多少的智能,其实很像人工智1.0发展的阶段,我们人脸识别、视频分析,我们也会针对在安防的场景、人工的场景输入智能的数据。

汽车之家

第二个阶段是大模型的出现,我们说在人工智能的领域2.0的时候,比如说ChatGPT,实际在互联网上出现了积累了过去很多年人类行为的数据,比如各种文章、代码,这都是人类行为智能的体现。在自动驾驶领域对应的就是人类的驾驶行为,第二阶段大家推动的是端到端的自动驾驶。实际它把过去长时间人类行为积累的智能能够转化成为模型的智能,所以这里出现了一个很大的智能和体验上的跃迁。但是它自己也有它的瓶颈,人类的这些行为就是智能的天花板,同时又是大量的依赖数据。所以说今天看到大模型的发展也遇到了瓶颈,就是因为我们在互联网上,积累起来的互联网的数据的价值面临着枯竭的境地。同时可以看到自动驾驶积累的大量数据也有它的瓶颈。

第三个阶段通过世界模型,通过所谓的生成式的智驾,通过强化学习能够进一步的突破。一个非常典型的例子,2015年的时候在围棋里面AIphaGo,后面出现了阿尔法Zero,不需要任何人类的知识的输入,它也能够产生大量的智能。今天在自动驾驶里希望有世界模型,在围棋里面有棋盘,有人类定义的围棋的规则,这是更高阶的智能。我们希望在自动驾驶里面也能够通过强化学习突破人类的行为上限的时候我们就需要一个世界模型,许多它模拟物理世界的规律、人类行为的法则和规律。强化学习在仿真的世界模型环境里面,通过强化学习不断的提升,突破人类驾驶的上限。

所以类似的我们也可以看到今天在人工智能的3.0的发展,人们提出了具身智能,就要从原来的互联网数据走出来,通过跟物理世界的交互产生新的智能。实际具身智能的领域世界模型也会扮演非常重要的角色。

今天说端到端的自动驾驶所面临的问题,一是我们需要大量的数据,特斯拉有几百万台车,而且这些车的传感器的配置是一致的,所以能够回流大量的数据。今天我们面临的问题是没有如此规模的数据。二是对于各种危险复杂的场景,Corner Case这些获得成本是非常高的,风险也是非常高的,怎么获得这些高质量的数据是我们需要解决的问题。另外是安全的边界,今天端到端的自动驾驶看到一个问题场景,我们怎么解决这个问题场景,我们需要采集很多跟这个场景所类似的其他的数据,重新训练模型。但是模型训练完之后也不能够确定这个场景是否能够真正的被解结,因为端到有不确定性在。所以我们不知道大模型端到端的点在哪里,这是两个比较重要的核心问题。

接下来我讲未来我们要把世界模型和强化学习跟端到端相结合,在这里核心还是要有一个端到端的多模态的大模型,它的输入可能是有各种视觉的、激光的、语言文字导航的输入,输出就是车辆的行为。端到端的大模型会预测车辆的轨迹,基于预测的轨迹反馈给世界模型,它就会能够模拟仿真出我们的物理世界将会怎样的变化,能够给我们反馈出基于世界模型里合成出的视频,能够反馈重新训练端到端的模型。而且这里我们会有个方法,告诉我们什么样的仿真模型是好的,如此循环往复的迭代,不断的提升端到端的性能。同时,在这个仿真环境里面可以无数次的试错,有个问题的场景以后,通过无数次的尝试一定能够解决我们所关心的问题。而且能够做到举一反三、举一反十、反百。所以今天的世界模型并不是无中生有,而且你用了问题场景我们可以通过复现物理场景,不能的改变各种要素,如天气、道路、车速等等把类似的问题得到比较彻底的解决。

接下来我就给大家举一个例子,看一看我们怎么用世界模型和强化学习解决问题。这里展示的是一个问题的场景有个施工占道出现了急刹。我们有几步?第一步需要做4D仿真的浮现,通过3DGS通过静态的场景浮现,同时通过3D的目标进行呈现。这两个相结合浮现场景,通过世界模型对它进行修复,就能够得到更高质量的4D空间。在4D空间里就可以尝试各种不同驾驶的行为,调整端到端的模型,尝试各种不同的驾驶行为,直到你在这个环境里找到最佳的驾驶行为的结果。因为我们有这个办法可以评价什么样的驾驶行为是好的。

在单一的场景里面我们能够得到模型的更新和验证之后,接下来我们需要对它进一步的得到多个泛化。其实有很多其他的类似的场景,比如说复杂的施工区域,换道的通行,围栏的减速等等。这些不同的场景都是通过世界模型所生成出来的各种泛化的场景,我们的模型能够在这些泛化场景里面进一步的学习进行测试。

汽车之家

所以说今天我们的世界模型就可以推动自动驾驶在三个方面取得突破,一是数据瓶颈,可以通过世界模型产生无限长尾场景。二是能够得到验证技术边界,因为它能够通过仿真模拟恢复物理的世界,在仿真环境不断的尝试进行实现。三是通过强化学习达到超越人类驾驶的体验。

汽车之家

背后核心就是我们需要有个非常强大的质量非常高的世界模型重构我们的万千世界,能够让安全有更多的确定性。所以说我们对世界模型会有哪些要求呢?会有几方面,一是生成的数据应该是能够面向量产,能够有更多的场景,非常复杂的场景是可控的,能够一键生成复杂的场景。二是场景里面有各种因素,可以针对各种因素进行编辑,能够把各种的因素通过自由的组合,能够实现更多的拓展。三是有实时,在一定空间里面有非常高效的推理的效率,可以在一个世界模型里面实时的进行互动。

这里我们给大家所看到的是一个例子,我们坐车辆Cut-in比较危险的场景,我们可以看到车里有7个摄像头,我们要生成一个好的世界模型,就要保持它的时空的一致性。大家知道很早2024年的时候就有Sora能够做各种视频的生成,今天用世界模型做自动驾驶它的难得在哪里?生成视频比图像更难,就是因为有连续性。今天用在自动驾驶环境里视频的生成会更难,因为有众多的摄像头,要保持多个摄像头时空的一致性。这里比如说有车牌、道路的限行、各个摄像头里内容应该是一致的,还有空间的几何关系是一致的,这样生成的视频才能够有效的用作自动驾驶的训练和测试。

基于此,我们就可以针对打车Cut-in一个场景可以改变各种的要素,我们换不同的天气的条件、不同的道路路形、大车的车型、车速和Cut-in的距离。刚才说了有了这个以后,就可以做到举一反十、反一百、反一千。这里也可以看到一键生成更加复杂的场景,比如说车祸和碰撞的场景。

汽车之家

而且在这里我们需要对场景里面的各种要素能够做到任意编辑,可以找到一个车辆任意的替换不同的车型,增加车辆、减少相应的车辆,模拟不同的驾驶环境。

在这里我们现在也能够做到实时的推理,所以这里我们展示的是在上海市区,在市区里可以自由的进行开车,加减速、转弯,但是你今天看到的这些视频都是跟真实世界的物理环境更加接近的。

我们也把世界模型能够产品化,能够开放API,所以在这里用户可以描述你所想采用的数据一键生成,形成各种各样我们期待的视频。所以我们现在也能够积累百万级的数据集,覆盖各种复杂的场景,能够实现高保真。今天每一个Clips(音)有150s,有7个摄像头能够保持比1080P更好图像的质量。

汽车之家

今天说这是个基础的设施,我们也看到各地的政府也建立了实训场,能够提供算力的平台,真实的采集实车的数据。另外有一半的数据也是通过世界模型模拟仿真进行生成,两个相结合提供给行业里车厂进行端到端模型的训练。

最后说今天在自动驾驶的场景里用到的世界模型开发出来所有技术的体系,其实也可以用到具身智能里,具身智能对世界模型的需求是更加迫切。因为机器人的数量会更少,而且每个机器人硬件的配置千差万别。所以说我们就希望在具身里面世界模型能够做到多模态、数据对齐,能够得到4D空间,能够进行快速的推理。

所以这里我给大家举个例子,有两个例子,一是你输一条指令让机器人能够在公园里进行跳跃,会自动的生成机器人的骨骼、姿态、动作的变化,基于这个能够生成机器人第一视角看到视频的数据和第三视角。下面说让机器臂切黄瓜,同样可以生成第一和第三视角的数据。未来我们可以用大量的模拟仿真的数据,能够推动自动驾驶,推动具身智能,能够跨越到下一个阶段。好,谢谢大家!(编译/汽车之家 秦超)

文章标签
点赞
评论
收藏
分享
举报/纠错
2025/9/23 06:28:22