NIO IN 2024 NIO Innovation Technology Day

大脑的两个核心的能力:

蔚来世界模型NWM

从提取信息的角度,把世界模型和感知算法的迭代路径统一了
image

世界模型算法相比感知的优势:
image

能想象变化才是真实的时空理解,想象的真实度和丰富度是理解深度的体现;

”大脑就像一个“动态模拟器”,它能够在当前的时空框架中,模拟出多个不同的变化情景。通过对这些变化的想象,大脑能够在更复杂的环境中做出灵活的判断和决策“

世界模型的穿越

让世界模型回到撞车前的3s中,世界模型可以推演出更合理的驾驶行为

轨迹规划

每0.1s生成216个平行的可能轨迹,评选后选出最优解

猜测:核心在于这句话;从这句话出发,蔚来的未披露的NWM的技术细节应该是依赖LLM类自回归的架构,类似GAIA-1;视频生成和轨迹生成应该是两个head;基于历史信息,预测未来帧的轨迹,没有提到Lidar,应该不是基于BEVFormer类似的多模态世界模型,应该就是自回归架构,类似ADrive-I同时输出图像和轨迹的token,其中轨迹的token可以当成文本的token处理,是一个多模态的自回归架构;

如果这个0.1s包括216种不同未来帧的视频生成的时间

个人倾向于0.1s不包括视频生成的时间;如果该速度没有考虑并行度,batchsize为1,一次infer的时间是0.00046s,按照gaia-1的分辨率,288x512, 一帧的token数量是18x32 = 576个,一个token的预测时间是8*10^-7s; 再考虑后续接diffusion head的时间,应该是远远不够,这部分我再仔细思考一下;

NWM的优势

image