Cosmos World Foundation Model Platform for Physical AI

image

Introduction

研究贡献

本文提出了一个新的平台——Cosmos世界基础模型平台(Cosmos World Foundation Model Platform),旨在为物理AI开发者创建定制化的世界模型。其核心思想是利用视觉世界基础模型(以视频形式呈现观察数据)通过预训练和后训练范式解决数据扩展难题:

  1. 预训练世界模型(Pre-trained WFM): 利用大规模视频数据集构建通用模型,涵盖丰富的视觉体验。
  2. 后训练世界模型(Post-trained WFM): 使用目标物理AI环境的数据集对预训练模型进行微调,从而适配具体任务。

平台特点

Cosmos平台提供了多种关键组件:

  1. 视频数据筛选管道: 从20M小时的视频中提取1亿高质量动态片段。
  2. 视频标记与编码器: 开发了一种因果设计的视频标记方法,压缩视频信息以提高训练效率。
  3. 预训练世界模型:two scalable approaches for building pre-trained world foundation models—the diffusion model and the autoregressive model
  4. 后训练的示例: 包括相机控制、机器人操控和自动驾驶等应用场景。
  5. 开放性与共享性: 提供开放源码和模型权重,降低开发门槛。

image

Data Curation

数据处理目标

为了构建高质量的训练数据集,文章设计了一条完整的视频数据筛选与处理管道。这条管道旨在从庞大的原始视频集合中提取有助于世界基础模型(WFM)训练的高质量数据,同时保证数据多样性和高效性。

数据来源

  1. 数据总量:使用了20M小时的视频(分辨率从720p到4k不等),包括专有视频数据集和公开的网络视频。
  2. 目标覆盖范围:数据覆盖多个物理AI应用场景和类别,例如驾驶(11%)、手部操作与物体操控(16%)、人类运动与活动(10%)、空间导航(16%)、自然动态(20%)等。
  3. 挑战:视频数据通常存在以下问题:
    • 编码格式和设置的多样性;
    • 长度、分辨率和场景过渡的变化;
    • 视频可能含有不必要的后期处理或编辑效果,影响模型训练质量。

数据处理流程

如图所示,数据处理流程包含以下五个步骤:
image

1. 分割(Splitting)

2. 过滤(Filtering)

对分割后的片段进行过滤,移除低质量或无意义的视频内容。包括以下四个子步骤:

  1. 运动过滤
    • 去除静态视频或有随机剧烈镜头运动的片段;
    • 使用NVIDIA加速的光流估计网络,结合轻量级分类器进行动作类型标记(如平移、缩放、倾斜等)。
  2. 视觉质量过滤
    • 检测并移除含有失真(如模糊、噪点、过度曝光、欠曝光等)的片段;
    • 使用视频质量评估模型(如DOVER)和图像美学模型(Schuhmann, 2022)评分,去除低于质量阈值的视频。
  3. 文本覆盖过滤
    • 检测后期处理中添加了大量文字或特效的视频;
    • 训练了基于MLP的分类器,利用视频嵌入(如InternVideo2)进行文字检测。
  4. 视频类型过滤
    • 针对物理AI任务设计视频内容分类(如人类动作、物体交互等);
    • 通过分类器标注片段,并上采样关键类别、下采样不相关类别。

3. 标注(Annotation)

4. 去重(Deduplication)

5. 分片(Sharding)

基础设施支持

结果

最终生成了约1亿个高质量的视频片段(用于预训练),以及约1千万个高精度视频片段(用于微调),为后续模型训练奠定了坚实的数据基础。

Tokenizer

Tokenizer 是现代大规模模型的重要组成部分,其作用是将原始数据(例如图像和视频)转化为紧凑的语义表示,以便提高训练和推理的效率。本文提出了 Cosmos Tokenizer,支持图像和视频的离散与连续标记,具有优异的压缩质量与高效推理能力。

Cosmos Tokenizer 的设计特点

多功能性

压缩率与多样性

架构设计

Cosmos Tokenizer 采用了轻量级的编码器-解码器(Encoder-Decoder)架构,其特点如下:

  1. 因果时间卷积与注意力机制:
    在时间维度上,采用因果卷积与因果注意力层,以保持标记的时间因果性。
  2. 小波变换预处理:
    输入视频先经过小波变换,减少输入的维度,压缩3D视频的空间和时间冗余信息。
  3. 残差与下采样模块:
    编码器使用残差块和降采样模块捕获时空特征。解码器则通过上采样块还原输入。

image

训练目标

  1. 连续标记:
    使用自编码器(Autoencoder,AE)学习连续的潜在空间。
  2. 离散标记:
    使用有限标量量化(Finite-Scalar-Quantization, FSQ)技术学习离散的潜在空间。
  3. 损失函数:
    • 像素损失(L1): 最小化输入和重建视频之间的像素差。
    • 感知损失(Perceptual Loss): 基于VGG-19特征的感知差异。
    • Flow损失(Flow Loss): 提高视频重建的时间平滑性。
    • Gram矩阵损失(Gram Loss): 提升重建图像的清晰度。

性能评估

压缩率 vs. 质量

推理效率