image

目标

这篇文章介绍了名为 π0 的模型,旨在解决机器人学习中的主要挑战,包括数据稀缺性、泛化能力和鲁棒性。目标是开发一种通用的机器人控制策略,通过结合预训练视觉-语言模型(VLM)和机器人动作生成技术,实现机器人在物理世界中的多任务、灵活操作能力。这种模型被设计为适用于各种机器人平台,并能够完成从简单到复杂的任务,如折叠衣物、清洁桌面和组装盒子。


方法

image

模型架构

动作专家模块

动作专家模块 (Action Expert)π0 模型架构中的关键组成部分,它专注于处理与机器人状态和动作生成相关的输入与输出,为实现高频率、连续性和多样化的动作生成提供支持。以下是对动作专家模块的详细展开:

专用参数和独立权重

输入和输出特征

动作生成机制

流匹配 (Flow Matching)

动作专家模块利用 流匹配技术 来生成复杂的连续动作。这种技术是 π0 模型能够高效生成高频率动作的核心。

$$
L_\tau(\theta) = \mathbb{E}{q(A^\tau_t|A_t), p(o_t)} \left[ \left| v\theta(A^\tau_t, o_t) - u(A^\tau_t | A_t) \right|^2 \right]
$$

其中:
- $ q(A^\tau_t | A_t) $ 是带噪声的动作分布。
- $ v_\theta(A^\tau_t, o_t) $ 是模型生成的动作。
- $ u(A^\tau_t | A_t) $ 是目标动作分布。

动作分块 (Action Chunking)

** 动作推理**

$$
A^{\tau+\delta}t = A^\tau_t + \delta v\theta(A^\tau_t, o_t)
$$

其中 \( \delta \) 是步长(如 0.1)。

数据收集与使用

任务表现

  1. 基础模型评估

    • 零样本能力:预训练后的模型在没有微调的情况下即可完成多种任务,如折叠衣服和简单的桌面清洁,性能优于基准模型(如 OpenVLA 和 Octo)。
    • 评估显示,π0在各种任务中的表现大幅领先于其他机器人基础模型。
  2. 语言指令跟随

    • π0 在理解和执行复杂语言指令方面表现显著优于未使用预训练语言模型初始化的小型版本(π0-small)。
    • 添加高级语义策略(如高层语言规划)进一步提高了任务完成率。
  3. 微调表现

    • π0 在复杂任务上的微调性能显著高于从头开始训练的模型,尤其是在需要高精度操作的任务中(如折叠毛巾和替换纸巾卷)。
    • 对较少的数据量(如1小时的微调数据)也能表现出显著优势。
  4. 复杂任务解决能力

    • 在高度复杂、多阶段的任务(如组装盒子、分类物品)中,π0结合预训练和微调策略表现出强大的通用性和精确性。
    • 在所有任务中,π0的综合得分均超过50%,并在最困难的任务中显示出预训练的显著益处。