MonoFormer 是一种多模态生成模型,基本想法和Transfusion类似,它通过共享一个Transformer模型实现了文本自回归和图像扩散两种生成任务。MonoFormer提出了一种统一的框架,使同一个Transformer架构同时用于多种模态的生成任务。

与Transfusion的比较总结

以下是MonoFormer的多模态实现方法的详细介绍:

1. 模型架构设计

MonoFormer的核心思想是使用单一Transformer架构同时处理自回归(文本生成)和扩散(图像生成)两种不同任务。在现有的多模态模型中,通常会使用两个不同的网络,一个用于离散数据(例如文本)的自回归建模,另一个用于连续数据(例如图像)的扩散建模。而MonoFormer则通过共享Transformer模型来同时处理离散(文本)和连续(图像)数据,减少了模型的复杂性。

2. 多模态处理方法

MonoFormer的关键创新在于如何在同一个Transformer中处理离散的文本生成和连续的图像生成。这种多模态处理的实现方式包括以下几个方面:

a. 不同的注意力机制

MonoFormer针对文本和图像任务使用不同的注意力机制:

b. 输入处理

MonoFormer接收的输入既可以是文本token序列,也可以是图像的嵌入。具体来说:

c. 共享Transformer权重

MonoFormer的Transformer结构是共享的,即文本生成和图像生成任务共用同一组Transformer参数。Transformer通过不同的注意力掩码来区分文本和图像任务,因此可以同时处理两种模态的数据。

3. 训练过程

MonoFormer的训练过程分为两个部分:文本生成任务使用自回归训练,图像生成任务使用扩散训练。

4. 推理过程

在推理过程中,MonoFormer可以根据输入的不同模态灵活切换生成模式:

5. 实验与性能

实验结果表明,MonoFormer在生成图像和文本的任务上均取得了接近于当前最先进方法的表现。在图像生成方面,MonoFormer在ImageNet 256x256上的FID为2.57,接近最优的扩散模型(DiT XL/2的FID为2.27)。在文本生成方面,它保持了预训练语言模型的能力,并在多个文本生成任务上表现良好。