MonoFormer 是一种多模态生成模型，基本想法和Transfusion类似，它通过共享一个Transformer模型实现了文本自回归和图像扩散两种生成任务。MonoFormer提出了一种统一的框架，使同一个Transformer架构同时用于多种模态的生成任务。

与Transfusion的比较总结

1.与Transfusion高度类似，都是共享Transformer模型，都是同时使用因果attention和双向attention完成文本自回归任务和图像扩散任务，都是连续特征，都是文本和图像共享特征空间
2.MonoFormer 整体而言没有Transfusion的效果好，表现在：
- a.模型scale up的能力（MonoFormer 1B vs Transfusion 7B）
- b.多模态任务质量（MonoFormer 部分指标下降，文章提到We believe the performance can be further improved when more language data are incorporated in training，且图像生成质量没有和SD系列模型比较）
- c.图像编辑能力（Transfusion展现了文本控制图像编辑，MonoFormer没有）

以下是MonoFormer的多模态实现方法的详细介绍：

1. 模型架构设计

MonoFormer的核心思想是使用单一Transformer架构同时处理自回归（文本生成）和扩散（图像生成）两种不同任务。在现有的多模态模型中，通常会使用两个不同的网络，一个用于离散数据（例如文本）的自回归建模，另一个用于连续数据（例如图像）的扩散建模。而MonoFormer则通过共享Transformer模型来同时处理离散（文本）和连续（图像）数据，减少了模型的复杂性。

自回归（Autoregression）部分：自回归模型用于文本生成，采用因果注意力（Causal Attention）机制来确保每个文本token只能看到它之前的token，从而保证顺序生成。这与经典的语言模型（如GPT）类似。
扩散（Diffusion）部分：扩散模型用于图像生成，采用双向注意力（Bidirectional Attention），允许每个图像patch可以与同一图像中的其他patch相互作用。这与图像生成中的扩散模型类似（如DDPM）。

2. 多模态处理方法

MonoFormer的关键创新在于如何在同一个Transformer中处理离散的文本生成和连续的图像生成。这种多模态处理的实现方式包括以下几个方面：

a. 不同的注意力机制

MonoFormer针对文本和图像任务使用不同的注意力机制：

文本任务：文本生成任务使用因果注意力掩码（Causal Attention Mask），这确保了生成下一个文本token时，当前token只能关注它之前的token，而不能看到未来的token。这样保证了文本生成过程是自回归的，即每次生成一个token。
图像任务：图像生成任务使用双向注意力掩码（Bidirectional Attention Mask），允许图像的所有patch相互之间进行交互。与文本生成不同，图像生成不需要因果性，因此双向注意力可以提高图像生成的质量和效率。

b. 输入处理

MonoFormer接收的输入既可以是文本token序列，也可以是图像的嵌入。具体来说：

文本输入：文本生成任务的输入是文本的token嵌入，Transformer在自回归模式下生成下一个token的嵌入，最终将这些嵌入解码成具体的文本输出。
图像输入：图像生成任务则是通过扩散模型的方式进行，输入是加入噪声的图像latent表示，模型的任务是逐步去除这些噪声，生成高质量的图像。

c. 共享Transformer权重

MonoFormer的Transformer结构是共享的，即文本生成和图像生成任务共用同一组Transformer参数。Transformer通过不同的注意力掩码来区分文本和图像任务，因此可以同时处理两种模态的数据。

3. 训练过程

MonoFormer的训练过程分为两个部分：文本生成任务使用自回归训练，图像生成任务使用扩散训练。

文本生成的损失：文本生成部分的损失是标准的自回归负对数似然损失（Negative Log-Likelihood Loss）。模型根据已经生成的文本token预测下一个token。
图像生成的损失：图像生成部分的损失是扩散模型常用的L2损失（均方误差损失）。模型通过逐步去噪的方式还原图像，损失衡量的是模型预测的噪声与实际噪声之间的差异。

4. 推理过程

在推理过程中，MonoFormer可以根据输入的不同模态灵活切换生成模式：

文本生成：当输入为文本时，模型按照自回归的方式逐步生成文本，每次预测下一个token。
图像生成：当开始图像生成时，模型按照扩散模型的推理过程，输入随机噪声，并通过多次迭代生成高质量图像。

5. 实验与性能

实验结果表明，MonoFormer在生成图像和文本的任务上均取得了接近于当前最先进方法的表现。在图像生成方面，MonoFormer在ImageNet 256x256上的FID为2.57，接近最优的扩散模型（DiT XL/2的FID为2.27）。在文本生成方面，它保持了预训练语言模型的能力，并在多个文本生成任务上表现良好。

【论文阅读】MONOFORMER: ONE TRANSFORMER FOR BOTH DIFFUSION AND AUTOREGRESSION