该模型能够在离散数据(如文本)和连续数据(如图像)上进行训练,并集成了语言模型的“下一个词预测”任务和扩散模型的图像生成能力;Transfusion 基本模型在多个基准任务上表现一般,最高配置模型在图像生成方面,其生成质量与其他扩散模型如SDXL等相当,但模型参数量是其2+倍;

具体方案

共享表示空间

Transfusion的一个贡献就是利用共享表示空间提升多模态任务的表现;“共享表示空间”是指模型通过将不同模态(例如文本和图像)的输入数据转换为相同格式的向量表示(即嵌入),并在相同的模型框架内处理它们。这意味着文本和图像数据在同一个模型的相同层级上进行处理,并共享同一个特征空间或表示空间。这种设计使得模型能够理解并生成跨模态的语义关联。

共享表示空间如何理解?

数据转化为统一的向量表示:
文本模态:文本输入首先通过嵌入层(embedding layer)转化为向量。每个单词都会被转换成一个固定长度的向量表示,表示它的语义特征。
图像模态:图像被切分为多个patch(图像块),然后将每个patch转化为与文本类似的向量表示。图像的这些局部块被视为一系列向量序列,像处理文本序列一样被处理。

共享的特征空间
一旦文本和图像都被转化为向量形式,它们就可以在同一空间中被表示和处理。共享表示空间的关键在于,模型可以对文本和图像使用相同的编码器(例如Transformer),以统一的方式处理不同模态的数据。这种设计具有以下优势:

模态融合:模型可以将来自文本和图像的特征融合在一起,从而生成跨模态的语义关联。例如,模型可以从图像中提取信息,并结合文本生成描述性的句子。
多模态理解:由于文本和图像的表示在相同的空间中,模型能够更好地理解两者之间的关系。例如,模型可以通过处理图像特征来回答基于视觉问题的问答任务,或生成图像的文本描述。

处理不同模态的灵活性
在共享表示空间中,模型能够灵活处理纯文本、纯图像或文本与图像混合的任务。共享表示空间确保模型能够根据输入数据在不同任务之间进行转换

跨模态任务的语义对齐
共享表示空间使得文本和图像在语义上能够对齐。这意味着模型可以理解文本中的语义,并将其映射到与图像对应的表示。反之亦然,模型可以从图像特征中提取出对应的文本信息。这种对齐使得模型能够执行跨模态任务

共享表示空间的优势

任务表现

最好的配置下(7B),最多的数据下(2Ttokens),图像生成的质量和SDXL(2.6B)差不多;比show-o的FID要低;但是全文比较的其他工作有限,基础配置下只和Chameleon模型比较;

文本生成任务:Transfusion比Chameleon模型表现更好,尤其在参数较少时,Transfusion使用的FLOPs显著减少。

图像生成任务:对比模型:Transfusion在图像生成中表现显著优于Chameleon,尤其是在计算效率上。Transfusion在图像生成任务中的FLOP效率约为Chameleon的34倍。同时,Transfusion生成的图像质量与其他领先的图像生成模型(如DeepFloyd和DALL-E 2)相当,且支持同时生成文本和图像。

视觉问答(VQA)
Transfusion能够有效处理视觉问答任务,结合文本和图像的表示空间生成准确的答案。在与Chameleon对比中,Transfusion通过其高效的扩散模型提升了回答问题的精度。