论文list

  1. ** DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models** 2024.01

DeepSeekMoE

Image

**,它提出了一种名为 DeepSeekMoE 的新的Mixture-of-Experts(MoE)架构,旨在通过更好的专家专门化来提高MoE语言模型的性能。

1. 目的

文章的主要目的是解决当前MoE架构中的专家专门化问题。传统的MoE架构(如GShard)面临以下两个主要问题:

DeepSeekMoE 通过两种主要策略来应对这些问题:

2. 具体方法

Image

2.1 精细专家分割(Fine-Grained Expert Segmentation):

在传统的Mixture-of-Experts(MoE)架构中,每个专家的前馈网络(Feed-Forward Network,FFN)通常具有相同的隐藏维度。为了解决知识混杂的问题,DeepSeekMoE采用了精细的专家分割策略:

2.2 共享专家隔离(Shared Expert Isolation):

为了进一步减少冗余知识和确保不同专家间的专门化,DeepSeekMoE提出了“共享专家”策略。

Image

$e^l_i$表示的是每个专家的质心,即可学习的embedding,用来计算和Token的相似度来投票出TopK个专家;

2.3 专家级平衡损失(Expert-Level Balance Loss)

Image

2.4 设备级平衡损失(Device-Level Balance Loss)

Image

2.5 参数和计算效率

DeepSeekMoE保持了传统MoE架构的计算效率,同时通过以上的策略进一步优化了计算量和参数的使用:

3. 下游表现

DeepSeekMoE的下游表现显示了它在多个任务上的优越性,尤其是在以下几个方面:

DeepSeekV3

MLA