混合专家模型（Mixture of Experts，MoE）详解

在当今大模型技术飞速发展的浪潮中，混合专家模型（Mixture-of-Experts, MoE）以其独特的稀疏激活特性，有效解决了模型规模与计算效率之间的平衡难题，已成为构建千亿乃至万亿参数大模型的核心架构。但MoE并不是最新发展的技术，早在90年代，便有相关思想的孕育，乘着大模型的东风又一次起飞，实乃老树换新芽。接下来，我们将深入探讨MoE的各个方面。

第一章、 MoE的前世今生

1.1 MoE的设计理念

MoE的核心思想源于"分而治之"的哲学：通过一个门控网络（Gating Network）和多个专家网络（Expert Network）协同工作，仅针对每个输入激活一部分最相关的专家，从而在保证模型总体参数规模的同时，控制实际计算开销。基本公式如下：

y = \sum_{i=1}^n G(x)_i \cdot E_i(x)

其中， $G(x)$ 是门控网络，负责生成专家权重分布； $E_i(x)$ 是第i个专家网络的输出； $y$ 是最终输出。

MoE与集成学习（Ensemble）的本质区别：
虽然MoE和集成学习都使用多个组件，但它们的核心机制截然不同。集成学习是让所有模型共同参与决策，典型如投票或平均，属于"集体决策"。而MoE则根据输入，通过门控网络动态选择一个或几个最相关的专家进行处理，属于专业分工。这种稀疏激活机制，使得MoE在参数量巨大的情况下，仍能保持较高的计算效率。

核心机制：稀疏 vs. 密集激活
- 标准MoE（稀疏激活）：这是MoE的典型形式，通过门控网络（Gating Network）为每个输入动态选择少数专家（如1个或2个）进行激活。其他专家不参与计算，从而实现计算效率的提升。
- “密集型MoE”：如果所有专家都对每个输入进行推理，那么它在激活模式上确实与Ensemble相似（所有模型都参与）。但即使如此，MoE的输出通常是通过门控网络对专家输出进行加权求和，而Ensemble的输出可能是简单的平均、投票或堆叠（Stacking）。
训练方式：联合训练 vs. 独立训练
- MoE：专家网络和门控网络是联合训练的。门控网络学习如何根据输入分配权重，专家网络学习专精于不同的数据子集。训练过程中，门控和专家共同优化，形成一个协同系统。
- Ensemble：基学习器通常是独立训练的（例如，Bagging中的随机森林独立训练多棵树，Boosting中的模型顺序训练）。然后，在推理时组合它们的输出，没有动态的路由机制。
参数使用与计算效率
- MoE：即使所有专家都被激活，MoE的架构设计初衷也是为了提高参数规模而不线性增加计算成本。在“密集型”情况下，计算成本会很高，但这违背了MoE的典型优势（稀疏性）。
- Ensemble：计算成本与模型数量线性增长，因为没有稀疏激活机制，所有模型必须对每个输入进行完整推理。
设计目标
- MoE：主要目标是在保持高性能的同时，扩展模型参数规模（如达到万亿参数），并通过稀疏激活提高推理效率。它更注重模型容量和专业化分工。
- Ensemble：主要目标是提高预测准确性和鲁棒性，减少过拟合或方差，通过“集体智慧”来提升性能。

1.2 不同时代的MoE

DeepLearning时代前
MoE的思想最早可追溯至1991年Robert Jacobs和Geoffrey Hinton等人的开创性工作。他们提出通过一组"专家"子网络和一个"门控"网络，实现对输入数据的选择性处理，即仅激活与当前输入最相关的少数专家。这一时期的研究受限于数据和算力，未能引起广泛关注，但为后续发展奠定了重要理论基础。
DeepLearning时代
随着深度学习的兴起，尤其是神经网络的广泛应用，MoE研究迎来了新的活力。2010-2017年间，研究人员开始将MoE与深度学习模型结合，探索更复杂的专家结构和门控机制。这些工作主要集中在学术研究领域，试图解决模型容量与计算效率之间的平衡问题，为后续在大规模语言模型中的应用奠定了基础。
大模型时代
进入大模型时代，MoE从理论探索走向了产业应用的核心。2017-2020年，随着Transformer架构的提出和普及，研究人员开始尝试将MoE与Transformer结合。2020年至今，MoE已成为顶尖大语言模型的主流选择之一。
代表性模型包括：

Switch-Transformer（Google）：简化路由设计，提出单个专家激活
GLaM（Google）：在推理时使用显著更少的计算资源就超过了GPT-3的表现
Mixtral 8x7B（Mistral AI）：开源模型典范，总参数量庞大但激活参数量少
DeepSeek系列：在细粒度专家和训练效率上进行了深度创新

大模型时代，MoE 的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预测。这意味着在相同的计算预算条件下，可以显著扩大模型或数据集的规模。特别是在预测阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。例如 Google 的 Switch Transformer，模型大小是 T5-XXL 的 15 倍，在相同计算资源下，Switch Transformer 模型在达到固定困惑度 PPL 时，比 T5-XXL 模型快 4 倍。

国内的团队 DeepSeek 开源了国内首个 MoE 大模型 DeepSeekMoE。DeepSeekMoE 2B 可接近 7B Dense，仅用了 17.5% 计算量。DeepSeekMoE 16B 性能比肩 LLaMA2 7B 的同时，仅用了 40% 计算量。DeepSeekMoE 145B 优于 Google 的 MoE 大模型 GShard，而且仅用 28.5% 计算量即可匹配 67B Dense 模型的性能。

第二章、MoE的架构

接下来的介绍将基于大模型Transformer的范式

2.1 MoE总体架构

在LLM的Transformer中，MoE主要位于FFN层，原因是随着模型规模的扩大，FFN的计算量和参数量增加，例如，早参数量为540B的Palm模型中，这些参数的90%位于其FFN层内。

下图是Transformer添加MoE前后对比图，可以看出

MoE

MoE分为专家网络和路由（或称为门控网络）两大模块构成。

参照MoE的核心公式：

y = \sum_{i=1}^n G(x)_i \cdot E_i(x)

其中， $G(x)$ 是门控网络，负责生成专家权重分布，对应n个专家，每个专家本身是一个独立的神经网络，实际应用中，这些专家通常是前馈网络FFN，但也可以是更复杂的网络结构。实现了将传统Transformer中的FFN（前馈网络层）替换为多个稀疏（后面会解释）的专家层（Sparse MoE layers）
$E(x)$ 对应路由或称为门控网络，通常由MHA+LN的结果作为输入，通过一层线性层生成各个专家的权重分布，然后通过topk等方式选择前k个专家实现稀疏，决定输入的token发送给哪些专家，来加权计算得到最终结果，实现路由