深入理解混合专家模型(MoE)的路由与训练

深入理解混合专家模型(MoE)的路由、训练与架构

本文档整理了关于混合专家模型（Mixture of Experts, MoE）的详细讲解，从核心思想到具体的路由机制、训练挑战、前沿架构，并包含了相关的深入问答，旨在提供一个全面而深入的理解。

1. 核心思想：用“专家委员会”替代“全能天才”

传统的“稠密模型”（Dense Model）在处理任何任务时，都需要调动其全部参数，计算成本高昂。MoE的核心思想则完全不同，它主张“分工合作”：

**专家 (Experts)**：将一个庞大的神经网络层（通常是FFN层）拆分成多个更小、更专业的子网络，即“专家”。
**路由器 (Router)**：引入一个智能调度网络，负责分析输入数据（Token），并决定将其发送给哪个或哪几个最合适的专家进行处理。

通过这种稀疏激活 (Sparse Activation) 的机制，MoE模型可以在拥有巨大总参数量的同时，保持单次计算的成本非常低，实现了“用更少的计算撬动更大的模型”。

2. 架构演进：从粗粒度到细粒度专家

**粗粒度专家 (Coarse-grained Experts)**：在早期的MoE模型中，专家数量较少（如8个），每个专家负责一个相对宽泛的领域，就像医院的“内科”、“外科”。
细粒度专家 (Fine-grained Experts)：这是更先进的设计，其核心是提升专家的“专业纯度”。
- 做法：通过“细粒度专家切分”技术，将一个大而泛的专家进一步分解为多个小而精的专家（例如，从8个专家切分成64个）。
- 优势：
  1. 提升专业化水平：每个专家专注于更狭窄的领域。
  2. 增强组合的灵活性：路由器拥有了指数级增长的“专家团队”组合可能性，能为复杂任务进行更精确的资源调配。
共享专家 (Shared Experts)：为了让细粒度专家更“纯粹”，像DeepSeek-V2这样的模型还引入了“共享专家”。
- 作用：负责处理通用的、高频的知识（如语法、常识），并且每次计算都会被激活。
- 协同工作：通用知识由“共享专家”处理，专业领域的知识由被路由器选中的“细粒度专家”处理，实现了知识的有效分离和参数的高效利用。

3. 训练中的核心挑战与解决方案

训练MoE模型的核心矛盾在于：效率（需要稀疏性）与训练可行性（需要可微分）之间的冲突。稀疏的“选择”操作是离散的，无法直接通过梯度下降进行学习。

主要有三种解决方案：

强化学习：将路由选择建模为一个RL问题。理论优雅，但实践中训练不稳定。
随机扰动：通过添加噪声（如Gumbel-Softmax）将离散选择近似为连续可导的过程。但会增加训练的随机性。
启发式的“平衡”损失 (Heuristic Balancing Losses)：这是目前最主流、最成功的方案。
- 问题: 如果不加约束，路由器会“偷懒”，倾向于只把任务交给少数几个表现最好的“明星专家”，导致负载不均和资源浪费。
- 解决方案: 引入一个辅助损失函数，在训练时对不均衡的路由行为进行“惩罚”，鼓励路由器将任务均匀地分配给所有专家。

Brainstorm Q&A: 路由、训练与架构细节

问：需要考虑将数据路由到256个独立的专家（experts）中，怎么理解？

答：这句话的意思是：我们需要设计一个高效的调度系统（路由器），能够智能地分析输入数据（Token），并决定将其发送给256个“专业顾问”（即专家网络）中的哪几个进行处理，从而在不增加过多计算负担的情况下，利用这个庞大而专业的团队来完成复杂的任务。

问：Token Choice (词元选择) 是怎么回事？

答： “Token Choice”指的是，对于输入的每一个词元（Token），路由器如何智能地决定应该把它发送给哪一个或哪几个专家去处理。这个过程是MoE模型动态运行的核心，也是其复杂性的主要来源。它主要包括打分（Scoring）和决策（Decision-Making）两个步骤，并受到专家容量（Expert Capacity）的现实约束。

问：路由器的选择是基于词元本身，还是它的位置？(Is this a function of the token itself or its position?)

答：这个选择绝大多数是基于“词元本身”的功能，但这个“词元本身”的表示形式，早已深度融合了其“位置”信息。路由器看到的不是孤立的词和位置，而是一个已经将词元身份、位置、上下文全部融合在一起的、唯一的、高维度的**隐藏状态向量 (hidden state representation)**。路由器的决策，就是这个隐藏状态的函数。

问：S-BASE, which is a linear assignment 怎么理解？

答： S-BASE（Sinkhorn-Based Assignment for Experts）是一种用于MoE的先进路由算法，它将Token到专家的分配问题，建模为一个全局的“线性分配问题”。它不再让每个Token贪婪地选择自己最喜欢的专家，而是通过一个高效、可微分的优化算法（Sinkhorn算法），为整批Tokens计算出一个能实现完美负载均衡且整体匹配度最高的分配方案，从而极大地提升了模型的训练和推理效率。

问：如何理解“启发式的平衡损失”？

答：这是一种非常务实且聪明的工程解决方案。它通过在总损失函数中增加一个惩罚项 α * Σ(f_i · P_i)，来惩罚“路由器的分配意图”（P_i）和“专家的实际工作量”（f_i）同时都很高的情况。这会巧妙地引导路由器将计算任务均匀地分配给所有专家，从而解决了负载不均衡的问题，是成功训练大规模MoE模型的关键技术。

问：DeepSeek V2的“无辅助损失平衡”又是怎么回事？

答：这是一种比“辅助损失”更先进的“事前干预”策略。它为每个专家引入一个可动态调整的**偏置项 (bias)**。空闲的专家获得正偏置（更容易被选中），繁忙的专家获得负偏置。这个偏置只影响路由选择，不影响最终的输出权重。这样，它在路由决策的“当下”就直接进行了干预以强制实现平衡，无需引入额外的辅助损失项和相关的超参数，简化了训练目标。

整理自: Mixture Of Experts Routing Explained, MOE Fine-Grained Experts Explained

AI整理的对话笔记

深入理解混合专家模型(MoE)的路由与训练

http://zl1bks.github.io/2025/09/20/深入理解混合专家模型(MoE)的路由与训练/

作者

zl1bks

发布于

2025年9月20日

许可协议

神经网络基石：梯度、传播与激活函数上一篇

Transformer FFN设计：为何移除偏置项下一篇