MoE机制简介
Mixture-of-Experts(MoE,混合专家)是一种“分而治之”的神经网络架构思想。在MoE模型中,存在多个并行的子网络,被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时,并非激活所有专家参与运算,而是通过一个专门的门控网络(Gate Network)为每个输入动态选择少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数(稀疏激活),从而大幅提升模型参数规模上限的同时保持计算开销在可控范围内。
MoE的核心思想最早可以追溯到上世纪90年代:Jacobs等人在1991年提出了混合专家模型的概念,用多个专家网络共同完成任务,并由一个门控( gating )机制根据输入情况加权融合这些专家的输出。现代深度学习中,MoE架构在大规模模型上的成功应用始于2017年,Shazeer等人将MoE引入到语言模型训练中,构建了超大规模的MoE模型,使模型总参数量达到百亿级,但每次推理只需激活其中极小一部分参数。这项工作证明了MoE在参数扩展与计算效率上的巨大潜力:相比于传统“密集”模型需要激活所有参数,MoE模型通过稀疏激活节省了大量算力&#x