What is 专家混合（Mixture of Experts）?

Abbreviation: MoE

专家混合（MoE）是一种 LLM 架构，每个 token 只激活部分参数，从而以较小模型的推理成本获得大模型的容量。Mixtral 8x7B 和 8x22B 是 osFoundry 目录中流行的 MoE 模型。

Detail

标准 Transformer 对每个 token 都会激活全部参数。MoE 模型通过学习到的门控层将 token 路由到一小部分「专家」子网络。Mixtral 8x22B 总参数量为 1760 亿，但每个 token 只激活约 390 亿——推理成本与一个约 40B 的稠密模型相当，而质量却接近更大的模型。

MoE 模型托管时内存需求很高（需要加载所有专家），但单 token 运行成本很低。非常适合具有充足显存的 GPU 端点。

Related terms

parameters
self-hosting

Related features

self-host-llms
gpu-endpoint