What is Mixture of Experts (MoE)?

Abbreviation: MoE

Mixture of Experts(MoE)は、トークンごとにパラメータの一部だけを活性化させるLLMアーキテクチャで、大規模モデルの容量を小規模モデルと同等の推論コストで実現します。Mixtral 8x7Bと8x22Bは、osFoundryカタログで人気のMoEモデルです。

Detail

標準的なトランスフォーマーはトークンごとにすべてのパラメータを活性化させます。MoEモデルは学習済みのゲーティング層がトークンを「エキスパート」サブネットワークの小さな部分集合へルーティングします。Mixtral 8x22Bは合計1760億パラメータを持ちますが、トークンあたり約390億しか活性化しません。推論コストは約40Bの密モデル並みでありながら、はるかに大規模なモデル並みの品質を実現します。

MoEモデルはホスティングにメモリを大量に消費しますが(全エキスパートをロードする必要がある)、トークンあたりの実行コストは安価です。十分なVRAMを持つGPUエンドポイントに適しています。