Accueil / Glossaire / Mixture of Experts

What is Mixture of Experts (Mélange d’experts)?

Abbreviation: MoE

Mixture of Experts (MoE) est une architecture de LLM où seul un sous-ensemble de paramètres est activé par token, offrant la capacité d’un grand modèle au coût d’inférence d’un plus petit. Mixtral 8x7B et 8x22B sont des modèles MoE populaires dans le catalogue d’osFoundry.

Detail

Les transformeurs standards activent chaque paramètre pour chaque token. Les modèles MoE acheminent les tokens à travers une couche de gating apprise qui sélectionne un petit sous-ensemble de sous-réseaux « experts ». Un Mixtral 8x22B a 176B de paramètres totaux mais seulement ~39B sont activés par token — le coût d’inférence correspond à un modèle dense ~40B, mais la qualité correspond à un modèle beaucoup plus grand.

Les modèles MoE sont gourmands en mémoire à héberger (vous avez besoin de tous les experts chargés) mais bon marché à exécuter par token. Bonne adéquation pour les endpoints GPU avec suffisamment de VRAM.