Startseite / Glossar / Mixture of Experts
What is Mixture of Experts?
Abbreviation: MoE
Mixture of Experts (MoE) ist eine LLM-Architektur, bei der nur eine Teilmenge der Parameter pro Token aktiviert wird, was die Kapazität eines großen Modells bei den Inferenzkosten eines kleineren bietet. Mixtral 8x7B und 8x22B sind beliebte MoE-Modelle im Katalog von osFoundry.
Detail
Standard-Transformer aktivieren jeden Parameter für jedes Token. MoE-Modelle routen Tokens durch eine gelernte Gating-Schicht, die eine kleine Teilmenge von „Experten“-Subnetzwerken auswählt. Ein Mixtral 8x22B hat insgesamt 176 Mrd. Parameter, aber nur ~39 Mrd. werden pro Token aktiviert — die Inferenzkosten entsprechen einem dichten ~40B-Modell, die Qualität jedoch einem deutlich größeren Modell.
MoE-Modelle sind speicherhungrig im Hosting (alle Experten müssen geladen sein), aber günstig im Betrieb pro Token. Gut geeignet für GPU-Endpunkte mit ausreichend VRAM.
Related terms
Related features