Startseite / Glossar / Mixture of Experts

What is Mixture of Experts?

Abbreviation: MoE

Mixture of Experts (MoE) ist eine LLM-Architektur, bei der nur eine Teilmenge der Parameter pro Token aktiviert wird, was die Kapazität eines großen Modells bei den Inferenzkosten eines kleineren bietet. Mixtral 8x7B und 8x22B sind beliebte MoE-Modelle im Katalog von osFoundry.

Detail

Standard-Transformer aktivieren jeden Parameter für jedes Token. MoE-Modelle routen Tokens durch eine gelernte Gating-Schicht, die eine kleine Teilmenge von „Experten“-Subnetzwerken auswählt. Ein Mixtral 8x22B hat insgesamt 176 Mrd. Parameter, aber nur ~39 Mrd. werden pro Token aktiviert — die Inferenzkosten entsprechen einem dichten ~40B-Modell, die Qualität jedoch einem deutlich größeren Modell.

MoE-Modelle sind speicherhungrig im Hosting (alle Experten müssen geladen sein), aber günstig im Betrieb pro Token. Gut geeignet für GPU-Endpunkte mit ausreichend VRAM.

Related terms

parameters
self-hosting

Related features

self-host-llms
gpu-endpoint