Beranda / Glosarium / Mixture of Experts

What is Mixture of Experts?

Abbreviation: MoE

Mixture of Experts (MoE) adalah arsitektur LLM di mana hanya subset parameter yang diaktifkan per token, memberikan kapasitas model besar pada biaya inference model yang lebih kecil. Mixtral 8x7B dan 8x22B adalah model MoE populer di katalog osFoundry.

Detail

Transformer standar mengaktifkan setiap parameter untuk setiap token. Model MoE merutekan token melalui lapisan gating yang dipelajari yang memilih subset kecil sub-network "expert". Mixtral 8x22B memiliki total 176B parameter tetapi hanya ~39B yang diaktifkan per token — biaya inference cocok dengan model dense ~40B, tetapi kualitas cocok dengan model yang jauh lebih besar.

Model MoE haus memori untuk dihosting (Anda butuh semua expert dimuat) tetapi murah untuk dijalankan per token. Cocok untuk endpoint GPU dengan VRAM yang cukup.

Related terms

parameters
self-hosting

Related features

self-host-llms
gpu-endpoint