Home / Glossary / Mixture of Experts

What is Mixture of Experts?

Abbreviation: MoE

Mixture of Experts (MoE) एक LLM architecture है जहाँ प्रति token केवल parameters का एक subset activated होता है, एक large model की capacity एक smaller model की inference cost पर देता है। Mixtral 8x7B और 8x22B osFoundry के catalog में popular MoE models हैं।

Detail

Standard transformers हर token के लिए हर parameter को activate करते हैं। MoE models tokens को एक learned gating layer के माध्यम से route करते हैं जो "expert" sub-networks का एक छोटा subset pick करता है। एक Mixtral 8x22B में 176B total parameters हैं लेकिन प्रति token केवल ~39B activated होते हैं — inference cost एक ~40B dense model से match करती है, लेकिन quality एक बहुत बड़े model से match करती है।

MoE models host करने के लिए memory-hungry हैं (आपको सभी experts loaded चाहिए) लेकिन प्रति token चलाने के लिए cheap हैं। पर्याप्त VRAM वाले GPU endpoints के लिए अच्छा fit।