Home / Glossario / Mixture of Experts

What is Mixture of Experts?

Abbreviation: MoE

Mixture of Experts (MoE) è un'architettura LLM in cui solo un sottoinsieme dei parametri viene attivato per token, fornendo la capacità di un modello grande al costo di inferenza di uno più piccolo. Mixtral 8x7B e 8x22B sono modelli MoE popolari nel catalogo di osFoundry.

Detail

I transformer standard attivano ogni parametro per ogni token. I modelli MoE instradano i token attraverso un layer di gating appreso che seleziona un piccolo sottoinsieme di sub-reti «esperte». Un Mixtral 8x22B ha 176B parametri totali ma solo ~39B vengono attivati per token: il costo di inferenza eguaglia un modello dense da ~40B, ma la qualità eguaglia un modello molto più grande.

I modelli MoE sono affamati di memoria da ospitare (deve avere tutti gli esperti caricati) ma economici da eseguire per token. Buono fit per endpoint GPU con abbastanza VRAM.

Related terms

parameters
self-hosting

Related features

self-host-llms
gpu-endpoint