What is Mixture of Experts?

Abbreviation: MoE

Mixture of Experts (MoE, ou Mistura de Especialistas) é uma arquitetura de LLM em que apenas um subconjunto dos parâmetros é ativado por token, dando a capacidade de um modelo grande com o custo de inferência de um menor. Mixtral 8x7B e 8x22B são modelos MoE populares no catálogo do osFoundry.

Detail

Transformers padrão ativam cada parâmetro para cada token. Modelos MoE roteiam tokens por uma camada de gating aprendida que escolhe um pequeno subconjunto de sub-redes "especialistas". Um Mixtral 8x22B tem 176B parâmetros totais mas apenas ~39B são ativados por token — o custo de inferência se equipara a um modelo denso ~40B, mas a qualidade se equipara a um modelo muito maior.

Modelos MoE são famintos por memória para hospedar (você precisa de todos os experts carregados) mas baratos para rodar por token. Bom encaixe para endpoints de GPU com VRAM suficiente.

Related terms

parameters
self-hosting

Related features

self-host-llms
gpu-endpoint