Inicio / Glosario / Mezcla de expertos

What is Mezcla de Expertos?

Abbreviation: MoE

La mezcla de expertos (MoE) es una arquitectura de LLM en la que solo un subconjunto de parámetros se activa por token, ofreciendo la capacidad de un modelo grande al coste de inferencia de uno más pequeño. Mixtral 8x7B y 8x22B son modelos MoE populares en el catálogo de osFoundry.

Detail

Los transformers estándar activan todos los parámetros para cada token. Los modelos MoE enrutan los tokens a través de una capa de compuerta aprendida que selecciona un pequeño subconjunto de subredes «expertas». Un Mixtral 8x22B tiene 176B de parámetros totales pero solo ~39B se activan por token: el coste de inferencia equivale a un modelo denso de ~40B, pero la calidad iguala a uno mucho más grande.

Los modelos MoE son hambrientos de memoria para alojarlos (necesitan todos los expertos cargados) pero baratos de ejecutar por token. Buen encaje para endpoints de GPU con suficiente VRAM.