Главная / Глоссарий / Mixture of Experts

What is Mixture of Experts (смесь экспертов)?

Abbreviation: MoE

Mixture of Experts (MoE) — это архитектура LLM, в которой для каждого токена активируется только подмножество параметров, обеспечивая ёмкость большой модели при стоимости инференса меньшей. Mixtral 8x7B и 8x22B — популярные MoE-модели в каталоге osFoundry.

Detail

Стандартные трансформеры активируют каждый параметр для каждого токена. MoE-модели маршрутизируют токены через обученный gating-слой, который выбирает небольшое подмножество «экспертных» подсетей. Mixtral 8x22B имеет 176 млрд общих параметров, но активируется только ~39 млрд на токен — стоимость инференса соответствует ~40B плотной модели, но качество — гораздо большей.

MoE-модели требовательны к памяти при хостинге (нужны все эксперты загруженными), но дёшевы в эксплуатации за токен. Хорошо подходят для GPU-эндпоинтов с достаточным объёмом VRAM.