홈 / 용어집 / 전문가 혼합

What is 전문가 혼합 (Mixture of Experts)?

Abbreviation: MoE

전문가 혼합(MoE)은 토큰별로 파라미터의 하위 집합만 활성화되어 대형 모델의 용량을 소형 모델의 추론 비용으로 제공하는 LLM 아키텍처입니다. Mixtral 8x7B와 8x22B는 osFoundry 카탈로그의 인기 있는 MoE 모델입니다.

Detail

표준 트랜스포머는 모든 토큰에 대해 모든 파라미터를 활성화합니다. MoE 모델은 토큰을 학습된 게이팅 레이어를 통해 라우팅하여 작은 "전문가" 하위 네트워크 집합을 선택합니다. Mixtral 8x22B는 총 176B 파라미터를 가지지만 토큰당 약 39B만 활성화됩니다 — 추론 비용은 약 40B 밀집 모델과 같지만, 품질은 훨씬 더 큰 모델과 일치합니다.

MoE 모델은 호스팅에 메모리가 많이 들지만(모든 전문가를 로드해야 함) 토큰당 실행 비용은 저렴합니다. 충분한 VRAM을 갖춘 GPU 엔드포인트에 적합합니다.