ホーム / 用語集 / LoRAのホットスワップ
What is LoRAのホットスワップ?
LoRAのホットスワップとは、デプロイ済みのベースモデルに対し、推論時にモデルを再ロードせずにLoRAアダプターを切り替えられる機能です。osFoundryでは1つのGPUエンドポイントで、ベースモデルあたり最大16個のアクティブアダプターをホットスワップできます。
Detail
デプロイされたLLMエンドポイントは通常1つのモデルを提供します。ホットスワップを使えば、1つのベースモデル(例えばA100上のLlama 3.1 70B)をホストしつつ、リクエストごとに異なるLoRAアダプターへルーティングできます。サブ秒の切り替えで、再ロードによる遅延はありません。
これにより、N個の特化モデル亜種を提供するコストが、N個のモデルデプロイから1つに圧縮されます。ユーザー、ペルソナ、ドメインごとに、共有ベースの上で独自のファインチューニング済みアダプターを持てます。
How osFoundry approaches LoRAのホットスワップ
osFoundryのGPUエンドポイントはベースあたり最大16個のホットスワップ可能なアダプターをサポートします。osFoundry内で学習したアダプターは自動登録され、外部アダプターはアップロードできます。
Related terms
Related features