ホーム / 用語集 / LoRAのホットスワップ

What is LoRAのホットスワップ?

LoRAのホットスワップとは、デプロイ済みのベースモデルに対し、推論時にモデルを再ロードせずにLoRAアダプターを切り替えられる機能です。osFoundryでは1つのGPUエンドポイントで、ベースモデルあたり最大16個のアクティブアダプターをホットスワップできます。

Detail

デプロイされたLLMエンドポイントは通常1つのモデルを提供します。ホットスワップを使えば、1つのベースモデル(例えばA100上のLlama 3.1 70B)をホストしつつ、リクエストごとに異なるLoRAアダプターへルーティングできます。サブ秒の切り替えで、再ロードによる遅延はありません。

これにより、N個の特化モデル亜種を提供するコストが、N個のモデルデプロイから1つに圧縮されます。ユーザー、ペルソナ、ドメインごとに、共有ベースの上で独自のファインチューニング済みアダプターを持てます。

osFoundryのGPUエンドポイントはベースあたり最大16個のホットスワップ可能なアダプターをサポートします。osFoundry内で学習したアダプターは自動登録され、外部アダプターはアップロードできます。