What is LoRA?

Abbreviation: LoRA

LoRA(Low-Rank Adaptation)は、凍結したベースモデルの上に少数の「アダプター」パラメータだけをファインチューニングする手法で、学習コストを大幅に削減します。osFoundryは60以上のオープンウェイトベースモデルをUIフローでLoRAファインチューニングできます。ノートブックは不要です。

Detail

ファインチューニング時にすべてのモデルパラメータを更新する代わりに(遅く、メモリも大量に消費)、LoRAはattention層に小さな学習可能行列を挿入します。ベースモデルは凍結したまま、アダプター重みだけが学習されます。結果として、ストレージは100〜1000分の1、学習時間は約10分の1、多くのタスクで同等の品質が得られます。

LoRAアダプターは小さく(GBではなくMB単位)、デプロイメント間で持ち運び可能で、積み重ねも可能です。1つのベースモデルに複数のアダプターをホットスワップできます。

How osFoundry approaches LoRA

osFoundryは数分〜数時間でLoRAアダプターを学習し、モデルカタログに登録し、推論時にベースモデルのエンドポイントへホットスワップします。共有された1つのGPU上で、多数の特化挙動を運用できます。