ホーム / 機能 / 学習・ファインチューニング

osFoundryでAIモデルを学習・ファインチューニング

Llama、Mistral、Qwenを自身のデータでLoRAファインチューニング。安価な推論用に量子化。ランタイムでアダプターをホットスワップ。

osFoundryでは、自身のデータを使って任意のオープンウェイトLLMをLoRAでファインチューニングし、結果を安価な推論のために量子化し、ランタイムでアダプターをホットスワップできます — すべてワークスペースを離れずに。学習ジョブはローカルGPU、osFoundryクラウド、または自身のインフラ上で動きます。学習したモデルは、ワークスペース内のMaestroとあらゆるRoom Appから即時に利用可能になります。

Quick answer

Llama 3、Mistral、Qwen、その他60以上のベースモデルに対するLoRAファインチューニング — UI主導でノートブック不要。
3つの学習パス: ローカルGPU、osFoundryクラウド、または自前サーバー。
学習済みアダプターを安価な推論用にQ4/Q5まで量子化。
リクエスト単位のLoRAアダプターホットスワップ — モデル再ロード不要、サブ秒で切り替え。

What it is

ほとんどのAIプラットフォームは、ホスト型モデルにロックインするか、ノートブックを手渡してくるかのどちらかです。osFoundryの学習パイプラインはワークスペースネイティブで、ベースを選び、データセット(KB、公開データセット、アップロード)を指定し、LoRAのランクを選んで実行するだけ。学習済みアダプターは自動的にモデルカタログに登録され、学習完了の瞬間からMaestroからルーティング可能です。

Key capabilities

60以上のオープンウェイトベースモデルに対するLoRA + QLoRAファインチューニング。
アダプターのダウンロード — osFoundryから.safetensorsを取り出して他の環境にデプロイ可能。
Q4_K_M、Q5_K_M、Q6_K、FP16への量子化をワンクリックで。
1つのベースモデル上で最大16個のアクティブLoRAアダプターをホットスワップ。
ナレッジベース、アップロードしたJSONL/CSV、または25万件の公開データセットで学習。
ジョブごとに3つの学習パス: ローカルGPU、osFoundryクラウド、または自前インフラ。

How to do it in osFoundry

ベースモデルを選ぶ — /community/modelsを閲覧し、オープンウェイト(Llama、Mistral、Qwen、Phiなど)で絞り込み、目的のGPUに合うサイズを選びます。
データセットを指定する — ナレッジベース(自動で指示ペア形式に変換)を選ぶ、JSONL/CSVをアップロードする、カタログに索引化された25万件の公開データセットから選ぶ、のいずれかから。
学習設定を選ぶ — LoRAランク(8/16/32/64)、学習率、エポック数、対象モジュール。妥当なデフォルトが提供されており、そこから調整できます。
学習場所を選ぶ — ローカルGPU(無料)、osFoundryクラウド(GPU秒単位課金)、またはBYOインフラ(自身のクラスタへジョブをプッシュ)。
アダプターを出荷 — 学習完了時に、アダプターは自動でモデルカタログに登録されます。ベースモデルエンドポイントへホットスワップし、数分でリクエストのルーティングを開始できます。

How osFoundry compares

Capability	osFoundry	Most other tools
学習UI	ワークスペースネイティブ — ノートブック不要、コマンドライン不要。	ノートブックまたはCLIが必須。
アダプターエクスポート	学習設定込みで.safetensorsをワンクリックダウンロード。	ベンダーにロックイン、または手動エクスポート。
実行場所	ローカルGPU、当社クラウド、または自前インフラ。	単一の場所、固定価格。
学習後のルーティング	アダプターはMaestroとRoom Appから即時ルーティング可能。	アプリコードへの手動結線が必要。

Use cases

カスタマーサポートチーム: 18ヶ月分のサポート対話履歴でMistral 7Bをファインチューニング。エージェントは自社のトーンで応答し、製品を参照し、ブランドに沿った発言を維持します。
リーガルオペレーション: ラベル付き契約コーパスでLlama 3.1 8Bを学習し、自社事務所のスタイルで新契約をレッドライニング。オンプレミスに留まり、アダプターはワークスペースから出ません。
ゲームスタジオ: 自社のIPバイブルでQwen 14BをLoRAチューニングし、ゲーム内NPCの対話に活用。共有された1つのベースモデル上でキャラごとに異なるLoRAをホットスワップし、声の個性を保てます。

Frequently asked questions

osFoundryでのLoRAファインチューニングはどのくらい時間がかかりますか?

5万行のデータセットで7Bモデルなら、単一A100で約30分。70Bモデルで約3時間。M2/M3のMacでは7Bで約2時間です。

LoRAアダプターをosFoundryからエクスポートできますか?

はい — すべての学習済みアダプターは.safetensorsでダウンロード可能で、学習設定も含まれます。ロックインなし。

osFoundryはLoRAだけでなくフルファインチューニングもサポートしていますか?

現時点ではLoRA + QLoRAが推奨パスです。7B超のフルファインチューニングはロードマップ上にあります。今は必要であればBYOインフラをご利用ください。

どんなデータセットで学習できますか?

ナレッジベース(自動で指示ペア形式に変換)、アップロードしたJSONL/CSV/parquet、またはHuggingFaceから索引化された25万件の公開データセットです。

学習のコストはどれくらい?

ローカル学習は無料(自身のハードウェア)。クラウド学習は推論エンドポイントと同じレートでGPU秒単位課金。A100上の7B LoRAは1回の学習で約2〜3ドル、70Bは20〜30ドルです。

中断した学習ジョブを再開できますか?

はい — チェックポイントはNステップごとに保存(設定可能)。再開は最後のチェックポイントから行われ、ゼロからやり直すことはありません。

Pricing

ローカル学習: 無料(自身のハードウェア)。クラウド学習: 推論エンドポイントと同じレートでGPU秒単位課金(A10 / A100 / H100)。アダプターストレージはワークスペースのファイルストレージとして計測されます。