ホーム / 機能 / 学習・ファインチューニング
osFoundryでAIモデルを学習・ファインチューニング
Llama、Mistral、Qwenを自身のデータでLoRAファインチューニング。安価な推論用に量子化。ランタイムでアダプターをホットスワップ。
osFoundryでは、自身のデータを使って任意のオープンウェイトLLMをLoRAでファインチューニングし、結果を安価な推論のために量子化し、ランタイムでアダプターをホットスワップできます — すべてワークスペースを離れずに。学習ジョブはローカルGPU、osFoundryクラウド、または自身のインフラ上で動きます。学習したモデルは、ワークスペース内のMaestroとあらゆるRoom Appから即時に利用可能になります。
Quick answer
- Llama 3、Mistral、Qwen、その他60以上のベースモデルに対するLoRAファインチューニング — UI主導でノートブック不要。
- 3つの学習パス: ローカルGPU、osFoundryクラウド、または自前サーバー。
- 学習済みアダプターを安価な推論用にQ4/Q5まで量子化。
- リクエスト単位のLoRAアダプターホットスワップ — モデル再ロード不要、サブ秒で切り替え。
What it is
ほとんどのAIプラットフォームは、ホスト型モデルにロックインするか、ノートブックを手渡してくるかのどちらかです。osFoundryの学習パイプラインはワークスペースネイティブで、ベースを選び、データセット(KB、公開データセット、アップロード)を指定し、LoRAのランクを選んで実行するだけ。学習済みアダプターは自動的にモデルカタログに登録され、学習完了の瞬間からMaestroからルーティング可能です。
Key capabilities
- 60以上のオープンウェイトベースモデルに対するLoRA + QLoRAファインチューニング。
- アダプターのダウンロード — osFoundryから.safetensorsを取り出して他の環境にデプロイ可能。
- Q4_K_M、Q5_K_M、Q6_K、FP16への量子化をワンクリックで。
- 1つのベースモデル上で最大16個のアクティブLoRAアダプターをホットスワップ。
- ナレッジベース、アップロードしたJSONL/CSV、または25万件の公開データセットで学習。
- ジョブごとに3つの学習パス: ローカルGPU、osFoundryクラウド、または自前インフラ。
How to do it in osFoundry
- ベースモデルを選ぶ — /community/modelsを閲覧し、オープンウェイト(Llama、Mistral、Qwen、Phiなど)で絞り込み、目的のGPUに合うサイズを選びます。
- データセットを指定する — ナレッジベース(自動で指示ペア形式に変換)を選ぶ、JSONL/CSVをアップロードする、カタログに索引化された25万件の公開データセットから選ぶ、のいずれかから。
- 学習設定を選ぶ — LoRAランク(8/16/32/64)、学習率、エポック数、対象モジュール。妥当なデフォルトが提供されており、そこから調整できます。
- 学習場所を選ぶ — ローカルGPU(無料)、osFoundryクラウド(GPU秒単位課金)、またはBYOインフラ(自身のクラスタへジョブをプッシュ)。
- アダプターを出荷 — 学習完了時に、アダプターは自動でモデルカタログに登録されます。ベースモデルエンドポイントへホットスワップし、数分でリクエストのルーティングを開始できます。
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| 学習UI | ワークスペースネイティブ — ノートブック不要、コマンドライン不要。 | ノートブックまたはCLIが必須。 |
| アダプターエクスポート | 学習設定込みで.safetensorsをワンクリックダウンロード。 | ベンダーにロックイン、または手動エクスポート。 |
| 実行場所 | ローカルGPU、当社クラウド、または自前インフラ。 | 単一の場所、固定価格。 |
| 学習後のルーティング | アダプターはMaestroとRoom Appから即時ルーティング可能。 | アプリコードへの手動結線が必要。 |
Use cases
- カスタマーサポートチーム: 18ヶ月分のサポート対話履歴でMistral 7Bをファインチューニング。エージェントは自社のトーンで応答し、製品を参照し、ブランドに沿った発言を維持します。
- リーガルオペレーション: ラベル付き契約コーパスでLlama 3.1 8Bを学習し、自社事務所のスタイルで新契約をレッドライニング。オンプレミスに留まり、アダプターはワークスペースから出ません。
- ゲームスタジオ: 自社のIPバイブルでQwen 14BをLoRAチューニングし、ゲーム内NPCの対話に活用。共有された1つのベースモデル上でキャラごとに異なるLoRAをホットスワップし、声の個性を保てます。
Frequently asked questions
osFoundryでのLoRAファインチューニングはどのくらい時間がかかりますか?
5万行のデータセットで7Bモデルなら、単一A100で約30分。70Bモデルで約3時間。M2/M3のMacでは7Bで約2時間です。
LoRAアダプターをosFoundryからエクスポートできますか?
はい — すべての学習済みアダプターは.safetensorsでダウンロード可能で、学習設定も含まれます。ロックインなし。
osFoundryはLoRAだけでなくフルファインチューニングもサポートしていますか?
現時点ではLoRA + QLoRAが推奨パスです。7B超のフルファインチューニングはロードマップ上にあります。今は必要であればBYOインフラをご利用ください。
どんなデータセットで学習できますか?
ナレッジベース(自動で指示ペア形式に変換)、アップロードしたJSONL/CSV/parquet、またはHuggingFaceから索引化された25万件の公開データセットです。
学習のコストはどれくらい?
ローカル学習は無料(自身のハードウェア)。クラウド学習は推論エンドポイントと同じレートでGPU秒単位課金。A100上の7B LoRAは1回の学習で約2〜3ドル、70Bは20〜30ドルです。
中断した学習ジョブを再開できますか?
はい — チェックポイントはNステップごとに保存(設定可能)。再開は最後のチェックポイントから行われ、ゼロからやり直すことはありません。
Pricing
ローカル学習: 無料(自身のハードウェア)。クラウド学習: 推論エンドポイントと同じレートでGPU秒単位課金(A10 / A100 / H100)。アダプターストレージはワークスペースのファイルストレージとして計測されます。
Related features