ホーム / 機能 / あらゆるモデルを実行 / LLMをセルフホスト

osFoundryでLLMをセルフホスト — オープンウェイト、ベンダーロックインなし

osFoundryは、任意のオープンウェイトLLM(Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSS)を、重み、ランタイム、ルーティングの完全な制御権とともにセルフホストします。ローカルハードウェア、osFoundryクラウドの専用GPUエンドポイント、または自身のインフラ上で実行可能。モデルはワークスペースカタログに登録され、ロードされた瞬間からMaestroからルーティング可能になります。

Quick answer

カタログに索引化された7.6万のオープンウェイトモデルのいずれもセルフホスト可能。
3つのランタイム: ローカルハードウェア、osFoundryクラウドGPUエンドポイント、自身のGPUサーバー。
モデルはロードした瞬間からワークスペースでルーティング可能。
データの完全な管理権 — 重みもプロンプトもスコープを離れません。

Key capabilities

7.6万のオープンウェイトモデルが索引化され、ワンクリックでインストール可能。
組み込みの推論サーバー(Ollama不要、llama.cppの手動セットアップ不要)。
インストール時に量子化を選択: 安価ならQ4、フル精度ならFP16。
ベースモデル上にLoRAアダプターをホットスワップ — 1つのGPUで多数の特化バリアント。
ワークスペース全体ルーティング — 同じモデルハンドル、3つのバックエンドが可能。

How to do it in osFoundry

モデルを閲覧して選ぶ — /community/modelsを開き、オープンウェイトで絞り込み、対象ハードウェアに合うサイズを選びます。
ホスト先を選ぶ — ローカル(無料、自身のハードウェア)、osFoundryクラウドGPUエンドポイント(秒単位課金)、または自身のGPUサーバー(osFoundryには無料、インフラは自身で管理)。
インストール — ワンクリック。プラットフォームが重みを取得し、選んだ量子化を適用し、推論サーバーにロードします。
使う — モデルはMaestroとすべてのRoom Appからルーティング可能なハンドルになります。リクエスト単位、またはosStudioのルーティングルール経由で切り替えられます。

How osFoundry compares

Capability	osFoundry	Most other tools
セットアップ時間	数分 — ワンクリックインストール。	llama.cpp / vLLM / Tritonのセットアップに数時間。
ハードウェア	ローカル、当社クラウド、または自身のもの — 交換可能。	1つの場所を選んでコミット。
インストール後のルーティング	自動 — モデルはワークスペースのハンドル。	自身のコードでAPI結線を手動で行う。
量子化	インストール時に選択、後で切り替え。	別ツールで手動変換。

Use cases

プライバシー機微な業界: 医療 / 法務 / 金融チームが社内A100上でLlama 3.1 70Bをセルフホスト — プロンプトと出力は組織境界を出ません。
高ボリュームSaaS: 予約済みH100上でMixtral 8x22Bを動かしてトラフィックの80%をさばき、難しい20%だけクラウドAPIへバースト。トークン単価は60%低下します。
研究者: ファインチューニングする1つを選ぶ前に、12種類の候補ベースモデルをローカルで試行。ホスト型APIの請求書なしで、無料かつ高速に反復できます。

Frequently asked questions

osFoundryでセルフホストできるモデルは?

/community/modelsに索引化された7.6万のオープンウェイトモデルのいずれも対象です — Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSSなど。

セルフホストするのにファインチューニングは必要ですか?

いいえ。セルフホストとは単に自身の管理下でベースモデルを動かすことです。ファインチューニングは任意(LoRAフローが利用可能)です。

ホスト型APIへのBYOKよりセルフホストの方が安いですか?

高ボリュームならばはい。予約済みA100は数百万トークンに按分されるため、ホスト型価格よりトークン単価が低くなります。

自前の量子化済み重みを持ち込めますか?

はい — .safetensorsまたは.ggufファイルをアップロードすれば、osFoundryがカスタムモデルとして登録します。

セルフホスト時に適用されるライセンスは?

ベースモデルのライセンスです。カタログの各モデルページにはライセンス解説(商用利用可 / 制限あり / 研究目的のみ)があります。

同じモデルを2箇所で同時にホストできますか?

はい — 同じモデルハンドルがローカルバックエンドとクラウドエンドポイントバックエンドを同時に持てます。各リクエストをどちらが処理するかはルーティングルールが決定します。

Pricing

ローカルセルフホスト: 無料(自身のハードウェア、自身の電気代)。osFoundryクラウドGPUエンドポイント: A10 / A100 / H100レートでGPU秒単位課金。自身のGPUサーバー: osFoundryには無料、インフラプロバイダーへ支払い。