ホーム / 機能 / あらゆるモデルを実行 / ローカルLLM推論
osFoundryでローカルLLMをノートPC上で実行
osFoundryは、オープンウェイトLLM(Llama、Qwen、Mistral、GPT-OSS)を、Apple SiliconおよびNVIDIA GPU上で組み込みの推論サーバーを通じてローカル実行します。量子化済みのQ4ウェイトは16 GBのコンシューマーGPUで7〜13Bモデルを動かせ、30Bモデルは24 GBに、70B以上はA100/H100または積極的な量子化が必要です。トークン課金なし、データはマシンを出ません。
Quick answer
- 組み込みのローカル推論サーバー — Ollama不要、llama.cppのセットアップ不要。
- Apple Silicon(Metal)とNVIDIA(CUDA)に対応。
- カタログ内の任意のモデルをワンクリックでインストール。
- モデルはチャットを跨いでロードされたまま — 再ロードのレイテンシーなし。
Frequently asked questions
osFoundryはOllamaやllama.cppを使っていますか?
osFoundryは独自の推論サーバーを動かしています。あなたから見ると「インストール」を押すだけで、モデルが利用可能になります。
どのくらいのRAMが必要ですか?
Q4の7Bモデルは約6 GB、13Bは約10 GB、70B Q4は約50 GB必要です。
複数のローカルモデルを同時に動かせますか?
はい — サーバーは必要に応じてホットロードし、アイドル中のモデルをアンロードしてメモリを解放します。
ローカル推論は課金されますか?
いいえ。ローカルは自身のハードウェアで動き、無料です。
Related features