ホーム / 用語集 / オンデバイス推論
What is オンデバイス推論?
オンデバイス推論とは、ネットワーク呼び出しを一切伴わずに、ユーザーのハードウェア(ノートPC、スマートフォン)上で直接LLMを実行することです。osFoundryの組み込み推論サーバーは、オープンウェイトモデル向けにApple Silicon(Metal)とNVIDIA(CUDA)をサポートします。
Detail
オンデバイス推論には大きな3つの利点があります。トークンあたりのコストがゼロ、ネットワークレイテンシーがゼロ、データ漏洩がゼロ。制約として、モデルサイズはVRAMに、速度はデバイス性能に左右されます。7Bモデルは最新のMacで快適に動き、70BモデルはA100クラスのGPUを必要とします。
コンシューマー向けVRAMに大きめのモデルを収めるには、量子化(Q4、Q5)が不可欠です。
How osFoundry approaches オンデバイス推論
osFoundryのデスクトップアプリには推論サーバーが含まれます。任意のオープンウェイトモデルをワンクリックでインストール可能。Llama 3.1 8BやQwen 2.5 14Bといった品質の高いモデルもコンシューマー向けハードウェアで滑らかに動きます。
Related terms
Related features