Beranda / Glosarium / On-device inference

What is On-device Inference?

On-device inference menjalankan LLM langsung pada hardware pengguna (laptop, ponsel) tanpa panggilan jaringan apa pun. Inference server bawaan osFoundry mendukung Apple Silicon (Metal) dan NVIDIA (CUDA) untuk model open-weight.

Detail

On-device inference memiliki tiga keunggulan besar: biaya nol per-token, latency jaringan nol, kebocoran data nol. Batas: ukuran model dibatasi oleh VRAM; kecepatan dibatasi oleh perangkat. Model 7B berjalan cepat pada Mac modern; model 70B membutuhkan GPU kelas A100.

Kuantisasi (Q4, Q5) penting untuk memasukkan model lebih besar ke VRAM konsumen.

How osFoundry approaches On-device Inference

Desktop app osFoundry menyertakan inference server. Install satu-klik untuk model open-weight apa pun. Model berkualitas seperti Llama 3.1 8B dan Qwen 2.5 14B berjalan mulus pada hardware konsumen.

Related terms

self-hosting
quantization
local-first
no-leak-llm

Related features

local-llm-inference
self-host-llms