Beranda / Glosarium / On-device inference
What is On-device Inference?
On-device inference menjalankan LLM langsung pada hardware pengguna (laptop, ponsel) tanpa panggilan jaringan apa pun. Inference server bawaan osFoundry mendukung Apple Silicon (Metal) dan NVIDIA (CUDA) untuk model open-weight.
Detail
On-device inference memiliki tiga keunggulan besar: biaya nol per-token, latency jaringan nol, kebocoran data nol. Batas: ukuran model dibatasi oleh VRAM; kecepatan dibatasi oleh perangkat. Model 7B berjalan cepat pada Mac modern; model 70B membutuhkan GPU kelas A100.
Kuantisasi (Q4, Q5) penting untuk memasukkan model lebih besar ke VRAM konsumen.
How osFoundry approaches On-device Inference
Desktop app osFoundry menyertakan inference server. Install satu-klik untuk model open-weight apa pun. Model berkualitas seperti Llama 3.1 8B dan Qwen 2.5 14B berjalan mulus pada hardware konsumen.
Related terms
Related features