Beranda / Fitur / Jalankan model apa pun / Inference LLM lokal
Jalankan LLM lokal di laptop Anda dengan osFoundry
osFoundry menjalankan LLM open-weight (Llama, Qwen, Mistral, GPT-OSS) secara lokal di Apple Silicon dan NVIDIA GPU melalui inference server bawaan. Bobot Q4 yang dikuantisasi menjalankan model 7–13B pada GPU konsumen 16 GB; model 30B muat pada 24 GB; model 70B+ membutuhkan A100/H100 atau kuantisasi agresif. Tanpa token ditagih, tanpa data meninggalkan mesin Anda.
Quick answer
- Inference server lokal bawaan — tanpa Ollama, tanpa setup llama.cpp.
- Apple Silicon (Metal) dan NVIDIA (CUDA) didukung.
- Install satu-klik untuk model apa pun di katalog.
- Model tetap dimuat lintas chat — tanpa latency re-load.
Frequently asked questions
Apakah osFoundry menggunakan Ollama atau llama.cpp?
osFoundry menjalankan inference server-nya sendiri. Dari perspektif Anda hanyalah "Install" dan model siap.
Berapa banyak RAM yang saya butuhkan?
Model Q4 7B membutuhkan ~6 GB. 13B membutuhkan ~10 GB. 70B Q4 membutuhkan ~50 GB.
Bisakah saya menjalankan beberapa model lokal sekaligus?
Ya — server hot-load on demand dan unload model idle untuk membebaskan memori.
Apakah inference lokal ditagih?
Tidak. Lokal berjalan pada hardware Anda sendiri dan gratis.
Related features