Home / Features / Run any model / Local LLM inference
osFoundry के साथ अपने laptop पर local LLMs चलाएँ
osFoundry एक built-in inference server के माध्यम से Apple Silicon और NVIDIA GPUs पर open-weight LLMs (Llama, Qwen, Mistral, GPT-OSS) locally चलाता है। Quantised Q4 weights एक 16 GB consumer GPU पर 7–13B models चलाते हैं; 30B models 24 GB पर fit होते हैं; 70B+ models को एक A100/H100 या aggressive quantisation की आवश्यकता होती है। कोई tokens billed नहीं, कोई data आपकी machine नहीं छोड़ता।
Quick answer
- Built-in local inference server — कोई Ollama नहीं, कोई llama.cpp setup नहीं।
- Apple Silicon (Metal) और NVIDIA (CUDA) supported।
- Catalog में किसी भी model के लिए One-click install।
- Models chats के बीच loaded रहते हैं — कोई re-load latency नहीं।
Frequently asked questions
क्या osFoundry Ollama या llama.cpp उपयोग करता है?
osFoundry अपना inference server चलाता है। आपके दृष्टिकोण से यह केवल "Install" है और model तैयार है।
मुझे कितनी RAM चाहिए?
एक Q4 7B model को ~6 GB चाहिए। एक 13B को ~10 GB चाहिए। एक 70B Q4 को ~50 GB चाहिए।
क्या मैं एक बार में कई local models चला सकता हूँ?
हाँ — server on demand hot-loads करता है और memory free करने के लिए idle models को unloads करता है।
क्या local inference billed है?
नहीं। Local आपके अपने hardware पर चलता है और free है।
Related features