Home / Features / Run any model / Self-host LLMs

osFoundry में LLMs को Self-host करें — open weights, कोई vendor lock-in नहीं

osFoundry weights, runtime, और routing पर full नियंत्रण के साथ किसी भी open-weight LLM (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) को self-hosts करता है। अपने local hardware पर, osFoundry cloud में एक dedicated GPU endpoint पर, या अपनी infrastructure पर चलाएँ। Model आपके workspace catalog में register होता है और loaded होते ही Maestro से routable होता है।

Quick answer

Catalog में indexed 76K open-weight models में से किसी को भी Self-host करें।
तीन runtimes: local hardware, osFoundry cloud GPU endpoint, आपका अपना GPU server।
Loads होते ही Model workspace-routable है।
Full data control — weights और prompts कभी आपका scope नहीं छोड़ते।

Key capabilities

76K open-weight models indexed और एक click में installable।
Built-in inference server (कोई Ollama नहीं, कोई manual llama.cpp setup नहीं)।
Install पर Quantisation: cheap के लिए Q4 pick करें, full precision के लिए FP16।
एक base model पर LoRA adapters Hot-swap करें — एक GPU पर कई specialised variants।
Workspace-wide routing — वही model handle, तीन possible backends।

How to do it in osFoundry

एक model Browse और pick करें — /community/models खोलें, open-weight पर filter करें, अपने target hardware के लिए fit होने वाला size pick करें।
Host कहाँ करना है choose करें — Local (free, आपका hardware), osFoundry cloud GPU endpoint (per-second billing), या आपका अपना GPU server (free; आप infra manage करते हैं)।
Install करें — एक click। Platform weights pull करता है, आपकी picked quantisation apply करता है, inference server में loads करता है।
इसका उपयोग करें — Model अब Maestro और हर Room App में एक routable handle है। Per request या osStudio routing rules के माध्यम से इस पर switch करें।

How osFoundry compares

Capability	osFoundry	Most other tools
Setup time	मिनट — one-click install।	घंटे llama.cpp / vLLM / Triton setup के।
Hardware	Local, हमारा cloud, या आपका — interchangeable।	एक venue pick करें, commit करें।
Routing post-install	Automatic — model एक workspace handle है।	आपके code में Manual API wiring।
Quantisation	Install पर pick करें; बाद में switch करें।	अलग tooling के साथ weights को manually convert करें।

Use cases

Privacy-sensitive industry: Healthcare / legal / finance team एक internal A100 पर Llama 3.1 70B self-hosts करती है — prompts और outputs कभी org perimeter नहीं छोड़ते।
High-volume SaaS: 80% traffic के लिए एक reserved H100 पर Mixtral 8x22B चलाएँ; कठिन 20% के लिए एक cloud API पर burst करें। Per-token cost 60% तक गिरती है।
Researcher: Fine-tuning के लिए एक pick करने से पहले 12 candidate base models locally test करें। Hosted API bills के बिना Free, fast iteration।

Frequently asked questions

मैं osFoundry पर कौन से models self-host कर सकता हूँ?

/community/models पर indexed 76K open-weight models में से किसी को भी — Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS, और अधिक।

क्या मुझे self-host करने के लिए fine-tune करना है?

नहीं। Self-hosting का मतलब केवल base model को अपने नियंत्रण में चलाना है। Fine-tuning optional है (LoRA flow available)।

क्या एक hosted API के लिए BYOK से Self-hosting cheaper है?

High volume के लिए, हाँ। एक reserved A100 hosted pricing की तुलना में lower per-token cost पर millions of tokens में amortises करता है।

क्या मैं अपने quantised weights ला सकता हूँ?

हाँ — एक .safetensors या .gguf file upload करें और osFoundry इसे एक custom model के रूप में register करता है।

Self-host करते समय कौन सी licences apply होती हैं?

Base model का licence। Catalog में हर model page में एक licence explainer है (commercial-use / restricted / research-only)।

क्या एक ही model एक बार में दो स्थानों पर host हो सकता है?

हाँ — वही model handle एक साथ एक local backend और एक cloud-endpoint backend रख सकता है। Routing rules तय करती हैं कि कौन सा हर request चलाता है।

Pricing

Local self-hosting: free (आपका hardware, आपकी बिजली)। osFoundry cloud GPU endpoint: A10 / A100 / H100 rates पर GPU time के per-second। आपका अपना GPU server: osFoundry के लिए free; अपने infra provider को pay करें।