Home / Features / Run any model

osFoundry के साथ कोई भी AI model चलाएँ — local, cloud, या self-hosted

किसी भी cloud API के लिए BYOK करें, अपने laptop पर open weights चलाएँ, या एक dedicated GPU endpoint deploy करें — सब एक workspace से।

osFoundry एक hybrid AI orchestration platform है जो एक single workspace से कोई भी AI model चलाता है — आपके laptop पर open-weight Llama, Qwen, या Mistral; आपकी अपनी API keys के माध्यम से Claude, GPT, या Gemini; और reserved capacity के लिए हमारे cloud में dedicated GPU endpoints। Mid-conversation backends switch करें, single provider में कभी lock न हों, और केवल उन seconds के लिए pay करें जब आपका model वास्तव में चलता है।

Quick answer

osFoundry के on-device inference runtime के साथ open-weight models locally चलाएँ — कोई token cost नहीं, कोई data आपकी machine नहीं छोड़ता।
Anthropic, OpenAI, Google, Mistral, Together, और किसी भी OpenAI-compatible endpoint के लिए अपनी API keys लाएँ (BYOK)।
अपनी पसंद के open-weight model पर reserved throughput के लिए osFoundry cloud में dedicated GPU endpoints deploy करें।
एक chat से सभी तीनों modes में requests route करें — conversation छोड़े बिना local ↔ cloud ↔ self-host switch करें।
Tokens पर कोई markup नहीं — आपके provider account को directly bill किया जाता है।

What it is

अधिकांश AI tools एक single backend force करते हैं: एक hosted chat product, एक single model API, या एक self-host जिसे आप अकेले maintain करते हैं। osFoundry local inference, cloud APIs, और self-hosted endpoints को एक chat surface, एक config layer, और एक billing surface के पीछे तीन interchangeable backends के रूप में मानता है। वही prompt low-latency triage के लिए एक local 8B model, कठिन reasoning के लिए एक Claude Sonnet API, और sensitive data के लिए एक self-hosted Llama 70B को hit कर सकता है — सब एक conversation में।

Key capabilities

Apple Silicon और NVIDIA GPUs पर quantised open-weight models (Q4 to FP16) के साथ local inference।
किसी भी provider के लिए OpenAI-compatible API के साथ BYOK — keys आपके encrypted keychain में रहती हैं।
osStudio में user-configurable routing rules द्वारा driven per-request model dispatch।
Model को restart किए बिना inference time पर LoRA adapters hot-swap करें।
Inference server fleet view — local boxes, cloud endpoints, और self-hosted GPUs में pool capacity।
Fall-back chains: पहले local try करें, यदि model loaded नहीं है तो cloud पर fail over करें।

How to do it in osFoundry

एक model pick करें — /community/models और /community/api-models पर catalog browse करें — 76,000+ open weights और 364 hosted API models, dual-nature वालों के बीच cross-links के साथ (जैसे Llama 3.1 70B दोनों है)।
इसे wire करें — BYOK के लिए: अपनी provider key को key dialog में paste करें और model को एक Maestro role assign करें। Local के लिए: model page पर Install hit करें। Self-host के लिए: Servers tab से एक GPU endpoint deploy करें।
इसका उपयोग करें — इसके साथ directly chat करें, एक Room App से invokeAI call करें, या अपनी services से इसे एक HTTP endpoint के रूप में hit करें — वही model, वही routing, तीन interfaces।

How osFoundry compares

Capability	osFoundry	Most other tools
Backends	Local + cloud + self-hosted, प्रति request switchable।	Single backend, vendor-locked।
Token markup	कोई नहीं — direct provider pricing।	Hosted tokens पर 20–100% markup।
Privacy mode	Local-only mode — कोई traffic कभी device नहीं छोड़ता।	हमेशा cloud-bound।
Model count	76K open + 364 API + आपके self-hosted weights।	कुछ curated models।

Use cases

Solo developer: रोज़मर्रा के coding chat के लिए Llama 3.1 8B locally चलाएँ। कठिन refactors के लिए Claude Sonnet पर switch करें। वही chat thread।
Privacy-first team: सभी sensitive prompts को local models पर force करें; public-info prompts को cloud APIs उपयोग करने दें। Routing rules policy enforce करते हैं।
Heavy-volume startup: 80% traffic के लिए एक reserved A100 पर Mixtral 8x22B self-host करें; कठिन 20% के लिए GPT-4o पर burst करें।

Inference server fleet

Local machines, BYOK endpoints, और self-hosted GPUs में एक single addressable pool में capacity aggregate करें। Maestro availability और configured priorities के आधार पर per request routes करता है।

Frequently asked questions

क्या मैं बिना credits खरीदे osFoundry का उपयोग कर सकता हूँ?

हाँ। BYOK और local inference दोनों किसी भी osFoundry credit purchase के बिना काम करते हैं — आप cloud usage के लिए अपने provider को pay करते हैं, और local inference free है।

क्या osFoundry cloud API tokens पर markup करता है?

नहीं। BYOK आपके traffic को directly आपके provider account को pass करता है। हम केवल अपनी cloud-hosted services (GPU endpoints, app hosting, storage) के लिए charge करते हैं।

मैं किन providers के लिए BYOK कर सकता हूँ?

Anthropic, OpenAI, Google (Vertex + AI Studio), Mistral, Together, Groq, DeepSeek, Cohere, और कोई भी OpenAI-compatible endpoint। नए providers connector library के माध्यम से जोड़े जाते हैं।

Open-weight models को locally चलाने के लिए मुझे कौन सा hardware चाहिए?

16 GB VRAM वाला एक consumer GPU Q4 पर 7–13B models अच्छी तरह चलाता है। 24 GB 30B models handle करता है। 70B+ models को A100/H100 80 GB या quantisation tradeoffs की आवश्यकता होती है।

क्या मैं mid-conversation models switch कर सकता हूँ?

हाँ। प्रत्येक turn एक अलग model उपयोग कर सकता है। osStudio में Maestro के routing rules आपको prompt content के आधार पर automatically switch करने देते हैं।

Self-hosted endpoint local inference से कैसे अलग है?

Local inference आपकी अपनी machine पर चलता है। एक self-hosted endpoint osFoundry cloud में आपके द्वारा provision किए गए एक dedicated GPU पर चलता है — reserved capacity, कोई rate limits नहीं, आपके private network पर accessed।

क्या osFoundry image, audio, और video models को भी support करता है?

हाँ। Catalog में chat, image, audio, video, और embedding में 76K open-weight models शामिल हैं। BYOK hosted image/audio providers (DALL·E, Replicate के माध्यम से Midjourney, ElevenLabs, आदि) के लिए काम करता है।

क्या मैं osFoundry को fully offline चला सकता हूँ?

हाँ — desktop app install करें, एक local model download करें, और cloud routes disable करें। Local-first mode एक first-class workspace setting है।

Pricing

Local inference: free (आपका hardware)। BYOK: आपके provider की pricing, कोई markup नहीं। osFoundry-hosted GPU endpoints: GPU time के per-second, current rates के लिए pricing देखें।