Início / Recursos / Rode qualquer modelo / Self-host de LLMs
Self-host de LLMs no osFoundry — pesos abertos, sem lock-in de fornecedor
osFoundry faz self-host de qualquer LLM de pesos abertos (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) com controle total sobre pesos, runtime e roteamento. Rode no seu hardware local, em um endpoint de GPU dedicado na nuvem osFoundry ou na sua própria infraestrutura. O modelo é registrado no catálogo do seu workspace e roteável a partir do Maestro no momento em que é carregado.
Quick answer
- Self-host de qualquer um dos 76 mil modelos de pesos abertos indexados no catálogo.
- Três runtimes: hardware local, endpoint de GPU em nuvem osFoundry, seu próprio servidor de GPU.
- O modelo é roteável no workspace no momento em que carrega.
- Controle completo de dados — pesos e prompts nunca saem do seu escopo.
Key capabilities
- 76 mil modelos de pesos abertos indexados e instaláveis em um clique.
- Servidor de inferência embutido (sem Ollama, sem setup manual de llama.cpp).
- Quantização na instalação: escolha Q4 para barato, FP16 para precisão total.
- Hot-swap de adapters LoRA em um modelo base — muitas variantes especializadas em uma GPU.
- Roteamento em todo o workspace — mesmo handle de modelo, três backends possíveis.
How to do it in osFoundry
- Navegue e escolha um modelo — Abra /community/models, filtre para pesos abertos, escolha o tamanho que cabe no seu hardware alvo.
- Escolha onde hospedar — Local (gratuito, seu hardware), endpoint de GPU em nuvem osFoundry (faturamento por segundo) ou seu próprio servidor de GPU (gratuito; você gerencia a infra).
- Instale — Um clique. A plataforma puxa os pesos, aplica a quantização que você escolheu, carrega no servidor de inferência.
- Use — O modelo agora é um handle roteável no Maestro e em cada Room App. Troque para ele por requisição ou via regras de roteamento do osStudio.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Tempo de setup | Minutos — instalação em um clique. | Horas de setup de llama.cpp / vLLM / Triton. |
| Hardware | Local, nossa nuvem ou sua — intercambiáveis. | Escolha um local, comprometa. |
| Roteamento pós-instalação | Automático — o modelo é um handle do workspace. | Fiação manual de API no seu código. |
| Quantização | Escolha na instalação; troque depois. | Converta pesos manualmente com ferramentas separadas. |
Use cases
- Indústria sensível a privacidade: Equipe de saúde / jurídico / finanças faz self-host de Llama 3.1 70B em uma A100 interna — prompts e saídas nunca saem do perímetro da organização.
- SaaS de alto volume: Rode Mixtral 8x22B em uma H100 reservada para 80% do tráfego; estoure para uma API em nuvem para os 20% difíceis. Custo por token cai em 60%.
- Pesquisador: Teste 12 modelos base candidatos localmente antes de escolher um para fine-tuning. Iteração gratuita e rápida sem contas de API hospedada.
Frequently asked questions
Quais modelos posso self-host no osFoundry?
Qualquer um dos 76 mil modelos de pesos abertos indexados em /community/models — Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS e mais.
Preciso fazer fine-tuning para fazer self-host?
Não. Self-hosting apenas significa rodar o modelo base sob seu controle. Fine-tuning é opcional (fluxo LoRA disponível).
Self-hosting é mais barato do que BYOK para uma API hospedada?
Para alto volume, sim. Uma A100 reservada amortiza entre milhões de tokens a um custo por token menor do que o preço hospedado.
Posso trazer meus próprios pesos quantizados?
Sim — envie um arquivo .safetensors ou .gguf e o osFoundry o registra como um modelo personalizado.
Quais licenças se aplicam quando eu faço self-host?
A licença do modelo base. Cada página de modelo no catálogo tem um explicador de licença (uso comercial / restrito / apenas pesquisa).
O mesmo modelo pode ser hospedado em dois lugares ao mesmo tempo?
Sim — o mesmo handle de modelo pode ter um backend local e um backend de endpoint em nuvem simultaneamente. As regras de roteamento decidem qual roda cada requisição.
Pricing
Self-hosting local: gratuito (seu hardware, sua eletricidade). Endpoint de GPU em nuvem osFoundry: por segundo de tempo de GPU em tarifas A10 / A100 / H100. Seu próprio servidor de GPU: gratuito no osFoundry; pague seu provedor de infra.
Related features