Início / Recursos / Rode qualquer modelo / Self-host de LLMs

Self-host de LLMs no osFoundry — pesos abertos, sem lock-in de fornecedor

osFoundry faz self-host de qualquer LLM de pesos abertos (Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS) com controle total sobre pesos, runtime e roteamento. Rode no seu hardware local, em um endpoint de GPU dedicado na nuvem osFoundry ou na sua própria infraestrutura. O modelo é registrado no catálogo do seu workspace e roteável a partir do Maestro no momento em que é carregado.

Quick answer

Self-host de qualquer um dos 76 mil modelos de pesos abertos indexados no catálogo.
Três runtimes: hardware local, endpoint de GPU em nuvem osFoundry, seu próprio servidor de GPU.
O modelo é roteável no workspace no momento em que carrega.
Controle completo de dados — pesos e prompts nunca saem do seu escopo.

Key capabilities

76 mil modelos de pesos abertos indexados e instaláveis em um clique.
Servidor de inferência embutido (sem Ollama, sem setup manual de llama.cpp).
Quantização na instalação: escolha Q4 para barato, FP16 para precisão total.
Hot-swap de adapters LoRA em um modelo base — muitas variantes especializadas em uma GPU.
Roteamento em todo o workspace — mesmo handle de modelo, três backends possíveis.

How to do it in osFoundry

Navegue e escolha um modelo — Abra /community/models, filtre para pesos abertos, escolha o tamanho que cabe no seu hardware alvo.
Escolha onde hospedar — Local (gratuito, seu hardware), endpoint de GPU em nuvem osFoundry (faturamento por segundo) ou seu próprio servidor de GPU (gratuito; você gerencia a infra).
Instale — Um clique. A plataforma puxa os pesos, aplica a quantização que você escolheu, carrega no servidor de inferência.
Use — O modelo agora é um handle roteável no Maestro e em cada Room App. Troque para ele por requisição ou via regras de roteamento do osStudio.

How osFoundry compares

Capability	osFoundry	Most other tools
Tempo de setup	Minutos — instalação em um clique.	Horas de setup de llama.cpp / vLLM / Triton.
Hardware	Local, nossa nuvem ou sua — intercambiáveis.	Escolha um local, comprometa.
Roteamento pós-instalação	Automático — o modelo é um handle do workspace.	Fiação manual de API no seu código.
Quantização	Escolha na instalação; troque depois.	Converta pesos manualmente com ferramentas separadas.

Use cases

Indústria sensível a privacidade: Equipe de saúde / jurídico / finanças faz self-host de Llama 3.1 70B em uma A100 interna — prompts e saídas nunca saem do perímetro da organização.
SaaS de alto volume: Rode Mixtral 8x22B em uma H100 reservada para 80% do tráfego; estoure para uma API em nuvem para os 20% difíceis. Custo por token cai em 60%.
Pesquisador: Teste 12 modelos base candidatos localmente antes de escolher um para fine-tuning. Iteração gratuita e rápida sem contas de API hospedada.

Frequently asked questions

Quais modelos posso self-host no osFoundry?

Qualquer um dos 76 mil modelos de pesos abertos indexados em /community/models — Llama, Qwen, Mistral, Mixtral, DeepSeek, Phi, GPT-OSS e mais.

Preciso fazer fine-tuning para fazer self-host?

Não. Self-hosting apenas significa rodar o modelo base sob seu controle. Fine-tuning é opcional (fluxo LoRA disponível).

Self-hosting é mais barato do que BYOK para uma API hospedada?

Para alto volume, sim. Uma A100 reservada amortiza entre milhões de tokens a um custo por token menor do que o preço hospedado.

Posso trazer meus próprios pesos quantizados?

Sim — envie um arquivo .safetensors ou .gguf e o osFoundry o registra como um modelo personalizado.

Quais licenças se aplicam quando eu faço self-host?

A licença do modelo base. Cada página de modelo no catálogo tem um explicador de licença (uso comercial / restrito / apenas pesquisa).

O mesmo modelo pode ser hospedado em dois lugares ao mesmo tempo?

Sim — o mesmo handle de modelo pode ter um backend local e um backend de endpoint em nuvem simultaneamente. As regras de roteamento decidem qual roda cada requisição.

Pricing

Self-hosting local: gratuito (seu hardware, sua eletricidade). Endpoint de GPU em nuvem osFoundry: por segundo de tempo de GPU em tarifas A10 / A100 / H100. Seu próprio servidor de GPU: gratuito no osFoundry; pague seu provedor de infra.