Início / Recursos / Treine e faça fine-tuning
Treine e faça fine-tuning de modelos de IA no osFoundry
Faça fine-tuning de Llama, Mistral ou Qwen com LoRA nos seus dados. Quantize para inferência barata. Hot-swap de adapters em runtime.
osFoundry permite fazer fine-tuning de qualquer LLM de pesos abertos com LoRA nos seus próprios dados, quantizar o resultado para inferência barata e fazer hot-swap de adapters em runtime — tudo sem sair do workspace. Jobs de treinamento rodam na sua GPU local, na nuvem osFoundry ou contra sua própria infraestrutura. Modelos que você treina ficam imediatamente disponíveis para o Maestro e para cada Room App no seu workspace.
Quick answer
- Fine-tuning LoRA em Llama 3, Mistral, Qwen e mais de 60 outros modelos base — guiado por UI, sem notebook necessário.
- Três caminhos de treinamento: GPU local, nuvem osFoundry ou traga-seu-próprio-servidor.
- Quantize adapters treinados para Q4/Q5 para inferência barata.
- Hot-swap de adapters LoRA por requisição — sem recarga de modelo, troca em sub-segundo.
What it is
A maioria das plataformas de IA ou prende você em modelos hospedados ou te entrega um notebook. O pipeline de treinamento do osFoundry é nativo do workspace: escolha um base, aponte para um dataset (seu KB, um dataset público ou um upload), escolha o rank do LoRA e entregue. O adapter treinado é registrado no seu catálogo de modelos automaticamente e roteável a partir do Maestro no momento em que termina.
Key capabilities
- Fine-tuning LoRA + QLoRA em mais de 60 modelos base de pesos abertos.
- Download de adapter — extraia o .safetensors do osFoundry para implantar em outro lugar.
- Quantização para Q4_K_M, Q5_K_M, Q6_K, FP16 — converta em um clique.
- Hot-swap de até 16 adapters LoRA ativos em um único modelo base.
- Treine nas suas bases de conhecimento, JSONL/CSV enviado ou em qualquer um dos 250 mil datasets públicos.
- Três caminhos de treinamento por job: GPU local, nuvem osFoundry ou sua própria infraestrutura.
How to do it in osFoundry
- Escolha um modelo base — Navegue em /community/models, filtre para pesos abertos (Llama, Mistral, Qwen, Phi etc.), escolha o tamanho que cabe na sua GPU alvo.
- Aponte para um dataset — Escolha uma base de conhecimento (auto-formatada como pares de instrução), envie um JSONL/CSV ou escolha entre 250 mil datasets públicos indexados no catálogo.
- Escolha a configuração de treinamento — Rank do LoRA (8/16/32/64), learning rate, épocas, módulos alvo. Defaults sensatos fornecidos; ajuste a partir daí.
- Escolha onde treinar — GPU local (gratuita), nuvem osFoundry (preços por segundo de GPU) ou BYO de infraestrutura (envie o job para seu próprio cluster).
- Entregue o adapter — Quando o treinamento termina, o adapter é registrado no seu catálogo de modelos automaticamente. Hot-swap em um endpoint de modelo base e comece a rotear requisições em minutos.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| UI de treinamento | Nativo do workspace — sem notebook, sem linha de comando. | Notebook ou CLI necessário. |
| Exportação de adapter | Download .safetensors em um clique com config de treinamento. | Preso ao fornecedor ou exportação manual. |
| Onde roda | GPU local, nossa nuvem ou sua própria infraestrutura. | Local único, preços fixos. |
| Roteamento pós-treino | Adapter imediatamente roteável a partir do Maestro e Room Apps. | Fiação manual no código do seu app. |
Use cases
- Equipe de suporte ao cliente: Faça fine-tuning de Mistral 7B em 18 meses de transcrições de suporte. O agente responde no seu tom, referencia seus produtos e mantém a marca.
- Operações jurídicas: Treine Llama 3.1 8B em um corpus de contratos rotulado para fazer redlining de novos contratos no estilo do seu escritório. Permanece on-prem; adapter nunca sai do workspace.
- Estúdio de games: LoRA-tune Qwen 14B no seu IP bible para diálogos de NPC no jogo. Hot-swap de um LoRA diferente por personagem para manter vozes distintas em um único modelo base compartilhado.
Frequently asked questions
Quanto tempo um fine-tune LoRA leva no osFoundry?
Um modelo 7B em um dataset de 50K linhas leva ~30 minutos em uma única A100. Um modelo 70B leva ~3 horas. Macs M2/M3 locais lidam com 7B em ~2 horas.
Posso exportar o adapter LoRA do osFoundry?
Sim — cada adapter treinado é baixável como .safetensors e inclui a config de treinamento. Sem lock-in.
O osFoundry suporta fine-tuning completo, não apenas LoRA?
LoRA + QLoRA são os caminhos recomendados hoje. Fine-tuning completo de modelos >7B está no roadmap; por enquanto, BYO de infraestrutura se você precisar.
Em quais datasets posso treinar?
Suas bases de conhecimento (auto-formatadas como pares de instrução), JSONL/CSV/parquet enviado ou 250 mil datasets públicos indexados do HuggingFace.
Quanto custa o treinamento?
Treinamento local é gratuito (seu hardware). Treinamento em nuvem é cobrado por segundo de tempo de GPU pelas mesmas tarifas dos endpoints de inferência. Um LoRA 7B em A100 custa aproximadamente US$ 2–3 por execução de treinamento; 70B custa US$ 20–30.
Posso retomar um job de treinamento interrompido?
Sim — checkpoints são salvos a cada N passos (configurável). A retomada começa do último checkpoint, não do zero.
Pricing
Treinamento local: gratuito (seu hardware). Treinamento em nuvem: faturamento por segundo de GPU pelas mesmas tarifas dos endpoints de inferência (A10 / A100 / H100). Armazenamento de adapter é medido como armazenamento de arquivo do workspace.
Related features