Início / Recursos / Treine e faça fine-tuning / Fine-tuning LoRA

Fine-tuning de Llama, Mistral ou Qwen com LoRA no osFoundry

osFoundry faz fine-tuning de qualquer modelo base de pesos abertos com LoRA ou QLoRA nos seus dados — sem notebook, sem linha de comando. Escolha um base, aponte para um dataset (seu KB, um upload ou um dataset público), defina o rank do LoRA e treine. O adapter é registrado no seu catálogo de modelos e imediatamente roteável a partir do Maestro e Room Apps no momento em que o treinamento termina.

Quick answer

LoRA + QLoRA em mais de 60 modelos base de pesos abertos.
Treine no seu KB, uploads JSONL/CSV ou 250 mil datasets públicos.
Guiado por UI — sem notebook.
Adapter é roteável no workspace no momento em que o treinamento termina.

Key capabilities

Mais de 60 modelos base suportados (Llama 3, Mistral, Qwen, Phi, Gemma…).
Fluxos LoRA + QLoRA; rank 8/16/32/64 selecionável.
Treine em KBs (auto-formatado), JSONL/CSV/parquet ou 250 mil datasets públicos.
Três runtimes: GPU local, nuvem osFoundry, sua própria infraestrutura.
Checkpoints a cada N passos — retome um job interrompido do último checkpoint.
Exportação de adapter: .safetensors com config completa de treinamento.

How to do it in osFoundry

Escolha um base + alvo LoRA — Escolha o modelo base. Configure rank do LoRA, learning rate, épocas e módulos alvo. Defaults funcionam para a maioria dos casos.
Aponte para seu dataset — Escolha um KB (formato auto-pares-de-instrução), envie JSONL ou escolha um dataset público.
Rode o treinamento — Escolha o runtime (local/nuvem/BYO). Acompanhe a curva de loss ao vivo conforme treina.
Hot-swap do adapter — Quando o treinamento termina, faça hot-swap do adapter em um endpoint de modelo base implantado. Mesmo handle, novo comportamento.

Use cases

Suporte ao cliente: LoRA-tune Mistral 7B em tickets passados. O agente agora responde no seu tom com conhecimento de produto.
Equipe jurídica: Treine Llama 3.1 8B em contratos rotulados. Faça redlining de novos docs no estilo do seu escritório on-prem.
Estúdio de games: LoRAs por personagem hot-swapped em um único modelo base. Uma GPU, muitas vozes de NPC distintas.

Frequently asked questions

Quanto tempo um fine-tune LoRA leva?

Modelo 7B em 50K linhas: ~30 min em A100. 70B: ~3 horas. Mac M2/M3 de consumidor: ~2 horas para 7B.

Que rank devo usar?

Comece com rank 16. Aumente para 32 ou 64 para mudanças de domínio mais difíceis; diminua para 8 para ajuste estilístico.

Posso treinar na minha base de conhecimento?

Sim — KBs são auto-formatadas como pares de instrução.

Posso exportar o adapter?

Sim — download .safetensors com config completa de treinamento. Implantável fora do osFoundry também.

QLoRA é suportado?

Sim — QLoRA reduz VRAM quantizando o base para 4-bit. Escolha QLoRA na config de treinamento se sua GPU estiver com pouca memória.

Como avalio o resultado?

Compare o adapter contra o base no seu conjunto de eval com a visualização de comparação lado a lado. Promova quando a qualidade ultrapassar sua barra.

Pricing

Local: gratuito. Nuvem: por segundo de tempo de GPU. Um LoRA 7B em A100 custa aproximadamente US$ 2-3 por execução; 70B custa US$ 20-30.