Início / Recursos / Treine e faça fine-tuning

Treine e faça fine-tuning de modelos de IA no osFoundry

Faça fine-tuning de Llama, Mistral ou Qwen com LoRA nos seus dados. Quantize para inferência barata. Hot-swap de adapters em runtime.

osFoundry permite fazer fine-tuning de qualquer LLM de pesos abertos com LoRA nos seus próprios dados, quantizar o resultado para inferência barata e fazer hot-swap de adapters em runtime — tudo sem sair do workspace. Jobs de treinamento rodam na sua GPU local, na nuvem osFoundry ou contra sua própria infraestrutura. Modelos que você treina ficam imediatamente disponíveis para o Maestro e para cada Room App no seu workspace.

Quick answer

Fine-tuning LoRA em Llama 3, Mistral, Qwen e mais de 60 outros modelos base — guiado por UI, sem notebook necessário.
Três caminhos de treinamento: GPU local, nuvem osFoundry ou traga-seu-próprio-servidor.
Quantize adapters treinados para Q4/Q5 para inferência barata.
Hot-swap de adapters LoRA por requisição — sem recarga de modelo, troca em sub-segundo.

What it is

A maioria das plataformas de IA ou prende você em modelos hospedados ou te entrega um notebook. O pipeline de treinamento do osFoundry é nativo do workspace: escolha um base, aponte para um dataset (seu KB, um dataset público ou um upload), escolha o rank do LoRA e entregue. O adapter treinado é registrado no seu catálogo de modelos automaticamente e roteável a partir do Maestro no momento em que termina.

Key capabilities

Fine-tuning LoRA + QLoRA em mais de 60 modelos base de pesos abertos.
Download de adapter — extraia o .safetensors do osFoundry para implantar em outro lugar.
Quantização para Q4_K_M, Q5_K_M, Q6_K, FP16 — converta em um clique.
Hot-swap de até 16 adapters LoRA ativos em um único modelo base.
Treine nas suas bases de conhecimento, JSONL/CSV enviado ou em qualquer um dos 250 mil datasets públicos.
Três caminhos de treinamento por job: GPU local, nuvem osFoundry ou sua própria infraestrutura.

How to do it in osFoundry

Escolha um modelo base — Navegue em /community/models, filtre para pesos abertos (Llama, Mistral, Qwen, Phi etc.), escolha o tamanho que cabe na sua GPU alvo.
Aponte para um dataset — Escolha uma base de conhecimento (auto-formatada como pares de instrução), envie um JSONL/CSV ou escolha entre 250 mil datasets públicos indexados no catálogo.
Escolha a configuração de treinamento — Rank do LoRA (8/16/32/64), learning rate, épocas, módulos alvo. Defaults sensatos fornecidos; ajuste a partir daí.
Escolha onde treinar — GPU local (gratuita), nuvem osFoundry (preços por segundo de GPU) ou BYO de infraestrutura (envie o job para seu próprio cluster).
Entregue o adapter — Quando o treinamento termina, o adapter é registrado no seu catálogo de modelos automaticamente. Hot-swap em um endpoint de modelo base e comece a rotear requisições em minutos.

How osFoundry compares

Capability	osFoundry	Most other tools
UI de treinamento	Nativo do workspace — sem notebook, sem linha de comando.	Notebook ou CLI necessário.
Exportação de adapter	Download .safetensors em um clique com config de treinamento.	Preso ao fornecedor ou exportação manual.
Onde roda	GPU local, nossa nuvem ou sua própria infraestrutura.	Local único, preços fixos.
Roteamento pós-treino	Adapter imediatamente roteável a partir do Maestro e Room Apps.	Fiação manual no código do seu app.

Use cases

Equipe de suporte ao cliente: Faça fine-tuning de Mistral 7B em 18 meses de transcrições de suporte. O agente responde no seu tom, referencia seus produtos e mantém a marca.
Operações jurídicas: Treine Llama 3.1 8B em um corpus de contratos rotulado para fazer redlining de novos contratos no estilo do seu escritório. Permanece on-prem; adapter nunca sai do workspace.
Estúdio de games: LoRA-tune Qwen 14B no seu IP bible para diálogos de NPC no jogo. Hot-swap de um LoRA diferente por personagem para manter vozes distintas em um único modelo base compartilhado.

Frequently asked questions

Quanto tempo um fine-tune LoRA leva no osFoundry?

Um modelo 7B em um dataset de 50K linhas leva ~30 minutos em uma única A100. Um modelo 70B leva ~3 horas. Macs M2/M3 locais lidam com 7B em ~2 horas.

Posso exportar o adapter LoRA do osFoundry?

Sim — cada adapter treinado é baixável como .safetensors e inclui a config de treinamento. Sem lock-in.

O osFoundry suporta fine-tuning completo, não apenas LoRA?

LoRA + QLoRA são os caminhos recomendados hoje. Fine-tuning completo de modelos >7B está no roadmap; por enquanto, BYO de infraestrutura se você precisar.

Em quais datasets posso treinar?

Suas bases de conhecimento (auto-formatadas como pares de instrução), JSONL/CSV/parquet enviado ou 250 mil datasets públicos indexados do HuggingFace.

Quanto custa o treinamento?

Treinamento local é gratuito (seu hardware). Treinamento em nuvem é cobrado por segundo de tempo de GPU pelas mesmas tarifas dos endpoints de inferência. Um LoRA 7B em A100 custa aproximadamente US$ 2–3 por execução de treinamento; 70B custa US$ 20–30.

Posso retomar um job de treinamento interrompido?

Sim — checkpoints são salvos a cada N passos (configurável). A retomada começa do último checkpoint, não do zero.

Pricing

Treinamento local: gratuito (seu hardware). Treinamento em nuvem: faturamento por segundo de GPU pelas mesmas tarifas dos endpoints de inferência (A10 / A100 / H100). Armazenamento de adapter é medido como armazenamento de arquivo do workspace.