Início / Glossário / Hot-swap LoRA

What is Hot-swap LoRA?

Hot-swap LoRA é a capacidade de trocar entre adapters LoRA em um modelo base implantado no momento da inferência sem recarregar o modelo. O osFoundry faz hot-swap de até 16 adapters ativos por modelo base em um único endpoint de GPU.

Detail

Um endpoint de LLM implantado geralmente serve um modelo. Hot-swapping significa que você pode hospedar um modelo base (por exemplo, Llama 3.1 70B em uma A100) e rotear por requisição para diferentes adapters LoRA — troca em sub-segundo, sem latência de recarga.

Isso colapsa o custo de servir N variantes especializadas de modelo de N deployments para um. Cada usuário, persona ou domínio pode ter seu próprio adapter ajustado em uma base compartilhada.

How osFoundry approaches Hot-swap LoRA

Os endpoints de GPU do osFoundry suportam até 16 adapters hot-swap por base. Adapters treinados dentro do osFoundry são auto-registrados; adapters externos podem ser enviados.