Home / Glossario / Hot-swap LoRA
What is Hot-swap LoRA?
L'hot-swap LoRA è la capacità di passare tra adapter LoRA su un base model rilasciato al momento dell'inferenza senza ricaricare il modello. osFoundry hot-swappa fino a 16 adapter attivi per base model su un singolo endpoint GPU.
Detail
Un endpoint LLM rilasciato di solito serve un solo modello. L'hot-swapping significa che può ospitare un base model (per esempio Llama 3.1 70B su un A100) e instradare per richiesta verso diversi adapter LoRA: commutazione sub-secondo, nessuna latenza di reload.
Questo comprime il costo di servire N varianti specializzate da N deployment di modelli a uno solo. Ogni utente, persona o dominio può avere il proprio adapter fine-tuneato su una base condivisa.
How osFoundry approaches Hot-swap LoRA
Gli endpoint GPU di osFoundry supportano fino a 16 adapter hot-swappabili per base. Gli adapter addestrati dentro osFoundry sono auto-registrati; gli adapter esterni possono essere caricati.
Related terms
Related features