Startseite / Glossar / Hot-Swap LoRA

What is Hot-swap LoRA?

Hot-Swap LoRA ist die Fähigkeit, zur Inferenzzeit zwischen LoRA-Adaptern auf einem deployten Basismodell zu wechseln, ohne das Modell neu zu laden. osFoundry wechselt bis zu 16 aktive Adapter pro Basismodell auf einem einzelnen GPU-Endpunkt.

Detail

Ein deployter LLM-Endpunkt bedient in der Regel ein Modell. Hot-Swapping bedeutet, dass Sie ein Basismodell (z. B. Llama 3.1 70B auf einer A100) hosten und pro Anfrage zu verschiedenen LoRA-Adaptern routen können — Sub-Sekunden-Wechsel, keine Reload-Latenz.

Dies reduziert die Kosten, N spezialisierte Modellvarianten aus N Modell-Deployments zu bedienen, auf eines. Jeder Nutzer, jede Persona oder jede Domäne kann einen eigenen, fine-getunten Adapter auf einer geteilten Basis haben.

How osFoundry approaches Hot-swap LoRA

Die GPU-Endpunkte von osFoundry unterstützen bis zu 16 hot-swap-fähige Adapter pro Basis. Adapter, die innerhalb von osFoundry trainiert wurden, werden automatisch registriert; externe Adapter können hochgeladen werden.