Accueil / Glossaire / Hot-swap LoRA

What is Hot-swap LoRA?

Hot-swap LoRA est la capacité de basculer entre les adaptateurs LoRA sur un modèle de base déployé au moment de l’inférence sans recharger le modèle. osFoundry hot-swap jusqu’à 16 adaptateurs actifs par modèle de base sur un seul endpoint GPU.

Detail

Un endpoint LLM déployé ne sert généralement qu’un seul modèle. Hot-swapping signifie que vous pouvez héberger un modèle de base (p. ex. Llama 3.1 70B sur une A100) et router par requête vers différents adaptateurs LoRA — commutation sub-seconde, sans latence de rechargement.

Cela réduit le coût de servir N variantes de modèles spécialisés de N déploiements de modèles à un seul. Chaque utilisateur, persona ou domaine peut avoir son propre adaptateur fine-tuné sur une base partagée.

How osFoundry approaches Hot-swap LoRA

Les endpoints GPU d’osFoundry prennent en charge jusqu’à 16 adaptateurs hot-swappables par base. Les adaptateurs entraînés à l’intérieur d’osFoundry sont auto-enregistrés ; les adaptateurs externes peuvent être téléversés.