Home / Glossary / Hot-swap LoRA

What is Hot-swap LoRA?

Hot-swap LoRA model को reload किए बिना inference time पर एक deployed base model पर LoRA adapters के बीच switch करने की क्षमता है। osFoundry एक single GPU endpoint पर प्रति base model 16 active adapters तक hot-swap करता है।

Detail

एक deployed LLM endpoint आमतौर पर एक model serve करता है। Hot-swapping का मतलब है कि आप एक base model (जैसे A100 पर Llama 3.1 70B) host कर सकते हैं और per-request को अलग LoRA adapters पर route कर सकते हैं — sub-second switching, कोई reload latency नहीं।

यह N model deployments से N specialised model variants serve करने की cost को एक तक collapse करता है। हर user, persona, या domain का एक shared base पर अपना fine-tuned adapter हो सकता है।

How osFoundry approaches Hot-swap LoRA

osFoundry के GPU endpoints प्रति base 16 hot-swappable adapters तक support करते हैं। osFoundry के अंदर trained adapters auto-registered हैं; external adapters upload किए जा सकते हैं।