Beranda / Glosarium / Hot-swap LoRA
What is Hot-swap LoRA?
Hot-swap LoRA adalah kemampuan untuk beralih antar adapter LoRA pada base model yang ter-deploy pada waktu inference tanpa memuat ulang model. osFoundry hot-swap hingga 16 adapter aktif per base model pada satu endpoint GPU.
Detail
Endpoint LLM yang ter-deploy biasanya melayani satu model. Hot-swapping berarti Anda dapat menghosting satu base model (misalnya Llama 3.1 70B pada A100) dan merutekan per request ke adapter LoRA berbeda — pergantian sub-detik, tanpa latency reload.
Ini meruntuhkan biaya melayani N varian model terspesialisasi dari N deployment model menjadi satu. Setiap pengguna, persona, atau domain dapat memiliki adapter fine-tuned-nya sendiri pada base bersama.
How osFoundry approaches Hot-swap LoRA
Endpoint GPU osFoundry mendukung hingga 16 adapter hot-swappable per base. Adapter yang dilatih di dalam osFoundry otomatis terdaftar; adapter eksternal dapat di-upload.
Related terms
Related features