Главная / Глоссарий / Горячая замена LoRA
What is Горячая замена LoRA (Hot-swap LoRA)?
Горячая замена LoRA — это возможность переключаться между LoRA-адаптерами на развёрнутой базовой модели во время инференса без перезагрузки модели. osFoundry горячо меняет до 16 активных адаптеров на базовую модель на одном GPU-эндпоинте.
Detail
Развёрнутый LLM-эндпоинт обычно обслуживает одну модель. Горячая замена означает, что вы можете разместить одну базовую модель (например, Llama 3.1 70B на A100) и маршрутизировать каждый запрос к разным LoRA-адаптерам — переключение менее чем за секунду, без задержки перезагрузки.
Это сокращает стоимость обслуживания N специализированных вариантов модели с N развёртываний модели до одного. У каждого пользователя, персонажа или домена может быть свой тонко настроенный адаптер на общей базе.
How osFoundry approaches Горячая замена LoRA (Hot-swap LoRA)
GPU-эндпоинты osFoundry поддерживают до 16 горячо заменяемых адаптеров на базу. Адаптеры, обученные внутри osFoundry, регистрируются автоматически; внешние адаптеры можно загружать.
Related terms
Related features