首页 / 术语表 / 热切换 LoRA

What is 热切换 LoRA?

热切换 LoRA 是指在已部署的基础模型上于推理时切换 LoRA 适配器而无需重新加载模型的能力。osFoundry 在单个 GPU 端点上每个基础模型可热切换最多 16 个活动适配器。

Detail

已部署的 LLM 端点通常只服务一个模型。热切换意味着您可以承载一个基础模型（例如 A100 上的 Llama 3.1 70B），并按请求路由到不同的 LoRA 适配器——亚秒级切换，无重新加载延迟。

这将服务 N 种专门化模型变体的成本从 N 个模型部署压缩为一个。每位用户、每种人格或每个领域都可以在共享的基础模型上拥有自己的微调适配器。

osFoundry 的 GPU 端点支持每个基础模型最多 16 个可热切换的适配器。在 osFoundry 内部训练的适配器会自动注册；外部适配器也可上传。