Inicio / Glosario / Hot-swap LoRA
What is Hot-swap LoRA?
Hot-swap LoRA es la capacidad de cambiar entre adaptadores LoRA sobre un modelo base desplegado en tiempo de inferencia sin recargar el modelo. osFoundry hace hot-swap de hasta 16 adaptadores activos por modelo base sobre un único endpoint de GPU.
Detail
Un endpoint de LLM desplegado normalmente sirve un solo modelo. Hot-swap significa que pueden alojar un modelo base (p. ej. Llama 3.1 70B en una A100) y enrutar por solicitud a distintos adaptadores LoRA: cambio en menos de un segundo, sin latencia de recarga.
Esto colapsa el coste de servir N variantes especializadas del modelo, pasando de N despliegues a uno solo. Cada usuario, persona o dominio puede tener su propio adaptador afinado sobre una base compartida.
How osFoundry approaches Hot-swap LoRA
Los endpoints de GPU de osFoundry soportan hasta 16 adaptadores hot-swappable por base. Los adaptadores entrenados dentro de osFoundry se autorregistran; los externos pueden subirse.
Related terms
Related features