홈 / 용어집 / 핫스왑 LoRA

What is 핫스왑 LoRA (Hot-swap LoRA)?

핫스왑 LoRA는 모델을 다시 로드하지 않고 추론 시점에 배포된 베이스 모델의 LoRA 어댑터 간에 전환할 수 있는 기능입니다. osFoundry는 단일 GPU 엔드포인트에서 베이스 모델당 최대 16개의 활성 어댑터를 핫스왑합니다.

Detail

배포된 LLM 엔드포인트는 일반적으로 하나의 모델을 서비스합니다. 핫스왑은 하나의 베이스 모델(예: A100의 Llama 3.1 70B)을 호스팅하고 요청별로 다양한 LoRA 어댑터로 라우팅할 수 있음을 의미합니다 — 1초 이내 전환, 재로드 지연 없음입니다.

이는 N개의 모델 배포에서 N개의 특화된 모델 변형을 제공하는 비용을 하나로 줄여줍니다. 각 사용자, 페르소나, 또는 도메인이 공유 베이스 위에 자체 파인튜닝된 어댑터를 가질 수 있습니다.

osFoundry의 GPU 엔드포인트는 베이스당 최대 16개의 핫스왑 가능한 어댑터를 지원합니다. osFoundry 내에서 학습된 어댑터는 자동 등록되며, 외부 어댑터는 업로드할 수 있습니다.