What is QLoRA?

Abbreviation: QLoRA

QLoRA è fine-tuning LoRA in cui il base model viene quantizzato a 4-bit durante il training, dimezzando approssimativamente i requisiti di VRAM. osFoundry supporta QLoRA come percorso di training alternativo quando la Sua GPU è a corto di memoria.

Detail

Lo standard LoRA mantiene il base model in piena precisione durante il training, il che richiede comunque VRAM significativa per modelli grandi. QLoRA quantizza la base a 4-bit usando quantizzazione NF4, permettendole di fare fine-tuning di modelli 70B su una singola GPU consumer da 24 GB.

La qualità è paragonabile al LoRA standard nella maggior parte dei casi, con perplexity di training leggermente superiore. L'adapter stesso non è influenzato: può rilasciare l'adapter addestrato su una base a piena precisione in seguito.

Related terms

lora
quantization
parameters

Related features

lora-fine-tuning
train-and-fine-tune