What is QLoRA?

Abbreviation: QLoRA

QLoRA ist LoRA-Fine-Tuning, bei dem das Basismodell während des Trainings auf 4 Bit quantisiert wird, was den VRAM-Bedarf etwa halbiert. osFoundry unterstützt QLoRA als alternativen Trainingspfad, wenn Ihre GPU knapp an Speicher ist.

Detail

Standard-LoRA hält das Basismodell während des Trainings in voller Präzision, was für große Modelle weiterhin erheblichen VRAM benötigt. QLoRA quantisiert die Basis per NF4-Quantisierung auf 4 Bit, sodass Sie 70B-Modelle auf einer einzelnen 24-GB-Consumer-GPU finetunen können.

Die Qualität ist in den meisten Fällen mit Standard-LoRA vergleichbar, bei leicht höherer Trainings-Perplexität. Der Adapter selbst ist nicht betroffen — Sie können den trainierten Adapter später auf eine Basis mit voller Präzision deployen.

Related terms

lora
quantization
parameters

Related features

lora-fine-tuning
train-and-fine-tune