What is LoRA?

Abbreviation: LoRA

LoRA (Low-Rank Adaptation) tunt nur eine kleine Anzahl von „Adapter“-Parametern auf einem eingefrorenen Basismodell und reduziert dadurch die Trainingskosten drastisch. osFoundry tunt jedes der über 60 Open-Weight-Basismodelle mit LoRA in einem UI-Flow — kein Notebook erforderlich.

Detail

Statt alle Modellparameter während des Fine-Tunings zu aktualisieren (langsam, speicherintensiv), fügt LoRA kleine trainierbare Matrizen in die Attention-Schichten ein. Das Basismodell bleibt eingefroren; nur die Adaptergewichte werden trainiert. Ergebnis: 100–1000× weniger Speicher, 10× weniger Trainingszeit, vergleichbare Qualität bei den meisten Aufgaben.

LoRA-Adapter sind winzig (~MB statt GB), portierbar zwischen Deployments und stapelbar — Sie können mehrere Adapter auf einem Basismodell per Hot-Swap wechseln.

How osFoundry approaches LoRA

osFoundry trainiert LoRA-Adapter in Minuten bis Stunden, registriert sie in Ihrem Modellkatalog und wechselt sie zur Inferenzzeit per Hot-Swap auf Basismodell-Endpunkte — viele spezialisierte Verhaltensweisen auf einer gemeinsam genutzten GPU.