Startseite / Funktionen / Trainieren und fine-tunen

KI-Modelle auf osFoundry trainieren und fine-tunen

Fine-tunen Sie Llama, Mistral oder Qwen mit LoRA auf Ihren Daten. Quantisieren Sie für günstige Inferenz. Wechseln Sie Adapter zur Laufzeit per Hot-Swap.

osFoundry lässt Sie jedes Open-Weight-LLM mit LoRA auf Ihren eigenen Daten fine-tunen, das Ergebnis für günstige Inferenz quantisieren und Adapter zur Laufzeit per Hot-Swap wechseln — alles, ohne den Workspace zu verlassen. Trainingsjobs laufen auf Ihrer lokalen GPU, in der osFoundry Cloud oder gegen Ihre eigene Infrastruktur. Modelle, die Sie trainieren, sind sofort für Maestro und jede Room App in Ihrem Workspace verfügbar.

Quick answer

LoRA-Fine-Tuning auf Llama 3, Mistral, Qwen und 60+ weiteren Basismodellen — UI-gesteuert, kein Notebook nötig.
Drei Trainingspfade: lokale GPU, osFoundry Cloud oder Bring-Your-Own-Server.
Quantisieren Sie trainierte Adapter auf Q4/Q5 für günstige Inferenz.
Hot-Swap von LoRA-Adaptern pro Anfrage — kein Modell-Reload, Sub-Sekunden-Wechsel.

What it is

Die meisten KI-Plattformen sperren Sie entweder an gehostete Modelle oder reichen Ihnen ein Notebook. Die Trainings-Pipeline von osFoundry ist workspace-nativ: Wählen Sie eine Basis, zeigen Sie auf einen Datensatz (Ihre KB, einen öffentlichen Datensatz oder einen Upload), wählen Sie LoRA-Rang und liefern Sie aus. Der trainierte Adapter wird automatisch in Ihrem Modellkatalog registriert und ist aus Maestro heraus routebar, sobald er fertig ist.

Key capabilities

LoRA + QLoRA-Fine-Tuning auf über 60 Open-Weight-Basismodellen.
Adapter-Download — ziehen Sie die .safetensors aus osFoundry, um sie woanders zu deployen.
Quantisierung auf Q4_K_M, Q5_K_M, Q6_K, FP16 — Konvertierung per Klick.
Hot-Swap von bis zu 16 aktiven LoRA-Adaptern auf einem einzigen Basismodell.
Trainieren Sie auf Ihren Wissensdatenbanken, hochgeladenem JSONL/CSV oder einem von 250K öffentlichen Datensätzen.
Drei Trainingspfade pro Job: lokale GPU, osFoundry Cloud oder Ihre eigene Infrastruktur.

How to do it in osFoundry

Basismodell auswählen — Durchsuchen Sie /community/models, filtern Sie nach Open-Weight (Llama, Mistral, Qwen, Phi etc.), wählen Sie die Größe, die zu Ihrer Ziel-GPU passt.
Auf einen Datensatz zeigen — Wählen Sie eine Wissensdatenbank (automatisch als Instruction-Paare formatiert), laden Sie ein JSONL/CSV hoch oder wählen Sie aus 250K im Katalog indexierten öffentlichen Datensätzen.
Trainings-Konfiguration wählen — LoRA-Rang (8/16/32/64), Lernrate, Epochen, Zielmodule. Sinnvolle Voreinstellungen mitgeliefert; passen Sie sie von dort an.
Wählen, wo trainiert wird — Lokale GPU (kostenlos), osFoundry Cloud (Pro-Sekunde-GPU-Preise) oder BYO-Infrastruktur (Job an Ihr eigenes Cluster pushen).
Adapter ausliefern — Wenn das Training abgeschlossen ist, wird der Adapter automatisch in Ihrem Modellkatalog registriert. Per Hot-Swap auf einen Basismodell-Endpunkt aufschalten und in Minuten mit dem Routing beginnen.

How osFoundry compares

Capability	osFoundry	Most other tools
Trainings-UI	Workspace-nativ — kein Notebook, keine Befehlszeile.	Notebook oder CLI erforderlich.
Adapter-Export	.safetensors-Download per Klick mit Trainings-Konfiguration.	An Anbieter gebunden oder manueller Export.
Wo es läuft	Lokale GPU, unsere Cloud oder Ihre eigene Infrastruktur.	Ein einziger Ort, feste Preise.
Routing nach dem Training	Adapter sofort aus Maestro und Room Apps routebar.	Manuelle Verdrahtung in Ihren App-Code.

Use cases

Kunden-Support-Team: Fine-tunen Sie Mistral 7B auf 18 Monate Support-Transkripte. Der Agent antwortet in Ihrem Ton, referenziert Ihre Produkte und bleibt markentreu.
Legal Ops: Trainieren Sie Llama 3.1 8B auf einem gelabelten Vertragskorpus, um neue Verträge im Stil Ihrer Kanzlei zu redlinen. Bleibt On-Prem; Adapter verlässt nie den Workspace.
Spielestudio: LoRA-tunen Sie Qwen 14B auf Ihrer IP-Bibel für In-Game-NPC-Dialoge. Wechseln Sie pro Charakter per Hot-Swap einen anderen LoRA, um Stimmen auf einem gemeinsamen Basismodell unterschiedlich zu halten.

Frequently asked questions

Wie lange dauert ein LoRA-Fine-Tune auf osFoundry?

Ein 7B-Modell auf einem 50K-Zeilen-Datensatz dauert ~30 Minuten auf einer einzelnen A100. Ein 70B-Modell dauert ~3 Stunden. Lokale M2/M3 Macs bewältigen 7B in ~2 Stunden.

Kann ich den LoRA-Adapter aus osFoundry exportieren?

Ja — jeder trainierte Adapter ist als .safetensors herunterladbar und beinhaltet die Trainings-Konfiguration. Kein Lock-in.

Unterstützt osFoundry vollständiges Fine-Tuning, nicht nur LoRA?

LoRA + QLoRA sind heute die empfohlenen Pfade. Vollständiges Fine-Tuning von >7B-Modellen steht auf der Roadmap; vorerst BYO-Infrastruktur, falls Sie es brauchen.

Auf welchen Datensätzen kann ich trainieren?

Ihre Wissensdatenbanken (automatisch als Instruction-Paare formatiert), hochgeladene JSONL/CSV/parquet oder 250K öffentliche Datensätze, indexiert von HuggingFace.

Wie viel kostet das Training?

Lokales Training ist kostenlos (Ihre Hardware). Cloud-Training wird pro Sekunde GPU-Zeit zu den gleichen Tarifen wie Inferenz-Endpunkte abgerechnet. Ein 7B-LoRA auf A100 kostet etwa 2–3 USD pro Trainingslauf; 70B kostet 20–30 USD.

Kann ich einen unterbrochenen Trainingsjob fortsetzen?

Ja — Checkpoints werden alle N Schritte gespeichert (konfigurierbar). Die Wiederaufnahme setzt am letzten Checkpoint an, nicht von vorne.

Pricing

Lokales Training: kostenlos (Ihre Hardware). Cloud-Training: pro Sekunde GPU-Abrechnung zu den gleichen Tarifen wie Inferenz-Endpunkte (A10 / A100 / H100). Adapter-Speicher wird als Workspace-Dateispeicher gemessen.