Accueil / Fonctionnalités / Entraîner et fine-tuner / Fine-tuning LoRA

Fine-tunez Llama, Mistral ou Qwen avec LoRA sur osFoundry

osFoundry fine-tune tout modèle de base open-weight avec LoRA ou QLoRA sur vos données — pas de notebook, pas de ligne de commande. Choisissez une base, pointez vers un jeu de données (votre KB, un téléversement ou un jeu de données public), définissez le rang LoRA et entraînez. L’adaptateur est enregistré dans votre catalogue de modèles et immédiatement routable depuis Maestro et les Room Apps dès la fin de l’entraînement.

Quick answer

LoRA + QLoRA sur 60+ modèles de base open-weight.
Entraînez sur votre KB, téléversements JSONL/CSV ou 250 K jeux de données publics.
Piloté par UI — pas de notebook.
L’adaptateur est routable à l’échelle de l’espace de travail dès la fin de l’entraînement.

Key capabilities

60+ modèles de base supportés (Llama 3, Mistral, Qwen, Phi, Gemma…).
Flux LoRA + QLoRA ; rang 8/16/32/64 sélectionnable.
Entraînez sur KBs (auto-formatées), JSONL/CSV/parquet, ou 250 K jeux de données publics.
Trois runtimes : GPU local, cloud osFoundry, votre propre infrastructure.
Checkpoints tous les N pas — reprenez un job interrompu depuis le dernier checkpoint.
Export d’adaptateur : .safetensors avec configuration d’entraînement complète.

How to do it in osFoundry

Choisissez une base + cible LoRA — Choisissez le modèle de base. Configurez le rang LoRA, taux d’apprentissage, époques et modules cibles. Les défauts fonctionnent pour la plupart des cas.
Pointez vers votre jeu de données — Choisissez une KB (format auto-paires-d’instructions), téléversez JSONL, ou choisissez un jeu de données public.
Lancez l’entraînement — Choisissez le runtime (local/cloud/BYO). Regardez la courbe de loss en direct au fur et à mesure de l’entraînement.
Hot-swap l’adaptateur — Quand l’entraînement se termine, hot-swap l’adaptateur sur un endpoint de modèle de base déployé. Même handle, nouveau comportement.

Use cases

Support client: LoRA-tune Mistral 7B sur les tickets passés. L’agent répond maintenant dans votre ton avec la connaissance produit.
Équipe juridique: Entraînez Llama 3.1 8B sur des contrats étiquetés. Annotez les nouveaux documents dans le style de votre cabinet on-prem.
Studio de jeu: LoRAs par personnage hot-swappés sur un seul modèle de base. Un GPU, plusieurs voix de PNJ distinctes.

Frequently asked questions

Combien de temps prend un fine-tune LoRA ?

Modèle 7B sur 50 K lignes : ~30 min sur A100. 70B : ~3 heures. Mac M2/M3 grand public : ~2 heures pour 7B.

Quel rang devrais-je utiliser ?

Commencez avec rang 16. Augmentez à 32 ou 64 pour des décalages de domaine plus difficiles ; diminuez à 8 pour l’ajustement stylistique.

Puis-je entraîner sur ma base de connaissances ?

Oui — les KBs sont auto-formatées en paires d’instructions.

Puis-je exporter l’adaptateur ?

Oui — téléchargement .safetensors avec configuration d’entraînement complète. Déployable en dehors d’osFoundry aussi.

QLoRA est-il supporté ?

Oui — QLoRA réduit la VRAM en quantisant la base en 4-bit. Choisissez QLoRA dans la configuration d’entraînement si votre GPU est limité en mémoire.

Comment j’évalue le résultat ?

Comparez l’adaptateur contre la base sur votre jeu d’évaluation avec la vue de comparaison côte à côte. Promouvez quand la qualité dépasse votre seuil.

Pricing

Local : gratuit. Cloud : temps GPU par seconde. Un LoRA 7B sur A100 coûte environ 2-3 $ par exécution ; 70B coûte 20-30 $.