Accueil / Fonctionnalités / Entraîner et fine-tuner

Entraînez et fine-tunez des modèles IA sur osFoundry

Fine-tunez Llama, Mistral ou Qwen avec LoRA sur vos données. Quantisez pour une inférence bon marché. Hot-swap des adaptateurs au runtime.

osFoundry vous permet de fine-tuner tout LLM open-weight avec LoRA sur vos propres données, de quantiser le résultat pour une inférence bon marché, et de hot-swap les adaptateurs au runtime — le tout sans quitter l’espace de travail. Les jobs d’entraînement s’exécutent sur votre GPU local, dans le cloud osFoundry, ou contre votre propre infrastructure. Les modèles que vous entraînez sont immédiatement disponibles pour Maestro et pour chaque Room App de votre espace de travail.

Quick answer

Fine-tuning LoRA sur Llama 3, Mistral, Qwen et 60+ autres modèles de base — piloté par UI, pas de notebook requis.
Trois chemins d’entraînement : GPU local, cloud osFoundry, ou bring-your-own-server.
Quantisez les adaptateurs entraînés en Q4/Q5 pour une inférence bon marché.
Hot-swap des adaptateurs LoRA par requête — pas de rechargement du modèle, commutation sub-seconde.

What it is

La plupart des plateformes IA vous verrouillent soit sur des modèles hébergés, soit vous remettent un notebook. Le pipeline d’entraînement d’osFoundry est natif à l’espace de travail : choisissez une base, pointez vers un jeu de données (votre KB, un jeu de données public ou un téléversement), choisissez le rang LoRA et livrez. L’adaptateur entraîné est enregistré dans votre catalogue de modèles automatiquement et routable depuis Maestro dès qu’il est terminé.

Key capabilities

Fine-tuning LoRA + QLoRA sur 60+ modèles de base open-weight.
Téléchargement d’adaptateur — récupérez le .safetensors hors d’osFoundry pour déployer ailleurs.
Quantisation en Q4_K_M, Q5_K_M, Q6_K, FP16 — convertir en un clic.
Hot-swap jusqu’à 16 adaptateurs LoRA actifs sur un seul modèle de base.
Entraînez sur vos bases de connaissances, JSONL/CSV téléversés, ou n’importe lequel des 250 K jeux de données publics.
Trois chemins d’entraînement par job : GPU local, cloud osFoundry, ou votre propre infrastructure.

How to do it in osFoundry

Choisissez un modèle de base — Parcourez /community/models, filtrez sur open-weight (Llama, Mistral, Qwen, Phi, etc.), choisissez la taille qui correspond à votre GPU cible.
Pointez vers un jeu de données — Choisissez une base de connaissances (auto-formatée en paires d’instructions), téléversez un JSONL/CSV, ou choisissez parmi 250 K jeux de données publics indexés dans le catalogue.
Choisissez la configuration d’entraînement — Rang LoRA (8/16/32/64), taux d’apprentissage, époques, modules cibles. Des valeurs par défaut sensées sont fournies ; ajustez à partir de là.
Choisissez où entraîner — GPU local (gratuit), cloud osFoundry (tarification GPU par seconde), ou BYO infrastructure (envoi du job vers votre propre cluster).
Livrez l’adaptateur — Quand l’entraînement se termine, l’adaptateur est enregistré dans votre catalogue de modèles automatiquement. Hot-swap sur un endpoint de modèle de base et commencez à acheminer les requêtes en quelques minutes.

How osFoundry compares

Capability	osFoundry	Most other tools
UI d’entraînement	Native à l’espace de travail — pas de notebook, pas de ligne de commande.	Notebook ou CLI requis.
Export d’adaptateur	Téléchargement .safetensors en un clic avec configuration d’entraînement.	Verrouillé au fournisseur, ou export manuel.
Où ça s’exécute	GPU local, notre cloud, ou votre propre infrastructure.	Un seul lieu, tarification fixe.
Routage post-entraînement	Adaptateur immédiatement routable depuis Maestro et Room Apps.	Câblage manuel dans le code de votre app.

Use cases

Équipe support client: Fine-tunez Mistral 7B sur 18 mois de transcriptions de support. L’agent répond avec votre ton, référence vos produits et reste sur la marque.
Legal ops: Entraînez Llama 3.1 8B sur un corpus de contrats étiquetés pour annoter les nouveaux contrats dans le style de votre cabinet. Reste on-prem ; l’adaptateur ne quitte jamais l’espace de travail.
Studio de jeu: LoRA-tune Qwen 14B sur votre bible d’IP pour les dialogues de PNJ en jeu. Hot-swap d’un LoRA différent par personnage pour garder les voix distinctes sur un seul modèle de base partagé.

Frequently asked questions

Combien de temps prend un fine-tune LoRA sur osFoundry ?

Un modèle 7B sur un jeu de données de 50 K lignes prend ~30 minutes sur une seule A100. Un modèle 70B prend ~3 heures. Les Macs M2/M3 locaux gèrent 7B en ~2 heures.

Puis-je exporter l’adaptateur LoRA depuis osFoundry ?

Oui — chaque adaptateur entraîné est téléchargeable en .safetensors et inclut la configuration d’entraînement. Pas de verrouillage.

osFoundry prend-il en charge le fine-tuning complet, pas seulement LoRA ?

LoRA + QLoRA sont les chemins recommandés aujourd’hui. Le fine-tuning complet de modèles >7B est sur la roadmap ; pour l’instant, BYO infrastructure si vous en avez besoin.

Sur quels jeux de données puis-je entraîner ?

Vos bases de connaissances (auto-formatées en paires d’instructions), JSONL/CSV/parquet téléversés, ou 250 K jeux de données publics indexés depuis HuggingFace.

Combien coûte l’entraînement ?

L’entraînement local est gratuit (votre matériel). L’entraînement cloud est facturé par seconde de temps GPU aux mêmes tarifs que les endpoints d’inférence. Un LoRA 7B sur A100 coûte environ 2-3 $ par exécution d’entraînement ; 70B coûte 20-30 $.

Puis-je reprendre un job d’entraînement interrompu ?

Oui — les checkpoints sont sauvegardés tous les N pas (configurable). La reprise repart du dernier checkpoint, pas de zéro.

Pricing

Entraînement local : gratuit (votre matériel). Entraînement cloud : facturation GPU par seconde aux mêmes tarifs que les endpoints d’inférence (A10 / A100 / H100). Le stockage d’adaptateurs est mesuré comme stockage de fichiers de l’espace de travail.