Accueil / Fonctionnalités / Exécuter n’importe quel modèle
Exécutez n’importe quel modèle IA avec osFoundry — local, cloud ou auto-hébergé
BYOK vers toute API cloud, exécutez des poids ouverts sur votre ordinateur portable, ou déployez un endpoint GPU dédié — tout depuis un seul espace de travail.
osFoundry est une plateforme d’orchestration IA hybride qui exécute tout modèle IA depuis un seul espace de travail — Llama open-weight, Qwen ou Mistral sur votre ordinateur portable ; Claude, GPT ou Gemini via vos propres clés d’API ; et des endpoints GPU dédiés dans notre cloud pour une capacité réservée. Changez de backend en cours de conversation, ne soyez jamais verrouillé sur un seul fournisseur, et ne payez que pour les secondes que votre modèle s’exécute réellement.
Quick answer
- Exécutez des modèles open-weight localement avec le runtime d’inférence sur l’appareil d’osFoundry — pas de coût de token, aucune donnée ne quitte votre machine.
- Apportez vos propres clés d’API (BYOK) pour Anthropic, OpenAI, Google, Mistral, Together et tout endpoint compatible OpenAI.
- Déployez des endpoints GPU dédiés dans le cloud osFoundry pour un débit réservé sur le modèle open-weight de votre choix.
- Acheminez les requêtes à travers les trois modes depuis un seul chat — basculez local ↔ cloud ↔ auto-hébergement sans quitter la conversation.
- Pas de marge sur les tokens — votre compte fournisseur est facturé directement.
What it is
La plupart des outils IA imposent un seul backend : un produit de chat hébergé, une seule API de modèle, ou un auto-hébergement que vous maintenez seul. osFoundry traite l’inférence locale, les APIs cloud et les endpoints auto-hébergés comme trois backends interchangeables derrière une seule surface de chat, une seule couche de configuration et une seule surface de facturation. Le même prompt peut atteindre un modèle local 8B pour un triage à faible latence, une API Claude Sonnet pour un raisonnement difficile, et un Llama 70B auto-hébergé pour les données sensibles — le tout dans une seule conversation.
Key capabilities
- Inférence locale avec des modèles open-weight quantisés (Q4 à FP16) sur Apple Silicon et GPU NVIDIA.
- BYOK vers tout fournisseur avec une API compatible OpenAI — les clés vivent dans votre keychain chiffré.
- Dispatch de modèle par requête piloté par des règles de routage configurables par l’utilisateur dans osStudio.
- Hot-swap des adaptateurs LoRA au moment de l’inférence sans redémarrer le modèle.
- Vue de flotte de serveurs d’inférence — mutualisez la capacité à travers les boîtes locales, endpoints cloud et GPU auto-hébergés.
- Chaînes de fallback : essayer local d’abord, basculer vers cloud si le modèle n’est pas chargé.
How to do it in osFoundry
- Choisissez un modèle — Parcourez le catalogue sur /community/models et /community/api-models — 76 000+ poids ouverts et 364 modèles d’API hébergés, avec des liens croisés entre ceux à double nature (p. ex. Llama 3.1 70B est les deux).
- Câblez-le — Pour BYOK : collez votre clé fournisseur dans la boîte de dialogue de clé et attribuez le modèle à un rôle Maestro. Pour local : cliquez sur Installer sur la page du modèle. Pour auto-hébergement : déployez un endpoint GPU depuis l’onglet Serveurs.
- Utilisez-le — Chattez directement avec lui, appelez invokeAI depuis une Room App, ou atteignez-le comme endpoint HTTP depuis vos propres services — même modèle, même routage, trois interfaces.
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| Backends | Local + cloud + auto-hébergé, commutable par requête. | Backend unique, verrouillé fournisseur. |
| Marge sur les tokens | Aucune — tarification fournisseur directe. | 20 à 100 % de marge sur les tokens hébergés. |
| Mode confidentialité | Mode local uniquement — aucun trafic ne quitte jamais l’appareil. | Toujours lié au cloud. |
| Nombre de modèles | 76 K ouverts + 364 API + vos poids auto-hébergés. | Une poignée de modèles curatés. |
Use cases
- Développeur solo: Exécutez Llama 3.1 8B localement pour le chat de codage quotidien. Basculez vers Claude Sonnet pour les refactorings difficiles. Même fil de chat.
- Équipe privacy-first: Forcez tous les prompts sensibles vers les modèles locaux ; autorisez les prompts d’infos publiques à utiliser les APIs cloud. Les règles de routage appliquent la politique.
- Startup à haut volume: Auto-hébergez Mixtral 8x22B sur une A100 réservée pour 80 % du trafic ; basculez vers GPT-4o pour les 20 % difficiles.
Flotte de serveurs d’inférence
Agrégez la capacité à travers les machines locales, endpoints BYOK et GPU auto-hébergés dans un seul pool adressable. Maestro effectue le routage par requête en fonction de la disponibilité et des priorités configurées.
Frequently asked questions
Puis-je utiliser osFoundry sans acheter de crédits ?
Oui. BYOK et l’inférence locale fonctionnent tous deux sans aucun achat de crédit osFoundry — vous payez votre propre fournisseur pour l’usage cloud, et l’inférence locale est gratuite.
osFoundry applique-t-il une marge sur les tokens d’API cloud ?
Non. BYOK transfère votre trafic directement à votre compte fournisseur. Nous facturons uniquement nos propres services hébergés en cloud (endpoints GPU, hébergement d’apps, stockage).
Vers quels fournisseurs puis-je faire du BYOK ?
Anthropic, OpenAI, Google (Vertex + AI Studio), Mistral, Together, Groq, DeepSeek, Cohere et tout endpoint compatible OpenAI. De nouveaux fournisseurs sont ajoutés via la bibliothèque de connecteurs.
Quel matériel ai-je besoin pour exécuter des modèles open-weight localement ?
Un GPU grand public avec 16 Go de VRAM exécute bien les modèles 7-13B en Q4. 24 Go gère les modèles 30B. Les modèles 70B+ nécessitent une A100/H100 80 Go ou des compromis de quantisation.
Puis-je changer de modèle en cours de conversation ?
Oui. Chaque tour peut utiliser un modèle différent. Les règles de routage de Maestro dans osStudio vous permettent de basculer automatiquement en fonction du contenu du prompt.
En quoi un endpoint auto-hébergé est-il différent de l’inférence locale ?
L’inférence locale s’exécute sur votre propre machine. Un endpoint auto-hébergé s’exécute sur un GPU dédié que vous provisionnez dans le cloud osFoundry — capacité réservée, pas de limites de débit, accédé via votre réseau privé.
osFoundry prend-il en charge aussi les modèles d’image, audio et vidéo ?
Oui. Le catalogue inclut 76 K modèles open-weight à travers chat, image, audio, vidéo et embedding. BYOK fonctionne pour les fournisseurs d’image/audio hébergés (DALL·E, Midjourney via Replicate, ElevenLabs, etc.).
Puis-je exécuter osFoundry entièrement hors ligne ?
Oui — installez l’app de bureau, téléchargez un modèle local et désactivez les routes cloud. Le mode local-first est un paramètre d’espace de travail de première classe.
Pricing
Inférence locale : gratuite (votre matériel). BYOK : tarification de votre fournisseur, sans marge. Endpoints GPU hébergés par osFoundry : par seconde de temps GPU, voir tarification pour les tarifs actuels.
Related features