Accueil / Fonctionnalités / Exécuter n’importe quel modèle / Inférence LLM locale
Exécutez des LLMs locaux sur votre ordinateur portable avec osFoundry
osFoundry exécute des LLMs open-weight (Llama, Qwen, Mistral, GPT-OSS) localement sur Apple Silicon et GPUs NVIDIA via un serveur d’inférence intégré. Les poids quantisés Q4 exécutent les modèles 7-13B sur un GPU grand public 16 Go ; les modèles 30B tiennent sur 24 Go ; les modèles 70B+ nécessitent une A100/H100 ou une quantisation agressive. Pas de tokens facturés, aucune donnée ne quitte votre machine.
Quick answer
- Serveur d’inférence local intégré — pas d’Ollama, pas de configuration llama.cpp.
- Apple Silicon (Metal) et NVIDIA (CUDA) supportés.
- Installation en un clic pour tout modèle du catalogue.
- Les modèles restent chargés à travers les chats — pas de latence de rechargement.
Frequently asked questions
osFoundry utilise-t-il Ollama ou llama.cpp ?
osFoundry exécute son propre serveur d’inférence. De votre point de vue c’est juste « Installer » et le modèle est prêt.
Combien de RAM ai-je besoin ?
Un modèle Q4 7B nécessite ~6 Go. Un 13B nécessite ~10 Go. Un 70B Q4 nécessite ~50 Go.
Puis-je exécuter plusieurs modèles locaux à la fois ?
Oui — le serveur hot-loade à la demande et décharge les modèles inactifs pour libérer de la mémoire.
L’inférence locale est-elle facturée ?
Non. Le local s’exécute sur votre propre matériel et est gratuit.
Related features