Question 1

osFoundry utilise-t-il Ollama ou llama.cpp ?

Accepted Answer

osFoundry exécute son propre serveur d’inférence. De votre point de vue c’est juste « Installer » et le modèle est prêt.

Question 2

Combien de RAM ai-je besoin ?

Accepted Answer

Un modèle Q4 7B nécessite ~6 Go. Un 13B nécessite ~10 Go. Un 70B Q4 nécessite ~50 Go.

Question 3

Puis-je exécuter plusieurs modèles locaux à la fois ?

Accepted Answer

Oui — le serveur hot-loade à la demande et décharge les modèles inactifs pour libérer de la mémoire.

Question 4

L’inférence locale est-elle facturée ?

Accepted Answer

Non. Le local s’exécute sur votre propre matériel et est gratuit.