Question 1

osFoundry usa Ollama o llama.cpp?

Accepted Answer

osFoundry esegue il proprio server di inferenza. Dalla Sua prospettiva è solo «Installa» e il modello è pronto.

Question 2

Quanta RAM mi serve?

Accepted Answer

Un modello Q4 7B richiede ~6 GB. Un 13B richiede ~10 GB. Un 70B Q4 richiede ~50 GB.

Question 3

Posso eseguire più modelli locali contemporaneamente?

Accepted Answer

Sì: il server fa hot-load su richiesta e scarica i modelli inattivi per liberare memoria.

Question 4

L'inferenza locale è fatturata?

Accepted Answer

No. Il locale gira sul Suo hardware ed è gratuito.