Question 1

O osFoundry usa Ollama ou llama.cpp?

Accepted Answer

O osFoundry roda seu próprio servidor de inferência. Da sua perspectiva é apenas "Instalar" e o modelo está pronto.

Question 2

Quanta RAM eu preciso?

Accepted Answer

Um modelo Q4 7B precisa de ~6 GB. Um 13B precisa de ~10 GB. Um 70B Q4 precisa de ~50 GB.

Question 3

Posso rodar vários modelos locais ao mesmo tempo?

Accepted Answer

Sim — o servidor faz hot-load sob demanda e descarrega modelos ociosos para liberar memória.

Question 4

A inferência local é cobrada?

Accepted Answer

Não. Local roda no seu próprio hardware e é gratuito.