Question 1

Verwendet osFoundry Ollama oder llama.cpp?

Accepted Answer

osFoundry betreibt seinen eigenen Inferenz-Server. Aus Ihrer Perspektive ist es einfach „Installieren“, und das Modell ist bereit.

Question 2

Wie viel RAM brauche ich?

Accepted Answer

Ein Q4 7B-Modell benötigt ~6 GB. Ein 13B benötigt ~10 GB. Ein 70B Q4 benötigt ~50 GB.

Question 3

Kann ich mehrere lokale Modelle gleichzeitig betreiben?

Accepted Answer

Ja — der Server lädt bei Bedarf nach und entlädt inaktive Modelle, um Speicher freizugeben.

Question 4

Wird lokale Inferenz abgerechnet?

Accepted Answer

Nein. Lokal läuft auf Ihrer eigenen Hardware und ist kostenlos.