Startseite / Funktionen / Beliebiges Modell betreiben / Lokale LLM-Inferenz
Lokale LLMs auf Ihrem Laptop mit osFoundry betreiben
osFoundry führt Open-Weight-LLMs (Llama, Qwen, Mistral, GPT-OSS) lokal auf Apple Silicon und NVIDIA-GPUs über einen eingebauten Inferenz-Server aus. Quantisierte Q4-Gewichte lassen 7–13B-Modelle auf einer 16 GB Consumer-GPU laufen; 30B-Modelle passen auf 24 GB; 70B+-Modelle benötigen eine A100/H100 oder aggressive Quantisierung. Keine abgerechneten Tokens, keine Daten verlassen Ihren Rechner.
Quick answer
- Eingebauter lokaler Inferenz-Server — kein Ollama, kein llama.cpp-Setup.
- Apple Silicon (Metal) und NVIDIA (CUDA) unterstützt.
- Installation per Klick für jedes Modell im Katalog.
- Modelle bleiben über Chats hinweg geladen — keine Re-Load-Latenz.
Frequently asked questions
Verwendet osFoundry Ollama oder llama.cpp?
osFoundry betreibt seinen eigenen Inferenz-Server. Aus Ihrer Perspektive ist es einfach „Installieren“, und das Modell ist bereit.
Wie viel RAM brauche ich?
Ein Q4 7B-Modell benötigt ~6 GB. Ein 13B benötigt ~10 GB. Ein 70B Q4 benötigt ~50 GB.
Kann ich mehrere lokale Modelle gleichzeitig betreiben?
Ja — der Server lädt bei Bedarf nach und entlädt inaktive Modelle, um Speicher freizugeben.
Wird lokale Inferenz abgerechnet?
Nein. Lokal läuft auf Ihrer eigenen Hardware und ist kostenlos.
Related features