Startseite / Glossar / On-Device-Inferenz
What is On-device Inference?
On-Device-Inferenz führt ein LLM direkt auf der Hardware des Nutzers (Laptop, Smartphone) ohne jeden Netzwerkaufruf aus. Der eingebaute Inferenz-Server von osFoundry unterstützt Apple Silicon (Metal) und NVIDIA (CUDA) für Open-Weight-Modelle.
Detail
On-Device-Inferenz hat drei große Vorteile: null Pro-Token-Kosten, null Netzwerklatenz, null Datenlecks. Grenzen: Modellgröße durch VRAM begrenzt; Geschwindigkeit durch das Gerät begrenzt. Ein 7B-Modell läuft schnell auf einem modernen Mac; ein 70B-Modell benötigt eine GPU der A100-Klasse.
Quantisierung (Q4, Q5) ist essenziell, um größere Modelle in Consumer-VRAM unterzubringen.
How osFoundry approaches On-device Inference
Die Desktop-App von osFoundry enthält den Inferenz-Server. Modellinstallation per Klick für jedes Open-Weight-Modell. Qualitätsmodelle wie Llama 3.1 8B und Qwen 2.5 14B laufen flüssig auf Consumer-Hardware.
Related terms
Related features