Startseite / Glossar / On-Device-Inferenz

What is On-device Inference?

On-Device-Inferenz führt ein LLM direkt auf der Hardware des Nutzers (Laptop, Smartphone) ohne jeden Netzwerkaufruf aus. Der eingebaute Inferenz-Server von osFoundry unterstützt Apple Silicon (Metal) und NVIDIA (CUDA) für Open-Weight-Modelle.

Detail

On-Device-Inferenz hat drei große Vorteile: null Pro-Token-Kosten, null Netzwerklatenz, null Datenlecks. Grenzen: Modellgröße durch VRAM begrenzt; Geschwindigkeit durch das Gerät begrenzt. Ein 7B-Modell läuft schnell auf einem modernen Mac; ein 70B-Modell benötigt eine GPU der A100-Klasse.

Quantisierung (Q4, Q5) ist essenziell, um größere Modelle in Consumer-VRAM unterzubringen.

How osFoundry approaches On-device Inference

Die Desktop-App von osFoundry enthält den Inferenz-Server. Modellinstallation per Klick für jedes Open-Weight-Modell. Qualitätsmodelle wie Llama 3.1 8B und Qwen 2.5 14B laufen flüssig auf Consumer-Hardware.

Related terms

self-hosting
quantization
local-first
no-leak-llm

Related features

local-llm-inference
self-host-llms