Home / Glossario / On-device inference
What is On-device Inference?
L'on-device inference esegue un LLM direttamente sull'hardware dell'utente (laptop, telefono) senza alcuna chiamata di rete. Il server di inferenza integrato di osFoundry supporta Apple Silicon (Metal) e NVIDIA (CUDA) per i modelli open-weight.
Detail
L'on-device inference ha tre grandi vantaggi: costo per token zero, latenza di rete zero, fuga di dati zero. Limiti: dimensione del modello vincolata dalla VRAM; velocità limitata dal device. Un modello 7B gira veloce su un Mac moderno; un modello 70B necessita di una GPU di classe A100.
La quantizzazione (Q4, Q5) è essenziale per far stare modelli più grandi in VRAM consumer.
How osFoundry approaches On-device Inference
L'app desktop di osFoundry include il server di inferenza. Installazione con un clic per qualsiasi modello open-weight. Modelli di qualità come Llama 3.1 8B e Qwen 2.5 14B girano senza problemi su hardware consumer.
Related terms
Related features