Home / Glossario / On-device inference

What is On-device Inference?

L'on-device inference esegue un LLM direttamente sull'hardware dell'utente (laptop, telefono) senza alcuna chiamata di rete. Il server di inferenza integrato di osFoundry supporta Apple Silicon (Metal) e NVIDIA (CUDA) per i modelli open-weight.

Detail

L'on-device inference ha tre grandi vantaggi: costo per token zero, latenza di rete zero, fuga di dati zero. Limiti: dimensione del modello vincolata dalla VRAM; velocità limitata dal device. Un modello 7B gira veloce su un Mac moderno; un modello 70B necessita di una GPU di classe A100.

La quantizzazione (Q4, Q5) è essenziale per far stare modelli più grandi in VRAM consumer.

How osFoundry approaches On-device Inference

L'app desktop di osFoundry include il server di inferenza. Installazione con un clic per qualsiasi modello open-weight. Modelli di qualità come Llama 3.1 8B e Qwen 2.5 14B girano senza problemi su hardware consumer.

Related terms

self-hosting
quantization
local-first
no-leak-llm

Related features

local-llm-inference
self-host-llms