Início / Glossário / Inferência no dispositivo

What is Inferência no Dispositivo?

Inferência no dispositivo (on-device inference) roda um LLM diretamente no hardware do usuário (laptop, celular) sem qualquer chamada de rede. O servidor de inferência embutido do osFoundry suporta Apple Silicon (Metal) e NVIDIA (CUDA) para modelos de pesos abertos.

Detail

Inferência no dispositivo tem três grandes vantagens: custo zero por token, latência zero de rede, vazamento zero de dados. Limites: tamanho do modelo limitado por VRAM; velocidade limitada pelo dispositivo. Um modelo 7B roda rápido em um Mac moderno; um modelo 70B precisa de uma GPU classe A100.

Quantização (Q4, Q5) é essencial para encaixar modelos maiores em VRAM de consumidor.

How osFoundry approaches Inferência no Dispositivo

O app desktop do osFoundry inclui o servidor de inferência. Instalação em um clique para qualquer modelo de pesos abertos. Modelos de qualidade como Llama 3.1 8B e Qwen 2.5 14B rodam suavemente em hardware de consumidor.