Accueil / Glossaire / Inférence sur l’appareil

What is Inférence sur l’appareil?

L’inférence sur l’appareil exécute un LLM directement sur le matériel de l’utilisateur (ordinateur portable, téléphone) sans aucun appel réseau. Le serveur d’inférence intégré d’osFoundry prend en charge Apple Silicon (Metal) et NVIDIA (CUDA) pour les modèles open-weight.

Detail

L’inférence sur l’appareil a trois grands avantages : zéro coût par token, zéro latence réseau, zéro fuite de données. Limites : taille de modèle contrainte par la VRAM ; vitesse limitée par l’appareil. Un modèle 7B s’exécute rapidement sur un Mac moderne ; un modèle 70B nécessite un GPU de classe A100.

La quantisation (Q4, Q5) est essentielle pour faire tenir de plus grands modèles dans la VRAM grand public.

How osFoundry approaches Inférence sur l’appareil

L’app de bureau d’osFoundry inclut le serveur d’inférence. Installation en un clic pour n’importe quel modèle open-weight. Des modèles de qualité comme Llama 3.1 8B et Qwen 2.5 14B s’exécutent fluidement sur du matériel grand public.