Главная / Глоссарий / Инференс на устройстве

What is Инференс на устройстве (On-device Inference)?

Инференс на устройстве запускает LLM непосредственно на оборудовании пользователя (ноутбук, телефон) без сетевых вызовов. Встроенный сервер инференса osFoundry поддерживает Apple Silicon (Metal) и NVIDIA (CUDA) для моделей с открытыми весами.

Detail

У инференса на устройстве три больших плюса: нулевая стоимость за токен, нулевая сетевая задержка, нулевая утечка данных. Ограничения: размер модели ограничен VRAM; скорость ограничена устройством. Модель 7B быстро работает на современном Mac; модель 70B требует GPU класса A100.

Квантование (Q4, Q5) необходимо для размещения больших моделей в потребительском VRAM.

How osFoundry approaches Инференс на устройстве (On-device Inference)

Десктопное приложение osFoundry включает сервер инференса. Установка любой модели с открытыми весами в один клик. Качественные модели вроде Llama 3.1 8B и Qwen 2.5 14B плавно работают на потребительском оборудовании.