Главная / Глоссарий / Инференс на устройстве
What is Инференс на устройстве (On-device Inference)?
Инференс на устройстве запускает LLM непосредственно на оборудовании пользователя (ноутбук, телефон) без сетевых вызовов. Встроенный сервер инференса osFoundry поддерживает Apple Silicon (Metal) и NVIDIA (CUDA) для моделей с открытыми весами.
Detail
У инференса на устройстве три больших плюса: нулевая стоимость за токен, нулевая сетевая задержка, нулевая утечка данных. Ограничения: размер модели ограничен VRAM; скорость ограничена устройством. Модель 7B быстро работает на современном Mac; модель 70B требует GPU класса A100.
Квантование (Q4, Q5) необходимо для размещения больших моделей в потребительском VRAM.
How osFoundry approaches Инференс на устройстве (On-device Inference)
Десктопное приложение osFoundry включает сервер инференса. Установка любой модели с открытыми весами в один клик. Качественные модели вроде Llama 3.1 8B и Qwen 2.5 14B плавно работают на потребительском оборудовании.
Related terms
Related features