Главная / Возможности / Запуск любой модели / Локальный инференс LLM
Запускайте локальные LLM на своём ноутбуке с osFoundry
osFoundry запускает LLM с открытыми весами (Llama, Qwen, Mistral, GPT-OSS) локально на Apple Silicon и NVIDIA GPU через встроенный сервер инференса. Квантованные веса Q4 запускают модели 7–13B на потребительском GPU 16 ГБ; модели 30B помещаются в 24 ГБ; модели 70B+ требуют A100/H100 или агрессивного квантования. Никаких тарифицируемых токенов, никакие данные не покидают вашу машину.
Quick answer
- Встроенный локальный сервер инференса — никакого Ollama, никакой настройки llama.cpp.
- Поддержка Apple Silicon (Metal) и NVIDIA (CUDA).
- Установка в один клик для любой модели в каталоге.
- Модели остаются загруженными между чатами — никакой задержки перезагрузки.
Frequently asked questions
Использует ли osFoundry Ollama или llama.cpp?
osFoundry запускает свой собственный сервер инференса. С вашей точки зрения это просто «Install», и модель готова.
Сколько RAM мне нужно?
Модель Q4 7B требует ~6 ГБ. 13B требует ~10 ГБ. 70B Q4 требует ~50 ГБ.
Могу ли я запустить несколько локальных моделей одновременно?
Да — сервер горячо загружает по требованию и выгружает простаивающие модели, чтобы освободить память.
Тарифицируется ли локальный инференс?
Нет. Локальный запуск на вашем собственном оборудовании, бесплатно.
Related features