首页 / 术语表 / 设备端推理

What is 设备端推理（On-device Inference）?

设备端推理直接在用户硬件（笔记本、手机）上运行 LLM，无任何网络调用。osFoundry 的内置推理服务器支持开放权重模型在 Apple Silicon（Metal）和 NVIDIA（CUDA）上运行。

Detail

设备端推理有三大优势：零 token 成本、零网络延迟、零数据泄露。限制：模型大小受显存约束；速度受设备限制。7B 模型在现代 Mac 上运行迅速；70B 模型需要 A100 级别 GPU。

量化（Q4、Q5）对将较大模型装入消费级显存至关重要。

osFoundry 的桌面应用内置推理服务器。任何开放权重模型一键安装。Llama 3.1 8B 和 Qwen 2.5 14B 等高质量模型在消费级硬件上运行流畅。