首页 / 术语表 / 设备端推理
What is 设备端推理(On-device Inference)?
设备端推理直接在用户硬件(笔记本、手机)上运行 LLM,无任何网络调用。osFoundry 的内置推理服务器支持开放权重模型在 Apple Silicon(Metal)和 NVIDIA(CUDA)上运行。
Detail
设备端推理有三大优势:零 token 成本、零网络延迟、零数据泄露。限制:模型大小受显存约束;速度受设备限制。7B 模型在现代 Mac 上运行迅速;70B 模型需要 A100 级别 GPU。
量化(Q4、Q5)对将较大模型装入消费级显存至关重要。
How osFoundry approaches 设备端推理(On-device Inference)
osFoundry 的桌面应用内置推理服务器。任何开放权重模型一键安装。Llama 3.1 8B 和 Qwen 2.5 14B 等高质量模型在消费级硬件上运行流畅。
Related terms
Related features