首页 / 功能 / 运行任意模型 / 本地 LLM 推理
用 osFoundry 在笔记本上运行本地 LLM
osFoundry 通过内置推理服务器在 Apple Silicon 和 NVIDIA GPU 上本地运行开放权重 LLM(Llama、Qwen、Mistral、GPT-OSS)。量化的 Q4 权重让 7 至 13B 模型可在 16 GB 消费级 GPU 上运行;30B 模型适合 24 GB;70B 以上需要 A100/H100 或激进量化。无 token 计费,数据不离开您的机器。
Quick answer
- 内置本地推理服务器——无需 Ollama,无需 llama.cpp 配置。
- 支持 Apple Silicon(Metal)和 NVIDIA(CUDA)。
- 目录中任意模型一键安装。
- 模型在对话之间保持加载——无重新加载延迟。
Frequently asked questions
osFoundry 使用 Ollama 或 llama.cpp 吗?
osFoundry 运行自己的推理服务器。从您角度看就是「安装」一下,模型即就绪。
我需要多少内存?
Q4 7B 模型大约需要 6 GB。13B 大约需要 10 GB。70B Q4 大约需要 50 GB。
我能同时运行多个本地模型吗?
可以——服务器按需热加载,并卸载空闲模型以释放内存。
本地推理需要计费吗?
不。本地运行在您自己的硬件上,免费。
Related features