首页 / 功能 / 运行任意模型 / 自托管 LLM
在 osFoundry 中自托管 LLM——开放权重,无厂商锁定
osFoundry 可自托管任意开放权重 LLM(Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSS),完全掌控权重、运行时和路由。可运行在本地硬件、osFoundry 云中的专属 GPU 端点,或您自己的基础设施上。模型会注册到您的工作空间目录,加载完成的那一刻即可从 Maestro 路由。
Quick answer
- 可自托管目录中索引的 76K 开放权重模型中的任一个。
- 三种运行时:本地硬件、osFoundry 云 GPU 端点、您自己的 GPU 服务器。
- 模型加载完成的那一刻即可在工作空间内路由。
- 完整数据控制——权重和提示永不离开您的范围。
Key capabilities
- 76K 开放权重模型已索引,可一键安装。
- 内置推理服务器(无需 Ollama,无需手动 llama.cpp 配置)。
- 安装时量化:低成本选 Q4,完整精度选 FP16。
- 在基础模型上热切换 LoRA 适配器——一张 GPU 上承载多种专门化变体。
- 工作空间级路由——同一个模型句柄,三种可能的后端。
How to do it in osFoundry
- 浏览并挑选模型 — 打开 /community/models,筛选开放权重,挑选与目标硬件匹配的规模。
- 选择托管地点 — 本地(免费,使用您的硬件)、osFoundry 云 GPU 端点(按秒计费),或您自己的 GPU 服务器(对 osFoundry 免费;基础设施由您管理)。
- 安装 — 一键。平台会拉取权重,按您选择的量化方案应用,并加载到推理服务器中。
- 开始使用 — 模型现在已成为 Maestro 和所有 Room App 中可路由的句柄。按请求切换,或通过 osStudio 路由规则切换。
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| 搭建时间 | 几分钟——一键安装。 | 数小时的 llama.cpp / vLLM / Triton 配置。 |
| 硬件 | 本地、我们的云,或您自己的——可互换。 | 挑一个场所,押注其上。 |
| 安装后路由 | 自动——模型是工作空间句柄。 | 在您的代码中手动连接 API。 |
| 量化 | 安装时选择;之后可切换。 | 用独立工具手动转换权重。 |
Use cases
- 隐私敏感行业: 医疗 / 法律 / 金融团队在内部 A100 上自托管 Llama 3.1 70B——提示和输出永不离开组织边界。
- 高量级 SaaS: 在预留的 H100 上运行 Mixtral 8x22B 承接 80% 流量;困难的 20% 突发到云端 API。每 token 成本下降 60%。
- 研究员: 在挑选微调对象前,本地测试 12 个候选基础模型。免费、快速迭代,无需托管 API 账单。
Frequently asked questions
我能在 osFoundry 自托管哪些模型?
/community/models 中索引的 76K 开放权重模型中的任一个——Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSS 等等。
我需要先微调才能自托管吗?
不需要。自托管只是在您的掌控下运行基础模型。微调是可选的(已提供 LoRA 流程)。
自托管比 BYOK 到托管 API 更便宜吗?
在高用量下,是的。预留的 A100 在数百万 token 上摊销后,每 token 成本低于托管定价。
我能带入自己量化好的权重吗?
可以——上传 .safetensors 或 .gguf 文件,osFoundry 会将其注册为自定义模型。
自托管时适用哪些许可?
适用基础模型的许可证。目录中每个模型页都有许可证说明(商用 / 受限 / 仅研究)。
同一个模型能同时托管在两处吗?
可以——同一个模型句柄可以同时拥有本地后端和云端端点后端。路由规则决定每次请求由谁运行。
Pricing
本地自托管:免费(使用您的硬件和电力)。osFoundry 云 GPU 端点:按 GPU 时间秒计费,A10 / A100 / H100 费率。您自己的 GPU 服务器:对 osFoundry 免费;向您的基础设施提供方付费。
Related features