首页 / 功能 / 运行任意模型 / 自托管 LLM

在 osFoundry 中自托管 LLM——开放权重，无厂商锁定

osFoundry 可自托管任意开放权重 LLM（Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSS），完全掌控权重、运行时和路由。可运行在本地硬件、osFoundry 云中的专属 GPU 端点，或您自己的基础设施上。模型会注册到您的工作空间目录，加载完成的那一刻即可从 Maestro 路由。

Quick answer

可自托管目录中索引的 76K 开放权重模型中的任一个。
三种运行时：本地硬件、osFoundry 云 GPU 端点、您自己的 GPU 服务器。
模型加载完成的那一刻即可在工作空间内路由。
完整数据控制——权重和提示永不离开您的范围。

Key capabilities

76K 开放权重模型已索引，可一键安装。
内置推理服务器（无需 Ollama，无需手动 llama.cpp 配置）。
安装时量化：低成本选 Q4，完整精度选 FP16。
在基础模型上热切换 LoRA 适配器——一张 GPU 上承载多种专门化变体。
工作空间级路由——同一个模型句柄，三种可能的后端。

How to do it in osFoundry

浏览并挑选模型 — 打开 /community/models，筛选开放权重，挑选与目标硬件匹配的规模。
选择托管地点 — 本地（免费，使用您的硬件）、osFoundry 云 GPU 端点（按秒计费），或您自己的 GPU 服务器（对 osFoundry 免费；基础设施由您管理）。
安装 — 一键。平台会拉取权重，按您选择的量化方案应用，并加载到推理服务器中。
开始使用 — 模型现在已成为 Maestro 和所有 Room App 中可路由的句柄。按请求切换，或通过 osStudio 路由规则切换。

How osFoundry compares

Capability	osFoundry	Most other tools
搭建时间	几分钟——一键安装。	数小时的 llama.cpp / vLLM / Triton 配置。
硬件	本地、我们的云，或您自己的——可互换。	挑一个场所，押注其上。
安装后路由	自动——模型是工作空间句柄。	在您的代码中手动连接 API。
量化	安装时选择；之后可切换。	用独立工具手动转换权重。

Use cases

隐私敏感行业: 医疗 / 法律 / 金融团队在内部 A100 上自托管 Llama 3.1 70B——提示和输出永不离开组织边界。
高量级 SaaS: 在预留的 H100 上运行 Mixtral 8x22B 承接 80% 流量；困难的 20% 突发到云端 API。每 token 成本下降 60%。
研究员: 在挑选微调对象前，本地测试 12 个候选基础模型。免费、快速迭代，无需托管 API 账单。

Frequently asked questions

我能在 osFoundry 自托管哪些模型？

/community/models 中索引的 76K 开放权重模型中的任一个——Llama、Qwen、Mistral、Mixtral、DeepSeek、Phi、GPT-OSS 等等。

我需要先微调才能自托管吗？

不需要。自托管只是在您的掌控下运行基础模型。微调是可选的（已提供 LoRA 流程）。

自托管比 BYOK 到托管 API 更便宜吗？

在高用量下，是的。预留的 A100 在数百万 token 上摊销后，每 token 成本低于托管定价。

我能带入自己量化好的权重吗？

可以——上传 .safetensors 或 .gguf 文件，osFoundry 会将其注册为自定义模型。

自托管时适用哪些许可？

适用基础模型的许可证。目录中每个模型页都有许可证说明（商用 / 受限 / 仅研究）。

同一个模型能同时托管在两处吗？

可以——同一个模型句柄可以同时拥有本地后端和云端端点后端。路由规则决定每次请求由谁运行。

Pricing

本地自托管：免费（使用您的硬件和电力）。osFoundry 云 GPU 端点：按 GPU 时间秒计费，A10 / A100 / H100 费率。您自己的 GPU 服务器：对 osFoundry 免费；向您的基础设施提供方付费。