首页 / 功能 / 运行任意模型
用 osFoundry 运行任意 AI 模型——本地、云端或自托管
BYOK 任意云端 API,在笔记本上运行开放权重,或部署专属 GPU 端点——全部在一个工作空间内。
osFoundry 是一个混合式 AI 编排平台,可在单一工作空间内运行任意 AI 模型——在您的笔记本上运行开放权重的 Llama、Qwen 或 Mistral;通过您自己的 API 密钥使用 Claude、GPT 或 Gemini;并在我们的云中部署专属 GPU 端点以获取预留算力。在对话中途切换后端,永不被锁定到单一提供方,只为模型实际运行的秒数付费。
Quick answer
- 使用 osFoundry 的设备端推理运行时本地运行开放权重模型——无 token 成本,数据不离开您的机器。
- 为 Anthropic、OpenAI、Google、Mistral、Together 以及任意 OpenAI 兼容端点自带 API 密钥(BYOK)。
- 在 osFoundry 云中部署专属 GPU 端点,为您选择的开放权重模型获得预留吞吐量。
- 在一次对话中跨三种模式路由请求——在不离开对话的情况下切换本地 ↔ 云端 ↔ 自托管。
- Token 无加价——直接计费到您的提供方账户。
What it is
大多数 AI 工具会强制使用单一后端:托管的对话产品、单一模型 API,或您独自维护的自托管方案。osFoundry 将本地推理、云端 API 和自托管端点视为同一个对话界面、同一套配置层、同一处计费下三个可互换的后端。同一段提示可以命中本地 8B 模型做低延迟分流、Claude Sonnet API 做困难推理、自托管 Llama 70B 处理敏感数据——全部在一次对话中。
Key capabilities
- 在 Apple Silicon 和 NVIDIA GPU 上对量化开放权重模型(Q4 至 FP16)进行本地推理。
- 对任意具备 OpenAI 兼容 API 的提供方使用 BYOK——密钥存放在您的加密 keychain 中。
- 按请求模型调度,由您在 osStudio 中配置的路由规则驱动。
- 推理时无需重启模型即可热切换 LoRA 适配器。
- 推理服务器集群视图——在本地机器、云端端点和自托管 GPU 之间汇集容量。
- 回退链:先尝试本地,若模型未加载则回退到云端。
How to do it in osFoundry
- 挑选模型 — 在 /community/models 和 /community/api-models 浏览目录——76,000+ 开放权重和 364 个托管 API 模型,双重身份的模型(如 Llama 3.1 70B)之间有交叉链接。
- 完成接入 — BYOK:将您的提供方密钥粘贴到密钥对话框,并将模型分配给某个 Maestro 角色。本地:在模型页面点击「安装」。自托管:在 Servers 标签页部署 GPU 端点。
- 开始使用 — 直接与之对话,从 Room App 中调用 invokeAI,或从您自己的服务以 HTTP 端点的形式调用——同一个模型、同样的路由、三种界面。
How osFoundry compares
| Capability | osFoundry | Most other tools |
|---|
| 后端 | 本地 + 云端 + 自托管,可按请求切换。 | 单一后端,厂商锁定。 |
| Token 加价 | 无——直接按提供方定价。 | 托管 token 加价 20% 至 100%。 |
| 隐私模式 | 纯本地模式——任何流量都不离开设备。 | 始终需上云。 |
| 模型数量 | 76K 开放 + 364 API + 您的自托管权重。 | 少数几个精选模型。 |
Use cases
- 独立开发者: 本地运行 Llama 3.1 8B 用于日常编码对话。困难重构时切换到 Claude Sonnet。同一个对话线程。
- 隐私优先团队: 强制所有敏感提示走本地模型;允许公开信息提示使用云端 API。路由规则执行该策略。
- 高量级初创公司: 在预留的 A100 上自托管 Mixtral 8x22B 承接 80% 流量;困难的 20% 突发到 GPT-4o。
推理服务器集群
将本地机器、BYOK 端点和自托管 GPU 的容量汇聚成单一可寻址池。Maestro 根据可用性和已配置的优先级按请求路由。
Frequently asked questions
我能不购买任何额度就使用 osFoundry 吗?
可以。BYOK 和本地推理都无需购买 osFoundry 额度——云端用量由您直接付费给提供方,本地推理免费。
osFoundry 会对云端 API token 加价吗?
不会。BYOK 会将您的流量直接透传到您的提供方账户。我们只对自有云服务(GPU 端点、应用托管、存储)收费。
我能 BYOK 到哪些提供方?
Anthropic、OpenAI、Google(Vertex + AI Studio)、Mistral、Together、Groq、DeepSeek、Cohere,以及任意 OpenAI 兼容端点。新提供方会通过连接器库添加。
本地运行开放权重模型需要什么硬件?
拥有 16 GB 显存的消费级 GPU 可在 Q4 下良好运行 7 至 13B 模型。24 GB 可处理 30B 模型。70B 以上需要 A100/H100 80 GB 或量化取舍。
我能在对话中途切换模型吗?
可以。每一轮都可以使用不同模型。Maestro 在 osStudio 中的路由规则可根据提示内容自动切换。
自托管端点与本地推理有何不同?
本地推理在您自己的机器上运行。自托管端点运行在您在 osFoundry 云中预置的专属 GPU 上——预留容量、无速率限制、通过您的私有网络访问。
osFoundry 也支持图像、音频和视频模型吗?
支持。目录包含 76K 开放权重模型,涵盖对话、图像、音频、视频和嵌入。BYOK 对托管图像/音频提供方(DALL·E、通过 Replicate 的 Midjourney、ElevenLabs 等)同样有效。
我能完全离线运行 osFoundry 吗?
可以——安装桌面应用,下载本地模型,禁用云端路由。本地优先模式是一等工作空间设置。
Pricing
本地推理:免费(使用您的硬件)。BYOK:按提供方定价,无加价。osFoundry 托管 GPU 端点:按 GPU 时间秒计费,当前费率请查看定价。
Related features