首页 / 功能 / 运行任意模型

用 osFoundry 运行任意 AI 模型——本地、云端或自托管

BYOK 任意云端 API，在笔记本上运行开放权重，或部署专属 GPU 端点——全部在一个工作空间内。

osFoundry 是一个混合式 AI 编排平台，可在单一工作空间内运行任意 AI 模型——在您的笔记本上运行开放权重的 Llama、Qwen 或 Mistral；通过您自己的 API 密钥使用 Claude、GPT 或 Gemini；并在我们的云中部署专属 GPU 端点以获取预留算力。在对话中途切换后端，永不被锁定到单一提供方，只为模型实际运行的秒数付费。

Quick answer

使用 osFoundry 的设备端推理运行时本地运行开放权重模型——无 token 成本，数据不离开您的机器。
为 Anthropic、OpenAI、Google、Mistral、Together 以及任意 OpenAI 兼容端点自带 API 密钥（BYOK）。
在 osFoundry 云中部署专属 GPU 端点，为您选择的开放权重模型获得预留吞吐量。
在一次对话中跨三种模式路由请求——在不离开对话的情况下切换本地 ↔ 云端 ↔ 自托管。
Token 无加价——直接计费到您的提供方账户。

What it is

大多数 AI 工具会强制使用单一后端：托管的对话产品、单一模型 API，或您独自维护的自托管方案。osFoundry 将本地推理、云端 API 和自托管端点视为同一个对话界面、同一套配置层、同一处计费下三个可互换的后端。同一段提示可以命中本地 8B 模型做低延迟分流、Claude Sonnet API 做困难推理、自托管 Llama 70B 处理敏感数据——全部在一次对话中。

Key capabilities

在 Apple Silicon 和 NVIDIA GPU 上对量化开放权重模型（Q4 至 FP16）进行本地推理。
对任意具备 OpenAI 兼容 API 的提供方使用 BYOK——密钥存放在您的加密 keychain 中。
按请求模型调度，由您在 osStudio 中配置的路由规则驱动。
推理时无需重启模型即可热切换 LoRA 适配器。
推理服务器集群视图——在本地机器、云端端点和自托管 GPU 之间汇集容量。
回退链：先尝试本地，若模型未加载则回退到云端。

How to do it in osFoundry

挑选模型 — 在 /community/models 和 /community/api-models 浏览目录——76,000+ 开放权重和 364 个托管 API 模型，双重身份的模型（如 Llama 3.1 70B）之间有交叉链接。
完成接入 — BYOK：将您的提供方密钥粘贴到密钥对话框，并将模型分配给某个 Maestro 角色。本地：在模型页面点击「安装」。自托管：在 Servers 标签页部署 GPU 端点。
开始使用 — 直接与之对话，从 Room App 中调用 invokeAI，或从您自己的服务以 HTTP 端点的形式调用——同一个模型、同样的路由、三种界面。

How osFoundry compares

Capability	osFoundry	Most other tools
后端	本地 + 云端 + 自托管，可按请求切换。	单一后端，厂商锁定。
Token 加价	无——直接按提供方定价。	托管 token 加价 20% 至 100%。
隐私模式	纯本地模式——任何流量都不离开设备。	始终需上云。
模型数量	76K 开放 + 364 API + 您的自托管权重。	少数几个精选模型。

Use cases

独立开发者: 本地运行 Llama 3.1 8B 用于日常编码对话。困难重构时切换到 Claude Sonnet。同一个对话线程。
隐私优先团队: 强制所有敏感提示走本地模型；允许公开信息提示使用云端 API。路由规则执行该策略。
高量级初创公司: 在预留的 A100 上自托管 Mixtral 8x22B 承接 80% 流量；困难的 20% 突发到 GPT-4o。

推理服务器集群

将本地机器、BYOK 端点和自托管 GPU 的容量汇聚成单一可寻址池。Maestro 根据可用性和已配置的优先级按请求路由。

Frequently asked questions

我能不购买任何额度就使用 osFoundry 吗？

可以。BYOK 和本地推理都无需购买 osFoundry 额度——云端用量由您直接付费给提供方，本地推理免费。

osFoundry 会对云端 API token 加价吗？

不会。BYOK 会将您的流量直接透传到您的提供方账户。我们只对自有云服务（GPU 端点、应用托管、存储）收费。

我能 BYOK 到哪些提供方？

Anthropic、OpenAI、Google（Vertex + AI Studio）、Mistral、Together、Groq、DeepSeek、Cohere，以及任意 OpenAI 兼容端点。新提供方会通过连接器库添加。

本地运行开放权重模型需要什么硬件？

拥有 16 GB 显存的消费级 GPU 可在 Q4 下良好运行 7 至 13B 模型。24 GB 可处理 30B 模型。70B 以上需要 A100/H100 80 GB 或量化取舍。

我能在对话中途切换模型吗？

可以。每一轮都可以使用不同模型。Maestro 在 osStudio 中的路由规则可根据提示内容自动切换。

自托管端点与本地推理有何不同？

本地推理在您自己的机器上运行。自托管端点运行在您在 osFoundry 云中预置的专属 GPU 上——预留容量、无速率限制、通过您的私有网络访问。

osFoundry 也支持图像、音频和视频模型吗？

支持。目录包含 76K 开放权重模型，涵盖对话、图像、音频、视频和嵌入。BYOK 对托管图像/音频提供方（DALL·E、通过 Replicate 的 Midjourney、ElevenLabs 等）同样有效。

我能完全离线运行 osFoundry 吗？

可以——安装桌面应用，下载本地模型，禁用云端路由。本地优先模式是一等工作空间设置。

Pricing

本地推理：免费（使用您的硬件）。BYOK：按提供方定价，无加价。osFoundry 托管 GPU 端点：按 GPU 时间秒计费，当前费率请查看定价。