GPT Audio
由 OpenAI 发布于 2026 年,GPT Audio 是一款 语音与音频模型。The gpt-audio model is OpenAI's first generally available audio model. The new snapshot features an upgraded decoder for more natural sounding voices and maintains better voice consistency. Audio is priced...
by OpenAI · 128K token 上下文窗口
最佳适用场景
在 osFoundry 中使用 GPT Audio 的方式
使用您自己的密钥接入(BYOK)
打开密钥对话框并粘贴您的 OpenAI API 密钥。osFoundry 会自动发现 GPT Audio——在 Pipeline 标签中将其分配给 Maestro 角色(router、direct、orchestrator 或 fallback),即可在每次对话中启用。您的密钥、您的服务商账户——零 token 加价。
在 Room App 中使用
Room App 在 manifest 中声明 AI 功能,然后通过 invokeAI 调用:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
从您自己的应用中调用
模型接入工作区后,您可将其托管为 API,并从您自己的服务、脚本或 CI 中(osFoundry 之外)访问。
GPT Audio 与同类模型对比
许可证
Hosted — usage subject to provider terms — 仅托管模型——使用受服务商 API 条款约束。请使用您自己的服务商密钥。
不分发权重;使用受服务商条款约束。
关于 GPT Audio 的常见问题
GPT Audio 的费用是多少?
GPT Audio 按输入 $ 2.50 /1M、输出 $ 10.00 /1M计费。使用您自己的 OpenAI API 密钥——osFoundry 透传服务商定价,不加价。
我可以将 GPT Audio 用于商业用途吗?
允许有条件的商业使用。 仅托管模型——使用受服务商 API 条款约束。请使用您自己的服务商密钥。 不分发权重;使用受服务商条款约束。
GPT Audio 的上下文窗口有多大?
GPT Audio 支持 128K token 的上下文窗口。
我可以在本地运行 GPT Audio 吗?
不可以——GPT Audio 仅以托管方式提供,通过 OpenAI API 访问。
GPT Audio 最擅长什么?
GPT Audio 非常适合语音转文本转录, 会议与音频转录。
如何在 osFoundry 中使用 GPT Audio?
在密钥对话框中粘贴您的 OpenAI API 密钥(若为可自托管的开源权重模型,则部署其权重),在 Pipeline 标签中将 GPT Audio 分配给某个 Maestro 角色,然后即可在对话、通过 invokeAI 的 Room App 或您自己的应用中使用。
由 OpenAI 发布,发布日期 2026年1月19日。 来源:https://openrouter.ai/openai/gpt-audio