GPT-4o Audio
OpenAI 的 GPT-4o Audio 是一款 语音与音频模型。The gpt-4o-audio-preview model adds support for audio inputs as prompts. This enhancement allows the model to detect nuances within audio recordings and add depth to generated user experiences. Audio outputs...
by OpenAI · 128K token 上下文窗口
最佳适用场景
在 osFoundry 中使用 GPT-4o Audio 的方式
使用您自己的密钥接入(BYOK)
打开密钥对话框并粘贴您的 OpenAI API 密钥。osFoundry 会自动发现 GPT-4o Audio——在 Pipeline 标签中将其分配给 Maestro 角色(router、direct、orchestrator 或 fallback),即可在每次对话中启用。您的密钥、您的服务商账户——零 token 加价。
在 Room App 中使用
Room App 在 manifest 中声明 AI 功能,然后通过 invokeAI 调用:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
从您自己的应用中调用
模型接入工作区后,您可将其托管为 API,并从您自己的服务、脚本或 CI 中(osFoundry 之外)访问。
GPT-4o Audio 与同类模型对比
许可证
Hosted — usage subject to provider terms — 仅托管模型——使用受服务商 API 条款约束。请使用您自己的服务商密钥。
不分发权重;使用受服务商条款约束。
关于 GPT-4o Audio 的常见问题
GPT-4o Audio 的费用是多少?
GPT-4o Audio 按输入 $ 2.50 /1M、输出 $ 10.00 /1M计费。使用您自己的 OpenAI API 密钥——osFoundry 透传服务商定价,不加价。
我可以将 GPT-4o Audio 用于商业用途吗?
允许有条件的商业使用。 仅托管模型——使用受服务商 API 条款约束。请使用您自己的服务商密钥。 不分发权重;使用受服务商条款约束。
GPT-4o Audio 的上下文窗口有多大?
GPT-4o Audio 支持 128K token 的上下文窗口。
我可以在本地运行 GPT-4o Audio 吗?
不可以——GPT-4o Audio 仅以托管方式提供,通过 OpenAI API 访问。
GPT-4o Audio 最擅长什么?
GPT-4o Audio 非常适合语音转文本转录, 会议与音频转录。
如何在 osFoundry 中使用 GPT-4o Audio?
在密钥对话框中粘贴您的 OpenAI API 密钥(若为可自托管的开源权重模型,则部署其权重),在 Pipeline 标签中将 GPT-4o Audio 分配给某个 Maestro 角色,然后即可在对话、通过 invokeAI 的 Room App 或您自己的应用中使用。
由 OpenAI 发布,发布日期 2025年8月15日。 来源:https://openrouter.ai/openai/gpt-4o-audio-preview