GPT-4o Audio
O GPT-4o Audio da OpenAI é um modelo de fala e áudio. The gpt-4o-audio-preview model adds support for audio inputs as prompts. This enhancement allows the model to detect nuances within audio recordings and add depth to generated user experiences. Audio outputs...
by OpenAI · janela de contexto de 128K tokens
Ideal para
- transcrição de fala para texto
- transcrição de reuniões e áudio
Como usar GPT-4o Audio no osFoundry
Conecte com sua própria chave (BYOK)
Abra o diálogo de chaves e cole sua chave de API da OpenAI. O osFoundry descobre GPT-4o Audio automaticamente — atribua-o a um papel do Maestro (router, direct, orchestrator ou fallback) na aba Pipeline e ele estará ativo em cada chat. Sua chave, sua conta no provedor — sem markup sobre tokens.
Use em um Room App
Os Room Apps declaram recursos de IA em seus manifestos e os chamam com invokeAI:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
Chame a partir dos seus próprios apps
Uma vez que um modelo está conectado ao seu workspace, você pode hospedá-lo como uma API e acessá-lo a partir dos seus próprios serviços, scripts ou CI — fora do osFoundry.
GPT-4o Audio vs modelos semelhantes
| Modelo | Organização | Parâmetros | Contexto | Preço de entrada | Auto-hospedado |
|---|
| GPT-4o Audio | OpenAI | — | 128K | $ 2.50 /1M | Apenas API |
| Voxtral Small 24B 2507 | Mistral | — | 32K | $ 0.100 /1M | Apenas API |
| GPT Audio Mini | OpenAI | — | 128K | $ 0.600 /1M | Apenas API |
| GPT Audio | OpenAI | — | 128K | $ 2.50 /1M | Apenas API |
Licença
Hosted — usage subject to provider terms — Modelo apenas hospedado — uso regido pelos termos de API do provedor. Use sua própria chave de provedor.
Sem distribuição de pesos; uso sujeito aos termos do provedor.
Perguntas frequentes sobre GPT-4o Audio
Quanto custa GPT-4o Audio?
GPT-4o Audio é cobrado a $ 2.50 /1M para entrada e $ 10.00 /1M para saída. Use sua própria chave de API da OpenAI — o osFoundry repassa o preço do provedor sem markup.
Posso usar GPT-4o Audio comercialmente?
Uso comercial é permitido com condições. Modelo apenas hospedado — uso regido pelos termos de API do provedor. Use sua própria chave de provedor. Sem distribuição de pesos; uso sujeito aos termos do provedor.
Qual é a janela de contexto de GPT-4o Audio?
GPT-4o Audio suporta uma janela de contexto de 128K tokens.
Posso rodar GPT-4o Audio localmente?
Não — GPT-4o Audio é somente hospedado e acessado via API da OpenAI.
Em que GPT-4o Audio é melhor?
GPT-4o Audio é bem adequado para transcrição de fala para texto, transcrição de reuniões e áudio.
Como uso GPT-4o Audio no osFoundry?
Cole sua chave de API da OpenAI no diálogo de chaves (ou implante os pesos abertos para modelos auto-hospedáveis), atribua GPT-4o Audio a um papel do Maestro na aba Pipeline e use-o em chats, em Room Apps via invokeAI ou nos seus próprios apps.
Publicado pela OpenAI em 15 de agosto de 2025. Fonte: https://openrouter.ai/openai/gpt-4o-audio-preview