GPT-4o Audio
El GPT-4o Audio de OpenAI es un modelo de voz y audio. The gpt-4o-audio-preview model adds support for audio inputs as prompts. This enhancement allows the model to detect nuances within audio recordings and add depth to generated user experiences. Audio outputs...
by OpenAI · ventana de contexto de 128K tokens
Ideal para
- transcripción de voz a texto
- transcripción de reuniones y audio
Formas de utilizar GPT-4o Audio en osFoundry
Conecten con su propia clave (BYOK)
Abran el diálogo de claves y peguen su clave de API de OpenAI. osFoundry detecta GPT-4o Audio automáticamente: asígnenlo a un rol de Maestro (router, direct, orchestrator o fallback) en la pestaña Pipeline y quedará activo en cada chat. Su clave, su cuenta de proveedor: sin recargo por tokens.
Úsenlo en una Room App
Las Room Apps declaran funciones de IA en su manifiesto y luego las invocan con invokeAI:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
Invóquenlo desde sus propias aplicaciones
Una vez que un modelo está integrado en su workspace, pueden alojarlo como API y consumirlo desde sus propios servicios, scripts o CI, fuera de osFoundry.
GPT-4o Audio frente a modelos similares
| Modelo | Organización | Parámetros | Contexto | Precio de entrada | Autoalojamiento |
|---|
| GPT-4o Audio | OpenAI | — | 128K | $ 2.50 /1M | Solo API |
| Voxtral Small 24B 2507 | Mistral | — | 32K | $ 0.100 /1M | Solo API |
| GPT Audio Mini | OpenAI | — | 128K | $ 0.600 /1M | Solo API |
| GPT Audio | OpenAI | — | 128K | $ 2.50 /1M | Solo API |
Licencia
Hosted — usage subject to provider terms — Modelo solo alojado: el uso se rige por los términos de API del proveedor. Aporten su propia clave del proveedor.
No se distribuyen los pesos; el uso está sujeto a los términos del proveedor.
Preguntas frecuentes sobre GPT-4o Audio
¿Cuánto cuesta GPT-4o Audio?
GPT-4o Audio se factura a $ 2.50 /1M por entrada y $ 10.00 /1M por salida. Aporten su propia clave de API de OpenAI: osFoundry traslada el precio del proveedor sin recargo.
¿Puedo utilizar GPT-4o Audio comercialmente?
El uso comercial está permitido con condiciones. Modelo solo alojado: el uso se rige por los términos de API del proveedor. Aporten su propia clave del proveedor. No se distribuyen los pesos; el uso está sujeto a los términos del proveedor.
¿Cuál es la ventana de contexto de GPT-4o Audio?
GPT-4o Audio admite una ventana de contexto de 128K tokens.
¿Puedo ejecutar GPT-4o Audio localmente?
No: GPT-4o Audio es solo alojado y se accede a través de la API de OpenAI.
¿En qué destaca GPT-4o Audio?
GPT-4o Audio es muy adecuado para transcripción de voz a texto, transcripción de reuniones y audio.
¿Cómo se utiliza GPT-4o Audio en osFoundry?
Peguen su clave de API de OpenAI en el diálogo de claves (o desplieguen los pesos abiertos para modelos autoalojables), asignen GPT-4o Audio a un rol de Maestro en la pestaña Pipeline y úsenlo en chat, en Room Apps mediante invokeAI o en sus propias aplicaciones.
Publicado por OpenAI el 15 de agosto de 2025. Fuente: https://openrouter.ai/openai/gpt-4o-audio-preview