GPT-4o Audio
OpenAIs GPT-4o Audio ist ein Sprache und Audio-Modell. The gpt-4o-audio-preview model adds support for audio inputs as prompts. This enhancement allows the model to detect nuances within audio recordings and add depth to generated user experiences. Audio outputs...
by OpenAI · Kontextfenster von 128K Token
Am besten geeignet für
- Speech-to-Text-Transkription
- Meeting- und Audiotranskription
Möglichkeiten, GPT-4o Audio in osFoundry zu nutzen
Mit eigenem Schlüssel verbinden (BYOK)
Öffnen Sie den Schlüssel-Dialog und fügen Sie Ihren OpenAI-API-Key ein. osFoundry erkennt GPT-4o Audio automatisch — weisen Sie es im Pipeline-Tab einer Maestro-Rolle (Router, Direct, Orchestrator oder Fallback) zu, und es ist in jedem Chat verfügbar. Ihr Key, Ihr Provider-Konto — kein Token-Aufschlag.
In einer Room App verwenden
Room Apps deklarieren KI-Funktionen in ihrem Manifest und rufen sie anschließend mit invokeAI auf:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
Aus eigenen Anwendungen aufrufen
Sobald ein Modell in Ihrem Workspace eingerichtet ist, können Sie es als API hosten und aus Ihren eigenen Diensten, Skripten oder CI — außerhalb von osFoundry — erreichen.
GPT-4o Audio im Vergleich zu ähnlichen Modellen
| Modell | Organisation | Parameter | Kontext | Input-Preis | Selbst hosten |
|---|
| GPT-4o Audio | OpenAI | — | 128K | $ 2.50 /1M | Nur API |
| Voxtral Small 24B 2507 | Mistral | — | 32K | $ 0.100 /1M | Nur API |
| GPT Audio Mini | OpenAI | — | 128K | $ 0.600 /1M | Nur API |
| GPT Audio | OpenAI | — | 128K | $ 2.50 /1M | Nur API |
Lizenz
Hosted — usage subject to provider terms — Nur gehostetes Modell — die Nutzung unterliegt den API-Bedingungen des Anbieters. Bringen Sie Ihren eigenen Provider-Key mit.
Keine Weights verteilt; Nutzung unterliegt den Anbieterbedingungen.
Häufige Fragen zu GPT-4o Audio
Wie viel kostet GPT-4o Audio?
GPT-4o Audio wird mit $ 2.50 /1M für Input und $ 10.00 /1M für Output abgerechnet. Bringen Sie Ihren eigenen OpenAI-API-Key mit — osFoundry reicht die Provider-Preise ohne Aufschlag durch.
Kann ich GPT-4o Audio kommerziell nutzen?
Kommerzielle Nutzung ist unter bestimmten Bedingungen erlaubt. Nur gehostetes Modell — die Nutzung unterliegt den API-Bedingungen des Anbieters. Bringen Sie Ihren eigenen Provider-Key mit. Keine Weights verteilt; Nutzung unterliegt den Anbieterbedingungen.
Wie groß ist das Kontextfenster von GPT-4o Audio?
GPT-4o Audio unterstützt ein Kontextfenster von 128K Token.
Kann ich GPT-4o Audio lokal betreiben?
Nein — GPT-4o Audio ist nur gehostet verfügbar und wird über die OpenAI-API genutzt.
Worin ist GPT-4o Audio besonders gut?
GPT-4o Audio eignet sich besonders für Speech-to-Text-Transkription, Meeting- und Audiotranskription.
Wie verwende ich GPT-4o Audio in osFoundry?
Fügen Sie Ihren OpenAI-API-Key im Schlüssel-Dialog ein (oder stellen Sie bei selbst hostbaren Modellen die Open Weights bereit), weisen Sie GPT-4o Audio im Pipeline-Tab einer Maestro-Rolle zu und nutzen Sie es anschließend im Chat, in Room Apps über invokeAI oder in Ihren eigenen Anwendungen.
Veröffentlicht von OpenAI am 15. August 2025. Quelle: https://openrouter.ai/openai/gpt-4o-audio-preview