GPT-4o Audio
OpenAIのGPT-4o Audioは音声・オーディオモデルです。The gpt-4o-audio-preview model adds support for audio inputs as prompts. This enhancement allows the model to detect nuances within audio recordings and add depth to generated user experiences. Audio outputs...
by OpenAI · 128Kトークンのコンテキストウィンドウ
得意な用途
- 音声からテキストへの書き起こし
- 会議・音声の文字起こし
osFoundryでのGPT-4o Audioの使い方
ご自身のキーで接続(BYOK)
キーダイアログを開き、OpenAIのAPIキーを貼り付けるだけで、osFoundryがGPT-4o Audioを自動的に検出します。パイプラインタブでMaestroのロール(router、direct、orchestrator、fallback)に割り当てれば、すべてのチャットですぐに利用できます。ご自身のキー・ご自身のプロバイダーアカウントで、トークン手数料は一切上乗せしません。
Room Appで使う
Room Appはマニフェストで AI 機能を宣言し、invokeAIで呼び出します:
import { invokeAI } from '@osfoundry/app-sdk'
// 'summarize' is an AI feature declared in your app manifest.
const result = await invokeAI('summarize', userText)
ご自身のアプリから呼び出す
モデルをワークスペースに組み込めば、APIとしてホストして、osFoundryの外側にあるご自身のサービス・スクリプト・CIから呼び出すことができます。
GPT-4o Audioと類似モデルの比較
ライセンス
Hosted — usage subject to provider terms — ホスティング専用モデル — 利用はプロバイダーのAPI規約に従います。ご自身のプロバイダーキーをお持ちください。
重みは配布されません。利用はプロバイダー規約に従います。
GPT-4o Audioについてのよくある質問
GPT-4o Audioの料金はいくらですか?
GPT-4o Audioは入力 $ 2.50 /1M、出力 $ 10.00 /1Mの従量課金です。ご自身のOpenAI APIキーをお持ちいただければ、osFoundryはプロバイダー価格をそのまま反映し、上乗せはありません。
GPT-4o Audioを商用利用できますか?
条件付きで商用利用が許可されています。 ホスティング専用モデル — 利用はプロバイダーのAPI規約に従います。ご自身のプロバイダーキーをお持ちください。 重みは配布されません。利用はプロバイダー規約に従います。
GPT-4o Audioのコンテキストウィンドウはどれくらいですか?
GPT-4o Audioは128Kトークンのコンテキストウィンドウに対応しています。
GPT-4o Audioをローカルで実行できますか?
いいえ、GPT-4o Audioはホスティング専用で、OpenAI API経由でのみ利用できます。
GPT-4o Audioが最も得意なことは何ですか?
GPT-4o Audioは音声からテキストへの書き起こし, 会議・音声の文字起こしに適しています。
osFoundryでGPT-4o Audioをどう使えばよいですか?
キーダイアログでOpenAI APIキーを貼り付け(セルフホスト可能なモデルの場合はオープンウェイトをデプロイ)、パイプラインタブでGPT-4o AudioをMaestroのロールに割り当てれば、チャット、invokeAI経由のRoom App、ご自身のアプリから利用できます。
OpenAIにより公開(2025年8月15日)。 出典: https://openrouter.ai/openai/gpt-4o-audio-preview