Speech-to-Text
Speech-to-Text は osFoundry コミュニティカタログのアプリです。OpenAI の Whisper モデルを動かすセルフホスト型の音声認識サービスです。90 以上の言語の正確な文字起こし、話者ダイアライゼーション(オプション)、VAD で短縮された高速推論、複数のモデルサイズ(tiny → large-v3)、REST API +ブラウザアップロード UI に対応します。Whisper ASR Webservice(ahmetoner/whisper-asr-webservice)を採用しています。CPU でも medium モデルまでは実用的ですが、large やリアルタイムには GPU が必要です。
詳細
- ワークスペース: osfoundry
- カテゴリ: COMMUNICATION
- 料金: Free
- アクセス: Community
機能
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
ドキュメント
ドキュメントは上流プロジェクトにより英語で管理されています。
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
osFoundry での Speech-to-Text の使い方
Speech-to-Text をワンクリックでワークスペースにインストールし、osStudio でフォークしてプロンプト、ツール、または構成をご自身のスタックに合わせてカスタマイズできます。ワークスペース内のメンバーは誰でも、続きの作業を引き継げます。
コミュニティの他のアプリ
- CRM — 連絡先、商談、パイプライン管理を備えた顧客関係管理ツールです。
- Kanban Board — カード、ボード、カレンダー・テーブルビュー、ボードごとのプロパティを備えた、Trello風のカンバン・プロジェクトボードです。Focalboard(スタンドアロン個人サーバー)を基盤としています。永続ボリューム上に組み込みSQLiteを持ちます。
- ヘルプデスク — SLA トラッキング付きのチケットトリアージとカスタマーサポート受信箱です。
- Page Builder — セクション、テーマ、SEO、公開機能を備えた、ビジュアルなドラッグ&ドロップのページビルダーです
- Website Builder — CMS コレクション、グローバルナビゲーション、フッター、テーマ、公開機能を備えたマルチページの Web サイトビルダーです
- ストアフロント — 商品カタログ、カート、チェックアウトを備えた EC ストアフロントです。