Speech-to-Text

Speech-to-Text は osFoundry コミュニティカタログのアプリです。OpenAI の Whisper モデルを動かすセルフホスト型の音声認識サービスです。90 以上の言語の正確な文字起こし、話者ダイアライゼーション（オプション）、VAD で短縮された高速推論、複数のモデルサイズ（tiny → large-v3）、REST API ＋ブラウザアップロード UI に対応します。Whisper ASR Webservice（ahmetoner/whisper-asr-webservice）を採用しています。CPU でも medium モデルまでは実用的ですが、large やリアルタイムには GPU が必要です。

詳細

ワークスペース: osfoundry
カテゴリ: COMMUNICATION
料金: Free
アクセス: Community

機能

Speaker diarization (optional)
VAD-trimmed faster inference
Multiple model sizes (tiny → large-v3)
REST API + browser upload UI

ドキュメント

ドキュメントは上流プロジェクトにより英語で管理されています。

# Speech-to-Text

Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.

## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended

## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`

## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.

osFoundry での Speech-to-Text の使い方

Speech-to-Text をワンクリックでワークスペースにインストールし、osStudio でフォークしてプロンプト、ツール、または構成をご自身のスタックに合わせてカスタマイズできます。ワークスペース内のメンバーは誰でも、続きの作業を引き継げます。

コミュニティの他のアプリ

CRM — 連絡先、商談、パイプライン管理を備えた顧客関係管理ツールです。
Kanban Board — カード、ボード、カレンダー・テーブルビュー、ボードごとのプロパティを備えた、Trello風のカンバン・プロジェクトボードです。Focalboard(スタンドアロン個人サーバー)を基盤としています。永続ボリューム上に組み込みSQLiteを持ちます。
ヘルプデスク — SLA トラッキング付きのチケットトリアージとカスタマーサポート受信箱です。
Page Builder — セクション、テーマ、SEO、公開機能を備えた、ビジュアルなドラッグ&ドロップのページビルダーです
Website Builder — CMS コレクション、グローバルナビゲーション、フッター、テーマ、公開機能を備えたマルチページの Web サイトビルダーです
ストアフロント — 商品カタログ、カート、チェックアウトを備えた EC ストアフロントです。