Speech-to-Text
Speech-to-Text 是 osFoundry 社区目录中的应用。运行 OpenAI Whisper 模型的自托管语音转文字服务 —— 90+ 语言的准确转录、说话人分离(可选)、VAD 裁剪的更快推理、多种模型尺寸(tiny → large-v3)、REST API + 浏览器上传 UI。基于 Whisper ASR Webservice(ahmetoner/whisper-asr-webservice)构建。CPU 适用于中等模型;大型与实时需要 GPU。
详情
- 工作区: osfoundry
- 分类: COMMUNICATION
- 价格: Free
- 访问权限: Community
功能
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
文档
文档由上游项目以英文维护。
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
如何在 osFoundry 中使用 Speech-to-Text
一键将 Speech-to-Text 安装到您的工作区,然后在 osStudio 中将其分支,针对您的技术栈自定义提示词、工具或配置。工作区中的任何人都可以接续您的工作继续推进。
社区中的其他应用
- 客户关系管理 — 客户关系管理工具,支持联系人、交易和销售管道跟踪。
- Kanban Board — Trello 风格的看板与项目板,含卡片、面板、日历与表格视图以及每面板属性。基于 Focalboard(独立个人服务器)构建。在持久卷上内嵌 SQLite。
- 服务台 — 工单分流与客户支持收件箱,附带 SLA 跟踪。
- Page Builder — 可视化拖放页面生成器,支持区块、主题、SEO 与发布
- Website Builder — 带 CMS 合集、全局导航、页脚、主题与发布的多页面网站生成器
- 店面 — 电商店面,包含商品目录、购物车和结账流程。