Speech-to-Text

Speech-to-Text 是 osFoundry 社区目录中的应用。运行 OpenAI Whisper 模型的自托管语音转文字服务 —— 90+ 语言的准确转录、说话人分离（可选）、VAD 裁剪的更快推理、多种模型尺寸（tiny → large-v3）、REST API + 浏览器上传 UI。基于 Whisper ASR Webservice（ahmetoner/whisper-asr-webservice）构建。CPU 适用于中等模型；大型与实时需要 GPU。

详情

工作区: osfoundry
分类: COMMUNICATION
价格: Free
访问权限: Community

功能

Speaker diarization (optional)
VAD-trimmed faster inference
Multiple model sizes (tiny → large-v3)
REST API + browser upload UI

文档

文档由上游项目以英文维护。

# Speech-to-Text

Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.

## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended

## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`

## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.

如何在 osFoundry 中使用 Speech-to-Text

一键将 Speech-to-Text 安装到您的工作区，然后在 osStudio 中将其分支，针对您的技术栈自定义提示词、工具或配置。工作区中的任何人都可以接续您的工作继续推进。

社区中的其他应用

客户关系管理 — 客户关系管理工具，支持联系人、交易和销售管道跟踪。
Kanban Board — Trello 风格的看板与项目板，含卡片、面板、日历与表格视图以及每面板属性。基于 Focalboard（独立个人服务器）构建。在持久卷上内嵌 SQLite。
服务台 — 工单分流与客户支持收件箱，附带 SLA 跟踪。
Page Builder — 可视化拖放页面生成器，支持区块、主题、SEO 与发布
Website Builder — 带 CMS 合集、全局导航、页脚、主题与发布的多页面网站生成器
店面 — 电商店面，包含商品目录、购物车和结账流程。