Speech-to-Text
Speech-to-Text é um(a) app no catálogo da comunidade osFoundry. Serviço auto-hospedado de speech-to-text rodando os modelos Whisper da OpenAI — transcrição precisa em mais de 90 idiomas, diarização de falantes (opcional), inferência mais rápida com VAD, vários tamanhos de modelo (tiny → large-v3), API REST + UI de upload no navegador. Powered by Whisper ASR Webservice (ahmetoner/whisper-asr-webservice). A CPU dá conta de modelos médios; GPU é necessária para large + tempo real.
Detalhes
- Workspace: osfoundry
- Categoria: COMMUNICATION
- Preço: Free
- Acesso: Community
Recursos
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
Documentação
A documentação é mantida em inglês pelo projeto original.
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
Como usar Speech-to-Text no osFoundry
Instale Speech-to-Text no seu workspace com um clique e, em seguida, faça um fork no osStudio para personalizar prompts, ferramentas ou configurações para a sua stack. Qualquer pessoa do seu workspace pode continuar de onde você parou.
Outros itens da categoria apps da comunidade
- CRM — Gestão de relacionamento com clientes com contatos, negócios e acompanhamento de pipeline.
- Kanban Board — Um quadro kanban e de projeto estilo Trello com cartões, quadros, visualizações de calendário e tabela e propriedades por quadro. Movido pelo Focalboard (servidor pessoal standalone). SQLite embutido em um volume persistente.
- Helpdesk — Triagem de tickets e caixa de entrada de suporte ao cliente com acompanhamento de SLA.
- Page Builder — Construtor visual de páginas arrastar-e-soltar com seções, temas, SEO e publicação
- Website Builder — Construtor de site de múltiplas páginas com coleções de CMS, navegação global, rodapé, temas e publicação
- Loja Virtual — Loja de e-commerce com catálogo de produtos, carrinho e checkout.