Speech-to-Text
Speech-to-Text è un/una app nel catalogo della community osFoundry. Servizio speech-to-text self-hosted che esegue i modelli Whisper di OpenAI — trascrizione accurata in oltre 90 lingue, diarization degli speaker (opzionale), inferenza più veloce con VAD-trimmed, dimensioni modello multiple (tiny → large-v3), API REST + UI di upload browser. Basato su Whisper ASR Webservice (ahmetoner/whisper-asr-webservice). La CPU è praticabile per modelli medium; la GPU è necessaria per large + real-time.
Dettagli
- Workspace: osfoundry
- Categoria: COMMUNICATION
- Prezzo: Free
- Accesso: Community
Funzionalità
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
Documentazione
La documentazione è mantenuta in inglese dal progetto di origine.
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
Come utilizzare Speech-to-Text in osFoundry
Installi Speech-to-Text nel suo workspace con un clic, quindi ne esegua il fork in osStudio per personalizzare i prompt, gli strumenti o la configurazione per il suo stack. Chiunque nel suo workspace potrà riprendere il lavoro dove l'ha lasciato.
Altri app dalla community
- CRM — Gestione delle relazioni con i clienti con contatti, trattative e tracciamento della pipeline.
- Kanban Board — Una board kanban e di progetto in stile Trello con card, board, viste calendario e tabella, e proprietà per board. Basata su Focalboard (server personale standalone). SQLite integrato su un volume persistente.
- Helpdesk — Smistamento ticket e inbox di assistenza clienti con tracciamento SLA.
- Page Builder — Page builder visuale drag-and-drop con sezioni, temi, SEO e pubblicazione
- Website Builder — Website builder multi-pagina con raccolte CMS, navigazione globale, footer, temi e pubblicazione
- Vetrina E-commerce — Vetrina e-commerce con catalogo prodotti, carrello e checkout.