Speech-to-Text
Speech-to-Text est un(e) app du catalogue communautaire osFoundry. Service auto-hébergé de speech-to-text exécutant les modèles Whisper d'OpenAI — transcription précise dans plus de 90 langues, diarisation des locuteurs (optionnelle), inférence accélérée par VAD-trimming, tailles de modèles multiples (tiny → large-v3), API REST + interface d'upload navigateur. Propulsé par Whisper ASR Webservice (ahmetoner/whisper-asr-webservice). Le CPU est exploitable pour les modèles moyens ; un GPU est nécessaire pour large + temps réel.
Détails
- Espace de travail: osfoundry
- Catégorie: COMMUNICATION
- Tarif: Free
- Accès: Community
Fonctionnalités
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
Documentation
La documentation est maintenue en anglais par le projet d'origine.
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
Comment utiliser Speech-to-Text dans osFoundry
Installez Speech-to-Text dans votre workspace en un clic, puis forkez-le dans osStudio pour personnaliser les prompts, les outils ou la configuration selon votre stack. Toute personne de votre workspace peut reprendre là où vous vous êtes arrêté.
Autres apps de la communauté
- CRM — Gestion de la relation client avec contacts, opportunités et suivi de pipeline.
- Kanban Board — Un tableau Kanban et de projet de type Trello avec cartes, tableaux, vues calendrier et tableau, et propriétés par tableau. Propulsé par Focalboard (serveur personnel autonome). SQLite intégré sur un volume persistant.
- Helpdesk — Tri de tickets et boîte de réception du support client avec suivi des SLA.
- Page Builder — Constructeur de pages visuel glisser-déposer avec sections, thèmes, SEO et publication
- Website Builder — Constructeur de site web multi-page avec collections CMS, navigation globale, footer, thèmes et publication
- Boutique en ligne — Boutique e-commerce avec catalogue produits, panier et paiement.