Speech-to-Text
Speech-to-Text es un(a) aplicación en el catálogo de la comunidad de osFoundry. Servicio autoalojado de voz a texto que ejecuta los modelos Whisper de OpenAI: transcripción precisa en más de 90 idiomas, diarización de hablantes (opcional), inferencia más rápida con recorte VAD, múltiples tamaños de modelo (tiny → large-v3), API REST + UI de carga en el navegador. Funciona con el Whisper ASR Webservice (ahmetoner/whisper-asr-webservice). La CPU es viable para modelos medianos; se necesita GPU para large + tiempo real.
Detalles
- Espacio de trabajo: osfoundry
- Categoría: COMMUNICATION
- Precio: Free
- Acceso: Community
Características
- Speaker diarization (optional)
- VAD-trimmed faster inference
- Multiple model sizes (tiny → large-v3)
- REST API + browser upload UI
Documentación
La documentación es mantenida en inglés por el proyecto original.
# Speech-to-Text
Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.
## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended
## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`
## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.
Cómo usar Speech-to-Text en osFoundry
Instalen Speech-to-Text en su espacio de trabajo con un solo clic y luego bifúrquenlo en osStudio para personalizar los prompts, las herramientas o la configuración según su stack. Cualquier persona de su espacio de trabajo podrá continuar desde donde lo dejaron.
Otros aplicaciones de la comunidad
- CRM — Gestión de relaciones con clientes con contactos, oportunidades y seguimiento del pipeline de ventas.
- Kanban Board — Un tablero kanban y de proyectos estilo Trello con tarjetas, tableros, vistas de calendario y tabla, y propiedades por tablero. Funciona con Focalboard (servidor personal independiente). SQLite embebido en un volumen persistente.
- Mesa de Ayuda — Triaje de tickets y bandeja de atención al cliente con seguimiento de SLA.
- Page Builder — Constructor visual de páginas con arrastrar y soltar, con secciones, temas, SEO y publicación
- Website Builder — Constructor de sitios web de varias páginas con colecciones CMS, navegación global, pie de página, temas y publicación
- Tienda Online — Escaparate de e-commerce con catálogo de productos, carrito y proceso de pago.