Speech-to-Text

Speech-to-Text은(는) osFoundry 커뮤니티 카탈로그에 등록된 앱입니다. OpenAI의 Whisper 모델을 실행하는 셀프호스트 음성-텍스트 변환 서비스입니다. 90개 이상 언어의 정확한 전사, 화자 분리(선택), VAD 트리밍된 더 빠른 추론, 다중 모델 크기(tiny → large-v3), REST API + 브라우저 업로드 UI를 제공합니다. Whisper ASR Webservice(ahmetoner/whisper-asr-webservice)로 구동됩니다. CPU는 중간 모델에서 사용 가능하며, large + 실시간에는 GPU가 필요합니다.

세부 정보

워크스페이스: osfoundry
카테고리: COMMUNICATION
가격: Free
액세스: Community

기능

Speaker diarization (optional)
VAD-trimmed faster inference
Multiple model sizes (tiny → large-v3)
REST API + browser upload UI

문서

문서는 업스트림 프로젝트에서 영어로 관리됩니다.

# Speech-to-Text

Self-hosted Whisper transcription, powered by the Whisper ASR Webservice.

## Performance
- **tiny / base** — usable on CPU (real-time-ish)
- **small / medium** — CPU works for batch transcription; GPU for real-time
- **large-v3 / distil-large-v3** — GPU strongly recommended

## Features
- 90+ languages
- Speaker diarization (optional, via pyannote.audio)
- VAD (voice activity detection) to skip silence + speed up batch jobs
- Output formats: JSON, text, SRT, VTT, TSV
- REST API: POST audio file → returns transcript
- Browser upload UI at `/`

## Packaging
Thin wrapper around the official `onerahmet/openai-whisper-asr-webservice` image (CPU variant). Downloaded models cached at `/root/.cache`.

osFoundry에서 Speech-to-Text을(를) 사용하는 방법

Speech-to-Text을(를) 원클릭으로 워크스페이스에 설치한 다음, osStudio에서 포크하여 프롬프트, 도구 또는 구성을 자신의 스택에 맞게 커스터마이즈하십시오. 워크스페이스의 누구나 작업을 이어받을 수 있습니다.

커뮤니티의 다른 앱

CRM — 연락처, 거래, 파이프라인 추적이 가능한 고객 관계 관리 도구입니다.
Kanban Board — 카드, 보드, 캘린더와 테이블 뷰, 보드별 속성을 갖춘 Trello 스타일 칸반 및 프로젝트 보드입니다. Focalboard (독립 실행형 개인 서버) 기반으로 동작합니다. 영구 볼륨에 내장 SQLite로 제공됩니다.
헬프데스크 — SLA 추적 기능을 갖춘 티켓 분류 및 고객 지원 인박스입니다.
Page Builder — 섹션, 테마, SEO, 게시 기능이 있는 시각적 드래그 앤 드롭 페이지 빌더입니다
Website Builder — CMS 컬렉션, 글로벌 내비게이션, 푸터, 테마, 게시 기능이 있는 다중 페이지 웹사이트 빌더
스토어프론트 — 상품 카탈로그, 장바구니, 결제 기능을 갖춘 이커머스 스토어프론트입니다.