語音識別、語音合成及音訊處理框架。
語音與音訊
倉庫
Whisper 是 OpenAI 開源的通用語音識別模型。基於 68 萬小時多語言音頻數據訓練,支援多語言語音識別、語音翻譯和語言識別,具備出色的抗噪性和準確性。
Python
97.8k17 hours ago
即時語音克隆系統,僅需5秒音頻即可創建聲音的數字表示。提供GUI界面,採用三階段深度學習框架(SV2TTS),支援CPU/GPU處理,可從文本輸入生成任意語音內容。
Python
59.6ka month ago
強大的少樣本語音克隆與TTS系統,僅需1分鐘音頻即可訓練高質量模型,支援零樣本轉換、多語言推理,並提供完整的Web界面工具鏈。
Python
56.7k2 months ago
OpenAI Whisper 語音識別模型的高效能 C/C++ 實現。支援硬體加速(Metal、CUDA、OpenVINO),即時轉錄,多平台部署,輕量級無依賴,適合嵌入式裝置和移動應用。
C++
48.7k18 days ago
DeepSpeech是Mozilla開源的語音轉文字引擎,基於TensorFlow實現。採用端到端深度學習技術,可在樹莓派到GPU伺服器等各種設備上即時將語音轉換為文字,支援離線部署和多語言綁定。
C++
26.7k10 months ago