語音與音訊

語音識別、語音合成及音訊處理框架。

倉庫

Whisper 是 OpenAI 開源的通用語音識別模型。基於 68 萬小時多語言音頻數據訓練，支援多語言語音識別、語音翻譯和語言識別，具備出色的抗噪性和準確性。

Python

104.7k

3 months ago

即時語音克隆系統，僅需5秒音頻即可創建聲音的數字表示。提供GUI界面，採用三階段深度學習框架(SV2TTS)，支援CPU/GPU處理，可從文本輸入生成任意語音內容。

Python

60.0k

4 months ago

強大的少樣本語音克隆與TTS系統，僅需1分鐘音頻即可訓練高質量模型，支援零樣本轉換、多語言推理，並提供完整的Web界面工具鏈。

Python

59.8k

5 days ago

OpenAI Whisper 語音識別模型的高效能 C/C++ 實現。支援硬體加速（Metal、CUDA、OpenVINO），即時轉錄，多平台部署，輕量級無依賴，適合嵌入式裝置和移動應用。

C++

51.8k

6 days ago

先進的深度學習文本轉語音工具包，支援1100多種語言，具備語音克隆和多語言能力。提供預訓練模型、訓練工具和即時串流功能。

Python

45.8k

2 years ago

DeepSpeech是Mozilla開源的語音轉文字引擎，基於TensorFlow實現。採用端到端深度學習技術，可在樹莓派到GPU伺服器等各種設備上即時將語音轉換為文字，支援離線部署和多語言綁定。

C++

26.8k

a year ago