ChatGH

語音與音訊

語音識別、語音合成及音訊處理框架。

倉庫

Whisper 是 OpenAI 開源的通用語音識別模型。基於 68 萬小時多語言音頻數據訓練,支援多語言語音識別、語音翻譯和語言識別,具備出色的抗噪性和準確性。

Python
97.8k
17 hours ago
CorentinJ/Real-Time-Voice-Cloning

即時語音克隆系統,僅需5秒音頻即可創建聲音的數字表示。提供GUI界面,採用三階段深度學習框架(SV2TTS),支援CPU/GPU處理,可從文本輸入生成任意語音內容。

Python
59.6k
a month ago

強大的少樣本語音克隆與TTS系統,僅需1分鐘音頻即可訓練高質量模型,支援零樣本轉換、多語言推理,並提供完整的Web界面工具鏈。

Python
56.7k
2 months ago
ggml-org/whisper.cpp

OpenAI Whisper 語音識別模型的高效能 C/C++ 實現。支援硬體加速(Metal、CUDA、OpenVINO),即時轉錄,多平台部署,輕量級無依賴,適合嵌入式裝置和移動應用。

C++
48.7k
18 days ago

先進的深度學習文本轉語音工具包,支援1100多種語言,具備語音克隆和多語言能力。提供預訓練模型、訓練工具和即時串流功能。

Python
45.1k
2 years ago

DeepSpeech是Mozilla開源的語音轉文字引擎,基於TensorFlow實現。採用端到端深度學習技術,可在樹莓派到GPU伺服器等各種設備上即時將語音轉換為文字,支援離線部署和多語言綁定。

C++
26.7k
10 months ago