ChatGH

语音与音频

语音识别、语音合成及音频处理框架。

仓库

Whisper 是 OpenAI 开源的通用语音识别模型。基于 68 万小时多语言音频数据训练,支持多语言语音识别、语音翻译和语言识别,具备出色的抗噪性和准确性。

Python
97.8k
2 days ago
CorentinJ/Real-Time-Voice-Cloning

实时语音克隆系统,仅需5秒音频即可创建声音的数字表示。提供GUI界面,采用三阶段深度学习框架(SV2TTS),支持CPU/GPU处理,可从文本输入生成任意语音内容。

Python
59.6k
a month ago

强大的少样本语音克隆与TTS系统,仅需1分钟音频即可训练高质量模型,支持零样本转换、多语言推理,并提供完整的Web界面工具链。

Python
56.7k
2 months ago
ggml-org/whisper.cpp

OpenAI Whisper 语音识别模型的高性能 C/C++ 实现。支持硬件加速(Metal、CUDA、OpenVINO),实时转录,多平台部署,轻量级无依赖,适合嵌入式设备和移动应用。

C++
48.6k
17 days ago

先进的深度学习文本转语音工具包,支持1100多种语言,具备语音克隆和多语言能力。提供预训练模型、训练工具和实时流媒体功能。

Python
45.1k
2 years ago

DeepSpeech是Mozilla开源的语音转文字引擎,基于TensorFlow实现。它采用端到端深度学习技术,可在树莓派到GPU服务器等各种设备上实时将语音转换为文本,支持离线部署和多语言绑定。

C++
26.7k
10 months ago