语音与音频

语音识别、语音合成及音频处理框架。

仓库

Whisper 是 OpenAI 开源的通用语音识别模型。基于 68 万小时多语言音频数据训练，支持多语言语音识别、语音翻译和语言识别，具备出色的抗噪性和准确性。

Python

104.7k

3 months ago

实时语音克隆系统，仅需5秒音频即可创建声音的数字表示。提供GUI界面，采用三阶段深度学习框架(SV2TTS)，支持CPU/GPU处理，可从文本输入生成任意语音内容。

Python

60.0k

4 months ago

强大的少样本语音克隆与TTS系统，仅需1分钟音频即可训练高质量模型，支持零样本转换、多语言推理，并提供完整的Web界面工具链。

Python

59.8k

8 days ago

OpenAI Whisper 语音识别模型的高性能 C/C++ 实现。支持硬件加速（Metal、CUDA、OpenVINO），实时转录，多平台部署，轻量级无依赖，适合嵌入式设备和移动应用。

C++

52.0k

10 days ago

先进的深度学习文本转语音工具包，支持1100多种语言，具备语音克隆和多语言能力。提供预训练模型、训练工具和实时流媒体功能。

Python

45.8k

2 years ago

DeepSpeech是Mozilla开源的语音转文字引擎，基于TensorFlow实现。它采用端到端深度学习技术，可在树莓派到GPU服务器等各种设备上实时将语音转换为文本，支持离线部署和多语言绑定。

C++

26.8k

a year ago