음성 및 오디오

음성 인식, 음성 합성 및 오디오 처리 프레임워크.

Repositories

Whisper 는 OpenAI 의 범용 음성 인식 모델입니다. 68 만 시간의 다양한 오디오 데이터로 훈련되어 다국어 음성 인식, 음성 번역 및 언어 식별을 높은 정확도로 수행합니다.

Python
95.3k
ggml-org/whisper.cpp

Port of OpenAI's Whisper model in C/C++

C++
47.2k

1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

Python
55.4k
CorentinJ/Real-Time-Voice-Cloning

Clone a voice in 5 seconds to generate arbitrary speech in real-time

Python
59.5k

🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production

Python
44.7k

DeepSpeech is an open source embedded (offline, on-device) speech-to-text engine which can run in real time on devices ranging from a Raspberry Pi 4 to high power GPU servers.

C++
26.7k