음성 인식, 음성 합성 및 오디오 처리 프레임워크.
음성 및 오디오
리포지토리
Whisper 는 OpenAI 의 범용 음성 인식 모델입니다. 68 만 시간의 다양한 오디오 데이터로 훈련되어 다국어 음성 인식, 음성 번역 및 언어 식별을 높은 정확도로 수행합니다.
Python
97.8k17 hours ago
실시간 음성 복제 시스템. 5초 오디오로 디지털 음성 표현 생성. GUI 인터페이스, 3단계 딥러닝 프레임워크(SV2TTS), CPU/GPU 처리 지원, 텍스트 입력으로 임의 음성 생성 가능.
Python
59.6ka month ago
강력한 Few-shot 음성 복제 및 TTS 시스템. 1분의 오디오만으로 고품질 모델 훈련 가능, Zero-shot 변환, 다국어 지원, 완전한 WebUI 도구 제공.
Python
56.7k2 months ago
OpenAI의 Whisper 음성 인식 모델의 고성능 C/C++ 구현체. 하드웨어 가속(Metal, CUDA, OpenVINO) 지원, 실시간 음성 변환, 다중 플랫폼 지원, 경량화된 의존성 없는 배포.
C++
48.7k18 days ago
1100개 이상의 언어를 지원하는 고급 딥러닝 텍스트-음성 변환 도구키트. 음성 복제, 다국어 기능 및 사전 학습된 모델을 제공합니다.
Python
45.1k2 years ago
DeepSpeech는 Mozilla의 오픈소스 음성-텍스트 변환 엔진으로 TensorFlow를 사용합니다. 라즈베리 파이에서 GPU 서버까지 다양한 장치에서 실시간으로 음성을 텍스트로 변환하며, Baidu의 Deep Speech 연구를 기반으로 한 종단간 딥러닝 기술을 적용했습니다.
C++
26.7k10 months ago