음성 및 오디오

음성 인식, 음성 합성 및 오디오 처리 프레임워크.

리포지토리

openai / whisper

Whisper 는 OpenAI 의 범용 음성 인식 모델입니다. 68 만 시간의 다양한 오디오 데이터로 훈련되어 다국어 음성 인식, 음성 번역 및 언어 식별을 높은 정확도로 수행합니다.

Python

104.7k

3 months ago

CorentinJ / Real-Time-Voice-Cloning

실시간 음성 복제 시스템. 5초 오디오로 디지털 음성 표현 생성. GUI 인터페이스, 3단계 딥러닝 프레임워크(SV2TTS), CPU/GPU 처리 지원, 텍스트 입력으로 임의 음성 생성 가능.

Python

60.0k

4 months ago

RVC-Boss / GPT-SoVITS

강력한 Few-shot 음성 복제 및 TTS 시스템. 1분의 오디오만으로 고품질 모델 훈련 가능, Zero-shot 변환, 다국어 지원, 완전한 WebUI 도구 제공.

Python

59.8k

4 days ago

ggml-org / whisper.cpp

OpenAI의 Whisper 음성 인식 모델의 고성능 C/C++ 구현체. 하드웨어 가속(Metal, CUDA, OpenVINO) 지원, 실시간 음성 변환, 다중 플랫폼 지원, 경량화된 의존성 없는 배포.

C++

51.8k

6 days ago

coqui-ai / TTS

1100개 이상의 언어를 지원하는 고급 딥러닝 텍스트-음성 변환 도구키트. 음성 복제, 다국어 기능 및 사전 학습된 모델을 제공합니다.

Python

45.8k

2 years ago

mozilla / DeepSpeech

DeepSpeech는 Mozilla의 오픈소스 음성-텍스트 변환 엔진으로 TensorFlow를 사용합니다. 라즈베리 파이에서 GPU 서버까지 다양한 장치에서 실시간으로 음성을 텍스트로 변환하며, Baidu의 Deep Speech 연구를 기반으로 한 종단간 딥러닝 기술을 적용했습니다.

C++

26.8k

a year ago

Collections

음성 및 오디오

리포지토리

openai / whisper

CorentinJ / Real-Time-Voice-Cloning

RVC-Boss / GPT-SoVITS

ggml-org / whisper.cpp

coqui-ai / TTS

mozilla / DeepSpeech

Graph