Sprache & Audio

Frameworks für Spracherkennung, Sprachsynthese und Audiobearbeitung.

Repositories

openai / whisper

Whisper ist ein allgemeines Spracherkennungsmodell von OpenAI. Trainiert mit 680.000 Stunden vielfältiger Audiodaten, ermöglicht es mehrsprachige Spracherkennung, Übersetzung und Sprachidentifikation.

Python

100.9k

2 months ago

CorentinJ / Real-Time-Voice-Cloning

Echtzeit-Sprachklon-System, das digitale Sprachdarstellungen aus 5 Sekunden Audio erstellt. GUI-Oberfläche, dreistufiges Deep-Learning-Framework (SV2TTS), unterstützt CPU/GPU-Verarbeitung zur Erzeugung beliebiger Sprache aus Texteingabe.

Python

59.8k

3 months ago

RVC-Boss / GPT-SoVITS

Ein leistungsstarkes Few-Shot-Sprachklon- und TTS-System. Benötigt nur 1 Minute Audio für hochwertige Modelltraining, mit Zero-Shot-Konvertierung, mehrsprachiger Unterstützung und umfassenden WebUI-Tools.

Python

58.2k

a month ago

ggml-org / whisper.cpp

Hochleistungs-C/C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Mit Hardware-Beschleunigung (Metal, CUDA, OpenVINO), Echtzeit-Transkription, Multiplattform-Unterstützung und leichtgewichtiger Bereitstellung ohne Abhängigkeiten.

C++

50.4k

an hour ago

coqui-ai / TTS

Fortschrittliches Deep-Learning-Toolkit für Text-zu-Sprache mit 1100+ Sprachunterstützung, Sprachtklonung und mehrsprachigen Fähigkeiten. Vortrainierte Modelle und Echtzeit-Streaming.

Python

45.4k

2 years ago

mozilla / DeepSpeech

DeepSpeech ist Mozillas Open-Source-Sprach-zu-Text-Engine, die TensorFlow verwendet. Sie konvertiert Sprache in Echtzeit auf Geräten von Raspberry Pi bis zu GPU-Servern in Text, basierend auf Baidus Deep Speech Forschung mit End-to-End Deep Learning.

C++

26.8k

a year ago

Collections

Sprache & Audio

Repositories

openai / whisper

CorentinJ / Real-Time-Voice-Cloning

RVC-Boss / GPT-SoVITS

ggml-org / whisper.cpp

coqui-ai / TTS

mozilla / DeepSpeech

Graph