Frameworks für Spracherkennung, Sprachsynthese und Audiobearbeitung.
Sprache & Audio
Repositories
Whisper ist ein allgemeines Spracherkennungsmodell von OpenAI. Trainiert mit 680.000 Stunden vielfältiger Audiodaten, ermöglicht es mehrsprachige Spracherkennung, Übersetzung und Sprachidentifikation.
Echtzeit-Sprachklon-System, das digitale Sprachdarstellungen aus 5 Sekunden Audio erstellt. GUI-Oberfläche, dreistufiges Deep-Learning-Framework (SV2TTS), unterstützt CPU/GPU-Verarbeitung zur Erzeugung beliebiger Sprache aus Texteingabe.
Ein leistungsstarkes Few-Shot-Sprachklon- und TTS-System. Benötigt nur 1 Minute Audio für hochwertige Modelltraining, mit Zero-Shot-Konvertierung, mehrsprachiger Unterstützung und umfassenden WebUI-Tools.
Hochleistungs-C/C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Mit Hardware-Beschleunigung (Metal, CUDA, OpenVINO), Echtzeit-Transkription, Multiplattform-Unterstützung und leichtgewichtiger Bereitstellung ohne Abhängigkeiten.
Fortschrittliches Deep-Learning-Toolkit für Text-zu-Sprache mit 1100+ Sprachunterstützung, Sprachtklonung und mehrsprachigen Fähigkeiten. Vortrainierte Modelle und Echtzeit-Streaming.
DeepSpeech ist Mozillas Open-Source-Sprach-zu-Text-Engine, die TensorFlow verwendet. Sie konvertiert Sprache in Echtzeit auf Geräten von Raspberry Pi bis zu GPU-Servern in Text, basierend auf Baidus Deep Speech Forschung mit End-to-End Deep Learning.