Sprache & Audio

Frameworks für Spracherkennung, Sprachsynthese und Audiobearbeitung.

Repositories

Whisper ist ein allgemeines Spracherkennungsmodell von OpenAI. Trainiert mit 680.000 Stunden vielfältiger Audiodaten, ermöglicht es mehrsprachige Spracherkennung, Übersetzung und Sprachidentifikation.

Python
97.8k
17 hours ago
CorentinJ/Real-Time-Voice-Cloning

Echtzeit-Sprachklon-System, das digitale Sprachdarstellungen aus 5 Sekunden Audio erstellt. GUI-Oberfläche, dreistufiges Deep-Learning-Framework (SV2TTS), unterstützt CPU/GPU-Verarbeitung zur Erzeugung beliebiger Sprache aus Texteingabe.

Python
59.6k
a month ago

Ein leistungsstarkes Few-Shot-Sprachklon- und TTS-System. Benötigt nur 1 Minute Audio für hochwertige Modelltraining, mit Zero-Shot-Konvertierung, mehrsprachiger Unterstützung und umfassenden WebUI-Tools.

Python
56.7k
2 months ago
ggml-org/whisper.cpp

Hochleistungs-C/C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Mit Hardware-Beschleunigung (Metal, CUDA, OpenVINO), Echtzeit-Transkription, Multiplattform-Unterstützung und leichtgewichtiger Bereitstellung ohne Abhängigkeiten.

C++
48.7k
18 days ago

Fortschrittliches Deep-Learning-Toolkit für Text-zu-Sprache mit 1100+ Sprachunterstützung, Sprachtklonung und mehrsprachigen Fähigkeiten. Vortrainierte Modelle und Echtzeit-Streaming.

Python
45.1k
2 years ago

DeepSpeech ist Mozillas Open-Source-Sprach-zu-Text-Engine, die TensorFlow verwendet. Sie konvertiert Sprache in Echtzeit auf Geräten von Raspberry Pi bis zu GPU-Servern in Text, basierend auf Baidus Deep Speech Forschung mit End-to-End Deep Learning.

C++
26.7k
10 months ago