Sprache & Audio

Frameworks für Spracherkennung, Sprachsynthese und Audiobearbeitung.

Repositories

Whisper ist ein allgemeines Spracherkennungsmodell von OpenAI. Trainiert mit 680.000 Stunden vielfältiger Audiodaten, ermöglicht es mehrsprachige Spracherkennung, Übersetzung und Sprachidentifikation.

Python
100.9k
2 months ago
CorentinJ/Real-Time-Voice-Cloning

Echtzeit-Sprachklon-System, das digitale Sprachdarstellungen aus 5 Sekunden Audio erstellt. GUI-Oberfläche, dreistufiges Deep-Learning-Framework (SV2TTS), unterstützt CPU/GPU-Verarbeitung zur Erzeugung beliebiger Sprache aus Texteingabe.

Python
59.8k
3 months ago

Ein leistungsstarkes Few-Shot-Sprachklon- und TTS-System. Benötigt nur 1 Minute Audio für hochwertige Modelltraining, mit Zero-Shot-Konvertierung, mehrsprachiger Unterstützung und umfassenden WebUI-Tools.

Python
58.2k
a month ago
ggml-org/whisper.cpp

Hochleistungs-C/C++-Implementierung von OpenAIs Whisper-Spracherkennungsmodell. Mit Hardware-Beschleunigung (Metal, CUDA, OpenVINO), Echtzeit-Transkription, Multiplattform-Unterstützung und leichtgewichtiger Bereitstellung ohne Abhängigkeiten.

C++
50.4k
an hour ago

Fortschrittliches Deep-Learning-Toolkit für Text-zu-Sprache mit 1100+ Sprachunterstützung, Sprachtklonung und mehrsprachigen Fähigkeiten. Vortrainierte Modelle und Echtzeit-Streaming.

Python
45.4k
2 years ago

DeepSpeech ist Mozillas Open-Source-Sprach-zu-Text-Engine, die TensorFlow verwendet. Sie konvertiert Sprache in Echtzeit auf Geräten von Raspberry Pi bis zu GPU-Servern in Text, basierend auf Baidus Deep Speech Forschung mit End-to-End Deep Learning.

C++
26.8k
a year ago