音声認識、音声合成、およびオーディオ処理のフレームワーク。
音声・オーディオ
リポジトリ
Whisper は OpenAI による汎用音声認識モデルです。68 万時間の多様な音声データで訓練され、多言語音声認識、音声翻訳、言語識別を高精度で実行できます。
Python
97.8k17 hours ago
リアルタイム音声クローンシステム。5秒の音声からデジタル音声表現を作成。GUIインターフェースを備え、3段階の深層学習フレームワーク(SV2TTS)を採用し、CPU/GPU処理に対応、テキスト入力から任意の音声を生成。
Python
59.6ka month ago
強力なFew-shot音声クローンとTTSシステム。1分の音声データで高品質なモデルを訓練可能。ゼロショット変換、多言語対応、完全なWebUIツールを備える。
Python
56.7k2 months ago
OpenAIのWhisper音声認識モデルの高性能なC/C++実装。ハードウェアアクセラレーション(Metal、CUDA、OpenVINO)対応、リアルタイム文字起こし、マルチプラットフォーム対応、軽量で依存関係なし。
C++
48.7k18 days ago
1100以上の言語をサポートする先進的なテキスト読み上げツールキット。音声クローニング、多言語対応機能を備え、事前学習済みモデルとトレーニングツールを提供。
Python
45.1k2 years ago
DeepSpeechはMozillaのオープンソース音声認識エンジンで、TensorFlowを使用しています。Raspberry PiからGPUサーバーまで様々なデバイスでリアルタイムに音声をテキストに変換し、エンドツーエンドの深層学習技術に基づいています。
C++
26.7k10 months ago