音声・オーディオ

音声認識、音声合成、およびオーディオ処理のフレームワーク。

リポジトリ

Whisper は OpenAI による汎用音声認識モデルです。68 万時間の多様な音声データで訓練され、多言語音声認識、音声翻訳、言語識別を高精度で実行できます。

Python
97.8k
17 hours ago
CorentinJ/Real-Time-Voice-Cloning

リアルタイム音声クローンシステム。5秒の音声からデジタル音声表現を作成。GUIインターフェースを備え、3段階の深層学習フレームワーク(SV2TTS)を採用し、CPU/GPU処理に対応、テキスト入力から任意の音声を生成。

Python
59.6k
a month ago

強力なFew-shot音声クローンとTTSシステム。1分の音声データで高品質なモデルを訓練可能。ゼロショット変換、多言語対応、完全なWebUIツールを備える。

Python
56.7k
2 months ago
ggml-org/whisper.cpp

OpenAIのWhisper音声認識モデルの高性能なC/C++実装。ハードウェアアクセラレーション(Metal、CUDA、OpenVINO)対応、リアルタイム文字起こし、マルチプラットフォーム対応、軽量で依存関係なし。

C++
48.7k
18 days ago

1100以上の言語をサポートする先進的なテキスト読み上げツールキット。音声クローニング、多言語対応機能を備え、事前学習済みモデルとトレーニングツールを提供。

Python
45.1k
2 years ago

DeepSpeechはMozillaのオープンソース音声認識エンジンで、TensorFlowを使用しています。Raspberry PiからGPUサーバーまで様々なデバイスでリアルタイムに音声をテキストに変換し、エンドツーエンドの深層学習技術に基づいています。

C++
26.7k
10 months ago