音声・オーディオ

音声認識、音声合成、およびオーディオ処理のフレームワーク。

リポジトリ

Whisper は OpenAI による汎用音声認識モデルです。68 万時間の多様な音声データで訓練され、多言語音声認識、音声翻訳、言語識別を高精度で実行できます。

Python

104.7k

3 months ago

リアルタイム音声クローンシステム。5秒の音声からデジタル音声表現を作成。GUIインターフェースを備え、3段階の深層学習フレームワーク(SV2TTS)を採用し、CPU/GPU処理に対応、テキスト入力から任意の音声を生成。

Python

60.0k

4 months ago

強力なFew-shot音声クローンとTTSシステム。1分の音声データで高品質なモデルを訓練可能。ゼロショット変換、多言語対応、完全なWebUIツールを備える。

Python

59.8k

4 days ago

OpenAIのWhisper音声認識モデルの高性能なC/C++実装。ハードウェアアクセラレーション（Metal、CUDA、OpenVINO）対応、リアルタイム文字起こし、マルチプラットフォーム対応、軽量で依存関係なし。

C++

51.8k

6 days ago

1100以上の言語をサポートする先進的なテキスト読み上げツールキット。音声クローニング、多言語対応機能を備え、事前学習済みモデルとトレーニングツールを提供。

Python

45.8k

2 years ago

DeepSpeechはMozillaのオープンソース音声認識エンジンで、TensorFlowを使用しています。Raspberry PiからGPUサーバーまで様々なデバイスでリアルタイムに音声をテキストに変換し、エンドツーエンドの深層学習技術に基づいています。

C++

26.8k

a year ago