Фреймворки для распознавания речи, синтеза речи и обработки аудио.
Речь и аудио
Репозитории
Whisper — модель распознавания речи общего назначения от OpenAI. Обучена на 680 000 часах разнообразного аудио, поддерживает многоязычное распознавание, перевод и определение языка.
Система клонирования голоса в реальном времени, создающая цифровые представления голоса из 5 секунд аудио. Интерфейс GUI, трехэтапная глубокая обучающаяся структура (SV2TTS), поддержка обработки CPU/GPU для генерации произвольной речи из текстового ввода.
Мощная система клонирования голоса и TTS с малым количеством примеров. Требуется всего 1 минута аудио для обучения качественных моделей, с нулевым преобразованием, поддержкой нескольких языков и полным набором инструментов WebUI.
Высокопроизводительная реализация на C/C++ модели распознавания речи Whisper от OpenAI. Поддержка аппаратного ускорения (Metal, CUDA, OpenVINO), транскрипция в реальном времени, кроссплатформенность и легковесное развертывание без зависимостей.
Продвинутый инструментарий для преобразования текста в речь с поддержкой 1100+ языков. Возможности клонирования голоса, многоязычности и предобученные модели.
DeepSpeech — это движок преобразования речи в текст с открытым исходным кодом от Mozilla, использующий TensorFlow. Преобразует речь в текст в реальном времени на устройствах от Raspberry Pi до серверов с GPU, основан на исследованиях Baidu Deep Speech с сквозным глубоким обучением.