ChatGH

Речь и аудио

Фреймворки для распознавания речи, синтеза речи и обработки аудио.

Репозитории

Whisper — модель распознавания речи общего назначения от OpenAI. Обучена на 680 000 часах разнообразного аудио, поддерживает многоязычное распознавание, перевод и определение языка.

Python
100.9k
2 months ago
CorentinJ/Real-Time-Voice-Cloning

Система клонирования голоса в реальном времени, создающая цифровые представления голоса из 5 секунд аудио. Интерфейс GUI, трехэтапная глубокая обучающаяся структура (SV2TTS), поддержка обработки CPU/GPU для генерации произвольной речи из текстового ввода.

Python
59.8k
3 months ago

Мощная система клонирования голоса и TTS с малым количеством примеров. Требуется всего 1 минута аудио для обучения качественных моделей, с нулевым преобразованием, поддержкой нескольких языков и полным набором инструментов WebUI.

Python
58.2k
a month ago
ggml-org/whisper.cpp

Высокопроизводительная реализация на C/C++ модели распознавания речи Whisper от OpenAI. Поддержка аппаратного ускорения (Metal, CUDA, OpenVINO), транскрипция в реальном времени, кроссплатформенность и легковесное развертывание без зависимостей.

C++
50.4k
2 hours ago

Продвинутый инструментарий для преобразования текста в речь с поддержкой 1100+ языков. Возможности клонирования голоса, многоязычности и предобученные модели.

Python
45.4k
2 years ago

DeepSpeech — это движок преобразования речи в текст с открытым исходным кодом от Mozilla, использующий TensorFlow. Преобразует речь в текст в реальном времени на устройствах от Raspberry Pi до серверов с GPU, основан на исследованиях Baidu Deep Speech с сквозным глубоким обучением.

C++
26.8k
a year ago