ChatGH

Речь и аудио

Фреймворки для распознавания речи, синтеза речи и обработки аудио.

Репозитории

Whisper — модель распознавания речи общего назначения от OpenAI. Обучена на 680 000 часах разнообразного аудио, поддерживает многоязычное распознавание, перевод и определение языка.

Python
97.8k
17 hours ago
CorentinJ/Real-Time-Voice-Cloning

Система клонирования голоса в реальном времени, создающая цифровые представления голоса из 5 секунд аудио. Интерфейс GUI, трехэтапная глубокая обучающаяся структура (SV2TTS), поддержка обработки CPU/GPU для генерации произвольной речи из текстового ввода.

Python
59.6k
a month ago

Мощная система клонирования голоса и TTS с малым количеством примеров. Требуется всего 1 минута аудио для обучения качественных моделей, с нулевым преобразованием, поддержкой нескольких языков и полным набором инструментов WebUI.

Python
56.7k
2 months ago
ggml-org/whisper.cpp

Высокопроизводительная реализация на C/C++ модели распознавания речи Whisper от OpenAI. Поддержка аппаратного ускорения (Metal, CUDA, OpenVINO), транскрипция в реальном времени, кроссплатформенность и легковесное развертывание без зависимостей.

C++
48.7k
18 days ago

Продвинутый инструментарий для преобразования текста в речь с поддержкой 1100+ языков. Возможности клонирования голоса, многоязычности и предобученные модели.

Python
45.1k
2 years ago

DeepSpeech — это движок преобразования речи в текст с открытым исходным кодом от Mozilla, использующий TensorFlow. Преобразует речь в текст в реальном времени на устройствах от Raspberry Pi до серверов с GPU, основан на исследованиях Baidu Deep Speech с сквозным глубоким обучением.

C++
26.7k
10 months ago