Речь и аудио

Речь и аудио

Фреймворки для распознавания речи, синтеза речи и обработки аудио.

Репозитории

openai / whisper

Whisper — модель распознавания речи общего назначения от OpenAI. Обучена на 680 000 часах разнообразного аудио, поддерживает многоязычное распознавание, перевод и определение языка.

Python

104.7k

3 months ago

CorentinJ / Real-Time-Voice-Cloning

Система клонирования голоса в реальном времени, создающая цифровые представления голоса из 5 секунд аудио. Интерфейс GUI, трехэтапная глубокая обучающаяся структура (SV2TTS), поддержка обработки CPU/GPU для генерации произвольной речи из текстового ввода.

Python

60.0k

4 months ago

RVC-Boss / GPT-SoVITS

Мощная система клонирования голоса и TTS с малым количеством примеров. Требуется всего 1 минута аудио для обучения качественных моделей, с нулевым преобразованием, поддержкой нескольких языков и полным набором инструментов WebUI.

Python

59.8k

4 days ago

ggml-org / whisper.cpp

Высокопроизводительная реализация на C/C++ модели распознавания речи Whisper от OpenAI. Поддержка аппаратного ускорения (Metal, CUDA, OpenVINO), транскрипция в реальном времени, кроссплатформенность и легковесное развертывание без зависимостей.

C++

51.8k

6 days ago

coqui-ai / TTS

Продвинутый инструментарий для преобразования текста в речь с поддержкой 1100+ языков. Возможности клонирования голоса, многоязычности и предобученные модели.

Python

45.8k

2 years ago

mozilla / DeepSpeech

DeepSpeech — это движок преобразования речи в текст с открытым исходным кодом от Mozilla, использующий TensorFlow. Преобразует речь в текст в реальном времени на устройствах от Raspberry Pi до серверов с GPU, основан на исследованиях Baidu Deep Speech с сквозным глубоким обучением.

C++

26.8k

a year ago

Collections

Репозитории

openai / whisper

CorentinJ / Real-Time-Voice-Cloning

RVC-Boss / GPT-SoVITS

ggml-org / whisper.cpp

coqui-ai / TTS

mozilla / DeepSpeech

Graph