Voz y audio

Marcos para reconocimiento de voz, síntesis de voz y procesamiento de audio.

Repositorios

openai / whisper

Whisper es un modelo de reconocimiento de voz de propósito general de OpenAI. Entrenado con 680,000 horas de audio diverso, realiza reconocimiento de voz multilingüe, traducción e identificación de idiomas.

Python

104.7k

3 months ago

CorentinJ / Real-Time-Voice-Cloning

Sistema de clonación de voz en tiempo real que crea representaciones digitales de voz a partir de 5 segundos de audio. Interfaz GUI, framework de aprendizaje profundo de tres etapas (SV2TTS), soporta procesamiento CPU/GPU para generar voz arbitraria desde texto.

Python

60.0k

4 months ago

RVC-Boss / GPT-SoVITS

Un potente sistema de clonación de voz y TTS con pocos ejemplos. Solo requiere 1 minuto de audio para entrenar modelos de alta calidad, con conversión zero-shot, soporte multilingüe y herramientas WebUI completas.

Python

59.8k

4 days ago

ggml-org / whisper.cpp

Implementación de alto rendimiento en C/C++ del modelo de reconocimiento de voz Whisper de OpenAI. Incluye aceleración por hardware (Metal, CUDA, OpenVINO), transcripción en tiempo real, soporte multiplataforma y despliegue ligero sin dependencias.

C++

51.8k

6 days ago

coqui-ai / TTS

Kit de herramientas avanzado de síntesis de voz por texto con aprendizaje profundo. Soporta 1100+ idiomas, clonación de voz y capacidades multilingües con modelos preentrenados.

Python

45.8k

2 years ago

mozilla / DeepSpeech

DeepSpeech es el motor de conversión de voz a texto de código abierto de Mozilla que utiliza TensorFlow. Convierte voz en texto en tiempo real en dispositivos desde Raspberry Pi hasta servidores GPU, basado en investigación de Deep Speech de Baidu con aprendizaje profundo de extremo a extremo.

C++

26.8k

a year ago

Collections

Voz y audio

Repositorios

openai / whisper

CorentinJ / Real-Time-Voice-Cloning

RVC-Boss / GPT-SoVITS

ggml-org / whisper.cpp

coqui-ai / TTS

mozilla / DeepSpeech

Graph