Marcos para reconocimiento de voz, síntesis de voz y procesamiento de audio.
Voz y audio
Repositorios
Whisper es un modelo de reconocimiento de voz de propósito general de OpenAI. Entrenado con 680,000 horas de audio diverso, realiza reconocimiento de voz multilingüe, traducción e identificación de idiomas.
Sistema de clonación de voz en tiempo real que crea representaciones digitales de voz a partir de 5 segundos de audio. Interfaz GUI, framework de aprendizaje profundo de tres etapas (SV2TTS), soporta procesamiento CPU/GPU para generar voz arbitraria desde texto.
Un potente sistema de clonación de voz y TTS con pocos ejemplos. Solo requiere 1 minuto de audio para entrenar modelos de alta calidad, con conversión zero-shot, soporte multilingüe y herramientas WebUI completas.
Implementación de alto rendimiento en C/C++ del modelo de reconocimiento de voz Whisper de OpenAI. Incluye aceleración por hardware (Metal, CUDA, OpenVINO), transcripción en tiempo real, soporte multiplataforma y despliegue ligero sin dependencias.
Kit de herramientas avanzado de síntesis de voz por texto con aprendizaje profundo. Soporta 1100+ idiomas, clonación de voz y capacidades multilingües con modelos preentrenados.
DeepSpeech es el motor de conversión de voz a texto de código abierto de Mozilla que utiliza TensorFlow. Convierte voz en texto en tiempo real en dispositivos desde Raspberry Pi hasta servidores GPU, basado en investigación de Deep Speech de Baidu con aprendizaje profundo de extremo a extremo.