Voz y audio

Marcos para reconocimiento de voz, síntesis de voz y procesamiento de audio.

Repositorios

Whisper es un modelo de reconocimiento de voz de propósito general de OpenAI. Entrenado con 680,000 horas de audio diverso, realiza reconocimiento de voz multilingüe, traducción e identificación de idiomas.

Python
97.9k
3 days ago
CorentinJ/Real-Time-Voice-Cloning

Sistema de clonación de voz en tiempo real que crea representaciones digitales de voz a partir de 5 segundos de audio. Interfaz GUI, framework de aprendizaje profundo de tres etapas (SV2TTS), soporta procesamiento CPU/GPU para generar voz arbitraria desde texto.

Python
59.6k
a month ago

Un potente sistema de clonación de voz y TTS con pocos ejemplos. Solo requiere 1 minuto de audio para entrenar modelos de alta calidad, con conversión zero-shot, soporte multilingüe y herramientas WebUI completas.

Python
56.7k
2 months ago
ggml-org/whisper.cpp

Implementación de alto rendimiento en C/C++ del modelo de reconocimiento de voz Whisper de OpenAI. Incluye aceleración por hardware (Metal, CUDA, OpenVINO), transcripción en tiempo real, soporte multiplataforma y despliegue ligero sin dependencias.

C++
48.7k
18 hours ago

Kit de herramientas avanzado de síntesis de voz por texto con aprendizaje profundo. Soporta 1100+ idiomas, clonación de voz y capacidades multilingües con modelos preentrenados.

Python
45.1k
2 years ago

DeepSpeech es el motor de conversión de voz a texto de código abierto de Mozilla que utiliza TensorFlow. Convierte voz en texto en tiempo real en dispositivos desde Raspberry Pi hasta servidores GPU, basado en investigación de Deep Speech de Baidu con aprendizaje profundo de extremo a extremo.

C++
26.7k
10 months ago