Repository navigation

audio-generation

Website
Wikipedia

🤖 The free, Open Source alternative to OpenAI, Claude and others. Self-hosted and local-first. Drop-in replacement for OpenAI, running on consumer-grade hardware. No GPU required. Runs gguf, transformers, diffusers and many more models architectures. Features: Generate Text, Audio, Video, Images, Voice Cloning, Distributed, P2P inference

llama rwkv 人工智能大语言模型 stable-diffusion API Kubernetes gpt4all tts musicgen mamba audio-generation image-generation text-generation gemma mistral llama3 rerank distributed libp2p

31887

2429

38 分钟前

FunAudioLLM / CosyVoice

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

audio-generation gpt-4o text-to-speech tts cantonese 聊天机器人 ChatGPT chinese english fine-grained fine-tuning japanese korean natural-language-generation Python voice-cloning

Python

13160

1338

7 小时前

open-mmlab / Amphion

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

audio-generation audio-synthesis audioldm music-generation naturalspeech2 singing-voice-conversion speech-synthesis text-to-audio text-to-speech vall-e voice-conversion audit fastspeech2 vits emilia maskgct vocoder

Python

8950

700

7 天前

multimodal-art-projection / YuE

YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

foundation-models music-generation huggingface llama audio-generation voice-cloning llms 人工智能深度学习 gpt

Python

4821

523

12 天前

haoheliu / AudioLDM

AudioLDM: Generate speech, sound effects, music and beyond, with text.

audio-generation

Python

2617

233

4 个月前

haoheliu / AudioLDM2

Text-to-Audio/Music Generation

audio-generation

Python

2405

188

7 个月前

rsxdalv / tts-generation-webui

TTS Generation Web UI (Bark, MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNet, StyleTTS2, MMS, Stable Audio, Mars5, F5-TTS, ParlerTTS)

gradio 机器学习 text-to-speech tts Web 人工智能 audio-generation 深度学习 torch bark Generator music musicgen rvc magnet

TypeScript

2110

222

10 小时前

archinetai / audio-diffusion-pytorch

Audio generation using diffusion models, in PyTorch.

人工智能 audio-generation 深度学习 denoising-diffusion

Python

2035

173

2 年前

archinetai / audio-ai-timeline

A timeline of the latest AI models for audio generation, starting in 2023!

人工智能 audio-generation 机器学习

1898

1 年前

lucidrains / soundstorm-pytorch

Implementation of SoundStorm, Efficient Parallel Audio Generation from Google Deepmind, in Pytorch

人工智能 audio-generation 深度学习 non-autoregressive transformers attention-mechanism

Python

1490

6 个月前

declare-lab / tango

A family of diffusion models for text-to-audio generation.

audio-generation diffusion diffusion-models language-models large-language-models text-to-audio

Python

1160

4 个月前

FunAudioLLM / InspireMusic

InspireMusic: A Unified Framework for Music, Song, Audio Generation.

music-generation PyTorch audio-generation audio-processing

Python

1059

3 天前

NVIDIA / BigVGAN

Official PyTorch implementation of BigVGAN (ICLR 2023)

audio-synthesis speech-synthesis music-synthesis neural-vocoder audio-generation singing-voice-synthesis

Python

1001

127

7 个月前

Yuan-ManX / ai-audio-datasets

AI Audio Datasets (AI-ADS) 🎵, including Speech, Music, and Sound Effects, which can provide training data for Generative AI, AIGC, AI model training, intelligent audio tool development, and audio applications.

aigc audio audio-effect datasets 人工智能 audio-generation 深度学习机器学习 music-generation

718

2 个月前

researchmm / MM-Diffusion

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

audio-generation content-creation diffusion-models multi-modality video-generation

Python

419

10 个月前

modelscope / FunCodec

FunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al.

audio-generation codec speech-synthesis speech-to-text tts

Python

396

1 年前

metame-ai / awesome-audio-plaza

Daily tracking of awesome audio papers, including music generation, zero-shot tts, asr, audio generation

music-generation asr audio-generation Awesome Lists tts zero-shot-tts

379

17 小时前

v-iashin / SpecVQGAN

Source code for "Taming Visually Guided Sound Generation" (Oral at the BMVC 2021)

transformer vqvae Generative Adversarial Network PyTorch audio-generation melgan multi-modal video-understanding evaluation-metrics audio Video

Jupyter Notebook

360

9 个月前

Yuan-ManX / audio-development-tools

This is a list of sound, audio and music development tools which contains machine learning, audio generation, audio signal processing, sound synthesis, spatial audio, music information retrieval, music generation, speech recognition, speech synthesis, singing voice synthesis and more.

audio audio-processing music signal-processing speech-processing 深度学习 dsp speech 人工智能 audio-generation 机器学习 music-generation speech-synthesis

354

7 个月前

cabralpinto / modular-diffusion

Python library for designing and training your own Diffusion Models with PyTorch.

diffusion-models modular-design Python audio-generation 深度学习 image-generation 机器学习 PyTorch text-generation transformer

Python

279

9 个月前