Repository navigation

audio-language

Website
Wikipedia

A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

foundation-models multimodal representation-learning vision-language audio-language vision-and-language vision-transformer contrastive-loss

Python

1050

1 年前

AudioLLMs / Awesome-Audio-LLM

Audio Large Language Models

audio-language audio-processing

Python

740

3 个月前

TXH-mercury / VAST

[NIPS2023] Code and Model for VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

audio-language dataset vision-language

Jupyter Notebook

289

2 年前

Sreyan88 / GAMA

Code for the paper: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

audio dataset question-answering reasoning audio-language 大语言模型 multimodal-large-language-models

Python

144

10 个月前

Sreyan88 / CompA

Code for ICLR 2024 Paper: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

人工智能 audio benchmark compositionality 机器学习自然语言处理 audio-language

Python

1 年前