Repository navigation

multimodal-generation

Website
Wikipedia

eric-ai-lab / MiniGPT-5

Official implementation of paper "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens"

diffusion-models multimodal-generation transformers

Python

859

5 个月前

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

aigc large-language-models large-vision-language-models multimodal-generation multimodal-large-language-models multimodal-models multimodality text-to-3d text-to-audio text-to-image text-to-speech text-to-video 大语言模型 mllm

HTML

510

6 个月前

chuhaojin / Text2Poster-ICASSP-22

Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

aigc 深度学习 multimodal-generation 图像处理 image-retrieval artificial-neural-networks PyTorch object-detection image-text-retrieval

Python

213

2 年前

wzk1015 / Awesome-Vision-to-Music-Generation

[ISMIR 2025] A curated list of vision-to-music generation: methods, datasets, evaluation and challenges.

music-generation survey multimodal-generation

100

2 个月前

YangLing0818 / ContextDiff

[ICLR 2024] Contextualized Diffusion Models for Text-Guided Image and Video Generation

diffusion-models text-to-image-generation text-to-video multimodal-generation

Python

1 年前

Gen-Verse / HermesFlow

[NeurIPS 2025] HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

multimodal-large-language-models image-to-text multimodal-generation text-to-image

Python

16 天前

Nithin-GK / UniteandConquer

[CVPR '23] Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models

diffusion-models face-generation imagenet multimodal multimodal-deep-learning text-to-image multimodal-generation plug-and-play text-to-image-diffusion text-to-image-generation text-to-image-synthesis semantic-segmentation

Python

2 年前

PanguIR / MRAGSurvey

A Survey of Multimodal Retrieval-Augmented Generation

large-language-models 大语言模型 multimodal-generation multimodal-large-language-models multimodal-retrieval

6 个月前

MMDocRAG / MMDocRAG

The code used to train and run inference with MMDocRAG

information-retrieval 大语言模型 multimodal-generation retrieval-augmented-generation vision-language-model

JavaScript

4 个月前