Repository navigation

multimodal-pretraining

Website
Wikipedia

Emu Series: Generative Multimodal Models from BAAI

foundation-models in-context-learning instruct-tuning multimodal-pretraining generative-pretraining-in-multimodality multimodal-generalist

Python

1743

1 年前

Paranioar / Awesome_Matching_Pretraining_Transfering

The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

cross-modal-retrieval 教程 Awesome Lists image-text-matching image-text-retrieval large-language-models large-vision-language-models multimodal-pretraining parameter-efficient-fine-tuning vision-and-language multimodal-large-language-models 大语言模型 text-to-image-generation text-to-image-synthesis text-to-video-generation

430

9 天前

X-PLUG / Youku-mPLUG

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Pre-training Dataset and Benchmarks

benchmark chinese dataset mllm multimodal multimodal-large-language-models multimodal-pretraining Video video-question-answering youku

Python

301

2 年前

X-PLUG / mPLUG-2

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video (ICML 2023)

foundation-models mllm multimodal multimodal-pretraining Video image-retrieval mplug video-question-answering vqa

Python

229

2 年前