Repository navigation

cross-modal-pretraining

Website
Wikipedia

[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

large-language-models video-language-pretraining vision-language-pretraining blip2 llama minigpt4 cross-modal-pretraining multi-modal-chatgpt

Python

3078

281

1 年前

JacobYuan7 / RLIP

[NeurIPS 2022 Spotlight] RLIP: Relational Language-Image Pre-training and a series of other methods to solve HOI detection and Scene Graph Generation.

cross-modal-pretraining

Python

1 年前