Repository navigation

vision-and-language-pre-training

Website
Wikipedia

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

chinese 机器视觉 multi-modal-learning 自然语言处理 PyTorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language 深度学习 multi-modal contrastive-loss transformers coreml-models

Jupyter Notebook

5546

521

1 个月前

salesforce / BLIP

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering vision-language-transformer

Jupyter Notebook

5509

717

1 年前

phellonchen / awesome-Vision-and-Language-Pre-training

Recent Advances in Vision and Language Pre-training (VLP)

vision-and-language-pre-training vision-and-language pretraining multimodal-deep-learning

294

2 年前

zhjohnchan / awesome-vision-and-language-pretraining

A curated list of vision-and-language pre-training (VLP). :-)

multi-modal-learning pre-training vision-and-language-pre-training

3 年前

mala-lab / SIC-CADS

Code Implementation of "Simple Image-level Classification Improves Open-vocabulary Object Detection" (AAAI'24)

object-detection open-vocabulary-detection vision-and-language-pre-training vision-language-model foundation-models

Python

2 年前

PrithivirajDamodaran / vision-language-modelling-series

Companion Repo for the Vision Language Modelling YouTube series - https://bit.ly/3PsbsC2 - by Prithivi Da. Open to PRs and collaborations

multimodal-deep-learning multimodal-interactions vision-and-language vision-and-language-pre-training

Jupyter Notebook

3 年前

JianqiangWan / VLPT-STD

Vision-Language Pre-Training for Boosting Scene Text Detectors (CVPR2022)

vision-and-language-pre-training scene-text-detection multimodal-deep-learning

4 年前

marialymperaiou / knowledge-enhanced-multimodal-learning

A list of research papers on knowledge-enhanced multimodal learning

image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval vision-and-language vision-and-language-pre-training vision-language-transformer visual-commonsense-reasoning visual-question-answering multi-task-learning

3 年前

SHTUPLUS / GITM-MR

The official implementation for the ICCV 2023 paper "Grounded Image Text Matching with Mismatched Relation Reasoning".

vision-and-language vision-language-model vision-and-language-pre-training

Python

2 年前

jyoung105 / koSigLIP

Korean version of CLIP which achieves Korean cross-modal retrieval and representation generation.

机器视觉 contrastive-loss coreml-models 深度学习 image-text-retrieval korean multi-modal multi-modal-learning 自然语言处理 pretrained-models PyTorch transformers vision-and-language-pre-training vision-language

10 个月前