Repository navigation

#

visual-question-answering

Website
Wikipedia

salesforce / BLIP

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering vision-language-transformer

Jupyter Notebook

5509

717

1 年前

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

multimodal pretraining image-captioning text-to-image-synthesis visual-question-answering referring-expression-comprehension vision-language pretrained-models prompt prompt-tuning chinese

Python

2536

248

1 年前

peteanderson80 / bottom-up-attention

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

vqa visual-question-answering faster-rcnn caffe image-captioning mscoco

Jupyter Notebook

1457

377

3 年前

lucidrains / flamingo-pytorch

Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch

人工智能 attention-mechanism 深度学习 transformers visual-question-answering

Python

1265

65

3 年前

YehLi / xmodaler

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

image-captioning video-captioning vision-and-language pretraining cross-modal-retrieval visual-question-answering tden

Python

969

106

3 年前

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

Medical imaging multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

839

75

1 个月前

jnhwkim / ban-vqa

Bilinear attention networks for visual question answering

visual-question-answering attention pytorch-implmention

Python

545

100

2 年前

MMMU-Benchmark / MMMU

This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

机器视觉深度学习深度神经网络 evaluation foundation-models large-language-models large-multimodal-models 大语言模型机器学习 multimodal multimodal-deep-learning multimodal-learning multimodality 自然语言处理 question-answering STEM visual-question-answering

Python

501

43

5 个月前

MILVLG / mcan-vqa

Deep Modular Co-Attention Networks for Visual Question Answering

visual-question-answering attention

Python

454

89

5 年前

zjukg / KG-MM-Survey

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

cross-modal-retrieval Entity resolution image-classification image-generation information-extraction knowledge-graph knowledge-graph-embeddings large-language-models multi-modal-learning paper-list survey surveys visual-question-answering awsome

447

21

10 个月前

davidmascharka / tbd-nets

PyTorch implementation of "Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning"

机器学习 PyTorch visualization 深度学习 visual-question-answering vqa neural-networks

Jupyter Notebook

348

74

4 年前

lupantech / MathVista

MathVista: data, code, and evaluation for Mathematical Reasoning in Visual Contexts

large-language-models 机器学习数学 science visual-question-answering

Jupyter Notebook

335

49

6 天前

MILVLG / openvqa

A lightweight, scalable, and general framework for visual question answering research

visual-question-answering vqa PyTorch 深度学习 benchmark

Python

327

64

4 年前

HanXinzi-AI / awesome-computer-vision-resources

a collection of computer vision projects&tools. 计算机视觉方向项目和工具集合。

机器视觉 image-classification image-segmentation semantic-segmentation Medical imaging OCR visual-question-answering image-captioning super-resolution Generative Adversarial Network face-detection face-recognition autonomous-vehicles autonomous-driving model-compression Tensorflow PyTorch paddlepaddle

310

37

1 年前

MILVLG / prophet

Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".

gpt-3 multimodal-deep-learning prompt-engineering PyTorch visual-question-answering

Python

276

28

4 个月前

Cyanogenoid / pytorch-vqa

Strong baseline for visual question answering

PyTorch vqa visual-question-answering baseline

Python

241

100

3 年前

qiantianwen / NuScenes-QA

[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

autonomous-driving vision-language visual-question-answering

Python

210

6

1 年前

MMStar-Benchmark / MMStar

[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation large-language-models large-multimodal-models large-vision-language-model large-vision-language-models 大语言模型 multimodal multimodal-learning multimodality visual-question-answering

Python

196

5

1 年前

Yushi-Hu / tifa

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

image-to-text large-language-models text-to-image visual-question-answering

Python

175

12

1 年前

markdtw / vqa-winner-cvprw-2017

Pytorch implementation of winner from VQA Chllange Workshop in CVPR'17

PyTorch visual-question-answering

Python

163

38

7 年前