Repository navigation

visual-language-models

Website
Wikipedia

zai-org / CogVLM

a state-of-the-art-level open visual language model | 多模态预训练模型

cross-modality language-model multi-modal pretrained-models visual-language-models

Python

6669

441

1 年前

camel-ai / crab

🦀️ CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents. https://crab.camel-ai.org/

language-model-agent large-language-models multi-agent-systems visual-language-models

Python

375

3 个月前

MiniMax-AI / One-RL-to-See-Them-All

The official repo of One RL to See Them All: Visual Triple Unified Reinforcement Learning

rl vlm visual-language-models

Python

316

4 个月前

bilel-bj / ROSGPT_Vision

Commanding robots using only Language Models' prompts

prompt-engineering Robotics ros2 ChatGPT language-models language-models-are-next large-language-models 大语言模型 visual-language-models

Python

101

8 个月前

hk-zh / language-conditioned-robot-manipulation-models

https://arxiv.org/abs/2312.10807

foundation-models imitation-learning reinforcement-learning visual-language-models robot-manipulation

10 个月前

BioMedIA-MBZUAI / FetalCLIP

Official repository of FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

人工智能 foundation-models Medical imaging visual-language-models

Python

6 个月前

xinyanghuang7 / Basic-Visual-Language-Model

Build a simple basic multimodal large model from scratch. 从零搭建一个简单的基础多模态大模型🤖

large-language-models visual-language-learning visual-language-models

Python

1 年前

kesimeg / awesome-turkish-language-models

A curated list of Turkish AI models, datasets, papers

large-language-models 大语言模型 speech turkish visual-language-models vlm Awesome Lists

22 天前

jaisidhsingh / CoN-CLIP

Implementation of the "Learn No to Say Yes Better" paper.

compositionality 深度学习 image-text-matching multimodal PyTorch visual-language-models

Python

8 天前

yangjie-cv / WeThink

WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning

mllm reinforcement-learning visual-language-models

Python

4 个月前

AlignGPT-VL / AlignGPT

Official repo for "AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability"

large-language-models multimodal-large-language-models visual-language-models

Python

1 年前

tianyu-z / VCR

Official Repo for the paper: VCR: Visual Caption Restoration. Check arxiv.org/pdf/2406.06462 for details.

benchmark 深度学习 visual-language-models

Python

7 个月前

Sid2697 / HOI-Ref

Code implementation for paper titled "HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision"

dataset dataset-generation large-language-models visual-language-models vlm

Python

1 年前

amathislab / wildclip

Scene and animal attribute retrieval from camera trap data with domain-adapted vision-language models

behavior clip 机器视觉 visual-language-models

Python

2 年前

sduzpf / UAP_VLP

Universal Adversarial Perturbations for Vision-Language Pre-trained Models

adversarial-attacks 深度神经网络 visual-language-models

Python

2 个月前

csebuetnlp / IllusionVQA

This repository contains the data and code of the paper titled "IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models"

visual-language-models vqa

Jupyter Notebook

5 个月前

CristianoPatricio / concept-based-interpretability-VLM

Code for the paper "Towards Concept-based Interpretability of Skin Lesion Diagnosis using Vision-Language Models", IEEE ISBI 2024 (Oral).

clip 深度学习 explainable-ai interpretability Medical imaging visual-language-models

Jupyter Notebook

1 年前

Linvyl / DAM-QA

[ICCVW 2025] Implementation for DAM-QA: Describe Anything Model for Visual Question Answering on Text-rich Images

visual-language-models

Python

21 天前

declare-lab / Sealing

[NAACL 2024] Official Implementation of paper "Self-Adaptive Sampling for Efficient Video Question Answering on Image--Text Models"

video-understanding visual-language-models

Python

1 年前

GraphPKU / CoI

Chain of Images for Intuitively Reasoning

聊天机器人 ChatGPT gpt4v llama llava multimodal visual-language-models

Python

2 年前