Repository navigation

multimodal-models

Website
Wikipedia

uncbiag / Awesome-Foundation-Models

A curated list of foundation models for vision and language tasks

foundation-models vision-transformer large-language-models transformer-models multimodal-models

1097

3 个月前

AIDC-AI / Awesome-Unified-Multimodal-Models

Awesome Unified Multimodal Models

multimodal-large-language-models text-to-image-generation multimodal-models vision-language-model

765

2 个月前

YingqingHe / Awesome-LLMs-meet-Multimodal-Generation

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

aigc large-language-models large-vision-language-models multimodal-generation multimodal-large-language-models multimodal-models multimodality text-to-3d text-to-audio text-to-image text-to-speech text-to-video 大语言模型 mllm

HTML

511

6 个月前

zli12321 / Vision-Language-Models-Overview

A most Frontend Collection and survey of vision-language model papers, and models GitHub repository. Continuous updates.

blip2 claude clip deepseek gemini-pro gpt-4v llava multimodal-models reinforcement-learning world-models

389

9 天前

uni-medical / Project-Imaging-X

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

medical-image-analysis foundation-models multimodal-models open-science pathology radiology survey ultrasound

190

11 天前

thaoshibe / awesome-personalized-lmms

A curated list of Awesome Personalized Large Multimodal Models resources

Awesome Lists large-language-models large-multimodal-models multimodal-models personalization personalized-generation

15 天前

AmitPeleg / CLIC

Implementation of the paper "Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning", arXiv, 2025

clip compositionality multimodal-models retrieval

Python

4 个月前

pokarats / LAP-final-project

Multimodal Bi-Transformers (MMBT) in Biomedical Text/Image Classification

bert image-classification text-classification transfer-learning biomedical-image-processing transformer attention-mechanism multimodal-models huggingface-transformers

Jupyter Notebook

4 年前

RubenCasal / owl_vit_detector

NanoOWL Detection System enables real-time open-vocabulary object detection in ROS 2 using a TensorRT-optimized OWL-ViT model. Describe objects in natural language and detect them instantly on panoramic images. Optimized for NVIDIA GPUs with .engine acceleration.

机器视觉 multimodal-models natural-language object-detection transformers

C++

5 个月前