Repository navigation

multi-modality

Website
Wikipedia

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

gpt-4 聊天机器人 ChatGPT llama multimodal llava foundation-models instruction-tuning multi-modality visual-language-learning llama-2 llama2 vision-language-model

Python

23657

2634

1 年前

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

instruction-tuning instruction-following large-vision-language-model visual-instruction-tuning multi-modality in-context-learning large-language-models large-vision-language-models multimodal-chain-of-thought multimodal-in-context-learning multimodal-large-language-models chain-of-thought

16387

1063

11 天前

jina-ai / clip-as-service

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

bert sentence-encoding 深度学习 clip-model clip-as-service bert-as-service cross-modal-retrieval multi-modality neural-search openai PyTorch onnx cross-modality

Python

12750

2077

2 年前

kyegomez / swarms

The Enterprise-Grade Production-Ready Multi-Agent Orchestration Framework. Website: https://swarms.ai

人工智能 attention-mechanism gpt4 langchain 机器学习 multi-modal-imaging multi-modality multimodal swarms transformer-models agents prompt-engineering prompt-toolkit prompting tree-of-thoughts ChatGPT gpt4all huggingface langchain-python

Python

5297

647

1 天前

lucidrains / deep-daze

Simple command line tool for text to image generation using OpenAI's CLIP and Siren (Implicit neural representation network). Technique was originally created by https://twitter.com/advadnoun

人工智能深度学习 transformers siren implicit-neural-representation text-to-image multi-modality

Python

4344

314

4 年前

EvolvingLMMs-Lab / Otter

🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.

gpt-4 visual-language-learning artificial-inteligence 深度学习 foundation-models multi-modality 机器学习 ChatGPT instruction-tuning large-scale-models embodied-ai

Python

3270

209

2 年前

InternLM / InternLM-XComposer

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

ChatGPT visual-language-learning multi-modality foundation gpt-4 instruction-tuning mllm multimodal vision-language-model language-model 大语言模型 large-vision-language-model vision-transformer gpt

Python

2895

177

4 个月前

DLR-RM / 3DObjectTracking

Algorithms and Publications on 3D Object Tracking

pose-estimation 机器视觉 Bukkit cvpr2022 real-time object-tracking multi-modality rgbd tracking

C++

925

164

1 个月前

OpenBMB / VisRAG

Parsing-free RAG supported by VLMs

rag retrieval retrieval-augmented-generation vision-language-model multi-modal multi-modality document-retrieval document-understanding

Python

799

8 个月前

NVlabs / Long-RL

Long-RL: Scaling RL to Long Sequences (NeurIPS 2025)

large-language-models multi-modality reinforcement-learning

Python

625

10 天前

OpenGVLab / Multi-Modality-Arena

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!

chat 聊天机器人 ChatGPT gradio large-language-models 大语言模型 vqa multi-modality vision-language-model

Python

539

1 年前