Repository navigation

phi-3-vision

Website
Wikipedia

streamline the fine-tuning process for multimodal models: PaliGemma 2, Florence-2, and Qwen2.5-VL

captioning fine-tuning florence-2 multimodal objectdetection paligemma phi-3-vision transformers vision-and-language vqa qwen2-vl

Python

2631

217

5 天前

mbzuai-oryx / LLaVA-pp

🔥🔥 LLaVA++: Extending LLaVA with Phi-3 and LLaMA-3 (LLaVA LLaMA-3, LLaVA Phi-3)

conversation llama3 llava 大语言模型 lmms phi3 vision-language llama-3-llava llama-3-vision llama3-llava phi-3-vision phi3-vision

Python

840

2 个月前

JosefAlbers / Phi-3-Vision-MLX

Phi-3.5 for Mac: Locally-run Vision and Language Models for Apple Silicon

fine-tuning finetuning 大语言模型 lora macOS metal MLX phi-3-vision vlm agent API multi-agent-systems multimodal lstm

Jupyter Notebook

271

1 年前

bhimrazy / chat-with-phi-3-vision

Chat with Phi 3.5/3 Vision LLMs. Phi-3.5-vision is a lightweight, state-of-the-art open multimodal model built upon datasets which include - synthetic data and filtered publicly available websites - with a focus on very high-quality, reasoning dense data both on text and vision.

chat-application huggingface phi-3-vision Streamlit

Jupyter Notebook

9 个月前