Collections 排行榜

计算机视觉

用于图像理解、生成、光学字符识别（OCR）和目标检测的计算机视觉库与模型。

仓库

AUTOMATIC1111 / stable-diffusion-webui

功能丰富的 Stable Diffusion 网页界面，支持文生图、图生图、外绘、局部重绘。内置扩展系统、LoRA、自定义嵌入及 API 接口，操作便捷。

Python

164.2k

5 months ago

hacksider / Deep-Live-Cam

实时面部替换和视频深度伪造工具，仅需一张图片即可运行。支持摄像头直播、视频处理，并提供CUDA、CoreML、DirectML等多种GPU加速方案。

Python

94.9k

2 days ago

opencv / opencv

OpenCV 是一个开源计算机视觉和机器学习软件库，提供实时优化的图像处理、目标检测、视频分析和 AI 模型执行工具，支持多平台和多种编程语言。

C++

89.9k

2 hours ago

PaddlePaddle / PaddleOCR

开源 OCR 工具包与文档 AI 引擎，将 PDF 和图像转换为 LLM 可用的结构化数据（JSON/Markdown）。内置 SOTA 轻量级视觉语言模型 PaddleOCR-VL 进行智能文档解析，PP-OCRv5 支持 100+ 种语言文本识别，并与 Dify、RAGFlow 等 RAG/Agent 生态深度集成。

Python

85.3k

20 days ago

tesseract-ocr / tesseract

Tesseract OCR引擎，支持100多种语言的文字识别，包含命令行工具和API库，采用神经网络(LSTM)技术从图像中提取文本。

C++

75.4k

7 days ago

CompVis / stable-diffusion

Stable Diffusion 是一个潜在文本到图像的扩散模型，可根据文字描述生成逼真图像。基于潜在扩散架构和 CLIP 文本编码器，支持文生图、图生图、图像修复等多种任务，可在消费级 GPU 上运行。

Jupyter Notebook

73.2k

2 years ago

ultralytics/ultralytics

ultralytics / ultralytics

Ultralytics YOLO 是一个先进的计算机视觉框架，提供最先进的目标检测、分割、分类、跟踪和姿态估计模型。快速、准确且易于使用，支持多种部署方案。

Python

59.5k

3 hours ago

ultralytics/yolov5

ultralytics / yolov5

YOLOv5 是一个先进的计算机视觉模型，支持实时目标检测、实例分割和图像分类。基于 PyTorch 构建，具有出色的速度、精度和易用性，适用于研究和生产环境。

Python

57.7k

7 hours ago

ageitgey / face_recognition

基于Python的高精度人脸识别库，LFW基准测试准确率达99.38%。提供人脸检测、特征点识别和身份识别功能，支持命令行工具和实时视频处理。

Python

56.6k

21 days ago

deepfakes / faceswap

FaceSwap 是一个基于深度学习的开源换脸工具，支持图片和视频中的人脸识别与替换。提供完整的训练流程，包含人脸提取、模型训练和转换功能，支持多种深度学习模型和GPU加速。

Python

55.3k

10 days ago

facebookresearch / segment-anything

Meta AI 的分割一切模型（SAM）是一个革命性的图像分割基础模型。通过简单的点或框提示即可生成高质量的对象掩码，基于1100万图像和11亿掩码训练，在各种分割任务上展现出卓越的零样本性能。

Jupyter Notebook

54.5k

2 years ago

Graph