Компьютерное зрение

Библиотеки и модели компьютерного зрения для понимания изображений, генерации, OCR и обнаружения объектов.

Репозитории

AUTOMATIC1111 / stable-diffusion-webui

Многофункциональный веб-интерфейс для Stable Diffusion с поддержкой генерации из текста, редактирования изображений, дорисовки и маскирования. Поддерживает расширения, LoRA, встраивания и API.

Python

164.2k

5 months ago

hacksider / Deep-Live-Cam

Инструмент для замены лиц в реальном времени и создания дипфейков видео с использованием всего одного изображения. Поддерживает веб-камеру стриминг, обработку видео и различные варианты ускорения GPU включая CUDA, CoreML и DirectML.

Python

94.9k

2 days ago

opencv / opencv

OpenCV — это библиотека программного обеспечения для компьютерного зрения и машинного обучения с открытым исходным кодом. Предоставляет оптимизированные в реальном времени инструменты для обработки изображений, обнаружения объектов, анализа видео и выполнения моделей ИИ.

C++

89.9k

2 hours ago

PaddlePaddle / PaddleOCR

Открытый инструментарий OCR и движок Document AI, преобразующий PDF и изображения в структурированные данные для LLM (JSON/Markdown). Включает SOTA легковесную визуально-языковую модель PaddleOCR-VL для разбора документов, PP-OCRv5 с поддержкой 100+ языков и глубокую интеграцию с экосистемами RAG/Agent, такими как Dify и RAGFlow.

Python

85.3k

20 days ago

tesseract-ocr / tesseract

Движок OCR Tesseract с поддержкой нейронных сетей (LSTM) для 100+ языков. Включает инструмент командной строки и библиотеку API для извлечения текста из изображений.

C++

75.4k

7 days ago

CompVis / stable-diffusion

Stable Diffusion — это латентная диффузионная модель для генерации фотореалистичных изображений по текстовым описаниям. Основана на архитектуре латентной диффузии с текстовым энкодером CLIP, поддерживает генерацию изображений, перевод изображений и восстановление.

Jupyter Notebook

73.2k

2 years ago

ultralytics / ultralytics

Ultralytics YOLO — это передовой фреймворк компьютерного зрения, предоставляющий современные модели обнаружения объектов, сегментации, классификации, отслеживания и оценки позы. Быстрый, точный и простой в использовании с широкими возможностями развертывания.

Python

59.5k

3 hours ago

ultralytics / yolov5

YOLOv5 — это передовая модель компьютерного зрения для обнаружения объектов в реальном времени, сегментации и классификации. Построенная на PyTorch, она предлагает исключительную скорость, точность и простоту использования.

Python

57.7k

7 hours ago

ageitgey / face_recognition

Мощная и простая библиотека Python для распознавания лиц с точностью 99.38% на тесте LFW. Предоставляет простой API для обнаружения лиц, анализа лицевых признаков и распознавания личности с инструментами командной строки.

Python

56.6k

21 days ago

deepfakes / faceswap

FaceSwap — это инструмент с открытым исходным кодом для создания дипфейков, использующий глубокое обучение для обнаружения и замены лиц на изображениях и видео. Предоставляет полный рабочий процесс: извлечение лиц, обучение моделей и преобразование с поддержкой нескольких моделей и ускорением GPU.

Python

55.3k

10 days ago

facebookresearch / segment-anything

Segment Anything Model (SAM) от Meta AI — это прорывная фундаментальная модель для подсказываемой сегментации изображений. Генерирует высококачественные маски объектов из простых подсказок вроде точек или рамок, обучена на 11 млн изображений с 1.1 млрд масок, демонстрирует исключительную zero-shot производительность в различных задачах сегментации.

Jupyter Notebook

54.5k

2 years ago

Collections

Компьютерное зрение

Репозитории

AUTOMATIC1111 / stable-diffusion-webui

hacksider / Deep-Live-Cam

opencv / opencv

PaddlePaddle / PaddleOCR

tesseract-ocr / tesseract

CompVis / stable-diffusion

ultralytics / ultralytics

ultralytics / yolov5

ageitgey / face_recognition

deepfakes / faceswap

facebookresearch / segment-anything

Graph