Компьютерное зрение

Библиотеки и модели компьютерного зрения для понимания изображений, генерации, OCR и обнаружения объектов.

Repositories

ultralytics/yolov5

YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite

Python
56.9k
ultralytics/ultralytics

Ultralytics YOLO 🚀

Python
53.9k

The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

Jupyter Notebook
53.5k

The world's simplest facial recognition api for Python and the command line

Python
56.2k

Tesseract — мощный OCR-движок с открытым исходным кодом, поддерживающий более 100 языков. Использует нейросети LSTM и традиционное распознавание для точного извлечения текста из изображений.

C++
72.7k

PaddleOCR — это ведущий в отрасли движок OCR и документального ИИ. Преобразует изображения и PDF в структурированные данные (JSON, Markdown) с высочайшей точностью, поддерживает более 100 языков. Включает PP-OCRv5 для распознавания текста, PP-StructureV3 для анализа документов и PaddleOCR-VL для мультимодального понимания.

Python
71.5k

Deepfakes Software For All

Python
55.0k

Deep-Live-Cam — это инструмент для замены лица в реальном времени и создания видео-дипфейков всего по одному изображению. Позволяет выполнять живую замену лица во время видеозвонков, стримов и создания контента простым нажатием кнопки.

Python
79.8k

OpenCV — это библиотека программного обеспечения для компьютерного зрения и машинного обучения с открытым исходным кодом. Предоставляет оптимизированные в реальном времени инструменты для обработки изображений, обнаружения объектов, анализа видео и выполнения моделей ИИ.

C++
86.4k

Stable Diffusion — это латентная диффузионная модель для генерации фотореалистичных изображений по текстовым описаниям. Основана на архитектуре латентной диффузии с текстовым энкодером CLIP, поддерживает генерацию изображений, перевод изображений и восстановление.

Jupyter Notebook
72.6k

Мощный веб-интерфейс для Stable Diffusion на базе Gradio. Поддерживает генерацию изображений по тексту, img2img, инпейнтинг, апскейлинг, LoRA, пользовательские скрипты и расширения для AI-рисования.

Python
161.5k