Библиотеки и модели компьютерного зрения для понимания изображений, генерации, OCR и обнаружения объектов.
Компьютерное зрение
Репозитории
Мощный веб-интерфейс для Stable Diffusion на базе Gradio. Поддерживает генерацию изображений по тексту, img2img, инпейнтинг, апскейлинг, LoRA, пользовательские скрипты и расширения для AI-рисования.
Инструмент для замены лиц в реальном времени и создания дипфейков видео с использованием всего одного изображения. Поддерживает веб-камеру стриминг, обработку видео и различные варианты ускорения GPU включая CUDA, CoreML и DirectML.
OpenCV — это библиотека программного обеспечения для компьютерного зрения и машинного обучения с открытым исходным кодом. Предоставляет оптимизированные в реальном времени инструменты для обработки изображений, обнаружения объектов, анализа видео и выполнения моделей ИИ.
Ведущий в отрасли OCR и AI-движок для работы с документами, преобразующий изображения/PDF в структурированные данные. Поддерживает 100+ языков, сложный анализ документов и интеллектуальное извлечение информации.
Движок OCR Tesseract с поддержкой нейронных сетей (LSTM) для 100+ языков. Включает инструмент командной строки и библиотеку API для извлечения текста из изображений.
Stable Diffusion — это латентная диффузионная модель для генерации фотореалистичных изображений по текстовым описаниям. Основана на архитектуре латентной диффузии с текстовым энкодером CLIP, поддерживает генерацию изображений, перевод изображений и восстановление.
YOLOv5 — это передовая модель компьютерного зрения для обнаружения объектов в реальном времени, сегментации и классификации. Построенная на PyTorch, она предлагает исключительную скорость, точность и простоту использования.
Мощная и простая библиотека Python для распознавания лиц с точностью 99.38% на тесте LFW. Предоставляет простой API для обнаружения лиц, анализа лицевых признаков и распознавания личности с инструментами командной строки.
Ultralytics YOLO — это передовой фреймворк компьютерного зрения, предоставляющий современные модели обнаружения объектов, сегментации, классификации, отслеживания и оценки позы. Быстрый, точный и простой в использовании с широкими возможностями развертывания.
FaceSwap — это инструмент с открытым исходным кодом для создания дипфейков, использующий глубокое обучение для обнаружения и замены лиц на изображениях и видео. Предоставляет полный рабочий процесс: извлечение лиц, обучение моделей и преобразование с поддержкой нескольких моделей и ускорением GPU.
Segment Anything Model (SAM) от Meta AI — это прорывная фундаментальная модель для подсказываемой сегментации изображений. Генерирует высококачественные маски объектов из простых подсказок вроде точек или рамок, обучена на 11 млн изображений с 1.1 млрд масок, демонстрирует исключительную zero-shot производительность в различных задачах сегментации.