Компьютерное зрение
Библиотеки и модели компьютерного зрения для понимания изображений, генерации, OCR и обнаружения объектов.
Repositories
The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
The world's simplest facial recognition api for Python and the command line
Tesseract — мощный OCR-движок с открытым исходным кодом, поддерживающий более 100 языков. Использует нейросети LSTM и традиционное распознавание для точного извлечения текста из изображений.
PaddleOCR — это ведущий в отрасли движок OCR и документального ИИ. Преобразует изображения и PDF в структурированные данные (JSON, Markdown) с высочайшей точностью, поддерживает более 100 языков. Включает PP-OCRv5 для распознавания текста, PP-StructureV3 для анализа документов и PaddleOCR-VL для мультимодального понимания.
Deep-Live-Cam — это инструмент для замены лица в реальном времени и создания видео-дипфейков всего по одному изображению. Позволяет выполнять живую замену лица во время видеозвонков, стримов и создания контента простым нажатием кнопки.
OpenCV — это библиотека программного обеспечения для компьютерного зрения и машинного обучения с открытым исходным кодом. Предоставляет оптимизированные в реальном времени инструменты для обработки изображений, обнаружения объектов, анализа видео и выполнения моделей ИИ.
Stable Diffusion — это латентная диффузионная модель для генерации фотореалистичных изображений по текстовым описаниям. Основана на архитектуре латентной диффузии с текстовым энкодером CLIP, поддерживает генерацию изображений, перевод изображений и восстановление.
Мощный веб-интерфейс для Stable Diffusion на базе Gradio. Поддерживает генерацию изображений по тексту, img2img, инпейнтинг, апскейлинг, LoRA, пользовательские скрипты и расширения для AI-рисования.