Bibliotheken und Modelle für Computer Vision zur Bildanalyse, -generierung, OCR und Objekterkennung.
Computer Vision
Repositories
Eine leistungsstarke Weboberfläche für Stable Diffusion mit Gradio. Bietet Text-zu-Bild, Bild-zu-Bild, Inpainting, Upscaling, LoRA-Unterstützung, benutzerdefinierte Skripte und Erweiterungen für KI-Bildgenerierung.
Echtzeit-Gesichtstausch- und Video-Deepfake-Tool, das mit nur einem einzigen Bild funktioniert. Unterstützt Webcam-Streaming, Videoverarbeitung und mehrere GPU-Beschleunigungsoptionen einschließlich CUDA, CoreML und DirectML.
OpenCV ist eine Open-Source-Softwarebibliothek für Computer Vision und maschinelles Lernen. Sie bietet Echtzeit-optimierte Tools für Bildverarbeitung, Objekterkennung, Videoanalyse und KI-Modellausführung auf mehreren Plattformen und Programmiersprachen.
Führende OCR- und Dokumenten-AI-Engine, die Bilder/PDFs in strukturierte Daten umwandelt. Unterstützt 100+ Sprachen, komplexe Dokumentenanalyse und intelligente Informationsgewinnung.
Tesseract OCR-Engine mit neuronalem Netzwerk (LSTM) Unterstützung für 100+ Sprachen. Enthält Kommandozeilentool und API-Bibliothek zur Textextraktion aus Bildern.
Stable Diffusion ist ein latentes Text-zu-Bild-Diffusionsmodell, das fotorealistische Bilder aus Textbeschreibungen erzeugt. Basierend auf latenter Diffusionsarchitektur mit CLIP-Textencoder ermöglicht es Bildsynthese, Bild-zu-Bild-Übersetzung und Inpainting.
YOLOv5 ist ein modernes Computer-Vision-Modell für Echtzeit-Objekterkennung, Segmentierung und Klassifizierung. Basierend auf PyTorch bietet es außergewöhnliche Geschwindigkeit, Genauigkeit und Benutzerfreundlichkeit.
Eine leistungsstarke und einfache Python-Bibliothek für Gesichtserkennung mit 99.38% Genauigkeit im LFW-Benchmark. Bietet einfache API für Gesichtserkennung, Gesichtsmerkmalanalyse und Identitätserkennung mit Befehlszeilentools.
Ultralytics YOLO ist ein modernes Computer-Vision-Framework, das State-of-the-Art-Modelle für Objekterkennung, Segmentierung, Klassifizierung, Tracking und Pose-Schätzung bietet. Schnell, präzise und einfach zu bedienen mit umfangreichen Bereitstellungsoptionen.
FaceSwap ist ein Open-Source-Deepfake-Tool, das Deep Learning zur Erkennung und zum Austausch von Gesichtern in Bildern und Videos verwendet. Bietet einen vollständigen Workflow mit Gesichtserkennung, Modelltraining und Konvertierung, unterstützt mehrere Modelle und GPU-Beschleunigung.
Meta AIs Segment Anything Model (SAM) ist ein bahnbrechendes Foundation-Modell für promptbare Bildsegmentierung. Es erzeugt hochwertige Objektmasken aus einfachen Prompts wie Punkten oder Rahmen, trainiert mit 11M Bildern und 1.1B Masken, und bietet außergewöhnliche Zero-Shot-Leistung über diverse Segmentierungsaufgaben hinweg.