Computer Vision
Bibliotheken und Modelle für Computer Vision zur Bildanalyse, -generierung, OCR und Objekterkennung.
Repositories
The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
The world's simplest facial recognition api for Python and the command line
Tesseract ist eine leistungsstarke Open-Source-OCR-Engine mit Unterstützung für über 100 Sprachen. Sie kombiniert LSTM-Neuronale Netze mit legacy Erkennungsmodi für präzise Textextraktion aus Bildern.
PaddleOCR ist eine branchenführende OCR- und Dokument-KI-Engine. Sie wandelt Bilder und PDFs in strukturierte Daten (JSON, Markdown) mit höchster Genauigkeit um und unterstützt über 100 Sprachen. Enthält PP-OCRv5 für Texterkennung, PP-StructureV3 für Dokumentenanalyse und PaddleOCR-VL für multimodales Dokumentenverständnis.
Deep-Live-Cam ist ein Echtzeit-Gesichtstausch- und Video-Deepfake-Tool, das mit nur einem einzigen Bild funktioniert. Es ermöglicht Live-Gesichtsersatz während Videoanrufen, Streaming und Content-Erstellung mit einer einfachen Ein-Klick-Oberfläche.
OpenCV ist eine Open-Source-Softwarebibliothek für Computer Vision und maschinelles Lernen. Sie bietet Echtzeit-optimierte Tools für Bildverarbeitung, Objekterkennung, Videoanalyse und KI-Modellausführung auf mehreren Plattformen und Programmiersprachen.
Stable Diffusion ist ein latentes Text-zu-Bild-Diffusionsmodell, das fotorealistische Bilder aus Textbeschreibungen erzeugt. Basierend auf latenter Diffusionsarchitektur mit CLIP-Textencoder ermöglicht es Bildsynthese, Bild-zu-Bild-Übersetzung und Inpainting.
Eine leistungsstarke Weboberfläche für Stable Diffusion mit Gradio. Bietet Text-zu-Bild, Bild-zu-Bild, Inpainting, Upscaling, LoRA-Unterstützung, benutzerdefinierte Skripte und Erweiterungen für KI-Bildgenerierung.