Visión por computadora
Bibliotecas y modelos de visión por computadora para comprensión de imágenes, generación, OCR y detección de objetos.
Repositories
The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
The world's simplest facial recognition api for Python and the command line
Tesseract es un potente motor OCR de código abierto que soporta más de 100 idiomas. Combina redes neuronales LSTM con modos de reconocimiento heredados para extraer texto de imágenes con alta precisión.
PaddleOCR es un motor de OCR e IA de documentos líder en la industria. Convierte imágenes y PDF en datos estructurados (JSON, Markdown) con precisión de vanguardia, soportando más de 100 idiomas. Incluye PP-OCRv5 para reconocimiento de texto, PP-StructureV3 para análisis documental y PaddleOCR-VL para comprensión multimodal.
Deep-Live-Cam es una herramienta de intercambio facial en tiempo real y deepfake de video que funciona con una sola imagen. Permite el reemplazo facial en vivo durante videollamadas, transmisiones y creación de contenido con una interfaz de un clic.
OpenCV es una biblioteca de software de visión por computadora y aprendizaje automático de código abierto. Proporciona herramientas optimizadas en tiempo real para procesamiento de imágenes, detección de objetos, análisis de video y ejecución de modelos de IA.
Stable Diffusion es un modelo de difusión latente de texto a imagen que genera imágenes fotorrealistas a partir de descripciones textuales. Basado en arquitectura de difusión latente con codificador CLIP, permite síntesis de imágenes, traducción imagen-a-imagen y reparación.
Una interfaz web potente para Stable Diffusion construida con Gradio. Incluye generación de imágenes desde texto, img2img, inpainting, escalado, soporte LoRA, scripts personalizados y extensiones para creación de arte con IA.