Visión por computadora

Bibliotecas y modelos de visión por computadora para comprensión de imágenes, generación, OCR y detección de objetos.

Repositorios

AUTOMATIC1111 / stable-diffusion-webui

Interfaz web completa para Stable Diffusion que permite generar imágenes desde texto, editar imágenes, outpainting e inpainting. Soporta extensiones, LoRA, embeddings personalizados y API.

Python

164.3k

5 months ago

hacksider / Deep-Live-Cam

Herramienta de intercambio facial en tiempo real y deepfake de video que funciona con una sola imagen. Soporta transmisión por webcam, procesamiento de video y múltiples opciones de aceleración GPU incluyendo CUDA, CoreML y DirectML.

Python

94.9k

3 days ago

opencv / opencv

OpenCV es una biblioteca de software de visión por computadora y aprendizaje automático de código abierto. Proporciona herramientas optimizadas en tiempo real para procesamiento de imágenes, detección de objetos, análisis de video y ejecución de modelos de IA.

C++

89.9k

a day ago

PaddlePaddle / PaddleOCR

Kit de OCR de código abierto y motor de IA documental que convierte PDFs e imágenes en datos estructurados listos para LLM (JSON/Markdown). Incluye el modelo SOTA ligero PaddleOCR-VL para análisis de documentos, PP-OCRv5 con soporte para más de 100 idiomas, e integración profunda con ecosistemas RAG/Agent como Dify y RAGFlow.

Python

85.7k

2 days ago

tesseract-ocr / tesseract

Motor OCR Tesseract con soporte de red neuronal (LSTM) para 100+ idiomas. Incluye herramienta de línea de comandos y biblioteca API para extracción de texto de imágenes.

C++

75.4k

18 hours ago

CompVis / stable-diffusion

Stable Diffusion es un modelo de difusión latente de texto a imagen que genera imágenes fotorrealistas a partir de descripciones textuales. Basado en arquitectura de difusión latente con codificador CLIP, permite síntesis de imágenes, traducción imagen-a-imagen y reparación.

Jupyter Notebook

73.2k

2 years ago

ultralytics / ultralytics

Ultralytics YOLO es un framework de visión por computadora de vanguardia que proporciona modelos de detección de objetos, segmentación, clasificación, seguimiento y estimación de pose de última generación. Rápido, preciso y fácil de usar con amplias opciones de implementación.

Python

59.6k

8 hours ago

ultralytics / yolov5

YOLOv5 es un modelo de visión por computadora de última generación para detección de objetos en tiempo real, segmentación y clasificación. Construido sobre PyTorch, ofrece velocidad excepcional, precisión y facilidad de uso.

Python

57.7k

4 hours ago

ageitgey / face_recognition

Biblioteca Python potente y sencilla para reconocimiento facial con 99.38% de precisión en LFW. Ofrece API fácil para detección de rostros, análisis de características faciales y reconocimiento de identidad con herramientas de línea de comandos.

Python

56.6k

22 days ago

deepfakes / faceswap

FaceSwap es una herramienta de deepfake de código abierto que utiliza aprendizaje profundo para detectar e intercambiar rostros en imágenes y videos. Ofrece un flujo de trabajo completo con extracción facial, entrenamiento de modelos y conversión, compatible con múltiples modelos y aceleración GPU.

Python

55.3k

11 days ago

facebookresearch / segment-anything

El Segment Anything Model (SAM) de Meta AI es un modelo fundacional revolucionario para segmentación de imágenes mediante prompts. Genera máscaras de objetos de alta calidad a partir de prompts simples como puntos o cuadros, entrenado con 11M de imágenes y 1.1B de máscaras, ofreciendo un rendimiento excepcional de zero-shot en diversas tareas de segmentación.

Jupyter Notebook

54.5k

2 years ago

Collections

Visión por computadora

Repositorios

AUTOMATIC1111 / stable-diffusion-webui

hacksider / Deep-Live-Cam

opencv / opencv

PaddlePaddle / PaddleOCR

tesseract-ocr / tesseract

CompVis / stable-diffusion

ultralytics / ultralytics

ultralytics / yolov5

ageitgey / face_recognition

deepfakes / faceswap

facebookresearch / segment-anything

Graph