이미지 이해, 생성, OCR 및 객체 감지를 위한 컴퓨터 비전 라이브러리 및 모델입니다.
컴퓨터 비전
리포지토리
Gradio 로 구축된 Stable Diffusion 을 위한 강력한 웹 UI. 텍스트에서 이미지 생성, 이미지 변환, 인페인팅, 업스케일링, LoRA 지원, 사용자 정의 스크립트 및 AI 이미지 생성을 위한 다양한 확장 기능을 제공합니다.
단일 이미지로 작동하는 실시간 얼굴 교체 및 비디오 딥페이크 도구. 웹캠 스트리밍, 비디오 처리를 지원하며 CUDA, CoreML, DirectML 등 다양한 GPU 가속 옵션을 제공합니다.
OpenCV 는 오픈 소스 컴퓨터 비전 및 머신 러닝 소프트웨어 라이브러리입니다. 이미지 처리, 객체 감지, 비디오 분석 및 AI 모델 실행을 위한 실시간 최적화 도구를 여러 플랫폼과 프로그래밍 언어로 제공합니다.
업계를 선도하는 OCR 및 문서 AI 엔진으로 이미지/PDF를 구조화된 데이터로 변환합니다. 100+ 언어 지원, 복잡한 문서 분석, 지능형 정보 추출을 제공합니다.
Tesseract OCR 엔진, 100개 이상 언어 지원하는 신경망(LSTM) 기술. 명령줄 도구와 API 라이브러리를 포함하여 이미지에서 텍스트 추출 가능.
Stable Diffusion 은 텍스트 프롬프트에서 사실적인 이미지를 생성하는 잠재 확산 모델입니다. CLIP 텍스트 인코더를 탑재하여 텍스트 - 이미지 생성, 이미지 변환, 인페인팅 등 다양한 작업을 수행할 수 있으며, 소비자용 GPU 에서 실행 가능합니다.
YOLOv5는 실시간 객체 감지, 세분화 및 이미지 분류를 위한 최첨단 컴퓨터 비전 모델입니다. PyTorch 기반으로 구축되어 뛰어난 속도, 정확도 및 사용 편의성을 제공합니다.
LFW 벤치마크에서 99.38% 정확도를 가진 강력하면서도 간단한 Python 얼굴 인식 라이브러리. 얼굴 감지, 얼굴 특징 분석 및 신원 인식을 위한 쉬운 API와 명령줄 도구를 제공합니다.
Ultralytics YOLO는 최첨단 컴퓨터 비전 프레임워크로, 객체 감지, 분할, 분류, 추적 및 포즈 추정 모델을 제공합니다. 빠르고 정확하며 사용하기 쉬우며 다양한 배포 옵션을 지원합니다.
FaceSwap는 딥러닝을 사용하여 이미지와 동영상에서 얼굴을 감지하고 교체하는 오픈소스 딥페이크 도구입니다. 얼굴 추출, 모델 학습, 변환 기능을 포함한 완전한 워크플로우를 제공하며, 여러 모델과 GPU 가속을 지원합니다.
Meta AI의 Segment Anything Model(SAM)은 프롬프트 가능한 이미지 분할을 위한 혁신적인 파운데이션 모델입니다. 점이나 상자와 같은 간단한 프롬프트로 고품질 객체 마스크를 생성하며, 1100만 개의 이미지와 11억 개의 마스크로 훈련되어 다양한 분할 작업에서 뛰어난 제로샷 성능을 발휘합니다.