電腦視覺
用於影像理解、生成、光學字元辨識(OCR)與物件偵測的電腦視覺函式庫與模型。
Repositories
The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
The world's simplest facial recognition api for Python and the command line
Tesseract 是一款強大的開源 OCR 引擎,支援 100 多種語言。它結合了 LSTM 神經網路和傳統字元識別模式,能夠從影像中高精度提取文字,並支援多種輸出格式。
PaddleOCR 是業界領先的 OCR 和文檔 AI 引擎,可將圖片和 PDF 轉換為結構化數據(JSON、Markdown)。支援 100+ 語言,提供 PP-OCRv5 文字識別、PP-StructureV3 文檔解析、PaddleOCR-VL 多模態文檔理解等功能,在多項基準測試中達到 SOTA 精度。
Deep-Live-Cam 是一款即時換臉和影片深度偽造工具,只需一張圖片即可實現。支援在視訊通話、直播和內容創作中進行即時面部替換,操作簡單,一鍵即可完成。
OpenCV 是一個開源電腦視覺和機器學習軟體庫,提供即時優化的影像處理、物件偵測、影片分析和 AI 模型執行工具,支援多平台和多種程式語言。
Stable Diffusion 是一個潛在文字到圖像的擴散模型,可根據文字描述生成逼真圖像。基於潛在擴散架構和 CLIP 文字編碼器,支援文生圖、圖生圖、圖像修復等多種任務,可在消費級 GPU 上運行。
基於 Gradio 建構的 Stable Diffusion 功能強大的 Web 介面。支援文生圖、圖生圖、局部重繪、高解析修復、LoRA 模型、自訂腳本及豐富擴充功能,是本地運行 AI 繪畫的主流工具。