用於影像理解、生成、光學字元辨識(OCR)與物件偵測的電腦視覺函式庫與模型。
電腦視覺
倉庫
基於 Gradio 建構的 Stable Diffusion 功能強大的 Web 介面。支援文生圖、圖生圖、局部重繪、高解析修復、LoRA 模型、自訂腳本及豐富擴充功能,是本地運行 AI 繪畫的主流工具。
即時臉部替換和影片深度偽造工具,僅需一張圖片即可運作。支援攝影機直播、影片處理,並提供CUDA、CoreML、DirectML等多種GPU加速方案。
OpenCV 是一個開源電腦視覺和機器學習軟體庫,提供即時優化的影像處理、物件偵測、影片分析和 AI 模型執行工具,支援多平台和多種程式語言。
業界領先的OCR和文件AI引擎,將圖像/PDF轉換為結構化數據。支援100+語言、複雜文件解析、智能資訊提取,可在多平台部署。
Tesseract OCR引擎,支援100多種語言的文字識別,包含命令列工具和API庫,採用神經網絡(LSTM)技術從圖像中提取文字。
Stable Diffusion 是一個潛在文字到圖像的擴散模型,可根據文字描述生成逼真圖像。基於潛在擴散架構和 CLIP 文字編碼器,支援文生圖、圖生圖、圖像修復等多種任務,可在消費級 GPU 上運行。
YOLOv5 是一個先進的電腦視覺模型,支援即時目標檢測、實例分割和圖像分類。基於 PyTorch 構建,具有出色的速度、精度和易用性,適用於研究和生產環境。
基於Python的高精度人臉識別庫,LFW基準測試準確率達99.38%。提供人臉檢測、特徵點識別和身份識別功能,支援命令行工具和即時影片處理。
Ultralytics YOLO 是一個先進的電腦視覺框架,提供最先進的目標檢測、分割、分類、追蹤和姿態估計模型。快速、準確且易於使用,支援多種部署方案。
FaceSwap 是一個基於深度學習的開源換臉工具,支援圖片和影片中的人臉識別與替換。提供完整的訓練流程,包含人臉提取、模型訓練和轉換功能,支援多種深度學習模型和GPU加速。
Meta AI 的分割萬物模型(SAM)是一個突破性的圖像分割基礎模型。透過簡單的點或框提示即可產生高品質的物件遮罩,基於1100萬圖像和11億遮罩訓練,在各種分割任務上展現出卓越的零樣本性能。