コンピュータビジョン

コンピュータビジョン

画像理解、生成、OCR、物体検出などのためのコンピュータビジョンライブラリとモデル。

リポジトリ

AUTOMATIC1111 / stable-diffusion-webui

Stable Diffusion向けの多機能Web UI。テキストから画像、画像から画像、外描き、部分修正に対応。拡張機能、LoRA、カスタム埋め込み、APIアクセスも可能。

Python

164.3k

5 months ago

hacksider / Deep-Live-Cam

単一画像で動作するリアルタイム顔交換およびビデオディープフェイクツール。ウェブカメラストリーミング、ビデオ処理をサポートし、CUDA、CoreML、DirectMLなどのGPUアクセラレーションオプションを提供。

Python

94.9k

3 days ago

opencv / opencv

OpenCV はオープンソースのコンピュータビジョンおよび機械学習ソフトウェアライブラリです。画像処理、物体検出、動画解析、AI モデル実行のためのリアルタイム最適化ツールを、複数のプラットフォームとプログラミング言語で提供します。

C++

89.9k

a day ago

PaddlePaddle / PaddleOCR

オープンソースのOCRツールキット＆ドキュメントAIエンジン。PDFや画像をLLM向けの構造化データ（JSON/Markdown）に変換。SOTA軽量視覚言語モデルPaddleOCR-VLによるドキュメント解析、PP-OCRv5による100以上の言語のテキスト認識、Dify・RAGFlowなどのRAG/Agentエコシステムとの深い統合を提供。

Python

85.7k

2 days ago

tesseract-ocr / tesseract

Tesseract OCRエンジン、100以上の言語の文字認識をサポート。ニューラルネットワーク(LSTM)技術を使用した画像からのテキスト抽出用コマンドラインツールとAPIライブラリを含む。

C++

75.4k

18 hours ago

CompVis / stable-diffusion

Stable Diffusion は、テキストプロンプトから写真のようにリアルな画像を生成する潜在拡散モデルです。CLIP テキストエンコーダーを搭載し、テキストから画像の生成、画像変換、修復などのタスクを実行できます。

Jupyter Notebook

73.2k

2 years ago

ultralytics / ultralytics

Ultralytics YOLOは最先端のコンピュータビジョンフレームワークで、物体検出、セグメンテーション、分類、追跡、姿勢推定モデルを提供します。高速、高精度で使いやすく、幅広いデプロイオプションをサポートします。

Python

59.6k

8 hours ago

ultralytics / yolov5

YOLOv5は最先端のコンピュータビジョンモデルで、リアルタイムの物体検出、インスタンスセグメンテーション、画像分類をサポートします。PyTorchベースで構築され、優れた速度、精度、使いやすさを提供します。

Python

57.7k

4 hours ago

ageitgey / face_recognition

Pythonベースの高精度な顔認識ライブラリ。LFWベンチマークで99.38%の精度を達成。顔検出、特徴点識別、身元識別機能を提供し、コマンドラインツールとリアルタイム動画処理をサポート。

Python

56.6k

22 days ago

deepfakes / faceswap

FaceSwapは深層学習を利用したオープンソースのフェイススワップツールです。画像や動画中の顔認識と交換をサポートし、顔抽出、モデルトレーニング、変換機能を備え、複数の深層学習モデルとGPUアクセラレーションに対応しています。

Python

55.3k

11 days ago

facebookresearch / segment-anything

Meta AIのSegment Anything Model（SAM）は、プロンプト可能な画像セグメンテーションのための画期的な基盤モデルです。点やボックスなどの簡単なプロンプトから高品質なオブジェクトマスクを生成し、1100万枚の画像と11億のマスクでトレーニングされ、多様なセグメンテーションタスクで優れたゼロショット性能を発揮します。

Jupyter Notebook

54.5k

2 years ago

Collections

リポジトリ

Graph