画像理解、生成、OCR、物体検出などのためのコンピュータビジョンライブラリとモデル。
コンピュータビジョン
リポジトリ
Gradio で構築された Stable Diffusion 向けの強力な Web UI。テキストから画像生成、画像変換、インペインティング、アップスケーリング、LoRA 対応、カスタムスクリプトなど、AI 画像生成の多機能を提供。
単一画像で動作するリアルタイム顔交換およびビデオディープフェイクツール。ウェブカメラストリーミング、ビデオ処理をサポートし、CUDA、CoreML、DirectMLなどのGPUアクセラレーションオプションを提供。
OpenCV はオープンソースのコンピュータビジョンおよび機械学習ソフトウェアライブラリです。画像処理、物体検出、動画解析、AI モデル実行のためのリアルタイム最適化ツールを、複数のプラットフォームとプログラミング言語で提供します。
業界をリードするOCRとドキュメントAIエンジン。画像/PDFを構造化データに変換し、100+言語対応、複雑な文書解析、インテリジェントな情報抽出をサポート。
Tesseract OCRエンジン、100以上の言語の文字認識をサポート。ニューラルネットワーク(LSTM)技術を使用した画像からのテキスト抽出用コマンドラインツールとAPIライブラリを含む。
Stable Diffusion は、テキストプロンプトから写真のようにリアルな画像を生成する潜在拡散モデルです。CLIP テキストエンコーダーを搭載し、テキストから画像の生成、画像変換、修復などのタスクを実行できます。
YOLOv5は最先端のコンピュータビジョンモデルで、リアルタイムの物体検出、インスタンスセグメンテーション、画像分類をサポートします。PyTorchベースで構築され、優れた速度、精度、使いやすさを提供します。
Pythonベースの高精度な顔認識ライブラリ。LFWベンチマークで99.38%の精度を達成。顔検出、特徴点識別、身元識別機能を提供し、コマンドラインツールとリアルタイム動画処理をサポート。
Ultralytics YOLOは最先端のコンピュータビジョンフレームワークで、物体検出、セグメンテーション、分類、追跡、姿勢推定モデルを提供します。高速、高精度で使いやすく、幅広いデプロイオプションをサポートします。
FaceSwapは深層学習を利用したオープンソースのフェイススワップツールです。画像や動画中の顔認識と交換をサポートし、顔抽出、モデルトレーニング、変換機能を備え、複数の深層学習モデルとGPUアクセラレーションに対応しています。
Meta AIのSegment Anything Model(SAM)は、プロンプト可能な画像セグメンテーションのための画期的な基盤モデルです。点やボックスなどの簡単なプロンプトから高品質なオブジェクトマスクを生成し、1100万枚の画像と11億のマスクでトレーニングされ、多様なセグメンテーションタスクで優れたゼロショット性能を発揮します。