ウェブスクレイピング

ウェブスクレイピング

ウェブサイトのクロール、ヘッドレスブラウジング、データ抽出のためのフレームワークとツール。

リポジトリ

puppeteer / puppeteer

Node.js用ブラウザ自動化ライブラリ。DevTools ProtocolまたはWebDriver BiDi経由でChrome・Firefoxを制御。デフォルトでヘッドレス動作し、スクレイピング、自動テスト、スクリーンショット取得、PDF生成、ブラウザ操作の自動化に最適。

TypeScript

95.3k

9 hours ago

unclecode / crawl4ai

LLM向けに最適化されたオープンソースWebクローラー。WebコンテンツをAIアプリケーション用のクリーンなMarkdownに変換し、非同期処理、ブラウザ自動化、構造化データ抽出をサポート。

Python

72.9k

2 days ago

D4Vinci / Scrapling

Scrapling はアダプティブな Python ウェブスクレイピングフレームワークで、単一リクエストから大規模クローリングまで対応。スマートパーサーはサイト変更後に要素を自動再配置し、組み込みフェッチャーは Cloudflare などのボット対策を回避。MCP サーバーによる AI 統合、中断・再開機能、プロキシローテーションを備えたスパイダーフレームワークを搭載。

Python

69.6k

4 days ago

scrapy / scrapy

Scrapy は強力な Python ウェブクローリング・スクレイピングフレームワークで、効率的かつ大規模にウェブサイトから構造化データを抽出するための完全なツールキットを提供します。

Python

63.1k

4 days ago

小紅書、抖音、快手、Bilibili、微博、百度貼吧、知乎の7プラットフォームに対応するマルチプラットフォームSNSクローラー。PlaywrightとCDPモードをベースに、キーワード検索、投稿詳細・ネストコメント抽出、クリエイターページクロール、IPプロキシプール、ログイン状態キャッシュ、コメントワードクラウド生成、WebUI、CSV/JSON/Excel/SQLite/MySQLのマルチストレージを提供。

Python

56.8k

a day ago