ウェブサイトのクロール、ヘッドレスブラウジング、データ抽出のためのフレームワークとツール。
ウェブスクレイピング
リポジトリ
Puppeteer は、DevTools プロトコルまたは WebDriver BiDi を介して Chrome や Firefox を制御するための高レベル API を提供する JavaScript ライブラリです。デフォルトでヘッドレスモードで動作し、ウェブスクレイピング、テスト、自動化に広く使用されています。
LLM向けに最適化されたオープンソースWebクローラー。WebコンテンツをAIアプリケーション用のクリーンなMarkdownに変換し、非同期処理、ブラウザ自動化、構造化データ抽出をサポート。
Scrapy は強力な Python ウェブクローリング・スクレイピングフレームワークで、効率的かつ大規模にウェブサイトから構造化データを抽出するための完全なツールキットを提供します。
Scrapling はアダプティブな Python ウェブスクレイピングフレームワークで、単一リクエストから大規模クローリングまで対応。スマートパーサーはサイト変更後に要素を自動再配置し、組み込みフェッチャーは Cloudflare などのボット対策を回避。MCP サーバーによる AI 統合、中断・再開機能、プロキシローテーションを備えたスパイダーフレームワークを搭載。
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
⬛️ CLI tool and library for saving complete web pages as a single HTML file