ウェブサイトのクロール、ヘッドレスブラウジング、データ抽出のためのフレームワークとツール。
ウェブスクレイピング
リポジトリ
Puppeteer は、DevTools プロトコルまたは WebDriver BiDi を介して Chrome や Firefox を制御するための高レベル API を提供する JavaScript ライブラリです。デフォルトでヘッドレスモードで動作し、ウェブスクレイピング、テスト、自動化に広く使用されています。
TypeScript
94.1k19 hours ago
LLM向けに最適化されたオープンソースWebクローラー。WebコンテンツをAIアプリケーション用のクリーンなMarkdownに変換し、非同期処理、ブラウザ自動化、構造化データ抽出をサポート。
Python
63.5k10 days ago
Scrapy は強力な Python ウェブクローリング・スクレイピングフレームワークで、効率的かつ大規模にウェブサイトから構造化データを抽出するための完全なツールキットを提供します。
Python
61.3k2 days ago
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Python
47.9k3 hours ago
Scrapling は、1 回のリクエストから大規模なクロールまでを処理する適応型 Web スクレイピングフレームワークです。パーサーはウェブサイトの更新時に要素を自動的に再配置し、内蔵のフェッチャーは Cloudflare Turnstile などのアンチボットシステムを即座にバイパスします。
Python
37.3k14 hours ago
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
TypeScript
30.3k17 hours ago
⬛️ CLI tool and library for saving complete web pages as a single HTML file
Rust
15.0k2 months ago