ウェブスクレイピング

ウェブサイトのクロール、ヘッドレスブラウジング、データ抽出のためのフレームワークとツール。

リポジトリ

Puppeteer は、DevTools プロトコルまたは WebDriver BiDi を介して Chrome や Firefox を制御するための高レベル API を提供する JavaScript ライブラリです。デフォルトでヘッドレスモードで動作し、ウェブスクレイピング、テスト、自動化に広く使用されています。

TypeScript
94.1k
19 hours ago

LLM向けに最適化されたオープンソースWebクローラー。WebコンテンツをAIアプリケーション用のクリーンなMarkdownに変換し、非同期処理、ブラウザ自動化、構造化データ抽出をサポート。

Python
63.5k
10 days ago
scrapy/scrapy

Scrapy は強力な Python ウェブクローリング・スクレイピングフレームワークで、効率的かつ大規模にウェブサイトから構造化データを抽出するための完全なツールキットを提供します。

Python
61.3k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
47.9k
3 hours ago
D4Vinci/Scrapling

Scrapling は、1 回のリクエストから大規模なクロールまでを処理する適応型 Web スクレイピングフレームワークです。パーサーはウェブサイトの更新時に要素を自動的に再配置し、内蔵のフェッチャーは Cloudflare Turnstile などのアンチボットシステムを即座にバイパスします。

Python
37.3k
14 hours ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
17 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
2 days ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago