ウェブスクレイピング

ウェブサイトのクロール、ヘッドレスブラウジング、データ抽出のためのフレームワークとツール。

リポジトリ

Puppeteer は、DevTools プロトコルまたは WebDriver BiDi を介して Chrome や Firefox を制御するための高レベル API を提供する JavaScript ライブラリです。デフォルトでヘッドレスモードで動作し、ウェブスクレイピング、テスト、自動化に広く使用されています。

TypeScript
94.4k
9 hours ago

LLM向けに最適化されたオープンソースWebクローラー。WebコンテンツをAIアプリケーション用のクリーンなMarkdownに変換し、非同期処理、ブラウザ自動化、構造化データ抽出をサポート。

Python
65.6k
14 days ago
scrapy/scrapy

Scrapy は強力な Python ウェブクローリング・スクレイピングフレームワークで、効率的かつ大規模にウェブサイトから構造化データを抽出するための完全なツールキットを提供します。

Python
61.8k
7 days ago
D4Vinci/Scrapling

Scrapling はアダプティブな Python ウェブスクレイピングフレームワークで、単一リクエストから大規模クローリングまで対応。スマートパーサーはサイト変更後に要素を自動再配置し、組み込みフェッチャーは Cloudflare などのボット対策を回避。MCP サーバーによる AI 統合、中断・再開機能、プロキシローテーションを備えたスパイダーフレームワークを搭載。

Python
54.2k
8 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.2k
a day ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
15 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
a month ago