ChatGH

網頁抓取

用於網站爬取、無頭瀏覽和資料提取的框架與工具。

倉庫

Puppeteer 是一個 JavaScript 函式庫,提供高階 API 透過 DevTools 協定或 WebDriver BiDi 控制 Chrome 或 Firefox。預設以無頭模式執行,廣泛用於網頁爬蟲、測試與自動化任務。

TypeScript
94.1k
19 hours ago

專為LLM優化的開源網路爬蟲,將網頁內容轉換為乾淨的Markdown格式,支援非同步處理、瀏覽器自動化和結構化資料提取。

Python
63.5k
10 days ago
scrapy/scrapy

Scrapy 是一個強大的 Python 網路爬蟲框架,提供完整的工具集,用於高效、大規模地從網站提取結構化數據。

Python
61.3k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
47.9k
3 hours ago
D4Vinci/Scrapling

Scrapling 是一個自適應的 Python 網路爬蟲框架,可處理從單個請求到大規模爬取的各種任務。其解析器能在網站更新時自動重新定位元素,內建的獲取器可直接繞過 Cloudflare Turnstile 等反機器人系統。

Python
37.3k
14 hours ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
17 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
2 days ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago