ChatGH

網頁抓取

用於網站爬取、無頭瀏覽和資料提取的框架與工具。

倉庫

Puppeteer 是一個 JavaScript 函式庫,提供高階 API 透過 DevTools 協定或 WebDriver BiDi 控制 Chrome 或 Firefox。預設以無頭模式執行,廣泛用於網頁爬蟲、測試與自動化任務。

TypeScript
94.4k
12 hours ago

專為LLM優化的開源網路爬蟲,將網頁內容轉換為乾淨的Markdown格式,支援非同步處理、瀏覽器自動化和結構化資料提取。

Python
67.5k
8 days ago
scrapy/scrapy

Scrapy 是一個強大的 Python 網路爬蟲框架,提供完整的工具集,用於高效、大規模地從網站提取結構化數據。

Python
62.1k
13 days ago
D4Vinci/Scrapling

Scrapling 是一個自適應 Python 網頁爬蟲框架,涵蓋從單次請求到大規模爬取的全流程。智慧解析器可在網站結構變更後自動定位元素,內建請求器可繞過 Cloudflare 等反爬系統,爬蟲引擎支援併發爬取、暫停恢復、代理輪替,並透過 MCP 伺服器整合 AI 輔助提取。

Python
58.0k
2 hours ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.5k
3 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
4 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
7 days ago