用於網站爬取、無頭瀏覽和資料提取的框架與工具。
網頁抓取
倉庫
Puppeteer 是一個 JavaScript 函式庫,提供高階 API 透過 DevTools 協定或 WebDriver BiDi 控制 Chrome 或 Firefox。預設以無頭模式執行,廣泛用於網頁爬蟲、測試與自動化任務。
TypeScript
94.2k13 hours ago
專為LLM優化的開源網路爬蟲,將網頁內容轉換為乾淨的Markdown格式,支援非同步處理、瀏覽器自動化和結構化資料提取。
Python
63.5k12 days ago
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Python
48.0k2 days ago
Scrapling 是一個自適應的 Python 網路爬蟲框架,可處理從單個請求到大規模爬取的各種任務。其解析器能在網站更新時自動重新定位元素,內建的獲取器可直接繞過 Cloudflare Turnstile 等反機器人系統。
Python
37.6k2 days ago
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
TypeScript
30.3k3 days ago
⬛️ CLI tool and library for saving complete web pages as a single HTML file
Rust
15.0k2 months ago