網頁抓取

用於網站爬取、無頭瀏覽和資料提取的框架與工具。

倉庫

puppeteer / puppeteer

Node.js 瀏覽器自動化函式庫，透過 DevTools Protocol 或 WebDriver BiDi 控制 Chrome 與 Firefox。預設無頭模式，適用於網頁抓取、自動化測試、截圖、產生 PDF 及瀏覽器自動化等情境。

TypeScript

95.4k

2 days ago

unclecode / crawl4ai

專為LLM優化的開源網路爬蟲，將網頁內容轉換為乾淨的Markdown格式，支援非同步處理、瀏覽器自動化和結構化資料提取。

Python

72.9k

2 days ago

D4Vinci / Scrapling

Scrapling 是一個自適應 Python 網頁爬蟲框架，涵蓋從單次請求到大規模爬取的全流程。智慧解析器可在網站結構變更後自動定位元素，內建請求器可繞過 Cloudflare 等反爬系統，爬蟲引擎支援併發爬取、暫停恢復、代理輪替，並透過 MCP 伺服器整合 AI 輔助提取。

Python

69.6k

4 days ago

scrapy / scrapy

Scrapy 是一個強大的 Python 網路爬蟲框架，提供完整的工具集，用於高效、大規模地從網站提取結構化數據。

Python

63.1k

3 days ago

NanmiCoder / MediaCrawler

支援小紅書、抖音、快手、B站、微博、貼吧、知乎等7大平台的多平台自媒體爬蟲。基於 Playwright 與 CDP 模式，提供關鍵字搜尋、指定貼文抓取、二級評論採集、創作者主頁爬取、IP代理池、登入態快取、評論詞雲生成、WebUI 視覺化操作，以及 CSV/JSON/Excel/SQLite/MySQL 多種資料儲存方式。

Python

56.7k

18 hours ago