网页抓取

用于网站爬取、无头浏览和数据提取的框架与工具。

仓库

puppeteer / puppeteer

Node.js 浏览器自动化库，通过 DevTools Protocol 或 WebDriver BiDi 控制 Chrome 和 Firefox。默认无头模式，适用于网页抓取、自动化测试、截图、生成 PDF 及浏览器自动化等场景。

TypeScript

95.4k

2 days ago

unclecode / crawl4ai

专为LLM优化的开源网络爬虫，将网页内容转换为干净的Markdown格式，支持异步处理、浏览器自动化和结构化数据提取。

Python

72.6k

3 hours ago

D4Vinci / Scrapling

Scrapling 是一个自适应 Python 网页爬虫框架，覆盖从单次请求到大规模抓取的全流程。智能解析器可在网站结构变更后自动定位元素，内置请求器可绕过 Cloudflare 等反爬系统，爬虫引擎支持并发抓取、暂停恢复、代理轮转，并通过 MCP 服务器集成 AI 辅助提取。

Python

69.4k

a day ago

scrapy / scrapy

Scrapy 是一个强大的 Python 网络爬虫框架，提供完整的工具集，用于高效、大规模地从网站提取结构化数据。

Python

63.1k

16 hours ago

NanmiCoder / MediaCrawler

支持小红书、抖音、快手、B站、微博、贴吧、知乎等7大平台的多平台自媒体爬虫。基于 Playwright 与 CDP 模式，提供关键词搜索、指定帖子抓取、二级评论采集、创作者主页爬取、IP代理池、登录态缓存、评论词云生成、WebUI 可视化操作，以及 CSV/JSON/Excel/SQLite/MySQL 多种数据存储方式。

Python

56.4k

4 days ago