用于网站爬取、无头浏览和数据提取的框架与工具。
网页抓取
仓库
Puppeteer 是一个 JavaScript 库,提供高级 API 通过 DevTools 协议或 WebDriver BiDi 控制 Chrome 或 Firefox。默认以无头模式运行,广泛用于网页爬取、测试和自动化任务。
TypeScript
94.4k18 hours ago
专为LLM优化的开源网络爬虫,将网页内容转换为干净的Markdown格式,支持异步处理、浏览器自动化和结构化数据提取。
Python
67.1k4 days ago
Scrapling 是一个自适应 Python 网页爬虫框架,覆盖从单次请求到大规模抓取的全流程。智能解析器可在网站结构变更后自动定位元素,内置请求器可绕过 Cloudflare 等反爬系统,爬虫引擎支持并发抓取、暂停恢复、代理轮转,并通过 MCP 服务器集成 AI 辅助提取。
Python
54.7ka day ago
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Python
50.4k4 days ago
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
TypeScript
30.3k3 days ago
⬛️ CLI tool and library for saving complete web pages as a single HTML file
Rust
15.1ka month ago