用于网站爬取、无头浏览和数据提取的框架与工具。
网页抓取
仓库
Puppeteer 是一个 JavaScript 库,提供高级 API 通过 DevTools 协议或 WebDriver BiDi 控制 Chrome 或 Firefox。默认以无头模式运行,广泛用于网页爬取、测试和自动化任务。
TypeScript
94.1k12 hours ago
专为LLM优化的开源网络爬虫,将网页内容转换为干净的Markdown格式,支持异步处理、浏览器自动化和结构化数据提取。
Python
63.5k9 days ago
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Python
47.9k2 hours ago
Scrapling 是一个自适应的 Python 网络爬虫框架,可处理从单个请求到大规模爬取的各种任务。其解析器能在网站更新时自动重新定位元素,内置的获取器可直接绕过 Cloudflare Turnstile 等反机器人系统。
Python
37.0k2 days ago
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
TypeScript
30.3k11 hours ago
⬛️ CLI tool and library for saving complete web pages as a single HTML file
Rust
15.0k2 months ago