ChatGH

网页抓取

用于网站爬取、无头浏览和数据提取的框架与工具。

仓库

Puppeteer 是一个 JavaScript 库,提供高级 API 通过 DevTools 协议或 WebDriver BiDi 控制 Chrome 或 Firefox。默认以无头模式运行,广泛用于网页爬取、测试和自动化任务。

TypeScript
94.4k
18 hours ago

专为LLM优化的开源网络爬虫,将网页内容转换为干净的Markdown格式,支持异步处理、浏览器自动化和结构化数据提取。

Python
67.1k
4 days ago
scrapy/scrapy

Scrapy 是一个强大的 Python 网络爬虫框架,提供完整的工具集,用于高效、大规模地从网站提取结构化数据。

Python
62.0k
9 days ago
D4Vinci/Scrapling

Scrapling 是一个自适应 Python 网页爬虫框架,覆盖从单次请求到大规模抓取的全流程。智能解析器可在网站结构变更后自动定位元素,内置请求器可绕过 Cloudflare 等反爬系统,爬虫引擎支持并发抓取、暂停恢复、代理轮转,并通过 MCP 服务器集成 AI 辅助提取。

Python
54.7k
a day ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.4k
4 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
3 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
a month ago