ChatGH

网页抓取

用于网站爬取、无头浏览和数据提取的框架与工具。

仓库

Puppeteer 是一个 JavaScript 库,提供高级 API 通过 DevTools 协议或 WebDriver BiDi 控制 Chrome 或 Firefox。默认以无头模式运行,广泛用于网页爬取、测试和自动化任务。

TypeScript
94.1k
12 hours ago

专为LLM优化的开源网络爬虫,将网页内容转换为干净的Markdown格式,支持异步处理、浏览器自动化和结构化数据提取。

Python
63.5k
9 days ago
scrapy/scrapy

Scrapy 是一个强大的 Python 网络爬虫框架,提供完整的工具集,用于高效、大规模地从网站提取结构化数据。

Python
61.3k
14 hours ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
47.9k
2 hours ago
D4Vinci/Scrapling

Scrapling 是一个自适应的 Python 网络爬虫框架,可处理从单个请求到大规模爬取的各种任务。其解析器能在网站更新时自动重新定位元素,内置的获取器可直接绕过 Cloudflare Turnstile 等反机器人系统。

Python
37.0k
2 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
11 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
a day ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago