ChatGH
CollectionsRankings

Collections

  • 人工智能
  • 应用开发
  • 区块链生态
  • 数据科学
  • 数据库
  • 开发者工具
  • DevOps
  • 游戏开发
  • 物联网 (IoT)
  • 学习资源
  • 媒体与流媒体
  • 中间件
  • 网络
  • 操作系统
  • 搜索引擎
  • 安全
  • 存储系统
  • 系统实用工具
  • Web 开发
  • 网页抓取
Collections
网页抓取

网页抓取

用于网站爬取、无头浏览和数据提取的框架与工具。

Repositories

scrapy/scrapy
scrapy

scrapy / scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python.

Python
60.1k
gocolly

gocolly / colly

Elegant Scraper and Crawler Framework for Golang

Go
25.1k
puppeteer

puppeteer / puppeteer

JavaScript API for Chrome and Firefox

TypeScript
93.7k
cheeriojs

cheeriojs / cheerio

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.1k
unclecode

unclecode / crawl4ai

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

Python
61.1k
NanmiCoder

NanmiCoder / MediaCrawler

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
44.4k
Y2Z

Y2Z / monolith

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
14.8k