Web-Scraping

Frameworks und Tools zum Crawlen von Websites, Headless-Browsing und Datenextraktion.

Repositories

Puppeteer ist eine JavaScript-Bibliothek, die eine hochrangige API zur Steuerung von Chrome oder Firefox über das DevTools-Protokoll oder WebDriver BiDi bereitstellt. Es läuft standardmäßig im headless-Modus und wird häufig für Web-Scraping, Tests und Automatisierung verwendet.

TypeScript
94.4k
6 hours ago

Open-Source-Webcrawler für LLMs optimiert, wandelt Webinhalte in sauberes Markdown für KI-Anwendungen um. Bietet asynchrone Verarbeitung, Browserautomatisierung und strukturierte Datenextraktion.

Python
67.5k
7 days ago
scrapy/scrapy

Scrapy ist ein leistungsstarkes Python-Framework für Web-Crawling und -Scraping, das einen vollständigen Werkzeugkasten zur effizienten und skalierbaren Extraktion strukturierter Daten von Websites bereitstellt.

Python
62.0k
12 days ago
D4Vinci/Scrapling

Scrapling ist ein adaptives Python-Web-Scraping-Framework, das alles von einzelnen Anfragen bis hin zu großangelegtem Crawling abdeckt. Der intelligente Parser findet Elemente nach Website-Änderungen automatisch wieder, integrierte Fetcher umgehen Anti-Bot-Systeme wie Cloudflare, und das Spider-Framework unterstützt konkurrentes Crawling mit Pause/Fortsetzen, Proxy-Rotation und KI-Integration über einen MCP-Server.

Python
57.8k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.5k
3 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
3 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
7 days ago