Web-Scraping

Frameworks und Tools zum Crawlen von Websites, Headless-Browsing und Datenextraktion.

Repositories

Puppeteer ist eine JavaScript-Bibliothek, die eine hochrangige API zur Steuerung von Chrome oder Firefox über das DevTools-Protokoll oder WebDriver BiDi bereitstellt. Es läuft standardmäßig im headless-Modus und wird häufig für Web-Scraping, Tests und Automatisierung verwendet.

TypeScript
94.1k
2 hours ago

Open-Source-Webcrawler für LLMs optimiert, wandelt Webinhalte in sauberes Markdown für KI-Anwendungen um. Bietet asynchrone Verarbeitung, Browserautomatisierung und strukturierte Datenextraktion.

Python
63.5k
10 days ago
scrapy/scrapy

Scrapy ist ein leistungsstarkes Python-Framework für Web-Crawling und -Scraping, das einen vollständigen Werkzeugkasten zur effizienten und skalierbaren Extraktion strukturierter Daten von Websites bereitstellt.

Python
61.3k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
48.0k
4 hours ago
D4Vinci/Scrapling

Scrapling ist ein adaptives Web-Scraping-Framework, das alles von einzelnen Anfragen bis zu umfassenden Crawls bewältigt. Sein Parser verschiebt Elemente automatisch bei Website-Updates, und integrierte Fetcher umgehen Anti-Bot-Systeme wie Cloudflare Turnstile.

Python
37.3k
15 hours ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
18 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
2 days ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago