Web-Scraping

Web-Scraping

Frameworks und Tools zum Crawlen von Websites, Headless-Browsing und Datenextraktion.

Repositories

puppeteer / puppeteer

Node.js-Browserautomatisierungsbibliothek zur Steuerung von Chrome und Firefox über DevTools Protocol oder WebDriver BiDi. Standardmäßig headless, ideal für Web-Scraping, automatisierte Tests, Screenshots, PDF-Erstellung und Browserautomatisierung.

TypeScript

95.3k

13 hours ago

unclecode / crawl4ai

Open-Source-Webcrawler für LLMs optimiert, wandelt Webinhalte in sauberes Markdown für KI-Anwendungen um. Bietet asynchrone Verarbeitung, Browserautomatisierung und strukturierte Datenextraktion.

Python

72.9k

3 days ago

D4Vinci / Scrapling

Scrapling ist ein adaptives Python-Web-Scraping-Framework, das alles von einzelnen Anfragen bis hin zu großangelegtem Crawling abdeckt. Der intelligente Parser findet Elemente nach Website-Änderungen automatisch wieder, integrierte Fetcher umgehen Anti-Bot-Systeme wie Cloudflare, und das Spider-Framework unterstützt konkurrentes Crawling mit Pause/Fortsetzen, Proxy-Rotation und KI-Integration über einen MCP-Server.

Python

69.9k

3 days ago

scrapy / scrapy

Scrapy ist ein leistungsstarkes Python-Framework für Web-Crawling und -Scraping, das einen vollständigen Werkzeugkasten zur effizienten und skalierbaren Extraktion strukturierter Daten von Websites bereitstellt.

Python

63.1k

5 days ago

NanmiCoder / MediaCrawler

Ein Multiplattform-Social-Media-Crawler für Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Tieba und Zhihu. Basierend auf Playwright mit CDP-Modus bietet er Stichwortsuche, Extraktion von Beiträgen und verschachtelten Kommentaren, Erstellerprofil-Crawling, IP-Proxy-Pool, Login-Caching, Kommentar-Wortwolke, WebUI sowie mehrere Speicherformate wie CSV, JSON, Excel, SQLite und MySQL.

Python

56.8k

2 days ago