ChatGH

Веб-скрейпинг

Фреймворки и инструменты для обхода сайтов, headless-браузинга и извлечения данных.

Репозитории

Puppeteer — это JavaScript-библиотека, предоставляющая высокоуровневый API для управления Chrome или Firefox через протокол DevTools или WebDriver BiDi. По умолчанию работает в безголовом режиме и широко используется для веб-скрапинга, тестирования и автоматизации.

TypeScript
94.1k
19 hours ago

Оптимизированный для LLM веб-краулер с открытым исходным кодом, преобразующий веб-контент в чистый Markdown для ИИ-приложений. Поддерживает асинхронную обработку, автоматизацию браузера и извлечение структурированных данных.

Python
63.5k
10 days ago
scrapy/scrapy

Scrapy — это мощный Python фреймворк для веб-краулинга и скрейпинга, предоставляющий полный набор инструментов для эффективного и масштабируемого извлечения структурированных данных с веб-сайтов.

Python
61.3k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
47.9k
3 hours ago
D4Vinci/Scrapling

Scrapling — это адаптивный фреймворк для веб-скрейпинга, который обрабатывает всё: от одиночных запросов до полномасштабного сканирования. Его парсер автоматически перемещает элементы при обновлении сайтов, а встроенные загрузчики обходят антибот-системы.

Python
37.3k
14 hours ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
17 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
2 days ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago