ChatGH

Веб-скрейпинг

Фреймворки и инструменты для обхода сайтов, headless-браузинга и извлечения данных.

Репозитории

Puppeteer — это JavaScript-библиотека, предоставляющая высокоуровневый API для управления Chrome или Firefox через протокол DevTools или WebDriver BiDi. По умолчанию работает в безголовом режиме и широко используется для веб-скрапинга, тестирования и автоматизации.

TypeScript
94.4k
14 hours ago

Оптимизированный для LLM веб-краулер с открытым исходным кодом, преобразующий веб-контент в чистый Markdown для ИИ-приложений. Поддерживает асинхронную обработку, автоматизацию браузера и извлечение структурированных данных.

Python
67.0k
4 days ago
scrapy/scrapy

Scrapy — это мощный Python фреймворк для веб-краулинга и скрейпинга, предоставляющий полный набор инструментов для эффективного и масштабируемого извлечения структурированных данных с веб-сайтов.

Python
62.0k
9 days ago
D4Vinci/Scrapling

Scrapling — адаптивный Python-фреймворк для веб-скрейпинга, охватывающий всё от одиночных запросов до масштабного краулинга. Умный парсер автоматически находит элементы после изменений на сайте, встроенные загрузчики обходят антибот-системы вроде Cloudflare, а фреймворк пауков поддерживает конкурентный краулинг с паузой/возобновлением, ротацией прокси и интеграцией ИИ через MCP-сервер.

Python
54.7k
a day ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.3k
4 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
3 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
a month ago