Веб-скрейпинг

Веб-скрейпинг

Фреймворки и инструменты для обхода сайтов, headless-браузинга и извлечения данных.

Репозитории

puppeteer / puppeteer

Библиотека Node.js для автоматизации браузеров, управляющая Chrome и Firefox через DevTools Protocol или WebDriver BiDi. По умолчанию работает в headless-режиме, подходит для веб-скрапинга, автотестирования, скриншотов, генерации PDF и автоматизации браузера.

TypeScript

95.3k

a day ago

unclecode / crawl4ai

Оптимизированный для LLM веб-краулер с открытым исходным кодом, преобразующий веб-контент в чистый Markdown для ИИ-приложений. Поддерживает асинхронную обработку, автоматизацию браузера и извлечение структурированных данных.

Python

72.9k

2 days ago

D4Vinci / Scrapling

Scrapling — адаптивный Python-фреймворк для веб-скрейпинга, охватывающий всё от одиночных запросов до масштабного краулинга. Умный парсер автоматически находит элементы после изменений на сайте, встроенные загрузчики обходят антибот-системы вроде Cloudflare, а фреймворк пауков поддерживает конкурентный краулинг с паузой/возобновлением, ротацией прокси и интеграцией ИИ через MCP-сервер.

Python

69.6k

4 days ago

scrapy / scrapy

Scrapy — это мощный Python фреймворк для веб-краулинга и скрейпинга, предоставляющий полный набор инструментов для эффективного и масштабируемого извлечения структурированных данных с веб-сайтов.

Python

63.1k

4 days ago

NanmiCoder / MediaCrawler

Мультиплатформенный краулер социальных сетей, поддерживающий Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Tieba и Zhihu. На базе Playwright с режимом CDP предоставляет поиск по ключевым словам, извлечение постов и вложенных комментариев, парсинг профилей авторов, пул IP-прокси, кэширование сессий, облако слов из комментариев, WebUI и поддержку хранилищ CSV, JSON, Excel, SQLite и MySQL.

Python

56.7k

a day ago