Extracción web

Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.

Repositorios

Puppeteer es una biblioteca de JavaScript que proporciona una API de alto nivel para controlar Chrome o Firefox mediante el protocolo DevTools o WebDriver BiDi. Se ejecuta en modo headless por defecto y se usa ampliamente para scraping, pruebas y automatización web.

TypeScript
94.1k
19 hours ago

Rastreador web de código abierto optimizado para LLM, convierte contenido web en Markdown limpio para aplicaciones de IA. Incluye procesamiento asíncrono, automatización de navegadores y extracción de datos estructurados.

Python
63.5k
10 days ago
scrapy/scrapy

Scrapy es un potente framework de Python para web crawling y scraping, que proporciona un conjunto completo de herramientas para extraer datos estructurados de sitios web de manera eficiente y a gran escala.

Python
61.3k
2 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
47.9k
3 hours ago
D4Vinci/Scrapling

Scrapling es un marco de raspado web adaptativo que maneja desde solicitudes únicas hasta rastreos a gran escala. Su analizador reubica automáticamente los elementos cuando los sitios web se actualizan y sus captadores incorporados eluden sistemas anti-bots como Cloudflare Turnstile.

Python
37.3k
14 hours ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
17 hours ago

Elegant Scraper and Crawler Framework for Golang

Go
25.2k
2 days ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.0k
2 months ago