Extracción web

Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.

Repositorios

Puppeteer es una biblioteca de JavaScript que proporciona una API de alto nivel para controlar Chrome o Firefox mediante el protocolo DevTools o WebDriver BiDi. Se ejecuta en modo headless por defecto y se usa ampliamente para scraping, pruebas y automatización web.

TypeScript
94.4k
a day ago

Rastreador web de código abierto optimizado para LLM, convierte contenido web en Markdown limpio para aplicaciones de IA. Incluye procesamiento asíncrono, automatización de navegadores y extracción de datos estructurados.

Python
67.5k
8 days ago
scrapy/scrapy

Scrapy es un potente framework de Python para web crawling y scraping, que proporciona un conjunto completo de herramientas para extraer datos estructurados de sitios web de manera eficiente y a gran escala.

Python
62.1k
13 days ago
D4Vinci/Scrapling

Scrapling es un framework adaptativo de web scraping en Python que maneja desde solicitudes únicas hasta rastreo a gran escala. Su parser inteligente reubica elementos automáticamente tras cambios en el sitio, los fetchers integrados evaden sistemas anti-bot como Cloudflare, y el framework de spiders soporta rastreo concurrente con pausa/reanudación, rotación de proxies e integración de IA mediante servidor MCP.

Python
58.7k
14 hours ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.6k
4 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
4 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
8 days ago