Extracción web

Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.

Repositorios

puppeteer / puppeteer

Biblioteca Node.js de automatización de navegadores que controla Chrome y Firefox mediante DevTools Protocol o WebDriver BiDi. Funciona en modo headless por defecto, ideal para web scraping, testing automatizado, capturas de pantalla, generación de PDF y flujos de automatización.

TypeScript

95.3k

18 hours ago

unclecode / crawl4ai

Rastreador web de código abierto optimizado para LLM, convierte contenido web en Markdown limpio para aplicaciones de IA. Incluye procesamiento asíncrono, automatización de navegadores y extracción de datos estructurados.

Python

72.9k

3 days ago

D4Vinci / Scrapling

Scrapling es un framework adaptativo de web scraping en Python que maneja desde solicitudes únicas hasta rastreo a gran escala. Su parser inteligente reubica elementos automáticamente tras cambios en el sitio, los fetchers integrados evaden sistemas anti-bot como Cloudflare, y el framework de spiders soporta rastreo concurrente con pausa/reanudación, rotación de proxies e integración de IA mediante servidor MCP.

Python

69.6k

5 days ago

scrapy / scrapy

Scrapy es un potente framework de Python para web crawling y scraping, que proporciona un conjunto completo de herramientas para extraer datos estructurados de sitios web de manera eficiente y a gran escala.

Python

63.1k

4 days ago

NanmiCoder / MediaCrawler

Crawler multiplataforma de redes sociales compatible con Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Tieba y Zhihu. Basado en Playwright con modo CDP, ofrece búsqueda por palabras clave, extracción de publicaciones y comentarios anidados, perfil de creadores, pool de proxies IP, caché de sesión, nube de palabras de comentarios, WebUI visual y múltiples formatos de almacenamiento como CSV, JSON, Excel, SQLite y MySQL.

Python

56.8k

2 days ago