Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.
Extracción web
Repositorios
Puppeteer es una biblioteca de JavaScript que proporciona una API de alto nivel para controlar Chrome o Firefox mediante el protocolo DevTools o WebDriver BiDi. Se ejecuta en modo headless por defecto y se usa ampliamente para scraping, pruebas y automatización web.
Rastreador web de código abierto optimizado para LLM, convierte contenido web en Markdown limpio para aplicaciones de IA. Incluye procesamiento asíncrono, automatización de navegadores y extracción de datos estructurados.
Scrapy es un potente framework de Python para web crawling y scraping, que proporciona un conjunto completo de herramientas para extraer datos estructurados de sitios web de manera eficiente y a gran escala.
Scrapling es un framework adaptativo de web scraping en Python que maneja desde solicitudes únicas hasta rastreo a gran escala. Su parser inteligente reubica elementos automáticamente tras cambios en el sitio, los fetchers integrados evaden sistemas anti-bot como Cloudflare, y el framework de spiders soporta rastreo concurrente con pausa/reanudación, rotación de proxies e integración de IA mediante servidor MCP.
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
⬛️ CLI tool and library for saving complete web pages as a single HTML file