Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.
Extracción web
Repositorios
Puppeteer es una biblioteca de JavaScript que proporciona una API de alto nivel para controlar Chrome o Firefox mediante el protocolo DevTools o WebDriver BiDi. Se ejecuta en modo headless por defecto y se usa ampliamente para scraping, pruebas y automatización web.
Rastreador web de código abierto optimizado para LLM, convierte contenido web en Markdown limpio para aplicaciones de IA. Incluye procesamiento asíncrono, automatización de navegadores y extracción de datos estructurados.
Scrapy es un potente framework de Python para web crawling y scraping, que proporciona un conjunto completo de herramientas para extraer datos estructurados de sitios web de manera eficiente y a gran escala.
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Scrapling es un marco de raspado web adaptativo que maneja desde solicitudes únicas hasta rastreos a gran escala. Su analizador reubica automáticamente los elementos cuando los sitios web se actualizan y sus captadores incorporados eluden sistemas anti-bots como Cloudflare Turnstile.
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
⬛️ CLI tool and library for saving complete web pages as a single HTML file