Extracción web

Frameworks y herramientas para rastrear sitios web, navegación headless y extracción de datos.

Repositories

scrapy/scrapy

Scrapy, a fast high-level web crawling & scraping framework for Python.

Python
60.5k

Elegant Scraper and Crawler Framework for Golang

Go
25.1k

Puppeteer es una biblioteca de JavaScript que proporciona una API de alto nivel para controlar Chrome o Firefox mediante el protocolo DevTools o WebDriver BiDi. Se ejecuta en modo headless por defecto y se usa ampliamente para scraping, pruebas y automatización web.

TypeScript
93.7k

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.1k

🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

Python
61.1k

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
44.8k

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
14.8k