ChatGH

웹 스크래핑

웹사이트 크롤링, 헤드리스 브라우징 및 데이터 추출을 위한 프레임워크 및 도구.

리포지토리

Puppeteer 는 DevTools 프로토콜 또는 WebDriver BiDi 를 통해 Chrome 이나 Firefox 를 제어할 수 있는 고급 API 를 제공하는 JavaScript 라이브러리입니다. 기본적으로 헤드리스 모드로 실행되며 웹 스크래핑, 테스트 및 자동화에 널리 사용됩니다.

TypeScript
94.4k
2 days ago

LLM에 최적화된 오픈소스 웹 크롤러로, 웹 콘텐츠를 AI 애플리케이션용 깔끔한 Markdown으로 변환합니다. 비동기 처리, 브라우저 자동화 및 구조화된 데이터 추출 기능을 제공합니다.

Python
65.6k
13 days ago
scrapy/scrapy

Scrapy는 웹 크롤링 및 스크래핑을 위한 강력한 Python 프레임워크로, 웹사이트에서 구조화된 데이터를 효율적이고 대규모로 추출하기 위한 완전한 도구 세트를 제공합니다.

Python
61.8k
6 days ago
D4Vinci/Scrapling

Scrapling은 단일 요청부터 대규모 크롤링까지 처리하는 적응형 Python 웹 스크레이핑 프레임워크입니다. 스마트 파서는 웹사이트 변경 후 요소를 자동으로 재배치하고, 내장 페처는 Cloudflare 같은 안티봇 시스템을 우회하며, 스파이더 프레임워크는 일시 중지/재개, 프록시 로테이션, MCP 서버를 통한 AI 통합을 지원하는 동시 크롤링 기능을 제공합니다.

Python
54.1k
7 days ago

小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

Python
50.1k
6 days ago

The fast, flexible, and elegant library for parsing and manipulating HTML and XML.

TypeScript
30.3k
8 days ago

Elegant Scraper and Crawler Framework for Golang

Go
25.3k
a month ago

⬛️ CLI tool and library for saving complete web pages as a single HTML file

Rust
15.1k
25 days ago