웹사이트 크롤링, 헤드리스 브라우징 및 데이터 추출을 위한 프레임워크 및 도구.
웹 스크래핑
리포지토리
Puppeteer 는 DevTools 프로토콜 또는 WebDriver BiDi 를 통해 Chrome 이나 Firefox 를 제어할 수 있는 고급 API 를 제공하는 JavaScript 라이브러리입니다. 기본적으로 헤드리스 모드로 실행되며 웹 스크래핑, 테스트 및 자동화에 널리 사용됩니다.
LLM에 최적화된 오픈소스 웹 크롤러로, 웹 콘텐츠를 AI 애플리케이션용 깔끔한 Markdown으로 변환합니다. 비동기 처리, 브라우저 자동화 및 구조화된 데이터 추출 기능을 제공합니다.
Scrapy는 웹 크롤링 및 스크래핑을 위한 강력한 Python 프레임워크로, 웹사이트에서 구조화된 데이터를 효율적이고 대규모로 추출하기 위한 완전한 도구 세트를 제공합니다.
小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫
Scrapling 은 단일 요청부터 대규모 크롤링까지 처리하는 적응형 웹 스크래핑 프레임워크입니다. 파서가 웹사이트 업데이트 시 요소를 자동으로 재배치하며, 내장 페처는 Cloudflare Turnstile 과 같은 안티봇 시스템을 즉시 우회합니다.
The fast, flexible, and elegant library for parsing and manipulating HTML and XML.
⬛️ CLI tool and library for saving complete web pages as a single HTML file