웹 스크래핑

웹 스크래핑

웹사이트 크롤링, 헤드리스 브라우징 및 데이터 추출을 위한 프레임워크 및 도구.

리포지토리

puppeteer / puppeteer

Node.js 브라우저 자동화 라이브러리. DevTools Protocol 또는 WebDriver BiDi로 Chrome과 Firefox를 제어합니다. 기본적으로 헤드리스 모드로 동작하며, 웹 스크래핑, 자동화 테스트, 스크린샷 캡처, PDF 생성 및 브라우저 자동화에 적합합니다.

TypeScript

95.3k

a day ago

unclecode / crawl4ai

LLM에 최적화된 오픈소스 웹 크롤러로, 웹 콘텐츠를 AI 애플리케이션용 깔끔한 Markdown으로 변환합니다. 비동기 처리, 브라우저 자동화 및 구조화된 데이터 추출 기능을 제공합니다.

Python

72.9k

2 days ago

Scrapling은 단일 요청부터 대규모 크롤링까지 처리하는 적응형 Python 웹 스크레이핑 프레임워크입니다. 스마트 파서는 웹사이트 변경 후 요소를 자동으로 재배치하고, 내장 페처는 Cloudflare 같은 안티봇 시스템을 우회하며, 스파이더 프레임워크는 일시 중지/재개, 프록시 로테이션, MCP 서버를 통한 AI 통합을 지원하는 동시 크롤링 기능을 제공합니다.

Python

69.6k

4 days ago

scrapy / scrapy

Scrapy는 웹 크롤링 및 스크래핑을 위한 강력한 Python 프레임워크로, 웹사이트에서 구조화된 데이터를 효율적이고 대규모로 추출하기 위한 완전한 도구 세트를 제공합니다.

Python

63.1k

4 days ago

NanmiCoder / MediaCrawler

샤오홍슈, 더우인, 콰이서우, 빌리빌리, 웨이보, 티에바, 즈후 7개 플랫폼을 지원하는 멀티 플랫폼 SNS 크롤러. Playwright와 CDP 모드 기반으로 키워드 검색, 게시물 및 중첩 댓글 추출, 크리에이터 프로필 크롤링, IP 프록시 풀, 로그인 상태 캐시, 댓글 워드클라우드 생성, WebUI 시각화 조작, CSV/JSON/Excel/SQLite/MySQL 다중 스토리지를 제공합니다.

Python

56.7k

a day ago