언어 선택

홈 페이지 arrow-right StormCrawler

6개의 무료 및 유료 대안을 StormCrawler에 대한 목록으로 정리했습니다. 주요 경쟁 업체는 Scrapy, Mixnode입니다. 이 외에도 사용자들은 StormCrawler와 Apache Nutch, ProxyCrawl, ACHE Crawler 간에 비교를 하기도 합니다. 또한 여기서 다른 유사한 옵션을 살펴볼 수 있습니다: About.


Scrapy
Free Open Source

Scrapy는 웹 사이트에서 필요한 데이터를 추출하기위한 오픈 소스 및 공동 작업 프레임 워크입니다.

Apache Nutch
Free Open Source

Apache Nutch는 확장 성이 뛰어나고 확장 가능한 오픈 소스 웹 크롤러 소프트웨어 프로젝트입니다.

익명으로 웹 사이트를 긁어 크롤링 및 제한, 차단 또는 보안 문자 무시

ACHE Crawler
Free Open Source

ACHE는 도메인 별 검색을위한 웹 크롤러입니다.

Heritrix
Free Open Source

인터넷 보관소의 확장 가능한 웹 규모의 보관 품질 웹 크롤러 프로젝트.

StormCrawler는 Apache Storm으로 분산 웹 크롤러를 구축하기위한 오픈 소스 SDK입니다.

StormCrawler 플랫폼

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler 개요

StormCrawler는 Apache Storm으로 분산 웹 크롤러를 구축하기위한 오픈 소스 SDK입니다. 이 프로젝트는 Apache 라이센스 v2하에 있으며 대부분 Java로 작성된 재사용 가능한 리소스 및 구성 요소 모음으로 구성됩니다.

StormCrawler의 목표는 다음과 같은 웹 크롤러를 구축하는 데 도움이되는 것입니다.

확장 가능한
탄력있는
낮은 대기 시간
확장하기 쉬운
정중하면서도 효율적

StormCrawler는 개발자가 자신의 크롤러를 구축하는 데 활용할 수있는 라이브러리 및 리소스 모음입니다. 좋은 소식은 그렇게하는 것이 매우 간단하다는 것입니다. 종종, 스톰 크롤러를 Maven 의존성으로 선언하고, 자신 만의 토폴로지 클래스 (팁 : ConfigurableTopology를 확장 할 수 있음)를 작성하고, 프로젝트에서 제공하는 컴포넌트를 재사용하고, 몇 개의 커스텀 클래스를 작성하기 만하면됩니다. 당신의 비밀 소스를 위해. 구성에 약간의 조정이 필요합니다.

핵심 구성 요소 이외에도 프로젝트에서 재사용 할 수있는 외부 리소스를 제공합니다 (예 : ElasticSearch 용 스파우트 및 볼트 또는 Apache Tika를 사용하여 다양한 문서 형식을 구문 분석하는 ParserBolt).

StormCrawler는 페치 및 구문 분석 할 URL이 스트림으로 제공되는 유스 케이스에 적합하지만 특히 짧은 대기 시간이 필요한 대규모 재귀 크롤링에 적합한 솔루션입니다. 이 프로젝트는 여러 회사의 생산에 사용되며 적극적으로 개발 및 유지 관리됩니다.

최고의 StormCrawler 대안

소프트웨어에 대한 의견을 공유하고 리뷰를 남겨 더 나아지도록 도와주세요!

StormCrawler 태그

web-crawler

변경 제안

귀하의 의견

등급을 선택하세요
평점을 선택하세요

Your vote has been counted.

Do you have experience using this software?