Wybierz swój język

StormCrawler

Alternatywy dla StormCrawler

Oto lista 6 bezpłatnych i płatnych alternatyw dla StormCrawler. Główni konkurenci obejmują Scrapy, Mixnode. Oprócz tego, użytkownicy porównują także StormCrawler z Apache Nutch, ACHE Crawler, ProxyCrawl. Ponadto można spojrzeć na inne podobne opcje tutaj: About.

Scrapy

Free Open Source

Złomowanie to platforma o otwartym kodzie źródłowym i wspólna platforma do wydobywania potrzebnych danych ze stron internetowych.

Mixnode

Zamień sieć w bazę danych!

Apache Nutch

Free Open Source

Apache Nutch jest wysoce rozszerzalnym i skalowalnym projektem oprogramowania do przeszukiwania stron internetowych typu open source.

-1

ACHE Crawler

Free Open Source

ACHE to wyszukiwarka internetowa do wyszukiwania specyficznego dla domeny.

-3

ProxyCrawl

Scraping and crawling websites while being anonymous and bypass any restriction, blocks or captchas

-5

Heritrix

Free Open Source

Projekt przeszukiwacza stron internetowych o otwartym kodzie źródłowym, rozszerzalny, na skalę internetową i jakości archiwalnej.

StormCrawler

Free

Open Source

Odwiedź stronę internetową

Github Twitter

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm.

StormCrawler Platformy

Windows

Linux

Mac

StormCrawler Przegląd

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm. Projekt jest objęty licencją Apache v2 i składa się z zestawu zasobów i komponentów wielokrotnego użytku, napisanych głównie w Javie.

Celem StormCrawler jest pomoc w tworzeniu robotów sieciowych, które są:

skalowalny
sprężysty
małe opóźnienia
łatwe do przedłużenia
uprzejmy, ale skuteczny

StormCrawler to biblioteka i zbiór zasobów, które programiści mogą wykorzystać do budowy własnych przeszukiwaczy. Dobra wiadomość jest taka, że może to być bardzo proste. Często wszystko, co musisz zrobić, to zadeklarować robota burzowego jako zależność od Maven, napisać własną klasę topologii (wskazówka: możesz rozszerzyć ConfigurableTopology), ponownie użyć komponentów dostarczonych przez projekt i być może napisać kilka niestandardowych do własnego tajnego sosu. Trochę ulepszenia konfiguracji i gotowe!

Poza podstawowymi komponentami zapewniamy pewne zasoby zewnętrzne, które można ponownie wykorzystać w projekcie, takie jak na przykład nasza wylewka i śruby dla ElasticSearch lub ParserBolt, który używa Apache Tika do analizowania różnych formatów dokumentów.

StormCrawler doskonale nadaje się do użycia w przypadkach, w których adres URL do pobrania i parsowania występuje w postaci strumieni, ale jest również odpowiednim rozwiązaniem dla indeksowania rekurencyjnego na dużą skalę, szczególnie tam, gdzie wymagane jest małe opóźnienie. Projekt jest wykorzystywany w produkcji przez kilka firm i jest aktywnie rozwijany i utrzymywany.

Najlepsze alternatywy dla StormCrawler

Podziel się swoją opinią na temat oprogramowania, napisz recenzję i pomóż jeszcze bardziej je ulepszyć!

StormCrawler Tagi

web-crawler

Odwiedź stronę internetową