Wybierz swój język

Powrót arrow-right StormCrawler

Oto lista 6 bezpłatnych i płatnych alternatyw dla StormCrawler. Główni konkurenci obejmują Scrapy, Mixnode. Oprócz tego, użytkownicy porównują także StormCrawler z Apache Nutch, ACHE Crawler, ProxyCrawl. Ponadto można spojrzeć na inne podobne opcje tutaj: About.


Scrapy
Free Open Source

Złomowanie to platforma o otwartym kodzie źródłowym i wspólna platforma do wydobywania potrzebnych danych ze stron internetowych.

Apache Nutch
Free Open Source

Apache Nutch jest wysoce rozszerzalnym i skalowalnym projektem oprogramowania do przeszukiwania stron internetowych typu open source.

ACHE Crawler
Free Open Source

ACHE to wyszukiwarka internetowa do wyszukiwania specyficznego dla domeny.

Scraping and crawling websites while being anonymous and bypass any restriction, blocks or captchas

Heritrix
Free Open Source

Projekt przeszukiwacza stron internetowych o otwartym kodzie źródłowym, rozszerzalny, na skalę internetową i jakości archiwalnej.

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm.

StormCrawler Platformy

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler Przegląd

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm. Projekt jest objęty licencją Apache v2 i składa się z zestawu zasobów i komponentów wielokrotnego użytku, napisanych głównie w Javie.

Celem StormCrawler jest pomoc w tworzeniu robotów sieciowych, które są:

skalowalny
sprężysty
małe opóźnienia
łatwe do przedłużenia
uprzejmy, ale skuteczny

StormCrawler to biblioteka i zbiór zasobów, które programiści mogą wykorzystać do budowy własnych przeszukiwaczy. Dobra wiadomość jest taka, że ​​może to być bardzo proste. Często wszystko, co musisz zrobić, to zadeklarować robota burzowego jako zależność od Maven, napisać własną klasę topologii (wskazówka: możesz rozszerzyć ConfigurableTopology), ponownie użyć komponentów dostarczonych przez projekt i być może napisać kilka niestandardowych do własnego tajnego sosu. Trochę ulepszenia konfiguracji i gotowe!

Poza podstawowymi komponentami zapewniamy pewne zasoby zewnętrzne, które można ponownie wykorzystać w projekcie, takie jak na przykład nasza wylewka i śruby dla ElasticSearch lub ParserBolt, który używa Apache Tika do analizowania różnych formatów dokumentów.

StormCrawler doskonale nadaje się do użycia w przypadkach, w których adres URL do pobrania i parsowania występuje w postaci strumieni, ale jest również odpowiednim rozwiązaniem dla indeksowania rekurencyjnego na dużą skalę, szczególnie tam, gdzie wymagane jest małe opóźnienie. Projekt jest wykorzystywany w produkcji przez kilka firm i jest aktywnie rozwijany i utrzymywany.

Najlepsze alternatywy dla StormCrawler

Podziel się swoją opinią na temat oprogramowania, napisz recenzję i pomóż jeszcze bardziej je ulepszyć!

StormCrawler Tagi

web-crawler

Zaproponuj zmiany

Twoja opinia

Wybierz ocenę
Proszę wybrać ocenę

Your vote has been counted.

Do you have experience using this software?