Oto lista 6 bezpłatnych i płatnych alternatyw dla StormCrawler. Główni konkurenci obejmują Scrapy, Mixnode. Oprócz tego, użytkownicy porównują także StormCrawler z Apache Nutch, ACHE Crawler, ProxyCrawl. Ponadto można spojrzeć na inne podobne opcje tutaj: About.
Oto lista 6 bezpłatnych i płatnych alternatyw dla StormCrawler. Główni konkurenci obejmują Scrapy, Mixnode. Oprócz tego, użytkownicy porównują także StormCrawler z Apache Nutch, ACHE Crawler, ProxyCrawl. Ponadto można spojrzeć na inne podobne opcje tutaj: About.
StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm.
StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm.
StormCrawler Platformy
Windows
Linux
Mac
StormCrawler Przegląd
StormCrawler to pakiet SDK o otwartym kodzie źródłowym do budowania rozproszonych robotów indeksujących za pomocą Apache Storm. Projekt jest objęty licencją Apache v2 i składa się z zestawu zasobów i komponentów wielokrotnego użytku, napisanych głównie w Javie.
Celem StormCrawler jest pomoc w tworzeniu robotów sieciowych, które są:
skalowalny sprężysty małe opóźnienia łatwe do przedłużenia uprzejmy, ale skuteczny
StormCrawler to biblioteka i zbiór zasobów, które programiści mogą wykorzystać do budowy własnych przeszukiwaczy. Dobra wiadomość jest taka, że może to być bardzo proste. Często wszystko, co musisz zrobić, to zadeklarować robota burzowego jako zależność od Maven, napisać własną klasę topologii (wskazówka: możesz rozszerzyć ConfigurableTopology), ponownie użyć komponentów dostarczonych przez projekt i być może napisać kilka niestandardowych do własnego tajnego sosu. Trochę ulepszenia konfiguracji i gotowe!
Poza podstawowymi komponentami zapewniamy pewne zasoby zewnętrzne, które można ponownie wykorzystać w projekcie, takie jak na przykład nasza wylewka i śruby dla ElasticSearch lub ParserBolt, który używa Apache Tika do analizowania różnych formatów dokumentów.
StormCrawler doskonale nadaje się do użycia w przypadkach, w których adres URL do pobrania i parsowania występuje w postaci strumieni, ale jest również odpowiednim rozwiązaniem dla indeksowania rekurencyjnego na dużą skalę, szczególnie tam, gdzie wymagane jest małe opóźnienie. Projekt jest wykorzystywany w produkcji przez kilka firm i jest aktywnie rozwijany i utrzymywany.