Wir haben eine Liste von 6 kostenlosen und kostenpflichtigen Alternativen zu StormCrawler zusammengestellt. Zu den Hauptkonkurrenten gehören Scrapy, Mixnode. Neben diesen vergleichen Benutzer auch StormCrawler mit Apache Nutch, ACHE Crawler, ProxyCrawl. Außerdem können Sie hier auch andere ähnliche Optionen ansehen: About.
Wir haben eine Liste von 6 kostenlosen und kostenpflichtigen Alternativen zu StormCrawler zusammengestellt. Zu den Hauptkonkurrenten gehören Scrapy, Mixnode. Neben diesen vergleichen Benutzer auch StormCrawler mit Apache Nutch, ACHE Crawler, ProxyCrawl. Außerdem können Sie hier auch andere ähnliche Optionen ansehen: About.
StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm.
StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm.
StormCrawler Plattformen
Windows
Linux
Mac
StormCrawler Überblick
StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm. Das Projekt steht unter der Apache-Lizenz v2 und besteht aus einer Sammlung wiederverwendbarer Ressourcen und Komponenten, die größtenteils in Java geschrieben wurden.
Das Ziel von StormCrawler ist es, Webcrawler zu erstellen, die:
skalierbar belastbar geringe Wartezeit einfach zu erweitern höflich und doch effizient
StormCrawler ist eine Bibliothek und Sammlung von Ressourcen, mit denen Entwickler ihre eigenen Crawler erstellen können. Die gute Nachricht ist, dass dies ziemlich einfach sein kann. Häufig müssen Sie Storm-Crawler nur als Maven-Abhängigkeit deklarieren, Ihre eigene Topologieklasse schreiben (Tipp: Sie können ConfigurableTopology erweitern), die vom Projekt bereitgestellten Komponenten wiederverwenden und möglicherweise einige benutzerdefinierte Komponenten schreiben für deine eigene geheime Soße. Ein bisschen an der Konfiguration feilen und los geht's!
Neben den Kernkomponenten stellen wir einige externe Ressourcen zur Verfügung, die Sie in Ihrem Projekt wiederverwenden können, z. B. unsere Ausgüsse und Schrauben für ElasticSearch oder einen ParserBolt, der Apache Tika zum Analysieren verschiedener Dokumentformate verwendet.
StormCrawler eignet sich perfekt für Fälle, in denen die URL zum Abrufen und Parsen als Streams gesendet wird, ist jedoch auch eine geeignete Lösung für rekursive Crawls in großem Maßstab, insbesondere wenn eine geringe Latenz erforderlich ist. Das Projekt wird von mehreren Unternehmen in der Produktion eingesetzt und aktiv weiterentwickelt und gepflegt.