Wähle deine Sprache

StormCrawler

StormCrawler Alternativen

Wir haben eine Liste von 6 kostenlosen und kostenpflichtigen Alternativen zu StormCrawler zusammengestellt. Zu den Hauptkonkurrenten gehören Scrapy, Mixnode. Neben diesen vergleichen Benutzer auch StormCrawler mit Apache Nutch, ACHE Crawler, ProxyCrawl. Außerdem können Sie hier auch andere ähnliche Optionen ansehen: About.

Scrapy

Free Open Source

Scrapy ist ein Open Source- und kollaboratives Framework zum Extrahieren der benötigten Daten von Websites.

Mixnode

Verwandle das Web in eine Datenbank!

Apache Nutch

Free Open Source

Apache Nutch ist ein hochgradig erweiterbares und skalierbares Open-Source-Webcrawler-Softwareprojekt.

-2

ACHE Crawler

Free Open Source

ACHE ist ein Webcrawler für die domänenspezifische Suche.

-3

ProxyCrawl

Das Scraping und Crawlen von Websites erfolgt anonym und unter Umgehung von Einschränkungen, Blockierungen oder Captchas

-6

Heritrix

Free Open Source

Das Open-Source-Web-Crawler-Projekt des Internet-Archivs, erweiterbar, webbasiert und in Archivqualität.

StormCrawler

Free

Open Source

Webseite besuchen

Github Twitter

StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm.

StormCrawler Plattformen

Windows

Linux

Mac

StormCrawler Überblick

StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm. Das Projekt steht unter der Apache-Lizenz v2 und besteht aus einer Sammlung wiederverwendbarer Ressourcen und Komponenten, die größtenteils in Java geschrieben wurden.

Das Ziel von StormCrawler ist es, Webcrawler zu erstellen, die:

skalierbar
belastbar
geringe Wartezeit
einfach zu erweitern
höflich und doch effizient

StormCrawler ist eine Bibliothek und Sammlung von Ressourcen, mit denen Entwickler ihre eigenen Crawler erstellen können. Die gute Nachricht ist, dass dies ziemlich einfach sein kann. Häufig müssen Sie Storm-Crawler nur als Maven-Abhängigkeit deklarieren, Ihre eigene Topologieklasse schreiben (Tipp: Sie können ConfigurableTopology erweitern), die vom Projekt bereitgestellten Komponenten wiederverwenden und möglicherweise einige benutzerdefinierte Komponenten schreiben für deine eigene geheime Soße. Ein bisschen an der Konfiguration feilen und los geht's!

Neben den Kernkomponenten stellen wir einige externe Ressourcen zur Verfügung, die Sie in Ihrem Projekt wiederverwenden können, z. B. unsere Ausgüsse und Schrauben für ElasticSearch oder einen ParserBolt, der Apache Tika zum Analysieren verschiedener Dokumentformate verwendet.

StormCrawler eignet sich perfekt für Fälle, in denen die URL zum Abrufen und Parsen als Streams gesendet wird, ist jedoch auch eine geeignete Lösung für rekursive Crawls in großem Maßstab, insbesondere wenn eine geringe Latenz erforderlich ist. Das Projekt wird von mehreren Unternehmen in der Produktion eingesetzt und aktiv weiterentwickelt und gepflegt.

Top StormCrawler Alternativen

Teilen Sie Ihre Meinung zur Software, hinterlassen Sie eine Bewertung und helfen Sie dabei, sie noch besser zu machen!

StormCrawler Tags

web-crawler

Webseite besuchen