Wähle deine Sprache

Startseite arrow-right StormCrawler

Wir haben eine Liste von 6 kostenlosen und kostenpflichtigen Alternativen zu StormCrawler zusammengestellt. Zu den Hauptkonkurrenten gehören Scrapy, Mixnode. Neben diesen vergleichen Benutzer auch StormCrawler mit Apache Nutch, ACHE Crawler, ProxyCrawl. Außerdem können Sie hier auch andere ähnliche Optionen ansehen: About.


Scrapy
Free Open Source

Scrapy ist ein Open Source- und kollaboratives Framework zum Extrahieren der benötigten Daten von Websites.

Apache Nutch
Free Open Source

Apache Nutch ist ein hochgradig erweiterbares und skalierbares Open-Source-Webcrawler-Softwareprojekt.

ACHE Crawler
Free Open Source

ACHE ist ein Webcrawler für die domänenspezifische Suche.

Das Scraping und Crawlen von Websites erfolgt anonym und unter Umgehung von Einschränkungen, Blockierungen oder Captchas

Heritrix
Free Open Source

Das Open-Source-Web-Crawler-Projekt des Internet-Archivs, erweiterbar, webbasiert und in Archivqualität.

StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm.

StormCrawler Plattformen

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler Überblick

StormCrawler ist ein Open-Source-SDK zum Erstellen verteilter Webcrawler mit Apache Storm. Das Projekt steht unter der Apache-Lizenz v2 und besteht aus einer Sammlung wiederverwendbarer Ressourcen und Komponenten, die größtenteils in Java geschrieben wurden.

Das Ziel von StormCrawler ist es, Webcrawler zu erstellen, die:

skalierbar
belastbar
geringe Wartezeit
einfach zu erweitern
höflich und doch effizient

StormCrawler ist eine Bibliothek und Sammlung von Ressourcen, mit denen Entwickler ihre eigenen Crawler erstellen können. Die gute Nachricht ist, dass dies ziemlich einfach sein kann. Häufig müssen Sie Storm-Crawler nur als Maven-Abhängigkeit deklarieren, Ihre eigene Topologieklasse schreiben (Tipp: Sie können ConfigurableTopology erweitern), die vom Projekt bereitgestellten Komponenten wiederverwenden und möglicherweise einige benutzerdefinierte Komponenten schreiben für deine eigene geheime Soße. Ein bisschen an der Konfiguration feilen und los geht's!

Neben den Kernkomponenten stellen wir einige externe Ressourcen zur Verfügung, die Sie in Ihrem Projekt wiederverwenden können, z. B. unsere Ausgüsse und Schrauben für ElasticSearch oder einen ParserBolt, der Apache Tika zum Analysieren verschiedener Dokumentformate verwendet.

StormCrawler eignet sich perfekt für Fälle, in denen die URL zum Abrufen und Parsen als Streams gesendet wird, ist jedoch auch eine geeignete Lösung für rekursive Crawls in großem Maßstab, insbesondere wenn eine geringe Latenz erforderlich ist. Das Projekt wird von mehreren Unternehmen in der Produktion eingesetzt und aktiv weiterentwickelt und gepflegt.

Top StormCrawler Alternativen

Teilen Sie Ihre Meinung zur Software, hinterlassen Sie eine Bewertung und helfen Sie dabei, sie noch besser zu machen!

StormCrawler Tags

web-crawler

Änderungen vorschlagen

Ihr Feedback

Wähle eine Bewertung
Bitte wählen Sie eine Bewertung aus

Your vote has been counted.

Do you have experience using this software?