Sélectionnez votre langue

StormCrawler

Alternatives à StormCrawler

Nous avons compilé une liste de 6 alternatives gratuites et payantes à StormCrawler. Les principaux concurrents incluent Scrapy, Mixnode. En plus de cela, les utilisateurs établissent également des comparaisons entre StormCrawler et Apache Nutch, ProxyCrawl, Heritrix. Vous pouvez également consulter d'autres choix similaires ici : About.

Scrapy

Free Open Source

Scrapy est un framework open source et collaboratif permettant d'extraire les données dont vous avez besoin à partir de sites Web.

Mixnode

Transformez le Web en base de données!

Apache Nutch

Free Open Source

Apache Nutch est un projet de logiciel de robot Web open source extrêmement extensible et évolutif.

ProxyCrawl

Gratter et explorer les sites Web tout en étant anonyme et contourner toute restriction, blocage ou captcha

-2

Heritrix

Free Open Source

Le projet de robot d'indexation Web de qualité archive, open-source, extensible, à l'échelle Web d'Internet Archive.

-2

ACHE Crawler

Free Open Source

ACHE est un robot d'exploration Web pour la recherche spécifique à un domaine.

StormCrawler

Free

Open Source

Visiter le site web

Github Twitter

StormCrawler est un SDK open source permettant de créer des robots Web distribués avec Apache Storm.

StormCrawler Plates-formes

Windows

Linux

Mac

StormCrawler Description

StormCrawler est un SDK open source permettant de créer des robots Web distribués avec Apache Storm. Le projet est sous licence Apache v2 et consiste en une collection de ressources et de composants réutilisables, écrits principalement en Java.

StormCrawler a pour objectif de contribuer à la création de robots d'exploration du Web:

évolutif
résilient
faible latence
facile à étendre
poli mais efficace

StormCrawler est une bibliothèque et une collection de ressources que les développeurs peuvent utiliser pour créer leurs propres moteurs de balayage. La bonne nouvelle est que cela peut être assez simple. Il suffit souvent de déclarer storm-crawler comme dépendance Maven, d'écrire votre propre classe de topologie (conseil: vous pouvez étendre ConfigurableTopology), de réutiliser les composants fournis par le projet et peut-être d'écrire deux ou trois personnalisées. pour votre propre sauce secrète. Un peu de peaufinage de la configuration et c'est parti!

Outre les composants principaux, nous fournissons des ressources externes que vous pouvez réutiliser dans votre projet, comme par exemple notre bec verseur pour ElasticSearch ou un ParserBolt qui utilise Apache Tika pour analyser divers formats de document.

StormCrawler convient parfaitement aux cas où l'URL à extraire et à analyser est un flux, mais constitue également une solution appropriée pour les analyses récursives à grande échelle, en particulier lorsqu'une faible latence est requise. Le projet est utilisé dans la production par plusieurs entreprises et est activement développé et maintenu.

Meilleures alternatives à StormCrawler

Partagez votre opinion sur le logiciel, laissez un avis et contribuez à l'améliorer encore davantage !

StormCrawler Mots clés

web-crawler

Visiter le site web