Nous avons compilé une liste de 6 alternatives gratuites et payantes à StormCrawler. Les principaux concurrents incluent Scrapy, Mixnode. En plus de cela, les utilisateurs établissent également des comparaisons entre StormCrawler et Apache Nutch, ProxyCrawl, Heritrix. Vous pouvez également consulter d'autres choix similaires ici : About.
Nous avons compilé une liste de 6 alternatives gratuites et payantes à StormCrawler. Les principaux concurrents incluent Scrapy, Mixnode. En plus de cela, les utilisateurs établissent également des comparaisons entre StormCrawler et Apache Nutch, ProxyCrawl, Heritrix. Vous pouvez également consulter d'autres choix similaires ici : About.
StormCrawler est un SDK open source permettant de créer des robots Web distribués avec Apache Storm.
StormCrawler est un SDK open source permettant de créer des robots Web distribués avec Apache Storm.
StormCrawler Plates-formes
Windows
Linux
Mac
StormCrawler Description
StormCrawler est un SDK open source permettant de créer des robots Web distribués avec Apache Storm. Le projet est sous licence Apache v2 et consiste en une collection de ressources et de composants réutilisables, écrits principalement en Java.
StormCrawler a pour objectif de contribuer à la création de robots d'exploration du Web:
évolutif résilient faible latence facile à étendre poli mais efficace
StormCrawler est une bibliothèque et une collection de ressources que les développeurs peuvent utiliser pour créer leurs propres moteurs de balayage. La bonne nouvelle est que cela peut être assez simple. Il suffit souvent de déclarer storm-crawler comme dépendance Maven, d'écrire votre propre classe de topologie (conseil: vous pouvez étendre ConfigurableTopology), de réutiliser les composants fournis par le projet et peut-être d'écrire deux ou trois personnalisées. pour votre propre sauce secrète. Un peu de peaufinage de la configuration et c'est parti!
Outre les composants principaux, nous fournissons des ressources externes que vous pouvez réutiliser dans votre projet, comme par exemple notre bec verseur pour ElasticSearch ou un ParserBolt qui utilise Apache Tika pour analyser divers formats de document.
StormCrawler convient parfaitement aux cas où l'URL à extraire et à analyser est un flux, mais constitue également une solution appropriée pour les analyses récursives à grande échelle, en particulier lorsqu'une faible latence est requise. Le projet est utilisé dans la production par plusieurs entreprises et est activement développé et maintenu.