选择您的语言

主页 arrow-right StormCrawler

我们整理了一个包含6个免费和付费的StormCrawler替代方案的列表。主要竞争对手包括:ScrapyMixnode。除了这些之外,用户还会将StormCrawler与Apache NutchACHE CrawlerProxyCrawl进行比较。此外,您还可以在这里查看其他类似的选项:About


Scrapy
Free Open Source

Scrapy是一个开放源代码和协作框架,用于从网站提取所需的数据。

Apache Nutch
Free Open Source

Apache Nutch是一个高度可扩展和可扩展的开源Web爬网程序软件项目。

ACHE Crawler
Free Open Source

ACHE是用于特定于域的搜索的Web搜寻器。

在匿名的情况下抓取和爬取网站,并绕过任何限制,阻止或验证码

Heritrix
Free Open Source

Internet档案馆的开源,可扩展,网络规模,档案质量的Web爬网程序项目。

StormCrawler是一个开源SDK,用于使用Apache Storm构建分布式Web搜寻器。

StormCrawler 平台

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler 概览

StormCrawler是一个开源SDK,用于使用Apache Storm构建分布式Web搜寻器。 该项目受Apache许可v2的约束,由可重复使用的资源和组件的集合组成,这些资源和组件主要使用Java编写。

StormCrawler的目的是帮助构建以下网络爬虫:

可扩展的
弹性的
低延迟
易于扩展
礼貌而高效

StormCrawler是开发人员可以用来构建自己的搜寻器的资源库和集合。 好消息是这样做非常简单。 通常,您要做的只是将Storm-Crawler声明为Maven依赖项,编写自己的Topology类(提示:您可以扩展ConfigurableTopology),重用项目提供的组件,也许编写一些自定义组件为你自己的秘密调味料。 稍微调整一下配置即可使用!

除了核心组件之外,我们还提供了一些可在项目中重用的外部资源,例如我们用于ElasticSearch的喷嘴和螺栓或使用Apache Tika解析各种文档格式的ParserBolt。

StormCrawler非常适合要获取和解析的URL作为流出现的用例,但它也是大规模递归爬网的合适解决方案,尤其是在要求低延迟的情况下。 该项目已被多家公司用于生产,并得到了积极的开发和维护。

最佳StormCrawler替代方案

分享您对软件的看法,留下评论,帮助使其变得更好!

StormCrawler 标签

web-crawler

建議更改

你的反馈

选择评级
请选择评级

Your vote has been counted.

Do you have experience using this software?