选择您的语言

主页

StormCrawler

StormCrawler 替代品

6

我们整理了一个包含6个免费和付费的StormCrawler替代方案的列表。主要竞争对手包括：Scrapy， Mixnode。除了这些之外，用户还会将StormCrawler与Apache Nutch， ACHE Crawler， ProxyCrawl进行比较。此外，您还可以在这里查看其他类似的选项：About。

我们整理了一个包含6个免费和付费的StormCrawler替代方案的列表。主要竞争对手包括：Scrapy， Mixnode。除了这些之外，用户还会将StormCrawler与Apache Nutch， ACHE Crawler， ProxyCrawl进行比较。此外，您还可以在这里查看其他类似的选项：About。

92

Free Open Source

Scrapy是一个开放源代码和协作框架，用于从网站提取所需的数据。

56

将网络变成数据库！

16

Free Open Source

Apache Nutch是一个高度可扩展和可扩展的开源Web爬网程序软件项目。

-1

Free Open Source

ACHE是用于特定于域的搜索的Web搜寻器。

-3

在匿名的情况下抓取和爬取网站，并绕过任何限制，阻止或验证码

-6

Free Open Source

Internet档案馆的开源，可扩展，网络规模，档案质量的Web爬网程序项目。

StormCrawler

Free

Open Source

Github Twitter

StormCrawler是一个开源SDK，用于使用Apache Storm构建分布式Web搜寻器。

StormCrawler是一个开源SDK，用于使用Apache Storm构建分布式Web搜寻器。

StormCrawler 平台

Windows

Linux

Mac

StormCrawler 概览

StormCrawler是一个开源SDK，用于使用Apache Storm构建分布式Web搜寻器。该项目受Apache许可v2的约束，由可重复使用的资源和组件的集合组成，这些资源和组件主要使用Java编写。

StormCrawler的目的是帮助构建以下网络爬虫：

可扩展的
弹性的
低延迟
易于扩展
礼貌而高效

StormCrawler是开发人员可以用来构建自己的搜寻器的资源库和集合。好消息是这样做非常简单。通常，您要做的只是将Storm-Crawler声明为Maven依赖项，编写自己的Topology类（提示：您可以扩展ConfigurableTopology），重用项目提供的组件，也许编写一些自定义组件为你自己的秘密调味料。稍微调整一下配置即可使用！

除了核心组件之外，我们还提供了一些可在项目中重用的外部资源，例如我们用于ElasticSearch的喷嘴和螺栓或使用Apache Tika解析各种文档格式的ParserBolt。

StormCrawler非常适合要获取和解析的URL作为流出现的用例，但它也是大规模递归爬网的合适解决方案，尤其是在要求低延迟的情况下。该项目已被多家公司用于生产，并得到了积极的开发和维护。

最佳StormCrawler替代方案

分享您对软件的看法，留下评论，帮助使其变得更好！

StormCrawler 标签

web-crawler