Выберите свой язык

Главная arrow-right StormCrawler

Мы составили список из 6 бесплатных и платных аналогов StormCrawler. Основные конкуренты: Scrapy, Mixnode. Кроме того, пользователи также проводят сравнения между StormCrawler и Apache Nutch, ProxyCrawl, ACHE Crawler. Также вы можете рассмотреть другие аналогичные варианты здесь: About.


Scrapy
Free Open Source

Scrapy - это открытая и совместная структура для извлечения необходимых вам данных с веб-сайтов.

Преврати сеть в базу данных!

Apache Nutch
Free Open Source

Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.

Царапать и сканировать веб-сайты, оставаясь анонимным, и обходить любые ограничения, блоки или капчи

Heritrix
Free Open Source

Интернет-архиватор с открытым исходным кодом, расширяемый, масштабируемый в сети, проект поискового робота.

StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm.

StormCrawler Платформы

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler Обзор

StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm. Проект находится под лицензией Apache v2 и состоит из набора повторно используемых ресурсов и компонентов, написанных в основном на Java.

Цель StormCrawler - помочь в создании веб-сканеров, которые:

масштабируемый
упругий
низкая задержка
легко продлить
вежливый, но эффективный

StormCrawler - это библиотека и набор ресурсов, которые разработчики могут использовать для создания собственных сканеров. Хорошей новостью является то, что это может быть довольно просто. Часто все, что вам нужно сделать, это объявить storm-crawler как зависимость Maven, написать свой собственный класс Topology (совет: вы можете расширить ConfigurableTopology), повторно использовать компоненты, предоставляемые проектом, и, возможно, написать пару пользовательских. для вашего собственного секретного соуса. Немного настройки в Конфигурации и все готово!

Помимо основных компонентов, мы предоставляем некоторые внешние ресурсы, которые вы можете повторно использовать в своем проекте, например, наши изливы и болты для ElasticSearch или ParserBolt, которые используют Apache Tika для анализа различных форматов документов.

StormCrawler идеально подходит для случаев, когда URL-адрес для извлечения и анализа представляет собой потоки, но также является подходящим решением для крупномасштабных рекурсивных обходов, особенно когда требуется низкая задержка. Проект используется в производстве несколькими компаниями и активно развивается и поддерживается.

Лучшие аналоги StormCrawler

Поделитесь своим мнением о программном обеспечении, оставьте отзыв и помогите сделать его еще лучше!

StormCrawler Теги

web-crawler

Предложить изменения

Ваш отзыв

Выберите рейтинг
Пожалуйста, выберите рейтинг

Your vote has been counted.

Do you have experience using this software?