Мы составили список из 6 бесплатных и платных аналогов StormCrawler. Основные конкуренты: Scrapy, Mixnode. Кроме того, пользователи также проводят сравнения между StormCrawler и Apache Nutch, ProxyCrawl, ACHE Crawler. Также вы можете рассмотреть другие аналогичные варианты здесь: About.
Мы составили список из 6 бесплатных и платных аналогов StormCrawler. Основные конкуренты: Scrapy, Mixnode. Кроме того, пользователи также проводят сравнения между StormCrawler и Apache Nutch, ProxyCrawl, ACHE Crawler. Также вы можете рассмотреть другие аналогичные варианты здесь: About.
StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm.
StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm.
StormCrawler Платформы
Windows
Linux
Mac
StormCrawler Обзор
StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm. Проект находится под лицензией Apache v2 и состоит из набора повторно используемых ресурсов и компонентов, написанных в основном на Java.
Цель StormCrawler - помочь в создании веб-сканеров, которые:
масштабируемый упругий низкая задержка легко продлить вежливый, но эффективный
StormCrawler - это библиотека и набор ресурсов, которые разработчики могут использовать для создания собственных сканеров. Хорошей новостью является то, что это может быть довольно просто. Часто все, что вам нужно сделать, это объявить storm-crawler как зависимость Maven, написать свой собственный класс Topology (совет: вы можете расширить ConfigurableTopology), повторно использовать компоненты, предоставляемые проектом, и, возможно, написать пару пользовательских. для вашего собственного секретного соуса. Немного настройки в Конфигурации и все готово!
Помимо основных компонентов, мы предоставляем некоторые внешние ресурсы, которые вы можете повторно использовать в своем проекте, например, наши изливы и болты для ElasticSearch или ParserBolt, которые используют Apache Tika для анализа различных форматов документов.
StormCrawler идеально подходит для случаев, когда URL-адрес для извлечения и анализа представляет собой потоки, но также является подходящим решением для крупномасштабных рекурсивных обходов, особенно когда требуется низкая задержка. Проект используется в производстве несколькими компаниями и активно развивается и поддерживается.