Nós compilamos uma lista de 6 alternativas gratuitas e pagas para o StormCrawler. Os principais concorrentes incluem: Scrapy, Mixnode. Além disso, os usuários também fazem comparações entre StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Além disso, você pode conferir outras opções semelhantes aqui: About.
Nós compilamos uma lista de 6 alternativas gratuitas e pagas para o StormCrawler. Os principais concorrentes incluem: Scrapy, Mixnode. Além disso, os usuários também fazem comparações entre StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Além disso, você pode conferir outras opções semelhantes aqui: About.
O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm.
O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm.
StormCrawler Plataformas
Linux
Mac
Windows
StormCrawler Visão geral
O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm. O projeto está sob a licença Apache v2 e consiste em uma coleção de recursos e componentes reutilizáveis, escritos principalmente em Java.
O objetivo do StormCrawler é ajudar a criar rastreadores da Web que são:
escalável resiliente, elastico, resistente, que suporta tensão baixa latência fácil de estender educado, mas eficiente
StormCrawler é uma biblioteca e uma coleção de recursos que os desenvolvedores podem aproveitar para criar seus próprios rastreadores. A boa notícia é que isso pode ser bem direto. Freqüentemente, tudo o que você precisa fazer é declarar storm-crawler como uma dependência do Maven, escrever sua própria classe de topologia (dica: você pode estender o ConfigurableTopology), reutilizar os componentes fornecidos pelo projeto e talvez escrever alguns personalizados para o seu próprio molho secreto. Um pouco de ajustes na configuração e pronto!
Além dos componentes principais, fornecemos alguns recursos externos que você pode reutilizar em seu projeto, como, por exemplo, nossos bicos e parafusos para o ElasticSearch ou um ParserBolt que usa o Apache Tika para analisar vários formatos de documentos.
O StormCrawler é perfeitamente adequado para casos de uso em que a URL para buscar e analisar vem como fluxos, mas também é uma solução apropriada para rastreamentos recursivos em larga escala, principalmente quando é necessária baixa latência. O projeto é utilizado na produção por várias empresas e é desenvolvido e mantido ativamente.