Selecione seu idioma

StormCrawler

Alternativas ao StormCrawler

Nós compilamos uma lista de 6 alternativas gratuitas e pagas para o StormCrawler. Os principais concorrentes incluem: Scrapy, Mixnode. Além disso, os usuários também fazem comparações entre StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Além disso, você pode conferir outras opções semelhantes aqui: About.

Scrapy

Free Open Source

O Scrapy é uma estrutura de código aberto e colaborativa para extrair os dados necessários dos sites.

Mixnode

Transforme a web em um banco de dados!

Apache Nutch

Free Open Source

O Apache Nutch é um projeto de software de rastreador da Web de código aberto altamente extensível e escalável.

ProxyCrawl

-4

Raspar e rastrear sites enquanto é anônimo e ignora qualquer restrição, bloqueio ou captura

ACHE Crawler

Free Open Source

-6

O ACHE é um rastreador da Web para pesquisa específica de domínio.

Heritrix

Free Open Source

-8

O projeto de rastreador da Web de código aberto, extensível, em escala da Web e com qualidade de arquivamento do Internet Archive.

StormCrawler

Free

Open Source

Visitar o site

Github Twitter

Free

Open Source

Visitar o site

Github Twitter

O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm.

StormCrawler Plataformas

Linux

Mac

Windows

StormCrawler Visão geral

O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm. O projeto está sob a licença Apache v2 e consiste em uma coleção de recursos e componentes reutilizáveis, escritos principalmente em Java.

O objetivo do StormCrawler é ajudar a criar rastreadores da Web que são:

escalável
resiliente, elastico, resistente, que suporta tensão
baixa latência
fácil de estender
educado, mas eficiente

StormCrawler é uma biblioteca e uma coleção de recursos que os desenvolvedores podem aproveitar para criar seus próprios rastreadores. A boa notícia é que isso pode ser bem direto. Freqüentemente, tudo o que você precisa fazer é declarar storm-crawler como uma dependência do Maven, escrever sua própria classe de topologia (dica: você pode estender o ConfigurableTopology), reutilizar os componentes fornecidos pelo projeto e talvez escrever alguns personalizados para o seu próprio molho secreto. Um pouco de ajustes na configuração e pronto!

Além dos componentes principais, fornecemos alguns recursos externos que você pode reutilizar em seu projeto, como, por exemplo, nossos bicos e parafusos para o ElasticSearch ou um ParserBolt que usa o Apache Tika para analisar vários formatos de documentos.

O StormCrawler é perfeitamente adequado para casos de uso em que a URL para buscar e analisar vem como fluxos, mas também é uma solução apropriada para rastreamentos recursivos em larga escala, principalmente quando é necessária baixa latência. O projeto é utilizado na produção por várias empresas e é desenvolvido e mantido ativamente.

Principais alternativas ao StormCrawler

Compartilhe sua opinião sobre o software, deixe uma avaliação e ajude a torná-lo ainda melhor!

StormCrawler Etiquetas

web-crawler

Visitar o site