Selecione seu idioma

Página inicial arrow-right StormCrawler

Nós compilamos uma lista de 6 alternativas gratuitas e pagas para o StormCrawler. Os principais concorrentes incluem: Scrapy, Mixnode. Além disso, os usuários também fazem comparações entre StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Além disso, você pode conferir outras opções semelhantes aqui: About.


Scrapy
Free Open Source

O Scrapy é uma estrutura de código aberto e colaborativa para extrair os dados necessários dos sites.

Transforme a web em um banco de dados!

Apache Nutch
Free Open Source

O Apache Nutch é um projeto de software de rastreador da Web de código aberto altamente extensível e escalável.

Raspar e rastrear sites enquanto é anônimo e ignora qualquer restrição, bloqueio ou captura

ACHE Crawler
Free Open Source

O ACHE é um rastreador da Web para pesquisa específica de domínio.

Heritrix
Free Open Source

O projeto de rastreador da Web de código aberto, extensível, em escala da Web e com qualidade de arquivamento do Internet Archive.

O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm.

StormCrawler Plataformas

tick-square Linux
tick-square Mac
tick-square Windows

StormCrawler Visão geral

O StormCrawler é um SDK de código aberto para a criação de rastreadores da Web distribuídos com o Apache Storm. O projeto está sob a licença Apache v2 e consiste em uma coleção de recursos e componentes reutilizáveis, escritos principalmente em Java.

O objetivo do StormCrawler é ajudar a criar rastreadores da Web que são:

escalável
resiliente, elastico, resistente, que suporta tensão
baixa latência
fácil de estender
educado, mas eficiente

StormCrawler é uma biblioteca e uma coleção de recursos que os desenvolvedores podem aproveitar para criar seus próprios rastreadores. A boa notícia é que isso pode ser bem direto. Freqüentemente, tudo o que você precisa fazer é declarar storm-crawler como uma dependência do Maven, escrever sua própria classe de topologia (dica: você pode estender o ConfigurableTopology), reutilizar os componentes fornecidos pelo projeto e talvez escrever alguns personalizados para o seu próprio molho secreto. Um pouco de ajustes na configuração e pronto!

Além dos componentes principais, fornecemos alguns recursos externos que você pode reutilizar em seu projeto, como, por exemplo, nossos bicos e parafusos para o ElasticSearch ou um ParserBolt que usa o Apache Tika para analisar vários formatos de documentos.

O StormCrawler é perfeitamente adequado para casos de uso em que a URL para buscar e analisar vem como fluxos, mas também é uma solução apropriada para rastreamentos recursivos em larga escala, principalmente quando é necessária baixa latência. O projeto é utilizado na produção por várias empresas e é desenvolvido e mantido ativamente.

Principais alternativas ao StormCrawler

Compartilhe sua opinião sobre o software, deixe uma avaliação e ajude a torná-lo ainda melhor!

StormCrawler Etiquetas

web-crawler

Sugerir alterações

Seu feedback

Selecione uma classificação
Por favor, selecione uma classificação

Your vote has been counted.

Do you have experience using this software?