Seleziona la tua lingua

StormCrawler

Alternative a StormCrawler

Abbiamo compilato una lista di 6 alternative gratuite e a pagamento a StormCrawler. I principali concorrenti includono Scrapy, Mixnode. Inoltre, gli utenti fanno anche confronti tra StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Puoi anche dare un'occhiata ad altre opzioni simili qui: About.

Scrapy

Free Open Source

Scrapy è un framework open source e collaborativo per l'estrazione dei dati necessari dai siti Web.

Mixnode

Trasforma il Web in un database!

Apache Nutch

Free Open Source

Apache Nutch è un progetto software di crawler web open source altamente estensibile e scalabile.

-2

ProxyCrawl

Scraping e scansione di siti Web pur essendo anonimi e aggirando qualsiasi restrizione, blocco o captcha

-2

ACHE Crawler

Free Open Source

ACHE è un crawler Web per la ricerca specifica del dominio.

-4

Heritrix

Free Open Source

Il progetto di crawler Web open source, estensibile, su scala web e di qualità archivistica.

StormCrawler

Free

Open Source

Visita il sito web

Github Twitter

StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm.

StormCrawler Piattaforme

Windows

Linux

Mac

StormCrawler Panoramica

StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm. Il progetto è sotto licenza Apache v2 e consiste in una raccolta di risorse e componenti riutilizzabili, scritta principalmente in Java.

Lo scopo di StormCrawler è di aiutare a costruire crawler Web che siano:

scalabile
resiliente
bassa latenza
facile da estendere
educato ma efficiente

StormCrawler è una libreria e una raccolta di risorse che gli sviluppatori possono sfruttare per creare i propri crawler. La buona notizia è che farlo può essere piuttosto semplice. Spesso, tutto ciò che dovrai fare sarà dichiarare il crawler di tempesta come una dipendenza Maven, scrivere la tua classe di topologia (suggerimento: puoi estendere ConfigurableTopology), riutilizzare i componenti forniti dal progetto e magari scrivere un paio di quelli personalizzati per la tua salsa segreta. Un po 'di modifica della configurazione e via!

Oltre ai componenti principali, forniamo alcune risorse esterne che puoi riutilizzare nel tuo progetto, come ad esempio i nostri beccucci e bulloni per ElasticSearch o ParserBolt che utilizza Apache Tika per analizzare vari formati di documenti.

StormCrawler è perfettamente adatto per i casi in cui l'URL da recuperare e analizzare viene visualizzato come stream, ma è anche una soluzione appropriata per ricerche per indicizzazione ricorsive su larga scala, in particolare dove è richiesta una bassa latenza. Il progetto è utilizzato nella produzione da diverse aziende ed è attivamente sviluppato e mantenuto.

Migliori alternative a StormCrawler

Condividi la tua opinione sul software, lascia una recensione e contribuisci a migliorarlo ulteriormente!

StormCrawler Tag

web-crawler

Visita il sito web