Seleziona la tua lingua

Pagina iniziale arrow-right StormCrawler

Abbiamo compilato una lista di 6 alternative gratuite e a pagamento a StormCrawler. I principali concorrenti includono Scrapy, Mixnode. Inoltre, gli utenti fanno anche confronti tra StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Puoi anche dare un'occhiata ad altre opzioni simili qui: About.


Scrapy
Free Open Source

Scrapy è un framework open source e collaborativo per l'estrazione dei dati necessari dai siti Web.

Apache Nutch
Free Open Source

Apache Nutch è un progetto software di crawler web open source altamente estensibile e scalabile.

Scraping e scansione di siti Web pur essendo anonimi e aggirando qualsiasi restrizione, blocco o captcha

ACHE Crawler
Free Open Source

ACHE è un crawler Web per la ricerca specifica del dominio.

Heritrix
Free Open Source

Il progetto di crawler Web open source, estensibile, su scala web e di qualità archivistica.

StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm.

StormCrawler Piattaforme

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler Panoramica

StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm. Il progetto è sotto licenza Apache v2 e consiste in una raccolta di risorse e componenti riutilizzabili, scritta principalmente in Java.

Lo scopo di StormCrawler è di aiutare a costruire crawler Web che siano:

scalabile
resiliente
bassa latenza
facile da estendere
educato ma efficiente

StormCrawler è una libreria e una raccolta di risorse che gli sviluppatori possono sfruttare per creare i propri crawler. La buona notizia è che farlo può essere piuttosto semplice. Spesso, tutto ciò che dovrai fare sarà dichiarare il crawler di tempesta come una dipendenza Maven, scrivere la tua classe di topologia (suggerimento: puoi estendere ConfigurableTopology), riutilizzare i componenti forniti dal progetto e magari scrivere un paio di quelli personalizzati per la tua salsa segreta. Un po 'di modifica della configurazione e via!

Oltre ai componenti principali, forniamo alcune risorse esterne che puoi riutilizzare nel tuo progetto, come ad esempio i nostri beccucci e bulloni per ElasticSearch o ParserBolt che utilizza Apache Tika per analizzare vari formati di documenti.

StormCrawler è perfettamente adatto per i casi in cui l'URL da recuperare e analizzare viene visualizzato come stream, ma è anche una soluzione appropriata per ricerche per indicizzazione ricorsive su larga scala, in particolare dove è richiesta una bassa latenza. Il progetto è utilizzato nella produzione da diverse aziende ed è attivamente sviluppato e mantenuto.

Migliori alternative a StormCrawler

Condividi la tua opinione sul software, lascia una recensione e contribuisci a migliorarlo ulteriormente!

StormCrawler Tag

web-crawler

Suggerisci modifiche

Il tuo feedback

Seleziona una valutazione
Per favore, seleziona una valutazione

Your vote has been counted.

Do you have experience using this software?