Abbiamo compilato una lista di 6 alternative gratuite e a pagamento a StormCrawler. I principali concorrenti includono Scrapy, Mixnode. Inoltre, gli utenti fanno anche confronti tra StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Puoi anche dare un'occhiata ad altre opzioni simili qui: About.
Abbiamo compilato una lista di 6 alternative gratuite e a pagamento a StormCrawler. I principali concorrenti includono Scrapy, Mixnode. Inoltre, gli utenti fanno anche confronti tra StormCrawler e Apache Nutch, ProxyCrawl, ACHE Crawler. Puoi anche dare un'occhiata ad altre opzioni simili qui: About.
StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm.
StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm.
StormCrawler Piattaforme
Windows
Linux
Mac
StormCrawler Panoramica
StormCrawler è un SDK open source per la creazione di crawler Web distribuiti con Apache Storm. Il progetto è sotto licenza Apache v2 e consiste in una raccolta di risorse e componenti riutilizzabili, scritta principalmente in Java.
Lo scopo di StormCrawler è di aiutare a costruire crawler Web che siano:
scalabile resiliente bassa latenza facile da estendere educato ma efficiente
StormCrawler è una libreria e una raccolta di risorse che gli sviluppatori possono sfruttare per creare i propri crawler. La buona notizia è che farlo può essere piuttosto semplice. Spesso, tutto ciò che dovrai fare sarà dichiarare il crawler di tempesta come una dipendenza Maven, scrivere la tua classe di topologia (suggerimento: puoi estendere ConfigurableTopology), riutilizzare i componenti forniti dal progetto e magari scrivere un paio di quelli personalizzati per la tua salsa segreta. Un po 'di modifica della configurazione e via!
Oltre ai componenti principali, forniamo alcune risorse esterne che puoi riutilizzare nel tuo progetto, come ad esempio i nostri beccucci e bulloni per ElasticSearch o ParserBolt che utilizza Apache Tika per analizzare vari formati di documenti.
StormCrawler è perfettamente adatto per i casi in cui l'URL da recuperare e analizzare viene visualizzato come stream, ma è anche una soluzione appropriata per ricerche per indicizzazione ricorsive su larga scala, in particolare dove è richiesta una bassa latenza. Il progetto è utilizzato nella produzione da diverse aziende ed è attivamente sviluppato e mantenuto.