Chọn ngôn ngữ của bạn

Trang chủ arrow-right StormCrawler

Chúng tôi đã tổng hợp danh sách 6 phần mềm thay thế miễn phí và trả phí cho StormCrawler. Các đối thủ chính bao gồm: Scrapy, Mixnode. Ngoài ra, người dùng cũng tiến hành so sánh giữa StormCrawler và Apache Nutch, ACHE Crawler, ProxyCrawl. Bạn cũng có thể xem các tùy chọn tương tự khác tại đây: About.


Scrapy
Free Open Source

Scrapy là một khung công tác và nguồn mở để trích xuất dữ liệu bạn cần từ các trang web.

Apache Nutch
Free Open Source

Apache Nutch là một dự án phần mềm thu thập dữ liệu web nguồn mở có khả năng mở rộng và mở rộng cao.

ACHE Crawler
Free Open Source

ACHE là một trình thu thập dữ liệu web để tìm kiếm theo tên miền cụ thể.

Quét và thu thập dữ liệu trang web trong khi ẩn danh và bỏ qua mọi hạn chế, chặn hoặc captcha

Heritrix
Free Open Source

Dự án trình thu thập dữ liệu web chất lượng lưu trữ, có thể mở rộng, quy mô web, lưu trữ trên Internet.

StormCrawler là một SDK nguồn mở để xây dựng các trình thu thập dữ liệu web phân tán với Apache Storm.

StormCrawler Nền tảng

tick-square Windows
tick-square Linux
tick-square Mac

StormCrawler Tổng quan

StormCrawler là một SDK nguồn mở để xây dựng các trình thu thập dữ liệu web phân tán với Apache Storm. Dự án này thuộc giấy phép Apache v2 và bao gồm một tập hợp các tài nguyên và các thành phần có thể tái sử dụng, được viết chủ yếu bằng Java.

Mục đích của StormCrawler là giúp xây dựng các trình thu thập dữ liệu web:

khả năng mở rộng
đàn hồi
độ trễ thấp
dễ dàng mở rộng
lịch sự nhưng hiệu quả

StormCrawler là một thư viện và tập hợp các tài nguyên mà các nhà phát triển có thể tận dụng để xây dựng các trình thu thập thông tin của riêng họ. Tin tốt là làm như vậy có thể khá đơn giản. Thông thường, tất cả những gì bạn sẽ phải làm là khai báo trình thu thập dữ liệu bão như là một phụ thuộc Maven, viết lớp Topology của riêng bạn (mẹo: bạn có thể mở rộng ConfigurableTopology), sử dụng lại các thành phần do dự án cung cấp và có thể viết một vài tùy chỉnh cho nước sốt bí mật của riêng bạn. Một chút tinh chỉnh cho Cấu hình và tắt đi bạn!

Ngoài các thành phần cốt lõi, chúng tôi cung cấp một số tài nguyên bên ngoài mà bạn có thể sử dụng lại trong dự án của mình, ví dụ như vòi và bu lông của chúng tôi cho ElasticSearch hoặc ParserBolt sử dụng Apache Tika để phân tích các định dạng tài liệu khác nhau.

StormCrawler hoàn toàn phù hợp để sử dụng các trường hợp trong đó URL để tìm nạp và phân tích cú pháp thành luồng nhưng cũng là một giải pháp thích hợp cho thu thập dữ liệu đệ quy quy mô lớn, đặc biệt là khi độ trễ thấp được yêu cầu. Dự án được sử dụng trong sản xuất bởi một số công ty và được tích cực phát triển và duy trì.

Các lựa chọn hàng đầu thay thế StormCrawler

Chia sẻ ý kiến về phần mềm, viết đánh giá và giúp làm cho nó càng tốt hơn!

StormCrawler Thẻ

web-crawler

Đề xuất thay đổi

Phản hồi của bạn

Chọn một xếp hạng
Vui lòng chọn một đánh giá

Your vote has been counted.

Do you have experience using this software?