Мы нацелены исключительно на то, чтобы улучшить ваши веб-данные. Некоторые из причин, по которым сотни клиентов совершают (сотни) миллионы звонков каждый месяц:
# Лучший веб-экстрактор контента:
Diffbot работает автоматически - без правил и обучения. Нет лучшего способа извлечь данные из веб-страниц. Посмотрите, как Diffbot сочетается с другими методами извлечения контента: Сравнение характеристик Качественная вытяжка текста
# Автоматически идентифицировать страницы:
Используйте API Analyze для автоматического поиска и извлечения всех продуктов, статей, обсуждений или изображений при сканировании любого сайта. Анализ API
# Подробные данные о продукте:
Product API автоматически возвращает полную информацию о продукте, включая все данные о ценах, идентификаторы продуктов, марки и полные таблицы спецификаций. API продукта
# Чистый текст и HTML:
Статьи, обсуждения, описания продуктов и подписи к изображениям возвращаются в виде чистого текста и санированного HTML. Начните тестирование сегодня
# Структурированный поиск:
Ищите структурированный контент из любого сканирования на лету с помощью нашего API поиска, возвращая только совпадающие результаты.
Плюс ...
¤ Все API выполняют Javascript, поэтому контент анализируется как обычный браузер. ¤ Работает на большинстве неанглийских страниц благодаря визуальной обработке. ¤ Нормализация даты: метки даты нормализованы и представлены в стандартном формате RFC 1123 (HTTP / 1.1). ¤ Многостраничные статьи автоматически объединяются в один ответ API. Extraction Извлечение сущностей: автоматическая пометка идентифицирует основные темы и сущности в тексте статьи. ¤ Исправьте любые проблемы в реальном времени с помощью API Toolkit. API Массовое API позволяет извлекать от сотен до сотен тысяч страниц. ¤ Доступ к данным Crawlbot и Bulk Job в полных форматах JSON или CSV. ¤ При желании сканировать, используя разнообразный массив IP-адресов.