Разработка cache-сервера для сохранения аккаунтов в задачах веб-парсинга

Всем привет! Одной из самых больших проблем при решении задач веб-парсинга данных является риск блокировки аккаунта. В общем случае эта проблема возникает только по одной причине – это большое количество запросов к веб-порталу за единицу времени. Существует несколько путей решения этой проблемы с...

Все блоги / Про интернет

Бот-трафик и парсинг цен – взгляд со стороны владельца e-commerce и методы защиты от парсинга

В данной статье я хочу рассказать про то, как технически устроены бот-атаки типа парсинг цен на e-commerce сайтах, какие механизмы используют атакующие, как противостоять бот-атакам самостоятельно и с помощью прикладных решений. Я поделюсь практическим опытом нашей компании в защите e-commerce...

Все блоги / Про интернет

Вечная борьба с парсерами, которую мы, кажется, выиграли

Каждый более или менее крупный сайт хоть раз, но пытались атаковать. Такое было и с нашим сервисом Rusprofile, люди пытались спарсить финансовые и юридические данные о компаниях, которые мы агрегируем у себя последние 5 лет. Поэтому наша команда написала неплохую систему защиты с несколькими...

Все блоги / Про интернет

Osint-San — инструмент, с которым можно стать кибердетективом

Привет Хабр! С вами Горшков Максим, специалист по информационной безопасности Cloud4Y. Мне выпала честь первому протестировать новый инструмент киберразведки: OSINT-SAN. Разрабатывал его мой коллега по ИБ Максим Пономарёв (Bafomet). Что это и зачем...

Все блоги / Про интернет

[Перевод] Google's Certificate Transparency как источник данных для предотвращения атак

Мы подготовили перевод статьи Райана Сирса об обработке логов Google’s Certificate Transparency, состоящей из двух частей. В первой части дается общее представление о структуре логов и приводится пример кода на Python для парсинга записей из этих логов. Вторая часть посвящена получению всех...

Все блоги / Про интернет