Алексей Дурнев. - Противодействие парсингу, или Как защитить свои данные от копирования

Вы наверняка слышали выражение, что в интернете ничего не пропадает. Звучит почти как рукописи не горят. Однако смысл имеет самый прямой. Любая поисковая система работает за счет того, что находит, обрабатывает и хранит все данные, которые в интернете появились. С одной стороны, это хорошо, потому что мы имеем к этим данным доступ. С другой стороны, это проблема, потому что созданный нами интернет-ресурс – тоже ни что иное, как данные. А значит, их нетрудно сканировать и скачать оттуда всю информацию. Использовать ее потом как угодно. Делается это при помощи программ парсинга. Риск того, что ваш сайт подвергнется этому процессу, есть всегда. Как к этому относиться и что с этим делать? Давайте посмотрим.

Как работает парсинг

Для пользователя интернет-магазин (как и любой сайт) – это совокупность картинок, текстов, видео – то есть всего того, что предназначено для человеческих органов восприятия. Для компьютера сайт – это совокупность данных, предназначенных для обработки и преобразования в определенный формат. Чтобы извлеченные данные перевести на языки программирования (PHP, Perl, Ruby, Python и т.д.), работают разные программы (скрипты). Они наделяют каждую страницу сайта своей структурой. В зависимости от этой структуры страница может получить формат. Такой как .html, .xml, .sql, .txt и прочие.

Сначала скрипты выполняют свою работу на локальном компьютере – непосредственно во время наполнения сайта контентом. Когда сайт появляется в интернете, это делают боты поисковых систем. Они проводят анализ, разбор и преобразование содержимого сайта, чтобы пользователь интернета увидел в поисковой выдаче ссылку на интересующий его запрос. Этот процесс и называется парсинг.

Пока содержимое сайта в необходимом для последующей обработки виде доступно только поисковым системам, все прекрасно. Программа-парсер позволяет вычленить со страницы именно ту информацию, которая нужна пользователю. Собственно, благодаря этому на сайт переходят посетители из поиска. Но спарсить содержимое сайта можно и в других интересах. В частности, чтобы заполучить и использовать контент.

Парсинг контента для использования на другом сайте – это реальность, с которой приходится иметь дело любому владельцу интернет-магазина. Ведь специфика такого сайта – сотни и тысячи однотипных описаний товаров, технических характеристик и другого контента. В отличие от других видов сайтов, контент, например, интернет-магазина формализован и унифицирован. А значит, легко поддается воспроизведению. Пользователю ведь все равно, какой сайт является первоисточником – он делает запрос товара и переходит по любой ссылке, которую предлагает выдача либо реклама.

Можно как угодно порицать использование чужого контента, однако мы живем в мире, где понятие интеллектуальной собственности сильно изменилось. К тому же технические описания и характеристики товара – это контент, который глупо переписывать другими словами. А значит, он не является ничьей собственностью. Но создание полной копии чужого магазина – это уже воровство. Равно как и частичное использование того контента, на который у вас есть права. Кстати, есть и другой термин, граббинг (от англ. grab, т.е. использовать, перехватывать) – сбор информации по определенным параметрам.

Как парсинг мешает работать вам

Есть несколько видов проблем, которые создает парсинг (граббинг) контента: технические, коммерческие, психологические.

Техническая проблема заключается в том, что боты и сканнеры – это бесполезный трафик, который увеличивает нагрузку на сервер. Порой статистика показывает на сайте всплеск посещаемости и «космическую» глубину просмотра, но вряд ли это повод для радости. Скорей всего, это работает скрипт, его сканнеры и боты. Если у вас хостинг с ограничениями, то превышение нагрузки – это и проблема, и реальный повод начать следствие: кто вас парсит.

Коммерческая проблема очевидна: если парсер запускает ваш конкурент, собирает базу товаров с вашего интернет-магазина и начинает продавать те же товары по меньшей цене, то вы теряете покупателей.

Психологически проблему можно описать одним восклицанием: Ну как так-то!. Собственно, любой вид воровства нам именно эту эмоцию и приносит. Особенно когда мы не знаем, удастся ли наказать виновника.

Поиск вредителей

Для начала посмотрим на вещи реалистично. Пока не существует способа блокировать и наказывать за парсинг и граббинг со стопроцентной эффективностью. Поэтому создавать рядовой магазин с рядовым контентом – это всегда риск. Если же ваш магазин популярен, то паразитный трафик должен послужить для вас поводом развивать бизнес в том направлении, которое легче защитить. Здесь большую роль играет человеческий фактор: он позволяет создать интеллектуальный продукт, который хоть и можно скопировать, но его авторство легко доказать, а воров – как минимум отвадить.

И все же, что делать, если вы решили бороться с парсингом? Есть несколько видов мер: технические, юридические, психологические.

Технические меры

На специализированных форумах развернуты ветки обсуждений, как же бороться с парсерами техническими способами. Хорошая новость – решения есть, плохая – они могут в перспективе принести больше вреда, чем пользы.

Итак, самый простой и работающий метод – это вычислять, с какого IP вас парсят и закрывать для него доступ. Для этого нужна таблица логов, куда записываются данные пользователя и время обращения к странице. Один из способов идентификации – время между запросами. Если обращается слишком часто (то есть отклонение от среднего значения дельты у 80% запросов меньше 10 секунд), значит парсер. Другой способ идентификации – проверка на скачивание контента, к примеру, изображений или стилей CSS. Полезные боты вряд ли их будут скачивать.

Следующий шаг – определить, полезный или бесполезный бот посещает ваш ресурс. Это сложно, так как многие боты маскируются под вполне себе нормальные поисковые боты либо под браузеры. Таких ботов можно выявить только по совокупности факторов, и это требует разработки специфического самописного ПО.

Тут проблема в том, что без учета разных факторов можно заблокировать бота поисковика или еще какого-то безвредного бота – не все они правильно представляются по user-agent. Да и частоту обращений вредители сейчас научились снижать для маскировки.

Блокировка IP вообще резонна только в самых очевидных злостных случаях, потому что IP может быть динамически выделенным. Однако добавить ограничение на частоту обращений и заданное количество вхождений будет нелишней мерой. И все это, напоминаем, относится только к одному методу.

Другой метод – использовать различные сервисы, которые защищают от DDOS-атак. Эти сервисы пытаются определить степень загрузки вашего сайта. При высокой частоте подключений в секунду работа парсера рассматривается как аналогичная DDOS-атаке. На мониторе возникает задержка и предупреждающая надпись. При использовании такого подхода мы предполагаем, что парсер создает нагрузку в несколько потоков и не делает пауз между закачкой страниц. В ряде случаев это может помочь, но только против самых простых парсинговых ботов.

Третий метод – активное использование различных JavaScript на странице. Эти скрипты могут существенно затруднить работу парсера, так как многие парсеры не в состоянии их интерпретировать. Однако недостаток этого метода в том, что хорошим ботам это тоже осложняет работу. Неаккуратное использование подобных скриптов может запросто привести к тому, что ваш сайт выпадет из поисковой выдачи или просядет в ней.

Четвертый метод – нелюбимая всеми капча. Метод можно было бы считать действенным, если бы не два отрицательных момента:

Капча раздражает вашего пользователя и мешает ему, чем снижает его лояльность по отношению к вашему ресурсу;
существуют сервисы по распознаванию капчи, они постоянно совершенствуются.

Более полезно использовать ReCAPTCHA, так как она пытается определить, человек ли путешествует по сайту или нет. Более изощренные подходы требуют больше усилий: сначала нужно каким-то образом определить, что сайт посещает парсер, потом его идентифицировать и далее либо «разрешить» работу, либо ее «запретить». В целом использование технических мер похоже на борьбу человека с литературным или мифологическим персонажем: Лернейской гидрой, например, или ветряными мельницами. Пытаться можно, но вероятность навредить себе выше. И наконец, метод, который хоть частично, но помогает без ущерба и регулярных усилий. Если мы не можем защититься от ботов, то хотя бы можем затруднить использование собственного контента. Основную его ценность могут составлять фото товаров. Используйте на изображениях водяные знаки, которые трудно удалить. Ведь автоматическим способом это сделать сложно, а восстановление исходного изображения сильно усложняет использование его на чужом ресурсе.

Организационные меры

Важная организационная мера – обеспечить быстрое индексирование новых страниц сайта, пока их не успели спарсить. Сделайте в поиске запрос «авторство в Google и Yandex» и используйте все методы оповещения поисковых ботов о новых страницах. Естественно, метод сработает, только если ваш контент оригинален. Мониторинг интернета на предмет заимствования ваших материалов (ручные запросы в поиске, системы антиплагиата) может открыть вам глаза на тот факт, что ваш контент скопировали. В случае если вами установлен факт заимствования, вы можете пробовать договориться с владельцем другого ресурса. В зависимости от успеха переговоров можно дойти и до юридических претензий.

Резюмируем

Любое препятствие для парсинга можно обойти, это лишь вопрос нужности вашей информации.
Стоимость получения ваших данных другой стороной зависит от трудности их получения, то есть от цены, в которую вам обойдется защита от парсинга. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента, который у вас есть.
Стоимость вашей защиты может включать не только цену настройки системы противодействию парсинга, а дополнительно еще и риски ее некорректной работы. Большинство инвестиций в SEO могут вовсе не окупиться, если система защиты будет блокировать поисковых ботов. Это наихудший сценарий развития ситуации. Пользователи тоже не будут в восторге от замедления работы, случайных блокировок и необходимости ввода капчи.
Проблемы с поисковыми системами могут оказаться дороже, чем попытка защитить свои данные. Может, имеет смысл подумать, как зарабатывать на своем ресурсе больше, а к потерям от парсинга относиться как к реалиям нашего времени, например, сетевому пиратству?

В недалеком будущем может быть наступит эра семантического веба, который так давно активно обсуждается. В этой новом будущем парсеры станут совсем другими, и это создаст совершенно другие проблемы. А пока что мы еще находимся в преддверии семантического веба, не имеет смысла в большинстве случаев создавать себе дополнительные трудности.