Веб-разборка - законная или незаконная?

Опубликовано: 25 Июня, 2021

Если вы так или иначе связаны с термином «Веб-скрапинг» , тогда вы должны столкнуться с вопросом: законно или незаконно веб-скрапинг? Хорошо, давай обсудим это. Если вы присмотритесь, то обнаружите, что в сегодняшнюю эпоху самым большим активом любого бизнеса являются данные ! Даже такие крупнейшие гиганты, как Facebook , Amazon , Uber , правят из-за огромного количества данных, которые они хранят. А что, если кто-то извлечет все эти данные с сайта владельца в течение нескольких минут? Да, именно здесь на помощь приходит веб-парсинг.

Веб-парсинг - это процесс автоматического извлечения данных и определенной информации с веб-сайтов с помощью программного обеспечения или сценария. Извлеченная информация может храниться в различных форматах, таких как SQL, Excel и HTML. Существует ряд инструментов для парсинга веб-страниц для выполнения этой задачи, а также различные языки, в которых есть библиотеки, поддерживающие парсинг веб-страниц. Среди всех этих языков Python считается одним из лучших для веб-парсинга из-за таких функций, как - богатая библиотека, простота в использовании, динамически типизированная и т. Д. Beautiful Soup и Scrapy - это такие библиотеки Python, которые поддерживают веб-парсинг.

Теперь вы, должно быть, думаете, почему кто-то пытается извлечь такие огромные данные с веб-сайтов или каковы преимущества использования веб-скрапинга. Как мы указали выше, насколько ценны данные для бизнеса, поэтому, если вы получите доступ к этим данным через веб-скрейпинг, их можно использовать для различных целей, таких как -

  • Конкурентный анализ
  • Ведущее поколение
  • Контактная информация Доступность
  • Мониторинг бренда
  • Парсинг социальных сетей
  • Исследования и разработки
  • Получение финансовой отчетности и т. Д.

Хорошо, так что вернемся к тому, с чего мы начали - законно ли веб-парсинг? Однако выполнение веб-скрейпинга технически не является незаконным процессом, но решение основывается на других различных факторах - как вы используете извлеченные данные? или Вы нарушаете "Положения и условия"? и т. д. Давайте рассмотрим пример,

Предположим, вы разрешаете кому-то входить в вашу резиденцию через Главные ворота в целом, но этот человек предпочитает проходить через пограничную стену. Итак, вы позволите человеку войти в ваше жилище? Точно так же данные, отображаемые на большинстве веб-сайтов, обычно доступны для общественности, поскольку хранение этих данных в вашей системе для личного использования является законным. Но в случае, если вы собираетесь использовать его как свой собственный без согласия владельца и в нарушение «Положений и условий», здесь он будет рассматриваться как незаконный. Тем не менее, закон о парсинге веб-страниц не является прозрачным, но все же существуют некоторые правила, в соответствии с которыми вы можете попасть за несанкционированный сбор данных. Некоторые из них перечислены ниже:

  • Нарушение Закона об авторском праве в цифровую эпоху (DMCA)
  • Нарушение Закона о компьютерном мошенничестве и злоупотреблении (CFAA)
  • Нарушение контракта
  • Нарушение авторского права
  • Незаконное проникновение и т. Д.

LinkedIn против HiQ

Можно сказать, что «LinkedIn vs HiQ» - это один из крупнейших юридических споров по поводу сбора данных. HiQ - это компания по анализу данных, которая вступила в юридический спор с LinkedIn, когда последняя отправила HiQ официальное письмо с требованием прекратить очистку сайта. Но LinkedIn получил контратаку со стороны HiQ, поскольку они заявили, что данные LinkedIn доступны для всех, кто его посещает, и нет ничего ложного в очистке общедоступных данных. Однако окончательное решение не было достойным похвалы LinkedIn, поскольку суд запретил компании блокировать запросы HiQ на очистку данных из общедоступных профилей на платформе. В этом деле есть нечто иное, поскольку в отличие от более ранних судебных споров по веб-парсингу, здесь суд не поддержал компанию, чьи данные были уничтожены.

Facebook против Power Ventures

«Facebook против Power Ventures» - это также хорошо известный юридический спор, связанный со сбором данных. Facebook подал в суд, утверждая, что Power Ventures Inc. собрала пользовательские данные из Facebook и использует их на своем веб-сайте. Facebook утверждал, что компания нарушила Закон о компьютерном мошенничестве и злоупотреблениях (CFAA) и Закон Калифорнии о всеобъемлющем доступе к компьютерным данным и мошенничестве. Согласно Facebook, Power Ventures также нарушила закон CAN-SPAM, использовав личность Facebook при извлечении пользовательских данных. В защите Power Ventures заявила, что претензия Facebook в отношении Закона США "Об авторском праве в цифровую эпоху" недостаточна для рассмотрения. Они также сказали, что несанкционированный доступ не был встречен, потому что пользователи фактически получают доступ к своим собственным данным на Facebook через платформу Power Ventures. Хотя, несмотря на все эти аргументы, решение суда было в пользу Facebook.

Хорошо, после того, как мы перейдем к сути, является ли выполнение веб-скрейпинга законным или незаконным, зависит от того, как вы выполняете парсинг и как вы используете данные. Теперь взгляните на те стратегии, которым вы должны следовать при выполнении парсинга веб-страниц -

  • В случае предоставленного API старайтесь избегать веб-скрейпинга.
  • Между запросами соблюдайте интервал около 12-15 секунд.
  • Не используйте очищенные данные в коммерческих целях без согласия первоначального владельца.
  • Всегда просматривайте Условия использования и следуйте политикам.
  • Если кто-то наложил некоторые ограничения на доступ к своим данным, будет хорошо попросить у них разрешения, прежде чем идти дальше.

Из всего вышеизложенного можно сделать вывод, что веб-парсинг сам по себе не является незаконным, но при этом следует соблюдать этические нормы. Если все сделано правильно, Web Scraping может помочь нам максимально эффективно использовать Интернет, крупнейшим примером чего является поисковая система Google. Таким образом, не давайте владельцу целевого сайта никаких оснований для того, чтобы заблокировать вас или даже подать в суд за какие-либо нарушения, а также соблюдайте Условия обслуживания (ToS) других сайтов.

Внимание компьютерщик! Укрепите свои основы с помощью базового курса программирования Python и изучите основы.

Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS. А чтобы начать свое путешествие по машинному обучению, присоединяйтесь к курсу Машинное обучение - базовый уровень.