Основа любого машинного обучения — данные. Самый простой способ их получить — собрать (спарсить) из открытых источников в Интернете. Но скрапинг данных для обучения законно ли это? Ответ неоднозначен и зависит от того, что вы собираете, откуда и для чего. Грань между «сбором общедоступной информации» и «нарушением интеллектуальных прав» или «незаконной обработкой персональных данных» крайне тонка.

«Миф о том, что «все, что в интернете — общее», разрушен судебной практикой последних лет. Суды (дело ВКонтакте против Дабл, иски к OpenAI) сформировали позицию: автоматизированный сбор данных может нарушать права владельца сайта (смежные права на БД), права авторов контента и права пользователей на приватность».

Ви Эф Эс Консалтинг помогает IT-компаниям оценить риски парсинга и выстроить легальную стратегию сбора датасетов (Data Mining).

Три юридических барьера скрапинга

1. Персональные данные (152-ФЗ)

Даже если человек сам выложил фото или телефон в соцсеть, это не дает вам права использовать их для обучения коммерческого ИИ.
Ст. 10.1 152-ФЗ: Требует отдельного согласия на обработку данных, разрешенных для распространения. Исключение — если вы докажете общественный интерес (наука, журналистика), что сложно для бизнеса.

2. Авторское право и Смежные права (ГК РФ)

  • Контент: Тексты статей, фото, код — объекты авторского права. Копирование их в датасет — это воспроизведение (ст. 1270 ГК РФ), требующее лицензии.
  • База данных: Сайт (например, Avito или HeadHunter) является базой данных. Извлечение существенной части материалов без разрешения — нарушение прав изготовителя БД (ст. 1334 ГК РФ).
VFS Consulting Юридические решения нового поколения
Скрапинг данных для обучения ИИ: Законно ли это в РФ?
+7 (495) 266-06-93
  • Юридическая помощь в решении проблемных ситуаций
  • Консультации юриста онлайн проводятся Пн-Пт, с 10:00 до 18:00 часов

    3. Пользовательское соглашение и Оферта

    Почти все сайты в `Terms of Use` и `robots.txt` запрещают автоматический сбор данных. Игнорирование этого запрета может квалифицироваться как неправомерный доступ к компьютерной информации (ст. 272 УК РФ) или нарушение договора.

    Как легализовать парсинг?

    Мы разрабатываем стратегии «этичного скрапинга»:

    1. Аудит источников: Проверка лицензий (Creative Commons, Public Domain).
    2. Технический протокол: Соблюдение задержек (Rate limiting), чтобы не «положить» сайт-донор.
    3. Обезличивание: Удаление ПДн на этапе сбора.
    4. Договоры: Покупка доступа к API у владельцев данных (Data Partnership).

    Не стройте бизнес на «сером» фундаменте. Обеспечьте чистоту своих данных.

    Получить консультацию

    Кейсы из практики

    ai

    Защита агрегатора данных от иска за скрапинг сайта объявлений

    Наш клиент разрабатывал аналитическую нейросеть для рынка недвижимости, собирая данные с открытых досок объявлений. Крупный классифайд подал иск о нарушении смежных прав на базу данных (ст. 1334 ГК РФ) и «паразитическом конкурентном поведении». Мы выстроили защиту на том, что сбор осуществлялся в объемах, не наносящих ущерба нормальной эксплуатации базы, а данные использовались для аналитики, а не для создания конкурирующего классифайда.

    Результат

    Иск удовлетворен частично. Проект сохранен с изменением модели сбора.

    ai

    Легализация датасета, собранного парсингом соцсетей

    Маркетинговое агентство обучало модель на комментариях пользователей в соцсетях. Риск заключался в нарушении ст. 10.1 152-ФЗ (данные, разрешенные субъектом для распространения). Мы помогли компании обосновать законный интерес и внедрили процедуру жесткого обезличивания «на лету» (до записи на диск), что вывело процесс из-под действия требований о получении согласий.

    Результат

    Датасет признан легальным. Претензий РКН нет.

    Часто задаваемые вопросы

    Ответы на вопросы о Web Scraping.

    Является ли нарушением скрапинг открытых данных?
    «Открытость» не означает «свободное использование». Если данные содержат объекты авторского права или персональные данные, их сбор без разрешения незаконен, даже если они не под паролем.
    Можно ли обойти защиту от ботов (Captcha) для сбора данных?
    Нет, обход технических средств защиты может квалифицироваться как неправомерный доступ к компьютерной информации (ст. 272 УК РФ), особенно если это повлекло сбой в работе сайта.
    Как защитить свой сайт от скрапинга конкурентами?
    Юридически: прописать запрет в оферте и robots.txt. Технически: внедрить системы anti-bot, динамическую выдачу контента и «ловушки» для парсеров.

    Консультация юриста

    Заполните форму, и наш эксперт свяжется с вами для бесплатной консультации





      Нажимая кнопку, вы соглашаетесь с политикой конфиденциальности