Основа любого машинного обучения — данные. Самый простой способ их получить — собрать (спарсить) из открытых источников в Интернете. Но скрапинг данных для обучения законно ли это? Ответ неоднозначен и зависит от того, что вы собираете, откуда и для чего. Грань между «сбором общедоступной информации» и «нарушением интеллектуальных прав» или «незаконной обработкой персональных данных» крайне тонка.
«Миф о том, что «все, что в интернете — общее», разрушен судебной практикой последних лет. Суды (дело ВКонтакте против Дабл, иски к OpenAI) сформировали позицию: автоматизированный сбор данных может нарушать права владельца сайта (смежные права на БД), права авторов контента и права пользователей на приватность».
Ви Эф Эс Консалтинг помогает IT-компаниям оценить риски парсинга и выстроить легальную стратегию сбора датасетов (Data Mining).
Три юридических барьера скрапинга
1. Персональные данные (152-ФЗ)
Даже если человек сам выложил фото или телефон в соцсеть, это не дает вам права использовать их для обучения коммерческого ИИ.
Ст. 10.1 152-ФЗ: Требует отдельного согласия на обработку данных, разрешенных для распространения. Исключение — если вы докажете общественный интерес (наука, журналистика), что сложно для бизнеса.
2. Авторское право и Смежные права (ГК РФ)
- Контент: Тексты статей, фото, код — объекты авторского права. Копирование их в датасет — это воспроизведение (ст. 1270 ГК РФ), требующее лицензии.
- База данных: Сайт (например, Avito или HeadHunter) является базой данных. Извлечение существенной части материалов без разрешения — нарушение прав изготовителя БД (ст. 1334 ГК РФ).

- Юридическая помощь в решении проблемных ситуаций
- Консультации юриста онлайн проводятся Пн-Пт, с 10:00 до 18:00 часов
3. Пользовательское соглашение и Оферта
Почти все сайты в `Terms of Use` и `robots.txt` запрещают автоматический сбор данных. Игнорирование этого запрета может квалифицироваться как неправомерный доступ к компьютерной информации (ст. 272 УК РФ) или нарушение договора.
Как легализовать парсинг?
Мы разрабатываем стратегии «этичного скрапинга»:
- Аудит источников: Проверка лицензий (Creative Commons, Public Domain).
- Технический протокол: Соблюдение задержек (Rate limiting), чтобы не «положить» сайт-донор.
- Обезличивание: Удаление ПДн на этапе сбора.
- Договоры: Покупка доступа к API у владельцев данных (Data Partnership).
Не стройте бизнес на «сером» фундаменте. Обеспечьте чистоту своих данных.
