КиберпанкДеталиИнтернет

VK ограничила доступ робота от OpenAI к данным «Дзена»

Представитель компании объяснил решение необходимостью «грамотного использования технического ресурса» во избежание дополнительной нагрузки. Разобрались, для чего использовался GPTBot и кто еще запрещает использование своих данных нейросетям.

Что произошло 

Контентная платформа «Дзен», принадлежащая VK, запретила роботу GPTBot от OpenAI собирать информацию со страницы dzen.ru для сбора данных. Соответствующая директива была найдена в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов. Мера была принята для уменьшения нагрузки на серверы «Дзена», пояснили в пресс-службе компании. 

Наша рекомендательная система — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тыс. запросов в секунду. Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В Дзене регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам.

Пресс-служба «Дзена»

Рекомендация не включать GPTBot от OpenAI в файл принята для правильного использования технического ресурса и обеспечения интересов наших пользователей.

Пресс-служба VK
Фото: Freepik

Робот GPT, который используется для сбора информации, применяется в создании нейросетевых продуктов OpenAI. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из РФ. Подобные роботы-«обходчики» используются и другими компаниями, такими как «Яндекс» и Google, которые поддерживают актуальные данные о сайтах. В декабре 2023 года Главный радиочастотный центр, подведомственный Роскомнадзору, рекомендовал хостинг-провайдерам заблокировать обращения GPT. Однако в случае с «Дзеном» файл robots.txt носит рекомендательный характер и не сможет запретить роботам игнорировать прописанные в нем директивы.

Парсеры OpenAI ничем не отличаются от тысяч других коммерческих парсерсов; контент большой платформы — это актив, который она, конечно, хотела бы продавать, а не отдавать бесплатно, поэтому закрытие доступа для роботов — это норма в современном мире. Со стороны VK это логичный шаг. Крупные платформы вроде Reddit и X уже договорились с OpenAI о специальных условиях парсинга, VK при желании тоже может это сделать, но на фоне конкуренции российских нейросетей с ChatGPT вряд ли на это пойдет.

Александр Березкинзаместитель главного редактора «Московских новостей»

Кто еще запрещает использование своих данных нейросетям

  • Fox Corp., один из крупнейших медиаиздателей в США, публично представила новую блокчейн-платформу Verify, которая поможет медиакомпаниям отслеживать, как их контент используется онлайн. Компания планирует использовать протокол Verify для заключения сделок по лицензированию своего контента с компаниями, занимающимися искусственным интеллектом.
  • Ранее The New York Times подала в суд на OpenAI и Microsoft за нарушение авторских прав. В иске утверждается, что миллионы статей The Times были использованы для обучения автоматизированных чат-ботов, которые теперь конкурируют с новостным изданием в качестве источника достоверной информации. В жалобе The Times также показала, как ChatGPT обходит свой платный доступ по запросу.

В то же время издательская компания Axel Springer заключила многолетнее соглашение с родительской компанией ChatGPT OpenAI о лицензировании своего контента для предоставления пользователям ChatGPT новостного контента. А Брэду Лайткэпу, исполнительному директору OpenAI, было поручено изучить новые бизнес-модели для компании, среди которых заключение сделок с издателями. 

Копировать ссылкуСкопировано